换一换

咨信网 > 资源分类 > PDF文档下载

预览

自信AI助手

自信AI导航

一种基于众源地名数据构建全...中外文地名数据资源建设方法_关茜.pdf

资源ID：467582 资源大小：1.40MB 全文页数：6页
资源格式： PDF 下载积分：10金币

微信登录下载

验证码下载

账号登录下载

三方登录下载：

微信扫一扫登录

下载资源需要10金币

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

VIP下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

声明 | 会员权益获赠5币写作

1、填表： 下载求助索取发票退款申请

2、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。

3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。

4、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。

5、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。

6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。

7、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

一种基于众源地名数据构建全...中外文地名数据资源建设方法_关茜.pdf

1、年第期关茜，等：一种基于众源地名数据构建全球中外文地名数据资源建设方法引文格式：关茜，龙云涛，司连法，等：一种基于众源地名数据构建全球中外文地名数据资源建设方法测绘通报，（）：一种基于众源地名数据构建全球中外文地名数据资源建设方法关茜，龙云涛，司连法，王梅红，张迪，贺风，侯笑宇（中国地图出版社有限公司，北京）摘要：面向全球地理信息资源建设，本文以众源地名数据为基础，研究了基于众源地名数据建设全球中外文地名信息的生产工艺和流程，并对数据分析、数据预处理、分类分级、融合匹配、密度控制、错误修正、多语言地名翻译和质量检查等关键环节和技术进行了研究和探讨。初步建立了全球地名数据资源快

2、速、规模化生产工艺，介绍了依托该工艺生产建设的全球地名数据成果和应用情况，为全球地名数据资源的标准化建设提供借鉴和参考。关键词：众源数据；地名；融合匹配；地名翻译；自动翻译中图分类号：文献标识码：文章编号：（），（，）：，：；全球地理信息资源建设是一项复杂的大工程，其中地名信息与经济活动、社会管理、科学研究、国防建设和群众生活有着密切联系。目前，世界上大多数发达国家建立了自己的地名信息系统，已有多个大型地名数据库投入使用，美国、俄罗斯、英国、法国、德国等国家专门组织力量搜集、研究、整理国内外地名资料，更新、扩充地名数据库。我国地名信息建设近几年发展快速，民政部组织建设了全国地名数据库，但是缺

3、少一个覆盖全球、可靠且具有统一技术标准的全球地名数据库。全球地名数据资源涉及范围广、国家多、语种多，不同国家和地区经济发展水平悬殊，信息资源差距明显，互联网发展不均衡，基于此，本文提出以众源地理数据为基础建设全球地理信息资源的工作流程，为全球地名数据资源的标准化建设提供借鉴和参考。众源地理数据（，）的概念与自愿者地理信息（，）、新地理（或）概念相近。众源地理数据中的“众源”强调的是数据获取过程中由大量非测绘专业或没有专业计算机知识的人利用网络技术传输和存储地理数据的一种方式。众源地名数据具有现势性强、信息丰富、成本低、数据量大的优点，使全球海量地名资源的实时获取成为可能，但

4、也存在着无序性、非规范性的缺点，数据可能存在偏差、重复、错误。本文以目前使用范围较广的众源地名数据和（）为例，通过对众源地名数据的处理流程和关键技术研究，探讨一种基于众源地名数据的全球中外文地名数据资源标准化、规模化生产工艺。收稿日期：基金项目：全球地理信息资源建设与维护更新（）作者简介：关茜（），女，硕士，工程师，主要从事研究工作。：通信作者：龙云涛。：测绘通报年第期构建流程利用众源地名数据和相关资料，在比对分析的基础上确定数据质量和使用方案，通过数据预处理实现多源数据的标准化，经分类分级、融合匹配、密度控制、错误修正、地名翻译、质量检查等操作后形成地名数据成果（如图所

5、示）。图成果构建流程生产方法.资料收集与分析地名生产资料涵盖众源地理数据和参考资料两类。众源地理数据包含完整准确的位置、属性和地名分类，对于更新较快的数据使用最新版本。参考资料包括用于地名补充采集或编辑整理的资料，如国内外各机构发布或出版的交通、旅游、文化、行政区划、外文转译等多种类型地图集、数据集、专业参考资料、标准规范等。比对分析是指通过比较数据对象之间的差异，找到数据对象优缺点，经比对分析明确数据源是否存在整体性质量问题，构成文件是否完整无遗漏，数据源的内容、坐标系、精度、现势性和覆盖范围是否满足生产要求及各数据源的使用方法。目前，使用范围较广的地名数据源包括和数据等。作为全球地

6、名数据库，是一种开放共享的数据资源，数据来源于邮政服务、统计局、国家测绘机构、军队、当地大学等。数据是典型的数据，所有用户都能参与创建和编辑。通过对与数据特征比对（见表）发现：在地名构成要素方面，两者均满足生产要求；在地名数量上，整体少于；在内容上，街道规模地名占比较高；在地名重复方面，两者之间行政区划、居民点地名重复度较高；在空间分布方面，相较均衡，但也存在条带状、网格状等空间分布不均现象，具有显著的沿街道线状分布特征（如图所示）。表与数据特征比对特征项存储格式、数学基础位置精度小数点后位小数点后位外文拼写拉丁语本地语、拉丁语字符编码属性项个地名大类个地名小类个数据量

7、万余条整体密度（条（）.从宏观角度上看，数据质量优于。在制定数据使用方案时，需结合任务区情况进行分析：社会经济发达、地名众多的国家或地区，采用作为主数据源，作为补充参考以提高地名精度；欠发达、地名数据稀缺的国家或地区，同时采用和作为主数据源。图数据可视化分析.数据预处理对多来源的地名数据进行转换，包括编码转换、坐标转换、格式转换和数据结构转换等。将获取的资料数据转换为统一的编码方式，数据格式转换为通用矢量数据处理软件能够辨识的格式，数据的原坐标系统转换为国家大地坐标系或项目需要的其他坐标系。初始矢量数据整理转换成项目技术文件要求的数据结构，制定从原始数据结构到项目技术文件数据结构的转

8、换对照方案。结构规整后的数据仍可能存在属性错误、内容无效等情况，依据其他参考资料完成地名属性检查和鉴别，剔除无效、错误属性内容，最大限度保留资料源中的有效属性信息，确保数据一致性和可靠性。年第期关茜，等：一种基于众源地名数据构建全球中外文地名数据资源建设方法.编辑整理.分类分级地名分类研究法是指复杂地名群体按照一定分类原则和标准，将性质或特征相同的一类地名与其他类地名进行区分研究的方法。众源地名数据分类体系多样，需制定从原始数据分类到项目技术文件的分类体系对照方案，包括建立分类代码对照表等。众源地名数据存在分类体系粗糙、分类不准确的问题，如在中，“学校”不区分中小学、“港口”地名归类

9、为“海湾海峡”。分类映射法无法解决众源数据因归类错误情况和分类体系粗糙情况导致的映射后分类不准确问题。针对上述情况，提出兼顾通名的分类分级方法，具体流程如图所示。图地名分类分级流程地名包括专名和通名，其中通名指代实体的类别，根据通名可以明确实体所属的范围。首先根据地名原始分类遵循大类优先、性质最近原则进行分类体系对照；然后基于先验知识在一定类别范围中根据通名二次分类，达到分类细化和分类纠正的目的，通过这种方法可以有效提高地名分类的准确性。.融合匹配当地名三要素（名称、类型和位置）完全一致或十分近似时，可认为代表同一地理要素。地名匹配即通过分析地名三要素识别出多源数据中的同一地物。其中地名名

10、称的匹配判断是关键。对地名名称进行匹配的常用方法是利用字符编辑距离算法计算字符相似度。众源地名数据缺乏规范性和统一性，地名名称区别于一般单词在成分构成、发音规则上具有显著特征。基于上述先验知识，对地名数据进行合理的预处理，可以消除众源数据中表示同一地名时由于采用的表征符号不统一、误操作等因素对相似度误判的不利影响。预处理操作包括地名专名提取、特殊字母去符号化（转换为等）、统一字母大小写、消除无意义干扰字符（“”“”等）。试验表明，通过预处理后计算的结果比直接利用编辑距离算法得到的结果更合理，更有利于一致性匹配判断（见表）。表基于先验知识的字符相似度算法结果（）地名字符地名字符预处理前

11、预处理后.字符编辑距离方法的缺点是只能对地名表征字符判断，对于分别采用了别称、本地语、不同罗马转写形式的地名判断时不适用。数据包含别名字段，采集了别称、本地语、不同的罗马化转写等内容，为有效地解决同语义不同拼写地名的识别提供了可行途径，因此提出了采用兼顾别名字符相似度匹配算法来提高名称相似度判断准确度的思路（如图所示），取最高值（）作为字符匹配算法结果。在几何匹配上，点实体匹配多采用距离指标衡量相似度，在计算临近距离时，根据地名类别（居民地、政区、河流、山峰、湖泊等）分别设置缓冲区阈值。在类别匹配判断时，使用中类比使用小类有更好的匹配效果，如数据中存在的同一地名分别采集为不同等级的政区地名

12、和普通居民地的情况。地名类别相同，距离邻近度和名称相似度均高于特定阈值时，判定地名匹配。图顾及别名的地名相似度匹配算法经过试验对照，顾及别名的匹配算法较传统算法取得了更好的匹配结果（见表）。判断为同一地名后，使用自动化或人工交互的方式进行融合处理。地名字符构成情况复杂，往往存在算法无法匹配判断的情况，如地名专名中包含特殊的通名无法去除、地名词序混乱等，这些特殊测绘通报年第期情况往往在地名外文翻译成中文后才能发现，因此在地名译名后，应再次进行融合匹配工作。表顾及别名的匹配算法结果样本序号样本量条匹配度（）传统算法顾及别名的匹配算法.密度控制针对地名数据源分布疏密不均的情况，依据

13、不同区域的人口分布密度、绝对人口数、地貌特征、经济发展水平、我国对外贸易投资等多种因素，结合先验知识通过地名抽稀、补充采集等手段控制地名密度，避免突兀地出现地名过于集中或稀缺的情况，经处理后全球整体地名密度应不低于条（）。在对地名抽稀时应依据地名类别设置密度选取权重，并通过生产性试验和抽样验证进行权重优化，各类地名的抽稀指标因子设置受试验区国情、自然条件等因素的影响，如“井”地名在欧洲地区和非洲地区的重要程度上差异显著，因此在密度权重因子的设置上也应区别对待。地名稀缺或遗漏时可参考地图集（册）、国内外各机构发布的数据集、数字正射影像等资料补充缺失的地名，采集方式可基于人工编辑作业，也可基于定

14、制软件进行自动化处理采集。补充地名的几何位置与属性信息的准确性应经过人工或自动化评估确认。地名密度控制也可有效解决地名条状带分布、网格状分布等地名密度分布不均衡问题。.地名翻译对地名的名称拼写进行核实修改，对当地名称和外文名称进行罗马拼写标准化和汉字标准译写。地名翻译应遵循外语地名汉字译写导则，并参考外国地名汉字译写通则译音表等标准，做到译写规范、用字准确。地名译写应遵循“专名音译”“通名意译”“名从主人”“保留惯用”等翻译原则。同一国家地名存在多种转写体系的，需根据实际情况参考权威出版物资料确定转写体系，并保持转写体系的一致性。有争议地区的地名确保符合我国政治立场。完善的译音表体系是构建全球

15、多语言地名翻译机制的基础，但是目前全球的地名翻译体系并不完整。全球地名语言大约有多种，使用人口在万以上的地名语言有多种，现存的外国地名汉字译写有音译表的语种占比不到。本文在项目实施过程中对试验区印地语系、汉文化圈语系（日语韩语）、哈萨克语、尼泊尔语、乌兹别克语等语言的翻译导则和译音表进行了扩充。为进一步实现全球海量地名的快速化、规模化生产，在已有译音表和扩充译音表的基础上，通过对地名翻译规则库和语料库的构建，以及对地名罗马化转写、地名成分分析、地名音节切分、地名音译处理、地名意译处理等关键技术的研究，实现多语种地名自动化翻译（如图所示），并对地名自动化翻译结果进行系统评价。通过地名自动

16、化翻译结果系统评价为分析地名自动翻译的可信度、译后人工干预的审校时间估算提供有效参考。图地名自动化翻译流程.错误修正错误修正包括重复地名修正和地名位置修正。重复地名修正即根据空间位置关系、结合地名分类和名称能够判定为重复地名的应删除。位置修正指利用（、）数据或其他现势资料对地名的几何位置进行检查、修正和核改，确无资料核实的部分可保留原状。位置修正内容包括：选取关键类别地名数据与数据进行协同处理，纠正偏移地名，剔除错误地名；与行政区划数据套合，移除境外不合理地名点；与水系数据套合修正不合理落水点；与铁路数据套合处理孤立火车站等。通过错误纠正将进一步提高地名成果质量。.质量检查对地名的数据源质

17、量、完整一致性、数据精度、地名翻译等进行检查。内容包括：数据整体结构、地名分类组织、属性表结构、地名精度、与参考资料套合差符合要求，位置合理，不存在系统误差；地名属性内容不存在错误；相同语言的地名翻译准则具年第期关茜，等：一种基于众源地名数据构建全球中外文地名数据资源建设方法有一致性，译名应与公开出版物或其他权威资料具有一致性，不存在政治错误；重要地名、国界名等数据内容严格遵守我国的相关法律和外交立场；地名表达符合设计要求，地名空间位置合理，不存在重复地名；新增采集地名与数字正射影像或参考资料合理一致，重要地名无遗漏。成果及技术指标依托上述方法已完成全球万范围个国家（地区）约

18、万条地名数据生产（规格及指标见表），建立了全球地名数据成果库（成果统计见表），成果覆盖“一带一路”“中巴经济走廊”“东盟自贸区”等重点区域。数据产品通过了国家权威质检机构检验，已面向多行业、多部门开展应用，主要包括：依托成果编制了南苏丹地图、文莱地图、达沃斯地图等多幅政府应急保障地图；面向国防政府部门、科研院所提供数据支持，有效支撑了政府决策和重大项目建设推进工作；成果数据应用于多家国际咨询公司、金融机构，有效推进了企业业务发展；成果数据已向人民解放军某部队，吉林、辽宁、广西等沿边省区提供，有效支持了国家军事保障、沿边省区应急减灾等工作。表地名成果规格及技术指标数据源数学基础数据格式内容指标

19、精度指标地名密度套和差、等国家大地坐标系，单位（）包括但不限于国家、首都、政区、居民地、交通水系、陆地地形、独立地物小数点后至少保留位（.）不低于条（）自然地物；交通地物；重要地名表地名成果建设情况区域国家面积（）数量万条亚洲日本、韩国、印度、泰国、越南、老挝、柬埔寨、伊拉克等个国家非洲埃及、苏丹、南苏丹、乍得、中非、肯尼亚等个国家欧洲俄罗斯、挪威、瑞典、芬兰、法国、意大利、英国等个国家北美洲美国大洋洲澳大利亚结语全球地理信息资源建设中地名数据信息建设的关键在于如何对众源数据进行正确的分析、合理的处理，以及对外语地名进行准确、规模化的译写。本文探讨了基于众

20、源数据的地名资源建设规模化、标准化生产工艺和流程，并对数据分析、融合匹配、多语种地名自动翻译等关键环节和技术进行研究，完成了全球中外文地名数据的初步建设。众源数据具有更新速度快、频率高的特点，本文解决了全球地名数据资源建设“有”的问题，但尚未对基于众源数据的地名更新机制进行深入的研究和探索，这将是下一步研究工作的重点内容。参考文献：单杰，秦昆，黄长青，等众源地理数据处理与分析方法探讨武汉大学学报（信息科学版），（）：，（）：，（）：，（）：李小雨，王艳东，吴胜众源地理数据质量评价系统设计与实现地理空间信息，（）：彭雨滕，马林兵，周博，等自发地理信息研究热点分析世界地理研究，（）：周

21、晓光，赵肄江众源地理数据的质量问题与研究进展地理信息世界，（）：宋华标，刘新贵多源地名数据对比分析测绘与空间地理信息，（）：宋华标多源地名数据融合处理技术研究郑州：信息工程大学，：赵文强多源全球地名数据融合与更新方法研究南京：南京师范大学，：李一基于概念格的多源分类体系融合研究兰州：兰州交通大学，：（下转第页）年第期黄小斌，等：一种改进极坐标二次基准实时差分方法在地铁自动化监测中的应用陈龙浩基于测量机器人水利工程沉降变形监测精度分析安徽建筑，（）：葛继空，李卫军基于测量机器人的深基坑自动化监测系统优化研究测绘技术装备，（）：黄善琪，段志钦，吴玖荣，等联

22、合卫星定位和测量机器人的超高层建造过程水平位移监测同济大学学报（自然科学版），（）：张文雅差分改正法在高边坡位移监测中的应用地下水，（）：王建华，胡亚轩，高勤生，等全站仪水平距离的归算及在精密测量中的应用测绘科学，（）：陈优良，卞焕，肖钢，等测量机器人自动极坐标二次基准差分改正方法测绘科学，（）：赵凯隧道工程自动化监测及变形预测研究昆明：昆明理工大学，陈兰兰，夏益强，肖海平，等露天矿边坡稳定性监测方法研究现状及进展测绘通报，（）：蔡干序，李钰城地铁保护区自动化监测精度分析现代测绘，（）：柏文锋基于智能全站仪的地铁隧道自动化监测精度分析及验证测绘通报，（）：贾文超，张

23、齐，莫爵同地铁隧道监测中测量机器人多站联测精度分析及应用测绘与空间地理信息，（）：刘哲强测量机器人在地铁隧道自动化变形监测中的应用西安：西安科技大学，（责任编辑：杨瑞芳）（上接第页）张红辉多源网络地名数据动态整合方法研究长沙：中南大学，：刘善磊，张大骞多源矢量空间数据关联分析及应用测绘与空间地理信息，（）：陈昕境外地名翻译系统研究与应用西安：西安电子科技大学，：秦颖机器生成语言的质量评价方法综述计算机工程与科学，（）：田海波，陈利军，张宏伟，等全球数据产品研制测绘通报，（）：（责任编辑：侯琳）（上接第页）徐秀川，段双全，张伟盾构法地铁隧道施工测量误差控制技术

24、措施和方法城市勘测，（）：中华人民共和国住房和城乡建设部，中华人民共和国国家质量检验检疫监督局盾构法隧道施工及验收规范：北京：中国建筑工业出版社，马全明城市轨道交通工程精密施工测量技术的应用与研究测绘通报，（）：魏云豹，刘恒杰，李富春，等特征点测量数量和残差值对盾构轴线精度影响研究建筑机械，（）：谭忠盛，洪开荣，万姜林，等软硬不均地层盾构姿态控制及管片防裂损技术中国工程科学，（）：秦勇大直径盾构机掘进姿态控制研究市政技术，（）：张胜军，杨志刚，康妍斐三维激光扫描技术在地铁隧道断面测量中的应用测绘与空间地理信息，（）：吴乃龙，熊开明盾构隧道贯通前成型管片姿态偏差测量方法研究城市勘测，（）：何金学垂线偏差对超长隧道横向贯通误差影响的分析与研究测绘地理信息，（）：杜传鹏长大隧道贯通误差分析及程序实现成都：西南交通大学，（责任编辑：胡淼）

注意事项: 本文（一种基于众源地名数据构建全...中外文地名数据资源建设方法_关茜.pdf）为本站上传会员【自信****多点】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4008-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】