一种基于众源地名数据构建全...中外文地名数据资源建设方法_关茜.pdf
《一种基于众源地名数据构建全...中外文地名数据资源建设方法_关茜.pdf》由会员分享,可在线阅读,更多相关《一种基于众源地名数据构建全...中外文地名数据资源建设方法_关茜.pdf(6页珍藏版)》请在咨信网上搜索。
1、 年 第 期 关 茜,等:一种基于众源地名数据构建全球中外文地名数据资源建设方法引文格式:关茜,龙云涛,司连法,等:一种基于众源地名数据构建全球中外文地名数据资源建设方法 测绘通报,():一种基于众源地名数据构建全球中外文地名数据资源建设方法关 茜,龙云涛,司连法,王梅红,张 迪,贺 风,侯笑宇(中国地图出版社有限公司,北京)摘要:面向全球地理信息资源建设,本文以众源地名数据为基础,研究了基于众源地名数据建设全球中外文地名信息的生产工艺和流程,并对数据分析、数据预处理、分类分级、融合匹配、密度控制、错误修正、多语言地名翻译和质量检查等关键环节和技术进行了研究和探讨。初步建立了全球地名数据资源快
2、速、规模化生产工艺,介绍了依托该工艺生产建设的全球地名数据成果和应用情况,为全球地名数据资源的标准化建设提供借鉴和参考。关键词:众源数据;地名;融合匹配;地名翻译;自动翻译中图分类号:文献标识码:文章编号:(),(,):,:;全球地理信息资源建设是一项复杂的大工程,其中地名信息与经济活动、社会管理、科学研究、国防建设和群众生活有着密切联系。目前,世界上大多数发达国家建立了自己的地名信息系统,已有 多个大型地名数据库投入使用,美国、俄罗斯、英国、法国、德国等国家专门组织力量搜集、研究、整理国内外地名资料,更新、扩充地名数据库。我国地名信息建设近几年发展快速,民政部组织建设了全国地名数据库,但是缺
3、少一个覆盖全球、可靠且具有统一技术标准的全球地名数据库。全球地名数据资源涉及范围广、国家多、语种多,不同国家和地区经济发展水平悬殊,信息资源差距明显,互联网发展不均衡,基于此,本文提出以众源地理数据为基础建设全球地理信息资源的工作流程,为全球地名数据资源的标准化建设提供借鉴和参考。众源地理数据(,)的 概 念 与 自 愿 者 地 理 信 息(,)、新地理(或)概念相近。众源地理数据中的“众源”强调的是数据获取过程中由大量非测绘专业或没有专业计算机知识的人利用网络技术传输和存储地理数据的一种方式。众源地名数据具有现势性强、信息丰富、成本低、数据量大的优点,使全球海量地名资源的实时获取成为可能,但
4、也存在着无序性、非规范性的缺点,数据可能存在偏差、重复、错误。本文以目前使用范围较广的众源地名数据 和()为例,通过对众源地名数据的处理流程和关键技术研究,探讨一种基于众源地名数据的全球中外文地名数据资源标准化、规模化生产工艺。收稿日期:基金项目:全球地理信息资源建设与维护更新()作者简介:关 茜(),女,硕士,工程师,主要从事 研究工作。:通信作者:龙云涛。:测 绘 通 报 年 第 期 构建流程利用众源地名数据和相关资料,在比对分析的基础上确定数据质量和使用方案,通过数据预处理实现多源数据的标准化,经分类分级、融合匹配、密度控制、错误修正、地名翻译、质量检查等操作后形成地名数据成果(如图 所
5、示)。图 成果构建流程 生产方法.资料收集与分析地名生产资料涵盖众源地理数据和参考资料两类。众源地理数据包含完整准确的位置、属性和地名分类,对于更新较快的数据使用最新版本。参考资料包括用于地名补充采集或编辑整理的资料,如国内外各机构发布或出版的交通、旅游、文化、行政区划、外文转译等多种类型地图集、数据集、专业参考资料、标准规范等。比对分析是指通过比较数据对象之间的差异,找到数据对象优缺点,经比对分析明确数据源是否存在整体性质量问题,构成文件是否完整无遗漏,数据源的内容、坐标系、精度、现势性和覆盖范围是否满足生产要求及各数据源的使用方法。目前,使用范围较广的地名数据源包括 和 数据等。作为全球地
6、名数据库,是一种开放共享的数据资源,数据来源于邮政服务、统计局、国家测绘机构、军队、当地大学等。数据是典型的 数据,所有用户都能参与创建和编辑。通过对 与 数据特征比对(见表)发现:在地名构成要素方面,两者均满足生产要求;在地名数量上,整体少于;在内容上,街道规模地名占比较高;在地名重复方面,两者之间行政区划、居民点地名重复度较高;在空间分布方面,相较均衡,但也存在条带状、网格状等空间分布不均现象,具有显著的沿街道线状分布特征(如图 所示)。表 与 数据特征比对特征项存储格式、数学基础位置精度小数点后 位小数点后 位外文拼写拉丁语本地语、拉丁语字符编码属性项 个地名大类 个地名小类 个数据量
7、万余条整体密度(条().从宏观角度上看,数据质量优于。在制定数据使用方案时,需结合任务区情况进行分析:社会经济发达、地名众多的国家或地区,采用 作为主数据源,作为补充参考以提高地名精度;欠发达、地名数据稀缺的国家或地区,同时采用 和 作为主数据源。图 数据可视化分析.数据预处理对多来源的地名数据进行转换,包括编码转换、坐标转换、格式转换和数据结构转换等。将获取的资料数据转换为统一的编码方式,数据格式转换为通用矢量数据处理软件能够辨识的格式,数据的原坐标系统转换为 国家大地坐标系或项目需要的其他坐标系。初始矢量数据整理转换成项目技术文件要求的数据结构,制定从原始数据结构到项目技术文件数据结构的转
8、换对照方案。结构规整后的数据仍可能存在属性错误、内容无效等情况,依据其他参考资料完成地名属性检查和鉴别,剔除无效、错误属性内容,最大限度保留资料源中的有效属性信息,确保数据一致性和可靠性。年 第 期 关 茜,等:一种基于众源地名数据构建全球中外文地名数据资源建设方法.编辑整理.分类分级地名分类研究法是指复杂地名群体按照一定分类原则和标准,将性质或特征相同的一类地名与其他类地名进行区分研究的方法。众源地名数据分类体系多样,需制定从原始数据分类到项目技术文件的分类体系对照方案,包括建立分类代码对照表等。众源地名数据存在分类体系粗糙、分类不准确的问题,如在 中,“学校”不区分中小学、“港口”地名归类
9、为“海湾海峡”。分类映射法无法解决众源数据因归类错误情况和分类体系粗糙情况导致的映射后分类不准确问题。针对上述情况,提出兼顾通名的分类分级方法,具体流程如图 所示。图 地名分类分级流程地名包括专名和通名,其中通名指代实体的类别,根据通名可以明确实体所属的范围。首先根据地名原始分类遵循大类优先、性质最近原则进行分类体系对照;然后基于先验知识在一定类别范围中根据通名二次分类,达到分类细化和分类纠正的目的,通过这种方法可以有效提高地名分类的准确性。.融合匹配当地名三要素(名称、类型和位置)完全一致或十分近似时,可认为代表同一地理要素。地名匹配即通过分析地名三要素识别出多源数据中的同一地物。其中地名名
10、称的匹配判断是关键。对地名名称进行匹配的常用方法是利用字符编辑距离算法计算字符相似度。众源地名数据缺乏规范性和统一性,地名名称区别于一般单词在成分构成、发音规则上具有显著特征。基于上述先验知识,对地名数据进行合理的预处理,可以消除众源数据中表示同一地名时由于采用的表征符号不统一、误操作等因素对相似度误判的不利影响。预处理操作包括地名专名提取、特殊字母去符号化(转换为 等)、统一字母大小写、消除无意义干扰字符(“”“”等)。试验表明,通过预处理后计算的结果比直接利用编辑距离算法得到的结果更合理,更有利于一致性匹配判断(见表)。表 基于先验知识的字符相似度算法结果()地名字符 地名字符 预处理前
11、预处理后.字符编辑距离方法的缺点是只能对地名表征字符判断,对于分别采用了别称、本地语、不同罗马转写形式的地名判断时不适用。数据包含别名字段,采集了别称、本地语、不同的罗马化转写等内容,为有效地解决同语义不同拼写地名的识别提供了可行途径,因此提出了采用兼顾别名字符相似度匹配算法来提高名称相似度判断准确度的思路(如图 所示),取最高值()作为字符匹配算法结果。在几何匹配上,点实体匹配多采用距离指标衡量相似度,在计算临近距离时,根据地名类别(居民地、政区、河流、山峰、湖泊等)分别设置缓冲区阈值。在类别匹配判断时,使用中类比使用小类有更好的匹配效果,如 数据中存在的同一地名分别采集为不同等级的政区地名
12、和普通居民地的情况。地名类别相同,距离邻近度和名称相似度均高于特定阈值时,判定地名匹配。图 顾及别名的地名相似度匹配算法经过试验对照,顾及别名的匹配算法较传统算法取得了更好的匹配结果(见表)。判断为同一地名后,使用自动化或人工交互的方式进行融合处理。地名字符构成情况复杂,往往存在算法无法匹配判断的情况,如地名专名中包含特殊的通名无法去除、地名词序混乱等,这些特殊测 绘 通 报 年 第 期情况往往在地名外文翻译成中文后才能发现,因此在地名译名后,应再次进行融合匹配工作。表 顾及别名的匹配算法结果样本序号样本量 条匹配度()传统算法顾及别名的匹配算法.密度控制针对地名数据源分布疏密不均的情况,依据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 源地 数据 构建 中外文 地名 资源 建设 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。