1、 年 第 期 关 茜,等:一种基于众源地名数据构建全球中外文地名数据资源建设方法引文格式:关茜,龙云涛,司连法,等:一种基于众源地名数据构建全球中外文地名数据资源建设方法 测绘通报,():一种基于众源地名数据构建全球中外文地名数据资源建设方法关 茜,龙云涛,司连法,王梅红,张 迪,贺 风,侯笑宇(中国地图出版社有限公司,北京)摘要:面向全球地理信息资源建设,本文以众源地名数据为基础,研究了基于众源地名数据建设全球中外文地名信息的生产工艺和流程,并对数据分析、数据预处理、分类分级、融合匹配、密度控制、错误修正、多语言地名翻译和质量检查等关键环节和技术进行了研究和探讨。初步建立了全球地名数据资源快
2、速、规模化生产工艺,介绍了依托该工艺生产建设的全球地名数据成果和应用情况,为全球地名数据资源的标准化建设提供借鉴和参考。关键词:众源数据;地名;融合匹配;地名翻译;自动翻译中图分类号:文献标识码:文章编号:(),(,):,:;全球地理信息资源建设是一项复杂的大工程,其中地名信息与经济活动、社会管理、科学研究、国防建设和群众生活有着密切联系。目前,世界上大多数发达国家建立了自己的地名信息系统,已有 多个大型地名数据库投入使用,美国、俄罗斯、英国、法国、德国等国家专门组织力量搜集、研究、整理国内外地名资料,更新、扩充地名数据库。我国地名信息建设近几年发展快速,民政部组织建设了全国地名数据库,但是缺
3、少一个覆盖全球、可靠且具有统一技术标准的全球地名数据库。全球地名数据资源涉及范围广、国家多、语种多,不同国家和地区经济发展水平悬殊,信息资源差距明显,互联网发展不均衡,基于此,本文提出以众源地理数据为基础建设全球地理信息资源的工作流程,为全球地名数据资源的标准化建设提供借鉴和参考。众源地理数据(,)的 概 念 与 自 愿 者 地 理 信 息(,)、新地理(或)概念相近。众源地理数据中的“众源”强调的是数据获取过程中由大量非测绘专业或没有专业计算机知识的人利用网络技术传输和存储地理数据的一种方式。众源地名数据具有现势性强、信息丰富、成本低、数据量大的优点,使全球海量地名资源的实时获取成为可能,但
4、也存在着无序性、非规范性的缺点,数据可能存在偏差、重复、错误。本文以目前使用范围较广的众源地名数据 和()为例,通过对众源地名数据的处理流程和关键技术研究,探讨一种基于众源地名数据的全球中外文地名数据资源标准化、规模化生产工艺。收稿日期:基金项目:全球地理信息资源建设与维护更新()作者简介:关 茜(),女,硕士,工程师,主要从事 研究工作。:通信作者:龙云涛。:测 绘 通 报 年 第 期 构建流程利用众源地名数据和相关资料,在比对分析的基础上确定数据质量和使用方案,通过数据预处理实现多源数据的标准化,经分类分级、融合匹配、密度控制、错误修正、地名翻译、质量检查等操作后形成地名数据成果(如图 所
5、示)。图 成果构建流程 生产方法.资料收集与分析地名生产资料涵盖众源地理数据和参考资料两类。众源地理数据包含完整准确的位置、属性和地名分类,对于更新较快的数据使用最新版本。参考资料包括用于地名补充采集或编辑整理的资料,如国内外各机构发布或出版的交通、旅游、文化、行政区划、外文转译等多种类型地图集、数据集、专业参考资料、标准规范等。比对分析是指通过比较数据对象之间的差异,找到数据对象优缺点,经比对分析明确数据源是否存在整体性质量问题,构成文件是否完整无遗漏,数据源的内容、坐标系、精度、现势性和覆盖范围是否满足生产要求及各数据源的使用方法。目前,使用范围较广的地名数据源包括 和 数据等。作为全球地
6、名数据库,是一种开放共享的数据资源,数据来源于邮政服务、统计局、国家测绘机构、军队、当地大学等。数据是典型的 数据,所有用户都能参与创建和编辑。通过对 与 数据特征比对(见表)发现:在地名构成要素方面,两者均满足生产要求;在地名数量上,整体少于;在内容上,街道规模地名占比较高;在地名重复方面,两者之间行政区划、居民点地名重复度较高;在空间分布方面,相较均衡,但也存在条带状、网格状等空间分布不均现象,具有显著的沿街道线状分布特征(如图 所示)。表 与 数据特征比对特征项存储格式、数学基础位置精度小数点后 位小数点后 位外文拼写拉丁语本地语、拉丁语字符编码属性项 个地名大类 个地名小类 个数据量
7、万余条整体密度(条().从宏观角度上看,数据质量优于。在制定数据使用方案时,需结合任务区情况进行分析:社会经济发达、地名众多的国家或地区,采用 作为主数据源,作为补充参考以提高地名精度;欠发达、地名数据稀缺的国家或地区,同时采用 和 作为主数据源。图 数据可视化分析.数据预处理对多来源的地名数据进行转换,包括编码转换、坐标转换、格式转换和数据结构转换等。将获取的资料数据转换为统一的编码方式,数据格式转换为通用矢量数据处理软件能够辨识的格式,数据的原坐标系统转换为 国家大地坐标系或项目需要的其他坐标系。初始矢量数据整理转换成项目技术文件要求的数据结构,制定从原始数据结构到项目技术文件数据结构的转
8、换对照方案。结构规整后的数据仍可能存在属性错误、内容无效等情况,依据其他参考资料完成地名属性检查和鉴别,剔除无效、错误属性内容,最大限度保留资料源中的有效属性信息,确保数据一致性和可靠性。年 第 期 关 茜,等:一种基于众源地名数据构建全球中外文地名数据资源建设方法.编辑整理.分类分级地名分类研究法是指复杂地名群体按照一定分类原则和标准,将性质或特征相同的一类地名与其他类地名进行区分研究的方法。众源地名数据分类体系多样,需制定从原始数据分类到项目技术文件的分类体系对照方案,包括建立分类代码对照表等。众源地名数据存在分类体系粗糙、分类不准确的问题,如在 中,“学校”不区分中小学、“港口”地名归类
9、为“海湾海峡”。分类映射法无法解决众源数据因归类错误情况和分类体系粗糙情况导致的映射后分类不准确问题。针对上述情况,提出兼顾通名的分类分级方法,具体流程如图 所示。图 地名分类分级流程地名包括专名和通名,其中通名指代实体的类别,根据通名可以明确实体所属的范围。首先根据地名原始分类遵循大类优先、性质最近原则进行分类体系对照;然后基于先验知识在一定类别范围中根据通名二次分类,达到分类细化和分类纠正的目的,通过这种方法可以有效提高地名分类的准确性。.融合匹配当地名三要素(名称、类型和位置)完全一致或十分近似时,可认为代表同一地理要素。地名匹配即通过分析地名三要素识别出多源数据中的同一地物。其中地名名
10、称的匹配判断是关键。对地名名称进行匹配的常用方法是利用字符编辑距离算法计算字符相似度。众源地名数据缺乏规范性和统一性,地名名称区别于一般单词在成分构成、发音规则上具有显著特征。基于上述先验知识,对地名数据进行合理的预处理,可以消除众源数据中表示同一地名时由于采用的表征符号不统一、误操作等因素对相似度误判的不利影响。预处理操作包括地名专名提取、特殊字母去符号化(转换为 等)、统一字母大小写、消除无意义干扰字符(“”“”等)。试验表明,通过预处理后计算的结果比直接利用编辑距离算法得到的结果更合理,更有利于一致性匹配判断(见表)。表 基于先验知识的字符相似度算法结果()地名字符 地名字符 预处理前
11、预处理后.字符编辑距离方法的缺点是只能对地名表征字符判断,对于分别采用了别称、本地语、不同罗马转写形式的地名判断时不适用。数据包含别名字段,采集了别称、本地语、不同的罗马化转写等内容,为有效地解决同语义不同拼写地名的识别提供了可行途径,因此提出了采用兼顾别名字符相似度匹配算法来提高名称相似度判断准确度的思路(如图 所示),取最高值()作为字符匹配算法结果。在几何匹配上,点实体匹配多采用距离指标衡量相似度,在计算临近距离时,根据地名类别(居民地、政区、河流、山峰、湖泊等)分别设置缓冲区阈值。在类别匹配判断时,使用中类比使用小类有更好的匹配效果,如 数据中存在的同一地名分别采集为不同等级的政区地名
12、和普通居民地的情况。地名类别相同,距离邻近度和名称相似度均高于特定阈值时,判定地名匹配。图 顾及别名的地名相似度匹配算法经过试验对照,顾及别名的匹配算法较传统算法取得了更好的匹配结果(见表)。判断为同一地名后,使用自动化或人工交互的方式进行融合处理。地名字符构成情况复杂,往往存在算法无法匹配判断的情况,如地名专名中包含特殊的通名无法去除、地名词序混乱等,这些特殊测 绘 通 报 年 第 期情况往往在地名外文翻译成中文后才能发现,因此在地名译名后,应再次进行融合匹配工作。表 顾及别名的匹配算法结果样本序号样本量 条匹配度()传统算法顾及别名的匹配算法.密度控制针对地名数据源分布疏密不均的情况,依据
13、不同区域的人口分布密度、绝对人口数、地貌特征、经济发展水平、我国对外贸易投资等多种因素,结合先验知识通过地名抽稀、补充采集等手段控制地名密度,避免突兀地出现地名过于集中或稀缺的情况,经处理后全球整体地名密度应不低于 条()。在对地名抽稀时应依据地名类别设置密度选取权重,并通过生产性试验和抽样验证进行权重优化,各类地名的抽稀指标因子设置受试验区国情、自然条件等因素的影响,如“井”地名在欧洲地区和非洲地区的重要程度上差异显著,因此在密度权重因子的设置上也应区别对待。地名稀缺或遗漏时可参考地图集(册)、国内外各机构发布的数据集、数字正射影像等资料补充缺失的地名,采集方式可基于人工编辑作业,也可基于定
14、制软件进行自动化处理采集。补充地名的几何位置与属性信息的准确性应经过人工或自动化评估确认。地名密度控制也可有效解决地名条状带分布、网格状分布等地名密度分布不均衡问题。.地名翻译对地名的名称拼写进行核实修改,对当地名称和外文名称进行罗马拼写标准化和汉字标准译写。地名翻译应遵循外语地名汉字译写导则,并参考外国地名汉字译写通则译音表等标准,做到译写规范、用字准确。地名译写应遵循“专名音译”“通名意译”“名从主人”“保留惯用”等翻译原则。同一国家地名存在多种转写体系的,需根据实际情况参考权威出版物资料确定转写体系,并保持转写体系的一致性。有争议地区的地名确保符合我国政治立场。完善的译音表体系是构建全球
15、多语言地名翻译机制的基础,但是目前全球的地名翻译体系并不完整。全球地名语言大约有 多种,使用人口在 万以上的地名语言有 多种,现存的外国地名汉字译写有音译表的语种占比不到。本文在项目实施过程中对试验区印地语系、汉文化圈语系(日语韩语)、哈萨克语、尼泊尔语、乌兹别克语等语言的翻译导则和译音表进行了扩充。为进一步实现全球海量地名的快速化、规模化生产,在已有译音表和扩充译音表的基础上,通过对地名翻译规则库和语料库的构建,以及对地名罗马化转写、地名成分分析、地名音节切分、地名音译处理、地名意译处理等关键技术的研究,实现多语种地名自动化翻译(如图 所示),并对地名自动化翻译结果进行系统评价。通过地名自动
16、化翻译结果系统评价为分析地名自动翻译的可信度、译后人工干预的审校时间估算提供有效参考。图 地名自动化翻译流程.错误修正错误修正包括重复地名修正和地名位置修正。重复地名修正即根据空间位置关系、结合地名分类和名称能够判定为重复地名的应删除。位置修正指利用(、)数据或其他现势资料对地名的几何位置进行检查、修正和核改,确无资料核实的部分可保留原状。位置修正内容包括:选取关键类别地名数据与 数据进行协同处理,纠正偏移地名,剔除错误地名;与行政区划数据套合,移除境外不合理地名点;与水系数据套合修正不合理落水点;与铁路数据套合处理孤立火车站等。通过错误纠正将进一步提高地名成果质量。.质量检查对地名的数据源质
17、量、完整一致性、数据精度、地名翻译等进行检查。内容包括:数据整体结构、地名分类组织、属性表结构、地名精度、与参考资料套合差符合要求,位置合理,不存在系统误差;地名属性内容不存在错误;相同语言的地名翻译准则具 年 第 期 关 茜,等:一种基于众源地名数据构建全球中外文地名数据资源建设方法有一致性,译名应与公开出版物或其他权威资料具有一致性,不存在政治错误;重要地名、国界名等数据内容严格遵守我国的相关法律和外交立场;地名表达符合设计要求,地名空间位置合理,不存在重复地名;新增采集地名与数字正射影像或参考资料合理一致,重要地名无遗漏。成果及技术指标依托上述方法已完成全球 万 范围 个国家(地区)约
18、万条地名数据生产(规格及指标见表),建立了全球地名数据成果库(成果统计见表),成果覆盖“一带一路”“中巴经济走廊”“东盟自贸区”等重点区域。数据产品通过了国家权威质检机构检验,已面向多行业、多部门开展应用,主要包括:依托成果编制了南苏丹地图、文莱地图、达沃斯地图等多幅政府应急保障地图;面向国防政府部门、科研院所提供数据支持,有效支撑了政府决策和重大项目建设推进工作;成果数据应用于多家国际咨询公司、金融机构,有效推进了企业业务发展;成果数据已向人民解放军某部队,吉林、辽宁、广西等沿边省区提供,有效支持了国家军事保障、沿边省区应急减灾等工作。表 地名成果规格及技术指标数据源数学基础数据格式内容指标
19、精度指标地名密度套和差、等 国家大地坐标系,单位()包括但 不 限 于 国家、首都、政区、居民地、交通水系、陆地地形、独立地物小数点后至少保留 位(.)不低于 条()自 然 地 物;交通地物 ;重要地名 表 地名成果建设情况区域国家面积()数量 万条亚洲日本、韩国、印度、泰国、越南、老挝、柬埔寨、伊拉克等 个国家非洲埃及、苏丹、南苏丹、乍得、中非、肯尼亚等 个国家欧洲俄罗斯、挪威、瑞典、芬兰、法国、意大利、英国等 个国家北美洲美国大洋洲澳大利亚 结 语全球地理信息资源建设中地名数据信息建设的关键在于如何对众源数据进行正确的分析、合理的处理,以及对外语地名进行准确、规模化的译写。本文探讨了基于众
20、源数据的地名资源建设规模化、标准化生产工艺和流程,并对数据分析、融合匹配、多语种地名自动翻译等关键环节和技术进行研究,完成了全球中外文地名数据的初步建设。众源数据具有更新速度快、频率高的特点,本文解决了全球地名数据资源建设“有”的问题,但尚未对基于众源数据的地名更新机制进行深入的研究和探索,这将是下一步研究工作的重点内容。参考文献:单杰,秦昆,黄长青,等 众源地理数据处理与分析方法探讨 武汉大学学报(信息科学版),():,():,():,():李小雨,王艳东,吴胜 众源地理数据质量评价系统设计与实现 地理空间信息,():彭雨滕,马林兵,周博,等 自发地理信息研究热点分析 世界地理研究,():周
21、晓光,赵肄江 众源地理数据的质量问题与研究进展 地理信息世界,():宋华标,刘新贵 多源地名数据对比分析 测绘与空间地理信息,():宋华标 多源地名数据融合处理技术研究 郑州:信息工程大学,:赵文强 多源全球地名数据融合与更新方法研究 南京:南京师范大学,:李一 基于概念格的多源 分类体系融合研究 兰州:兰州交通大学,:(下转第 页)年 第 期 黄小斌,等:一种改进极坐标二次基准实时差分方法在地铁自动化监测中的应用 陈龙浩 基于测量机器人水利工程沉降变形监测精度分析 安徽建筑,():葛继空,李卫军 基于测量机器人的深基坑自动化监测系统优化研究 测绘技术装备,():黄善琪,段志钦,吴玖荣,等 联
22、合卫星定位和测量机器人的超高层建造过程水平位移监测 同济大学学报(自然科学版),():张文雅 差分改正法在高边坡位移监测中的应用 地下水,():王建华,胡亚轩,高勤生,等 全站仪水平距离的归算及在精密测量中的应用 测绘科学,():陈优良,卞焕,肖钢,等 测量机器人自动极坐标二次基准差分改正方法 测绘科学,():赵凯 隧道工程自动化监测及变形预测研究昆明:昆明理工大学,陈兰兰,夏益强,肖海平,等 露天矿边坡稳定性监测方法研究现状及进展 测绘通报,():蔡干序,李钰城 地铁保护区自动化监测精度分析 现代测绘,():柏文锋 基于智能全站仪的地铁隧道自动化监测精度分析及验证 测绘通报,():贾文超,张
23、齐,莫爵同 地铁隧道监测中测量机器人多站联测精度分析及应用 测绘与空间地理信息,():刘哲强 测量机器人在地铁隧道自动化变形监测中的应用 西安:西安科技大学,(责任编辑:杨瑞芳)(上接第 页)张红辉 多源网络地名数据动态整合方法研究长沙:中南大学,:刘善磊,张大骞 多源矢量空间数据关联分析及应用 测绘与空间地理信息,():陈昕 境外地名翻译系统研究与应用 西安:西安电子科技大学,:秦颖 机器生成语言的质量评价方法综述 计算机工程与科学,():田海波,陈利军,张宏伟,等 全球 数据产品研制 测绘通报,():(责任编辑:侯 琳)(上接第 页)徐秀川,段双全,张伟 盾构法地铁隧道施工测量误差控制技术
24、措施和方法 城市勘测,():中华人民共和国住房和城乡建设部,中华人民共和国国家质量检验检疫监督局 盾构法隧道施工及验收规范:北京:中国建筑工业出版社,马全明 城市轨道交通工程精密施工测量技术的应用与研究 测绘通报,():魏云豹,刘恒杰,李富春,等 特征点测量数量和残差值对盾构轴线精度影响研究 建筑机械,():谭忠盛,洪开荣,万姜林,等 软硬不均地层盾构姿态控制及管片防裂损技术 中国工程科学,():秦勇 大直径盾构机掘进姿态控制研究 市政技术,():张胜军,杨志刚,康妍斐 三维激光扫描技术在地铁隧道断面测量中的应用 测绘与空间地理信息,():吴乃龙,熊开明 盾构隧道贯通前成型管片姿态偏差测量方法研究 城市勘测,():何金学 垂线偏差对超长隧道横向贯通误差影响的分析与研究 测绘地理信息,():杜传鹏 长大隧道贯通误差分析及程序实现成都:西南交通大学,(责任编辑:胡 淼)