档案语义参照框架:逻辑、架构与实证_赵生辉.pdf
《档案语义参照框架:逻辑、架构与实证_赵生辉.pdf》由会员分享,可在线阅读,更多相关《档案语义参照框架:逻辑、架构与实证_赵生辉.pdf(8页珍藏版)》请在咨信网上搜索。
1、 2 0 2 3年第1期实践经纬5 3 档案语义参照框架:逻辑、架构与实证赵生辉1 胡 莹2 宋和平2(1.西藏民族大学管理学院,咸阳7 1 2 0 2 1;2.云南大学历史与档案学院,昆明6 5 0 0 9 1)摘要:应对档案数据化面临的“语义鸿沟”挑战,提出“档案语义参照框架”的学术概念,构建其基础逻辑体系和技术架构,并通过案例进行验证。档案语义是由依附于档案载体的自然语言文本所映射的事实性信息的集合。“档案语义参照框架”是专门为档案文本或档案数据的语义标注和智能检索提供基础语义参照服务的公共基础设施,是“潜在语义空间”的逻辑定位体系。“档案语义参照框架”致力于从时间、空间、职能三个维度,
2、基于标准化的结构语义框架、事理语义框架和档案内容实体唯一标识符,通过“逻辑外显”“逻辑降维”“逻辑指代”和“逻辑关联”,实现档案语义数据的“结构化”和“归一化”,使其在基础语义层面获得统一的处理逻辑。“档案语义参照框架”有助于减弱“语义鸿沟”的影响,对我国档案信息化建设的智能转型将起到重要支撑作用。关键词:档案数据化;语义鸿沟;档案语义;结构化;归一化中图分类号:G 2 7 0 收稿日期:2 0 2 2-0 1-2 0作者简介:赵生辉,博士,教授,研究方向为民族信息学、档案数据科学、史料人文计算,E-m a i l:f o o l-b i r d z s h1 2 6.c o m;胡莹,博士,
3、副教授,研究方向为历史文献学、少数民族档案管理、数字人文;宋和平,硕士研究生。基金项目:教育部哲学社会科学重大研究攻关项目“元明清时期中国边疆治理文献整理与数据库建设研究”(2 1 J Z D 0 4 2)。我国学者对档案语义相关问题的研究大体上与语义网技术的发展和应用同步,带有鲜明的技术驱动和工具型特征。1 9 9 8年,“万维网之父”英国计算机学家蒂姆伯纳斯李(T i mB e r n e r s-L e e)提出语义网(s e m a n t i cw e b)堆栈模型。1同年,我国学者胡明2基于语义网络(s e m a n t i cn e t w o r k)方法开发了文书档案自动著
4、录和全文检索系统,这是已知较早的相关成果。进入2 1世纪,国内多位学者先后就语义网技术在 档 案 领 域 的 应 用 问 题 展 开 探 讨。例 如,林 周佳3-4探讨了基于语义网的数字化档案馆技术架构和档案语义级检索问题;段荣婷5探讨了基于简约知识组织系统的 中国档案主题词表网络化应用问题;吕元智6探讨了数字档案资源体系的语义互操作问题;张素萍7探讨了基于语义的电子健康档案信息组织模式;张倩8探讨了语义网对高校档案信息检索工作的应用价值。近年来,在数字人文浪潮兴起等因素驱动下,档案领域语义网技术应用研究呈现出逐渐增多的趋势。例如,熊华兰9研究了基于语义本体的数字档案资源知识管理模型;任妍等1
5、 0研究了全媒体档案信息资源的语义组织与服务问题;郭学敏等1 1研究了基于关联数据的档案语义转换方法;王志宇等1 2研究了语义网环境下档案资源关联与共享模式;谢晖1 3研究了基于语义网技术的海量数字档案智能挖掘方法;王卉1 4构建了近代广东海关档案名称规范档的语义模型;祁天娇等1 5探讨了档案数据化过程中语义组织的内涵、特点与原理。上述研究对语义网技术在档案管理领域的应用发展奠定了理论基础,具有重要的学术价值。需要注意的是,语义(s e m a n-t i c s)并非语言学、情报学、计算机软件等学科的专有术语,档案语义(a r c h i v a ls e m a n t i c s)本身就
6、是有着丰富理论内涵,亟待深入探究的前沿性研究领域,甚至有望成为档案智能化服务创新的“突破口”。档DOI:10.16113/ki.daxtx.2023.01.001实践经纬2 0 2 3年第1期 5 4 案语义研究也不能完全等同于语义网技术的应用研究,从基于语义网技术的工具型思维转向面向档案语义的本体型思维,深入探索档案文本符号所蕴含的语义信息及其构成规律,构建档案领域语义服务基础设施,为语义标注和智能检索提供统一的逻辑参照体系,是当 前 我 国 档 案 信 息 化 建 设 迫 切 需 要 解 决 的问题。1“档案语义参照框架”的构建需求“语义”是语言学术语,原意是指“符号所蕴含的意义”1 6。
7、“档案语义”是指由依附于档案载体的自然语言文本或符号所映射的,特定时空当中参与各类社会职能的机构、人员、实物等实体的属性、关系及其互动过程等事实性信息的集合。档案部门要为用户提供更加精准、智能的档案数据服务,就必须从“对档案文件的关注”转向“对档案内容的关注”1 7,对档案的语义信息进行深度挖掘。我国档案信息化建设正在经历的“档案数据化”范式转型,核心任务就是将档案文本符号所蕴含的“档案语义”转换为某种可供 计 算 机 高 速、自 动、精 准 处 理 的 结 构 化 数 据资源。1 81.1 档案数据化面临的“语义鸿沟”挑战档案作为机构或个人在社会活动中直接形成的原始记录,绝大多数以某种自然语
8、言文字为记录符号,基于人类自然语言思维模式进行组织,供可以理解该文字的人阅读和参考。数据则是在计算机当中参照某种结构模型对领域事物进行符号化描述的结果,遵循以符号计算和逻辑推理为特征的机器思维模式,供计算机或其他智能设备进行计算和处理。思维模式的巨大差异导致将“档案语义”转换为“语义数据”的过程中面临多方面的挑战,本文将这种现象称为“语义鸿沟”(s e m a n t i cg a p)1 9。“语义鸿沟”一词来源于计算机视觉领域,用来表示数字图像的像素、线条、图形等低层技术特征与其指代的人员、场景、事件等高层语义特征之间的巨大差异。2 0与之类似,计算机将档案文本视为字符序列进行处理时就是基
9、于低层技术特征,计算机将档案文本与其指代的社会实体进行关联处理时就是基于高层语义特征,通常情况下两者具有较大差异。本文借用“语义鸿沟”表示档案数据化过程中因信息处理模式的缺陷所导致的档案文本语义理解结果的偏差、歧义或障碍等现象。“语义鸿沟”在档案数据化过程中的表现有多个方面:第一,因时间表达式缺乏统一参照体系导致的歧义理解。例如,历史档案当中的“光绪二十四年”“公元1 8 9 8年”“农历戊戌年”“藏历土狗年”等所描述的都是清代“戊戌变法”发生的那一年,计算机在没有参照体系的情况下,可能误判为不同的年份。第二,因地名与指代地理区域之间没有关联导致的理解障碍。例如,在没有地理参照体系的情况下,计
10、算机难以判断档案文本中的“建康”“应天”“南京”等地名是否属于同一城市。第三,因机构简称重名而导致的歧义理解。例如档案文本中“人大”一词,有可能指代“全国人民代表大会”,也有可能指代“中国人民大学”。第四,因“多人同名”和“一人多名”现象导致的理解障碍或歧义理解。“多人同名”现象在社会生活中非常普遍,法律也允许公民在必要时变更自己的姓名,在缺乏参照体系的情况下,计算机仅凭姓名符号无法判断其指代对象之间的语义关系。第五,因缺乏物品度量衡参照体系而导致的理解障碍。例如,历史档案当中的“石”“斛”“尺”“跬”“仞”等计量单位如果没有经过参照体系的换算,计算机无法对事物的真实重量或尺寸做出判断。第六,
11、因同一类型事件之间缺乏语义关联而导致的理解障碍。例如,“地震”“洪灾”“火灾”“雪灾”等自然灾害救援档案文本都包含“时间”“地点”“起因”“伤亡”“损失”“救援”“重建”等类似的语义要素,在没有进行明确标注的情况下,计算机很难直接从多种类型的灾害救援档案当中检索出具有共性的语义信息。第七,因不同语种文字符号差异性导致的语义理解偏差。例如档案文本当中出现的“毛润之”“C h a i r m a nM a o”是同一个人,计算机按照数理逻辑处理会判定为两个人。这种现象在我国民族地区的多语言、多文字环境下会更为突出。如果没有针对档案数据进行语义标注,即使采用国家通用的汉字和藏文、蒙古文、维吾尔文、壮
12、文、彝文、傣文等少数民族文字产生的档案描述的是同一事件,计算机也难以判断其主题是否存在逻辑关联。1.2“档案语义参照框架”的提出与定义由“语义鸿沟”的各类表现可知,对于同一档案文本,计算机之所以会得出与人类不同的理解结果,核心原因在于其不具备人类所掌握的与特定领域相关的背景知识,通过语义参照体系为计算机提供领域知识支持就成为解决“语义鸿沟”问题的主要途径。目前,语言学领域的语义参照体系主要包括词汇库、语法库、规则库、语料库等,大多数面向机器翻译系统,以自然语言文本内容信息的完整、精准呈现为目标。档案学领域的语义参照体系主要包括档案分类 2 0 2 3年第1期实践经纬5 5 表、档案主题词表、数
13、据值词汇表、档案领域数据本体(A r c h i v a lD a t aO n t o l o g y,A D O)2 1等。其中,档案领域数据本体是最具代表性的语义参照体系,其建模基于“语义压缩”(S e m a n t i cC o m p a c t i o n)原理,强调从自然语言文本中抽取对核心语义有关键性影响的数据,适度减少甚至忽略辅助型和细节型的内容信息,构建档案文本核心语义的“数据框架”(d a t af r a m e)。作为档案领域数据本体的初级形态,只要为档案文本核心语义相关实体要素及其互动关系建立统一的参照框架,并基于参照框架对档案语义数据进行关联标注,就可以达到将领
14、域知识注入档案数据,辅助计算机精准理解和分析推理的目的。“参照框架”(f r a m eo f r e f e r e n c e)是认知心理学术语,意为“个体识别、定位空间方位和时间早晚顺序的方式”2 2,目前已经扩展到多个学科领域,用来描述观测对象与背景体系之间的逻辑关系。“档案语义参照框架”(A r c h i v a lS e m a n t i c sF r a m e w o r ko fR e f-e r e n c e,A S F R)是指档案管理部门和标准化工作机构联合构建的,专门为档案文本或档案数据的语义标注和智能检索提供基础语义参照服务的公共基础设施。档案语义参照框架致力
15、于从时间、空间、机构、人员、实物、量值等方面提供档案内容实体唯一标识符(U n i q u eI d e n t i f i e ro fE n t i t i e si nA r c h i v eC o n t e n t,U I D E A C)的映射与标注,参照标准化的文本结构语义框架(S t r u c t u r eS e m a n t i cF a m e,S S F)和事理语义框架(E v e n tL o g i cF r a m e,E L F),对档案文本的逻辑结构和事件语义逻辑进行数据描述,使来源于不同机构,具有不同类型特征和表述方式,使用不同语言文字的档案文本可以跨
16、越符号系统的差异性,在基础语义层面获得统一的处理逻辑,为基于计算机的精准检索和智能分析提供基础语义支持。“档案语义参照框架”是“档案领域数据本体”的一种简化版、轻量级实现方式,对于实体与实体之间深层语义关系的描述相对较少。“档案语义参照框架”有助于提升档案语义数据的智能化水平,对于档案管理范式的智能化转型将会起到重要的支撑作用,是国家档案数据治理体系的重要组成部分。2 32“档案语义参照框架”的逻辑体系“档案语义参照框架”由逻辑体系和技术架构两部分组成,前者决定“档案语义参照框架”设计的核心理念、基础结构和运行规则,后者则决定“档案语义参照框架”技术层面的实现方式。2.1“档案语义参照框架”的
17、总体逻辑“档案语义参照框架”的总体逻辑由四大加工逻辑和两大转化逻辑构成。其中,加工逻辑包括四个方面:第一,逻辑外显,即将档案文本背后潜在的各类逻辑关系,外化为某种符合计算机处理逻辑的结构化表达形式;第二,逻辑降维,即在保障核心语义信息基本等价的前提下,将基于人类大脑多维度融合型特征生成的自然语言档案文本做“降维”处理,将其分解为一定数量的、可以被计算机有效处理的单一维度数据集合;第三,逻辑指代,即将各类社会实体的唯一标识 符 编 码 视 为 其 在 信 息 空 间 的“数 字 代 体”(d i g i t a l s u r r o g a t e),参照社会实体在现实世界的属性特征和互动关系
18、描述数据项之间的属性和关系;第四,逻辑关联,即以事件或场景为中心,通过结构化语义框架将分别位于不同的维度的档案数据联结为同一逻辑体系。“档案语义参照框架”的转化逻辑包括两个方面:第一,结构化(s t r u c t u r i n g),即将具有多项功能的复杂事物分割为若干个相互关联、相互协作的单一功能模块,并据此为档案语义信息当中同一类型逻辑关系的形式化表达设计标准化、可共享的方法、技术和规范;第二,归一化(n o r m a l i z a t i o n),即通过变换处理使语义空间内同一维度上的数据拥有相同类型的量纲,使其基于相同的逻辑单位实现实体之间的计算、比较和分析。2.2“档案语义
19、参照框架”的逻辑结构档案语义分为“浅层语义”和“深层语义”两种类型:“浅层语义”是指档案自然语言文本的平面结构逻辑,强调各组成部分的逻辑功能及其与整体文本之间的关联关系;“深层语义”是指档案自然语言文本符号与其指代的社会实体、属性、事件之间的关联关系,是“档案语义参照框架”的主体部分。根据“档案语义参照框架”的总体逻辑,其深层语义空间的逻辑结构如图1所示。图1中,“深层语义参照框架”是由时间维(T)、空间维(S)和职能维(F)构成的三维语义空间。在特定时间片(T i)和空间范围(S i)之内,人类的社会活动表现为承担不同社会职能的机构、人员、实物、量值等要素围绕特定的事理逻辑进行互动与演化的过
20、程。职能体现了组织或个人的社会分工,将档案分为党务、政治、经济、教育、科技、文化等类别就是基于社会职能的差异性。事件(e v e n t)是职能维档案语义的核心概念,是可以被自然语言文本当中的特定词元所触发和激活的社会生活场景,其数据模型体现为事理逻辑框架(E v e n tL o g i cF r a m e,E L F),由实践经纬2 0 2 3年第1期 5 6 机构类(O)、人员类(H)、实物类(TH)、量值类(M)等细分实体要素按照特定的结构相互关联而成。图1“档案语义参照框架”的深层语义空间2.3“档案语义参照框架”的浅层语义逻辑档案文本浅层语义的“逻辑外显”和“结构化”处理。档案文
21、本的逻辑结构是由档案的功能所决定的,“结构语义框架”(S t r u c t u r eS e m a n t i cF r a m e,S S F)是将特定类型档案文本当中明确或潜在的结构信息转换成的形式化模型。“结构语义框架”是对符号层要素的功能性语义描述,属于浅层次档案语义。例如,公文类档案的文本结构可以大致分为眉首、正文、版记三大板块。其中,“眉首”又分为等功能要素。正文包括等功能要素,版记包括等功能要素。“结构语义框架”需要参考相关标准或规范性文件,基于领域大量档案文本结构分析结果逐步进行构建,并通过XML的D T D或S c h e m a文件实现结构语义框架的“技术固化”。2.4
22、“档案语义参照框架”的深层语义逻辑2.4.1 时 间 维 度 档 案 语 义 的“逻 辑 降 维”和“归一化”处理时间维度的“逻辑降维”是指从档案文本当中提取与时间点和时段相关的语义要素进行单独处理。要解决时间表达形式多样性和底层逻辑一致性的矛盾,必须选择某种时间计量体系作为参照,通常使用作为世界通用标准的公历纪年和2 4小时计时法。时间维度档案数据归一化致力于为所有档案文本当中出现的时间表达形式赋予统一的参照时点或时段,使计算机可以绕开符号系统的多样性,直接在语义层面实现精准计算。例如,为“光绪二十四年”“公元1 8 9 8年”“农历戊戌年”“藏历土狗年”表述方式标注共同的时间标识符“T1
23、8 9 8”,就可以明确其时间维度的逻辑等价关系,提高档案数据检索的精准化程度。2.4.2 空 间 维 度 档 案 语 义 的“逻 辑 降 维”和“归一化”处理空间维度的“逻辑降维”是指从档案文本当中提取与地名、方位相关的语义要素进行单独处理。空间维度档案数据归一化处理就是为档案文本中出现的各类地名数据赋予唯一可区分的地理标识。空间维度档案数据的归一化参照体系可以依托历史地理信息系统(H i s t o r i c a lG e o g r a p h yI n f o r m a t i o n S y s t e m,HG I S)进行建设。地名数据的归一化处理最底层的参照体系是全球经纬度
24、地理坐标系统,如果为档案当中出现的所有地名数据标注经纬度坐标和对应时间信息,一些由地名表述多样性导致的歧义理解问题就可得到解决。例如,数据“S(1 1 8 E,3 1 N)T1 1 2 9.建康T1 3 5 6.应天 T1 9 1 1.南京”就将南京市在不同地理时期的地名,与采用经纬度地理坐标数据的空间位置之间建立了关联。基于上述数据,计算机就可以推理出历史文 献 当 中 的“建 康”“应天”“南京”是位于同一地理区域的城市。2.4.3 职能维度档案事件语义的“逻辑关联”和“结构化”处理职能维度档案事件语义的“逻辑关联”就是要通过体现语义框架将经过降维处理的多个单一维度档案数据关联起来,使其具
25、备以数据集方式描述社会场景或社会事件的能力。“结构化”处理就是要为档案文本蕴含的语义信息制订标准化的事理语义描述框架,使相同职能、同一类型的社会活动在档案数据的事理逻辑层面具有相似的结构。例如,“集会”类事件的语义框架通常由等语义元素构成。数据集“集会事件 E 2 1 8 3庆祝中国共产党成立1 0 0周年大会2 0 2 1年7月1日8时天安门广场习近平3.3万”就是由档案文本中抽取的多维度档案数据基于“集会”类事理框架进行关联之后形成的语义数据集。2.4.4 职能维度事件要素语义的“逻辑指代”和“归一化”处理“逻辑指代”意味着为人员、机构、实物等社会实体赋予档案内容实体唯一标识符U I D
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 档案 语义 参照 框架 逻辑 架构 实证 生辉
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。