文献遗产本体构建——以《中国档案文献遗产名录》为例.pdf
《文献遗产本体构建——以《中国档案文献遗产名录》为例.pdf》由会员分享,可在线阅读,更多相关《文献遗产本体构建——以《中国档案文献遗产名录》为例.pdf(12页珍藏版)》请在咨信网上搜索。
1、数字人文*本文系2022年度国家社科基金重点项目“北京奥运档案开发利用体系研究”(项目编号:22ATQ008)研究成果。摘要文献遗产反映国家、民族的群体记忆和身份,对国家形象的塑造和传播影响深远,然而学界并未从本体构建视角审视文献遗产的利用和传播。为此,文章在文献遗产、数字记忆、本体构建和自然语言处理等理论和技术的基础上,提出参照和复用CIDOC CRM、DC、中国档案分类法等领域本体、分类法和词表的文献遗产本体模型构建过程,以中国档案文献遗产名录为例开展实证研究,验证文献遗产本体构建流程的可行性与合理性,为文献遗产的组织展示、知识传播提供参考。关键词文献遗产本体构建命名实体识别中国档案文献遗
2、产名录引用本文格式陈晓婷,毛太田.文献遗产本体构建以中国档案文献遗产名录为例J.图书馆论坛,2023,43(9):120-131.Developing the Ontology of Documentary HeritageA Case Study onChina s Documentary Heritage ListCHEN Xiaoting&MAO TaitianAbstractDocumentary heritage reflects the collective memory and identity of a country and a nation,and has afar-rea
3、ching impact on the construction and dissemination of a country s image.However,the use anddissemination of documentary heritage has not been studied from the perspective of ontology construction.Therefore,based on the theories and technologies of documentary heritage,digital memory,ontologyconstruc
4、tion and natural language processing,this paper proposes the process of building an ontology model ofdocumentary heritage by referring to and reusing CIDOC CRM,DC,Chinese Archives Classification and otherdomain ontology,taxonomy and thesaurus.Taking China s Documentary Heritage List as an example,it
5、 conductsan empirical study to verify the feasibility and rationality of the process of building the documentary heritageontology,thus shedding light on the organization and presentation and the knowledge dissemination ofdocumentary heritage.Keywordsdocumentary heritage;ontology construction;named e
6、ntity identification;Chinas DocumentaryHeritage List0前言文献遗产真实反映了一个民族、国家乃至世界的历史原貌、社会经济发展状况与科技水平,可追溯国家、民族的群体记忆和身份。在432项世界级文献遗产中,中国仅入选13项,名列第8位。我国已意识到文献遗产对文化影响力的重要提升作用。“十四五”全国档案事业发展规划提出实施档案文献遗产影响力提升工程,实施中国档案文献遗产宣传推广计划1。由此可见,文献遗产本体构建以中国档案文献遗产名录为例*陈晓婷,毛太田1202023年第9期数字人文我国文献遗产“自上而下”政策战略要素基本齐备,需融合大量理论准备和技术
7、支持,以及更多落地应用的实践方案。围绕载体、环境和技术的传统型文献遗产保护2体系比较完善,但文献遗产不能囿于延续其寿命的专业性活动范畴。世界记忆项目最高层次的目标是于人之思想中构建和平,核心做法是开放获取。运用信息技术促进文献遗产数字化传播是开放获取的必经之路。国内文献遗产的本体构建研究成果有限,这与我国丰富的文献遗产和文献遗产数字化传播的迫切需求存在供需不匹配的矛盾。现阶段将文献遗产转变、重现、还原成可共享、可利用的数字形态的遗产资源,实现知识的共享和复用,以及数据的互联互通,成为保护和开发文献遗产资源的重要方式。因此,本文通过构建文献遗产本体模型,以中国档案文献遗产名录为例,实现本体的构建
8、及关联的可视化呈现,以此展现知识组织的过程,满足文献遗产多元主体的知识服务需求。1文献综述(1)文献遗产。自1992年教科文组织通过世界记忆项目后,文献遗产成为学界关注热点。国外研究包含4类:一是文献遗产保护,如技术保护3、保护个案分析4、数字化保护5。二是世界记忆工程。世界教科文组织在促进全球文献遗产申报上存在局限6,而世界记忆项目因“慰安妇”档案申报而被暂时冻结、章程和条例被修改,以及执行决定的拖延引发公众质疑,学者们认为该从防止暴行再次发生,侵犯或歧视受害者的声音是否以及如何被了解、保存并传递给后代的角度,反思该事件7。学者们还发现世界记忆名录的遴选偏向欧洲、包含性别和种族等偏见、受领域
9、专家权威影响、倾向选择不引起争议的遗产8。三是数字文献遗产。学者认识到世界记忆名录中数字文献遗产代表性不足9,采用“全社会方法”研究加拿大数字文献遗产评估和获取模式10,讨论可持续性概念对数字文献遗产的影响11。四是获取和使用文献遗产。通过关于保存和获取包括数字形式在内的文献遗产的建议书的演变,研究提升世界记忆项目知名度的最佳方式12。我国文献遗产研究起步晚,以“文献遗产”为确切主题的研究滥觞于中国档案文献遗产工程启动后,相关研究可分为4类:一是档案文献遗产保护,如构建文献遗产精准保护框架13和以传统研究框架为基础、以“文化”为核心、以“传播”为目的的拓展型研究框架2。二是国内外记忆工程研究,
10、如文献遗产政策分析14、参与记忆工程的途径15、记忆工程的申报评选16。三是文献遗产的开发利用创新,运用数字人文、语义网络等开发利用文献遗产17。四是北京奥运文献遗产研究18。(2)三大遗产领域本体构建。世界教科文组织三大旗舰遗产项目(世界遗产、非遗、世界记忆)是一个复杂的系统,可运用本体构建进行系统的知识管理,研究主要包含3类:一是非遗领域本体构建,如从关联数据和语义描述角度构建本体19。二是世界遗产本体构建,如运用三维标注20、关联数据21等工具构建本体。三是基于多媒体数据的本体构建22,如基于关联数据、数字人文等方法,从储存、检索层面构建技艺、舞蹈、建筑、陶瓷等遗产本体,也拓展了基于图像
11、、视频等多媒体数据的研究。综上所述,国内外文献遗产的研究在大方向上基本相同,如文献遗产保护的研究占据半壁江山,但国外更关注记忆工程的重大事件和数字文献遗产。不过,三大遗产之一、身居幕后的“记忆遗产”鲜被关注,遑论文献遗产本体构建研究。实际上,本体构建技术、方法与理论可赋予传统人文学者关于文献遗产研究的新思路。2理论基础(1)文献遗产。文献遗产通常与档案文献遗产进行对比,以区别二者的概念与涵义。文献遗产指对一个社群、一种文化、一个国家或整个人类具有重大和持久价值的单一文献或一组文献,这些文献的状态恶化或丧失将是严重的损失23。121数字人文“世界记忆项目”旨在保护和利用图书馆、档案馆收藏中不可替
12、代的遗产。“中国档案文献遗产工程”是全国统一部署、整体文化事业系统参与、为保护我国档案文献遗产这一记忆遗产的重要文化工程24。“档案文献遗产”是“中国档案文献遗产工程”的衍生成果,应指所有公私机构及个人收藏的具有重要记录作用和历史价值的,且经过各级评审机构认定的珍贵文献。不仅世界记忆名录如此,中国档案文献遗产名录的收录也不局限于档案馆,还包括图书馆、博物馆、研究机构等不同机构的珍贵文献遗产。加之2019年中国档案文献遗产名录变更为世界记忆中国国家名录25,进一步证明“文献遗产”并不仅指“档案”,“档案文献遗产”逐步与国际上的“文献遗产”接轨。“文献遗产”一词凸显和认可了珍贵文献的价值,如若文献
13、未经过评定,就难以广泛而权威地认可其价值,不能称为“文献遗产”。因此,本文所指“文献遗产”即为“文献遗产项目”,而文献能否成为“文献遗产”,需经相关评审机构认定其价值。(2)数字记忆。冯惠玲26认为数字时代的人们大规模地从现实空间迁移到虚拟空间,对数字记忆的需要也是记忆管理的要求,要构建丰富而活泼的数字记忆。数字记忆是将特定对象的历史文化信息以数字方式采集、组织、存储和展示,在网络空间承载、再现和传播的记忆形态。数字记忆尝试运用多样的数字化技术构建更为聚合、安全,重视体验、便于使用的虚拟“记忆宫殿”,为人类文化遗产的传承、传播、保护以及全球化提出创新路径。其对本研究的启发是:以数字记忆理论为依
14、据,从文献遗产的数据体量和更为精准的场景还原度上提高文献遗产项目蕴涵的文化记忆的真实性。提取某些关键记忆要素来印证与重建文献遗产历史,在虚构的数字世界中建立文献遗产相关叙事信息的联系,从而激发记忆主体的情绪、想象与意识,实现数字时代集体记忆的构建和传承。文献遗产本体构建的研究使用各种数字技术组织与再现各种记忆资源,创造性地拓展人们记忆的功能和领域,创新文献遗产的保护、传播、传承的途径。(3)本体构建。本体是某一领域描述概念及概念间的关系和语义、规范该领域知识表示的模型,即用于刻画人们认知某领域的基本框架,是共享概念模型明确的形式化规范说明27。依据自动化程度可将本体构建划分为人工、半自动和自动
15、3类。人工构建本体的缺陷为极度依赖领域专家、工作量大、效率低,实现大规模本体效果差。半自动本体构建指由领域专家利用现有资源(叙词表、分类表、专业词典等)甄别和筛选领域的概念及关系,将有规律可循、任务明确且复杂程度低的工作交付机器完成,提高了工作效率。自动化本体构建指使用自然语言处理、机器学习等方法从数据源中自动抽取概念及关系。关系抽取是其最重要但还未得到完全解决的环节,完全自动构建本体的技术还不具备实现的可能,目前自动化本体构建不太适合人文知识需求较高的文献遗产本体构建。常见的本体构建方法有METHONTOLOGY 法、骨架法、IDEF-5 方法、TOVE法以及七步法,不同构建方法可匹配适合的
16、应用场景,并无优劣之分28。本文采取七步法、Protg5.5.0 工具构建文献遗产本体:确定构建本体的专业领域和范畴;考虑复用现有知识本体的可能性;分析并列出本体的重要专业术语;定义本体的类和类的层级;定义类的属性;定义属性与关系;创建实例。3文献遗产本体模型构建3.1文献遗产本体模型及构建方法依据本体模型的定义和内涵,本文认为“文献遗产本体模型”是文献遗产领域共享概念模型及其关系的形式化规范说明、概念及概念间语义关系的明确表达,是揭示文献遗产内涵、特征的总体框架和描述模型,是实现不同遗产信息系统间互操作的支撑。(1)本体模型的设计标准。Gruber29提出清晰明确、一致连贯、可扩展性、最小的
17、编码偏差、最小的本体承诺等五大本体论设计标准。本研究在此基础上,提出以FAIR原则为指导的文献遗1222023年第9期数字人文产本体模型构建原则,包括可发现、可获取、可互操作、可复用4项子内容30。本文将文献遗产的数据FAIR化,建立通用受控且语义丰富的本体来描述数据,实现文献遗产数据可发现、可获取、可互操作和可复用,以及数据和元数据的语义标准化。(2)复用的相关本体模型。由于文献遗产领域并无完善的本体模型可复用,且文献遗产兼具文化遗产学和档案学两大学科的内涵,笔者根据文化遗产领域本体概念参考模型(CIDOC Concep-tual Reference Model,CIDOC CRM)、都柏林
18、核心元素集(Dublin Core Element Set,DC)、贝叶经特色数据库核心元数据、FOAF关系词表和中国档案分类法“中国档案文献遗产工程”入选标准细则,建立和完善本体分类等级体系,以实现已有资源更多关联,扩大资源间的互操作性,依需求相应扩展文献遗产的属性或关系。3.2文献遗产本体模型构建过程3.2.1定义核心类与层级本体模型构建通常采用自顶向下、自底向上两种方式。自底向上适合大规模开放、通用型领域,如搜索引擎;自顶向下更适合具体领域本体模型构建。因此,本文的本体模型设计采用自顶向下设计原则。参照文化遗产分类信息、档案分类法信息和档案网站上的实例信息,提取出与文献遗产相关的概念术语
19、。本研究构建的文献遗产本体模型以文献遗产项目为中心,在 Protg 中预设大类(Things),将顶级类目设定为一级类,分别为文献遗产项目、项目类型、地理位置、时间、物理特征、事件、责任者7个核心类别(见图1)。(1)文献遗产项目类。在本体构建过程中需说明文献遗产的背景信息,如形成时间、责任者、项目类型、文献格式等,可通过元数据表现。本研究数据来源主要为网络数据,而都柏林核心元素集是基于web资源定义的包含15个元素的集合31,与文献遗产项目类元数据高度契合。因此,本研究选择都柏林核心元素集的项目名称、简介定义文献遗产项目的子类。中国档案文献遗产名录 入选标准32提出7条准则包括主题内容、时间
20、、地区、民族与人物、形式与风格、系统性、稀有性等文献价值特征,可作为复用本体的参考。此外,根据文献遗产项目特点,增加认证时间、认证批次、级别、项目类型、责任者、申报地区、历史沿革、项目编号等(见图2)。文献遗产项目子类为名录中遗产的名称,认证批次为遗产入选名录的辑次,级别为国际级、地区级、国家级、地方级四级名录体系。(2)物理特征类。借鉴贝叶经特色数据库中的文献遗产项目dh:DHProject项目类型dh:Category地理位置dh:Place物理特征dh:physicalCharacteristic事件crm:Event时间dc:TemporalEntity物理特征dh:physicalC
21、haracteristic责任者foaf:Agent群体dc:Group主要人物foaf:Person组织机构foaf:Organization组织机构foaf:Organization子类对象属性图1文献遗产本体模型的核心类与关系项目名称认证时间认证批次dh:Batch级别dh:Level文献遗产项目dh:DHProject项目编号项目编号历史沿革简介主要价值dh:Value申报地区dh:Place责任者foaf:Agent项目类型dh:Category图2文献遗产项目类及其属性dc:hasTypedh:hasPlacedh:hasTimedh:isPhysicalCharacteristi
22、cdh:ConsistOfdh:hasPersondh:hasPlacedh:hasTimedh:ParticipatedInfoaf:memberrel:mentorOfdc:titledh:acceptedDatadh:batchdh:leveddh:codedh:historydc:abstractdh:mainValuedh:hasPlacedh:hasResponsibilitydh:category123数字人文核心元数据元素33,将文献遗产项目物理特征的子类定义为载体材料、文献格式、存储地点、保存方式、所有权、数量、尺寸、语言等。载体材料是指文献遗产呈现形式,可分为甲骨、金石、缣
23、帛、简牍、纸张、胶片、磁记录载体、光盘等8种载体类型,如金石载体的遗产有利簋、简牍载体的遗产有清初满文木牌。文献格式为图片、文本、视频、音频等。语言为该文献遗产使用何种语言创造(见图3)。(3)责任者类。文献遗产项目的申报与保护需依托图书馆、档案馆、博物馆等专业文化机构作为申报平台,文献遗产评估与入选名录还需文化主管部门的主导,专业机构的参与。责任者类还涉及文献遗产形成、流传的相关人物。因此,责任者类是文献遗产相关群体、主要人物、组织机构的抽象,主要复用 FOAF 本体模型的foaf:Agent类。主要人物类及其属性中foaf:Group是指文献遗产中的群体,如样式雷家族;机构组织主要包括政治
24、机构、民间组织、经济企业;foaf:Person指与文献遗产有关联的人物,如创造者、保护者和申请者;foaf:Oranization是文献遗产项目中的组织机构用户。在文献遗产领域主要通过父子、师徒、同事等关系,建立人物类实体之间的关系(见图4)。(4)事件类。事件类选择复用CIDOC CRM的E5 Event,将文献遗产领域本体中的事件定义为Event,是人物、时间、地点等元素的集合,主要围绕文献遗产的生成、项目申报、保护等活动,往往由某一具体事件为载体进行储存呈现。事件发生也会有息息相关的地理位置、具体时间、事件主客体等。通过事件这一关键情境将文献遗产创造者、文献遗产相关人物、文献遗产项目、
25、组织机构进行串联。(5)地理位置。地理位置是指文献遗产中记载的空间位置信息,是揭示文献遗产知识的重要信息。许多文献遗产具有悠久历史,如入选中国档案文献遗产名录年代最早的遗产可追溯于两千多年前的西周利簋,该青铜载体的实物档案证实甲子日武王灭商的商周断代之事;该遗产于20世纪在陕西临潼出土,藏于中国国家博物馆,涉及多个地区。本文将地域分为省份和具体地点名称。(6)项目类型。文献遗产涉及多个历史时期,结合文献遗产特性,借鉴中国档案分类法对文献遗产主题进行分类。中国档案分类法展现不同时期机构组织从事工作、职能的档案内容及其呈现的事物属性关系类别,其上到下、总分的结构与知识本体的体系具有相似之处。本文文
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国档案文献遗产名录 文献 遗产 本体 构建 中国 档案 名录
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。