文化遗产领域知识纲要研究_侯西龙.pdf
《文化遗产领域知识纲要研究_侯西龙.pdf》由会员分享,可在线阅读,更多相关《文化遗产领域知识纲要研究_侯西龙.pdf(13页珍藏版)》请在咨信网上搜索。
1、第 卷 第 期 年 月文化遗产领域知识纲要研究侯西龙,王晓光,翁梦娟曲阜师范大学传媒学院 日照 武汉大学文化遗产智能计算实验室 武汉 武汉大学信息管理学院 武汉 摘 要:目的 意义面向文化遗产领域的知识分析研究,对领域知识建模、知识组织、智慧数据资源建设等具有重要意义。方法 过程为明确文化遗产领域知识结构与特征,基于对领域本体的计算与分析,系统剖析文化遗产领域核心共享概念以及领域知识关联关系,提出并构建文化遗产领域知识纲要。结果 结论文化遗产领域核心共享概念包括领域对象与实体、类型与概念、时间与空间、事件与活动、文献与作品、代理者等内容,领域知识关联关系丰富多样且较为复杂。研究结论有助于更全面
2、地理解与认识文化遗产领域知识体系,指导领域本体开发与知识建模,促进领域知识的有效组织与管理。关键词:文化遗产 知识纲要 本体 知识组织 知识关联分类号:本文系国家社会科学基金青年项目“文化遗产图像资源关联数据集成与叙事化呈现研究”(项目编号:)和湖北省科技厅重点研发计划项目“文旅大数据关键技术研发与应用示范”(项目编号:)研究成果之一。作者简介:侯西龙,副教授,博士;王晓光,教授,博士生导师,通信作者,-:;翁梦娟,博士研究生。收稿日期:修回日期:本文起止页码:本文责任编辑:易飞 引言 文化遗产领域知识的有效表示、组织与管理,是建设文化遗产智慧数据资源、实现文化遗产智能计算的基础和前提。语义网
3、环境下,基于本体的领域知识组织方法通过提供对领域知识的共同理解实现知识共享,被认为是对领域知识组织最有效的技术与方法。本体作为领域对象及其关系的概念化、形式化的统一表示,可以实现对主观知识的客观表达以及隐性知识的显性表达,在文化遗产数据化过程中发挥着重要的桥梁和枢纽作用。本体基础设施建设也已经成为文化遗产数据资源开发与建设、领域知识共享与重用、解决高层语义互操作问题的核心与关键。目前,围绕文化遗产领域本体设计构建、信息组织实践等主题开展了丰富的研究,但对文化遗产领域知识体系的独特内涵、领域知识表示与组织的核心内容等问题及其原理的研究仍不足。实现文化遗产领域知识的有效组织与管理,核心是对领域知识
4、及知识间关联进行描述与揭示。领域知识纲要可以被认为是从领域知识抽象出的概要性的概念体系,是某一领域内的核心概念以及概念之间的相互关系的集合,反映了领域知识更高语义层面上的基本知识体系与结构。领域知识纲要作为领域知识组织的顶层架构,决定了领域知识组织的最终形式,是领域知识组织与知识服务的基础性工作。而本体恰是对领域知识进行逻辑抽象而构筑起来的体现概念及其关系的概念模型。因此,通过对领域本体与概念模型的剖析,归纳其表现出的共同的知识纲要,可以从更高抽象层次表征领域知识体系的一个“剖面”。为此,本文从领域本体视角解析文化遗产领域核心概念以及知识关联关系,在此基础上构建文化遗产领域知识纲要,进而分析文
5、化遗产领域本体构建与知识表示中存在的问题与挑战,并提出具体的解决思路和对策建议。本文对文化遗产领域知识纲要的分析与构建,有助于增强对文化遗产领域知识体系的整体性认识与理解,促进领域本体的开发与知识建模,为文化遗产领域知识组织、知识重用与知识服务等奠定基础。相关研究综述 每一门科学都包含着大量的概念,即众多事实、思想和专业名词,这些概念构成了科学知识的基本单元。本体以结构化的方式呈现特定领域中复杂的知侯西龙,王晓光,翁梦娟 文化遗产领域知识纲要研究 图书情报工作,():识概念,进而建立概念的一致性。本体通过对概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识体系,反映特定领域知识结构的
6、概念体系。面向领域知识组织与分析时,概念表达了某个词汇背后所包容的、错综复杂的领域背景知识,知识内涵往往通过领域术语间的关联形式化揭示。因此,本体实质上反映了特定领域的知识结构,领域知识的核心内容和概念关联都会在本体模型中得到体现。随着文化遗产领域本体复杂度与规模的不断增加,带来了本体理解与复用、本体互操作等问题。因此,国内外学者提出本体剪枝、本体模块化、本体概要等方法,其核心思想都是从本体中提取概要性的关键信息,有效解决本体查询效率低、内涵难以理解、本体复用较难等问题。针对文化遗产相关领域,从机器自动化理解和解释的视角,对文化遗产领域本体的可用性开展评估和数据剖析。等从词表规模、树结构、耦合
7、度等指标对文化遗产领域本体的设计复杂度进行测度。等构建了知识组织系统质量测量指标,对文化遗产领域常用的知识组织系统进行了深入的质量调查与分析。等提出识别提取领域本体共同概念组件的方法,支持对多个本体词表的理解与比较,并选择文化遗产领域本体词表开展社区聚类划分实验。在对、等模型的属性与关系分析的基础上,提出了围绕文化遗产对象的文化相关关系词表。贾君枝等利用本体映射技术实现对人物本体词表的聚合与映射,提供清晰明了的人物本体词表体系。夏翠娟提出本体应用纲要的设计方法和流程,并结合一体化本体融通模型为文化记忆资源的知识融通提供了方法和路径,一体化本体知识融通模型旨在厘清各类实体与概念体系之间高度抽象的
8、关系。苏新宁认为领域知识组织实施的科学与高效,在于对领域知识结构的认知和把握,需要探索知识单元间的关联结构、属分结构、交叉关系等,但领域知识结构认知的研究仍有待深入。目前,文化遗产领域本体的相关研究目前主要集中在领域本体设计与开发、本体互操作以及本体应用等方面,但对文化遗产领域本体的整体特征与领域知识分析的研究仍不够系统和深入,缺少对文化遗产领域概念体系与知识结构认知的研究。为此,本文拟基于对文化遗产领域本体的分析,从更高抽象层次构建整个领域的知识纲要,进而明确领域知识体系与知识结构,指导领域本体开发、领域知识组织与知识服务等。研究设计 总体研究框架 本文采用定量计算与定性分析相结合的方法,基
9、于领域本体分析文化遗产领域知识纲要,总体研究框架如图 所示。首先在对文献调研与专家咨询的基础上,确定本文的研究对象,收集领域本体与词表。其次,根据本体映射的思想,设计基于词汇语义相似度的概念相似度计算方法,形成领域的共享概念类簇。在此基础上,结合对领域本体结构与内容的人工分析,梳理领域本体的对象属性及其定义域与值域,归纳领域核心概念之间的知识关联关系,最终建构出文化遗产领域知识纲要。图 文化遗产领域知识纲要分析框架第 卷 第 期 年 月 文化遗产领域本体样本选择 随着语义网技术的发展与应用,文化遗产领域本体规模和本体复杂度快速增长。依据与文化遗产领域密切相关且应用较为广泛的筛选原则,本文结合文
10、献调研和专家咨询的方式,最终确定了 个具有代表性的文化遗产领域本体模型,如表 所示。从关联开放词表(,)等本体存储库或项目官方网站,获取样本本体的 或 编码文件。本文选取的领域本体主要包括文化遗产领域通用型本体,图书馆、档案馆与博物馆等机构常用本体以及项目应用型本体等,涉及文献、档案、文物、建筑、艺术、戏剧、图像志等多个主题。()通用型本体包括文化遗产领域广泛应用的 模型、模型等。其中,模型旨在将异构的文化遗产信息资源进行融合、交换和整合,为文化遗产领域信息的共同理解而制定的通用且可扩展的语义框架。欧盟数字图书馆 项目构建的 模型,在统一各机构数字资源的数据格式、元数据语义融合与语义关联方面发
11、挥着重要作用。()图书馆、档案馆与博物馆等机构常用本体包括书目本体、书目框架 与 模型、针对档案资源的整理与描述的“档案描述本体”()以及国际档案理事会“上下文记录本体”()等。同时,选取了文化遗产领域广泛使用的、等盖蒂词表的 本体。()项目应用型本体选取国外文化遗产资源建设领域比较知名的项目,包括意大利文化遗产知识图谱项目构建的 本体、欧洲数字文化遗产 项目构建的顶层本体模型。项目旨在利用数字技术,通过文化数字资源、公民观点和历史场景之间的互联,推动对欧洲历史和社会的反思与重新诠释。则是为描述文化机构与场所以及文化事件而制定的标准化本体模型。此外,还选取了描述与编码戏剧作品的戏剧综合本体 以
12、及描述图像与照片档案等视觉要素和视觉符号的“视觉表示本体”()等。表 选取的文化遗产领域本体编号前缀本体名称命名空间类数量 个对象属性数量 个说明 :书目记录的功能需求 :书目框架 :书目本体 :文化遗产领域信息整合、交换、共享和重用的概念参考模型 :欧盟数字图书馆项目制定的统一数据模型 :盖蒂词表本体 :文化对象的历史情境信息描述本体模型:欧洲数字文化遗产 项目顶层本体 :文化机构和文化事件本体:意大利文化遗产知识图谱本体 :档案描述本体:戏剧综合本体 :书目参考本体 :国际档案理事会档案本体,概念模型的本体表示 :视觉表示本体总计 注:本体的类数量和对象属性数量通过解析其本体编码文件进行统
13、计,包括了其复用的类或对象属性侯西龙,王晓光,翁梦娟 文化遗产领域知识纲要研究 图书情报工作,():领域共享概念计算方法 领域概念是知识纲要的基础要素。领域共享概念可以理解为领域本体建模时通常会考虑或涉及的维度和术语,本文主要通过跨本体之间的实体相似度计算来提取领域本体共享概念。具体是在本体的元素层面,通过本体类名称标签的语义相似度计算和聚类,发现文化遗产领域本体之间共同的核心概念。本体中类的相似度计算主要分为词汇相似度和结构相似度两大类型;由于文化遗产领域本体往往针对不同的描述对象或细分领域,本体之间的结构差异较大,本文主要探讨领域的共享核心概念和语义建模维度;因此,概念之间相似度计算主要采
14、用基于词汇的语义相似度计算方法,计算流程如图 所示:图 不同本体之间类的相似度计算流程 本体解析与预处理 利用 库对本体编码文件进行解析,获取本体包含的类、对象属性、约束与公理等。随后进行数据清洗与预处理,对类与属性的名称标签进行分词、去停用词、提取词干等处理。首先,利用正则表达式对字符串进行单词分割,并将本体术语的缩写改成单词全拼的形式。然后,对分割后的单词去停用词,并进行词干提取。由于英文单词会存在时态、单复数形式不同的情况,使用词干提取方法得到单词的词根。基于向量空间的相似度计算 由于本体间存在类复用与继承的情况,因此在计算不同本体之间类的相似度时,区分类之间的相等关系、父子关系和独立关
15、系 种类型。除了相等关系外,对于存在父子关系的情况也视为具有较高的相似度。本体类之间的相似度(,)计算方法如下:(,),相等关系,父子关系(,)独立关系公式()()类相等关系:(,:,)。其中,、代表不同的本体。通过类的资源标识符 和:陈述声明,判断两个类之间是否存在相等关系。()父子关系:(,:,)。其中,、代表不同的本体。对于复用外部本体的类并将其作为直接父类的情况,定义二者存在较高的相似度。()独立关系:类 的词向量表示为,类 的词向量表示为。计算二者之间的余弦距离作为类之间的语义相似度。本文采用基于 词向量模型获取类名称短语的向量化表示。作为非监督学习技术,考虑上下文的语义关系,将文本
16、内容的处理转化为向量空间中的向量运算,用向量空间中的相似度来表示文本语义的相似度。文化遗产领域知识纲要分析 文化遗产领域核心共享概念及其存在的多类型的知识关联关系构成了文化遗产领域的知识纲要。本节从本体视角研究领域核心共享概念与知识关联关系,构建文化遗产领域知识纲要。领域本体复用分析 复用现有的本体是构建本体的一个重要参考原则。本体复用不仅可以减轻本体设计工作,更重要的是有助于提高互操作性,避免表述的歧义及冲突,减少冗余。本体的复用可以体现在不同的方面,从复用方式角度可以分为外部本体导入式的“硬复用”以及参考本体中某些元素的“软复用”,具体又可以分为直接的实体复用、间接的本体模块复用、直接的本
17、体设计模式复用、间接的本体设计模式复用。依据用户第 卷 第 期 年 月关注点的差异,词表重用类型划分为词表层复用、概念层复用,两者通常结合在一起使用来实现对数据的描述与表示。本文对 个领域本体模型与外部本体或词表之间的复用情况进行数量统计和可视化。表 列出了被复用比例较高的本体或词表,图 所示是领域本体之间及与外部词表间的复用关系,节点大小表示被复用的次数。分析发现,文化遗产领域本体的复用情况大部分属于概念层面的直接实体复用,仅有很少的领域本体在设计时对其他本体的设计模式进行了借鉴,比如,本体利用极限设计方法借鉴了现有的本体设计模式。表 领域本体复用外部词表情况统计前缀本体名称命名空间统计 :
18、图 领域本体与外部词表间的复用关系可视化 通过对领域本体复用分析发现,文化遗产领域本体的形式化表示普遍采用 国际标准以保证本体的通用性和互操作性。除了采用、和 描述语言对本体进行形式化编码外,、和 元数据标准等通用型词表常被用于参考与复用。此外,文化遗产突出的时空特性也体现在本体复用中。文化遗产领域本体较多采用能够表示经纬度、高度等地理位置信息的 本体,以记录和保存文化遗产信息资源的空间信息,使用以事件为中心的 本体表示文化遗产的事件知识。同时,在文化遗产领域具有较强的影响力,被国内外众多机构与项目所采用。语义网中本体模型的使用呈现出长尾现象,少数的本体得到了较多的参考与复用,而大多数的本体较
19、少得到复用;这一现象也在文化遗产领域有所体现。此外,文化遗产领域本体之间的相互复用以及不同数据集之间的开放关联,促进了文化遗产领域信息资源的集成、共享与重用。侯西龙,王晓光,翁梦娟 文化遗产领域知识纲要研究 图书情报工作,():文化遗产领域核心共享概念 类是本体中重要的组成部分,是对同一类实体对象的抽象。文化遗产领域本体中类的设计,可以看作是对文化遗产对象语义描述的维度。针对同一领域,一般使用特定的术语来表示特定事物,虽然术语命名存在多元化的表示方式,但从概念术语的语义层面推测事物的相似性是一个很好的线索。因此,本文采用基于语义的相似度计算方法测度类之间的相似度,并根据相似度矩阵对所有的类进行
20、聚合;在此基础上,发现文化遗产领域的核心共享概念与本体建模维度,从宏观角度提供对文化遗产领域知识的认识与理解。本文根据公式()计算本体间类的相似度矩阵,将结果导入 工具进行可视化聚合,利用 进行剪枝,结果如图 所示。图中节点大小采用平均加权度,并利用模块度社区发现算法进行聚类。图 领域核心共享概念聚合结果可视化 从图 中的类簇可以看出文化遗产领域的核心概念主要包括领域对象与实体()、类型()、地点()、事件与活动()、文献()、概念()等。其中,人、事、时、地、物是文化领域本体建模的必备要素和基本建模维度,而文化遗产涉及的各类对象和实体成为语义建模时重点关注的内容。本文将文化遗产领域核心共享概
21、念归纳为以下 个方面:第 卷 第 期 年 月 领域对象与实体 对象和实体()是文化遗产领域本体建模的核心内容。从图 可以看出,对象与实体是图中最密集的区域,主要包括“概念对象”“物质对象”“信息对象”及“陈述性对象”等概念术语。由于文化遗产的内容表达与载体表现丰富,包含着众多复杂的对象类型,既包括具体的物质实体对象,也包括抽象的观念或思想的概念对象。因此,不同的本体模型在目标、场景、范畴、视角等方面表现出差异化与个性化的特征。如表 所示,主要针对文化遗产的信息资源的聚合,区分信息资源以及非信息资源。主要围绕文化遗产物质对象和场所等,并将图像、音视频等数字对象定义为创造性作品。则涵盖了信息对象、
22、概念对象和物质对象等更多的内容。此外,文化遗产领域对象和实体不仅指单一的实体对象,还往往以集合和组合的形式存在。在网络信息环境下,这些模型的共同特征是区分智力创造与物理或数字对象,兼从物理空间、数字空间对文化遗产领域对象进行知识表示与知识建模。表 文化遗产领域对象或实体的分类本体前缀()分类层级解释说明将“万物”分为“法律对象”与“人造物”,其中“人造物”细分为概念对象与物质人造物将图像与音视频对象等定义为“创意作品”,将文化实体分为文化遗产对象以及文化机构或场所模型区分信息资源与非信息资源,将人物、时间、物质实体与抽象概念等作为非信息资源对象 类型与概念 与文化遗产领域对象与实体紧密相连的是
23、“类型与概念”()。由于文化遗产对象的复杂性和多样性,需要明确指定不同事物所属的类型,比如,遗产类型、对象类型、用户类型以及事件类型等,其术语一般来自分类表、主题词表、受控词表等知识组织系统。语义网环境下,此类知识组织系统一般使用 提出的 作为表示知识组织系统的标准规范,来表达概念的基本结构和内容,实现不同应用程序间的数据共享。面向文化遗产领域进行本体建模时,类型与概念的设计能够充分表达文化遗产领域对象的多样性与差异性,从多个维度揭示领域知识系统之间的复杂的语义关系。国外在文物、艺术品和图像领域已经建立较为成熟的叙词表,包括盖蒂词表()、图像志分类系统、美国国会图书馆的 等,用于馆藏资源的编目
24、、分类、标注与检索。同时,国内学者也越来越关注文化遗产细分领域的主题词表建设问题,如敦煌壁画叙词表、中国文物纹饰叙词表等,以期实现对领域知识系统、全面、语义化的组织,进而促进资源互通与共享。时间与空间 时间与空间是人类社会发展及人类文明的两大基本描述维度,文化遗产往往具有明显的时间特征和空间特征。文化遗产的形成、发展与演变以及社会历史变迁、文化习俗演变等都体现出丰富的时空关联。时空数据建模技术在历史地理知识库、历史事件、非遗文化空间、家谱、考古等专业领域得到应用。地理信息系统与数字人文研究的深入融合解决了研究资料离散、时空分离的难题,促进了对文化遗产所承载的历史文化动态演变的时空分析与研究。因
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化遗产 领域 知识 纲要 研究 侯西龙
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。