人工智能时代的元数据方法论.pdf
《人工智能时代的元数据方法论.pdf》由会员分享,可在线阅读,更多相关《人工智能时代的元数据方法论.pdf(14页珍藏版)》请在咨信网上搜索。
1、图书馆理论与实践2023 年第 4 期(总第 264 期)人工智能时代的元数据方法论刘炜1,刘倩倩1,付雅明2,祝蕊3(1上海图书馆/上海科学技术情报研究所;2南京大学信息管理学院;3上海大学文化遗产与信息管理学院)摘要:元数据是关于数据的数据,随着技术的进步,元数据获取逐渐成为信息系统数据建模和实现功能的关键性步骤,发展起一套包括实体定义、关系描述、对象分析、属性提取、本体建模,以及数据清洗、消歧、对齐、映射、关联、丰富、导入、导出乃至服务部署、注册发现、运行监测等一系列操作的方法论体系,旨在帮助实现任何信息体的结构化描述、语义编码和机器理解。这些不仅是语义技术(包括关联数据)和知识图谱技术
2、必需的应用,而且已成为信息系统建立独立的、基于知识的内容架构的基本操作和主要方案。文章把与元数据相关的一系列方法体系统称为元数据方法,相关的最佳实践基本体现于语义万维网已经制定、正在制订或正在考虑制订的各项标准规范中。元数据方法在未来基于 Web 3.0 的多模态元宇宙建设中会继续起到多方面的重要作用,如利用知识模型构建数字孪生,甚至支持对整个虚拟世界的建模等。当然基于人工的描述和编码显然不能适应元宇宙时代用户生产内容(UGC)和 ChatGPT 带来的人工智能生成内容(AIGC)的内容生产方式,必须有一套方法论帮助自动实现语义形式化。这应该是元数据方法适应未来智慧时代需求的必由之路。关键词:
3、元数据方法;内容架构;语义建模;知识本体;Web 3.0;ChatGPT;元宇宙中图分类号:G254文献标志码:A文章编号:10058214(2023)04001614Metadata Methodology in Artificial Intelligence EraLiu Wei,Liu Qianqian,Fu Yaming,Zhu RuiAbstract:Metadata is the data about data.With the progress of technology,metadata acquisition gradually becomes a key step ofda
4、ta modeling and implementation function in information system.Developing a set of operational methodology system includingentity definition,relationship description,object analysis,attribute extraction,ontology modeling,the cleaning,disambiguation,alignment,mapping,association,rich,import,export of
5、data,service deployment,registration discovery,and operationalmonitoring,is to help achieve structured description,semantic coding and machine understanding of any information body.Theseare not only the necessary application of semantic technology(including related data)and knowledge graph technolog
6、y,but alsohave become the basic operation and main scheme for information system to establish an independent,knowledge-based contentframework.In this article,a series of methods and systems related to metadata are called metadata methods.The relevant bestpractice basically reflected in semantic Worl
7、d Wide Web has been developed,being developed or under consideration in eachstandard specifications.Metadata method will continue to play an important role in the construction of multi-modal metaversebased on Web3.0.For example,it can use knowledge model to build digital twins,and even support the m
8、odeling of the entirevirtual world.Of course,human-based description and coding obviously cannot adapt to the content production mode of usergeneration content(UGC)and artificial intelligence generated content(AIGC)brought by Chat GPT in metaverse era.Theremust be a set of methodology to help automa
9、tically achieve semantic formalization.This should be an indispensable way formetadata method to adapt to the needs of future intelligent era.Keywords:Metadata Method;Content Framework;Semantic Modeling;Knowledge Ontology;Web3.0;Chat GPT;Meta-verse1从元数据到元数据方法1.1元数据的产生与发展元数据产生于对事物进行描述的需求。在有“元数据”这个术语之
10、前其实就有这个概念了,最早可以追溯到五六千年前两河流域用来记载交易的泥板,到公元前 280 年左右亚历山大图特邀专稿016图书馆理论与实践2023 年第 4 期(总第 264 期)书馆用来对卷轴进行描述的标签和分类系统“Pinakes”,也就是后来演化并发展了数百年的图书馆卡片目录,这类早期的、数字时代之前的元数据应用都是基于手工在物理载体上的描述,只能以人工的方式进行管理、组织和利用,是“前”数字时代的元数据概念。都柏林核心元数据组织(Dublin Core Metadata Initiative,DCMI)的首席信息官 Tom Baker 称之为元数据 1.0 时期1。“元数据”一词是伴随
11、着数据库技术的发展和普及而出现的,在数据库应用中通常都需要对所描述的数据表进行一定的说明。人们用一条条记录(通常是数据表中的行)记载所描述对象的各种属性特征。这相当于把泥板内容或卡片元数据搬到了电脑里,从而实现“机器可读”;并通过赋予对象描述一定的结构,实现“机器可计算”,使人们能够利用计算机的能力,提高查询和管理元数据的效率。无论是磁带文件还是后来的关系型数据库,元数据都被用来记录数据结构信息及其他附注信息。这一时期它是被限定在封闭系统中使用的,图书馆行业的 MARC 书目数据就产生于这个时期,是最典型的元数据形式。这是元数据2.0 时期。真正使元数据“发扬光大”而流行起来成为“显学”,还是
12、在互联网时代,特别是在数字图书馆建设的需求背景下。此时信息爆炸使得信息的查找和过滤变得非常困难,人们需要在全球网络中找到有用的信息,于是寄希望于对信息体进行描述和结构化。最迫切的是对网页等数据类型和对象进行标识,以及满足数字图书馆中包含的大量商用与非商用的半结构化、非结构化资源库的检索需求,以实现“跨域”的数据组织、查找、定位、选择、关联、比较等目的。可以认为这一阶段元数据的作用是帮助从信息向知识进行转化,这是元数据的作用在互联网时代彰显出的核心价值,可以将这个时期称为元数据 3.0 时期。随着技术的发展,计算机能够处理的结构单元从信息进化为“知识”,机器的“可计算性”不仅指操控文本图像等数字
13、化信息,而且能通过对语义的描述和编码,直接对“知识”进行计算和操控,这其实也是通过一系列元数据描述和编码规范来实现的。通过标准化的编码,“知识”就能在机器之间传递和融合,实现机器的可理解和互操作。这可以认为是促进知识向“智慧”的转化,进而通过支持数据挖掘或机器学习实现“智慧数据”的功能,甚至能够支持自动构建知识体系。元数据 2.0、3.0 时代主要依靠人力来实现元数据规范化的方式显然是不能持续的,因此推进元数据标准规范的应用,使其从产生到编码、从关联到可视化,都尽可能达到自动化,在整个生命周期中尽可能减少人工参与,将人工智能应用于整个流程,尽可能全面采用机器学习技术,这是对未来元数据 4.0
14、的预期。1.2元数据方法的形成随着越来越多的数据库提供网络访问,元数据描述和应用需要遵循统一的规范标准,才能实现一致性理解和数据的互操作。回顾元数据的发展历史可以发现,元数据不仅仅是实现客观描述那么简单,描述的目的(为什么描述)和方法(如何描述)也同样重要,需要考虑方便性和成本因素,以及未来的可扩展性及兼容性。需要指出的是,元数据方案总有权衡取舍,需要在各种因素之间寻找到合理的平衡点。元数据方法通常体现为各类元数据标准及其最佳实践,以及与应用系统相关的各类元数据模型。DCMI 是专门推动元数据应用标准化的典型代表2,其近 30 年来的发展,也代表着“元数据方法体系”的主要历程。DCMI 诞生于
15、万维网问世之后不久。初衷是探讨对网页资源进行描述和编目的标准规范,名称中的“核心”一词是出于这批先行者的远见卓识,他们坚持了基本标准的“小就是美”,致力于提供一个普适的、最简单的“核心”元素集,而对于大千世界的复杂情况建议优先推荐一套扩展方法,以方法论为引领,而不是直接定义元素集,以使任何领域需求都能够围绕这个核心生长起来。后来的发展也证明了他们的明智之举。包含15 个核心元素的 DC 元数据集很快成为对互联网资源进行语义描述的基础标准,被 ISO、CEN、特邀专稿017图书馆理论与实践2023 年第 4 期(总第 264 期)IETF、NISO 等国际标准化组织和很多国家标准机构认可,接纳为
16、正式标准。DCMI 不仅提出了资源描述的属性元素核心集和扩展集(QualifiedElement Set),还提出了通过 DCAM 抽象模型对元数据记录的组成结构进行了规定,并且提出应用纲要(DCAP)作为元数据模式(MetadataSchema)领域应用的扩展规则,例如可以与其他常见的元数据词表,如 FOAF(用以描述人或代理 agent)进行融合而组成应用纲要,最常用的元数据词表和模式可以在 Linked Open Data 网站中找到。欧盟甚至以应用纲要作为标准,将 W3C的数据目录词表(DCAT)定义为可用于数据编码的模式 DCAT-AP,颁布为欧洲标准。DCMI 近年又致力于制订将
17、DCAP 进行形式化编码的表格(Tabular)规范,使元数据记录能够自描述和自解释,从而使元数据描述记录能够独立于技术实现。DCMI 对资源描述的基本结构提出了一个抽象模型和编码规范,为元数据应用的标准化和功能实现提供了基础的技术保证。图 1 定义了元数据记录的结构,称为“DCMI 元数据抽象模型”,规定了一个资源可以有任何编码形式(图中举例为 HTML、XML 或 XML/RDF,也可以是其他编码语言,但推荐采用 RDF 兼容的语言)的元数据集(描述集)组成。每个描述需要有一个资源 URI,属性元素和其取值构成了陈述(键值对);属性也可以是资源(拥有 URI),值也可以是资源(有URI);
18、值可以取自某个规范的编码体系(也有URI);取值的表达可以有语种和语法编码体系(有 URI 进行规定,如给一组正则表达式赋予一个 URI)的限定;除此之外,取值也可以是字符串或复合值(如 csv),或指向另一则描述。图 2是对元数据序列化的包结构进行说明:一个资源可以有多个描述,每个描述需要有规范的元素作为谓词及其取值,谓词可以有子元素,取值可以规定语言,以及从取值词表(主题)中获得。目前很多知识图谱应用中都没有严格使用这种抽象模型和包结构,因此在语义表达的规范性和互操作性程度方面,都达不到语义技术所希望的高度。图 1满足元数据描述抽象模型的元数据记录愚图 2包含修饰元素(三类“堪培拉限定词”
19、)的资源描述模型舆元数据应用逐渐普及,尤其是在科研数据库和文化遗产管理领域,逐渐形成了很多元数据的标准规范和最佳实践。在互联网领域,谷歌等搜索引擎提出基于 Schema.org 的知识图谱技术,使得网站建设开始普遍采用元数据方式提供搜索引擎优化(SearchEngineOptimization,SEO),从而使元数据几乎成为网页发布的标配;除此之外,DC 元数据标签(指 dc.title、dc.subject 等)的使用率大增,这也是搜索引擎希望揭示正确语义的一个步骤。元数据应用的普及有效提高了信息系统的查全率和查准率,能够多角度地揭示信息和数据之间的关系,也为不同资源系统之间的互操作提供了解
20、决方案3。然而这时的元数据应用大多只能通过人力来进行相关工作,如标引、抽取、组织、特邀专稿018图书馆理论与实践2023 年第 4 期(总第 264 期)关联、校对等,成本巨大,且严格的标准经常造成效率低下以及数据质量参差不齐,即使是简单的标准也会有内容揭示不够深入、可用性不强等问题,虽然元数据方法已初步成型,但尚未达到成熟阶段、未得到普遍应用,并且缺乏体系化的成果总结。在这里我们对元数据方法给一个简单的定义。所谓元数据方法,是对特定知识体系的内容架构进行形式化描述的系统性方法和规范,它不只是对机构内文献资源库提供结构化描述,而是为了在网络环境下,满足信息系统关于资源揭示、互操作和长期保存等相
21、关需求,具体功能包括查询、搜索、浏览、存取、排序,甚至分析、可视化等等。可以认为它是对语义万维网的基本资源集合提供结构化描述的形式化方案。2元数据与机器智能2.1从结构描述到语义编码如同编目之于传统图书馆,元数据方法是构建数字图书馆的基础,它初创于对网络资源和数字资源进行编目的需求。早期的数字图书馆通常缺乏整体的、宏观的知识体系描述,更没有在知识体系内部建立起实体之间的相关关系,只是提供了局部或微观的信息资源描述,实现的功能也很有限。在语义技术成熟之前,元数据只是用来生成结构化索引用以支持用户以结构化关键词方式进行资源检索,其中知识内容则隐含在结构化文本信息中。这类信息系统的知识传递只能面向人
22、消费,人们在获取信息之后自行解读其中的内容,机器和机器之间则无法传递语义,或提供语义互操作,并进行任何形式的知识集成。语义万维网技术的出现首次提出了一套完整的对语义进行编码和形式化的方式,支持通过对语义数据的计算,直接达到操控知识的目的。语义技术以“知识表示”技术为基础,实现了对一元谓词逻辑(即描述逻辑)的形式化表达,从而能够使计算机突破只能表示信息的限制,而直接对语义进行计算和操控。由于语义表达是标准化的,这种操控突破了任何单个、本地的信息系统,具有全网域的通用性,而且这种语义不仅是给人用的,也能在机器之间达成互操作,从而应用于物联网、传感网或在服务器之间的语义交互。可以说语义万维网技术的基
23、础是元数据。元数据最基本的功能是应用于数据结构化,然而结构化只是提供了机器可处理,光有元数据结构化描述是不够的,还需要有赋予元数据形式化的编码规范,形式化则是机器可理解的前提,解决元数据描述模式(schema)的可计算性问题。形式化通常是以“元数据模式(Schema)”方式提供机器可处理的编码,具体的元数据记录还需要实例化,即进行序列化编码4。一切编码都可以用XML 方式实现,当然也可以通过简化的等价的变种来实现。我们通常所说的元数据编码,其实就是解决元数据的可计算问题,依据元数据模式对具体的实例进行序列化,这样每一条元数据记录才能被计算机所理解和存储。严格的元数据编码规范应该是基于万维网协会
24、推出的资源描述框架,即 RDF,它规定了对任何实体进行描述的三元组结构,以及形式化编码规范,即 RDFS 以及 OWL2。当然也有不严格的直接采用图数据库的谱编码方案。每一条元数据都是关于事物属性的基本判断,三元组是元数据最自然的形式化表达,其具体实现可以是任何形式语言,如RDF/XML 或 N3,或 JSON-LD 等。可以认为三元组是人类认知的最小结构单位,是整个知识宇宙的基本粒子和知识大厦的一砖一瓦。元数据的形式化表达提供机器理解和更强大的可计算性,为元数据注册、查询、映射、发现、扩展、导航等元数据服务提供了可能。并且使计算机突破只能表示信息的限制,而直接对语义进行计算和操控。由于语义表
25、达是标准化的,这种操控是突破了任何单个、本地的信息系统的,具有全网域的通用性,而且这种语义不仅是给人用的,也能在机器之间达成互操作,从而应用于物联网、传感网以及服务器之间的语义交互。至此,以提供信息系统语义架构和内容架构为目标的一整套元数据方法体系就得以建立起来。特邀专稿019图书馆理论与实践2023 年第 4 期(总第 264 期)元数据方法可以看成是通过人工分析而对领域知识体系整体进行建模的过程,知识本体本身就是领域知识的概念化模型,因此知识本体(以下简称“本体”)的构建也是元数据方法的重要内容,如果采用了知识本体,就需要基于概念,而不是基于语词,这与传统信息检索中的基于概念的知识体系是一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 时代 数据 方法论
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。