![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于概念结构与分布式表征的术语语义知识库构建.pdf
《基于概念结构与分布式表征的术语语义知识库构建.pdf》由会员分享,可在线阅读,更多相关《基于概念结构与分布式表征的术语语义知识库构建.pdf(9页珍藏版)》请在咨信网上搜索。
1、中国科技术语/2023 年 第 25 卷 第 4 期基于概念结构与分布式表征的术语语义知识库构建王裴岩 李林娜 沈思嘉(沈阳航空航天大学人机智能研究中心,辽宁沈阳 110136)摘 要:词汇语义知识库的构建是自然语言处理中的一项基本任务,在自然语言处理的各子任务中发挥着重要作用。文章面向领域内复合型术语,提出术语概念 KDML 表示的自动生成方法,该方法基于概念的层级结构,采用分布式表征方法表征概念与术语定义文本,根据二者间语义距离大小进行概念消歧,通过 K 近邻算法学习概念间的语义角色,按照 KDML 语法规则生成术语概念的完整表示。实验取得首义原精确率为 96%,总义原、总语义角色与总三元
2、组的 F1 值分别为 91.92%、78.9%、73.41%的结果。关键词:分布式表征;语义消歧;HowNet;术语语义知识库构建中图分类号:N04;N949 文献标识码:A DOI:10.12339/j.issn.1673-8578.2023.04.001Construction of Terminology Semantic Knowledge Base Based on Conceptual Structure and Distributed Representation/WANG Peiyan,LI Linna,SHEN SijiaAbstract:The construction o
3、f lexical semantic knowledge base is a basic task in natural language processing and plays an important role in various subtasks of natural language processing.This paper proposes an automatic generation method of term concept KDML representation for compound terms.The method is based on the hierarc
4、hical structure of concepts,uses distributed representation method to represent concepts and term definition text,and performs concept disambiguation according to the semantic distance be-tween concepts and terms definition text.The method can learn the semantic roles between concepts through K-near
5、est neighbor algo-rithm,and generates term concept representation according to KDML syntax rules.Our experimental results showed that the accuracy rate of the first sememe was 96%,and the F1 values of the total sememe,semantic role and total triple were 91.92%,78.9%and 73.41%respectively.Keywords:di
6、stributed representation;semantic disambiguation;HowNet;construction of terminology semantic knowledge base收稿日期:2023-02-06 修回日期:2023-03-21基金项目:全国科学技术名词审定委员会科研项目“基于深度学习的术语概念语义图谱构建”(YB2022015)0 引言词汇语义知识库在自然语言处理的各任务中都扮演着重要角色。现有的词汇语义知识库主要是面向通用领域的,面向特定领域的较少,因此,构建特定领域的术语语义知识库具有重要意义。本文以航空术语语义知识库 ATHowNet 为
7、基础,基于 HowNet1的理论体系和概念表示形式,提出一种面向复合术语的术语语义知识库自动构建方法。该方法秉承复杂概念由简单概念构成的思想,由术语内子词概念构筑术语概念。术语概念采用了计算机可读的形式化表示方式。通过实验验证了本文提出的方法在自动生成复合型术语概念表示方面的有效性,并且能够扩展 ATHowNet 知识库的数据量。1 HowNet 与 ATHowNet1.1 HowNet 与概念表示方法HowNet 最初是由董振东和董强在 20 世纪 90年代设计和构建的一个以汉语和英语词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间关系为基本内容的常识知识库1。How
8、Net 最大的特点是采用可计算的知识库标记语言 KDML(Knowledge Data Base Markup Lan-3China Terminology/2023 Vol.25 No.4guage)描述概念。“HowNet 的知识表达模式是针对计算机的信息处理特点而制定的。”2KDML 这种形式化表达方式,便于将 HowNet 应用于相似度计算3、情感分析4、词向量5-6、语言建模7等。目前,HowNet 的网络开源版本 OpenHowNet8,包含35 202 个概念和 237 974 个中英文词。HowNet 遵循还元论,通过义原(sememe)和语义角色(semantic role)
9、描述概念。义原是最小的不可分割的语义单元。HowNet 通过对大量中文字的语义进行标注与归纳,定义了 2540 个义原,建立了义原的分类(taxonomy),分为事物(thing)、部分(part)、属性(attribute)、时间(time)、空间(space)、事件(event)与属性值(attribute-value)7 大类。语义角色定义为参与者在真实或想象的情境中与事件之间的固有关系,用以描述概念中义原的角色9。HowNet 定义了 116 个语义角色。表 1 给出了术语“橡胶减震垫”所表示概念的 HowNet 表示形式(KDML),并列出了涉及的全部义原和语义角色含义。“part|
10、部件”与“shiver|颤动”等为义原,whole 与 instrument 等为语义角色。概念表示以“DEF”开始,“”表示不同层级的概念,“patient表 1“橡胶减震垫”的概念 KDML 表示术语概念表示橡胶减震垫DEF=part|部件:weaken|削弱:patient=shiver|颤动,material=material|材料,whole=implement|器具,inlay|嵌入:instru-ment=义原part|部件shiver|颤动implement|器具material|材料inlay|嵌入tool|用具weaken|削弱shiver|驱动语义角色whole(整体是.
11、)instrument(用具是.)patient(受事是.)material(材料是.)=”表示事件“weaken|削弱”的受事是“shiver|颤动”。需要特别指出的是,“part|部件”作为第一个义原被称为首义原。KDML 的详细语法规则和义原及关系集,可以参考 HowNet 在线手册10。1.2 ATHowNet 与术语概念结构ATHowNet(Aviation Terms HowNet)11是基于HowNet 的理论体系与概念表示方法所构建的一个航空领域术语语义知识库,包含 4152 条记录、3864个术语和 3700 个概念。ATHowNet 扩宽了 HowNet的适用领域,通过形式
12、化描述航空领域的概念语义,能够实现领域概念相似性运算与概念关系推理。ATHowNet 针对航空领域术语多为复合词或词组的特点,更加注重概念间的构筑结构,即复杂概念由简单的概念构建,简单的概念由更为简单的概念构建,直至基础概念。表 2 展示了“橡胶减震垫”的多层级概念构筑关系。可见,“橡胶减震垫”由“垫”“减震”与“橡胶”三个子概念通过语义角色构成。如“垫”用来“减震”,由于“减震”的首义原“weaken|削弱”是事件类义原,因此“垫”与“减震”省略了语义角色,其含义是“减震”事件的施事者为“垫”。表 2“橡胶减震垫”概念层次构筑关系术语概念表示橡胶减震垫DEF=part|部件:weaken|削
13、弱:pa-tient=shiver|颤动,material=material|材料,whole=implement|器具,inlay|嵌入:instrument=子词(概念)概念表示垫part|部件:whole=implement|器具,inlay|嵌入:instrument=减震weaken|削弱:patient=shiver|颤动橡胶material|材料概念关系(语义角色)垫修饰(省略)减震垫material(材料是.)橡胶2 概念与文本的分布式表征分布式表征(distributed representation)12又叫4中国科技术语/2023 年 第 25 卷 第 4 期作嵌入(em
14、bedding),是将词、图片与文本等离散量转为低维、稠密、连续向量的技术。分布式表征能够通过向量计算实现不同粒度与形式数据的关系计算,如词与文本间或文本与图片间的计算。通常,分布式表征向量间的距离或是向量夹角余弦等运算能够体现两个被表征对象间的语义距离。这种性质 被 应 用 于 句 子 相 似 度 计 算12、问 答 系统13、图片搜索14等问题,例如在句子相似度计算中将句子中的词转为低维、稠密、连续的分布式表征向量,通过两个句子向量间的夹角余弦或欧式距离来体现句子间的语义相似性。本文利用分布式表征方法表征概念与术语定义文本,能够计算概念与概念间、概念与文本间的语义距离,用于术语子词概念消歧
15、和语义角色判断。对于概念,其分布式表征向量是全部义原表征向量的平均向量。首先,提取概念内全部义原,从腾讯词向量15中查询出该词的分布式表征向量,将该向量作为义原的表征向量。腾讯词向量是通过大规模文本数据训练获得的,在中文词语相似度运算、词类比及自然语言处理相关任务上都具有较好的效果。对于术语定义文本,其分布式表征向量是全部词表征向量的平均向量。用腾讯词向量的词表对术语的定义文本进行分词,并查询出每个词的词向量,求得所有向量的平均向量作为术语定义文本的分布式表征向量。3 术语概念表示的自动生成方法人类从客体特性出发,在脑中形成特征和概念(concept),概念反映事物的本质属性,同时也反映具有这
16、种属性的事物16。术语是专业领域科学概念的语言指称17,可以是单个词,也可以是复合词,一个词可以承载多个概念,一个概念也可能由多个词来体现。复合术语18是指由多个词组合而成的术语,组合结果所表达的语义构成了领域的重要概念,如“航空地球物理探矿”和“空中加油装置”是航空领域的复合术语,拥有完整的语义,表示领域内的重要概念。概念的内涵和外延是概念的基本特征,概念的内涵反映概念中对象的本质属性,概念的外延反映于思维中具有相同本质属性的事物对象,外延是受内涵制约的,如猫的外延包括白猫、花猫等,但不包括黄牛、泰迪。根据概念的基本特性可将概念分为属种概念19,属概念指具有各个种概念的共同属性,外延大,内涵
17、少,为一般概念,也可理解为上位概念,种概念相对而言是个别概念,根据种属概念的从属关系,特定语境下种概念会使属概念的外延缩小20,直至缩小为独立概念。复杂概念就是由种、属概念组合而成,来共同描述现实世界的事物,本文为了方便描述,将种概念和属概念称为简单概念,复杂概念则由简单概念构筑而成。本文沿袭并利用 ATHowNet 的领域概念构筑关系的思想,专门面向复合型术语,提出术语概念KDML 表示自动生成方法。3.1 总体流程本文提出的方法包括以下四步:(1)术语子词切分:切分出构成复合术语的子术语。(2)子词的概念消歧:对切分后的子术语,确定在该术语内所代表的概念。(3)子词概念间语义角色判断:判断
18、各个子词概念间是否存在语义角色,若存在则语义角色是什么。(4)术语概念描述生成:按照 KDML 语法规则,生成术语的概念表示。3.2 术语子词切分本文以 OpenHowNet 和 ATHowNet 中的词作为词表,采用逆向最大匹配算法对生成概念表示的术语进行分词。以 OpenHowNet 和 ATHowNet 中的词作为词表,能够保证切分出的词都带有 KDML 概念表示。逆向最大匹配算法能够保证最大粒度的切分,减少概念消歧和子词概念动态角色判断的数量,也能够保证最大粒度地重用已知概念。例如术语“橡胶减震垫”,其切分结果为“橡胶”“减震”“垫”三个子词。若词表中存在“减震垫”,则切分为“橡胶”与
19、“减震垫”两个词。并且将术语最后一个词作为术语核心词,其概念为属概念,属概念的义原为首义原。3.3 子词概念消歧术语子词切分之后,从 OpenHowNet 与 ATHow-5China Terminology/2023 Vol.25 No.4Net 中查询出每个子词的全部 KDML 概念表示。以术语“橡胶减震垫”为例,其切分后每个子词的概念列入表 3。可见“减震”与“橡胶”是单义词,即对应 1 个概念;而“垫”为多义词,对应 2 个名词与2 个动词 4 个不同的概念。依据术语“橡胶减震垫”的定义“保护设备和仪表部件免受振动和冲击影响的橡胶用具”,词“垫”在该术语中的概念应为第 1 个,表示一种
20、嵌入设备应用的部件。表 3“橡胶减震垫”的概念 KDML 表示子词概念表示说明垫1part|部件:whole=implement|器具,inlay|嵌入:instrument=名词,作为部件不能独立使用的垫,如“衬垫”2tool|用具:inlay|嵌入:instrument=名词,能作为用具单独使用的垫,如“气垫”3pay|付动词,支付4inlay|嵌入动词,垫入减震1weaken|削弱:patient=shiver|颤动动词橡胶1material|材料名词注:“”代表语义角色的论元是首义原义原,以“instrument=”为例,其含义是“嵌入”的“instrument(工具)”是该“tool
21、|用具”。术语定义对术语概念具有一定的约束性。依据定义“保护设备和仪表部件免受振动和冲击影响的橡胶用具”,术语“垫”的概念不可能为 2 个动词概念,“设备”和“仪表”作为“整体”,使得“部件”概念可能性增加。由此,采用的概念消歧方法是计算子词每个概念的分布式表征与术语定义文本分布式表征的语义距离。与术语定义文本分布式表征语义距离更近的概念作为最终被选择的概念。概念分布式表征与定义文本分布式表征采用第 2 节介绍的方法。语义距离计算方法采用向量夹角余弦,如式 1 所示,向量夹角余弦越大表明语义距离越小。s ec,ed()=ec,edec,eced,ed 式 1其中,ec为概念的分布式表征向量,e
22、d为定义文本的分布式表征向量。以“垫”为例,分别计算 4 个概念分布式表征向量与术语定义文本表征向量的向量夹角余弦,取获得最大值的概念为“垫”的概念。3.4 子词概念间语义角色判断子词概念间语义角色判断采用文献21所提出的基于实例的 KNN(K Nearest Neighbor)方法。该方法将语义角色判断问题转化为分类问题,分类标签就是 HowNet 的 116 个语义角色,即将两个概念分入某一语义角色类。首先,从 OpenHowNet 和 ATHowNet 的每个概念表示中抽取其子概念及子概念间的语义角色,形成“(概念 1,概念 2,语义角色)”三元组作为 KNN的实例集。例如对于概念“we
23、aken|削弱:patient=shiver|颤动”,则形成三元组“(weaken|削弱,shiver|颤动,patient)”。本文约定三元组中的语义角色是从概念 1 到概念 2 的语义角色,并称概念 1 为归属概念,概念 2 为被归属概念。实例集中增加了无语义角色的反例,从而在判断语义角色时能够判断出不存在语义角色关系的两概念。之后,将实例集三元组内的两概念用第 2 节的方法形 成 分 布 式 表 征 向 量。三 元 组 形 式 为ec1,ec2,r(),其中 ec1为三元组概念 1 的分布式向量表征,ec2为三元组概念2 的分布式概念表征。判断语义角色时,将待判断语义角色的两个概念采 用
24、 第 2 节 方 法 转 为 分 布 式 表 征 向 量ec1,ec2()之后,计算ec1,ec2()与实例集每个三元6中国科技术语/2023 年 第 25 卷 第 4 期组 ec1,ec2,r()概念间的语义距离,计算方法如式2 所示,其值越大表示语义距离越接近。s(ec1,ec2),(ec1,ec2,r)=(ec1,ec1)(ec1,ec1)(ec1,ec1)+(ec2,ec2)(ec2,ec2)(ec2,ec2)式 2 选取式 2 最大的前 K 个三元组,并将 K 个元组内同一语义角色的语义距离值相加,获得最大值的语义角色作为待判断语义角色的两个概念的语义角色。3.5 术语概念描述生成概
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 概念 结构 分布式 表征 术语 语义 知识库 构建
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。