基于网络分析与《文海》提取的西夏文基本字集.pdf
《基于网络分析与《文海》提取的西夏文基本字集.pdf》由会员分享,可在线阅读,更多相关《基于网络分析与《文海》提取的西夏文基本字集.pdf(14页珍藏版)》请在咨信网上搜索。
1、161西夏语言文字研究基于网络分析与文海提取的西夏文基本字集张光伟 摘要:社会网络关系分析在数字人文领域已经得到广泛应用。字典中的字及解释关系可以映射为网络的节点和边,我们将字典建模为网络,可以使用网络分析方法对字典的定义结构进行解析。西夏文字典 文海 中多采用“四字解释”,即分别取两个字(构字)的一部分来解释一个字(被解释字),本研究将这种解释关系构造为 文海 字典网络,网络中的节点是西夏字,边为字与字之间的解释关系。我们使用网络分析算法找出了 文海 中所有的循环解释,根据网络中节点的可达性提取出西夏文的基本字;并对网络中的循环和强连接部件在西夏文语义形成中的作用进行了初步分析。本研究提出了
2、一种新的寻找西夏字基本字集的方法,有可能为现代人研究西夏文提供一种可以量化分析的途径。关键词:文海;网络分析;基本字集;循环解释 引言西夏文字典 文海 主要采用八种类型的构造用语来解释西夏字:表示取某字的左边部分,表示取某字的右边部分,表示取某字的中间部分,表示取某字的上边部分,表示取某字的下边部分,表示取某字的左边和上边部分,表示取某字的整体,表示从某字中去掉一部分。西夏学者认为 文海 可能是西夏人对西夏文字的说明,并不是以西夏文字的构成原理为基准形成的书,但对于今天的人们研究西夏文是很重要的线索。文海 对西夏字的分析比较细致,但由于其缺失序跋等资料,因此难以确定 文海 作者所采用的词典构造
3、方式。如果我们能够深入分析 文海 中西夏字的解释构造模式,就有可能了解西夏人编写 文海 时所遵循的原则,据此找出西夏文的基本字集能够使现代人识读西夏文更加有效率。基金项目:本文系教育部人文社会科学研究青年基金项目“基于深度学习的西夏文自动识别系统”(项目编号:17YJCZH239)阶段性成果。作者简介:张光伟(1982),陕西师范大学历史文化学院讲师,主要从事基于人工智能的古文献识别以及历史学虚拟仿真实验。史金波:新见西夏文偏旁部首和草书刻本文献考释,民族语文2017 第 2 期。162162西夏学二二二年第二期总第二十五辑西夏学专家龚煌城在重建西夏文字衍生过程中将西夏字看成是由基本字经过一些
4、变换(如“增添”“代换”及“对调”等)依次产生出来的。他认为重建西夏文字衍生过程的第一个步骤是发现基本字,提出了其确定基本字的方法,并在此基础上通过若干例子验证了其提出的西夏字的衍生过程理论,但没有给出完整的西夏基本字集,这可能主要受限于人工分析的困难。西田龙雄认为研究西夏文字“首先必须发现、整理文字相互之间的联合关系西夏文字中,有一群基本的文字,以这些文字为中心,从这些基本文字开始,用某种步骤,联合若干派生出来的派生文字,这就是顺其自然的事了”,而且他认为这些基本文字一定为数不少。西田龙雄虽然根据其西夏基本字的方法对西夏字的构造进行了经验分析,但也提到思考西夏人当时如何考虑西夏文字的构成是有
5、必要的。韩小忙也认为西夏字是由基本字衍生出其他西夏字,在其 西夏文的造字模式 中对西夏文字典 文海 中存在的字形解释的模式进行了深入研究,特别是对西夏文中字形的解释方面进行了全面的总结和梳理,提出从循环解说中提取基本字的方法。上述学者基于西夏文基本字研究西夏字的构造及衍生过程的理论是本研究的重要启发,本研究也希望为上述理论提供一种技术验证方法。文海 中主要采用的四字解释模式:各取两个字的一部分组合起来解释另一个字,如“姻”被解释为“亲右婚左”,即“亲”的右边部首加上“婚”的左边部首构成了“姻”。这种字形结合字义的解释模式对于当时的人识读西夏字应该提供了重要的帮助,但是其中存在的循环解释在学者寻
6、找字形的根源方面造成了很大的困难。这在造字模式一书中韩小忙进行了细致的梳理,列举出了 文海 中大量的循环解释。西夏字数量庞大,共有约 5900 字,文海等西夏辞书中包含约 4090 个字;文海 中多采用每个西夏字由另外两个西夏字来解释,这样字与字之间的解释关系就有近一万条,而且它们之间互相交织构成了一个巨大的关系网络,人工梳理的难度可想而知。我们构建的 文海 字形解释网络如图 1 所示,其中的节点为 文海 中的西夏字,每个节点与另外两个节点根据解释关系相关联形成图中的两条边。这种规模的信息量再加上西夏字形的复杂,即便是资深的西夏学专家,龚煌城:西夏文字衍生过程的重建,“国立”政治大学边证研究所
7、年报1984 年第 15 期。西田龙雄、鲁忠慧:西夏文字的分析,西夏研究2012 年第 2 期。韩小忙:西夏文的造字模式,中国社会科学出版社,2016 年,第 1399 页。韩小忙:西夏文的造字模式,中国社会科学出版社,2016 年,第 7 页。图1文海西夏字定义的网络结构163西夏语言文字研究人工分析其结构和规律的难度也是非常大的。本研究将 文海 中每个字的定义提取出来构建了一个字典网络对 文海 的西夏字解释关系进行建模。在此基础上我们主要做了以下工作:(1)利用图算法找出 文海 的字形解释中循环的方法,并列出循环解释词条;(2)利用网络中节点的可达性关系设计算法提取出 文海 的基本字集合。
8、由于篇幅所限,本文主要在简要介绍字典网络的基础上介绍了从 文海 中提取的基本字集、循环解释等,没有对字典网络分析的算法及 文海 中西夏字的定义层次结构进行详细介绍,感兴趣的读者请参考作者发表在 数字人文 2022 年第 1 期的论文 西夏文字典 文海 的网络分析。一、文海字典网络本部分介绍 文海 字典网络的构造方法,基于网络可视化方法的 文海 字典网络结构的视觉呈现,以及基于 文海 字典网络的西夏基本字集的提取方法。(一)字典网络的构造西夏文字典 文海 中的定义多采用“四字解释”模式,即分别取两个字(构字)的一部分用于解释一个字(被解释字)(这里的被解释字和构字采用韩小忙的命名方法),例如 A
9、 是由 B的左边部分和 C 的右边部分组成,表示为 A:B 左 C 右。表 1 列出了 文海 中字形解释的几个例子,可以看出这些解释不仅仅是从字形方面来进行文字的解读,从汉译词条来看,构字的选择和被解释字在意思方面也相近,因此我们可以假设:如果能够识读一个字的解释中的所有构字,那么被解释字的意思是可以推导出来的。这样如果能找到一个西夏字的基本字集合,根据字典定义就可以推出其他的所有西夏字,这样现代人在学习西夏文时可以优先掌握这些基本的西夏字,然后借助 文海 高效地掌握所有其他西夏字。表 1文海字型解释举例 张光伟:西夏文字典文海的网络分析,数字人文2022 第 1 期。Philippe Vin
10、cent-Lamarre,Alexandre Blondin Mass,Marcos Lopes,Mlanie Lord,Odile Marcotte,Stevan Harnad.The Latent Structure of Dictionaries,Topics in Cognitive Science,8(3),2016,pp.625-659.164164西夏学二二二年第二期总第二十五辑如前文所述 文海 中主要包含八种构字解释关系,但我们在构建 文海 字典网络时对于这些关系并不作区分,将其合并为一种关系,即解释关系:被解释的字和用于解释的字(构字)之间的关系。我们构建的 文海 字典网络是
11、一个有向图,每一条边的方向都是从构字指向被解释字,这样上述解释关系的例子中的 ABC 三个字在字典网络中就形成了两条有向边 B A和 C A,表示 A 的解释中有 B 和 C;当然 ABC 都可能出现在其他字的解释中,即它们都可能指向其他的节点。根据这种解释关系,文海 中所有的西夏字就构成了一个网络,即字典网络,网络中的节点是西夏字,边为解释关系。通过分析节点的可达关系以及网络中的循环关系我们可以找出西夏字中的基本字。文海 字典网络的构造方法:字典网络是一个有向图G=(V,E),其中G表示字典网络或图,V表示图中的节点集合,一个节点对应字典中的一个字,E表示节点之间构成的边的集合。(v1,v2
12、)表示图G中的一条有向边和v2为该边的两个节点,表示字典中的两个字,边的方向为从v1指向v2,表示字典定义中v1出现在v2的定义中;图G中可能有多条有向边指向v2,因为字典中一个字往往由多个字来解释;v1除了有指向v2的边还可能有多条指向其他节点的边,因为一个字可能会出现在多个字的解释中。所以,一个简单的解释关系就让几千个西夏字组成图 1 所示的庞大而且错综复杂的网络,这也是复杂网络的共同特点。表 2文海字典网络的边举例我们构建 文海 字典网络时,主要选择了 文海 中的完整的四字解释词条,即每个西夏字都是由另外两个西夏字解释,因此网络中每个节点的入度都为 2,如表 2 所示。其中,target
13、_id 和 source_id 列所对应的数字是西夏字的字典序号,target 和 source 列对应的是具体的西夏字;每两行表示 文海 中的一个解释条目,每一行表示字典网络中的一条有向边,方向都是从source 节点指向 target 节点。这种格式的数据能够直接使用网络分析软件 Gephi 进行可视化,如图 1 所示。我们构建的 文海 字典网络总共包括 3781 个节点(西夏字),外围与中心分离的165西夏语言文字研究节点主要因为我们选取的解释词条以四字解释为主,另外出土的 文海 是不完整的。图 1 共包含 3781 个节点,从构建基本字集的以及基本字集的功能角度考虑,即我们主要研究按照
14、 文海中的定义的规则从基本字集能够推导出的西夏字的部分,这部分包括 2970 个字,是本文主要研究的对象,其余的 811 个字暂不纳入本研究的范围。这主要是因为在提取基本字集过程中这些字所对应的节点成为了孤立节点与基本字集中其他节点没有关联;这些没有纳入本研究的字并非不重要,而是它们构成的网络是若干与研究的主体网络结构相似但规模较小,而且没有与主体网络产生关联。网络中的 2970 个节点部分,虽然代表的是一个不完整的 文海 字典,但网络结构完整,能够集中反映该字典文字定义的模式,而且这种模式也适用于本研究没有包含的部分。(二)西夏基本字集的构建方法1936 年,英国语言学家奥格登(C.K.Og
15、den)经过统计分析列出了 850 个单词作为英语的基础词汇,使用它们几乎可以表达所有其他复杂的词和概念。西夏学者如龚煌城、西田龙雄、韩小忙等从西夏字的构造角度提出了一些确定西夏基本字的方法,本文借助网络分析技术以西夏人编写的字典 文海 为依据,构建一个西夏基本字集,以期为西夏文的学习和研究提供一种优化方案建议,也有可能为西夏文字专家提供一种分析西夏人创造或学习西夏字时所遵循原则的工具。文海 字典基本字集的构造原则:任何字典中都有一些字没有出现在任何其他字的定义中,将这些字从网络中去掉,不影响字典的基本字集合,这是因为出度为 0 的字不用于解释其他任何字,而且可以由基本字推导出来。所以,我们可
16、以不断重复以下操作:删除当前字典网络中出度为 0 的节点,直到网络中没有节点能够继续被删除时,我们就找到了字典网络的基本字集。经过一次迭代之后,原来出度为 1 的节点中:有一部分,因为由其导出的子节点被删掉,其出度变为 0,因此需要继续上述过程,将当前状态下出度为 0 的节点继续删除;另一部分节点由于循环的存在其导出节点并不会被删除,因此这些节点的出度不变。经过数轮迭代,我们能够得到一个网络,其中的每一个节点的出度都不为 0,最后这个网络的节点所代表的西夏字我们可以认为就是唯一的基本字集。实验中,我们构建的 文海 字典网络经过六次上述的迭代之后剩余的网络中不存在出度为 0 的节点,迭代结束。节
17、点数量从最初的 2970 个精简为 1389 个,即本文构建的 文海 字典网络基本字集包含 1389 个西夏字,占总体的比例为 46.8%。我们将 文海 基本字与英文词典Camilo Garrido,Claudio Gutierrez:Dictionaries as networks:Identifying the graph structure of Ogdens basic English,Proceedings of COLING 2016,the 26th International Conference on Computational Linguistics:Technical P
18、apers.2016,pp.3565-3576;COGNITIVE 2018:The Tenth International Conference on Advanced Cognitive Technologies and Applications.2018,pp.18-23.166166西夏学二二二年第二期总第二十五辑网络提取的基本词进行比较:英文词典的基本词汇占总体的比例一般在 10%左右,如 Longman和 Cambridge 分别为 8%和 7%,韦氏词典 12%;文海 基本字占总字数的比例要比英文词典明显高很多,这主要是由于 文海 中定义一个西夏字仅仅使用的另外两个西夏字,因此表
19、示整个西夏语集合所需的基本字相对较多,而且现存的 文海 不完整,本文研究的是其结构相对完整的部分。(三)基于 文海 的基本西夏字集根据上述算法我们找出了 文海 解释所依据的基本字集,即该集合中所有的字都出现在其他字的解释中,而且通过 文海 我们能够推导出所有其他的西夏字。我们根据构建的字典网络中基本字的提取方法,得到的基本字集中所有的西夏字构成的是一个关联更为紧密的网络,如图 2 所示,为了能够较为清楚地显示较多用于解释其他字的西夏字,我们按照节点的出度(即解释其他字)的大小对网络中的节点进行了区分,越频繁地出现在其他字的定义中的字,其对应的节点越大,反之越小,具体基本字集合在下面列出。上述基
20、本字集算法得到的 文海 中的 1389 个西夏字基本字集列表如下,按照每个字出现在 文海 定义中用于解释西夏字的次数进行排序:Olivier Picard,Alexandre Blondin-Masse,Stevan Harnad,Odile Marcotte,Guillaume Chicoisne,Yassine Gargouri:Hierarchies in Dictionary Definition Space,arXiv:0911.5703 cs,2009.图2西夏基本字集网络可视化 图 2 西夏基本字集网络可视化 上述基本字集算法得到的文海中的西夏字基本字集列表如下,按照每个字出现在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文海 基于 网络分析 提取 西夏 基本 字集
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。