西夏文信息熵值的初步计算——以《天盛律令》文本为基础.pdf
《西夏文信息熵值的初步计算——以《天盛律令》文本为基础.pdf》由会员分享,可在线阅读,更多相关《西夏文信息熵值的初步计算——以《天盛律令》文本为基础.pdf(9页珍藏版)》请在咨信网上搜索。
1、185西夏语言文字研究西夏文信息熵值的初步计算以 天盛律令 文本为基础朱旭东 摘要:天盛律令 是我国第一部使用少数民族文字刊印的法典,内容丰富,各类字、词齐备。本文依据信息论的“信息熵”概念,通过对这部法律文献中的字符进行统计,得到西夏字的字频统计表。表中的字频分布,在一定程度上体现了 天盛律令 作为法律文献的用字特点。在此字频表数据的基础上,对西夏文信息熵进行初步计算。计算结果表明,这种文字的信息熵值高于各类表音文字,但低于汉字。关键词:西夏文;信息熵;字频 一、概述随着信息科技的发展,量化分析作为语言文字研究工作的一种方法,近年来愈加受到重视。对于一种文字体系来说,测定字符所包含的信息量,
2、不仅能够促进对文字本身的研究,也是其信息化过程的重要组成部分。应用信息论中“信息熵”的概念,即可计算一种文字字符的信息量。某种文字字符的熵值越大,其包含的信息量越大。在熵的计算过程中如果不考虑文本中上下文的相关性,得到的结果为静态平均熵值;在计算中考虑上下文相关性对字符出现概率的影响,则可得到极限熵值。作为信息论中的一个核心概念,信息熵在文字信息的传输、处理、识别等领域均发挥重要作用。对文字信息熵的研究,是在第二次世界大战之后,随着信息论的产生而逐渐发展的。1948年,美国的香农发表 通信的数学理论一文,借鉴热力学中的“熵”,提出“信息熵”的概念,作者简介:朱旭东(1974),北京小本堂工作室
3、负责人。主要从事开发“小纸条”系列学习软件(功能包括各种语言的学习辅助等内容。在功能完善过程中,需要研究各语言自身特点与语言学习的关系。语言信息熵的研究是其中的一部分内容)。Shannon,Claude E.A mathematical theory of communicationJ.The Bell System Technical Journal,1948(July):397.186186西夏学二二二年第二期总第二十五辑以度量信息载体所含信息量。1951 年,香农测定英文的熵值。其后,英国的巴纳德在 1955 年测出另外四种欧洲拼音文字的熵值。我国的冯志伟于20世纪80年代通过对大量中文
4、语料的统计和计算,测出汉字的静态平均熵值。此后,冯志伟在1996年、孙帆和孙茂松在2006年分别给出汉字的极限熵估测值。我国少数民族文字如藏文、蒙古文和维吾尔文的信息熵值在近年来也陆续被测定。从文字类型上看,已测得信息熵值的文字包括全音素文字、元音附标文字及表意文字,十分具有代表性。这为文字类型、文字比较等领域的研究提供新的手段和内容。美中不足的是,这些文字中只有汉字一种表意文字。西夏文作为我国历史上少数民族政权独自创造的表意文字,构字体系规范严谨,结构特点鲜明。对于计算信息熵的工作来说,其存世文献众多,具备十分有利的条件。随着西夏学研究的发展,西夏文文献的信息化处理工作取得很大进展。文献数据
5、库的建设正在快速推进中,已有多部文献被数字化。同时,西夏文的字库与输入法也已较为完善。这一方面对信息化工作提出更高的要求,需要进行包括测定信息熵在内的基础性研究,另一方面也为开启相关的研究工作提供了必要的基础和条件。天盛改旧新定律令(以下简称 天盛律令)是我国第一部使用少数民族文字编制的法律文件,条款众多。其篇幅达到二十卷,下分一百五十门,一千四百六十一条,在现存的中古时代的法律中,是内容最为详细的一部。进行测定文字信息熵的工作,需要字数多,字、词种类尽量齐全的文本以进行统计和计算。天盛律令 的文本完全符合要求。首先,这部法律卷帙浩繁,全书字数达到二十万左右。虽因页面缺损、字迹模糊造成部分内容
6、不可识别,但能够辨认从而可资利用的字数也达到十几万之多。其次,作为规范社会生活的法律文件,这部法典的内容涉及西夏政治、经济、军事、社会乃至自然的方方面面,各种门类的字、词均可找到,十分适合进行信息熵的统计。尽管如此,由于条件所限,本次计算得到的信息熵值只是一个初步的结果。初步性体现在,计算的算法未考虑文本中上下文的相关性,所得结果为静态平均熵值;进行统计所选取的西夏文文本的文句长度和代表性,有待进一步丰富和完善。Shannon,Claude E.Prediction and Entropy of Printed EnglishJ.The Bell System Technical Journa
7、l,1951(January):50-64.Barnard G.Statistical Calculation of Word Entropies for Four Western LanguagesJ.IRE Transactions on Information Theory,1955(1):49-53.冯志伟:汉字的熵,文字改革1984 年第 4 期,第 1217 页。冯志伟:汉字的极限熵,中文信息1996 年第 2 期,第 5356 页。孙帆、孙茂松:基于统计的汉字极限熵估测,“中国中文信息学会二十五周年学术会议”,2006 年。史金波、聂鸿音、白滨译注:天盛改旧新定律令,法律出版社,
8、2000 年,前言第 3 页。此文本由“西夏文献文物研究”项目组提供,武威市博物馆的梁继红女士等整理输入。187西夏语言文字研究二、天盛律令中西夏文字频的统计进行文字信息熵的计算,需要统计各字符的出现频率。通过对 天盛律令 文本所有字符的逐一统计,我们得到这部法典中全部字符的出现次数。根据统计结果,在 天盛律令 文本中,全文中可用的文句长度(即总计的字数)为 163035,字符容量(即互不相同字符的数量)为 2567。文本所有字符均为西夏字。这与大多数表音文字计算信息熵时将空格也计为字符的情况不同。这些文字的空格有分隔单词的作用,不可缺少。西夏文则与汉字情况类似,不用空格、标点等辅助字符,也可
9、以很好地分词和断句。在统计出全部 2567 字的出现次数后,计算第 字(的取值范围为 1 至 2567)的出现频率:其中为第字的出现次数,为文句长度 163035。表 2-1 给出 天盛律令 中西夏字的出现次数和出现频率。限于篇幅,无法罗列全部 2567 字的字频统计,按从高到低的顺序列出100 个高频字的出现次数和出现频率。表 2-1:天盛律令中的 100 个高频字序号字出现次数出现频率序号字出现次数出现频率序号字出现次数出现频率131350.0192358630.0053685580.0034230170.0185368610.0053695570.0034328970.017837824
10、0.0051705510.0034426030.016388110.005715470.0034521330.0131398020.0049725420.0033619520.012407920.0049735390.0033717920.011417870.0048745360.0033816060.0099427620.0047755330.0033915990.0098437540.0046765310.00331015020.0092447430.0046775310.00331114990.0092457290.0045785310.00331214940.0092467170.00
11、44795260.0032188188西夏学二二二年第二期总第二十五辑续表序号字出现次数出现频率序号字出现次数出现频率序号字出现次数出现频率1314290.0088477100.0044805050.00311413850.0085487070.0043815040.00311513580.0083496500.004825000.00311613190.0081506500.004834950.0031712930.0079516470.004844870.0031812850.0079526270.0038854840.0031912790.0078536270.0038864840.00
12、32012760.0078546260.0038874700.00292112690.0078556140.0038884700.00292212480.0077566070.0037894650.00292311540.0071576040.0037904550.00282410980.0067586030.0037914540.00282510790.0066596010.0037924520.00282610200.0063606000.0037934480.00272710080.0062615880.0036944380.0027289760.006625850.0036954380
13、.0027299380.0058635740.0035964290.0026309280.0057645710.0035974190.0026319020.0055655680.0035984170.0026328900.0055665620.0034994150.0025338770.0054675590.00341004110.0025348710.0053在这些高频字中,有一类字较为引人注目,即未然式动词前置助词。由于法律规范人们的行为,要对尚未发生的事情作出限制性规定,因此这类词虽然在一般文献中出现频率并不高,但在法律文献中出现较多。已知的六个这种助词,包括(表向近趋向)、(表向远趋向
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 天盛律令 西夏 信息 初步 计算 律令 文本 基础
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。