基于孪生神经网络的西夏文字智能识别.pdf
《基于孪生神经网络的西夏文字智能识别.pdf》由会员分享,可在线阅读,更多相关《基于孪生神经网络的西夏文字智能识别.pdf(10页珍藏版)》请在咨信网上搜索。
1、175西夏语言文字研究基于孪生神经网络的西夏文字智能识别罗顺 摘要:西夏文是中国古代西夏王朝党项族统治者为记录其民族语言而创制的文字。西夏文文献数量庞大,种类繁多,价值重大。囿于客观条件,目前对西夏文字、文献的释读和整理方法相对传统,而人工智能技术的发展尤其是卷积神经网络的发展,为更高效地开展西夏文字、文献的智能识录乃至创建西夏文智能数据库提供了新的技术支持。本文论述了基于孪生神经网络的西夏文字识别方法,不仅解决了常规西夏文字形的识别问题,在对残损字形、模糊字形等特殊字样的识别中也表现突出,取得了总体识别率 96.77%以上的结果。在此基础上初步搭建了西夏文字智能识别平台。这就为西夏文献的智能
2、识录系统乃至新型西夏文智能语料库等的研制与创设奠定了坚实的技术基础。关键词:西夏文;孪生神经网络;智能识别 一、现实需要与技术机遇人工智能视角下的西夏文字研究西夏文字,或称番文、河西字、唐古特文,是西夏朝景宗元昊为记录党项族的民族语言而命大臣野利仁荣创制的文字。西夏文字在当时是一种实用的文字,作为西夏一朝的官方文字被广泛使用,“凡国中艺文诰谍,尽易番书”,进而产生了大量的西夏文文献,构成了中国古代西夏王朝文化与知识最重要的载体。21 世纪以来随着俄、英、日等国及国内所藏西夏文图版类文献的陆续出版,对西夏文文献作大规模系统地释读、整理与研究变得更加紧迫,但也十分繁重,仅仅依靠传统手工作业,效率低
3、下,很难满足需要。另对西夏字词的切分与解读、字样的穷尽性搜集、字库的制作、数据库的基金项目:本文系国家社科基金重大项目计算机识别商周金文研究(项目编号:19ZDA313);华东师范大学重点研究基地学科交叉研究重大项目:AI 和 VI 介入的汉字应用体系(项目编号:2019ECNU-GXJC001);华东师范大学人文社会科学青年预研究项目:唐代碑刻语料库建设(项目编号:43800-20101-222254)研究成果。作者简介:罗顺(1989),华东师范大学中国文字研究与应用中心博士后,主要从事汉字史、出土文献整理与研究、数字人文研究。清吴广成撰,龚世俊等校:西夏书事校证,甘肃文化出版社,1995
4、 年,第 146 页。176176西夏学二二二年第二期总第二十五辑创建、逐字索引与词汇的检索、字频词频统计、字典辞书的编纂、书迹的判定与断代乃至相关的开拓性工作或工程等无疑也都给传统工作方式、方法带来了巨大的困难与挑战,亟须作为新的研究手段的人工智能的助力。为提高西夏文字文献整理与研究的效率及后续文字智能化研究、文字智能化工程的开展,就需要解决其中处于奠基性工作的西夏文字智能识别的问题。随着计算机技术的不断发展及其与各学科的不断交融,极大地提高了各学科研究的效率,其中人工智能深度学习,作为近年兴起的一种新的机器学习算法在图像识别、自然语言处理、数据挖掘等领域取得了较好的应用,也为文字学学科的研
5、究提供了新的手段与思路。有鉴于此,本文采用人工智能深度学习的方法,基于孪生神经网络设计西夏文字智能识别算法方案。二、基于孪生神经网络的西夏文字智能识别算法设计1.数据集概述本次使用的西夏文字数据集是经由西夏文专家做了特定筛选和多重属性标注的数据集(TANGUT-SET)。其材料来源于已公布的西夏文文献图版扫描文件,形态为切分的单字图片的集合。属性标注包含单字图片对应西夏文字符、文献出处、取图位置、四角号码编码、拟音、中文释义等信息,详细信息如表 1 所示。表 1数据集属性标注信息列表示例单字样本图片对应字符文献出处取图位置四角号码拟音中文释义行列种咒王荫大孔雀经210172140rjur诸种咒
6、王荫大孔雀经212102222owr一切此次用于智能识别实验的数据集包含 70636个单字图片,分为 1032 个类别。该数据集图片背景颜色多样,且存在相当数量的形体残缺字样、模糊不清字样、草书字样及书写讹误与异体字样(图1),这就为文字识别模型的训练带来了极大挑战。此外,部分西夏文字存在一字多形的情况,不同字形所表示的词性或词义不同。以同释作汉字“一”的字样为例,如图 2 所示,在数据集中,与其对应的分类中有四种不同的字形。对于计算机视觉识别任务而言,部分字形之间差异较大的字不易被统一识别。图2西夏文“一”的不同字样图1西夏文单字样本示例177西夏语言文字研究由于不同的字的使用频率不同,导致
7、数据集中各类别的样本数量分布不均衡。其中数量最多的类别有 2856 张图片,同时又有 213 个类别仅有 1 张图片。具体的分布情况如图 3 所示,由于最多类别与最少类别数量相差较大,故以半对数坐标系表示。整个数据集中,数量最多的前100 个类别占图片总数 69.10%,而数量最少的 100 个类别其仅占图片总数的 0.14%。这种现象被称为“长尾效应”。虽然长尾效应是遵循自然和社会规律的现象,但因此导致的数据极度不平衡给深度学习模型训练带来了巨大挑战。在建模过程中,模型非常容易被“头部”类别主导而产生过拟合;同时又因为“尾部”数据数量不足,导致这些字的特征学习很难达到理想程度,进而影响整个模
8、型的泛化表现。2.数据增广数据集的平衡度、原生数据量及数据质量是影响模型精度与泛用性的主要因素,要提高模型的训练效果,常见的方法就是对数据集进行预处理。数据增广(Data Augmentation)是一种常见的数据集预处理方法,能够在不实质性地增加数据的情况下,对原始数据进行加工处理,以提升数据集的数量和质量。基本的数据增广手段大致可分为三种:空间变换、颜色抖动和信息丢失。空间变换包括图片的拉伸、缩放、平移、旋转;颜色抖动指在一定的范围内随机改变像素点的颜色;信息丢失包含图像的裁剪、随机噪声等。以单张西夏文字图片为例,通过基本数据增广扩充后的图片如图 4 所示。D Masko,Hensman
9、P.The Impact of Imbalanced Training Data for Convolutional Neural Networks.2015.图3西夏文字数据集中各类别样本数量的分布情况(根据样本数量排序)178178西夏学二二二年第二期总第二十五辑对数据集中的小样本类别按照一定的规则进行增广扩充,即可缓解数据不平衡的问题,同时也增加了数据集的总数据量。近年来,有许多学者为了进一步提高数据增广对模型泛用性的提升效果,提出了一些新的数据增广算法。Zhun Zhong 等人提出了 Random Erasing 算法,对一张图像以 50%的概率选取一个随机尺寸的区域,并用随机像素值
10、替代这一区域,以提高模型在识别被遮挡物体时的鲁棒性;Yun S 等人提出了 CutMix 算法,选取两张图片,在第一张图片中随机选择掩码区域,并将另一张图片的该区域覆盖于第一张图片之上,合成图片的分类结果按照一定比例分配。上述两种方法的扩充示例如图 5 所示。这些算法在被于物体识别分类时表现良好,现将其应用于西夏文字识别方向,以合理扩充数据样本,应用于对照实验,为更好地进行网络模型训练奠定数据基础。以上处理方法不仅有助于改善数据不平衡状况,增大数据集总量,还有利于完善诸如残损样本、模糊样本等特殊数据。譬如其中随机裁剪、随机噪音等使原数据“残缺化”“模糊化”的处理扩充了残损样本和模糊样本,连同原
11、数据集中已有的残损样本及模糊样本一起,为网络模型在处理西夏文残损字形与模糊字形的识别上提供了良好的数据基础。本文将通过对照实验在深度学习模型和参数相同的情况下,比较上述的数据增广方法对识别精度的提升程度。根据数据集的分布情况,我们首先设计了基础数据增广算法,对于样本数小于 50 的小类别,根据每个类的数量,从先前介绍的基础数据增广方法中选择部分或全部方法进行增广扩充,使得每个分类下的数据量至少有 50 张;针对先前提到的一字多形问题,我们在对存在该情况的字类进行扩充时,确保不同字形的图像数量相近,这样做能够使模型在训练过程中均衡地学习到不同字形的特征。经增广后的数据集样本分布情况如图 6 所示
12、,经过扩充后Zhun Zhong,Liang Zheng,Guoliang Kang,et al.Random Erasing Data Augmentation Proceedings of the IEEE conference on computer vision and pattern recognition.2017.Yun S,Han D,Oh S J,et al.CutMix:Regularization Strategy to Train Strong Classifiers with Localizable FeaturesJ.2019.图4西夏文单字图像的基础数据增广示例图
13、5Random Erasing与CutMix算法对西夏文单字图像的数据增广示例179西夏语言文字研究数据集的数量增加至 119235 张,我们将该数据集作为西夏文的基础增广数据集。基于基础增广数据集,我们又分别使用 Random Erasing 和 CutMix 算法对其做进一步的数据增广,得到 Basic Augmentation+Rand Erasing 和 Basic Augmentation+CutMix 数据集。本文将使用原始数据集以及这三份增广后的数据集进行对照实验。3.西夏文字识别算法的构建(1)残差神经网络 ResNet自何凯明等学者于 2015 年提出残差神经网络(Resid
14、ual Neural Network)后,该深度学习模型由于其优越而高效的性能在图像检测、分割、识别等领域里得到了广泛的应用。早期实验证明,在一定范围内增加卷积神经网络(Convolutional Neural Networks,CNN)的层数能够提升训练效果,但随着网络层数的加深,不仅容易出现梯度消失/梯度爆炸问题,网络还会发生退化(Degradation):训练集的损失函数值随着网络的加深不降反增。ResNet 在 CNN 的基础上引入了残差块机制,如图 7 所示,残差块跳层连接的形式能够很好地解决深层网络的退化问题,并且即使是同样层数的网络引入残差结构后也能更快地收敛。常用的 ResNe
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 孪生 神经网络 西夏 文字 智能 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。