基于孪生神经网络的西夏文字智能识别.pdf

上传人：自信****多点

文档编号：637769

上传时间：2024-01-22

格式：PDF

页数：10

大小：2.42MB

《基于孪生神经网络的西夏文字智能识别.pdf》由会员分享，可在线阅读，更多相关《基于孪生神经网络的西夏文字智能识别.pdf（10页珍藏版）》请在咨信网上搜索。

1、175西夏语言文字研究基于孪生神经网络的西夏文字智能识别罗顺摘要：西夏文是中国古代西夏王朝党项族统治者为记录其民族语言而创制的文字。西夏文文献数量庞大，种类繁多，价值重大。囿于客观条件，目前对西夏文字、文献的释读和整理方法相对传统，而人工智能技术的发展尤其是卷积神经网络的发展，为更高效地开展西夏文字、文献的智能识录乃至创建西夏文智能数据库提供了新的技术支持。本文论述了基于孪生神经网络的西夏文字识别方法，不仅解决了常规西夏文字形的识别问题，在对残损字形、模糊字形等特殊字样的识别中也表现突出，取得了总体识别率 96.77%以上的结果。在此基础上初步搭建了西夏文字智能识别平台。这就为西夏文献的智能

2、识录系统乃至新型西夏文智能语料库等的研制与创设奠定了坚实的技术基础。关键词：西夏文；孪生神经网络；智能识别一、现实需要与技术机遇人工智能视角下的西夏文字研究西夏文字，或称番文、河西字、唐古特文,是西夏朝景宗元昊为记录党项族的民族语言而命大臣野利仁荣创制的文字。西夏文字在当时是一种实用的文字，作为西夏一朝的官方文字被广泛使用，“凡国中艺文诰谍，尽易番书”，进而产生了大量的西夏文文献，构成了中国古代西夏王朝文化与知识最重要的载体。21 世纪以来随着俄、英、日等国及国内所藏西夏文图版类文献的陆续出版，对西夏文文献作大规模系统地释读、整理与研究变得更加紧迫，但也十分繁重，仅仅依靠传统手工作业，效率低

3、下，很难满足需要。另对西夏字词的切分与解读、字样的穷尽性搜集、字库的制作、数据库的基金项目：本文系国家社科基金重大项目计算机识别商周金文研究（项目编号：19ZDA313）；华东师范大学重点研究基地学科交叉研究重大项目：AI 和 VI 介入的汉字应用体系（项目编号：2019ECNU-GXJC001）；华东师范大学人文社会科学青年预研究项目：唐代碑刻语料库建设（项目编号：43800-20101-222254）研究成果。作者简介：罗顺（1989），华东师范大学中国文字研究与应用中心博士后，主要从事汉字史、出土文献整理与研究、数字人文研究。清吴广成撰，龚世俊等校：西夏书事校证，甘肃文化出版社，1995

4、年，第 146 页。176176西夏学二二二年第二期总第二十五辑创建、逐字索引与词汇的检索、字频词频统计、字典辞书的编纂、书迹的判定与断代乃至相关的开拓性工作或工程等无疑也都给传统工作方式、方法带来了巨大的困难与挑战，亟须作为新的研究手段的人工智能的助力。为提高西夏文字文献整理与研究的效率及后续文字智能化研究、文字智能化工程的开展，就需要解决其中处于奠基性工作的西夏文字智能识别的问题。随着计算机技术的不断发展及其与各学科的不断交融，极大地提高了各学科研究的效率，其中人工智能深度学习，作为近年兴起的一种新的机器学习算法在图像识别、自然语言处理、数据挖掘等领域取得了较好的应用，也为文字学学科的研

5、究提供了新的手段与思路。有鉴于此，本文采用人工智能深度学习的方法，基于孪生神经网络设计西夏文字智能识别算法方案。二、基于孪生神经网络的西夏文字智能识别算法设计1.数据集概述本次使用的西夏文字数据集是经由西夏文专家做了特定筛选和多重属性标注的数据集（TANGUT-SET）。其材料来源于已公布的西夏文文献图版扫描文件，形态为切分的单字图片的集合。属性标注包含单字图片对应西夏文字符、文献出处、取图位置、四角号码编码、拟音、中文释义等信息，详细信息如表 1 所示。表 1数据集属性标注信息列表示例单字样本图片对应字符文献出处取图位置四角号码拟音中文释义行列种咒王荫大孔雀经210172140rjur诸种咒

6、王荫大孔雀经212102222owr一切此次用于智能识别实验的数据集包含 70636个单字图片，分为 1032 个类别。该数据集图片背景颜色多样，且存在相当数量的形体残缺字样、模糊不清字样、草书字样及书写讹误与异体字样（图1），这就为文字识别模型的训练带来了极大挑战。此外，部分西夏文字存在一字多形的情况，不同字形所表示的词性或词义不同。以同释作汉字“一”的字样为例，如图 2 所示，在数据集中，与其对应的分类中有四种不同的字形。对于计算机视觉识别任务而言，部分字形之间差异较大的字不易被统一识别。图2西夏文“一”的不同字样图1西夏文单字样本示例177西夏语言文字研究由于不同的字的使用频率不同，导致

7、数据集中各类别的样本数量分布不均衡。其中数量最多的类别有 2856 张图片，同时又有 213 个类别仅有 1 张图片。具体的分布情况如图 3 所示，由于最多类别与最少类别数量相差较大，故以半对数坐标系表示。整个数据集中，数量最多的前100 个类别占图片总数 69.10%，而数量最少的 100 个类别其仅占图片总数的 0.14%。这种现象被称为“长尾效应”。虽然长尾效应是遵循自然和社会规律的现象，但因此导致的数据极度不平衡给深度学习模型训练带来了巨大挑战。在建模过程中，模型非常容易被“头部”类别主导而产生过拟合；同时又因为“尾部”数据数量不足，导致这些字的特征学习很难达到理想程度，进而影响整个模

8、型的泛化表现。2.数据增广数据集的平衡度、原生数据量及数据质量是影响模型精度与泛用性的主要因素，要提高模型的训练效果，常见的方法就是对数据集进行预处理。数据增广（Data Augmentation）是一种常见的数据集预处理方法，能够在不实质性地增加数据的情况下，对原始数据进行加工处理，以提升数据集的数量和质量。基本的数据增广手段大致可分为三种：空间变换、颜色抖动和信息丢失。空间变换包括图片的拉伸、缩放、平移、旋转；颜色抖动指在一定的范围内随机改变像素点的颜色；信息丢失包含图像的裁剪、随机噪声等。以单张西夏文字图片为例，通过基本数据增广扩充后的图片如图 4 所示。D Masko，Hensman

9、P.The Impact of Imbalanced Training Data for Convolutional Neural Networks.2015.图3西夏文字数据集中各类别样本数量的分布情况（根据样本数量排序）178178西夏学二二二年第二期总第二十五辑对数据集中的小样本类别按照一定的规则进行增广扩充，即可缓解数据不平衡的问题，同时也增加了数据集的总数据量。近年来，有许多学者为了进一步提高数据增广对模型泛用性的提升效果，提出了一些新的数据增广算法。Zhun Zhong 等人提出了 Random Erasing 算法，对一张图像以 50%的概率选取一个随机尺寸的区域，并用随机像素值

10、替代这一区域，以提高模型在识别被遮挡物体时的鲁棒性；Yun S 等人提出了 CutMix 算法，选取两张图片，在第一张图片中随机选择掩码区域，并将另一张图片的该区域覆盖于第一张图片之上，合成图片的分类结果按照一定比例分配。上述两种方法的扩充示例如图 5 所示。这些算法在被于物体识别分类时表现良好，现将其应用于西夏文字识别方向，以合理扩充数据样本，应用于对照实验，为更好地进行网络模型训练奠定数据基础。以上处理方法不仅有助于改善数据不平衡状况，增大数据集总量，还有利于完善诸如残损样本、模糊样本等特殊数据。譬如其中随机裁剪、随机噪音等使原数据“残缺化”“模糊化”的处理扩充了残损样本和模糊样本，连同原

11、数据集中已有的残损样本及模糊样本一起，为网络模型在处理西夏文残损字形与模糊字形的识别上提供了良好的数据基础。本文将通过对照实验在深度学习模型和参数相同的情况下，比较上述的数据增广方法对识别精度的提升程度。根据数据集的分布情况，我们首先设计了基础数据增广算法，对于样本数小于 50 的小类别，根据每个类的数量，从先前介绍的基础数据增广方法中选择部分或全部方法进行增广扩充，使得每个分类下的数据量至少有 50 张；针对先前提到的一字多形问题，我们在对存在该情况的字类进行扩充时，确保不同字形的图像数量相近，这样做能够使模型在训练过程中均衡地学习到不同字形的特征。经增广后的数据集样本分布情况如图 6 所示

12、，经过扩充后Zhun Zhong，Liang Zheng，Guoliang Kang，et al.Random Erasing Data Augmentation Proceedings of the IEEE conference on computer vision and pattern recognition.2017.Yun S，Han D，Oh S J，et al.CutMix:Regularization Strategy to Train Strong Classifiers with Localizable FeaturesJ.2019.图4西夏文单字图像的基础数据增广示例图

13、5Random Erasing与CutMix算法对西夏文单字图像的数据增广示例179西夏语言文字研究数据集的数量增加至 119235 张，我们将该数据集作为西夏文的基础增广数据集。基于基础增广数据集，我们又分别使用 Random Erasing 和 CutMix 算法对其做进一步的数据增广，得到 Basic Augmentation+Rand Erasing 和 Basic Augmentation+CutMix 数据集。本文将使用原始数据集以及这三份增广后的数据集进行对照实验。3.西夏文字识别算法的构建（1）残差神经网络 ResNet自何凯明等学者于 2015 年提出残差神经网络（Resid

14、ual Neural Network）后，该深度学习模型由于其优越而高效的性能在图像检测、分割、识别等领域里得到了广泛的应用。早期实验证明，在一定范围内增加卷积神经网络（Convolutional Neural Networks，CNN）的层数能够提升训练效果，但随着网络层数的加深，不仅容易出现梯度消失/梯度爆炸问题，网络还会发生退化（Degradation）：训练集的损失函数值随着网络的加深不降反增。ResNet 在 CNN 的基础上引入了残差块机制，如图 7 所示，残差块跳层连接的形式能够很好地解决深层网络的退化问题，并且即使是同样层数的网络引入残差结构后也能更快地收敛。常用的 ResNe

15、t 深度有 ResNet18、ResNet34、ResNet50、ResNet101 和 ResNet152 五种，本文He K，Zhang X，Ren S，et al.Deep residual learning for image recognitionC.Proceedings of the IEEE conference on computer vision and pattern recognition.2016:pp770-778.图6西夏文字数据集中各类别样本数量的分布情况（基础增广后）图7ResNet的残差块结构180180西夏学二二二年第二期总第二十五辑将采用 ResNet1

16、8 作为基准网络。（2）孪生神经网络设计孪生神经网络首先由 LeCun 等学者在 1993 年提出用于解决手写签名验证中的图像匹配问题。如图 8 所示，本文提出的孪生神经网络由两个共享参数的 ResNet18 网络构成，孪生神经网络分别对输入的两张文字图像样本 x(1)和 x(2)提取高维特征 f(x(1)和 f(x(2)，然后通过添加全连接层和单个神经元的方式计算相似度 D。针对数据集中残损样本和模糊样本较多的问题，理想情况下，同一类别的文字其 ResNet 提取的高维特征距离相近，而不同类别文字的高维特征距离较远。孪生 ResNet 共享网络参数的设计保证了同一类别的文字其清晰样本和残损样

17、本或模糊样本在通过神经网络后被映射到高维空间中相近的位置，从而提高了西夏文残损字形与模糊字形的识别精度。本文使用预设定的阈值 t 以判断输入的两张文字图片是否属于同一类别。（3）两阶段迁移训练算法的设计为了进一步提升模型对尾部数据及残损、模糊、草写等特殊字样数据的识别能力，我们在ResNet 框架的基础上对算法进行了改进。Lee H 等人在研究浮游生物图像分类任务中的数据不平衡问题时提出了分阶段训练的思想，作者通过对所有类别随机采样N个样本得到一个平衡的子数据集 thresh，随后对模型进行两阶段的训练：第一阶段仅使用 thresh 数据集进行训练；第二阶段以第一阶段得到的模型参数作为初始值，

18、在完整的数据集上再次训练。作者以这种方式在他的数据集上取得了较好的识别表现。该思路对西夏文数据集的识别训练具有一定的借鉴意义。LEE H，PARK M，KIM J.Plankton classification on imbalanced large scale database via convolutional neural networks with transfer learningC/2016 IEEE international conference on image processing(ICIP).IEEE，2016：3713-3717.图8孪生神经网络结构181西夏语言文字研

19、究我们基于 Lee H 的思路做出了进一步的改进，第一阶段与其类似，从西夏文数据集 1032 个类别中各随机采样 50 个样本组成容量为 51600 的子数据集进行训练；第二阶段，我们以第一阶段得到的模型作为预训练模型，输入完整的数据集进行迁移训练，训练过程中冻结网络中全连接层以外的层，仅对全连接层进行微调，整个流程如图 9 所示。采用预训练-微调的训练策略，虽然在随机采样过程会损失部分数据信息，但一阶段的训练足以使模型获得对目标的特征提取能力，并且未受到不平衡数据的影响。二阶段冻结卷积层、池化层等的参数，仅微调全连接层，能够在进一步提升模型分类能力的同时缓解“头部”数据造成的过拟合现象。后文

20、将通过实验验证该算法的效果。（4）实验过程本文的实验均在 NVIDIA RTX TITAN 24GB 上运行，使用 PyTorch 作为模型的训练框架，选用 ResNet18 网络与孪生神经网络。首先将原数据根据标注分类，提取所有类别的信息并将其映射为有序数字，对已分类的数据按照前文所述的方法进行数据增广，获得原生、基本增广、基本增广+RandErasing、基本增广+CutMix 共四份数据集。再从四份数据集中分别对每个类别随机取样 50 个样本得到对应的子数据集，使用孪生神经网络学习两阶段训练的第一阶段。在训练时，为了提升效率，同时保留图片的特征，将所有图片统一经过灰度化并 resize

21、到 6464 的尺寸后输入到网络中。在每一个轮次训练结束后输入测试集进行验证，根据训练集和测试集的损失函数等数据调整模型的超参数优化模型表现，记录训练集和测试集的准确率（accuracy）、查准率（precision）和召回率（recall）等数据。（5）结果分析为了评估各种数据增广方法以及两阶段训练对模型识别性能的影响，我们共计进行了 8 组对照实验（表 2），其中基准实验 1 仅使用原生数据集，实验 2 在 1 的数据集上进行基础数据增广，实验3和4分别在2的数据集上使用Rand Erasing和CutMix算法做进一步的扩充，实验5-8为实验 1-4 的二阶段训练版本。通过平均正确率（A

22、vg_acc）和 F1_Score 两个指标来考察模型图9两阶段迁移训练流程图182182西夏学二二二年第二期总第二十五辑的表现。表 2不同数据增广方法在测试集上的平均正确率和F1_ScoreNo.MethodAvg_accF1_score1Origin Dataset31.53%46.29%2Basic Augmentation95.71%92.44%3Basic Augmentation+Rand Erasing95.93%93.08%4Basic Augmentation+CutMix96.32%93.19%5Origin Dataset(Two Stage)32.36%46.97%6B

23、asic Augmentation(Two Stage)96.18%92.82%7Basic Augmentation+Rand Erasing(Two Stage)96.41%93.56%8Basic Augmentation+CutMix(Two Stage)96.77%93.56%表 2 展示了测试集在基准实验和对照实验中的平均正确率和 F1_Score，可以看出数据增广能够显著提升模型的识别精度，Rand Erasing 和 CutMix 的引入进一步提升了数据增广的效果，其中 CutMix 的效果最优，相较基础数据增广，Avg_acc 和 F1_score 分别提高了 0.61%和

24、0.75%。而两阶段训练的引入从算法层面提升了模型的表现，相较于原始的训练方法，两阶段训练在四份数据集中 Avg_acc 分别提升了 0.83%，0.47%，0.49%和 0.55%，F1_score 分别提升了 0.68%，0.38%，0.48%和 0.37%。实验结果证明了数据增广和两阶段训练对不平衡数据集识别训练的有效提升。三、西夏文自动识别平台搭建与随机验证在模型测试与改进基础上我们尝试初步搭建了西夏文字自动识别系统，作为西夏文字智能化识别的平台。西夏文字自动识别系统包括西夏文单字识别与西夏文整版识别，前者可以用于西夏文字学习或服务于研究中的西夏文字单字识别等，后者则可用于西夏文整版的

25、识读与转录。为了考察其在各种西夏文图版情景下自动识别的正确率、稳定性及泛化能力，有必要对其进行实操验证。具体方法即是将未经自动识别系统“学习”的各个历史时期、不同书体的西夏文单字切图或整版切图随机输入自动识别系统，以考察其实操效果。1.西夏文单字自动识别基于卷积神经网络的西夏文字自动识别系统的研发为西夏文单字自动识别提供了稳定、高效的操作平台。在此随机输入数据集（TANGUT-SET）之外的西夏文单字图片，检验如下：183西夏语言文字研究（1）随机输入模糊形体，输出识别结果如下：IDWordProbabilityTranslation10.9806说20.0031兰30.0021严40.001

26、3契50.0011积将准确地识别为“”而汉译作“说”。（2）随机输入残损形体，输出识别结果如下：IDWordProbabilityTranslation10.9895未20.0027智30.0020言40.0012摩50.0008为将准确地识别为“”而汉译作“未”。（3）随机输入草写形体，输出识别结果如下：IDWordProbabilityTranslation10.9818文20.0015世30.0011明40.0007诸50.0003声将准确地判读为“”的草写体而汉译作“文”。（4）随机输入讹误形体，输出识别结果如下：IDWordProbabilityTranslation10.9704此

27、20.0023问30.0016无40.0009所50.0007我184184西夏学二二二年第二期总第二十五辑将准确地判读为“”的讹写（相较原字左部部首少书一竖笔）而汉译作“此”。单字图片输入自动识别系统后，算法会自动输出 5 个识别结果及其正确概率，以上几个西夏文单字的第一个识别结果都是正确的。2.西夏文整版自动识别西夏文整版的自动识别是西夏文文献自动转录的关键，在此随机导入非西夏文数据集来源的其他整版识别如下：导入非数据集切字来源的西夏文大宝积经卷二一（局部），得到了极高的识别正确率。识别结果见图 10。四、小结本文通过深度学习的方法，基于孪生 ResNet 设计了西夏文字的分类模型，使

28、用专业人员标注的西夏文字图片集作为原始数据集，利用了包括空间变换、颜色抖动、信息丢弃、Random Erasing、CutMix 等多种数据增广方法对数据集进行了扩充，使用基于 ResNet18 的孪生网络结构对扩充后的数据集进行初步训练，在此基础上做两阶段迁移训练算法设计对数据集进行进一步训练和测试验证。通过对照实验表明，数据增广能够有效降低数据不平衡对模型精度与泛用性的影响，两阶段训练的划分进一步提升了模型对“尾部”数据及“特别数据”的识别能力。在使用 Basic Augmentation+CutMix 和两阶段训练方法后能够实现 96.77%的测试集识别精度。未来我们将努力扩充标注样本，

29、继续深入研究适用于文字识别的数据增广方法，并且从数据预处理、网络优化等方面提升模型在复杂场景下的识别精度，同时探索深度学习在文字自动检测、文字智能检索等其他方面的应用。随着人工智能深度学习的引入与适应性整合，客观上具备了搭建具有智能高效、运行稳定及泛化能力的西夏文字智能识别系统或西夏文字认知器的条件，在此基础上搭建西夏文献的智能识录系统，进而结合目前已有的数据库技术等，创建新型西夏文智能语料库，无疑具有广阔前景。参考文献：1 臧克和：汉字认知器的研制，杭州师范大学学报（社会科学版）2018 年 3 月。2 张光伟：基于深度学习的西夏文献数字化，西夏学第二十一辑，2020 年第 2 期。（责任编辑：柳长青）

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于孪生神经网络西夏文字智能识别

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。