自然语言处理中的深度学习方法研究.pdf

上传人：自信****多点

文档编号：606382

上传时间：2024-01-12

格式：PDF

页数：4

大小：2.31MB

《自然语言处理中的深度学习方法研究.pdf》由会员分享，可在线阅读，更多相关《自然语言处理中的深度学习方法研究.pdf（4页珍藏版）》请在咨信网上搜索。

1、2023年9 月计算机应用文摘第39 卷第17 期自然语言处理中的深度学习方法研究陈静,梁俊毅？（1.广西工业职业技术学院，南宁530 0 0 1；2.北海职业学院，广西北海536 0 0 0)摘要：文本分类是自然语言处理中的一项基本任务。现有的大多数研究都依赖于显式或隐式的文本表示来解决这类问题，这些研究对较长的句子有较好的效果，但不能很好地应用于短文本分类。传统的多尺寸滤波器卷积神经网络能获得简单的词向量特征，但是容易忽略重要特征，因此文章提出了一种基于神经网络的短文本分类模型，该模型可以采用非线性滑动的方法与N-gram语言模型获得丰富的文本特征，并通过集中机制来挑选关键特征，然后采用池

2、化操作来尽可能地保持文本特征的确定性。实验表明，与传统的卷积神经网络相比，该算法可以显著改善短文本分类的效果。关键词：自然语言处理；情感分析；CNN；深度学习中图法分类号：TP391Research on deep learning in natural language processing(1.Guangxi Vocational&Technical Institute of Industry,Nanning 53000,China;Abstract:Text classification is a basic task in natural language processing.Mos

3、t existing researchrelies on explicit or implicit text representations to solve such problems,which work well for longersentences but do not apply well to short text classification.The traditional multi-dimension filterconvolutional neural network can obtain simple word vector features but easily ig

4、nore importantfeatures.Therefore,a short text classification model based on neural network is proposed in thispaper.The model can obtain rich text features by using nonlinear sliding method and N-gramlanguage model,and select key features by centralized mechanism.Pooling operations are then usedto p

5、reserve as much deterministic textual features as possible.Experiments show that compared withthe traditional convolutional neural network,the proposed algorithm can significantly improve theclassification of short texts.Key words:natural language processing,emotion analysis,CNN,deep learning1引言自然语言

6、处理（Natural Language Processing，NLP)是计算机科学、语言学和人工智能的交叉领域，旨在将自然语言转化成计算机可识别的形式,并帮助计算机建立理解和处理自然语言的能力。NLP能提高计算机的信息处理效率和精度，将人类语言与计算机技术结合起来，使计算机在面对人类的自然语言时具有类似人类的思维能力，实现更自然、快速、准确的文献标识码：ACHEN Jing,LIANG Junyi?2.Beihai Vocational College,Beihai,Guangxi 536000,China)人机交互。具体来说，NLP可以用于机器翻译、语音识别、自动问答、文本分类、信息归纳和摘

7、要、文本情感分析等领域 1 2。情感分析 3是指将自然语言文本中的情感或情绪信息提取出来并进行分类，是自然语言处理的重要应用之一，已经在商业和社交媒体等领域中发挥了重要的作用。例如,商家可以利用情感分析技术评估消费者对商品或服务的满意程度，从而改进产品或服务 4目前，情感分析的常用技术主要是基于深度学习基金项目：广西工业职业技术学院2 0 2 0 年度科研项目：基于深度学习的“智慧课堂管家”系统研究与实现（桂工业院科20201号2023 年第17 期的方法。因为这类方法可以利用神经网络对语义和上下文进行建模,从而提高分析效果。常用的基于深度学习的方法包括卷积神经网络（Convolutional

8、Neural Network，C NN）5、标准循环神经网络（R e c u r r e n t n e u r a l n e t w o r k,R NN）6、长短期记忆网络(Long Short-Term Memory,LSTM)7 等。CNN 相比于RNN,LSTM等神经网络,具有数据处理速度快、模型结构简单、规模可扩展和准确性较高等优点。本文基于CNN网络提出了一种改进型短文本分类网络来提高对较短文本的分类精度。实验结果表明，在短文本分类场景下，本文算法比标准CNN算法有明显的优势。2短文本分类网络本文采用的模型输人单元是每个词的词向量，并利用3种大小的卷积核（即3dim，4d i

9、m和5dim）对向量做卷积运算，然后在池化层采用了集中机制来有效提取特征,最后由全连接层和Softmax函数实现分类。基于CNN的短文本分类网络如图1所示。1003dimW1W2W3WnN-gram也被称为N元模型,在自然语言处理过程中是一个非常重要的概念。假设有一个字符串S，其N-gram表达式表示将原始单词划分为多个长度为N的部分,即字符串S中所有子字符串的长度都为N。为了获得丰富而有效的文本特征,本文利用窗口中的非线性组合方式设计了一个基于N-gram 的滑动窗口模型。例如,针对短文本“男人喜欢球赛”设计一个4-gram模型,即长度为4的滑动窗口，间隔空间和滑动窗口的步长均为1，具体描述

10、如图2 所示。针对短文本内容“男人喜欢球赛”,在4-gram模型中有间隔地逐个移动一个字的步长，依次分别得到不同的文本，即“男人喜欢”“男人喜球”“男人欢球”“人喜欢球”。计算机应用文摘如果只使用传统的滑动模型，只能得到3种文本特征，分别为“男人喜欢”“人喜欢看”“喜欢球赛”。通过对比发现,基于N-gram的滑动模型可以获得更丰富的文本特征。男人喜欢球赛男人喜欢球赛图44-gram模型窗口的滑动结果传统的滑动窗口模型只关注特定窗口中临近词的线性滑动操作,而没有考虑非相邻词之间的关系。本文采用的基于N-gram的滑动窗口模型,可以通过非连续的方式获得文本中更丰富的词向量，同时可以获得一些重要的句

11、子主干。集中机制在图像识别任务中已经取得了良好的效果,并且已经应用于自然语言处理领域，在机器翻译等方面取得了突出效果。根据这些优点，本文在窗口滑动方法的基础上，应用了集中机制以提取一些重要的文本特征。本文方法类100似于传统的层理论,并利用N阶滑动窗口一个接一个池化地向前移动,但它不同于传统的方法,其每个窗口的权值并不共享，具体过程如图3所示。集中300Softmax4xdim池化集中5xdim集中集中机制池化图1基于CNN的短文本分类网络131圆人喜欢球男人喜欢球赛W1a1W2a2W3a33xdimWn在上文提到的滑动模式下，可以在每次滑动时获得各种短文本集合。为了评估同一窗口下每个短语集合

12、的重要性，本文采用了该方法,计算式为：Ss,=(W,X)j+1.-+b,)其中,S.,表示窗口中每个短语的权重值,Xij+1+t-1表示当前滑动窗口中的一组词向量矩阵，W，表示第i个窗口中每个短语的权重值，b；表示第i个窗的偏移值，f表示激活函数。为了获取每个窗口的关键短语，可以采用以下公式：Si,.m=max(Si,Si,2,Si,.)从式（2)中可以看出，选择的最大集合是所有第i个窗口中的关键短语集Sim的最大短语组合，S,表示第i个窗中第1个短语的集合。所有参数都可以表示关键词向量集,即;,表达式如下：a;=(wi,1,wi,2,.)其中,wi,表示第i个窗口中的第1个原始词向量。然男人

13、喜欢球赛100an 图3集中机制处理过程300(1)(2)(3)132后，进行关键词向量的卷积运算，卷积核的数量为300。最后进行池化运算，得到特征向量的输出结果：Ca=pooling(f(Ewaa1.n+ba)(4)其中,C。表示注意力机制对特征向量的输出结果，a1n表示关键词向量集,b。表示偏移值，是激活函数，pooling函数表示池化操作。然后，本文通过使用不同的滤波器窗口来获得输出的特征向量（即）,最后对c。进行压缩运算并添加偏移值来激活输出：h=f(Zwccai+r-1+b)其中,h表示整个模型输出的特征向量，w表示卷积核权重矩阵,b表示偏移值,f表示激活函数。在自然语言处理领域中，

14、当使用卷积网络实现文本分类时，池化操作通常包括最大池化操作和平均池化操作，都可以压缩数据，减少参数数量，避免过度拟合等。为了进一步改进池化操作,本文采用了结合2 种方法优点的池化技术：=i=1其中，c表示K-max池化输出结果，max;ic1，C2，,C n-h+1表示h卷积运算后的最大输出结果。最大池操作是将结果的最大值作为采样输出，而平均池操作是将结果的平均值作为采样输出。K-max平均池化是在采样过程中获取K个最大值,然后计算它们的平均值并将其作为采样输出,这种方法避免了在最大池化操作过程中只选择一个最大特征值的情况，从而可以兼顾其他特征的影响。此外，它还防止了在平均池化过程中出现距离较

15、大的小特征会削弱整个特征强度的现象。因此,K-max平均池化方法可以保持较强的特征强度,并有效提取词向量的采样特征。3实验与讨论在实验中，本文采用文本数据集进行了训练和验证,以测试该方法的分类效果。实验环境为Intel i7-6500处理器，16 CB运行内存,Python3.5编程环境和Theano0.9深度学习框架。实验的数据集采用了近年广泛应用于文本分类的MR数据集。该数据集是英语电影评论数据集，共包含10 6 6 2 个数据记录，句子平均长度为2 0。为了检验该方法的有效性,本文设计了一组对比实验,并用准确度、召回率和F18评估文本分类的效果,即：Precision=TP+FP计算机应

16、用文摘其中,TP表示在预测的正确类中实际正确类的数量，FP表示在预测的正确类中实际错误类的数量,FN表示在预测的错误类中实际错误类的数量。为了研究模型对数据集的分类效果,本文使用MR数据集对提出的4-gram-网络与标准CNN方法进行测试和比较，(5)精确度对比如表1所列。表44-gram-方法与标准CNN的精确度对比模型精确度标准CNN79.5%4-gram-方法80.4%从实验结果可以看出，本文方法（即4-gram短文本分类方法)对该数据集有很好的性能效果,明显提高了分类准确率。为了选取最理想的 N-gram模型 N值，本文还采用不同的N值对数据集进行实验操作，最终分类结果如表2 所列。(

17、6)ki=1TP2023年第17 期TPRecall=TP+FN2xPrecisionxRecallF1=Precision+Recall表2 不同N值对分类指标的影响模型精确度1-gram-方法90.5%2-gram-方法91.4%3-gram-方法91.5%4-gram-方法91.9%从表2 中可以看出，随着N值的增加,该模型的文本分类效果有明显变化。当N为4时,分类精度最高，因为模型可以很好地描述句子的主干，文本单词的矢量特征也更加准确。而当N为1时,分类准确度最差，因为单个字不能很好地表示词与词之间的关系，导致词向量不能很好地表示语义特征。4结束语本文旨在探讨典型的多尺寸滤波器的卷积神

18、经网络,并提出相应的短文本分类任务的求解方法。具体地，本文设计了一个基于N-gram的短文本分类模型，该模型将单词向量作为输人，并采用跳跃间方法在滑动窗口中提取更有效的特征表示。此外,本文特别关注了关键特征的属性,并将集中机制和池化操作相结合。为了验证模型的正确性，本文在不同的模型上进行了实验，结果表明，该模型对短文本分类任务是可行的,且分类效果相较于标准CNN方法显著提高。未来，我们会探索将该方法应用到更实际的领域，如医学文本的上下文分析。(7)(8)(9)召回率F192.8%91.3%93.1%92.4%93.4%92.8%92.1%92.1%(下转第136 页)136DropConnec

19、t算法与深度自动编码算法结合,有效地处理深度学习中的过拟合问题,并提升图片分类的效果。在实际应用中,该算法显著提高了模型的泛化能力，使得图像分类高效且快速，进而提高分类的精确度，满足分类工作的需求。6结束语图像分类是信息时代背景下的一项重要研究内容,也是计算机视觉的基础任务。通过图像分类，可以为医疗、交通、安防等领域提供良好的技术支持，帮助其精准快速地完成图像处理，从而提升工作效率。应用基于深度学习的图像分类方法能够显著提高图像分类的准确性,有效提高图像处理效率。在实际应用中基于深度学习的图像分类方法的多样性，不同类别的算法组合会对图像分类产生不同的影响。因此，需要注重分析各类算法的原理，并不

20、断优化深度学习算法，以提高图像分类的质量和效率。参考文献：1叶昭晖,王薇薇,张影.基于深度学习的图像分类方法研究J.信息网络安全,2 0 2 1,16(S1)：143-146.(上接第132 页）参考文献：1】赵京胜，宋梦雪，高祥.自然语言处理发展及应用综述J.信息技术与信息化，2 0 19（7）：142-145.2郭天翼,彭敏,伊穆兰,等.自然语言处理领域中的自动问答研究进展 J.武汉大学学报（理学版），2 0 19,6 5（5）：417-426.3王婷,杨文忠.文本情感分析方法研究综述 J.计算机工程与应用,2 0 2 1,57(12):11-2 4.4】李曼宁,于晶芸,蒋忠中，等.基于网

21、络视频弹幕情感分析的广告插人机制对消费者冲动购买意愿的影响 J.系统管理学报,2 0 2 1,30(6)：118 7-119 7.5张昱,刘开峰,张全新,等.基于组合-卷积神经网络的中文计算机应用文摘2张泽琳,章智伟,胡齐，等.基于深度学习的多产品煤料图像分类方法研究 J.煤炭科学技术,2 0 2 1,49（9）：117-12 3.3汪晓洲,石翠萍,杨混，等.基于深度学习的场景遥感图像分类方法研究J.齐齐哈尔大学学报（自然科学版），2021,37(5):11-15.【4】袁浩.基于深度字典学习的图像分类方法 J.信息与电脑（理论版）,2 0 2 1,33(12):55-57.5李祥霞，吉晓慧，

22、李彬.细粒度图像分类的深度学习方法J.计算机科学与探索,2 0 2 1,15（10）：18 30-18 42.6】李玥,罗滔.深度学习理论的高光谱图像分类方法J.激光杂志,2 0 2 0,41(9):2 2 1-2 2 4.7】张振亚，倪红军.基于深度学习的发票图像分类方法J.南通职业大学学报,2 0 2 0,34（2）：7 9-8 3.【8 李睿,章宇辉.深度强化学习的图像特征高效分类方法仿真 J.计算机仿真，2 0 2 0,37(1)：37 7-38 0.9程俊华，曾国辉,刘瑾.基于深度学习的复杂背景图像分类方法研究 J.电子科技,2 0 2 0,33（12）：59-6 6.10】陶筱娇,

23、王鑫.基于深度学习算法的图像分类方法 J.微型电脑应用,2 0 19,35（3）：40-43.作者简介：陈朝飞（19 8 5一），硕士，讲师,研究方向：计算机技术。新闻文本分类 J.电子学报,2 0 2 1,49（6）：10 59-10 6 7.6胡荣磊,芮璐,齐筱,等.基于循环神经网络和注意力模型的文本情感分析 J.计算机应用研究，2 0 19,36（11）：3282-3285.7 王小兵.基于长短期记忆网络的新冠疫情微博情感分析研究 D.合肥：安徽大学,2 0 2 1.8姜佳.文本表示模型及相似度计算算法研究与应用 D.西安：西安科技大学，2 0 2 0.作者简介：陈静（19 8 3一）,硕士，副教授，研究方向：教学论、计算机教育。梁俊毅（19 8 1一），硕士，副教授，研究方向：计算机教育、信息技术（通信作者）。2023年第17 期

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 自然语言处理中的深度学习方法研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。