自然语言处理中的深度学习方法研究.pdf
《自然语言处理中的深度学习方法研究.pdf》由会员分享,可在线阅读,更多相关《自然语言处理中的深度学习方法研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、2023年9 月计算机应用文摘第39 卷第17 期自然语言处理中的深度学习方法研究陈静,梁俊毅?(1.广西工业职业技术学院,南宁530 0 0 1;2.北海职业学院,广西北海536 0 0 0)摘要:文本分类是自然语言处理中的一项基本任务。现有的大多数研究都依赖于显式或隐式的文本表示来解决这类问题,这些研究对较长的句子有较好的效果,但不能很好地应用于短文本分类。传统的多尺寸滤波器卷积神经网络能获得简单的词向量特征,但是容易忽略重要特征,因此文章提出了一种基于神经网络的短文本分类模型,该模型可以采用非线性滑动的方法与N-gram语言模型获得丰富的文本特征,并通过集中机制来挑选关键特征,然后采用池
2、化操作来尽可能地保持文本特征的确定性。实验表明,与传统的卷积神经网络相比,该算法可以显著改善短文本分类的效果。关键词:自然语言处理;情感分析;CNN;深度学习中图法分类号:TP391Research on deep learning in natural language processing(1.Guangxi Vocational&Technical Institute of Industry,Nanning 53000,China;Abstract:Text classification is a basic task in natural language processing.Mos
3、t existing researchrelies on explicit or implicit text representations to solve such problems,which work well for longersentences but do not apply well to short text classification.The traditional multi-dimension filterconvolutional neural network can obtain simple word vector features but easily ig
4、nore importantfeatures.Therefore,a short text classification model based on neural network is proposed in thispaper.The model can obtain rich text features by using nonlinear sliding method and N-gramlanguage model,and select key features by centralized mechanism.Pooling operations are then usedto p
5、reserve as much deterministic textual features as possible.Experiments show that compared withthe traditional convolutional neural network,the proposed algorithm can significantly improve theclassification of short texts.Key words:natural language processing,emotion analysis,CNN,deep learning1引言自然语言
6、处理(Natural Language Processing,NLP)是计算机科学、语言学和人工智能的交叉领域,旨在将自然语言转化成计算机可识别的形式,并帮助计算机建立理解和处理自然语言的能力。NLP能提高计算机的信息处理效率和精度,将人类语言与计算机技术结合起来,使计算机在面对人类的自然语言时具有类似人类的思维能力,实现更自然、快速、准确的文献标识码:ACHEN Jing,LIANG Junyi?2.Beihai Vocational College,Beihai,Guangxi 536000,China)人机交互。具体来说,NLP可以用于机器翻译、语音识别、自动问答、文本分类、信息归纳和摘
7、要、文本情感分析等领域 1 2。情感分析 3是指将自然语言文本中的情感或情绪信息提取出来并进行分类,是自然语言处理的重要应用之一,已经在商业和社交媒体等领域中发挥了重要的作用。例如,商家可以利用情感分析技术评估消费者对商品或服务的满意程度,从而改进产品或服务 4目前,情感分析的常用技术主要是基于深度学习基金项目:广西工业职业技术学院2 0 2 0 年度科研项目:基于深度学习的“智慧课堂管家”系统研究与实现(桂工业院科20201号2023 年第17 期的方法。因为这类方法可以利用神经网络对语义和上下文进行建模,从而提高分析效果。常用的基于深度学习的方法包括卷积神经网络(Convolutional
8、Neural Network,C NN)5、标准循环神经网络(R e c u r r e n t n e u r a l n e t w o r k,R NN)6、长短期记忆网络(Long Short-Term Memory,LSTM)7 等。CNN 相比于RNN,LSTM等神经网络,具有数据处理速度快、模型结构简单、规模可扩展和准确性较高等优点。本文基于CNN网络提出了一种改进型短文本分类网络来提高对较短文本的分类精度。实验结果表明,在短文本分类场景下,本文算法比标准CNN算法有明显的优势。2短文本分类网络本文采用的模型输人单元是每个词的词向量,并利用3种大小的卷积核(即3dim,4d i
9、m和5dim)对向量做卷积运算,然后在池化层采用了集中机制来有效提取特征,最后由全连接层和Softmax函数实现分类。基于CNN的短文本分类网络如图1所示。1003dimW1W2W3WnN-gram也被称为N元模型,在自然语言处理过程中是一个非常重要的概念。假设有一个字符串S,其N-gram表达式表示将原始单词划分为多个长度为N的部分,即字符串S中所有子字符串的长度都为N。为了获得丰富而有效的文本特征,本文利用窗口中的非线性组合方式设计了一个基于N-gram 的滑动窗口模型。例如,针对短文本“男人喜欢球赛”设计一个4-gram模型,即长度为4的滑动窗口,间隔空间和滑动窗口的步长均为1,具体描述
10、如图2 所示。针对短文本内容“男人喜欢球赛”,在4-gram模型中有间隔地逐个移动一个字的步长,依次分别得到不同的文本,即“男人喜欢”“男人喜球”“男人欢球”“人喜欢球”。计算机应用文摘如果只使用传统的滑动模型,只能得到3种文本特征,分别为“男人喜欢”“人喜欢看”“喜欢球赛”。通过对比发现,基于N-gram的滑动模型可以获得更丰富的文本特征。男人喜欢球赛男人喜欢球赛图44-gram模型窗口的滑动结果传统的滑动窗口模型只关注特定窗口中临近词的线性滑动操作,而没有考虑非相邻词之间的关系。本文采用的基于N-gram的滑动窗口模型,可以通过非连续的方式获得文本中更丰富的词向量,同时可以获得一些重要的句
11、子主干。集中机制在图像识别任务中已经取得了良好的效果,并且已经应用于自然语言处理领域,在机器翻译等方面取得了突出效果。根据这些优点,本文在窗口滑动方法的基础上,应用了集中机制以提取一些重要的文本特征。本文方法类100似于传统的层理论,并利用N阶滑动窗口一个接一个池化地向前移动,但它不同于传统的方法,其每个窗口的权值并不共享,具体过程如图3所示。集中300Softmax4xdim池化集中5xdim集中集中机制池化图1基于CNN的短文本分类网络131圆人喜欢球男人喜欢球赛W1a1W2a2W3a33xdimWn在上文提到的滑动模式下,可以在每次滑动时获得各种短文本集合。为了评估同一窗口下每个短语集合
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 处理 中的 深度 学习方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。