基于Transformer的自然语言处理模型综述.pdf
《基于Transformer的自然语言处理模型综述.pdf》由会员分享,可在线阅读,更多相关《基于Transformer的自然语言处理模型综述.pdf(7页珍藏版)》请在咨信网上搜索。
1、Artificial Intelligence and Robotics Research 人工智能与机器人研究人工智能与机器人研究,2023,12(3),219-225 Published Online August 2023 in Hans.https:/www.hanspub.org/journal/airr https:/doi.org/10.12677/airr.2023.123025 文章引用文章引用:赖鸣姝.基于 Transformer 的自然语言处理模型综述J.人工智能与机器人研究,2023,12(3):219-225.DOI:10.12677/airr.2023.123025
2、 基于基于Transformer的自然语言处理模型综述的自然语言处理模型综述 赖鸣姝赖鸣姝 北京印刷学院,信息工程学院,北京 收稿日期:2023年6月25日;录用日期:2023年8月1日;发布日期:2023年8月9日 摘摘 要要 自然语言处理是计算机科学中深度学习领域的一个分支,旨在使计算机能够理解、解析或生成人类语言自然语言处理是计算机科学中深度学习领域的一个分支,旨在使计算机能够理解、解析或生成人类语言(包括文字、音频等包括文字、音频等)。本文主要介绍了自然语言处理。本文主要介绍了自然语言处理(Natural Language Processing,NLP)中基于中基于Transforme
3、r结构所衍生出的多种类型的模型。近年,随着深度学习技术的快速发展,自然语言处理模结构所衍生出的多种类型的模型。近年,随着深度学习技术的快速发展,自然语言处理模型的性能也得到了极大的提升,更多的自然语言处理任务得到了更好的解决。这些进展主要得益于神经型的性能也得到了极大的提升,更多的自然语言处理任务得到了更好的解决。这些进展主要得益于神经网络模型的不断发展。本文讲解了当前最为流行的基于网络模型的不断发展。本文讲解了当前最为流行的基于Transformer的几类自然语言处理模型,包括的几类自然语言处理模型,包括BERT(Bidirectional Encoder Representations f
4、rom Transformers)系列、系列、GPT(Generative Pre-trained Transformer)系列和系列和T5系列等。主要介绍了上述系列的模型各自的发展变化以及其在模型结构,设计思路系列等。主要介绍了上述系列的模型各自的发展变化以及其在模型结构,设计思路等方面的区别与联系。同时,对于自然语言处理领域未来的发等方面的区别与联系。同时,对于自然语言处理领域未来的发展方向进行了展望。展方向进行了展望。关键词关键词 人工智能,深度学习,自然语言处理人工智能,深度学习,自然语言处理 A Survey of Transformer-Based Natural Language
5、 Processing Models Mingshu Lai Department of Information Engineering,Beijing Institute of Graphic Communication,Beijing Received:Jun.25th,2023;accepted:Aug.1st,2023;published:Aug.9th,2023 Abstract Natural language processing is a subfield of deep learning in computer science that aims to enable comp
6、uters to understand,parse,or generate human language(text,audio,etc.).This paper mainly introduces various types of models derived from the Transformer structure in Natural Language Processing(NLP).In recent years,with the rapid development of deep learning technology,the 赖鸣姝 DOI:10.12677/airr.2023.
7、123025 220 人工智能与机器人研究 performance of natural language processing models has also been greatly improved,and more natural language processing tasks have been better solved.These advances are mainly due to the continuous development of neural network models.This article explains the most popular Trans-
8、former-based natural language processing models.These include BERT(Bidirectional Encoder Representations from Transformers)family,GPT(Generative Pre-trained Transformer)family,the T5 family,etc.This paper mainly introduces the development and changes of the above series of models,as well as their di
9、fferences and connections in model structure,design ideas and other aspects.At the same time,the future development direction of natural language processing is prospected.Keywords Artificial Intelligence,Deep Learning,Natural Language Processing Copyright 2023 by author(s)and Hans Publishers Inc.Thi
10、s work is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.引言引言 自然语言处理(Natural Language Processing,NLP)这一领域的研究涉及到多个领域的知识,旨在让计算机能够像人类一样理解和处理文本信息,从而实现人机交互、信息检索、自然语言生成等多种应用1。近年来,随着深度学习技术的快速发展和大规模语料库的建立,对于自然语言任务的性能得到了很大的提升。这些进展主
11、要得益于深度学习领域的不断发展,如循环神经网络、卷积神经网络和注意力机制等的提出和应用。截至目前,自然语言处理领域仍然存在许多的问题亟待解决。例如,文本分类、情感分析、机器翻译、命名实体识别等。在这些任务中,计算机需要具备对文本的理解和处理的能力,同时还需要考虑到语言的多义性、歧义性、语境依赖性等因素。为了解决这些问题,学术界已有大量的相关工作,包括统计模型、规则模型、深度学习模型等。综上所述,自然语言处理是一个不断发展和壮大的领域,它涉及到多个学科的交叉,具有广泛的应用前景。未来,随着技术的不断进步和发展,自然语言处理将会在人机交互、知识管理、智能搜索和自然语言生成等方面发挥越来越重要的作用
12、。2.近年进展近年进展 2.1.Transformer 2017 年,Vaswani 等人提出了 Transformer 2,这个模型起初针对自然语言处理中序列到序列(Seq2Seq)中的机器翻译任务,采用了处理序列任务中常见的编码器解码器架构。后期也有许多研究表明并将其应用到许多自然语言处理任务当中。和之前的自然语言处理任务不同,Transformer 不再使用循环神经层(recurrent neural layer),而是仅依赖注意力机制进行信息的编码和解码操作,相比之前的模型也有着较高的并行度,缩短了训练时长。为了解决循环神经网络中存在的遗忘前序信息和必须串行这两个问题,Transfor
13、mer 采用了自注意力机制(self-attention)中的多头注意力机制(muti-head attention)和编解码器结构(encoder-decoder)。之所以采用多头注意力机制,是因为其中的多个注意力头(muti-head)能够达到和常用的卷积操作相类似的输出多个通道的效果。Open AccessOpen Access赖鸣姝 DOI:10.12677/airr.2023.123025 221 人工智能与机器人研究 目前,学界已经存在许多的研究成果表明,Transformer 这一架构可以在图像、视频、音频等多个领域均达到优良的性能,因其是对不同类型的数据的信息提取过程更加的一般
14、化。但这也就造成了其提取信息的能力不够精准,需要大量的数据进行训练才能够挖掘出模型自身最优的性能。在自然语言处理等领域中,许多的模型也都是基于 Transformer 中编码器和解码器的结构进行设计的。2.2.BERTs 最初的 Transformer 模型被广泛应用于序列到序列的机器翻译任务,但随着研究的深入,学者们开始探索其在其他自然语言处理任务中的应用。其中最著名的变体是 BERT(Bidirectional Encoder Represen-tations from Transformers)3,它是一种预训练语言模型,可以十分便捷地用于许多其他自然语言处理任务当中。BERT 针对的任
15、务是更加广义的语言理解任务,是一个双向的网络。也就是说,和 GPT(Generative Pre-trained Transformer)4仅通过左侧的信息来预测之后的信息(在后文进行详细介绍)不同的是,BERT利用了左右两侧的信息进行目标位置的相关预测。自然语言处理领域主要包括两种类型的任务,第一个类型是句子层面的任务,例如,文本情感分类。第二个类型是词语级别的任务,例如,实体识别。第二类任务中需要一些细粒度的信息。其下游任务迁移一般有两种方式:一种是基于特征的迁移方式,另一种是基于微调的迁移方式。基于特征的迁移方法就是针对每一个下游任务设计一个新的网络,基于微调的方式就是使用预训练模型,再
16、使用下游任务的数据集对模型进行微调。BERT 主要使用一种带掩码的语言模型,这个模型会随机遮盖住句子的一些词,损失函数负责预测被遮盖住的词。这样就需要参考被预测位置两侧的信息,形成了双向的 Transformer预训练模型。在 BERT 的模型预训练过程中,在未标记的数据集上进行无监督训练,向下游任务迁移时,在带标记的下游任务数据集上做微调,这一做法原本在深度学习的计算机视觉领域十分常见,但是相比于已经存在大规模含标注数据集且单个样本已经蕴含了丰富信息的计算机视觉领域,自然语言处理领域中的模型很难达到这一效果。因此,BERT 选择在无监督数据集上进行预训练。BERT 的预训练有两个步骤:预训练
17、和微调,预训练使用没有标签的数据集,进行无监督训练;微调步骤使用的是有标注的数据。进行有监督训练。BERT 更加适合处理文本序列的数据而不是单个的句子。由于 BERT 在训练过程中能够十分方便的适应到下游任务中,因此解决下游任务问题的重点就转变为了对于下游任务的转换和数据的组织,而非模型的设计工作,这大大方便了下游任务实际落地的过程。在 BERT 模型发布之后,谷歌公司也在不断地对其进行改进和升级。2019 年,提出了 BERT 的多语言版本 MBERT 5,通过在多种语言的大规模语料库上进行预训练,可以处理 104 种语言。这个版本的发布,在全球范围内的应用得到了进一步的扩展。RoBERTa
18、 6利用更多的数据、更大的训练批次和更长的训练时间,去掉下一句预测目标,较长序列的训练以及动态掩码(Dynamic Masking)机制,来优化模型性能。ELECTRA 7引入了一种类似于生成对抗网络(Generative Adversarial Network,GAN)的训练方式。首先,使用一个参数量较少的模型作为生成器,针对随机遮盖的词元进行预测,然后再将重新修复后的句子交给判别器进行判断,主要判断输入的句子当中每个单词是否经过生成器的替换。而 BERT 的训练过程则是先对一部分词元进行随机遮盖,再利用上下文信息预测被遮盖的词,预测的样本空间是整个词表。ELECTRA 进一步提升了自然语言
19、处理任务上的性能。在训练过程中对于数据遮盖方式的研究,也是 BERT 系列中的一个研究重点。BERT 使用了较为简单的随机遮盖词元的方式对于数据进行处理,但这种方式对于语料的信息有所损失。BERT-WWM 8中所使用的方式为将被遮盖词元所属单词的其他词元也进行遮盖。随后提出的 ERNIE 9则引入命名实体(Named Entity)这类外部知识,对实体单元进行遮盖。SpanBERT 10中根据几何分布,先随机选择一段赖鸣姝 DOI:10.12677/airr.2023.123025 222 人工智能与机器人研究 语句的长度,之后再根据均匀分布随机选择这一段的起始位置,最后按照长度遮盖,达到了更
20、好的效果。另外,学界许多学者针对于使用更少的参数达到和 BERT 相似的性能并加快训练速度这一目的进行研究,ALBERT 11、Q8BERT 12、DistilBERT 13和 TinyBERT 14等相关工作先后被提出。四个工作分别采用了结构优化、量化、知识蒸馏等方式进行模型的压缩,使其能够在更多的场景和设备中进行应用和部署。总体而言,BERT 模型基于 Transformer 中的编码器结构,有众多优化方向,主要有前文详述的模型压缩和微调与任务优化。BERT 系列模型的优点包括:可以处理各种自然语言处理任务,可以使用多种语言进行预训练和微调的模式,使得模型可以更好地应用到下游任务当中。由于
21、使用了 Transformer 架构,BERT 系列模型在处理较长文本时具有优势。然而,BERT 系列模型的缺点也很明显,首先,BERT 需要大量的计算资源和时间进行训练和微调。其次,BERT 并不擅长处理所有的自然语言处理任务,比如生成类任务。再次,因为 BERT 是基于词而不是句子级别的编码,且 BERT 的段嵌入(segment embedding)只能包含两种句子类型,没有办法直接用于输入存在多个句子的摘要任务当中。最后,BERT 不擅长处理一些专业领域(如医疗、金融)用词或中文偏僻词相关的问题。2.3.GPTs 由 Transformer 还发展出的另一个系列的模型,GPT 系列。其
22、目标任务是使得模型可以变为一个可以解决所有自然语言处理问题的通用型模型,相比于 Transformer 和 BERT 系列针对的文本分类和机器翻译任务而言,是一个更加难以达到的目标,因此其在单个任务方面的性能相比 BERT 而言也就有所下降。和 BERT 系列使用 Transformer 中的编码器部分进行堆叠不同,GPT 系列的模型使用了 Transformer 的解码器进行堆叠。和 BERT 的训练过程不同,GPT 4的微调过程把带标签的数据全部送到预训练模型中,使用最后一个输入对应的输出的特征,乘以对应的权重。另外,在微调过程中还需要考虑无监督训练过程的标准语言模型的损失计算方式的设计,
23、以求达到更好的效果。2019 年,Alec Radford 等人提出的 GPT-2 15所面临的一个问题是:当数据集数量和模型参数量都进行增大的情况下,GPT 的性能并没有优于 BERT。因此,GPT-2 为了提高模型的泛化性,使得预训练模型在迁移到下游任务的时候完全不用进行微调,提出了一个基于零样本学习的方法,使用自然语言的方式来描述问题,作为提示(Prompt),也就是零样本学习的核心思想,也是提示工程(Prompt project)所需要做的工作。2020 年,Tom B.Brown 等人提出的 GPT-3 16改为采用小样本学习的思路,弱化了极致的零样本学习,尝试解决 GPT2 中存在
24、的有效性低的问题。但是,GPT-3 作为一个拥有大量参数(175 亿)的非稀疏模型在应用到下游任务时选择了不更新梯度和微调。GPT-3 虽然已经在很多任务中达到了很好的效果,但其仍然存在一定的限制。首先,对于长文本的生成有一定的限制;其次,这一系列的论文由于仅使用Transformer 的解码器部分导致其对于样本只能“从左往右”看,并不能像 BERT 一样总揽全局的信息;最后,每一个词元(token)在预测下一个词元的时候发挥的效率均等,导致了学习效率较低,样本有效性不足,导致可解释性较差且模型的训练成本偏高。2022 年 3 月,Long Ouyang 等人提出了 InstructGPT 1
25、7模型,利用了基于人类反馈的强化学习方法(Reinforcement Learning from Human Feedback,RLHF)对 GPT-3 进行微调,使得该模型的输出更加符合人类偏好。在 InstrcutGPT 中,输入序列是一段自然语言文本和一条给定的程序指令,模型的任务是生成与给定指令相对应的程序代码。InstrcutGPT 的预训练过程主要分为两个阶段:第一个阶段是基于代码库的预训练,第二个阶段是基于程序指令的预训练。在基于代码库的预训练阶段,模型主要学习代码库中的代码结构和语法规则;在基于程序指令的预训练阶段,模型主要学习如何将自然语言指令转换为程序代赖鸣姝 DOI:10
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Transformer 自然语言 处理 模型 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。