计算机文本分析算法发展综述_孙静含.pdf
《计算机文本分析算法发展综述_孙静含.pdf》由会员分享,可在线阅读,更多相关《计算机文本分析算法发展综述_孙静含.pdf(6页珍藏版)》请在咨信网上搜索。
1、www.ChinaAET.comReview and Comment综述与评论计算机文本分析算法发展综述孙静含1,任静2(1.北京工业大学,北京 100124;2.中国电子信息产业集团第六研究所,北京 100083)摘 要:计算机文本分析是自然语言处理领域的一个重要分支,是研究如何在文本数据中提取出给定语料的各类信息的计算机技术。目前,计算机文本分析已经进入了新的历史阶段,一方面关键词提取算法已经逐渐完备,另一方面随着 BERT 方法的出现,词向量计算问题也取得了极大的进步。但是,无论是关键词提取还是词向量计算都仍存在一些有待解决的问题。另外,现有的许多适合使用文本分析的研究仍在使用早期的文本
2、分析方法。因此在未来,如何更好地降低模型尺寸以促进学科融合、提升文本分析的综合社会效益,成为文本分析算法发展的重要问题。关键词:文本分析;自然语言处理;算法中图分类号:TP181 文献标志码:A DOI:10.16157/j.issn.0258-7998.223117中文引用格式:孙静含,任静.计算机文本分析算法发展综述J.电子技术应用,2023,49(3):42-47.英文引用格式:Sun Jinghan,Ren Jing.A survey of the development of computer text analysis algorithmsJ.Application of Elec
3、tronic Technique,2023,49(3):42-47.A survey of the development of computer text analysis algorithmsSun Jinghan1,Ren Jing2(1.Beijing University of Technology,Beijing100124,China;2.The Sixth Research Institute of China Electronics Corporation,Beijing 100083,China)Abstract:Computer text analysis is an i
4、mportant branch in the field of natural language processing,and it is a computer technology that studies how to extract various types of information from a given corpus from text data.At present,computer text analysis has entered a new historical stage.On the one hand,the keyword extraction algorith
5、m has gradually been completed.On the other hand,with the emergence of the BERT method,the word vector calculation problem has also made great progress.However,there are still some problems to be solved in both keyword extraction and word vector calculation.In addition,many existing studies suitable
6、 for using text analysis still use ancient text analysis methods.Therefore,in the future,how to better reduce the model size to promote the integration of disciplines and improve the comprehensive social benefits of text analysis will become an important issue in the development of text analysis alg
7、orithms.Key words:text analysis;natural language processing;algorithm0 引言计 算 机 文 本 分 析 是 自 然 语 言 处 理(Natural Language Processing,NLP)领域的一个重要分支,是指对文本数据或语料库内的语料进行分析,最终提取出给定语料的各种信息,包括关键词、词向量等内容的计算机技术,在一些文献中也将这一领域的相关技术纳入自然语言处理预训练技术之中12。文本分析最早起源于 20 世纪 5060 年代,这一阶段的研究重点是如何对语言规则进行设定3。到 20 世纪 70 年代,随着语料库的丰
8、富和硬件设备的进步,文本分析技术开始融合机器学习算法,并得到了快速发展4。进入 21 世纪之后,深度学习方法被运用到文本分析之中,诞生了诸如 Word2Vec、BERT 等技术,进一步提高了文本分析的应用场景。在可以预见的未来,传统的基于数字数据的分析方法将逐渐无法满足越发庞杂的应用需求,文本分析和其所属的自然语言处理领域将会是一个愈发重要的发展方向。1 文本分析的基础1.1 分词分词是中文等亚洲语言的特有的问题,早在 20 世纪80 年代中期就已经开始了中文分词方法的相关探索,并出现了一些早期的分词系统5。1998 年,北京航空航天大学推出了新一代分词系统 CASS,该系统使用正向增42Re
9、view and Comment综述与评论电子技术应用 2023年 第49卷 第3期字最大匹配系统,使用知识库来处理歧义字段,实现了150 字/秒的分词速度67。截至目前,有三种主要的分词方法,第一种是基于字符串匹配的分词法,该方法是用待分析文本与一个词典进行匹配,若在词典中找到了该词,则视为匹配成功。依照扫描方法和匹配长度分为正向/逆向/双向最大/最小匹配89;第二种是基于理解的分词法,该方法通过计算机模拟人对句子的理解,以达到分词效果,以此为基本思路诞生了专家系统分词法和神经网络分词法1011;第三种是基于统计的分词法,该方法把每个词看作字的组成,相邻的字在语料库中出现的次数越多,就越可能
10、组成一个词1213,该方法使用隐马尔科夫(Hidden Markov Model,HMM)或随机条件场(Conditional Random Field,CRF)进行概率计算。现如今,比较常用的分词方法是基于 Python 的 Jieba 分词技术14,该技术本身含有一个由人民日报等语料库训练出来的包含 20 000 多个中文单词的词典,首先用该词典生成前缀树进行词图扫描,用所有可能的分词情况构建有向无环图(Directed Acyclic Graph,DAG);通过 DAG和逆向最大匹配法原理,利用动态规划算法查找最大概率的切分组合;如果出现了未登录词,则使用 HMM 模型预测可能的分词方法
11、1516。目前,虽然中文分词技术已经趋于成熟,但也仍面临粒度选择(分词长度)、分词歧义和未登录词识别的问题1718。Jieba 分词将基于字符串匹配的分词方法和基于统计的分词方法相结合,一定程度地减少了未登录词识别的问题,但分词歧义仍是中文分词中的难题。1.2 词根获取与词性标注在印欧语系的文本分析中,由于同一个词在不同语境中会有不同的变形,因此如何取词根成为了一个重要的问题。取词根方法包含基于规则和基于词典两种,但实际拟合效果均不够理想。Strzalkowski 等人和 Xu 等人先后对取词根方法进行了改进1920,但截至目前取词根仍是困扰印欧语系文本分析的主要问题。词性标注是同时出现在不同
12、语系文本之中的,正确高效地对词性进行标注,有助于部分词义消歧,提高后续处理效果2122。词性标注已经是一个比较成熟的技术,早在 2005 年以前,英文词性标注和中文词性标注的准确率就已经都能达到 97%左右2324。2 文本分析方法2.1 语言预测N-gram 模型是一种比较早期的文本分析方法,由Brown 等人在 1998 年提出25,该方法基于统计概率模型,其所描述的是,在一个自然语言句子中,假设第 i 个词出现的概率只与前 i-1 个单词有关,那么其整个句子出现的概率就是每个单词出现概率的乘积,这就构成了一个 i-1 阶的马尔可夫假设。因此,在有足够大语料库的前提下,就可以通过前一到两个
13、单词来预测下一个单词。已有的测试发现,在使用足够语料库的前提下,N-gram 可以起到很好的预测效果26。在实际操作中,N-gram 由于其极强的可操作性和效果,在自动索引、拼写检查等领域中广泛应用。N-gram 的缺点是:第一,i 的数量提升时,计算的复杂度也会指数增长,因此一般会采用二元或三元的简单模型,但此时就无法建模更远的关系;第二,N-gram 依赖于大量语料库,如果语料库数据量不充分大,则会出现预测水平下降的问题1。2.2 关键词提取2.2.1 TF-IDFTF-IDF 算法是一种关键词加权的算法2728,用以评估一个字词在一个语料库中的重要程度,其在信息检索等领域已被广泛使用。该
14、算法的基本思想是,一个词语的重要程度应与其在文档中出现的频率成正比,在语料库中的其他文档内出现的重要程度成反比。TF(词频)为检索词 W 在检索文档 A 中出现的频率,用 W 词频数除以文档 A 中的总词数表示;IDF(逆文档频率)为 W 词出现在逆文档中的频数表示,用总文档数除以出现词 W的文档数加 1 的对数表示。则 W 的 TF-IDF 值为 TF 乘IDF,公式如式(1):TF-IDFW=F(W)count(A)ln(N1+N(W)(1)其中,F(W)表示 W 在文档 A 中出现的频次,count(A)表示 A 中的单词总数,N 表示文档总数,N(W)表示逆文档中出现词 W 的个数。由
15、于 TF-IDF 算法高度依赖逆文档,因此当文档集的相似度比较高时,TF-IDF 算法无法有效地将关键词提取出来。与此同时,TF-IDF 算法认为文本频率大的单词就更为重要,这在很多情况下并不是完全正确的。2.2.2 TextRankTextRank 算法是由 PageRank 算法牵引而来的,后者是一种根据网页之间的链接关系计算页面重要性的方法,常用于搜索引擎的网页排序之中29。基于 PageRank算法,Mihalcea 和 Tarau 提出了 TextRank 算法30。该算法通过构造词拓扑图来对词和句子进行排序,最终生成关键词、关键词句。算法如式(2)所示:S()Wi=()1-d+d
16、j In(wi)WjiWk Out(Wj)WjkS(Wj)(2)式中,S(Wi)是单词 i 的权重,d 是阻尼系数,在 01 之间,Wji表示两个句子的相似度,S(Wj)表示上次迭代出的句子 j 的权重。最终采用无监督学习方法,通过反复的迭代,得到每一个词的系数。与 TF-IDF 相同,TextRank 算法同样倾向于将最频繁出现的词作为关键词,但相对而言要更为有效。虽然相43Review and Comment综述与评论www.ChinaAET.com比于 TF-IDF 有更好的计算结果,但是由于其需要进行复杂的图运算和迭代运算,因此计算速度比较慢。2.3 静态词向量训练2.3.1 NNLM
17、在文本分析中,词语之间往往缺乏相关性,很难构成稠密的向量空间,为了解决这一点,研究者首先提出了一些静态词向量训练算法。Brngio 等人在 2003 年结合 马 尔 科 夫 假 设 和 神 经 网 络 结 构,提 出 了 NNLM 模型31。与传统 N-gram 算法不同的是,NNLM 算法基于神经网络结构对目标进行求解,解决了 N-gram 算法只能进行低元运算的问题。NNLM 模型分为输入层、隐藏层和输出层三个部分。首先在输入层中输入前 n-1 个词汇并进行 One-hot 编码(1|V|),然后将词汇与嵌入矩阵 C相乘(|V|m),得到分布式向量并进行输出,并对第 n 个词进行预测。由于
18、 NNLM 算法源于对 N-gram 算法的优化,因此该算法最初只是用于进行语言预测任务。但是由于其首次将神经网络引入到了文本分析之中,又首次使用了词向量思想4,因此给后续的算法研究提供了很多启发。2.3.2 Word2Vec词向量思想可以很好地作为语义评价尺度,因此在NNLM 算 法 之 后 研 究 者 进 行 了 大 量 改 进 工 作。Word2Vec 算 法 是 2013 年 Google 开 发 的 词 嵌 入 工具3233,该 工 具 包 含 Skip-gram 和 CBOW 两 个 模 型。Skip-gram 模型通过输入特定的词向量,输出上下文对应的可能词向量;CBOW 模型通
19、过输入特征词上下文的词 向 量 来 输 出 特 定 词 向 量。在 Word2Vec 中,取 消 了NNLM 的隐藏层结构,同时在求语境向量时舍弃了词序,大大提升了处理速度,目前被广泛应用于文本分类、情感分析等领域之中。2.3.3 FastText2016 年,Facebook 提出了 FastText 模型3435,该模型基于 Word2Vec 的框架,将单词拆分为字符级别,起到了很好的扩充词汇作用,同时避免了 Word2Vec 中可能存在的未登录词问题。为了解决向量类别过大的问题,FastText 将原始特征向量进行了 Hash 处理,进行降维操作,极 大 提 高 了 运 算 速 度。Fa
20、stText 在 各 种 细 节 上 对Word2Vec 进行了优化,大幅提升了训练速度,对于大语料库的处理更为得心应手。但该算法的最终目标仅是输出词类别,因此只适用于文本分类、同义词挖掘等领域,而无法面向更为广阔的需求。2.4 动态词向量训练2.4.1 ELMo静态的词向量算法不能很好地处理一词多义问题,因为同一个词会被给予相同的词向量,为了解决这一点,在 2018 年出现了 ELMo 模型36。ELMo 是一种基于特征的语言模型,该模型可以结合上下文的语境进行建模,从而给出词向量。其基本思想是,依据上下文单词进行分别静态训练,得到符合其语境的词向量。为了实现这一思想,借鉴了 Jozefow
21、icz 等人的方法37,采用双层双向 LSTM(Long Short-Term Memory)网络结构,先输入一个初始词向量,然后得到前向和后向两个 LSTM模型,最大化两个模型的似然概率,得到预训练结果。然后将原始词向量和两个中间词向量进行第二次拟合训练,得到最终的 ELMo 分数。ELMo 算法相比于传统的 Word2Vec 有更快的训练速度和更好的训练结果,同时又解决了一词多义问题,使词向量技术得到了巨大进步。2.4.2 GPT在 ELMo 模型的基础上,OpenAI 团队提出了新的训练模型 GPT38。相比于基于 LSTM 的 ELMo 模型,该团队使用了当时业内更为看好的 Trans
22、former39特征提取器。GPT-1 使用了单向 Transformer 解码器结构,进行了12 个子层的堆叠,同时提取了文本的多方面信息,并输出词向量。GPT 模型先进行大语料库的无监督预训练,然后进行有监督训练进行微调。在 GPT-1 之后,该团队又先后推出了 GPT-2 和 GPT-3 模型,得到了非常好的成果。但是,由于 GPT 过于依赖原始语料库且参数数量过于巨大,因此现阶段还很难被广泛应用。2.4.3 BERT在 GPT 的基础上,BERT 模型回归了双向特征提取器结构,同时优化了 ELMo 双向相互独立的问题,直接将其进行连接,同时保留了 GPT 的两阶段训练40。第一阶段训练
23、任务是 Mask LM,先屏蔽句子中 15%的单词,然 后 训 练 模 型 对 屏 蔽 单 词 进 行 预 测;第 二 个 任 务 是Next Sentence Prediction(NSP),实现上一个句子对下一个句子的预测,以提取句子间的关系。BERT 模型能够比较准确地训练词向量,横扫了 NLP 领域的多个经典任务,被认为是一项里程碑式的工作,广泛应用于阅读理解、文本写作等领域1,41。但是,BERT 仍然存在性能有限的问题。2.4.4 MASS 和 UNILM由于 BERT 的不足,一些研究团队开始尝试对 BERT进行改进,其中微软于 2019 年提出的 MASS 模型可以一定程度地提
24、升 BERT 的性能问题42。MASS 本质上是将BERT 和 GPT 模 型 进 行 了 融 合,使 用 序 列 到 序 列(Seq2Seq)框架。MASS 通过对连续文本的屏蔽,提高了语言建模能力和文本理解力。MASS 有很强的跨语言理解能力,但是性能上却没有显著的增长。UNILM 是微软进行的另一个尝试43,该模型同时完成单向、双向和 Seq2Seq 训练任务,将三种训练方法的参数进行共享,在自然语言理解和生成任务上都有很好的44Review and Comment综述与评论电子技术应用 2023年 第49卷 第3期表现。但是和 MASS 一样,UNILM 仍然面临参数量巨大、训练时间过
25、长等问题。2.4.5 FLAN 和 T02021 年 9 月,Google 公司发布了其最新的训练模型FLAN44。该模型以 GPT-3 模型为基本框架,在其基础上增加了调优管道,该管道混合了 Transformer 中的全部62 个文本数据集,并在每个数据集中手动构造了 10 个模板,以此为基础面向多个自然语言处理任务进行微调。相比于 GPT-3 多达 175 B 的参数,FLAN 将参数压缩到 137 B,并在绝大多数测验中取得了比 GPT-3 更好的成绩。T0 是“Big Science”团队开发的模型45,该模型以T5 架构为基础,使用 171 个数据集的 1 939 个 prompt
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 文本 分析 算法 发展 综述 孙静含
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。