基于语义理解的精简智能搜索优化模型浅析及实践.pdf
《基于语义理解的精简智能搜索优化模型浅析及实践.pdf》由会员分享,可在线阅读,更多相关《基于语义理解的精简智能搜索优化模型浅析及实践.pdf(10页珍藏版)》请在咨信网上搜索。
1、 61 基于语义理解的精简智能搜索优化模型浅析及实践文/罗钦雨1,王宇1*,王慧1,汪思哲2(1.河海大学,南京 210098;2 南京信息工程大学,南京 210044)摘要:本文针对个人或小型机构难以构建自己的搜索系统,使用互联网或特定大企业的平台导致的结果不全面、精度低等现状。基于语义理解和大模型在这方面的训练和应用。通过微量参数微调、主要开源模型生成式本地优化、引导性设计,构建了可边缘处理基准数据集的最精简部署,仅需不到20G的显存开销。通过理解信息源关系、引用位置准确性和回答特定任务的测试,测试结果表明此模型能在极短时间内给出高效、精确的回答。关键词:智能搜索;大模型;生成式 AI;边
2、缘部署;特定任务中图分类号:TP391 文献标志码:A 文章编号:2096-5036(2023)04-0061-10DOI:10.16453/j.2096-5036.2023.04.007基于语义理解的精简智能搜索优化模型浅析及实践0 引言传统的搜索引擎主要通过关键词匹配的方式获取结果,返回与用户输入关键词有关的内容,这种结果的准确性受到关键词的限制,无法满足用户的实际需求的同时,也无法处理语义相似的查询,而产生漏洞或误导用户。通常使用基于语义理解的智能搜索模型。它通过深度学习和自然语言处理以更好地理解用户的查询意图和实际需求。这就是大模型在问答理解和生成上高效且实用的原因。近年来,拥有强大语
3、义理解能力和准确预测能力的大模型相继被推出,它们参数量巨大,并获得通过预先处理的大量文本语料库数据,以及无监督的方式,学习了广泛的人类语言知识和语义信息。采用符合人类学习和问答习惯的技术路线,以构建的智能搜索和问答系统成为当前热点。如何在准确性、无害性和高效性等方面提升,具有极其重要的研究意义和实用价值。本研究通过对GPT-3、BERT等模型的内核进行解析,结合LangChain框架做部署,再使用语义理解的文本相似度检索方式构建测试集,揭示了在生成的结果中给相关段落带上准确的引用标记,提高搜索的效率的原理,并为企业或者个人研究者提供离线的高效、智能的内外部搜索系统部署做了规划和尝试。62 专题
4、:AIGCAI-VIEW2023 年第 4 期从 AlexNet 在 ImageNet 图像分类挑战赛利用了深度神经网络中的卷积层、池化层和大量的参数进行训练1开始,Word2Vec 利用大量的语料库训练出了高质量的词向量作为大模型的重要基础之一2,3。随后,Transformer 模型利用自注意力机制和位置编码的思想,既解决了 RNN 速度缓慢的问题,又同步获得了文本的上下文信息,还能理解长文本并快速响应3,4。虽然 GPT-1 利用了大量的参数和预训练技术5,与BERT6利用了掩码语言模型和下游任务微调相结合的方式不同,但其目的都是可以有效地解决自然语言处理任务中的上下文理解和语义表达问题
5、。因此形成两种方向,一方面通过 BERT 在当前需要的下游任务上取得优秀效果的方式,另一方面 GPT 自回归语言模型更希望从长远时间上挑战通用人工智能的可能性。为了推进 GPT 类型研究范式的进展,OpenAI 于 2019 年提出了利用了更多的参数和更高级的预训练技术 GPT-2,还使用特殊的控制代码实现特定的生成任务,大大提高了模型的表现7。2020 年,Google 提出了利用文本到文本的预训练技术 T5,实现了任务特定的输入格式,使得模型能够在多个自然语言处理任务中实现零样本学习8。在自然语言处理领域,OpenAI 在 GPT-3 系列上利用了更多的参数和更高级的预训练技术,使得模型能
6、够在多个自然语言处理任务中实现零样本学习,并具有超常的文本生成能力9-11。目前,大模型的研究与应用面临诸多挑战。首先是大量的软硬件资源需求,因此近期国内外也将研究热点聚焦在轻量化部署和层参量微调技术。其次是多参数的训练对数据的质量和数量都提出了更高的要求。但是,与国外先进技术相比,国内的开源数据平台和数据质量都相对欠缺,并且互联网语言资源和环境更封闭,获取优质数据相对困难。最后,大型语言模型的可解释性和安全性也是一个重要的问题,在很多领域(如金融、医疗、司法等),模型的决策会对人们的生活和利益产生直接影响。因此,理解模型的决策过程和背后的原因是非常重要的。综上所述,本文旨在通过大模型相关技术
7、建立一个离线的、私有化的本地大模型搜索和问答系统。该离线、高效的系统只需要相对较少的显存资源,不受任务数量的限制和影响,并且该模型响应速度快,返回结果准确,节省大量时间,可以很好地辅助小型企业或个人研究者充分利用大规模语言模型的能力定制任务,提高办公效率,并在使用场景上发挥创新。1 智能搜索优化模型系统架构1.1 智能问答模块智能问答模块的主要逻辑结构如下。1)输入处理:模型首先接收用户输入的问题 Query,然后结合特定任务预设的Instruction 以及 Prompt 生成完整的 Completion,也就是模型读入的真正内容。模型需要理解这个 Completion 的含义,确定它需要完
8、成的任务类型。2)任务理解和转换:一旦模型理解了任务类型,它会将 Completion 转换为一个 63 基于语义理解的精简智能搜索优化模型浅析及实践内部表示,即一个高维度的向量。对于所有任务类型,模型会将其转变成一个生成任务来处理。这需要模型提取出问题的关键部分,确定需要寻找的信息类型,以及识别任何需要引用的上下文信息,最后给出生成的内容。3)信息搜索和处理:对于问答任务,模型会在其训练数据构建的向量表示中“搜索”可能的答案。也包括在模型对应加载的知识库中查找相关信息,以及使用模型的推理能力从用户输入的上下文信息中推导出新的信息。4)答案生成:一旦模型生成了对应的 tokens,它会将这些内
9、容的文本嵌入表示转换为自然语言形式,并选择从概率最高的 N 个可能的回答中确定一个或者多个,这取决于任务的具体要求。1.2 智能搜索模块在近年的信息检索领域,自然语言处理(NLP)技术的发展为实现高效的本地知识库搜索应用提供了有力支持。尽管我们可以通过大模型进行有效的问答对话并且输入长度为 4096 个 tokens 的 Prompt,甚至在 GPT-4 中是 8000 个 tokens12,但这种方式依然有非常多限制。如果我们想基于一本书进行问答,那么这种方式将完全无法胜任13。本节将介绍并实现一种基于向量索引的文本相似度计算方法,以便在本地知识库中快速找到与查询文本相关联的信息片段。这种方
10、法针对企业内部搜索业务场景,脱云私有化部署,提高搜索效率、降低搜索成本,并且准确、快速响应来适应激增的需求,实现原理如图1 所示。基于本地文档搜索的智能问答系统具有以下要素。1)文本识别:智能问答系统的基础,采用 OCR 等技术或 pypdf 等库识别文本,提取文本内容。2)段落划分:在智能问答系统中,文档被分成不同的段落,以有逻辑地组织和检索信息。段落划分可以基于段落的长度进行,如将文本按照字符数或词数进行划分。在 CharacterTextSplitter 中,可以设置 separator=n 根据换行符等特定标记进行划分,也可以指定 chunk_size 限定每一个划分出来的文本的长度。
11、为了使不同的文本之间有逻辑关联性,同时也为了防止答案句被划分到了两个不同的段落中,chunk_overlap 通常被加入到参数中,这表明分割前后的两段文本块有多少内容是重叠的。这种方法有利于将文本分成逻辑上相关的部分。3)文本嵌入模型:采用将文本表示为向量的技术。文本嵌入模型有很多,通常使用图 1基于大模型的智能搜索及问答系统架构图 64 的包括 ERNIE-Tiny、ERNIE-Base、text2vec-base、text2vec 等,这些模型可以将文本的语义信息转化为连续的向量空间,而不是根据关键字匹配。4)Vector_Store:一个文本向量索引的存储工具,相当于一个数据库,接受上一
12、步向量化后的文本段落信息并长期保存在存储空间中。这样,当一个新的 query 进来后,模型不需要再次将本地所有相关的文档进行一次划分和向量化,而是直接可以根据余弦相似度计算返回最相关的几个段落。这种方式保证了本地搜索问答的高效及快速响应的需求。2 基于语义理解的智能搜索优化模型2.1 Prompt Engineering许多研究表明,大模型在预训练之后可以获得解决各种任务的能力14。然而,大模型的能力实际上可以根据特定目标进一步调整。而解锁大模型能力的最重要一步就是Prompt Engineering(提示工程)。Prompt engineering 关注于设计和优化用于训练 AI 模型的 P
13、rompt 提问。构建一个好的 Prompt 不仅对模型的推理结果有很大的改进效果,更重要的是能通过 Self-Instruct 方式构建质量良好的数据集。2.1.1 Prompt 组成通常而言,一个精心设计的 Prompt 由以下几部分按照顺序组成。1)Instruct:Instruct 通常明示了一个模型的角色、功能、任务类型等。一个简单、明确的 Instruct 至关重要。2)Description:Description 是对任务的具体描述。从结构角度看,它是对Instruct 的扩展和补充。在编写 Description 的时候,应尽可能详细地给出任务细节,并告知模型相应的生成要求和
14、约束。3)Question:Question 通常是用户输入的问题或是要求。由于用户输入的灵活性很高,这部分的内容没有特定格式要求,在最终会被拼接在 Instruct 和 Description之后。4)Context:在某些任务中(如文本问答、信息抽取和实体识别),用户除了输入 Question 之外,还需要提供一系列信息供模型做推理。这部分的信息通常就是Context。在生成过程中,Context 非常重要,因为这给定了模型一个目标范围,而不是从模型自身参数中提取信息来作答。这种方式能大大提升模型回答的准确性和无毒害性。Context 可以是任何形式,甚至是表格,它的位置可以放在 Ques
15、tion 模块的下部,通过换行符、反引号或是其他特殊符号做分割。2.2 微量参数微调方式随着大模型参数量激增,传统的全局 Finetune 变得不再可行。对于上百亿甚至上千亿的模型而言,全局参数微调的成本高得令人望而却步15。LoRa 和 P-Tuning v2都是微调机器学习模型的方法,但它们的具体实现方式有所不同。LoRa 是一种基于层专题:AIGCAI-VIEW2023 年第 4 期 65 基于语义理解的精简智能搜索优化模型浅析及实践级相关性传递的微调方法,而 P-Tuning v2 是将文本生成的 prefix-tuning 技术适配到NLU 任务中的微调方法15,16。2.2.1 L
16、oRaLoRa 利用固定的预训练模型权重,向 Transformer 架构的各个层注入可训练的分解等级矩阵,以减少下游任务的训练参数数量,从而增强了通过微调后的模型在多个独立实例上的存储和部署的可行性。x0 x0AWWWBxxh+=+=在式(1)中,h表示 LoRa 模型的输出,此输出是通过将预训练模型的输出x0W和等级分解矩阵的输出xW相加得到的。其中,等级分解矩阵又可以表示成xAB,它们是注入到 Transformer 架构的每一层的可训练的参数。此外,xW是预训练模型和 LoRa模型的输出的差异,它衡量了 LoRa 方法减少训练参数量的有效性。在 LoRa 中,Rank 是一个超参数表示
17、注入 Transformer 架构层的等级,会影响训练速度、参数数量和内存需求等。2.2.2 P-Tuning v2在传统大模型任务中(以 GPT-3 为例),模型会加入一些短语句子作为输入,这就是我们说的 Prompt。然而,这些 Prompt 只是作为输入文本的一部分输入给模型做推理,不会增加任何参数。Prompt Tuning 的主要思路是把传统的 Prompt 变成了可学习的向量,并固定了整个预训练模型的参数,只训练 Prompt 向量来适配下游任务15。Prompt Tuning 的原理如图 2 所示。P-Tuning v2 与全局微调的性能相当,但只需要微调0.1%3%的参数16。
18、跟Prefix-Tuning在每一层都加大量的Embedding相比,Prompt Tuning 只在输入层加 Embedding 的方法更加简单有效16-17。3 实验结果与分析3.1 数据集概述对于现在的大模型而言,数据是影响模型能力最重要的因素之一。构建一个高质量的数据集对于模型在特定任务上的表现有很大帮助。本文除了研究基于语义理解的大模型问答系统,还做出了以下测试。1)在 T2Ranking 数据集的基础上构建了 PsQscore 数据集,此数据集由一个问题和多个段落组成,通过人工标注的方式给出了每个段落和这个问题的相关性分数。2)在Chinese Scientific Literat
19、ure Dataset、CNN-DailyMail News Text Summarization(1)图 2PromptTuning 原理图 66 和arXiv Dataset的基础上生成并构建了Anki_Card数据集。3)融合 Dureader 和 Stanford 的 BeerQA 数据集构建了一个中英文双语段落问答数据集ParaGem。此数据集由问题和多个带标号的段落组成。答案从段落总结出来,带引用回答。本文在构建自体数据之外,首先,选用了 CSL-大规模中文科学文献数据集、Math23K 数 据 集、CCKS2021 金 融 领 域 篇 章 级 事 件 元 素 抽 取 数 据 集、
20、WikiTableQuestions、cMedQA、Finance-alpaca-csv 这些优质的公开数据集作为指令微调的训练数据。其次,使用正则化循环匹配的方式处理了中英文及所有标点格式的问题,统一化为标准格式,再针对一些常出现的“脏数据”进行匹配筛查等操作对数据进行清洗。最后,使用 BLEU 指标评估机器翻译等任务的性能,ROUGE 指标用于评估自动摘要的性能。对于分类任务,文中使用准确率、召回率、F1 分数进行评价。对于使用 T2Ranking 数据集构建基准数据集18。它由超过 30 万的真实查询和200 万的互联网段落构成,包含了由专业标注人员人工标注的 4 级细粒度标签,分别为
21、0、1、2、3,分数越高表示段落与问题越相关,分数为 0 表示段落与问题毫不相关。在此数据集的基础上,文中采用随机段落抽取和标号对应的方式构建了一个数据集PsQScore,用于评估模型生成结果的准确率、召回率和 F1 分数。3.2 实验结果3.2.1 Prompt Engineering 实验分析为了对比使用精细设计的 Prompt 和不使用格式化的 Prompt 的区别,本文设计了消融实验,分别训练了两个模型,结合预训练模型做多种代表性任务,并根据任务类别分别在 100 条测试数据上做推理,评估三者生成表现。两种 Prompt 方式针对不同任务在不同指标上的得分情况如表 1 所示。3.2.2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 语义 理解 精简 智能 搜索 优化 模型 浅析 实践
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。