基于MS-Cluster与Prompt-Learning话题检测与追踪技术.pdf
《基于MS-Cluster与Prompt-Learning话题检测与追踪技术.pdf》由会员分享,可在线阅读,更多相关《基于MS-Cluster与Prompt-Learning话题检测与追踪技术.pdf(10页珍藏版)》请在咨信网上搜索。
1、Computer Science and Application 计算机科学与应用计算机科学与应用,2023,13(10),1918-1927 Published Online October 2023 in Hans.https:/www.hanspub.org/journal/csa https:/doi.org/10.12677/csa.2023.1310190 文章引用文章引用:李崭,杜晓童,黄浩,任秋霖.基于 MS-Cluster 与 Prompt-Learning 话题检测与追踪技术J.计算机科学与应用,2023,13(10):1918-1927.DOI:10.12677/csa.
2、2023.1310190 基于基于MS-Cluster与与Prompt-Learning话题检测话题检测与追踪技术与追踪技术 李李 崭崭,杜晓童,黄杜晓童,黄 浩,任秋霖浩,任秋霖 中国电子科技集团公司第十研究所,四川 成都 收稿日期:2023年9月16日;录用日期:2023年10月16日;发布日期:2023年10月24日 摘摘 要要 话题检测与追踪技术随着信息处理技术以及人工智能技术的发展,已经取得了较好的发展,但在实际应话题检测与追踪技术随着信息处理技术以及人工智能技术的发展,已经取得了较好的发展,但在实际应用中,由于算法标注数据需求高、训练代价大,很难较好的落地应用。本文提出了基于用中,
3、由于算法标注数据需求高、训练代价大,很难较好的落地应用。本文提出了基于MS-Cluster与与Prompt-Learning的话题检测追踪技术,通过聚类分析过程初步进行话题聚合,在此基础上通过提示学的话题检测追踪技术,通过聚类分析过程初步进行话题聚合,在此基础上通过提示学习推理进行话题补偿,完成话题检测与追踪过程。该方法在包含习推理进行话题补偿,完成话题检测与追踪过程。该方法在包含13个话题的测试数据集上进行测试验证,个话题的测试数据集上进行测试验证,证明该方法在零样本与低样本标注情况下有较好效果,同时相较于其他主流话题检测追踪技术在准确率证明该方法在零样本与低样本标注情况下有较好效果,同时相
4、较于其他主流话题检测追踪技术在准确率与召回率上都有提升。与召回率上都有提升。关键词关键词 话题话题检测追踪技术,提示学习,小样本学习,聚类分析检测追踪技术,提示学习,小样本学习,聚类分析 Topic Detection and Tracking Technology Based on MS-Cluster and Prompt-Learning Zhan Li,Xiaotong Du,Hao Huang,Qiulin Ren The 10th Research Institute of China Electronics Technology Group Corporation,Chengdu
5、 Sichuan Received:Sep.16th,2023;accepted:Oct.16th,2023;published:Oct.24th,2023 Abstract Topic detection and tracking technology has been developing well with the development of infor-mation processing technology and artificial intelligence technology.However,in practical applica-tions,it is difficul
6、t to achieve good deployment due to the high demand for algorithm annotated data and the large training cost.This article proposes a topic detection and tracking technology 李崭 等 DOI:10.12677/csa.2023.1310190 1919 计算机科学与应用 based on MS-Cluster and Prompt-Learning.The method performs topic aggregation
7、through clus-tering analysis and topic supplementation through prompt learning reasoning to complete the topic detection and tracking process.The method was tested on a dataset of 13 topics,and it showed good results in the case of zero-shot learning and few-shot learning,and it outperformed other m
8、ainstream topic detection and tracking technologies in terms of accuracy and recall rate.Keywords Topic Detection and Tracking Technology,Prompt-Learning,Few-Shot Learning,Clustering Analysis Copyright 2023 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribut
9、ion International License(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.引言引言 话题检测与追踪技术1(Topic Detection and Tracking,TDT)是近年提出的一项信息处理技术,这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别和已知话题的持续追踪。由于网络信息数量庞大,形式多样、传播迅速,互联网新闻报道冗余多、议题发散、易漂移,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些话题事件难
10、以做到全面的把握。通过话题检测与追踪技术,能够达成针对一个话题实现多维度、多时间节点的聚合关联,实现新话题的自动识别和已知话题的持续追踪,提高信息获取的价值。当前,话题检测与追踪主要研究方向是通过对文本数据流的文本数据进行识别,对数据的边界进行划分,从而实现突发性话题的发现检测、话题的发展追踪以及话题发展变化的探测。话题检测与追踪技术研究起始于上世纪 90 年代,经过 30 年左右的发展2,由于其任务具有主题类别未知性、数据突发性等特点,形成核心解决方案思路主要包括两大类:非监督学习任务预测3与监督学习任务预测4。基于非监督学习任务预测5的方法主要是采用主题模型6、聚类分析等机器学习过程,在数
11、据特征、主题特征7学习表征基础上,通过非监督预测过程对特征相似的数据进行聚合,实现数据的自主的划分,形成话题脉络。基于监督学习任务预测的方法可分为多分类模型以及序列分类模型。通过分类标签预测,在标签基础上对数据进行组织聚合,形成话题检测追踪结果。针对上述两种思路,都存在一定局限性,非监督任务预测过程中,由于一般不存在参数最优化学习过程导致预测效果存在较大瓶颈;监督任务预测过程中则需要大量高质量标注语料进行训练,且预测数据类别与数据标签需要与训练数据有较高的拟合关联程度,否则预测效果将无法达到预期。综上所述,话题检测与追踪技术当前技术瓶颈是需要实现低资源学习情况下达到较好的预测效果。这样使得话题
12、检测与追踪技术在不同的样本数据与不同领域的应用分析中,可以通过较少的数据标注干预,达到预期效果。2.技术现状技术现状 话题检测与追踪技术当前主要研究集中在监督任务预测与非监督任务预测上。监督任务预测是通过将话题检测任务构建成为事件探测、提取、分类等任务进行识别8,再对数据进行组织聚合形成话题检测结果。其中,Bekoulis 9等提出了一种子事件话题检测模型,通过文本信息的时序性,将检测任务构Open AccessOpen Access李崭 等 DOI:10.12677/csa.2023.1310190 1920 计算机科学与应用 建成为序列标记任务进行预测分析。Araki 10等提出了一种基于
13、逻辑回归的多分类器,通过特征工程构建进行事件间的关系识别,由此进行话题事件的检测分析。但监督学习任务存在标注需求量十分巨大,且由于采用分类标签监督学习形式,不能对开发域话题进行扩展等问题,导致其领域应用难度较高。非监督任务预测是通过将话题检测任务构建成为聚类任务、主题发现任务等,通过对数据特征化,基于特征相似的数据为同一话题的假设下进行推理,实现话题检测追踪任务。其中,张帆11等人提出了一种改进的 Single-Pass 聚类算法,通过时间特征以及特征词汇的表征改进,在话题分析任务中取得了较好效果。Wartena 12等人提出了通过关键词聚类分析进行主题聚合的算法,核心是通过相似计算与主题词汇
14、提取改善话题检测效果。Xie 13等人在话题检测研究中,提出通过在高维向量空间中,映入特征选择与激励机制,优化信息特征表达。张小明14等,提出了一种增量聚类算法进行自动话题检测,通过增量聚合的模式在验证中不仅一定程度上提升了准确率,还通过增量计算减少了计算代价。Ge 15等提出了一种主题分析模型进行话题检测,其主题分析模型采用构建过程中通过采用关键短语代替独立词作为特征,实现主题模型对文本主题特征的优化,优化话题检测过程。Pang 16等人提出了针对短文本的话题检测的新模型,可以通过词汇的共现网络构建实现信息间关联从而进行主题信息检测。非监督学习任务通过聚合流程优化以及特征优化,一定程度上可以
15、提高话题检测追踪的效果,但针对话题信息内涵发散、漂移,很难通过非监督任务对信息进行聚合,使得话题检测追踪效果不佳。针对以上问题,本文提出了一种基于 MS-Cluster 与 Prompt-Learning 的话题检测追踪技术,结合的监督学习与非监督学习技术,采用聚类分析与特征学习进行话题的聚合分析,在此基础上通过预训练模型的提示构建17与预测对话题聚合结果进行补偿。实验结果表明,本文提出的方法在零样本与少样本18 19标注情况下,大幅度提升了话题检测的效果,充分证明了方法的有效性,下面将详细介绍该技术。3.基于基于 MS-Cluster 与与 Prompt-Learning 的话题检测追踪的话
16、题检测追踪 基于 MS-Cluster(Multi-Section Cluster)与 Prompt-Learning 的话题检测追踪技术包括以下几个步骤:(1)数据特征化:对文本数据进行特征学习表征,分为语义特征学习与时间特征学习。针对语义特征采用Word2Vec 模型20作为文本语义特征学习以及表达模型,Word2Vec 模型通过对输入词汇的上下文词汇进行预测,实现语义信息的学习,采用三角核函数对时间特征进行编码,实现时间特征表达,最后将时间特征与语义特征进行拼接得到文本特征实现文本特征学习;(2)聚类分析:基于文本特征表达,对采用MS-Cluster 文本数据集合进行聚类分析,得到基于聚
17、类分析的话题聚合分析结果;(3)话题补偿推理:基于预训练模型提示工程构建与 prompt-learning,通过话题间的关系推理,对话题完备性进行补偿,得到话题检测与追踪结果。下面将详细介绍算法核心步骤。3.1.数据特征化数据特征化 数据特征化是通过文本语义特征模型表达的语义特征与文本时间特征拼接,得到数据特征学习表达结果。本文文本语义特征化采用 Word2Vec 模型进行特征计算,时间特征化采用三角核函数进行特征表达。3.1.1.语义特征学习语义特征学习 语义特征模型采用 Word2Vec 模型,模型通过输入词汇对其上下文词汇进行预测的学习任务,实现文本语义特征学习。首先对文本进行分词处理,
18、对分词结果进行 one-hot 编码,得到词汇的 one-hot 特征向量 xk,其中 xk的维度为1 V。其次,初始化编码矩阵IV Nw,矩阵中参数初始化采用随机初始化,其中Iw表示编码矩阵,矩阵维度为VN。通过计算公式:IkkV Nhxw=,得到特征向量 hk,其中 hk表示 one-hot特征向量 xk通过编码矩阵IV Nw进行特征降维的向量,其矩阵维度为1 N。初始化解码矩阵ON Vw,矩阵李崭 等 DOI:10.12677/csa.2023.1310190 1921 计算机科学与应用 中参数初始化采用随机初始化,通过计算公式:jOkkN Vyhw=得到词汇的解码 one-hot 特征
19、向量jky,其中 k 表示输入词汇的索引,j 表示需要预测的上下文词汇的索引。然后,通过采用函数 softmax 将输出的特征向量jky进行归一化处理,得到概率分布特征向量jkp,对jkp与词汇 j 的 one-hot 特征向量采用交叉熵进行误差衡量,通过最小化交叉熵对词汇的上下文学习,实现文本的语义学习。模型采用一个词汇对其上下文总共 C 个词汇进行预测学习,其损失函数为:Losslogjjkj Cxp=其中 xj为词汇 j 的 one-hot 特征向量,C 表示词汇 k 的上下文词汇。然后通过最小化损失函数与 BP 算法,对模型的编码矩阵与解码矩阵的参数进行更新,完成模型训练,得到文本语义
20、模型。完成语义模型训练后,对文本的语义特征进行表达。首先对文本进行分词处理以及停用词过滤处理,再对得到的文本词汇集合进行频率统计,得到 Nword个词汇,则文本特征向量 vtext计算公式为:11wordwordNiiitextNiifvvv=其中,vi为文本中的第 i 个特征词汇的特征向量,fi为特征词汇的出现频率。3.1.2.时间特征表达时间特征表达 时间特征学习采用三角核函数,对时间特征进行特征构建,通过三角变化公式特征化,可得时间相似度计算公式为:21cos2dTabtitdspantdttiSimNTN=其中,spanababTtt tt即三角函数内的取值范围在1,2且单调递减,可推
21、导出tSim随着abtt单调递减,使得时间特征化符合话题的分布特性,时间越相近则相似度越高,时间越相远则相似度越低。为时间特征权重因子,Tspan为时间跨度长度,ta,tb分别表示文本 a、b 的时间信息。通过对相似计算公式进行展开,得到时间特征向量()122121,tdtdtimeembtimeembNNNVU UUU=?,具体如下:21cos1,2itdtdspantdtiUiNNTN=2sin1,2=itdtdspantdtiUiNNTN 3.2.MS-Cluster 聚类分析聚类分析 MS-Cluster 聚类分析包括三个核心过程,包括:聚类初始化,聚类划分以及聚类终止三个过程。3.2
22、.1.聚类初始化聚类初始化 聚类初始化过程是对数据集合中的数据进行特征计算,形成特征向量集合,用于后续聚类分析计算。其中,设参与话题聚合的文本数量为 i,每篇文章的特征向量iembV,对每篇单独形成一个聚类点,对初始聚类点进行聚合,形成一个簇中聚类点数量为 i 的聚类簇,完成聚类初始化。3.2.2.聚类划分聚类划分 聚类划分过程是对每个待划分的聚类簇进行裂变,形成多个新的聚类簇的过程。其中,设裂变的数李崭 等 DOI:10.12677/csa.2023.1310190 1922 计算机科学与应用 量为 Ndis,根据当前聚类簇中的聚类点分布情况,对聚类簇进行中心点推举,将类簇中推举 Ndis个
23、中心点作为新的聚类中心点。推举方式采用聚类点价值评估算法,首先推选候选中心点,以聚类点局部密度scoreminpipi为条件推选候选中心点,其中局部密度计算公式为:111mindist distpidist=+其次,根据推选出的 K 个中心点,计算每个中心点的评估价值,价值计算公式为:2,1,ea imindistdistascoreai a ikVpi=通过价值评估,得到 Ndis个聚类中心点,完成中心点推举,其中,piscoremin为局部密度的最小阈值,distmin为局部密度计算的最小距离,dista,i为聚类点 a 至聚类点 i 的距离。其中,聚类点间的距离计算公式为:1abbbve
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 MS Cluster Prompt Learning 话题 检测 追踪 技术
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。