深度动态文本聚类模型DDDC.pdf
《深度动态文本聚类模型DDDC.pdf》由会员分享,可在线阅读,更多相关《深度动态文本聚类模型DDDC.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2370-2375ISSN 10019081CODEN JYIIDUhttp:/深度动态文本聚类模型DDDC陆辉1,2,黄瑞章1,2*,薛菁菁1,2,任丽娜1,2,林川1,2(1.公共大数据国家重点实验室(贵州大学),贵阳 550025;2.贵州大学 计算机科学与技术学院,贵阳 550025)(通信作者电子邮箱)摘要:互联网的飞速发展使得新闻数据呈爆炸增长的趋势。如何从海量新闻数据中获取当前热门事件的主题演化过程成为文本分析领域研究的热点。然而,常用的传统动态聚类模型处理大规模
2、数据集时灵活性差且效率低下,现有的深度文本聚类模型则缺乏一种通用的方法捕捉时间序列数据的主题演化过程。针对以上问题,设计了一种深度动态文本聚类(DDDC)模型。该模型以现有的深度变分推断算法为基础,可以在不同时间片上捕捉融合了前置时间片内容的主题分布,并通过聚类从这些分布中获取事件主题的演化过程。在真实新闻数据集上的实验结果表明,在不同的数据集上,与动态主题模型(DTM)、变分深度嵌入(VaDE)等算法相比,DDDC模型在各时间片的聚类精度均至少提升了4个百分点,且归一化互信息(NMI)至少提高了3个百分点,验证了DDDC模型的有效性。关键词:文本动态聚类;事件主题演化;主题分布;时间序列数据
3、;深度变分推断中图分类号:TP391.1 文献标志码:ADDDC:deep dynamic document clustering modelLU Hui1,2,HUANG Ruizhang1,2*,XUE Jingjing1,2,REN Lina1,2,LIN Chuan1,2(1.State Key Laboratory of Public Big Data(Guizhou University),Guiyang Guizhou 550025,China;2.College of Computer Science and Technology,Guizhou University,Guiy
4、ang Guizhou 550025,China)Abstract:The rapid development of Internet leads to the explosive growth of news data.How to capture the topic evolution process of current popular events from massive news data has become a hot research topic in the field of document analysis.However,the commonly used tradi
5、tional dynamic clustering models are inflexible and inefficient when dealing with large-scale datasets,while the existing deep document clustering models lack a general method to capture the topic evolution process of time series data.To address these problems,a Deep Dynamic Document Clustering(DDDC
6、)model was designed.In this model,based on the existing deep variational inference algorithms,the topic distributions incorporating the content of previous time slices on different time slices were captured,and the evolution process of event topics was captured from these distributions through clust
7、ering.Experimental results on real news datasets show that compared with Dynamic Topic Model(DTM),Variational Deep Embedding(VaDE)and other algorithms,DDDC model has the clustering accuracy and Normalized Mutual Information(NMI)improved by at least 4 percentage points averagely and at least 3 percen
8、tage points respectively in each time slice on different datasets,verifying the effectiveness of DDDC model.Key words:dynamic document clustering;event topic evolution;topic distribution;time series data;deep variational inference0 引言 随着互联网的发展,人们通过官方网站或社交平台等多方渠道获取大量的新闻数据,跟进热门事件的发展状况。现实中,新闻事件主题随着时间不断
9、演化具有演变性和继承性(即新闻主题的演化过程既要考虑上一个时间片的信息又要考虑当前时间片的内容);因此,如何从这些海量的新闻文本数据中获取事件主题的演化过程已经成为文本分析领域研究的热点。传统静态聚类模型通过构建概率分布模拟新闻文本的生成过程。针对时序的新闻文本主题演化,传统动态聚类模型扩展静态主题模型,使它能运用于文本流,并通过严谨的推导过程学习不同时间片新闻主题分布的参数,以此学习事件的主题演化过程;但是,复杂的理论推导使传统的静态聚类模型在面对大批量高维数据集时存在灵活性差和运算效率低的问题。随着深度学习的发展,神经网络可以将复杂的概率分布简化为简单的网络映射。基于随机变分推断算法1的深
10、度聚类模型更是简化了概率分布参数的推导过程,有效提升了针对大批量数据聚类的运算效率和灵活性。利用循环神经网络来捕获时序数据特性的方法能很好运用在非主题挖掘的时序聚类场景,但不适用于文本的主题演化挖掘。基于自编码器的聚类方法用于挖掘静态本文数据的主题并取得了一定的进展,但若要将静态深度聚类模型扩展到多个时间片,现有的模型缺乏一种通用的方法捕捉时间序列数据的主题演化。为了解决上述问题,本文提出了一种深度动态文本聚类文章编号:1001-9081(2023)08-2370-06DOI:10.11772/j.issn.1001-9081.2022091354收稿日期:20220906;修回日期:2022
11、1026;录用日期:20221101。基金项目:国家自然科学基金资助项目(62066007)。作者简介:陆辉(1998),男,贵州安顺人,硕士研究生,CCF会员,主要研究方向:动态聚类、主题挖掘;黄瑞章(1979),女,天津人,教授,博士,主要研究方向:自然语言理解、数据融合分析、文本挖掘、知识发现;薛菁菁(1995),女,山东日照人,博士研究生,CCF会员,主要研究方向:深度文本聚类;任丽娜(1987),女,辽宁阜新人,讲师,博士研究生,CCF会员,主要研究方向:自然语言处理、文本挖掘、机器学习;林川(1975),男,四川自贡人,副教授,硕士,主要研究方向:文本挖掘、机器学习、大数据管理与应
12、用。第 8 期陆辉等:深度动态文本聚类模型DDDC(Deep Dynamic Document Clustering,DDDC)模型。该模型使用高斯混合模型2同时学习多个新闻事件的混合主题先验分布,再运用随机变分算法推断出多个事件主题的混合变分后验分布,并将变分后验分布的信息融入下一个时间片混合主题先验分布的生成过程中,以实现事件主题信息在多个时间片传递和演化,达到学习事件完整的主题演化过程的目的。本文的主要工作如下:1)DDDC 模型高效地学习大批量高维新闻文本的主题分布。2)将静态的深度文本聚类模型扩展到多个时间片,可以运用于时序数据流。3)在真实数据集上的模型验证结果表明,DDDC模型在
13、数据集上的性能优于现有的传统动态聚类模型以及流行的深度聚类模型。1 相关工作 1)传统动态文本聚类。概率主题模型3是最典型的无监督文本聚类模型之一,这类模型假设文本的生成过程如下:从主题分布中选择一个有一定概率的主题,再从该主题的主题词分布中选择一个有一定概率的词,模型通常采用Gibbs采样4或期望最大化(Expectation Maximization,EM)算法5进行参数估计。隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)6是一个经典的静态主题模型,不能直接应用于时序文本流。LDA 的许多扩展模型,如主题随时间变化的主题模型 ToT(Time over
14、Time)7假设主题的产生与时间戳的连续分布有关,文档的主题受单词共现和文档时间影响。动态主题模型(Dynamic Topic Model,DTM)8使用高斯分布来构建时间线,可以捕获顺序组织的文档语料库中主题的演变。主题跟踪模型(Topic Tracking Model,TTM)9应用于消费者兴趣的演变挖掘。流隐含狄利克雷分布(Streaming LDA,S-LDA)模型10和运用特征划分的狄利克雷混合模型(Dirichlet Process Mixture model for document clustering with Feature Partition,DPMFP)11也应用于长文
15、本流的主题挖掘,但上述算法较易受异常值、噪声的干扰,当数据规模和维度继续增加时模型性能受限,相反基于深度学习的方法在一定程度上可以避免异常值和噪声的干扰,且面对大批量高维新闻样本聚类时更有优势。2)静态深度文本聚类。多数深度文本聚类模型由一个编码器(encoder)和一个解码器(decoder)组成。自编码器(Auto Encoder,AE)12以无监督的方式对样本进行重构训练,训练得到新闻样本的嵌入表示,继而对嵌入层进行聚类。深度嵌入聚类(Deep Embedding Clustering,DEC)13对嵌入表示进行k-means聚类,构建KL散度(Kullback-Leibler dive
16、rgence)14函数来优化样本分布表达和聚类结果。融入数据结构信息的结构深度聚类网络(Structural Deep Clustering Network,SDCN)15既考虑数据本身的特性,又考虑数据之间的结构信息来提高聚类效果。上述3个模型缺乏对样本主题概率分布的挖掘,而 利 用 变 分 推 断 方 法 的 变 分 自 编 码 器(Variational AutoEncoder,VAE)16用于文本聚类时,使用标准高斯分布作为贝叶斯推断的主题先验分布,通过变分推断得到主题变分后验分布。VAE利用单一的标准正态分布作为模型的先验概率分布,然而文本数据集的主题分布可以看作是多个事件主题分布的
17、混合,单一的概率分布不能很好地代表总体的主题概率分布情况。混合自编码器模型(MIXture of AutoEncoder,MIXAE)17同 时 训 练 K 个 autoencoders,数 据 在 某 一 个autoencoder得到的重建误差最小,该数据就属于某一类。可以通过构造多个VAE的混合来实现主题分布的学习,但模型仍 然 无 法 刻 画 主 题 的 混 合 分 布 情 况。变 分 深 度 嵌 入(Variational Deep Embedding,VaDE)18使用高斯混合模型(Gaussian Mixture Model,GMM)学习文本集的主题混合先验概率分布,解决了主题概率
18、分布单一的问题。传统动态文本聚类能很好地捕捉文本主题的演化过程,但随着新闻数据量的快速增长,传统的动态聚类方法时间复杂度高,训练效率低下。深度文本聚类模型在处理高维数据时更具灵活性和健壮性,然而现有的深度文本聚类方法仅仅局限于挖掘单个时间片的主题信息,没有考虑到时间片上主题的演化。考虑主题在时间片上的演化需要一个适合的方法来继承前置时间片的主题信息,以更好地刻画当下的主题,并得到更好的聚类结果。因此,本文针对以上问题,通过文本主题先验的继承与学习,将静态深度聚类模型扩展到多个时间片,使它可以对时序新闻文本进行动态聚类,从而得到事件完整的主题演化。所提方法可用于医学病情演化聚类、社交媒体舆情分析
19、、动态社区发现、股票市场预测等数据随着时间变化而变化的场景。2 深度动态文本聚类模型 如图1所示,DDDC模型由两部分组成:第一部分是文本数据集的主题先验学习模块,该模块用于学习继承了上一时间片主题信息的主题先验分布;第二部分是深度变分聚类模块,该模块利用第一部分学习出的主题先验分布优化学习文本的近似后验分布和特征表示,以得到更优的聚类结果。2.1主题先验学习模块主题先验学习模块(图1中所示)可以将前一个时间片的文本主题信息融合到当前时间片文本主题先验分布的学习过程中,从而得出继承上一时间片信息的主题先验分布。该模块首先学习出当前时间片的文本特征表示19,再利用这些特征表示学习出继承了上一时间
20、片信息的主题先验分布。本节将以第t个时间片为例,详细描述主题先验学习模块的工作原理。2.1.1文本特征表示的学习在第t个时间片中,模块通过AE,以当前时间片文本数据Xt为学习目标,学习出Xt的特征表示ZtAE。自编码器与深度变分聚类模块中变分自编码器结构保持一致,使得深度变分聚类模块可以运用自编码器预训练时的网络参数,减少训练时间。自编码器以recon_loss函数作为损失函数来训练神经网络参数,recon_loss的定义如式(1)所示:recon_loss=dist(Xt,Xtrecon)(1)其中:Xtrecon是Xt通过AE得到的重构向量。ZtAE是最终学习出第t个时间片的文本特征表示,
21、它包含了第t个时间片文本的主题信息。每个时间片都有其对应的ZAE,它们将被用于后续主题先验的继承与学习。2.1.2主题先验的继承与学习本节将介绍如何在当前时间片学习出继承了上一时间片信息的主题先验分布(本文假设主题先验分布的形式是高斯混合分布)。该学习方法的实现主要依赖GMM。高斯混合模型是指具有如下形式(式(2)的概率分布模型(以第t个时间片为例):p(ZtAE)=k=1KkNk()ZtAE|t,t(2)通过高斯混合模型,基于初始参数tp=(tp,tp,tp)以及文本特征表示ZtAE,通过期望最大(EM)算法可以拟合主题先验 分 布 的 参 数tk=(tk,tk,tk)。其 中,初 始 参
22、数tp=(tp,tp,tp)中的tp是各主题分布的权重系数,tp为高斯混合2371第 43 卷计算机应用分布的均值,tp为高斯混合分布的标准差。文本特征表示ZtAE可根据2.1.1节的方法获得。以第t个时间片为例,主题先验的继承与学习过程如下:当t=0(即初始时间片)时,首先根据随机数随机生成一组参数0R,主题先验分布的初始参数0p与0R保持一致,即0p=0R。之后,基于初始参数0p以及当前时间片的文本特征表示Z0AE,经过GMM的优化学习,得到主题先验分布及其参数0k。当t 0时,与第0个时间片不同,在通过随机数随机产生的参数tR=(tR,tR,tR)之后,需将第t-1个时间片的主题信息 t
23、-1k按照式(3)继承到当前时间片中,得到包含前置时间片主题信息的初始参数tp=(tp,t-1k,tp)(关于 t-1k的生成过程将在2.2节中详细介绍),之后基于初始参数tp和文本特征表示ZtAE,根据式(4)学习继承了前置时间片主题信息的主题先验分布及其参数tk=(tk,tk,tk)。tp=tR t-1k(3)tp,ZtAEGMMtk(4)式(3)中:表示用前置时间片的主题信息 t-1k替换当前时间片主题先验分布的均值,以在初始参数tp的生成过程中继承前置时间片主题信息。此外,通过式(4)也可以看出,tp中所继承的前置时间片的信息在使用GMM学习主题先验分布参数的过程中得到了充分的利用。通
24、过该方法,后续时间片学习出继承了上一时间片主题信息的主题先验分布。2.2深度变分聚类模块深度变分聚类模块可以通过文本信息以及从主题先验继承和学习模块得到的主题先验分布推断出文本的主题后验分布。对于每一个样本,计算其属于混合后验分布中每个单一主题分布的概率来进行类簇划分。该模块可以分为两个步骤:1)利用变分自编码器推断主题后验分布;2)预测每个样本所属主题的概率,进而进行聚类。2.2.1推断主题后验分布该部分本质上是一个VAE,VAE将经过神经网络编码后的隐藏层假设为一个从混合高斯分布中以一定概率选择出的高斯分布,继而通过重采样技巧得到样本的潜在主题分布特征,再用这个特征进行解码,期望得到与原始
25、输入向量相同的结果。深度变分聚类模块的损失函数在重构损失函数的基础上增加编码主题后验分布与主题先验分布的KL散度正则项,通过这个正则项让主题先验分布更好地指导主题后验分布的生成。如图1所示,通过输入样本集Xt,编码器为样本集中的每一个样本x拟合一个变分后验分布q(z,c|x),表示随机变量z的混合后验分布,c是x所属主题的多项式分布随机变量。编码器输出的、为样本所属主题分布的均值和方差,通过重采样技巧得到主题随机变量Zt,继而通过解码器拟合一个生成概率p(x|z)并对样本进行重构,最后得到重构样本集Xtre。变分自编码器通过构建重构损失函数和正则项损失函数来训练网络,并在训练的过程中不断学习主
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 动态 文本 模型 DDDC
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。