基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究.pdf
《基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究.pdf》由会员分享,可在线阅读,更多相关《基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究.pdf(7页珍藏版)》请在咨信网上搜索。
1、收稿日期:2023-03-23摇 摇 摇 摇 摇 摇 修回日期:2023-04-21基金项目:河北省人文社会科学研究重大课题攻关项目“基于大数据的河北省网络治理机制研究冶(编号:ZD202102)研究成果。作者简介:吴树芳,女,1979 年生,博士,教授,博士生导师,研究方向:在线社交网络分析;杨摇强,男,1999 年生,硕士研究生,研究方向:在线社交网络分析;侯晓舟,男,1980 年生,博士,副教授,副院长,研究方向:语用学、心理语言学;尹摇 萌,女,1999 年生,硕士研究生,研究方向:不确定信息决策。通信作者:侯晓舟基于 SSI-GuidedLDA 模型的引导式网络敏感信息识别研究*吴树
2、芳1摇 杨摇 强1摇 侯晓舟2摇 尹摇 萌1(1.河北大学管理学院 摇 保定摇 071000;2.河北大学外国语学院摇 保定摇 071000)摘摇 要:研究目的引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。研究方法针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提出基于 SSI-GuidedLDA 模型的引导式网络敏感信息识别方法。首先,从多源网络资源中爬取敏感种子词,并基于词向量模型 Word2Vec 获得种子词的敏感语义相关词,构建更为完备、准确的敏感特征。其次,将构建的敏感特征融入引导
3、式主题模型,得到改进后的模型 SSI-GuidedLDA。最后,基于 SSI-Guid鄄edLDA 模型获得待识别信息的主题分布,通过主题分布概率判断其是否为网络敏感信息。研究结论在新浪微博数据集上的实验结果显示,与已有方法相比,提出的方法在准确率、召回率和 F1值上均有一定提高。关键词:敏感语义(SSI);敏感种子词;敏感信息识别;引导式主题模型;GuidedLDA;Word2Vec中图分类号:G206摇 摇 摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 摇 文章编号:1002-1965(2023)11-0119-07引用格式:吴树芳,杨摇 强,侯晓舟,等.基于 SSI-
4、GuidedLDA 模型的引导式网络敏感信息识别研究J.情报杂志,2023,42(11):119-125.DOI:10.3969/j.issn.1002-1965.2023.11.018Research on Guided Network Sensitive Information IdentificationBased on SSI-GuidedLDA ModelWu Shufang1摇 Yang Qiang1摇 Hou Xiaozhou2摇 Yin Meng1(1.School of Management,Hebei University,Baoding摇 071000;2.School
5、of Foreign Languages,Hebei University,Baoding摇 071000)Abstract:Research purpose The guided topic model can guide the generation of biased sensitive topics and improve the performance ofnetwork sensitive information recognition,which is of great significance to maintaining national security and socia
6、l stability.Researchmethod Aiming at the problem that the characteristics of sensitive information constructed by the current network sensitive information i鄄dentification research are incomplete and inaccurate,which leads to poor identification performance,a guided network sensitive informationiden
7、tification method based on Sensitive Semantics-Guided Latent Dirichlet Allocation(SSI-GuidedLDA)model is proposed.Firstly,sensitive seed words are crawled from multi-source network resources,and sensitive semantic related words of seed words are obtainedbased on word vector model Word2vec to constru
8、ct more complete and accurate sensitive features.Secondly,the constructed sensitive fea鄄tures are integrated into the guided topic model,and the improved model SSI-GuidedLDA is obtained.Finally,the topic distribution ofthe information to be identified is obtained based on SSI-GuidedLDA model,and whe
9、ther it is network sensitive information is judged bythe topic distribution probability.Research conclusion The experimental results on Sina Weibo data set show that compared with the ex鄄isting methods,the proposed method has a certain improvement in accuracy,recall and F1value.第 42 卷摇 第 11 期2023 年
10、11 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇情摇 报摇 杂摇 志JOURNAL OF INTELLIGENCE摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.42摇 No.11Nov.摇 2023Key words:sensitive semantics;sensitive seed words;sensitive information identification;guided topic model;GuidedLDA;Word2Vec0摇 引摇 言网络敏感信息的泛滥会导致舆情失控、引起公众恐慌、加剧社会矛盾,从而严重威胁到国家安全和社会稳定1-2。因此,有效识别
11、出网络敏感信息具有极大的价值,已经引起国内外学者的广泛关注。为了更加准确、高效地识别网络敏感信息,研究者们进行了大量研究,提出了多种识别方法,包括基于敏感词匹配的网络敏感信息识别、基于传统机器学习的网络敏感信息识别和基于深度学习的网络敏感信息识别,这些研究为网络舆情监测、社交媒体管理和网络信息安全等领域提供了有力的技术支持。1摇 相关研究目前已有网络敏感信息识别研究主要从以下三方面展开:一是基于敏感词匹配的网络敏感信息识别,该类方法通过构建敏感词库并与待检测文本进行匹配来识别网络敏感信息,如杨忠3提出在网络直播活动中审核禁忌性词语,通过敏感词匹配的审核方式对网络敏感信息进行把关;付聪等4利用敏
12、感词的拼音、简称和拆分三种变形体优化扩充敏感词库,有效提高了敏感词匹配的全面性;Fu 等5通过对敏感词进行语义扩展来解决敏感词数量不足的问题,并利用拼音匹配方法识别缩写、字符分割以及字符替换等形式的敏感词变形体;刘聪等6构建了暴恐敏感词典,在此基础上将敏感触发事件与敏感词之间的文本相似度进行匹配实现了网络敏感信息识别;李瀛等7通过人工筛选词向量模型输出的敏感词及其相关词构建新闻敏感词库,利用敏感词匹配识别新闻中的敏感信息;吴树芳等8通过融合敏感先验概率、敏感语义相关性和复合共现优化扩展敏感词典,提高了敏感词匹配的全面性和准确性。基于敏感词匹配的研究方法实现简单,但是过度依赖于敏感词典的构建,而
13、敏感词典的更新需要耗费大量人力物力。二是基于传统机器学习的网络敏感信息识别,该类研究突破了对敏感词典的依赖,如 Li 等9根据敏感信息特征获取有效的支持向量来训练支持向量机,提高了网络敏感信息识别的速度和准确率;Xu 等10依据各类网络敏感信息的特征,对比得出 SVM 比朴素贝叶斯和决策树拥有更好的网络敏感信息识别能力;余敦辉等11通过分析敏感词的结构和读音等特征,构建敏感词决策树识别拼音、简称和拆分三种敏感词变形体;王艺皓等12等结合敏感词的文字特征和决策树的特点构建敏感信息决策树,实现了对网络敏感信息的检测和过滤;陈祖琴等13通过提取网络敏感信息中的实体特征、信息词特征和情景特征,使用朴素
14、贝叶斯分类器生成网络敏感信息与情景间的映射关系,分析了网络敏感信息的情景画像,以期提高网络敏感信息的识别效果;Xu 等14在 LDA 模型基础上,通过加权提高敏感词的分布权重,在特定类型的新闻数据集上提取出了敏感主题特征,实现了网络敏感信息主题识别。然而,基于传统机器学习的研究方法在进行语义挖掘时十分困难,尤其是在多特征学习中。三是基于深度学习的网络敏感信息识别,深度学习的多特征学习能力为解决基于传统机器学习进行网络敏感信息识别的不足提供了坚实的基础,如 Xu等15利用 Text-CNN 文本分类模型的上下文语义特征学习能力,提高了网络敏感信息的识别效率;Li等16通过引入局部卷积特征和全局语
15、义特征,提出了一种多级卷积神经网络和计算敏感词权重相结合的方法,利用局部及全局语义信息与相应敏感词权重之间的关系构建敏感信息的特征,在此基础上实现了网络敏感信息的识别。Liu 等17利用图卷积神经网络和注意力机制提取敏感词的特征并用于检测文本中的敏感词,从而实现网络敏感信息识别;Ding 等18将 BERT模型应用于网络敏感信息识别,通过对模型参数进行微调,取得了较好的识别效果;Cong 等19通过结合预训练的知识图谱中文实体嵌入模型和 CNN 分类模型,对中文文本输入中的实体进行特征提取,有效地实现了网络敏感信息识别;高浩鑫等20通过将 BERT 模型学习到的敏感文本语义特征与图卷积网络学习
16、到的敏感文本全局共现特征相结合,以提高网络敏感信息识别效果。上述研究中,基于敏感词匹配和基于传统机器学习的网络敏感信息识别方法在构建敏感信息特征时依赖于人的经验和判断,导致敏感信息特征构建不全面。基于深度学习的网络敏感信息识别方法虽然可以自动构建一组特征来反映敏感信息,但由于深度学习属于无监督学习,故学习到的特征的准确性有待提升。GuidedLDA 主题模型可以通过种子词自动引导生成有倾向性的敏感主题特征,有效解决上述研究存在的不足。如果直接将 GuidedLDA 主题模型用于网络敏感信息识别存在如下问题:由于敏感种子词数量有限,可能导致引导式生成的敏感主题不够全面和准确,为解决该问题,本文在
17、已有研究的基础上,提出了一种融合敏感语义信息的引导式 LDA 模型 SSI-GuidedLDA(Guided LDA with Sensitive Semantic Information),以021 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 情摇 报摇 杂摇 志摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 42 卷实现对网络敏感信息的有效识别,并实验验证了研究内容的有效性。2摇 引导式网络敏感信息识别摇 2.1摇 研究设计本文的研究框架主要包括三部分:敏感种子词及敏感语义相关词获取、构建引导式主题模型 SSI-Guid鄄
18、edLDA 和基于 SSI-GuidedLDA 模型的网络敏感信息识别,如图 1 所示。图 1摇 网络敏感信息识别研究框架摇 摇基于 SSI-GuidedLDA 模型的引导式网络敏感信息识别方法首先需要获取敏感种子词及敏感语义相关词,以此构建敏感特征;然后将构建的敏感特征融入GuidedLDA 主题模型,实现 SSI-GuidedLDA 模型的构建;最后基于该模型实现网络敏感信息识别,具体步骤如下:第 1 步,敏感种子词及敏感语义相关词获取:从各种网络资源中筛选出敏感种子词,并采用 K-means 方法对敏感种子词进行聚类得到 C 类敏感种子词集。利用词向量模型计算敏感种子词和爬取的网络资源中
19、其它词的相似度,得到种子词的敏感语义相关词。第2 步,构建引导式主题模型 SSI-GuidedLDA:在GuidedLDA 主题模型的基础上,将分类后的敏感种子词集和敏感语义相关词集融入 SSI 节点,实现对 SSI-GuidedLDA 主题模型的构建,该模型依据输入的网络资源引导生成 C 个敏感主题以及无监督生成 K-C 个非敏感主题。第3 步,网络敏感信息识别:根据 SSI-GuidedLDA主题模型可以得到待识别博文的博文-主题分布,将该分布下概率最大的主题作为博文的主题分配结果,通过判断主题分配结果是否为敏感主题实现对网络敏感信息的精准识别。摇 2.2摇 敏感种子词及敏感语义相关词获取
20、2.2.1摇 敏感种子词获取由于目前没有公开的敏感词列表,本文将通过搜集和筛选网络上的敏感资源获取敏感种子词:首先从一些影响力较大的网络平台中搜集敏感资源,如微博、百度、知乎中的敏感信息以及发布在 GitHub 上的敏感词典;然后将网络敏感资源中的敏感词作为查询在新浪微博中进行检索,筛选出检索反馈结果为“根据相关法律法规和政策,搜索结果未予显示冶的敏感词作为敏感种子词。本文最终得到 1323 个敏感种子词,并将其构建为敏感种子词集合 S。为了引导生成不同类别的敏感主题,我们将对获取到的敏感种子词进行聚类分析。K-means 算法是经典的聚类算法之一,其算法稳定,能够克服短文本内容稀疏的问题21
21、,而本文聚类的对象主要是短文本,故采用 K-means 算法进行聚类。为了得到较好的聚类结果,本文通过手肘法来确定最优聚类数:即随着聚类数的增加,核心指标值下降幅度由骤减到平缓拐点所对应的聚类数为最优聚类数。手肘法的核心指标为误差平方和 SSE22,其准则函数定义为SSE=移Ci=1移p沂Ci椰p-mi椰2(1)其中,C 是聚类数,Ci表示第 i 个类,p 表示 Ci中的样本点,mi表示 Ci中的均值点。本文计算得到不同聚类数下的误差平方和如图 2所示,图中横坐标是不同聚类数量,纵坐标为不同聚类数对应的误差平方和 SSE。CSSE图 2摇 不同聚类数下的 SSE 值观察图 2,根据手肘法22可
22、以确定最优聚类数为121摇 第 11 期摇 摇 摇 摇 摇 摇 摇 摇 摇 吴树芳,等:基于 SSI-GuidedLDA 模型的引导式网络敏感信息识别研究7。通过分析各类别敏感种子词的语义特征,种子词集的7 类敏感词分别为:S1政治敏感类、S2暴恐类、S3邪教封迷类、S4色情类、S5赌博类、S6违禁品类和 S7欺诈类,聚类结果与我国 2020 年实施的网络信息内容生态治理规定23描述一致,说明我们实验爬取的数据比较全面,基本覆盖了所有类别的网络敏感信息,本文爬取的敏感种子词规模如表 1 所示。表 1摇 敏感种子词信息编号 Sk敏感类型种子词数量S1政治敏感509S2暴恐114S3邪教封迷108
23、S4色情317S5赌博79S6违禁品128S7欺诈68摇 摇 2.2.2摇 敏感语义相关词获取当前,在词向量训练模型当中,Word2Vec 训练得到的词向量语义丰富,能够较好地表达不同词之间的相似度和类比关系24-25,故本文采用该模型进行词向量训练,将词映射到高维向量空间中,其中词 wi训练后的向量表示如式(2)所示。wi=(wi1,wir,wiR)摇(2)其中,wir表示词向量 wi的第 r 维元素,R 表示词向量的维度。获取词语的向量表示后,词 wi,wj的相似度采用公式(3)计算:sim(wi,wj)=wiwj椰wi椰 伊 椰wj椰=移Rr=1(wir,wjr)移Rr=1(wir)2伊
24、移Rr=1(wjr)2(3)通过设置语义相似度阈值 姿 来判断种子词的敏感语义相关词,考虑到不同类的敏感种子词阈值不同,论文将在实验部分获取 7 类敏感种子词的不同相似度阈值 姿i(i=1,2,7)。当词语与种子词之间的语义相似度大于等于 姿i时,认为该词是第 i 类种子词的敏感语义相关词。本文最终获取得到 7 类敏感语义相关词集 SSk。摇 2.3摇 SSI-GuidedLDA 主题模型的构建GuidedLDA 通过引入种子词集合,将无监督的LDA 主题模型更改为半监督的主题模型,来引导生成与种子词相关联的主题26。但是在基本的 GuidedL鄄DA 中没有考虑敏感种子词的敏感语义信息,语义
25、信息的融入可以生成更加全面、准确的敏感主题特征来描述网络敏感信息。基于此,本文构建了 SSI-Guid鄄edLDA 主题模型,模型图及其符号描述如图 3 所示。图 3摇 SSI-GuidedLDA 模型图SSI-GuidedLDA 主题模型以类别划分后的敏感种子词集及其敏感语义相关词集作为 SSI 节点的输入,输入形式为SSI=SSI1:S1,SS1,SSI7:S7,SS7,SSI8:,SSIK:以爬取的网络资源数据作为 SSI-GuidedLDA 主题模型的输入,即 D 条由词语特征组成的文本文档。第一次迭代是对 D 条文档中的每个特征初始化主题,如果当前特征 w 存在于 SSIk中,则通过
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 SSI GuidedLDA 模型 引导 网络 敏感 信息 识别 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。