分销赏收藏举报申诉 / 7

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究.pdf

基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究.pdf

上传人：自信****多点

文档编号：2120288

上传时间：2024-05-16

格式：PDF

页数：7

大小：2.51MB

《基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究.pdf》由会员分享，可在线阅读，更多相关《基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究.pdf（7页珍藏版）》请在咨信网上搜索。

1、收稿日期:2023-03-23摇摇摇摇摇摇修回日期:2023-04-21基金项目:河北省人文社会科学研究重大课题攻关项目“基于大数据的河北省网络治理机制研究冶(编号:ZD202102)研究成果。作者简介:吴树芳,女,1979 年生,博士,教授,博士生导师,研究方向:在线社交网络分析;杨摇强,男,1999 年生,硕士研究生,研究方向:在线社交网络分析;侯晓舟,男,1980 年生,博士,副教授,副院长,研究方向:语用学、心理语言学;尹摇萌,女,1999 年生,硕士研究生,研究方向:不确定信息决策。通信作者:侯晓舟基于 SSI-GuidedLDA 模型的引导式网络敏感信息识别研究*吴树

2、芳1摇杨摇强1摇侯晓舟2摇尹摇萌1(1.河北大学管理学院摇保定摇 071000;2.河北大学外国语学院摇保定摇 071000)摘摇要:研究目的引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。研究方法针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提出基于 SSI-GuidedLDA 模型的引导式网络敏感信息识别方法。首先,从多源网络资源中爬取敏感种子词,并基于词向量模型 Word2Vec 获得种子词的敏感语义相关词,构建更为完备、准确的敏感特征。其次,将构建的敏感特征融入引导

3、式主题模型,得到改进后的模型 SSI-GuidedLDA。最后,基于 SSI-Guid鄄edLDA 模型获得待识别信息的主题分布,通过主题分布概率判断其是否为网络敏感信息。研究结论在新浪微博数据集上的实验结果显示,与已有方法相比,提出的方法在准确率、召回率和 F1值上均有一定提高。关键词:敏感语义(SSI);敏感种子词;敏感信息识别;引导式主题模型;GuidedLDA;Word2Vec中图分类号:G206摇摇摇摇摇摇摇摇摇文献标识码:A摇摇摇摇摇摇摇文章编号:1002-1965(2023)11-0119-07引用格式:吴树芳,杨摇强,侯晓舟,等.基于 SSI-

4、GuidedLDA 模型的引导式网络敏感信息识别研究J.情报杂志,2023,42(11):119-125.DOI:10.3969/j.issn.1002-1965.2023.11.018Research on Guided Network Sensitive Information IdentificationBased on SSI-GuidedLDA ModelWu Shufang1摇 Yang Qiang1摇 Hou Xiaozhou2摇 Yin Meng1(1.School of Management,Hebei University,Baoding摇 071000;2.School

5、of Foreign Languages,Hebei University,Baoding摇 071000)Abstract:Research purpose The guided topic model can guide the generation of biased sensitive topics and improve the performance ofnetwork sensitive information recognition,which is of great significance to maintaining national security and socia

6、l stability.Researchmethod Aiming at the problem that the characteristics of sensitive information constructed by the current network sensitive information i鄄dentification research are incomplete and inaccurate,which leads to poor identification performance,a guided network sensitive informationiden

7、tification method based on Sensitive Semantics-Guided Latent Dirichlet Allocation(SSI-GuidedLDA)model is proposed.Firstly,sensitive seed words are crawled from multi-source network resources,and sensitive semantic related words of seed words are obtainedbased on word vector model Word2vec to constru

8、ct more complete and accurate sensitive features.Secondly,the constructed sensitive fea鄄tures are integrated into the guided topic model,and the improved model SSI-GuidedLDA is obtained.Finally,the topic distribution ofthe information to be identified is obtained based on SSI-GuidedLDA model,and whe

9、ther it is network sensitive information is judged bythe topic distribution probability.Research conclusion The experimental results on Sina Weibo data set show that compared with the ex鄄isting methods,the proposed method has a certain improvement in accuracy,recall and F1value.第 42 卷摇第 11 期2023 年

10、11 月摇摇摇摇摇摇摇摇摇摇摇摇摇情摇报摇杂摇志JOURNAL OF INTELLIGENCE摇摇摇摇摇摇摇摇摇摇摇摇摇Vol.42摇 No.11Nov.摇 2023Key words:sensitive semantics;sensitive seed words;sensitive information identification;guided topic model;GuidedLDA;Word2Vec0摇引摇言网络敏感信息的泛滥会导致舆情失控、引起公众恐慌、加剧社会矛盾,从而严重威胁到国家安全和社会稳定1-2。因此,有效识别

11、出网络敏感信息具有极大的价值,已经引起国内外学者的广泛关注。为了更加准确、高效地识别网络敏感信息,研究者们进行了大量研究,提出了多种识别方法,包括基于敏感词匹配的网络敏感信息识别、基于传统机器学习的网络敏感信息识别和基于深度学习的网络敏感信息识别,这些研究为网络舆情监测、社交媒体管理和网络信息安全等领域提供了有力的技术支持。1摇相关研究目前已有网络敏感信息识别研究主要从以下三方面展开:一是基于敏感词匹配的网络敏感信息识别,该类方法通过构建敏感词库并与待检测文本进行匹配来识别网络敏感信息,如杨忠3提出在网络直播活动中审核禁忌性词语,通过敏感词匹配的审核方式对网络敏感信息进行把关;付聪等4利用敏

12、感词的拼音、简称和拆分三种变形体优化扩充敏感词库,有效提高了敏感词匹配的全面性;Fu 等5通过对敏感词进行语义扩展来解决敏感词数量不足的问题,并利用拼音匹配方法识别缩写、字符分割以及字符替换等形式的敏感词变形体;刘聪等6构建了暴恐敏感词典,在此基础上将敏感触发事件与敏感词之间的文本相似度进行匹配实现了网络敏感信息识别;李瀛等7通过人工筛选词向量模型输出的敏感词及其相关词构建新闻敏感词库,利用敏感词匹配识别新闻中的敏感信息;吴树芳等8通过融合敏感先验概率、敏感语义相关性和复合共现优化扩展敏感词典,提高了敏感词匹配的全面性和准确性。基于敏感词匹配的研究方法实现简单,但是过度依赖于敏感词典的构建,而

13、敏感词典的更新需要耗费大量人力物力。二是基于传统机器学习的网络敏感信息识别,该类研究突破了对敏感词典的依赖,如 Li 等9根据敏感信息特征获取有效的支持向量来训练支持向量机,提高了网络敏感信息识别的速度和准确率;Xu 等10依据各类网络敏感信息的特征,对比得出 SVM 比朴素贝叶斯和决策树拥有更好的网络敏感信息识别能力;余敦辉等11通过分析敏感词的结构和读音等特征,构建敏感词决策树识别拼音、简称和拆分三种敏感词变形体;王艺皓等12等结合敏感词的文字特征和决策树的特点构建敏感信息决策树,实现了对网络敏感信息的检测和过滤;陈祖琴等13通过提取网络敏感信息中的实体特征、信息词特征和情景特征,使用朴素

14、贝叶斯分类器生成网络敏感信息与情景间的映射关系,分析了网络敏感信息的情景画像,以期提高网络敏感信息的识别效果;Xu 等14在 LDA 模型基础上,通过加权提高敏感词的分布权重,在特定类型的新闻数据集上提取出了敏感主题特征,实现了网络敏感信息主题识别。然而,基于传统机器学习的研究方法在进行语义挖掘时十分困难,尤其是在多特征学习中。三是基于深度学习的网络敏感信息识别,深度学习的多特征学习能力为解决基于传统机器学习进行网络敏感信息识别的不足提供了坚实的基础,如 Xu等15利用 Text-CNN 文本分类模型的上下文语义特征学习能力,提高了网络敏感信息的识别效率;Li等16通过引入局部卷积特征和全局语

15、义特征,提出了一种多级卷积神经网络和计算敏感词权重相结合的方法,利用局部及全局语义信息与相应敏感词权重之间的关系构建敏感信息的特征,在此基础上实现了网络敏感信息的识别。Liu 等17利用图卷积神经网络和注意力机制提取敏感词的特征并用于检测文本中的敏感词,从而实现网络敏感信息识别;Ding 等18将 BERT模型应用于网络敏感信息识别,通过对模型参数进行微调,取得了较好的识别效果;Cong 等19通过结合预训练的知识图谱中文实体嵌入模型和 CNN 分类模型,对中文文本输入中的实体进行特征提取,有效地实现了网络敏感信息识别;高浩鑫等20通过将 BERT 模型学习到的敏感文本语义特征与图卷积网络学习

16、到的敏感文本全局共现特征相结合,以提高网络敏感信息识别效果。上述研究中,基于敏感词匹配和基于传统机器学习的网络敏感信息识别方法在构建敏感信息特征时依赖于人的经验和判断,导致敏感信息特征构建不全面。基于深度学习的网络敏感信息识别方法虽然可以自动构建一组特征来反映敏感信息,但由于深度学习属于无监督学习,故学习到的特征的准确性有待提升。GuidedLDA 主题模型可以通过种子词自动引导生成有倾向性的敏感主题特征,有效解决上述研究存在的不足。如果直接将 GuidedLDA 主题模型用于网络敏感信息识别存在如下问题:由于敏感种子词数量有限,可能导致引导式生成的敏感主题不够全面和准确,为解决该问题,本文在

17、已有研究的基础上,提出了一种融合敏感语义信息的引导式 LDA 模型 SSI-GuidedLDA(Guided LDA with Sensitive Semantic Information),以021 摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇情摇报摇杂摇志摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第 42 卷实现对网络敏感信息的有效识别,并实验验证了研究内容的有效性。2摇引导式网络敏感信息识别摇 2.1摇研究设计本文的研究框架主要包括三部分:敏感种子词及敏感语义相关词获取、构建引导式主题模型 SSI-Guid鄄

18、edLDA 和基于 SSI-GuidedLDA 模型的网络敏感信息识别,如图 1 所示。图 1摇网络敏感信息识别研究框架摇摇基于 SSI-GuidedLDA 模型的引导式网络敏感信息识别方法首先需要获取敏感种子词及敏感语义相关词,以此构建敏感特征;然后将构建的敏感特征融入GuidedLDA 主题模型,实现 SSI-GuidedLDA 模型的构建;最后基于该模型实现网络敏感信息识别,具体步骤如下:第 1 步,敏感种子词及敏感语义相关词获取:从各种网络资源中筛选出敏感种子词,并采用 K-means 方法对敏感种子词进行聚类得到 C 类敏感种子词集。利用词向量模型计算敏感种子词和爬取的网络资源中

19、其它词的相似度,得到种子词的敏感语义相关词。第2 步,构建引导式主题模型 SSI-GuidedLDA:在GuidedLDA 主题模型的基础上,将分类后的敏感种子词集和敏感语义相关词集融入 SSI 节点,实现对 SSI-GuidedLDA 主题模型的构建,该模型依据输入的网络资源引导生成 C 个敏感主题以及无监督生成 K-C 个非敏感主题。第3 步,网络敏感信息识别:根据 SSI-GuidedLDA主题模型可以得到待识别博文的博文-主题分布,将该分布下概率最大的主题作为博文的主题分配结果,通过判断主题分配结果是否为敏感主题实现对网络敏感信息的精准识别。摇 2.2摇敏感种子词及敏感语义相关词获取

20、2.2.1摇敏感种子词获取由于目前没有公开的敏感词列表,本文将通过搜集和筛选网络上的敏感资源获取敏感种子词:首先从一些影响力较大的网络平台中搜集敏感资源,如微博、百度、知乎中的敏感信息以及发布在 GitHub 上的敏感词典;然后将网络敏感资源中的敏感词作为查询在新浪微博中进行检索,筛选出检索反馈结果为“根据相关法律法规和政策,搜索结果未予显示冶的敏感词作为敏感种子词。本文最终得到 1323 个敏感种子词,并将其构建为敏感种子词集合 S。为了引导生成不同类别的敏感主题,我们将对获取到的敏感种子词进行聚类分析。K-means 算法是经典的聚类算法之一,其算法稳定,能够克服短文本内容稀疏的问题21

21、,而本文聚类的对象主要是短文本,故采用 K-means 算法进行聚类。为了得到较好的聚类结果,本文通过手肘法来确定最优聚类数:即随着聚类数的增加,核心指标值下降幅度由骤减到平缓拐点所对应的聚类数为最优聚类数。手肘法的核心指标为误差平方和 SSE22,其准则函数定义为SSE=移Ci=1移p沂Ci椰p-mi椰2(1)其中,C 是聚类数,Ci表示第 i 个类,p 表示 Ci中的样本点,mi表示 Ci中的均值点。本文计算得到不同聚类数下的误差平方和如图 2所示,图中横坐标是不同聚类数量,纵坐标为不同聚类数对应的误差平方和 SSE。CSSE图 2摇不同聚类数下的 SSE 值观察图 2,根据手肘法22可

22、以确定最优聚类数为121摇第 11 期摇摇摇摇摇摇摇摇摇吴树芳,等:基于 SSI-GuidedLDA 模型的引导式网络敏感信息识别研究7。通过分析各类别敏感种子词的语义特征,种子词集的7 类敏感词分别为:S1政治敏感类、S2暴恐类、S3邪教封迷类、S4色情类、S5赌博类、S6违禁品类和 S7欺诈类,聚类结果与我国 2020 年实施的网络信息内容生态治理规定23描述一致,说明我们实验爬取的数据比较全面,基本覆盖了所有类别的网络敏感信息,本文爬取的敏感种子词规模如表 1 所示。表 1摇敏感种子词信息编号 Sk敏感类型种子词数量S1政治敏感509S2暴恐114S3邪教封迷108

23、S4色情317S5赌博79S6违禁品128S7欺诈68摇摇 2.2.2摇敏感语义相关词获取当前,在词向量训练模型当中,Word2Vec 训练得到的词向量语义丰富,能够较好地表达不同词之间的相似度和类比关系24-25,故本文采用该模型进行词向量训练,将词映射到高维向量空间中,其中词 wi训练后的向量表示如式(2)所示。wi=(wi1,wir,wiR)摇(2)其中,wir表示词向量 wi的第 r 维元素,R 表示词向量的维度。获取词语的向量表示后,词 wi,wj的相似度采用公式(3)计算:sim(wi,wj)=wiwj椰wi椰伊椰wj椰=移Rr=1(wir,wjr)移Rr=1(wir)2伊

24、移Rr=1(wjr)2(3)通过设置语义相似度阈值姿来判断种子词的敏感语义相关词,考虑到不同类的敏感种子词阈值不同,论文将在实验部分获取 7 类敏感种子词的不同相似度阈值姿i(i=1,2,7)。当词语与种子词之间的语义相似度大于等于姿i时,认为该词是第 i 类种子词的敏感语义相关词。本文最终获取得到 7 类敏感语义相关词集 SSk。摇 2.3摇 SSI-GuidedLDA 主题模型的构建GuidedLDA 通过引入种子词集合,将无监督的LDA 主题模型更改为半监督的主题模型,来引导生成与种子词相关联的主题26。但是在基本的 GuidedL鄄DA 中没有考虑敏感种子词的敏感语义信息,语义

25、信息的融入可以生成更加全面、准确的敏感主题特征来描述网络敏感信息。基于此,本文构建了 SSI-Guid鄄edLDA 主题模型,模型图及其符号描述如图 3 所示。图 3摇 SSI-GuidedLDA 模型图SSI-GuidedLDA 主题模型以类别划分后的敏感种子词集及其敏感语义相关词集作为 SSI 节点的输入,输入形式为SSI=SSI1:S1,SS1,SSI7:S7,SS7,SSI8:,SSIK:以爬取的网络资源数据作为 SSI-GuidedLDA 主题模型的输入,即 D 条由词语特征组成的文本文档。第一次迭代是对 D 条文档中的每个特征初始化主题,如果当前特征 w 存在于 SSIk中,则通过

26、种子置信度 SC的值增加当前特征 w 初始化为主题 k 的概率,因此,初始化主题完成后的第 k 个主题特征分布当中,存在于SSIk中的特征相比于其它特征概率更大。主题初始化过程表明 SSIk中敏感词在引导生成主题 k 当中的作用大小由种子置信度 SC 确定,置信度越大,SSIk中敏感词引导生成的主题 k 倾向于敏感词所属类型的概率越高,依据文献27将 SC 设置为 0.8。在每一次进一步迭代中,需要为每个特征的主题进行采样,采样公式如下:p(zi=k|z寅迱 i,w寅)邑ntk,迱 i+茁移Vt=1ntk,迱 i+V茁伊摇摇nkd,迱 i+琢移Kk=1nkd,迱 i+K琢(4)其中,zi表示

27、为当前特征 i 抽取的主题;迱i表示除 i 以外;V 表示训练数据集的词表特征数;ntk,迱 i表示除 i 以外,主题 k 下特征 t 的数量;nkd,迱 i表示除 i 以外,文档 d 中主题为 k 的特征数量;依据文献27将琢和茁分别设置为 0.1 和 0.01。根据式(5),迭代过程中以最大化文档-主题相关度和主题-特征相关度的乘积为目标,为每个特征抽取主题。因为属于主题 k 的特征中,SSIk中的敏感词有更高的概率,所以 SSIk中敏感词抽取到主题 k 的概率变大。模型经过多次迭代达到收敛,迭代完成后的主要221 摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇

28、摇摇摇摇情摇报摇杂摇志摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第 42 卷输出为:主题-特征分布,即每个主题由其词语特征分布定义,如表 2 所示。通过分析 SSI-GuidedLDA 主题模型的迭代过程可以发现,该模型可以通过 SSIk中的敏感词引导生成有倾向性的敏感主题特征分布:当 k沂1,7 时,该模型依据 SSIk中的敏感词引导生成相应类型的敏感主题,即政治敏感主题、暴恐主题、邪教封迷主题、色情主题、赌博主题、违禁品主题和欺诈主题;当 k 大于 7 时,SSIk中没有敏感词,故相应主题为无引导生成的主题,为非敏感主题。表 2摇主题特征分布矩

29、阵主题 kw1wiwV1p11p1ip1V7p71p7ip7VKpK1pKipKV摇摇 SSI-GuidedLDA 在主题生成过程中,不仅考虑了通过敏感种子词引导生成敏感主题,还考虑了种子词的敏感语义信息,通过融合敏感语义信息,使种子词的敏感语义相关词也参与引导生成敏感主题,提高了相关敏感词被分类到同一主题中的概率,提升了敏感主题表示的完备性和准确性。摇 2.4摇网络敏感信息识别基于 SSI-GuidedLDA 模型的网络敏感信息识别流程如下:a.将待识别博文进行预处理,包括分词、除去停用词等。b.将待识别博文输入到主题模型中,可以得到每篇博文的博文-主题分布,即每篇博文 blog 属于各

30、主题的概率:blog=k=1:P1,k=7:P7,k=K:PK。一个主题概率越大则表示博文内容属于这个主题类型的概率越高,将博文-主题分布下概率最高的主题表示为博文的主题分配,可以提取得到每篇博文的主题分配结果 Result。c.根据待识别博文的主题分配结果和主题定义进行网络敏感信息识别:若一篇博文的主题分配结果Result 沂 1,7,则该博文属于敏感信息;若一篇博文的主题分配结果 Result沂8,K,则该博文属于非敏感信息。3摇实摇验摇 3.1摇数据集为验证基于 SSI-GuidedLDA 模型的引导式网络敏感信息识别方法的有效性,采用新浪微博数据作为实证研究数据集。我们共爬取微博

31、 195110 条,运用德尔菲法28从中筛选出 29383 条敏感博文,并对其敏感类型进行了标注。为了更有效地进行实验,对采集到的数据进行分词和除去停用词,在分词过程中,为了防止敏感种子词被分词处理,将种子词添加到用户词典中,以此来保证分词结果更加准确。摇 3.2摇评价指标本文采用分类模型中常用的三种评价指标:准确率、召回率和 F1值进行评价29。其中,F1值为权衡准确率和召回率的评估度量值,指标取值越大表示识别性能越好。准确率、召回率、F1值可以通过公式(5)、公式(6)、公式(7)计算得到:Precision=TPTP+FP(5)Recall=TPTP+FN摇(6)F1=2 伊 Prec

32、ision 伊 RecallPrecision+Recall(7)其中,TP 表示被识别为敏感信息,实际也为敏感信息的个数;FP 表示被识别为敏感信息,但实际为非敏感信息的个数;FN 表示被识别为非敏感信息,但实际为敏感信息的个数。摇 3.3摇参数设置本文方法的关键参数为:语义相似度阈值姿和Word2Vec 训练参数。在 Word2Vec 词向量训练时,本文将词向量维度 vector_size 设置为 300,选择 CBOW训练模型 sg=0,将 min_count 设置为0,以此来保证一些出现次数极低的敏感词不被忽略。关于语义相似度阈值姿:当设置较大姿时,可以将敏感语义相关词限制

33、为一组与敏感种子词高度相关的单词,然而,设置一个高相似度界限,可能会遗漏一些敏感语义相关词;当设置较小姿时,则难以保证敏感语义相关词与敏感种子词的相关性。为了确定合适的姿值,本文将在数据集上根据不同阈值参数的分类结果,分别计算识别各类网络敏感信息的 F1值,以此确定各个语义相似度阈值。具体地,首先在0.1,1区间内以步长 0.1 分别取各个语义相似度阈值,观察发现,当阈值为 0.8 或 0.9 时,F1值较大,然后,进一步在0.8,0.95区间内以步长 0.03 取阈值进行实验。实验结果如图 4 所示:图 4摇各个类别随阈值调整对应的 F1值321摇第 11 期摇摇摇摇摇摇

34、摇摇摇吴树芳,等:基于 SSI-GuidedLDA 模型的引导式网络敏感信息识别研究通过图 4 可以观察得到,当政治敏感、暴恐、邪教封迷、色情、赌博、违禁品和欺诈类语义相似度阈值分别为 0.86、0.86、0.86、0.89、0.90、0.83 和 0.83 时,F1值达到最大,故本文将姿1、姿2、姿3、姿4、姿5、姿6和姿7依次设置为上述值。摇 3.4摇结果与分析为了验证 SSI-GuidedLDA 主题模型的有效性,选取了 3 种基线模型与本文方法进行对比,模型简写及其解释如表 3 所示:表 3摇模型简写及其解释模型简写模型解释LDA30无监督的 LDA 主题模型SW-LDA

35、14提高敏感词分布权重的 LDA 主题模型GuidedLDA26半监督的引导式主题模型SSI-GidedLDA本文提出的主题模型摇摇采用准确率、召回率和 F1值衡量网络敏感信息识别性能,借鉴文献31的实验思路,将主题数 K 依次设置为 10、30、50。通过实验可以得到各个模型识别网络敏感信息的整体效果,从而对不同模型的网络敏感信息识别性能进行客观的衡量和比较。实验结果如图 5 所示:图 5摇 SSI-GuidedLDA 与基线模型的整体识别性能比较通过图 5 可知,SSI-GuidedLDA 在不同主题数条件下的识别性能均表现良好,相比于 LDA、SW-LDA和 GuidedLDA 在准

36、确率上分别平均提高 7.67%、6郾 12%、4.31%;在召回率上分别平均提高 13.70%、12.10%、7.13%;在 F1值上分别平均提高 10.36%、8郾 78%、5.55%。这是因为 SSI-GuidedLDA 通过融入种子词的敏感语义信息,利用种子词及其敏感语义相关词引导敏感主题的生成,最大程度地提高了敏感主题特征质量,从而能够表现出良好的识别性能。LDA由于不能根据数据集的特点监督敏感主题的生成,因此其得到的敏感主题特征质量较低,难以准确识别出网络敏感信息;SW-LDA 仅利用加权提高敏感词的分布权重,未从根本上提高敏感主题特征质量;GuidedL鄄DA 虽然可以通过种子词引

37、导生成敏感主题,但未深入挖掘敏感词的敏感语义信息,而本文提出的模型在上述模型的基础上融入了敏感语义信息。为了未来能得到更好的识别效果,我们深入分析了本文识别错误的实例,以下为三个识别错误的博文示例:示例 1:揭开“全能神冶邪教画皮。示例 2:王洪光中将霸气表态:美国在台湾部署萨德?他敢?!那就是解放台湾之日!,港独,台独,合流的话就一块干掉啊!示例 3:阿弥陀佛!诵乾隆大藏经之大般若波罗蜜多经第三十五卷,诸佛菩萨加持,法轮常转,正法久住!上述三个示例中包含敏感词“邪教冶、“台独冶和“法轮冶等,因此 SSI-GuidedLDA 模型会将这些博文识别为敏感信息。但该类博文并未涉及任何违反道德或法

38、律规定的内容,只是表达了宣传警示、对国家的信仰、以及一些佛教用语和祈愿语,因此不属于网络敏感信息。产生错误识别的原因是由于论文提出的识别方法仅通过词语概率获得主题和博文的概率分布,没有挖掘上下文语境,未来我们将对此展开深入研究。4摇结摇语考虑到现有网络敏感信息识别方法存在的不足,本文将敏感语义信息和引导式主题模型相结合,提出了一种融合敏感语义信息的引导式主题模型 SSI-GuidedLDA,并基于该模型实现了网络敏感信息的精准识别。本文虽然在一定程度上提高了网络敏感信息识别性能,但尚存不足之处,后续研究拟围绕以下内容展开:a.本文以离线形式的新浪微博作为数据集,而网络敏感信息识别的目的是即

39、时发现并阻断其传播,故后续研究我们拟使用数据流形式的微博数据对网络敏感信息识别模型进行改进。b.本文中的敏感语义信息421 摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇情摇报摇杂摇志摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第 42 卷仅考虑了敏感种子词的语义信息,但还有其他多个方面有利于敏感语义信息的丰富,如:上下文语境、情感信息和用户信息等,故后续研究将深入挖掘其他有效信息,进一步提高敏感语义信息的准确性,进而提高网络敏感信息识别性能。参考文献1摇黄摇炜,童青云,李岳峰.基于广度学习的异构社交网络敏感实体

40、识别模型研究J.情报学报,2020,39(6):579-588.2摇李玥琪,王晰巍,王摇楠,等.突发事件下社交媒体网络舆情风险识别及预警模型研究J.情报学报,2022,41(10):1085-1099.3摇杨摇忠.论人机对抗中“直播+冶敏感信息的衍生和把关J.情报杂志,2021,40(3):193-200,181.4摇付摇聪,余敦辉,张灵莉.面向中文敏感词变形体的识别方法研究J.计算机应用研究,2019,36(4):988-991.5摇 Fu Y,Yu Y,Wu X.A sensitive word detection method basedon variants recogni

41、tionC/2019 International Conference onMachine Learning,Big Data and Business Intelligence(MLBD鄄BI).IEEE,2019:47-52.6摇刘摇聪,王永利,周子韬,等.结合触发事件及词性分析的敏感信息识别方法J.计算机工程与应用,2020,56(20):132-137.7摇李摇瀛,王冠楠.网络新闻敏感信息识别与风险分级方法研究J.情报理论与实践,2022,45(4):105-112.8摇吴树芳,尹摇凯.基于敏感语义和复合共现的网络敏感词典构建研究J/OL.情报科学2023-03-15.ht

42、tp:/ Li W,Wu H,Yang J.Intelligent recognition algorithm for so鄄cial network sensitive information based on classification technol鄄ogyJ.Discrete and Continuous Dynamical Systems-S,2019,12(4/5):1385.10 Xu Y,Jiao Y,Chen S,et al.Research on detection method ofunhealthy message in social networkC/Interna

43、tional Confer鄄ence on Artificial Intelligence and Security.Springer,Cham,2019:497-508.11 余敦辉,张笑笑,付摇聪,等.基于决策树的敏感词变形体识别算法研究及应用J.计算机应用研究,2020,37(5):1395-1399,1405.12 王艺皓,丁洪伟,王丽清,等.基于决策树和 DFA 的老挝文敏感信息过滤算法J.计算机应用与软件,2022,39(7):241-246,274.13 陈祖琴,蒋摇勋,葛继科,等.基于网络舆情敏感信息的突发事件情景分析J.现代情报,2021,41(5):25-32.14 X

44、u G,Wu X,Yao H,et al.Research on topic recognition ofnetwork sensitive information based on SW-LDA modelJ.IEEE access,2019(7):21527-21538.15 Xu G,Qi C,Yu H,et al.Detecting sensitive information of un鄄structured textusing convolutional neural networkC/2019 In鄄ternational Conference on Cyber-Enabled D

45、istributed Computingand Knowledge Discovery(CyberC).IEEE,2019:474-479.16 Li Q,Hu Q,Lu Y,et al.Multi-level word features based onCNN for fake news detection in cultural communicationJ.Per鄄sonal and Ubiquitous Computing,2020,24(2):259-272.17 Liu Y,Yang C Y,Yang J.A graph convolutional network-based se

46、nsitive information detection algorithmJ.Complexity,2021(1):6631768.18 Ding M,Wang X,Wu C,et al.Research on automated detec鄄tion of sensitive information based on BERTC/Journal ofPhysics:Conference Series.IOP Publishing,2021,1757(1):012088.19 Cong K,Li T,Li B,et al.KGDetector:Detecting chinese sensi

47、鄄tive information via knowledge graph-enhanced BERTJ.Se鄄curity and Communication Networks,2022:4656837.20 高浩鑫,孙利娟,吴京宸,等.基于异构图卷积网络的网络社区敏感文本分类模型J/OL.数据分析与知识发现2023-02-16.http:/ 张立说.基于 K-means 算法的 Web 短文本聚类方法研究与应用D.济南:齐鲁工业大学,2016.22 靳嘉林,王曰芬,巴志超,等.基金项目研究的主题挖掘与动态演化分析以美国 NSF 数据中 AI 领域为例J.情报学报,2022,41(9):9

48、67-979.23 中共中央网络安全和信息化委员会办公室.深度解读网络信息内容生态治理规定EB/OL.2020-03-02.http:/ Mikolov T,Chen K,Corrado G,et al.Efficient estimation ofword representations in vector spaceJ.arXiv preprint arXiv,2013:1301,3781.25 Mikolov T,Sutskever I,Chen K,et al.Distributed representa鄄tions of words and phrases and their com

49、positionalityJ.Ad鄄vances in neural information processing systems,2013,26:1-9.26 Singh V.How we changed unsupervised LDA to semi-super鄄visedGuidedLDAEB/OL.2017-10-16.https:/www.freecodecamp.org/news/how-we-changed-unsupervised-lda-to-semi-supervised-guidedlda-e36a95f3a164.27 Venugopalan M,Gupta D.An

50、 enhanced guided LDA modelaugmented with BERT based semantic strength for aspect termextraction in sentiment analysisJ.Knowledge-Based Systems,2022,246:108668.28 孙瑞英,李杰茹.我国政府数据开放平台个人隐私保护政策评价研究J.图书情报工作,2022,66(12):3-16.29 吴树芳,高梦蛟,朱摇杰.基于兴趣主题稳定度和多维相似度的社交用户兴趣挖掘J.情报理论与实践,2022,45(12):186-194,155.30 Blei D

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 SSI GuidedLDA 模型引导网络敏感信息识别研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。