基于长尾分类算法的网络不良信息分类.pdf
《基于长尾分类算法的网络不良信息分类.pdf》由会员分享,可在线阅读,更多相关《基于长尾分类算法的网络不良信息分类.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 8期2023年 8月Computer Engineering 计算机工程基于长尾分类算法的网络不良信息分类刘金硕,王代辰,邓娟,王丽娜(武汉大学 空天信息安全与可信计算教育部重点实验室,武汉 430072)摘要:目前已有的网络不良信息分类方法大多忽略了数据不平衡、数据存在长尾分布的情况,使得模型在分类时偏向于数据量多的样本,无法很好地识别数据量少的样本,从而导致整体识别精度下降。针对该问题,提出一种用于长尾不良信息数据集的分类方法 LTIC。将小样本学习与知识转移策略相结合,使用 BERT模型学习头部类的权重,通过专门为小样本学习而提出的 Prototyper网络得到头部类的原
2、型,将头尾数据分开处理,从而避免一起训练而导致的数据不平衡问题。学习从原型到权重的映射关系,利用学到的知识将尾部类的原型转换为权重,然后连接头部类权重和尾部类权重得到最终的分类结果。实验结果表明:LTIC 方法在 Twitter和 THUCNews数据集上分别达到 82.7%和 83.5%的分类准确率,且 F1值相较非长尾模型有显著提升,有效提高了模型分类精度;与目前较新的长尾数据集分类方法 BNN、OLTR 等相比,该方法具有更好的分类效果,平均准确率提升了 3%;当新的不良信息类别出现时,LTIC方法只需少量计算就可对其进行预测,准确率达到 70%,具有良好的扩展性。关键词:不良信息分类;
3、数据不平衡;长尾数据集;小样本学习;知识转移开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(8):13-19,28.英文引用格式:LIU J S,WANG D C,DENG J,et al.Classification of harmful information on Internet based on long-tailed classification algorithm J.Computer Engineering,2023,49(8):13-19,28.Classification of Harmful Information on
4、 Internet Based on Long-Tailed Classification AlgorithmLIU Jinshuo,WANG Daichen,DENG Juan,WANG Lina(Key Laboratory of Aerospace Information Security and Trusted Computing,Ministry of Education,Wuhan University,Wuhan 430072,China)【Abstract】Currently,most existing methods for classifying harmful infor
5、mation on Internet overlook imbalanced data and long-tailed distributions,biasing the model towards more numerous data samples during classification.This makes them unable to effectively identify small data samples,which results in a decrease in overall recognition accuracy.To address this issue,a c
6、lassification method LTIC for long-tailed harmful information datasets is proposed.By integrating few-shot learning with knowledge transfer strategies,the BERT model is used to learn the weights of the head class.The prototype of the head class is obtained through a Prototyper network specifically d
7、esigned for few-shot learning.This design allows for the processing of head and tail data separately,thereby avoiding the data imbalance caused by mutual training.Researchers then use the mapping relationship learned from the prototype to convert the prototype of the tail class into weights.Subseque
8、ntly,the head and tail class weights are combined to obtain the final classification result.In experiments,the LTIC method achieves classification accuracies of 82.7%and 83.5%on the Twitter and THUCNews datasets,respectively.This method also significantly improves the F1 value compared to the non-lo
9、ng tailed model,thus effectively improving classification accuracy.When compared with the latest classification methods such as BNN and OLTR,this method exhibits superior classification performance on long-tailed datasets,with an average accuracy improvement of 3%.When new categories of harmful info
10、rmation emerge,the LTIC method demonstrates the capability to predict them with minimal computation,achieving an accuracy of 70%and showcasing impressive scalability.【Key words】classification of harmful information;data imbalance;long-tailed dataset;few-shot learning;knowledge transferDOI:10.19678/j
11、.issn.1000-3428.0067003基金项目:国家自然科学基金(U193607);国家重点研发计划(2020YFA0607902)。作者简介:刘金硕(1973),女,教授、博士、博士生导师,主研方向为网络舆情监控、数据挖掘、高性能计算;王代辰,硕士研究生;邓 娟,副教授、博士;王丽娜,教授、博士、博士生导师。收稿日期:2023-02-22 修回日期:2023-03-29 Email:热点与综述文章编号:1000-3428(2023)08-0013-07 文献标志码:A 中图分类号:TP3912023年 8月 15日Computer Engineering 计算机工程0概述 随着 5G
12、 时代的来临,互联网中充斥着海量信息,其中,不良信息不仅数量庞大而且滋生非常快速。面对如此纷繁复杂的不良信息,如何识别其中的不同类别、帮助相关部门更好地了解不良信息的分布趋势并进行分类治理,是学术界和工业界普遍关注的问题。目前,针对网络不良信息分类的研究较少,已有工作主要集中于从数据集中区分正常信息和不良信息。其中,一部分工作1通过关键字与统计分析的方式进行不良信息检测,另一部分工作2关注不良信息中词集的构建与词之间的依赖关系,在文本特征提取时使用基于依存关系和统计特征相结合的算法进行不良信息检测。仅有少部分研究人员3关注到不良信息中不同类别的分类问题,利用不同类别标签之间的相关性来实现信息分
13、类。然而,这些工作都没有考虑到现实中网络不良信息集呈现“长尾”分布的情况,而这种实际情况对不良信息的分类效果具有重要意义。对于一个真实的数据集,将不同类别数据的出现频率按照降序进行排列,数据分布呈现为一个长长的“尾巴”,这便是长尾分布。在不良信息中,数据量较多的类别被称为头部类,某些新产生的、数据量较少的不良信息类别被称为尾部类。如果不经过任何处理,直接将不平衡的样本数据输入模型进行学习,模型会在样本数据量大的头部类别上泛化效果较好,而在样本数据量小的尾部类别上泛化效果较差,从而导致模型 Precision值较低。本文提出一种针对长尾不良信息数据集的分类方法 LTIC。该方法由 3 个部分组成
14、:第一部分利用头部类数量较多、学习效果较好的特点,通过 BERT模型4构建一个针对头部类的分类器;第二部分利用专门为小样本分类所设计的 Prototyper 网络5分别计算头部类和尾部类的原型;第三部分学习一个从头部类原型到分类器模型权重的映射关系,并将该关系迁移到尾部类中,提高其泛化效果,同时得到最终的分类模型。LTIC 方法只需要训练头部类分类器,而尾部类的权重可以通过在头部类学到的知识来直接计算,这意味着即使出现样本数据量少的新不良信息类别,该方法只需通过少量的计算就可以直接对新类别进行预测,不需要重新训练整个模型,从而提高其扩展性。1相关工作 1.1长尾文本分类目前,针对长尾文本分类主
15、要有 3 种策略,分别为类别分布再平衡策略、小样本学习策略和知识转移策略。类别分布再平衡策略的主要思想是对长尾数据集进行平衡6-9,包括对尾部类别进行过采样、对头部类别进行欠采样,以及在损失函数中为尾部类别分配大权重、对少样本数据进行合成。文献 10 提出 一 个 统 一 的 双 边 分 支 网 络(Bilateral-Branch Network,BBN),将“传统学习分支”和“再平衡分支”相结合,前一个分支使用统一采样器来学习通用模式以进行识别,后一个分支配备反向采样器来建模尾部数据。小样本学习策略则利用小样本学习与长尾学习都包含一些具有很少样本类别的特性,将小样本学习中的思想运用到长尾学
16、习中。小样本学习的思想旨在借助样本量丰富的类为样本量贫乏的类构建分类器11-12。文献 13 基于头部分类器合成实例,将其作为训练样本加入尾部类学习模型中。文献 14 提出一种基于注意力机制的小样本分类权 重 生 成 器,其 可 以 有 效 地 提 高 尾 部 类 的 泛 化效果。知识转移策略是处理长尾数据集的另一种方法,该策略的思想是将从头部类中学到的知识转移到尾部类15。文献 16 提出一个元网络,该网络位于头部类学习模型的参数空间中,使元知识以渐进的方式转移到尾部类。文献 17 提出一种动态元嵌入方法,用于学习尾部类的直接特征和头部类的记忆特征,从而提高尾部类的识别鲁棒性。1.2不良信息
17、检测目前关于不良信息检测的研究大多只针对某一个特定的类别。文献 18 关注到社交媒体上涉及扰乱市场秩序、通过黑市大肆传播不良信息的问题,将传统的特征提取与深度学习的特征表示相结合,利用交叉单元得到其最佳组合。文献 19 关注到社交 媒 体 上 的 性 别 歧 视 问 题,制 作 出 一 个 包 含 约115 000条推文信息的数据集,同时给出基准实验结果,为后续性别歧视不良信息检测技术的发展提供了很大便利。文献 20 关注到社交媒体上虐待女性的言论信息问题,为了弥补该类数据搜集与清洗分类难度较高的不足,在包含虐待女性关键词的上亿条推文中进行词向量预训练,然后使用定制与正则化后的卷积神经网络(C
18、onvolutional Neural Network,CNN)模型进行训练与预测,该方法取得了很好的效果,为后续小型数据集研究提供了新思路。此外,文献 21 关注到社交媒体上的假新闻问题,使用机器学习算法朴素贝叶斯进行假新闻识别。实验结果表明,不断添加新闻和定期增强数据集,能使该算法获得优秀的迁移学习能力并适用于不同的社交媒体。文献 22 关注到社交媒体中的谣言信息,设计一组新的元语言和语用特征,同时,将谣言检测与谣言分类进行分离,设计自动化的2 个步骤来执行分类任务,该方法取得了较好的14第 49卷 第 8期刘金硕,王代辰,邓娟,等:基于长尾分类算法的网络不良信息分类效果。上述研究本质上都
19、只关注二分类问题,而对于多种不良信息混合在一起的多分类问题,已有研究均较少关注。2长尾不良信息分类方法 本文所提长尾不良信息分类方法 LTIC 的总体流程如图 1所示。本文方法分为训练和预测 2 个部分,对于输入的文本,都使用 Embedding 的方式将其转化为向量表示。第一步进行训练:通过 BERT 模型的多层Transformer得到头部类的分类模型权重 MHead,通过Prototyper网络得到头部类的原型 PHead;通过迁移学习 器 获 得 分 类 模 型 权 重 和 原 型 之 间 的 映 射 关 系WTransfer;将尾部类的原型 PTail通过 WTransfer得到尾部
20、类的权重 MTail。第二步进行预测:将训练部分得到的MHead和 MTail进行连接,作为最终分类模型的权重;通过 Softmax层得到最终的分类预测结果y。2.1基于BERT的Embedding和头部类分类权重计算BERT 预训练模型可以简单概括为“预训练+微调”模式:首先对不同任务的海量未标记数据进行预训练;然后针对不同的下游任务进行微调,在使用时只需额外加一个输出层并再次微调模型,即可快速取得较好的结果。2.1.1BERT-Embedding层在 BERT 预 训 练 模 型 的 输 入 方 面,使 用Embedding 的方式将其转化为向量表示,包括 Token Embedding、
21、Segment Embedding和 Position Embedding。如图 2 所示:当文本输入时,BERT 预训练模型首先会 对 文 本 进 行 标 记,并 且 在 句 子 中 加 入 特 殊 的Token;之后在 Token 嵌入层将句子转换为 768 维的向量表示;然后在 Segment 嵌入层将前一个句子中的 各 个 Token 赋 值 为 0,将 后 一 个 句 子 中 的 各 个Token 赋 值 为 1,若 输 入 的 仅 为 一 个 句 子,则 其Segment 嵌入均为 0;最终,在位置嵌入层得到位置信息。将以上步骤所得到的信息进行融合,即可得到文本输入的向量表示,本文
22、借助这种方式对输入的文本进行词向量转化。2.1.2BERT-Transformer层BERT 预训练模型的基础架构是一个多层双向Transformer23编码器。BERT 预训练模型主要由双向的 Transformer构成,Transformer是预训练模型的核心网络,如图 3所示。Transformer将输入序列中的每个词都转换为对应词向量并加上位置向量,之后通过自注意力机制学 习 词 与 词 之 间 的 关 系,再 通 过 前 馈 神 经 网 络(Feedforward Neural Network,FNN)进 行 非 线 性 转化,最终输出综合描述其上下文特征的词向量。每图 1长尾不良信
23、息分类方法框架Fig.1Framework of classification method of long-tailed harmful information图 3Transformer示意图Fig.3Schematic diagram of Transformer图 2Embedding示意图Fig.2Schematic diagram of Embedding152023年 8月 15日Computer Engineering 计算机工程一层 Transformer主要由多头自注意力机制和前馈神经网络组成,同时通过残差连接引入之前的向量。本文将头部类的数据通过 Embedding 再通
24、过12层 Transformer得到权重 MHead。2.2基于 Prototyper的头部类和尾部类原型计算本文使用 Prototyper 网络的思想,Prototyper 是一 种 专 门 为 多 类 小 样 本 分 类 而 设 计 的 网 络。Prototyper 将每个类别中的样本数据映射到一个空间中,提取它们的“均值”来表示该类的原型。使用欧几里得距离作为距离度量,通过训练使得本类别数据到本类别原型表示的距离最近,到其他类别原型表示的距离较远。最终,Prototyper网络根据距离最近的原型来判定所预测样本的类别。对于头部类 j(尾部类采取同样的方法),本文对其对应的 t 个文档进行
25、采样,得到它们的表示r1j,rj,2,rj,t;然后,在 Prototyper 网络中,通过对这些向量取平均值来得到原型,如式(1)所示,为每个类构建一个原型,且所有原型都是独立的。pjHead=avgrj1rj2rjt(1)2.3知识迁移通过 BERT 得到头部数据 MHead、通过 Prototyper网络得到 PHead之后,需要训练一个学习器来获得PHead到 MHead的映射关系。对于每一个头部标签 j,其对 应 的 权 重 为 mjHeadMHead,对 应 的 原 型 为 pjHeadPHead。因此,通过定义如下的损失函数来训练一个从 PHead到 MHead的学习器:L=j=
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 长尾 分类 算法 网络 不良信息
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。