欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    基于长尾分类算法的网络不良信息分类.pdf

    • 资源ID:649377       资源大小:1.50MB        全文页数:8页
    • 资源格式: PDF        下载积分:10金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    VIP下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    基于长尾分类算法的网络不良信息分类.pdf

    1、第 49卷 第 8期2023年 8月Computer Engineering 计算机工程基于长尾分类算法的网络不良信息分类刘金硕,王代辰,邓娟,王丽娜(武汉大学 空天信息安全与可信计算教育部重点实验室,武汉 430072)摘要:目前已有的网络不良信息分类方法大多忽略了数据不平衡、数据存在长尾分布的情况,使得模型在分类时偏向于数据量多的样本,无法很好地识别数据量少的样本,从而导致整体识别精度下降。针对该问题,提出一种用于长尾不良信息数据集的分类方法 LTIC。将小样本学习与知识转移策略相结合,使用 BERT模型学习头部类的权重,通过专门为小样本学习而提出的 Prototyper网络得到头部类的原

    2、型,将头尾数据分开处理,从而避免一起训练而导致的数据不平衡问题。学习从原型到权重的映射关系,利用学到的知识将尾部类的原型转换为权重,然后连接头部类权重和尾部类权重得到最终的分类结果。实验结果表明:LTIC 方法在 Twitter和 THUCNews数据集上分别达到 82.7%和 83.5%的分类准确率,且 F1值相较非长尾模型有显著提升,有效提高了模型分类精度;与目前较新的长尾数据集分类方法 BNN、OLTR 等相比,该方法具有更好的分类效果,平均准确率提升了 3%;当新的不良信息类别出现时,LTIC方法只需少量计算就可对其进行预测,准确率达到 70%,具有良好的扩展性。关键词:不良信息分类;

    3、数据不平衡;长尾数据集;小样本学习;知识转移开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(8):13-19,28.英文引用格式:LIU J S,WANG D C,DENG J,et al.Classification of harmful information on Internet based on long-tailed classification algorithm J.Computer Engineering,2023,49(8):13-19,28.Classification of Harmful Information on

    4、 Internet Based on Long-Tailed Classification AlgorithmLIU Jinshuo,WANG Daichen,DENG Juan,WANG Lina(Key Laboratory of Aerospace Information Security and Trusted Computing,Ministry of Education,Wuhan University,Wuhan 430072,China)【Abstract】Currently,most existing methods for classifying harmful infor

    5、mation on Internet overlook imbalanced data and long-tailed distributions,biasing the model towards more numerous data samples during classification.This makes them unable to effectively identify small data samples,which results in a decrease in overall recognition accuracy.To address this issue,a c

    6、lassification method LTIC for long-tailed harmful information datasets is proposed.By integrating few-shot learning with knowledge transfer strategies,the BERT model is used to learn the weights of the head class.The prototype of the head class is obtained through a Prototyper network specifically d

    7、esigned for few-shot learning.This design allows for the processing of head and tail data separately,thereby avoiding the data imbalance caused by mutual training.Researchers then use the mapping relationship learned from the prototype to convert the prototype of the tail class into weights.Subseque

    8、ntly,the head and tail class weights are combined to obtain the final classification result.In experiments,the LTIC method achieves classification accuracies of 82.7%and 83.5%on the Twitter and THUCNews datasets,respectively.This method also significantly improves the F1 value compared to the non-lo

    9、ng tailed model,thus effectively improving classification accuracy.When compared with the latest classification methods such as BNN and OLTR,this method exhibits superior classification performance on long-tailed datasets,with an average accuracy improvement of 3%.When new categories of harmful info

    10、rmation emerge,the LTIC method demonstrates the capability to predict them with minimal computation,achieving an accuracy of 70%and showcasing impressive scalability.【Key words】classification of harmful information;data imbalance;long-tailed dataset;few-shot learning;knowledge transferDOI:10.19678/j

    11、.issn.1000-3428.0067003基金项目:国家自然科学基金(U193607);国家重点研发计划(2020YFA0607902)。作者简介:刘金硕(1973),女,教授、博士、博士生导师,主研方向为网络舆情监控、数据挖掘、高性能计算;王代辰,硕士研究生;邓 娟,副教授、博士;王丽娜,教授、博士、博士生导师。收稿日期:2023-02-22 修回日期:2023-03-29 Email:热点与综述文章编号:1000-3428(2023)08-0013-07 文献标志码:A 中图分类号:TP3912023年 8月 15日Computer Engineering 计算机工程0概述 随着 5G

    12、 时代的来临,互联网中充斥着海量信息,其中,不良信息不仅数量庞大而且滋生非常快速。面对如此纷繁复杂的不良信息,如何识别其中的不同类别、帮助相关部门更好地了解不良信息的分布趋势并进行分类治理,是学术界和工业界普遍关注的问题。目前,针对网络不良信息分类的研究较少,已有工作主要集中于从数据集中区分正常信息和不良信息。其中,一部分工作1通过关键字与统计分析的方式进行不良信息检测,另一部分工作2关注不良信息中词集的构建与词之间的依赖关系,在文本特征提取时使用基于依存关系和统计特征相结合的算法进行不良信息检测。仅有少部分研究人员3关注到不良信息中不同类别的分类问题,利用不同类别标签之间的相关性来实现信息分

    13、类。然而,这些工作都没有考虑到现实中网络不良信息集呈现“长尾”分布的情况,而这种实际情况对不良信息的分类效果具有重要意义。对于一个真实的数据集,将不同类别数据的出现频率按照降序进行排列,数据分布呈现为一个长长的“尾巴”,这便是长尾分布。在不良信息中,数据量较多的类别被称为头部类,某些新产生的、数据量较少的不良信息类别被称为尾部类。如果不经过任何处理,直接将不平衡的样本数据输入模型进行学习,模型会在样本数据量大的头部类别上泛化效果较好,而在样本数据量小的尾部类别上泛化效果较差,从而导致模型 Precision值较低。本文提出一种针对长尾不良信息数据集的分类方法 LTIC。该方法由 3 个部分组成

    14、:第一部分利用头部类数量较多、学习效果较好的特点,通过 BERT模型4构建一个针对头部类的分类器;第二部分利用专门为小样本分类所设计的 Prototyper 网络5分别计算头部类和尾部类的原型;第三部分学习一个从头部类原型到分类器模型权重的映射关系,并将该关系迁移到尾部类中,提高其泛化效果,同时得到最终的分类模型。LTIC 方法只需要训练头部类分类器,而尾部类的权重可以通过在头部类学到的知识来直接计算,这意味着即使出现样本数据量少的新不良信息类别,该方法只需通过少量的计算就可以直接对新类别进行预测,不需要重新训练整个模型,从而提高其扩展性。1相关工作 1.1长尾文本分类目前,针对长尾文本分类主

    15、要有 3 种策略,分别为类别分布再平衡策略、小样本学习策略和知识转移策略。类别分布再平衡策略的主要思想是对长尾数据集进行平衡6-9,包括对尾部类别进行过采样、对头部类别进行欠采样,以及在损失函数中为尾部类别分配大权重、对少样本数据进行合成。文献 10 提出 一 个 统 一 的 双 边 分 支 网 络(Bilateral-Branch Network,BBN),将“传统学习分支”和“再平衡分支”相结合,前一个分支使用统一采样器来学习通用模式以进行识别,后一个分支配备反向采样器来建模尾部数据。小样本学习策略则利用小样本学习与长尾学习都包含一些具有很少样本类别的特性,将小样本学习中的思想运用到长尾学

    16、习中。小样本学习的思想旨在借助样本量丰富的类为样本量贫乏的类构建分类器11-12。文献 13 基于头部分类器合成实例,将其作为训练样本加入尾部类学习模型中。文献 14 提出一种基于注意力机制的小样本分类权 重 生 成 器,其 可 以 有 效 地 提 高 尾 部 类 的 泛 化效果。知识转移策略是处理长尾数据集的另一种方法,该策略的思想是将从头部类中学到的知识转移到尾部类15。文献 16 提出一个元网络,该网络位于头部类学习模型的参数空间中,使元知识以渐进的方式转移到尾部类。文献 17 提出一种动态元嵌入方法,用于学习尾部类的直接特征和头部类的记忆特征,从而提高尾部类的识别鲁棒性。1.2不良信息

    17、检测目前关于不良信息检测的研究大多只针对某一个特定的类别。文献 18 关注到社交媒体上涉及扰乱市场秩序、通过黑市大肆传播不良信息的问题,将传统的特征提取与深度学习的特征表示相结合,利用交叉单元得到其最佳组合。文献 19 关注到社交 媒 体 上 的 性 别 歧 视 问 题,制 作 出 一 个 包 含 约115 000条推文信息的数据集,同时给出基准实验结果,为后续性别歧视不良信息检测技术的发展提供了很大便利。文献 20 关注到社交媒体上虐待女性的言论信息问题,为了弥补该类数据搜集与清洗分类难度较高的不足,在包含虐待女性关键词的上亿条推文中进行词向量预训练,然后使用定制与正则化后的卷积神经网络(C

    18、onvolutional Neural Network,CNN)模型进行训练与预测,该方法取得了很好的效果,为后续小型数据集研究提供了新思路。此外,文献 21 关注到社交媒体上的假新闻问题,使用机器学习算法朴素贝叶斯进行假新闻识别。实验结果表明,不断添加新闻和定期增强数据集,能使该算法获得优秀的迁移学习能力并适用于不同的社交媒体。文献 22 关注到社交媒体中的谣言信息,设计一组新的元语言和语用特征,同时,将谣言检测与谣言分类进行分离,设计自动化的2 个步骤来执行分类任务,该方法取得了较好的14第 49卷 第 8期刘金硕,王代辰,邓娟,等:基于长尾分类算法的网络不良信息分类效果。上述研究本质上都

    19、只关注二分类问题,而对于多种不良信息混合在一起的多分类问题,已有研究均较少关注。2长尾不良信息分类方法 本文所提长尾不良信息分类方法 LTIC 的总体流程如图 1所示。本文方法分为训练和预测 2 个部分,对于输入的文本,都使用 Embedding 的方式将其转化为向量表示。第一步进行训练:通过 BERT 模型的多层Transformer得到头部类的分类模型权重 MHead,通过Prototyper网络得到头部类的原型 PHead;通过迁移学习 器 获 得 分 类 模 型 权 重 和 原 型 之 间 的 映 射 关 系WTransfer;将尾部类的原型 PTail通过 WTransfer得到尾部

    20、类的权重 MTail。第二步进行预测:将训练部分得到的MHead和 MTail进行连接,作为最终分类模型的权重;通过 Softmax层得到最终的分类预测结果y。2.1基于BERT的Embedding和头部类分类权重计算BERT 预训练模型可以简单概括为“预训练+微调”模式:首先对不同任务的海量未标记数据进行预训练;然后针对不同的下游任务进行微调,在使用时只需额外加一个输出层并再次微调模型,即可快速取得较好的结果。2.1.1BERT-Embedding层在 BERT 预 训 练 模 型 的 输 入 方 面,使 用Embedding 的方式将其转化为向量表示,包括 Token Embedding、

    21、Segment Embedding和 Position Embedding。如图 2 所示:当文本输入时,BERT 预训练模型首先会 对 文 本 进 行 标 记,并 且 在 句 子 中 加 入 特 殊 的Token;之后在 Token 嵌入层将句子转换为 768 维的向量表示;然后在 Segment 嵌入层将前一个句子中的 各 个 Token 赋 值 为 0,将 后 一 个 句 子 中 的 各 个Token 赋 值 为 1,若 输 入 的 仅 为 一 个 句 子,则 其Segment 嵌入均为 0;最终,在位置嵌入层得到位置信息。将以上步骤所得到的信息进行融合,即可得到文本输入的向量表示,本文

    22、借助这种方式对输入的文本进行词向量转化。2.1.2BERT-Transformer层BERT 预训练模型的基础架构是一个多层双向Transformer23编码器。BERT 预训练模型主要由双向的 Transformer构成,Transformer是预训练模型的核心网络,如图 3所示。Transformer将输入序列中的每个词都转换为对应词向量并加上位置向量,之后通过自注意力机制学 习 词 与 词 之 间 的 关 系,再 通 过 前 馈 神 经 网 络(Feedforward Neural Network,FNN)进 行 非 线 性 转化,最终输出综合描述其上下文特征的词向量。每图 1长尾不良信

    23、息分类方法框架Fig.1Framework of classification method of long-tailed harmful information图 3Transformer示意图Fig.3Schematic diagram of Transformer图 2Embedding示意图Fig.2Schematic diagram of Embedding152023年 8月 15日Computer Engineering 计算机工程一层 Transformer主要由多头自注意力机制和前馈神经网络组成,同时通过残差连接引入之前的向量。本文将头部类的数据通过 Embedding 再通

    24、过12层 Transformer得到权重 MHead。2.2基于 Prototyper的头部类和尾部类原型计算本文使用 Prototyper 网络的思想,Prototyper 是一 种 专 门 为 多 类 小 样 本 分 类 而 设 计 的 网 络。Prototyper 将每个类别中的样本数据映射到一个空间中,提取它们的“均值”来表示该类的原型。使用欧几里得距离作为距离度量,通过训练使得本类别数据到本类别原型表示的距离最近,到其他类别原型表示的距离较远。最终,Prototyper网络根据距离最近的原型来判定所预测样本的类别。对于头部类 j(尾部类采取同样的方法),本文对其对应的 t 个文档进行

    25、采样,得到它们的表示r1j,rj,2,rj,t;然后,在 Prototyper 网络中,通过对这些向量取平均值来得到原型,如式(1)所示,为每个类构建一个原型,且所有原型都是独立的。pjHead=avgrj1rj2rjt(1)2.3知识迁移通过 BERT 得到头部数据 MHead、通过 Prototyper网络得到 PHead之后,需要训练一个学习器来获得PHead到 MHead的映射关系。对于每一个头部标签 j,其对 应 的 权 重 为 mjHeadMHead,对 应 的 原 型 为 pjHeadPHead。因此,通过定义如下的损失函数来训练一个从 PHead到 MHead的学习器:L=j=

    26、1lHeadmjHead-WTransferpjHead2(2)其中:lHead为头部类的数量;WTransfer为学习到的权重,代表了 PHead到 MHead的映射关系。通用迁移学习器能够将头部类原型映射为分类器的权重,可以利用它将尾部类的原型也转换为分类器对应的权重MTail。同样对尾部类i进行原型的计算,选取i对应的文档 ri1,ri2,riz,计算其原型piTail:piTail=avgri1ri2riz(3)然后使用迁移学习器计算其对应的分类器权重 miTail:miTail=WTransfer piTail(4)考虑到利用尾部类与头部类之间的相关性可以有效提高尾部类的分类性能,本

    27、文进行头尾相关性计算,目的是通过探索尾部特征与头部特征之间的相关性来增强尾部类的分类效果。对于每个尾部类,计算它与每个头部类之间的注意力分数:e=fatt(PTailPHead)(5)a=Softmax(e)(6)Patt=aPHead(7)Pnew=avg(PattPTail)(8)然后使用相同的迁移模型得到最终尾部类的分类器权重:MTail=WTransfer Pnew(9)将得到的尾部类权重与头部类权重相连接,得到最终的长尾不良信息数据集的分类器权重:M=catMHead:MTail(10)当一个文档进入分类器后,利用 Embedding 将其转换为词向量 r,然后通过 Softmax

    28、层得到最终的预测结果y:y=Softmax(rM)(11)3实验验证 3.1数据集目前很少有针对不良信息分类的数据集,因此,爬取 Twitter上的真实社交媒体信息,将这些信息作为长尾不良信息数据集。同时,为了验证本文方法的泛化性能,还使用 THUCNews数据集对模型性能进行验证。3.1.1Twitter长尾不良信息数据集根据关键词定位爬取从 2021 年 12 月到 2022 年3 月的相关 Twitter,包含色情、谣言、诈骗、赌博等12个类别的推文,对其进行清洗,最终各个类别的信息分布如图 4 所示,可以看出该数据集呈现明显的长尾分布。3.1.2THUCNews数据集THUCNews2

    29、4是清华大学实验室所制作的微博中文数据集,包含新浪微博中自 2005年至 2011年的历史数据,划分为财经、教育、科技、社会、时政、游戏、娱乐等 14 个类别。但是,该数据集的分布较为均衡,不符合长尾分布。为了使 2 个数据集分布相似,对 THUCNews数据集中的某些类别样本进行删除,经过处理后的数据集分布如图 5所示(该分布是为了使数据集符合长尾特性,并不代表各类别在现实生活中的分布情况)。图 5THUCNews数据集分布Fig.5Distribution of THUCNews dataset图 4Twitter长尾不良信息数据集分布Fig.4Distribution of Twitte

    30、r long-tailed harmful information dataset16第 49卷 第 8期刘金硕,王代辰,邓娟,等:基于长尾分类算法的网络不良信息分类3.2对比模型为了验证本文所提长尾不良信息数据集分类方法的性能,在实验中选择 BERT、Prototyper网络和另外 5 种较新的长尾文本分类模型作为对比,其中,BERT、Prototyper网络作为本文所提方法的子结构,其具体构造不再赘述。另外 5种较新的长尾文本数据集分类模型具体如下:1)BNN10,该模型使用一个统一的双边分支网络来同时处理表示学习和分类器学习,其中,每个分支分别执行各自的任务。该模型还配备了一种新的累积学

    31、习策略,先学习通用模式后逐渐关注尾部数据。2)OLTR17,该模型将样本映射到一个特征空间,通过聚集源自头部类别和尾部类别的知识获得视觉记忆;然后将存储在内存中的视觉概念当作关联的记忆特征重新注入,以增强原来的直接特征;随后学习一个概念选择器来控制所要注入的记忆特征的数量和类型。头部类别知识已经获得了丰富的直接观察,因此,它们只被注入了少量的记忆特征;相反,尾部类别知识获得的观察很少,记忆特征中的关联视觉概念非常有用,从而可以提高尾部类的分类效果。3)MW-Net25,该模型使用元学习的方法对损失进行加权,让神经网络学习如何对不同类别的损失进行重加权。MW-Net模型使用多层感知机来充当权重函

    32、数,即让多层感知机自动学习从损失到权重的映射关系。4)Hybrid26,该模型提出一种混合网络结构,由用于学习样本表示的监督对比损失和用于学习分类器的交叉熵损失组成,逐渐从特征学习过渡到分类器 学 习,以 学 习 更 充 分 的 特 征,使 得 分 类 器 效 果更好。5)MetaSAug27,该模型使用一种元语义增强的方法来对尾部数据进行增强。首先,使用当前类别的相关方差进行数据增强;然后,通过优化验证集上对于类别协方差的损失,获得更新的类的相关方差,这其中包括丰富的语义方向,利用该语义方向来更好地实现尾部数据增强。3.3参数设置本 文 使 用 BERT-base-Chinese 模 型 对

    33、 中 文THUCNews 数据集进行训练,使用 BERT-base 模型对英文 Twitter 数据集进行训练。模型的 Batch_size设置为 32,epoch设置为 3,学习率设置为 210-5。对于每个数据集,本文将类别中样本量高于最多样本量 30%的类设置为头部类,低于最多样本量 30%的类设置为尾部类。4实验结果分析 本 文 首 先 针 对 模 型 的 分 类 性 能,在 爬 取 的Twitter 不良信息数据集以及 THUCNews 数据集上对模型进行实验,然后针对模型的可扩展性,单独爬取若干个新的类别数据进行实验。4.1模型先进性和有效性实验表 1 汇总了不同模型在 2 个数据

    34、集上的性能表现,最优结果加粗标注。从表 1可以看出,本文 LTIC模型在各项性能指标上都优于对比模型。在爬取的 Twitter数据集上,因为 Prototyper网络是专门针对小样本分类而设计的,所以在长尾数据集中数量较多的头部类上其学习效果较差,导致总体的 Accuracy 值最低。BERT 模型因为没有考虑数据集的长尾问题,导致模型在训练过程中决策偏向于头部类,使得 Precision 值较低。目前较新的 5 种针对长尾数据集的分类模型和本文所提 LTIC 模型,表 现 均 优 于 BERT 和 Prototyper 网 络 模 型,且 在Precision 值和 F1 值上有明显提升,提

    35、高了尾部类的泛化效果,验证了本文所提模型的有效性。OLTR和BNN 没有考虑到头部类和尾部类之间的相关性,而MW-Net本质上依旧采用了重加权的方法,导致在一定程度上损害了特征学习10。Hybrid 是对 BNN 在特征学习方面关于对比损失函数的优化,虽然较BNN 而言模型性能有所提升,但是仍忽视了头部类和尾部类之间的相关性。MetaSAug 使用数据合成的方法,但是因为没有考虑到借助头部类特征来对尾部类进行增强,导致其 Accuracy值和 F1值低于本文 LTIC模型。综上所述,本文 LTIC模型在 Accuracy值和 F1值上表现最好,表明其具有一定的先进性。由于 THUCNews 数

    36、据集经过了改进,数据样本的质量高于 Twitter数据集,因此模型整体表现更好,且不同模型之间的效果差异与在 Twitter数据集中表表 1不同模型在 2个数据集上的性能对比 Table 1Performance comparison of different models on two datasets数据集TwitterTHUCNews模型BERTPrototyperBNNOLTRMW-NetHybridMetaSAugLTICBERTPrototyperBNNOLTRMW-NetHybridMetaSAugLTICAccuracy0.731 40.706 10.768 90.772 10

    37、.770 30.788 20.790 50.826 90.761 20.713 30.792 10.802 10.798 10.816 00.809 30.835 4Precision0.705 70.753 30.803 30.802 30.790 20.810 90.805 10.815 20.723 50.763 20.802 10.812 50.810 80.817 90.807 70.825 1Recall0.723 10.712 20.781 10.774 20.780 90.790 30.795 60.802 10.718 50.713 60.806 20.808 30.788

    38、50.805 90.817 90.833 6F10.714 30.732 20.792 00.780 00.785 50.800 50.800 30.808 60.720 90.737 60.804 10.810 30.799 40.811 80.812 70.829 3172023年 8月 15日Computer Engineering 计算机工程现一致,同时也证明了本文所提模型不仅在长尾不良信息数据集上表现良好,在其他长尾数据集上也具有较好的效果。4.2扩展性实验本文方法对尾部类的权重学习是通过 Prototyper网络计算出的原型与迁移学习的参数 WTransfer相乘而得到的,因此,当

    39、样本量较少的新类别出现时,并不需要经过耗时的模型再训练。本文对模型分别扩充 1种、3种、5种少样本的新类别,计算模型在这些类别上的分类准确率,以验证本文方法的扩展性,实验结果如表 2所示。从表 2 可以看出,当新的类别出现时,模型只通过少量计算就能对新的类别进行分类,且准确率能够达到 70%以上,表明模型具有较好的扩展性。4.3模型复杂度分析对于深度学习模型来说,在模型训练过程中最耗时的部分在于有关神经网络的计算,因此,为了便于分析对比,本文将各个长尾模型中涉及的神经网络时间复杂度来代表整个模型的时间复杂度。将单个神经网络训练的时间复杂度设为 O(N),单个预训练模型微调的时间复杂度设为 O(

    40、P),因为预训练模型相较神经网络而言具有更大规模的参数,所以其训练时间高于神经网络,即 O(P)O(N)。本文所提 LTIC模型在训练阶段涉及对 BERT预训练模型的微调,以及 1 个从原型到权重的神经网络学习器训练,则其时间复杂度为 O(P)+O(N)。OLTR 和 MetaSAug在模型训练过程中只用到 1个神经网络,其时间复杂度均为 O(N)。BNN、Hybrid、MW-Net 都训练了 2 个神经网络,因此,时间复杂度为 O(N)2。图 6 所示为一次训练中各个模型所需的时间,考虑到每个模型中除神经网络外还有一些结构也需要消耗时间,因此可以看出各个模型的训练时间整体分布符合上述分析。4

    41、.4消融实验为了对影响模型性能的因素进行分析,设计消融实验,分析基于不同注意力机制的语言模型对模型性能的影响,以及头部标签的丰富程度对模型性能的影响。4.4.1不同注意力机制对模型的影响使用基于多头自注意力机制的 BERT 模型作为头部类的分类器,不同的分类器会直接影响头部类的分类效果,从而影响模型的最终性能表现。将使用基于不同注意力机制的模型来替换 BERT 模型在LTIC中的作用,并在 Twitter和 THUCNews数据集上进行实验,使用不同注意力模型的 LTIC 的 Accuracy值和 F1值如表 3所示。从表 3可以看出,LSTM 网络作为没有使用注意力机制的模型,其 Accur

    42、acy 值和 F1 值表现最差,说明了注意力机制在语言任务中的重要性。使用的多头自注意力能够充分捕捉到内部信息的相关性,特征抽取能力更好,因此,BERT 模型相较使用层级注意力的 HAN模型28而言具有更好的性能表现。4.4.2头部标签丰富程度对模型的影响在 LTIC 模型中,尾部类的权重是由通过头部类学习而得的 WTransfer计算得出,因此,头部类样本的丰富程度对尾部类的分类效果有很大影响。对图 5的THUCNews 数据集中的头部类数据进行扩充,将科技、教育、社会、体育等 4 个类别的样本量都扩充到6 000 个,然后进行实验,统计模型在尾部类上的准确率,并与模型在原数据集上尾部类的准

    43、确率进行对比,实验结果如表 4所示。从表 4可以看出,通过丰富头部数据,LTIC 可以学习到更加充分的知识,从而对尾部标签进行更好的分类,提高了模型的分类性能。5结束语 本文提出一种针对长尾不良信息数据集的分类图 6模型训练时间对比Fig.6Comparison of models training time表 2新增类别的分类准确率 Table 2Classification accuracy of new categories新增种类数量/种135Accuracy0.705 10.713 30.710 1表 4尾部类的分类准确率对比 Table 4Comparison of classif

    44、ication accuracy of tail classes数据集原数据集扩充头部标签数据集Accuracy0.712 90.767 1表 3不同注意力机制对模型的影响 Table 3The impact of different attention mechanisms on the models模型LSTMHANBERTTwitterAccuracy0.779 90.790 80.826 9F10.789 60.795 70.808 6THUCNewsAccuracy0.793 70.812 50.835 4F10.798 30.806 60.829 318第 49卷 第 8期刘金硕,

    45、王代辰,邓娟,等:基于长尾分类算法的网络不良信息分类方法 LTIC,该方法将从头部类学到的分类器权重与Prototyper网络计算的每个类别原型进行关联映射,将学习到的映射关系迁移到尾部类,然后利用尾部类的原型得到尾部类的分类器权重,最终实现长尾不良信息的分类。在 Twitter 和 THUCNews 数据集上进行实验验证,结果表明,LTIC 方法在准确率和F1 值上优于 BNN、OLTR 等长尾分类方法。LTIC 方法是针对长尾不良信息数据集而提出的,但对普通的长尾文本信息数据集也具有适配性。下一步考虑将不良信息自身的语义特征融入模型,以提高模型的分类效果。参考文献 1 陈燕方,李志宇,梁循

    46、,等.在线社会网络谣言检测综述 J.计算机学报,2018,41(7):1648-1677.CHEN Y F,LI Z Y,LIANG X,et al.Review on rumor detection of online social networks J.Chinese Journal of Computers,2018,41(7):1648-1677.(in Chinese)2 张仰森,彭媛媛,段宇翔,等.基于评论异常度的新浪微博谣言识别方法 J.自动化学报,2020,46(8):1689-1702.ZHANG Y S,PENG Y Y,DUAN Y X,et al.The method

    47、of Sina Weibo rumor detecting based on comment abnormality J.Acta Automatica Sinica,2020,46(8):1689-1702.(in Chinese)3 XIAO L,ZHANG X L,JING L P,et al.Does head label help for long-tailed multi-label text classification J.Proceedings of the AAAI Conference on Artificial Intelligence,2021,35(16):1410

    48、3-14111.4 DEVLIN J,CHANG M,LEE K,et al.BERT:pre-training of deep bidirectional Transformers for language understandingEB/OL.2023-01-05.https:/arxiv.org/abs/1810.04805.5 SNELL J,SWERSKY K,ZEMEL R.Prototypical networks for few-shot learningC/Proceedings of the 31st International Conference on Neural I

    49、nformation Processing Systems.New York,USA:ACM Press,2017:4080-4090.6 POUYANFAR S,TAO Y D,MOHAN A,et al.Dynamic sampling in convolutional neural networks for imbalanced data classification C/Proceedings of IEEE Conference on Multimedia Information Processing and Retrieval.Washington D.C.,USA:IEEE Pr

    50、ess,2018:112-117.7 HE H B,GARCIA E A.Learning from imbalanced data J.IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284.8 HUANG C,LI Y N,LOY C C,et al.Deep imbalanced learning for face recognition and attribute prediction J.IEEE Transactions on Pattern Analysis and Machine Inte


    注意事项

    本文(基于长尾分类算法的网络不良信息分类.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 服务填表 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)    



    关注我们 :gzh.png  weibo.png  LOFTER.png