基于极小极大博弈的水军识别算法研究.pdf
《基于极小极大博弈的水军识别算法研究.pdf》由会员分享,可在线阅读,更多相关《基于极小极大博弈的水军识别算法研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、Jun.2023JOURNALOFCHENGDUUNIVERSITY OF INFORMATIONTECHNOLOGY2023年6 月Vol.38No.3息报第38 卷第3期大学学程成都信文章编号:2 0 96-16 18(2 0 2 3)0 3-0 30 6-0 8基于极小极大博奔的水军识别算法研究穆云翔,盛志伟,卢嘉中(成都信息工程大学网络空间安全学院,四川成都6 10 2 2 5)摘要:随着互联网的发展,用户越来越多地在线上完成购物、订餐,并倾向于先参考线上评论。评论对用户决策的重要导向作用催生了网络水军。网络水军会为了自身利益或其他不良动机,发布与实际体验不相符的评价,且会随时调整自已
2、的策略来逃避平台的识别。现提出一个基于行为特征的水军识别算法(FBS),并将FBS加人到极小极大博奔,在这个博奔中,水军与识别器相互竞争,将博奔转换为两个相互依赖的马尔可夫决策过程,不断优化各自的策略,最终得到一个当前场景下最优的识别器。与当前先进的水军识别算法对比,性能有了明显提升,在公开数据集YelpChi上实际效应可以达到3.6 9。关键词:网络水军;水军识别;极小极大博奔;马尔可夫决策过程中图分类号:TP393文献标志码:Adoi:10.16836/ki.jcuit.2023.03.0090引言网络水军是指在网络中针对特定内容发布特定信息的、被雇佣的网络写手,简称水军,又名网络枪手。他
3、们通常活跃在电子商务网站平台中,通过发布虚假的商品评价来影响正常消费者的决策。网络的快速发展为水军提供了滋生条件。一方面,网络环境提供的便利:网络开放性、即时性、自由性、交互性等特点为网络水军的发展壮大提供了环境支撑。网络的开放性为网络水军提供了自由出入的媒体门户,不需要提供任何真实信息即可倘祥于各大论坛、贴吧,在网络上任意发表言论;网络的即时性则有助于网络水军引导网民对舆情的推动,让受众在缺乏理性分析的前提下引爆预设议题。网络的自由性塑造了无中心的狂欢广场,任何网民都可自由发布信息,也为网络水军的“灌水”行为提供了便利。网络的交互性为政府、媒体、网民之间的交流互动提供了便利,从而形成“围观”
4、的力量。另一方面,网络受众的媒介素养偏低。中国网民群体庞大,但媒介素养参差不齐,整体不容乐观,在一定程度上纵容了网络水军的发展壮大。一些年轻网民由于心态不成熟,往往不能客观、全面、辩证地看待社会问题,容易受网络负面情绪影响。面对网络水军故意炒作的热点事件,极易非理性地跟风发帖,成为网络水军的“帮凶”。一些在经济上比较失意的网民则容易产生“仇富”心态,当网络上曝出诸如“房妹”等新闻热点时,他们会不自觉地与网络水军收稿日期:2 0 2 2-0 7-16基金项目:四川省科技计划资助项目(2 0 2 1YFC0332)站在同一战壕;一些网民对娱乐化的追求不断削弱主流媒体的权威性与影响力,为更能把握网民
5、心理的网络水军提供了抢占先机的机会。电子商务平台提供在线评论系统作为商家与消费者的桥梁。消费者通过浏览评论细节来决定是否购买产品,产品评论成为影响消费者购买欲望的重要因素。由于消费者倾向于购买好评产品,而放弃购买负面评论产品,因此在竞争激烈的电商市场中,许多商家通过雇佣“水军”,在自己的店铺下用图片伪造好评,操纵评论。并在竞争对手的门店下进行恶意评论,误导消费者。水军虚假评论的存在干扰了产品描述的真实性,对电商平台和消费者产生了显著的负面影响。因此,识别网络水军评论并保护消费者权益非常重要。总而言之,通过大量同质行为或内容形成回声室效应,从而影响其他用户的观点和决策,是网络水军的最终目的。在电
6、商平台中,网络水军采取发布不实信息来混淆视听。对于消费者而言,水军的存在影响购买意愿;对于商家而言,如何请水军刷好评变成了影响销售的最大因素;对于市场而言,水军扰乱了原有的市场秩序。这对于行业的发展具有很大的影响力,因此网络水军的监管成为一个呕待解决的难题。本文主要关注Yelp系统中的水军。关于这类水军识别器主要有以下缺点:(1)大多数识别器都假设水军有相同的特征,并且可以根据这个特征来识别水军。但是在现实世界里有很多种水军,他们有不同的目标、对象和策略。如一个水军可能想要推广某一件商品,而另一个水军想要贬低竞争对手。(2)专业水307穆云翔识别算法研究第3 期军会研究最新的识别技术,并从中发
7、掘新的策略来逃过识别器 1-2 。(3)现有的识别器大都基于精确率和召回率作为识别目标。而根据Luca3利用市场研究的现有成果,从商品评分变化的角度定义了网络水军的实际效应。实际效应可以用来表示水军和平台在对抗过程中的实际目标,假设水军的目标是推广目标商品,那么平台的目标就是尽可能地减少推广的程度。文献 3 也通过实验证明,即使在召回率很高的情况下,水军依然可以达到很高的推广效果。本文提出一种利用用户行为特征的水军识别算法(FBS),将FBS应用到一个水军对抗模型,最终训练出的识别器在公开数据集YelpChi上取得了不错的性能表现。并利用网络水军账号的一些特点,提出几种新的用户特征和一个基于用
8、户行为特征分析的水军识别算法(FBS)。将FBS应用到一个水军对抗模型中,最终训练出的识别算法性能相较于以前有明显提升。1相关工作1.1AP算法AP(a f f i n i t y p r o p a g a t i o n)算法 4 无需事先指定聚类数目,且没有明确的质心(聚类中心点),样本中的所有数据点都可能成为AP算法中的质心。根据现实环境中网络水军种类繁多,且同类型水军之间较为类似的特点,再基于AP算法的上述特征,将其应用到水军对抗模型。1.2分类器的选择目前最常见的分类器有人工神经网络、K-近邻(K-NN)、朴素贝叶斯和决策树。尽管这些分类算法在几十年的发展中衍生出很多的改进算法,但
9、是仍然没有一种完美的分类算法能适应所有的环境问题。根据Kotsiantis5在主流分类算法性能比较,人工神经网络和支持向量机对大规模数据训练比较困难,且对缺失数据敏感;K-NN时间复杂度和空间复杂度高,可解释性差;朴素贝叶斯通常准确率较低,且只能用于处理二分类问题;相对于其他几种分类算法,决策树计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征。此外,决策树能够很好地处理同时具有离散和连续属性的分类问题。因此,使用决策树算法进行分类识别最为合适,详情如表1所示。表1机器学习常用分类算法比较分类算法优势劣势人工神经网络准确率高训练数据大、学习时间长与特征维度无关,其对数
10、据缺失敏感、计算复杂度支持向量机适用于特征多、样本与样本个数有关少的分类任务K-NN无需训练时间效率低、K的选择不固定朴素贝叶斯对数据缺失不敏感特征之间需要相互独立综合性能均衡、可解信息增益偏向于有多数值的决策树释性强特征1.3网络水军对抗模型2020年Dou等 6 利用强化学习建立的水军对抗模型,提出一种全新的水军识别性能的评测指标PE(p r a c t i c a l e f f e c t)。该模型利用多个水军识别算法和多种水军攻击策略进行博奔,将博奔过程转换为两条相互依赖的马尔可夫决策过程。利用双方博奔直至达到纳什均衡,此时的水军识别算法即可认为是当前环境下的最优算法。本文将提出FB
11、S并将其应用到对抗模型中,以此训练出的水军识别算法达到的效果相较于以前PE提升了8%。1.4研究现状现有识别网络水军的方法主要有3种:基于文本与情感分析法、基于行为特征分析法和基于图结构法。其中,基于文本与情感分析需要花费较长时间进行训练,且随着NLP等人工智能算法的发展,水军文本内容已经和普通用户的评论文本差别越来越小。因此,基于文本分析法的性能相较于其他两种普遍偏低。早期的水军由于发布的评论信息都很类似,因此研究方法大多基于语言学特征。其中,词袋特征是大部分研究者的首选语言特征。MMccord等 7 提取重复评论的bigram特征,在推特数据集训练回归模型,利用随机森林分类器识别只关注品牌
12、的评论和评论文本无关的两类垃圾评论,精确率高达95.7%。Li等 8 基于新扩展的黄金标准数据集识别网络水军,该数据集由来自3个不同领域(酒店、餐厅、医生)的数据组成,每个领域都包含3种类型的评论,即客户生成的真实评论、网络水军生成的欺骗性评论和员工(领域专家)生成的欺瞒性评论。该文试图捕捉欺骗性评论和真实评论之间语言特征的一般差异和水军检测的领域迁移性问题。实验表明该模型在餐厅数据集上分类准确率都能达到7 5%左右,而在医生数据集上准确率只有50%左右。实验表明该特征用于水军的虚假评论检测的领域迁移性差。大308息程都成第38 卷报信学学NoekhahS等 9 通过提取分析词频、信息丰富度、
13、内容定罪等特征,实现了基于欺骗性语言的评论文本在线欺骗识别系统。将这些特征集应用到之前使用的3个分类器(支持向量机、朴素贝叶斯和C4.5决策树),并使用5倍交叉验证。最终的实验结果表明,识别欺骗性评论的准确率达到8 0%,但是该识别方法时间复杂度很高,并不适用于一些较大的数据集。Wang等 10 首先提出虚假评价检测中的冷启动问题,在Yelp评价数据上提取一部分“新的评价”,即该用户只发布了一条评价。作者将之前研究中提到的文本和行为特征检测模型应用到这些新评价上,发现检测的效果并不好。为解决这种冷启动问题,一种直观的想法是从历史数据中去寻找和这个新评价发布者特征相似的评论者,然后把最相似的评价
14、者或者评价的标签作为该新评价的标签。总而言之,虽然新评价信息很少,但可以通过深度学习,在历史数据上学习到有效的关系嵌人(embedding),然后利用该模型得到新的数据嵌入,这样就可以结合历史嵌入和其标签来预测新数据的标签。Hooi B等 利用二部图提出了Fraudar算法。Fraudar定义了一个可以表达结点平均可疑度的全局度量G(),在逐步贪心移除可疑度最小结点的迭代过程中,使G()达到最大的留存结点组成可疑度最高的致密子图。在此算法中,由于无法模仿每个节点与其他节点的联系,因此准确率大幅度提升。但是Fraudar的一个缺点是它的串行运算特性导致在大规模二部图上运算缓慢,其每次迭代只动态地
15、删除一个结点并更新剩余结点状态。Wang等 12 除了利用用户本身的一些信息,还利用用户在社交网络中的好友关系对一些可疑用户进行识别。作者基于图结构的方法将水军和水军的虚假评论识别看作联合分类或排序问题,再采用马尔科夫随机场模型和LBp13(loopy belief propagation)计算每个节点的可疑程度。还对LBP算法进行优化,提高了算法的效率并且有收敛性的保证。实验表明,该模型在新浪微博数据集上的分类Accuracy都能达到7 5%。ShahN等 14 提出利用网络结构特征来识别在亚马逊上通过众包发送水军虚假评论的用户,提出TwoFace算法,更多关注召回率,该算法有的召回率能够达
16、到91%。该算法也有缺点,groundtruth的可信度不是很高。SRayana2提出SPEACLE框架来做网络水军识别,利用关联数据和元数据,结合了图、行为和文本进行水军识别,该方法中图由user-review-product图构成,3种类型的结点都有标签,user:水军与否,review:虚假与否,product:为被攻击目标与否。论文用图来做分类,用metadata来估计有关节点的类分布的先验知识。该算法在数据集YelpZip上的准确率可以达到79.4%。尽管研究者们都针对不同情况下的用户特征进行深入研究,但其往往集中在某几个方面。随着平台和水军的发展,上述方法大多只能识别出某一类水军,
17、适用性并不够广泛。2FBS-基于行为特征的水军识别算法2.1问题描述由于现实环境中电商平台的网络水军复杂且多样,因此水军检测主要面临的困难在于水军检测涉及的特征难以规范化表达。一方面,水军覆盖范围广,在不同平台其特征不尽相同,导致没有一个标准的水军特征集;另一方面,水军经过多年发展,不断通过模仿正常用户来伪装自己,导致识别模型准确率不高。因此特征的选择变得尤为重要,应选用水军无法模仿的一些特征加人特征集。2.2特征定义在Yelp系统中,刻画用户的特征有很多,如MNR(一天内写的最大评论数)、PR(积极评论比例)、NR(负面评论比例)等。结合Mukherjee等 1 的研究,选取了4个原始特征,
18、如表2 所示。表2原始特征描述特征名称特征含义用户一天内写的最大评论数量。用户的评论一般都较MNR为均匀地分布在账号的存活期中,而水军用户就更有可能在一段时间内爆发式地评论。负面评论比例。计算方法如下公式所示:PR=PRNumber(Review_Negative)Review_Numher正面评论比例。计算方法如下公式所示:NR=NRNumber(Review_Positive)Review_NumberRD与产品平均评级的绝对评级偏差。针对当前网络水军特征覆盖面不足导致识别率不高的问题,综合Yelp系统中水军用户与正常用户的差异性,结合水军用户的一些突出特征,本文提出AW、ISR、ERD、
19、ET G、SQ D 等5个新特征,以此来扩充现有特征集对网络水军特征的覆盖面。定义1AW是用户发表的第一条评论和最后一309穆云翔,等:基于极小极大博奔的水军识别算法研究第3 期条评论的时间差。通常情况下,水军的时间差较短。因为部分水军可能只是为了某几次完成任务而注册,且完成刷分之后便弃用账号AW=Time_last-Time_first定义2ISR是用户是否仅有唯一评论。水军账号的注册可能仅是为了某一次的刷分行为,在之后便不再使用,而正常用户的使用大多是长期的。定义3ERD是用户评论的时间分布熵。分布熵是对不同概率分布的刻画,它是概率分布的不确定性的期望值。值越大,表示时间分布的不确定性越大
20、。正常用户的评论时间一般是长期且稳定的,不会在短时间内出现大量的评论,因此时间分布的不确定性较大,分布熵较大。而水军大多情况下,在任务集中时存在爆发式的评论。因此,时间分布的不确定性较低,分布熵较小。ETG=-Zp:lg(P,)其中p;表示第i个类别出现的概率,一般可以通过用属于此类别的样本数量除以样本容量来估计该值。定义4ETG是用户评论的评分分布熵。一般来说,正常用户的评分分布不稳定,而水军的评分分布大多分布在最高分和最低分。因此,正常用户的评分分布较高,而水军的评分分布熵较低。定义5SQD是用户评分中最高评分和最低评分在全部评论中的占比。因水军是为了提高或降低某一商品的评分,故水军的最高
21、评分和最低评分在全部评论中的占比较高,正常用户占比较低。Number(Review_maximim U Review_minimum)NR:Review_Number为验证所选取特征与构建的新特征的有效性,本文利用卡方检验算法 13 对上述特征进行相关性验证,得到的特征P值排序结果,如表3所示。表3牛特征P值排序序号特征描述P值1MNR3.05E-202SQD4.57E-173RD1.13E-154ISR2.88E-135AW4.56E-106PR8.69E-87ERD1.56E-58ETG1.05E49NR3.79E-2从表3可以看出,所提出的SQD、ISR、A W、ERD、ETG的特征P值
22、分别排在第2 名、第4名、第5名、第7名、第8 名。因此,新构造的5个特征和数据任务相关性较强,具有一定的有效性。因此,将采用这9个特征作为水军特征集。2.3FBS算法模型结合网络水军与正常用户之间的差异,给出一个能准确反映水军和正常用户之间差异的特征集合,采用AP聚类算法的特征集,引人AP聚类算法,通过刻画用户和用户之间的相似性,结合同一类别水军高度相似的特点,解决多类别水军适应性问题,再通过引入一个合适的欧氏距离阈值Radius,将值之内所有未标注用户标注为其所属质心的标签,再将扩充后的标注集通过C4.5决策树算法进行分类模型训练,其流程如图1所示。开始计算节点想似度标注数据集和未标注数据
23、集输出球状聚类图计算已标注水军的相似度矩阵输出球状聚类图工选择以标注数据为质心的初始化吸引度矩阵和归属度矩阵簇,设置半径Radius,将该范围内所有未标注数据转化为标记数据计算并更新吸引度矩阵新标注数据集和测试数据集计算并更新归属度矩阵C4.5算法分类N送代至收敛输出识别结果YI输出聚类中心结束图1FBS流程2.4算法描述和分析具体算法描述如下。输人:Yelp用户信息集合Uui,uz,us,,u n输出:每个Yelp用户u,为水军的可能性大小y,方法:按以下步骤执行步骤1:对于Yelp用户u,按照表2 的内容提取原始特征;步骤2:利用上一步提取的基础特征,分别计算AW、ISR、ERD、ET G
24、、SQ D;步骤3:将按上述步骤处理好特征后的数据集输入到AP聚类模型中进行聚类,对以标注数据为质心的簇,引人Radius阈值,将Radius 范围内所有未标注数据标注未与其所属质心同一标签;步骤4:将步骤3中得到的新标注集和原始标注集一起输入到C4.5决策树中进行模型训练;步骤5:将测试集输入到步骤4中训练好的分类应PE。计算方法:设计了-种更能表现水军实际影响力的指标:实际效的评论更频繁地呈现给客户。利用这项研究的结果,他们在评论系统中对产品的评价更重要,比普通用户同,VIP用户的评论对产品收益 3 的影响更大。因为与VIP用户的评论额的影响也有所不分5分),其销售额会增长5%9%。并且普
25、通用户额,在 M Luca的研究中发1分(满平均评分的提品的销售大310息程都报成第38 卷学信学模型中,输出识别结果每个Yelp用户u,为水军的可能性大小y;步骤6:计算模型PE值,算法结束。2.5使用的识别器和水军攻击策略将提出的FBS算法引人到Dou等 6 提出的水军对抗模型中,训练出在YelpChi上性能更好的识别器。具体使用到的识别算法和水军攻击策略如下:识别器:采用如下几种识别算法作为博奔中的水军识别方。(1)G A NG 14 基于马尔科夫随机场的识别器,利用有向图模型识别水军用户的方法。(2)Sp Ea g l e 2 对用户、评论与商品组成的马尔科夫随机场进行概率推算的识别器
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 极小 极大 博弈 水军 识别 算法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。