基于大规模网络社群分割的国际分众舆情分析——以2022年G20峰会为例.pdf
《基于大规模网络社群分割的国际分众舆情分析——以2022年G20峰会为例.pdf》由会员分享,可在线阅读,更多相关《基于大规模网络社群分割的国际分众舆情分析——以2022年G20峰会为例.pdf(7页珍藏版)》请在咨信网上搜索。
1、研究目的 国际舆论研究既需要覆盖范围广泛,也需要针对细分群体进行分众化分析,而已有的以文本为中心的舆情分析方法难以满足上述需求。因此本文提出一种以网络为中心的国际分众舆情分析方法。研究方法首先采用个性化网页排名算法对社交媒体用户随机游走采样,得到未被社交机器人污染的大规模用户网络,然后基于社交媒体舆论嵌入在各种同质网络中这一特征,用经典稀疏主成分分析对用户网络进行社群聚类,将具有共同纽带或身份的个体划分入同一社群,最后用深度学习分别针对各个社群进行舆情分析。研究结论 通过对 2022 年G20 峰会的国际舆情分析,发现各社群的舆论表达与其身份高度相关,验证了本文提出方法的有效性。除了在对抗社交
2、机器人干扰、用户群体细分方面做出改进性工作,本文还为国际舆情演化的实证研究提供了方法论支撑。关键词:舆情分析;国际舆论;社交媒体;网络社群;网页排名;社群发现;深度学习中图分类号:G206摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 摇 文章编号:1002-1965(2023)09-0077-07引用格式:杨摇 帆,章耀之,张宏邦.基于大规模网络社群分割的国际分众舆情分析J.情报杂志,2023,42(9):77-83.DOI:10.3969/j.issn.1002-1965.2023.09.012Opinion Analysis of Focus Groups
3、Based on Community Detection inMassive Networks:The Case of 2022 G20 SummitYang Fan摇 Zhang Yaozhi摇Zhang Hongbang(School of Journalism and New Media,Xian Jiaotong University,Xian摇 710049)Abstract:Research purpose The study of public opinion requires aggregate-level measurement and the analysis of foc
4、us groups.Thetext-centric approach fails to meet these requirements.Therefore,we propose a network-centric approach for public opinion analysis ofsocial media focus groups.Research method We first sample targeted accounts from a large social graph with the personalized page-rank.Then,we utilize the
5、vintage sparse principal component analysis to cluster millions of accounts based on the social network structure,where like-minded individuals interact with each other and reinforce opinions.Opinions of each focus group are mined via a deep learningapproach.Research conclusion We empirically analyz
6、e international public opinion related to the 2022 G20 summit.The results showthat the focus groups express opinions closely connected to their identities,validating the proposed approach.In addition to suppressing theinterference of social bots in opinion analysis and segmentation of the user group
7、,this study further provides methodological contributionsto empirical research on the evolution of international public opinion.Key words:public opinion analysis;international public opinion;social media;online community;page-rank;community detection;deep learning第 42 卷摇 第 9 期2023 年 9 月摇 摇 摇 摇 摇 摇 摇
8、 摇 摇 摇 摇 摇 摇情摇 报摇 杂摇 志JOURNAL OF INTELLIGENCE摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.42摇 No.9Sep.摇 2023摇 摇 国际社交媒体是了解国际舆论的重要窗口。诸如Twitter 这样的国际社交媒体,如今已成为全球不同地区不同背景用户发表时事评论、讨论公共议题、发挥个人影响力的重要平台1。社交媒体作为大众表达意见的空间,也常被用作舆情分析工具2。相较于传统的基于民调的舆情分析,基于社交媒体舆情分析的优势在于实时性和连续性3,以及更大的样本规模。其劣势在于人口统计学表征的缺失,即缺乏对社交账号背后用户的了解。这导致目前以文本为
9、中心的社交媒体舆情分析方法存在两个问题:一是“只知大众,不知分众冶 不掌握细分群体的意见气候4;二是分析结果容易受网络水军、社交机器人等舆论操纵影响5。社交媒体舆论的另一关键特征是它嵌入在各种同质网络中,即所谓“人以群分冶 志趣相投的人往往具有更紧密的社会网络关系,并且容易在相互交流中强化观点,产生回音室效应6。这些特征说明国际社交媒体有望成为分众舆情分析的理想工具,但同时亦存在诸多挑战。不同于以文本为中心的舆情分析方法,本文提出一种以网络为中心,旨在针对国际范围内不同细分群体的舆论表达进行分众化分析。以 Twitter 为例,研究了各细分群体关于2022 年 G20 峰会的认知。首先,为排除
10、网络水军和社交机器人对舆情分析的干扰,采用个性化网页排名7算法对用户进行采样。其次,以采样到的账号作为二部图顶部,采样账号所关注的账号作为二部图底部,构建了一张账号数达 2956 万,关系数达 2 亿的社会关系网络图。然后,使用经典稀疏主成分分析8对图邻接矩阵进行降维,将用户细分为100 个群体,并通过提取用户个人简介关键词对社群进行表征。最后,使用深度学习对各群体涉及 2022 年G20 峰会的推文进行细粒度话题分析。国际分众舆情分析不仅有助于在国际传播中更好地实施精准传播策略,还有助于维护我国意识形态安全和政治安全,希望本研究能对此有所裨益。1摇 理论基础和文献回顾摇 1.1摇 社交媒体舆
11、论与同质网络社交媒体的发展促进了公众舆论场的分散和多元化。舆论是一个相对模糊的概念,西方主流学界认为舆论是社会中相当数量的人对于特定议题所表达的个人观点、态度和信念的聚合9,与中文传统中的“民意冶相似。在前社交媒体时代,这种民意一般是通过调查得到个人意见的代表性集合,再由大众媒体公之于众。社交媒体的出现改变了媒介生态和人际沟通方式,也对舆论赋予了新的概念。首先是大量民众短时间内通过社交媒体对现实中的某些焦点问题发表评论、转发信息而产生的网络舆情,具有比传统媒体舆论影响力更强、影响范围更广和反应更快的特点。其次,网络让人际沟通摆脱了地理空间限制,在社交媒体的组织下,具有共同纽带或身份的个体聚集在
12、同一个非物理化空间,成为技术社会(techno-social)空间调节下的意见表达共同体10。这种意见表达共同体并非个体意见的单纯加总,而是群体内部不断对话的产物。有研究表明这种同质化群体内部的舆论更容易产生回音室效应11,尤其是当涉及政治议题时。个体对各种议题的看法可能在社群内高度一致,但在社群之间却截然不同。此外,有大量研究表明社交媒体舆论易受社交机器人和网络水军的操控,例如散播虚假消息、制造对立、编造主流意见等5,12。因此,对社交媒体舆论总体层面的分析,可能并不具备人口统计代表性。社交媒体舆论的分众化分析,需要更多关注舆论的网络特征和意见来源,避免将用户视作一个整体,并区分来自各个角落
13、的意见。这种基于同质网络的舆情分析,不仅可以精准定位细分群体,还可以将社交机器人或网络水军排除在外,因为有研究13表明社交机器人或网络水军通常会被划入同一个社群。摇 1.2摇 社交媒体舆情分析已有的社交媒体舆情分析方法大多以文本为中心。这类方法通常第一步都是基于舆情事件的关键词或词典对社交媒体内容进行搜索和抓取。安璐14提出对抓取内容按照发表的时间段,通过对词嵌入语义变化的分析,了解舆情的演化特征。周书环15通过对新冠肺炎疫情期间微博文本情绪和用户转发行为的因果分析,发现积极情绪对社交媒体分享行为影响更大。黄河16通过对“江歌案冶网民评论的情绪分析,发现明显的群体极化现象。社会科学研究者多是借
14、助一些开箱即用的自然语言工具进行文本分析,主要任务包括情感分析、情绪分析和主题分析。当想对抓取文本进行更细粒度的质性分析时,人工编码仍然是社科领域舆情分析的重要方法,比如对新冠疫情期间的舆情事件分类2。还有一些研究通过对抓取内容进行网络建模,探究舆情的扩散机制。基于网络建模的舆情分析方法按照建模方式可分为两类:转发网络和人际关系网络。前者例如王晰巍对“河南暴雨冶17事件的转发网络的研究;后者例如邢云菲18对“天和核心舱发射冶话题参与用户空间网络的研究。国际舆论研究大多以涉华舆情分析为主19,通过分析文本的语种或地理信息标注区分不同国家用户的涉华态度和认知。研究还发现涉及国际政治事件的舆论,经常
15、存在舆论操控的情况。以文本为中心的舆情分析大多将社交媒体用户或文本所涉及用户看作一个整体,未能充分利用社交媒体舆论嵌入在各种同质网络中这一特征,进而揭示87 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 情摇 报摇 杂摇 志摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 42 卷细分群体的舆论表达差异。已有的研究无法回答诸如“是哪些用户群体在制造舆情?冶“是谁在主导舆情?冶等此类问题。此外,已有舆情分析研究面对复杂语境下的细粒度质性分析往往不得不依赖人工编码。而针对国际范围的舆情分析,不仅样本规模巨大,涉及的文化和语言因素也更加
16、复杂。综上所述,已有社交媒体舆情分析方法难以满足国际舆情分析分众化的需求,因此本文试图提出一种针对全球范围的分众舆情分析方法。完成上述目标首先需要发现社交媒体中的同质网络,因此提出研究问题:RQ1:对大规模网络的社群分割,社群内的个体是否具有同质性?如果社群内的个体具有同质性,那么他们的舆论表达应该具有主题上的相似性。如果以上假设成立,将为个体意见聚合为群体意见提供实证支持。因此:RQ2:社群舆论表达模式与其身份是否存在相关性?2摇 研究方法本文以 Twitter 为例,对大规模网络进行社群分割,然后对各细分群体关于2022 年 G20 峰会的言论进行话题分析,研究框架如图 1 所示。首先(图
17、 1a),选取一批目标意识形态或身份相关的意见领袖账号作为种子用户,以种子用户为起始点进行大规模用户采样;然后(图 1b),用采样用户和其所关注用户构建二部图,利用社群发现算法降维;最后(图 1c),分别对各社群内用户推文进行话题分析,并根据分析结果更新种子用户。图 1摇 研究框架摇 2.1摇 目标用户采样和关系网络构建2022 年 11 月期间,我们利用个性化网页排名(Personalized PageRank,PPR)算法7对 Twitter 用户进行了大规模采样。PPR 采样以一组种子用户为起始节点,然后随机游走至当下节点的邻居节点,以此往复。游走的每一步有两种可能:有 琢 概率前进至当
18、下用户关注列表中随机选取的一名用户;或者1-琢 概率返回至起始点。琢 是传送常数,在本研究中设为 0.15。个性化随机游走的平稳概率分布称为 PPR 向量,向量所对应的节点即为被采样用户(算法 1)。Twitter 关注网络属于度矫正随机块模型,在该模型下,个性化随机游走会趋向收敛,并取得稳定的结果。由于社交机器人或网络水军一般粉丝很少,因此该方法可以生成一个不受社交机器人或水军污染的用户关系网络。关于种子用户我们参考了 Y.Zhang et al20的研究,选取了一些活动家、权威人士、记者和媒体机构的账号,共 72个。然后在此基础上加入了 Twitter 上中国外交、媒体相关的个人和机构账号
19、,还有一些对华友好外籍人士的账号,共 29 个(参见在线附录:http:/www.narra鄄tivenet.work/social-media-public-opinion/supple鄄ment,下同)。最终我们共采样到 130 503 个账号,他们共关注 2 956 万个账号。算法 1:个性化网页排名(无向图)输入:无向图 G=(V,E),单位向量 仔(种子用户),传送常数琢,收敛宽容度 缀初始化:p 饮 0,r 饮 仔,琢 饮 琢/(2-琢)while 埚u 沂 V 使得 ru逸 缀 du摇 摇/du为节点 u 的度均匀随机采样节点 u 满足 ru逸 缀 dupu饮 pu+琢 ru摇
20、摇 for v:u,()v沂 E dorv饮 rv+1-琢()ru/(2 du)摇 摇 end forend while输出:近似 PPR 向量 P摇 2.2摇 大规模网络社群分割PPR 采样到的用户和他们关注的用户可以构成一张二部图。考虑到度过小的节点不利于分类,我们递归过滤掉图中入度小于 10,出度小于 4 的节点。过滤后剩余 120 545 个账号,共关注 2 440 620 个账号。然后我们使用经典稀疏主成分分析(Vintage Sparse Prin鄄cipal component analysis,VSP)8对二部图邻接矩阵降维。VSP 类似于因子分析的简化形式,它扩展了主成分分析
21、的经典方法,将稀疏性融合到了主成分分析中,保持最大方差的同时得到稀疏的载荷向量,可以更好地挖掘数据信息。我们利用 VSP 算法将 244 万账号分割为 100 个社群(算法 2)。社群是一种内部比外部节点联系更紧密的结构,即每个用户都更倾向于关注社群内部的用户。以二部图作为 VSP 算法的输入而非采样用户的关系图,主要基于以下假设:具有共同身份或意识形态的用户,其关注列表或粉丝列表往往具有更高的相似度。分类关注账号而非粉丝账号主要97摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 杨摇 帆,等:基于大规模网络社群分割的国际分众舆情分析出于三个原因:1)关注账号更可能是意见领袖,对舆论
22、更有影响力;2)已有研究证明 Twitter 的关注账号和粉丝账号社群分割结果基本一致21;3)关注账号比粉丝账号规模小的多,更节省内存和算力。算法 2:基于经典稀疏主成分分析(VSP)的社群分割输入:二部图邻接矩阵 A 沂 0,1n伊m,n 为采样账号数,m 为关注账号数,k 为社群数1.定义正则化 Laplacian 矩阵 L 沂 Rn伊m2.摇 摇Lij=Aij+,for i=1,2,n,j=1,2,m,3.摇 摇 摇 摇 摇ri=移mj=1Aij,ci=移ni=1Aij,子r=移iri/n,子c=移jci/m4.对矩阵 L 进行奇异值分解,L抑U卒撰卒V卒T,U卒沂Rn伊k,V卒沂Rm
23、伊k,撰卒沂 Rk伊k5.对 V卒进行方差最大旋转,6.摇 摇 最大化移kl=11m移mj=1Y4jl-1m移mj=1Y2()jl2,7.摇 摇 使得 Y=V卒O,OTO=Ik,O 沂 Rk伊k8.输出:Y,Yjl=maxYj(),j 账号属于 l 社群摇 摇 为探究社群内的个体是否具有同质性(RQ1),我们对社群内账号按载荷排名,抓取了排名前 1000 账号的个人简介,利用从中提取的关键词对社群进行表征。只抓取排名靠前用户主要出于以下原因:排名更靠前的用户更可能属于重要的意见领袖,因为他们被社群内更多的采样用户所关注。关键词提取算法包含三步:首先将所有个人简介合并为一个输入文档,使用scik
24、it-learn 库中的 CountVectorizer 将输入文档分割为词组;然后使用自然语言模型 paraphrase-multilingual-mpnet-base-v2 对词组和文档分别提取嵌入;最后计算所有词组嵌入和文档嵌入的余弦相似度,相似度越高的词组越接近输入文档的语义。我们选取相似度最高的 10 个词组作为表征文档的关键词。摇 2.3摇 细粒度话题分析关于研究问题 RQ2,我们抓取社群内用户关于特定事件的推文,然后对其进行话题分析。为了排除社群规模对舆论声量的影响,我们只检索了社群内排名前 10000 的用户在 2022 年 11 月 14 日至 17 日之间发表的包含“g20
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 大规模 网络 社群 分割 国际 舆情 分析 2022 G20 峰会
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。