![点击分享此内容可以赚币 分享](/master/images/share_but.png)
指数随机图模型的分析与应用...基于新浪微博数据的实证研究_许可.pdf
《指数随机图模型的分析与应用...基于新浪微博数据的实证研究_许可.pdf》由会员分享,可在线阅读,更多相关《指数随机图模型的分析与应用...基于新浪微博数据的实证研究_许可.pdf(10页珍藏版)》请在咨信网上搜索。
1、指数随机图模型的分析与应用 79 指数随机图模型的分析与应用*基于新浪微博数据的实证研究 许 可 蒋耘莛 内容摘要:在这个移动互联网的时代,社交网络引起了人们的广泛关注。社交网络是一个由行动者及他们之间多种多样的关系构成的巨大网络,其核心价值在于关系数据的分析。指数随机图模型是一系列分析社交网络的统计模型。该模型中的参数主要是构成社交网络的各类结构,也就是联系不同行动者的各类纽带。通过分析这些结构,可以了解行动者是如何受到社交网络中各类关系的影响,从而进一步探索该社交网络的形成过程。总的来说,指数随机图模型应用在网络数据的分析中,能够研究社会结构及网络进程。本文介绍了不同假设下几种常见的指数随
2、机图模型的基本思想,包括伯努利模型、p1 模型、p*模型、社交圈模型,并通过新浪微博数据,详细介绍这几种模型的应用。在实证部分,本文通过数据模拟进行模型检验,验证了社交圈模型优于其他几种模型的结论,并联系实际进行了解释,同时介绍了其在好友推荐等应用方面的参考价值。关键词:社交网络;指数随机图模型;社交圈模型;好友推荐 中图分类号:O242 文献标识码:A 文章编号:1004-7794(2023)03-0079-10 DOI:10.13778/ki.11-3705/c.2023.03.009 *许可,2019 年毕业于北京大学光华管理学院,获经济学博士学位,现为对外经济贸易大学统计学院讲师,研究
3、方向为网络数据建模、非结构化数据分析等,邮箱:。蒋耘莛,中国地质大学(北京)经济管理学院在读博士研究生,研究方向为资源和能源经济与政策、统计数据分析。本研究得到国家自然科学基金青年项目“带网络结构的变系数自回归模型:理论及应用研究”(12001102)、对外经济贸易大学中央高校基本科研业务费专项资金资助项目“中国贸易高质量发展的统计测度研究团队”(CXTD13-04)的资助。一、引言 社会网络分析方法是研究社会群体与组织以及社区结构与发展的重要方法,有极大的应用价值和发展前景。因此,在已有的研究成果基础上,结合我国的研究实例,提出社会网络研究的某些特定问题,对促进国内相关研究的发展具有直接意义
4、。社会行为的复杂性决定了社会网络结构的易变性,将随机性纳入基于图论的、静态的社会网络模型是统计学科发展的必然趋势。指数随机图模型正是在这样的趋势中应运而生。指数随机图假设网络是由随机过程产生,观察到的图的概率取决于模型所包含的各种网络结构出现的次数,侧重于表达关于固定节点集的图的概率分布。指数随机图模型是一系列分析社交网络的统计模型,越来越多的被用于分析网络数据上。回顾指数随机图的发展史,Morenno et al.(1938)介绍了统计上的网络方法1,在分布未知的情况下通过对比观测到的网络数据去进行预测。虽然他们的方法简单,但却引入了结构化的影响会引起随机性的偏差这一观点。并且这一观点再次在
5、 Rapoport(1953)2和 Rapoport(1957)3的有偏网络理论中明确2023 年第 3 期 调研世界 总第 354 期 80 提出。Erd s et al.(1959)提出 Erd s-R nyi 图4。伯努利分布图5的出现为随机图模型的诞生奠定了基础,它假设网络中所有弧都是相互独立的。此后,出现了一系列改良分布的文献,见 Pattison et al.(2000)6。其中,Holland et al.(1981)突破了伯努利模型假设的限制,介绍了在成对节点间相关的假设下的统计模型7,这被后来的 Wasserman 和 Faust 称为 p1 模型8。这是第一次将简单的指数随
6、机图分布进行了扩展。尽管这为之后的工作奠定了基础,但是他们的工作还是仅仅局限于成对数据之间。用标准的对数线性模型能够估计出他们的简单模型,但是一旦三元信息出现,那么原来对对数线性模型很重要的相关性假设就不成立了。后来,Van Duijn et al.(2004)提出了超出成对相关性假设的更加复杂的依赖成对基础的模型9。在前人工作的基础上,Frank et al.(1986)引入了马尔科夫依赖,假设两个关系如果有一个共同的行动者,就认为它们是条件依赖的10。然后马尔科夫随机图模型是过了很久才被网络研究者所采纳的,直到二十世纪九十年代 Wasserman et al.(1996)的一篇很有影响力的
7、文章的出现11才使得这一类 p*模型受到关注(追随之前的 p1 模型故命名为 p*模型12)。p*模型有效地将马尔科夫随机图结构扩展到可以处理多元的13、有价值的14、双向的15网络数据。后来行动者属性也被加入社会选择16和社会影响17的模型。指数随机图模型被认为是推动网络社会科学理论发展的强大车轮18。由于模型的估计进程(伪极大似然估计19)不能很好地处理在相关性假设下的数据,模型的进一步发展受到了限制。尽管如此,在过去的数十年里,指数随机图模型还是以惊人的速度越来越流行。各类致力于研究算法去计算更精确更复杂的极大似然估计,都是建立在计算机模拟的基础上的20-21。Handcock(2002
8、)20和 Snijders(2002)21首先质疑由于随机指数图模型缺少马尔科夫详述会造成计算上的困难,后来 Frank et al.(1986)认为缺省的马尔科夫详述导致了传递性10。为了弥补这一缺陷,Pattison et al.(2002)提出了一种现实依赖条件下的独立性假设22。Snijders et al.(2006)将马尔科夫详述推广到社交圈模型23,在 p*模型假设的基础上,还假定了另一种条件相关:即如果 XihXjm=1(1h,i,j,mg),那么 Xij与 Xhm是相关的,否则是相互独立的。这一推广是一个很大的突破,极大地改善了指数随机图模型拟合现实数据的能力。在国内,目前还
9、没有与指数随机图模型相关的重大理论进展,应用性的研究也较为有限。陈爱萍等(2012)使用伯努利模型等三个模型,分析了新闻转载网络的结构24。分析结果显示,新闻转载网络的网络关系稀疏,聚敛性和互惠性的局部结构明显,属性变量中传统媒体影响较大。吴铭(2012)将p*模型运用于网络链接预测,并验证了指数随机图模型相对于其他关系算法的优越性25。总体来看,国内的研究都直接选取指数随机图模型中的一种或两种进行应用,但并未充分论证其模型选择的合理性。本文在大样本下对模型选择过程展开讨论,具有更为重要的理论意义。此外,互联网作为横跨虚拟和现实的独特构造,具有线上与线下的双重网络属性。目前的大部分研究默认线上
10、社会网络结构及行动者间的互动关系符合经典的理论假设,但由于互联网用户在线下都处于特定的文化环境与社会关系之中,其在线上的行动必定受到其社会背景(或人口学特征)的制约,而这极有可能限制经典模型的解释能力。因此在我国线上社交网络的环境中对几类经典指数随机图模型的拟合效果进行检验,是非常具有现实意义的。为此,本文对线上样本进行了一对一的线下调查,并将样本的线下人口学特征作为可能影响其线上互动行为的外生变量。二、模型描述 社交网络是一个由行动者及他们之间多种多样的关系构成的巨大网络。假设社交网络中有 g 个行动者,行动者 i、j 满足 1ig、1jg。为表示该网络,定义一个大小为 g g(g 行 g
11、列)的社会关系矩阵(Xij)Rg g,矩阵中的元素变量被称为关系变量。如果行动者 i 与 j 有关,则 Xij=1;否则,Xij=0。方便起见,定义 Xii=0。指数随机图模型的分析与应用 81 指数随机图模型反映了社会网络中固定节点集图的概率分布,其一般的表达形式为:1 11 211Pr(|)()exp()exp()()()()()TppXxP xZ xz xzxzx =+它假设网络是由随机过程产生的,可以直接通过特定网络结构的数目来预测相应社会关系发生概率大小。参数的大小衡量了模型所包含的特定网络结构的重要性。标准化的变量保证了覆盖所有图形的全部概率函数()P x的总和为 1,1 11 2
12、()exp()()()ppy Xz yzyzy=+描述了所有存在 p 个节点的图形概率分布。设想在网络模型表达式中只有一个结构边的数量,那么对应边的一个参数为1、其所对应的统计量1()z x代表了图形 x 中边的数量。因此,对每一个存在 p 个节点的图形 x 来说,已知的参数1都会根据图形中的边数给出图形 x 出现的概率。若参数为正,则其所对应的统计量的值越大,该图出现的概率就越高。因此,从这个概率分布中得到的图形可以看作是随机图,同时由于该公式具有典型的指数形式,所以称其为“指数随机图分布”。目前经典的指数随机图模型包括伯努利模型、p1 模型、p*模型和社交圈模型,其表达式分别如下:1(x)
13、exp(x)()LPL=(1)式(1)是伯努利模型,它仅包含一种网络结构,其中()2iji jL xx=,代表弧的数目。1()exp()()()LMP xL xM x=+(2)式(2)是 p1 模型,它包含两种网络结构,其中()ijjii jM xx x=代表节点对中两个节点相互都有弧的节点对的数目。23231Pr()exp()()()()LSSTXxL xSxS xT x=+(3)式(3)是 p*模型,它包含三种网络结构,其中()L x代表边的数目,()kS x代表 k-star 的数目,()T x代表网络结构中三角形的个数。()()()()()()()1Pr()exp()()()()()L
14、RTUDCPTPUPDinoutmixL xR xT xU xD xC xPT xXxPU xPD xin xout xmix x+=+(4)式(4)是社交圈模型,它包含 12 种网络结构,其中 L(x)代表边的数目,R(x)代表 Reciprocity,反映了两个节点之间的交互性;T(x)、U(x)、D(x)、C(x)、PT(x)、PU(x)、PD(x)、in(x)、out(x)、mix(x)分别表示网络结构 AT-T、AT-U、AT-D、AT-C、A2P-T、A2P-U、A2P-D、alt-in-star、alt-out-star、mix-2-star的数目,其定义分别如表 1 所示。表
15、1 社交圈模型中的网络结构 网络 结构 定义 网络 结构 定义 AT-T 行动者 i 关注行动者 j,且 i 关注的行动者也同时关注 j A2P-U 控制 AT-U 结构中 i 与 j 间的关系后形成的新的网络结构 AT-U 行动者 i 关注行动者 j,且 i、j 共同关注其他行动者 A2P-D 控制 AT-D 结构中 i 与 j 间的关系后形成的新的网络结构 AT-D 行动者 i 关注行动者 j,且其他行动者同时关注 i、j alt-in-star 行动者 i 同时受到行动者 j 与行动者 h 的单方面关注 AT-C 行动者 i 关注行动者 j,且 j 关注的行动者也同时关注 i alt-o
16、ut-star 行动者 i 同时单方面关注行动者 j 与行动者 h A2P-T 控制 AT-T 结构中 i 与 j 间的关系后形成的新的网络结构 mix-2-star 行动者 i 单方面关注行动者 j,且行动者 j 单方面关注行动者 h 以上公式中 的取值在=2 的情况下均固定,即log0.6431=-。2023 年第 3 期 调研世界 总第 354 期 82 三、实证分析(一)数据来源 微博是我国最大的社交媒体之一,且具有相对开放的信息环境,是一个典型的线上社会网络,故选取微博数据作为研究对象。网络中每一个节点代表一个虚拟的个人,包含着人物的社会关系以及社会属性。本文选取的微博身份以某一重点
17、高校的科研人员、学校教师、学生等为主,是典型的跨学科学术共同体。本文从新浪微博社区选取研究样本,以用户之间是否存在关注链接关系作为研究内容,构建相应的网络关系结构。每位微博用户就是一个节点,其一条好友链接即节点间的一条关系。一位微博用户可能有许多好友链接,即该微博用户节点与许多其他微博用户节点建立了关系。微博用户之间相互建立“好友”关系,就形成了行动者之间的好友链接网络。由于该微博社区的总体样本较大,本文选择采用滚雪球抽样,即先选择一位微博用户作为行动者的提名起点,再根据该微博用户的“关注”来提名两位微博用户作为二阶网络域,最后根据二阶网络域中每位行动者的全部“关注”来提名 50 位微博用户以
18、形成三阶网络域,所有提名的行动者构成研究样本。最后共提名 50 位行动者,即 50 个节点。这 50 个微博用户群体中,共有 9 名老师,41 位学生,来自该校各个院系。该网络中不存在只有出度的微博用户(如僵尸粉)、只有入度的微博用户(如大明星)、入度出度都为 0 的微博用户,故 sources、sinks、isolated 的取值均为 0。表 2 是该社交网络的基本统计量列表。表 2 基本统计量列表 统计量 数值 统计量 数值 arc 543.0000 AT-D(2.00)979.1000 reciprocity 227.0000 A2P-T(2.00)2917.2610 density 0
19、.2172 A2P-D(2.00)1482.3380 path2 7156.0000 Std Dev in-degree dist 6.8840 AinS(2.00)895.5390 Skew in-degree dist 0.6120 AoutS(2.00)895.3820 Std Dev out-degree dist 6.5120 AT-T(2.00)979.0660 Skew out-degree dist 0.2800 AT-C(2.00)949.3050 CorrCoef in-out-degree dists 0.7640 (二)随机指数图模型的建立 在该实例中,为了更好地构建指
20、数随机图模型,除了考虑网络结构变量,还综合考虑了网络中个体的线下人口学特征作为外生变量(见表 3)。表 3 指数随机图模型中的外生变量 k yk 类别 符号表示 含义 解释 1 y1 0-1 变量 gender 性别 男=1;女=0 2 y2 0-1 变量 profession 职业 老师=1;学生=0 3 y3 0-1 变量 college 学院 是该学院=1;非该学院=0 4 y4 连续变量 age 年龄 本人实际年龄 5 y5 分类变量 edu 现阶段教育程度 本=1;硕=2;博=3 本文分别采用伯努利模型、p1 模型、p*模型、社交圈模型生成的指数随机图与该局域社交网络所构成的真实图进
21、行了比对,发现并非所有的指数随机图模型都能和真实图拟合。在该拟合实例中,仅伯 相关数据本文通过一对一的线下调查(问卷与电话访谈)获取。指数随机图模型的分析与应用 83 努利模型和社交圈模型收敛,因此进一步对这两种模型进行参数估计。估计方法为马尔可夫链蒙特卡罗极大似然估计法(Markov Chain Monte Carlo Maximum Likelihood Estimation,MCMC MLE),该估计方法的核心是以一个参数值集合为起点进行随机图分布的模拟,通过比较相应随机图与真实图的分布来修正参数值,重复这个过程直到参数估计值稳定为止。伯努利模型的拟合结果如下:1111,2222,333
22、3,3.773990.0726060.0721650.0434830.2799630.3250150.3784481.91081.779084.51981Pr(x)9Xexp7ijiijjijijiji ji ji ji jiijjijijiji ji ji jiijjijijii ji jxy xy xx y yy xy xx y yy xy xx y y+=+-4,44455,0.000870.0647860.042070.868468jiiji ji jjijijijijiji ji ji jy xy xyyxx I yy-|+|-+=|-伯努利模型的参数估计结果如表 4 所示。表 4
23、伯努利模型的参数估计 统计量 参数估计值 标准差 p 值 统计量 参数估计值 标准差 p 值 arc 3.7740 0.9940 0.00015*gender_receiver 0.0722 0.1488 0.6276 gender_interaction 0.0435 0.2142 0.8391 profession_receiver 0.3250 0.2763 0.2395 profession_interaction 0.3784 0.5109 0.4589 college_receiver 1.7791 0.5446 0.00109*college_interaction 4.5199
24、 0.6295 0.00000*age_sender 0.0009 0.0214 0.9676 gender_sender 0.0726 0.1528 0.6347 age_receiver 0.0648 0.0215 0.00255*profession_sender 0.2800 0.3154 0.3748 age_diff 0.0421 0.0205 0.03996*college_sender 1.9108 0.5168 0.00022*edu_matching 0.8685 0.1350 0.00000*社交圈模型的拟合结果:,0110,3.773994.923470.7627260
25、.2938050.0300480.053990.()()()()()()1Pr()019474.181962.338120.0272110.0330130.02exp148iiijijjii jijnXinXiijjijii ji jxx xT xD xC xT xD xeemix xy xy xXPxP+-=-=+-+=112222,33334,444,0.0491870.362580.5363150.1641080.5950742.4946350.3008820.08310.1203310.02979ijijiijjijijiji ji ji ji jiijjijijijiiji ji j
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 指数 随机 模型 分析 应用 基于 新浪 数据 实证 研究 许可
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。