本文是一篇SCI论文发表,本文主要研究工作主要包括以下几个方面:(1)通过一个基于微博平台可测量人格的小应用收集微博用户的人格数据和 id 号,再编写爬虫获取爬取种子节点及扩展节点的微博社交数据。然后利用这些数据训练出一个适合微博平台和中文语境的人格预测模型,其中优化改进了特征集的设计方案,结合了过滤式和嵌入的特征选择方法。(2)将训练出的人格预测模型应用在扩展节点上,预测出所有扩展节点的人格,并对人格数据做了分析后发现,人格的五个维度具有相关性,且人格在社交网络用户关注关系间的分布存在差异性,本文将其定义为链接偏好。(3)建立新的综合链接预测模型,同时考虑了用户属性相似度,网络结构连接紧密度(包括基于节点的紧密度和基于路径的紧密度),不对称交互强度,基于人格特质的链接偏好匹配度等四个维度,同时提出了对基于节点度量的改进。最后设计了对比实验验证模型的有效性,实验证本文对节点度量的改进、提出的不对称交互计算、人格链接偏好的计算都能在一定程度上提高链接预测的准确率。
第1章 绪论
1.1 研究背景与意义
IT 技术的持续高速发展,推动了互联网的普及,尤其是移动互联网的出现,使得人均上网时长直线增长,同时各种类型的应用和平台应运而生,其中社交服务平台就是普及率最高的一种。而且社交网络平台的服务内容已经逐渐延伸到了生活中的方方面面,一方面,现实中好友可以在社交平台上发表观点,交流互动,讨论热点,以往的交流方式发生了改变,可以将社交网络看作是现实社会在线上虚拟世界中的延伸,另一方面,随着社交网络平台的服务不断优化和规模不断扩大,足够的量变已经引起了质变,社交网络已经成为寻找朋友扩展社交圈的重要途径,体现了社交网络对现实社会的反作用,可以将社交网络看作是与现实社会紧密关联而又平行独立的社交模式的重建。在线社交网络(online social network,OSN)有着即时性、延展性、平等性、自发性等四大特性,正是因为这些特性,在线社交网络在短时间内迅速发展,拥有庞大的用户量,每天都有数以亿计的用户会使用社交网络,并且留下他们的活动痕迹,这些痕迹包括个人信息也包括用户的行为数据,这些数据全部都是由用户主动产生且平台自动记录,数据量庞大且真实,其中蕴涵着巨大的潜在价值,所以通过挖掘社交网络中的用户数据分析用户的行为以及用户之间的关系已经成为了社会计算领域的重要研究内容。
链接预测(link prediction)是社交网络研究领域中重要的一项,这个问题的解决对于解释网络结构生成的原因,帮助我们探索网络演化的规律[1],理解复杂网络的机理[2]都至关重要。此外,链接预测还可以在社交网络中寻找朋友[3],在用户-项目网站中推荐项目[4],在学术网络中寻找专家[5],在蛋白质网络中发现蛋白质间未知的相互作用[6],其中最为常见的应用是社交网络平台中的朋友推荐。本文着重研究社交网络中的链接预测,以微博平台为例,目的是发现和预测用户关系网络中缺失或未来可能产生的关系,包括单向关注和双向关注。
............................
1.2 研究现状
1.2.1 人格特质研究现状
人格特质被定义为:内发性的、长久的、分结构的、受基因和大脑构造等生物因素控制的基本性情[12]。最常用来描述人格的模型是 Goldberg[13]和 Costa & McCrae[14]提出的五因素人格模型(Five Factor Model , FFM),FFM 认为人格主要是由生理因素决定,并由开放性、尽责性、外向性、宜人性和神经质这五个基本倾向构成的,也称为大五模型(Big Five)。这些特质在人的整个生命周期以及不同的情景下都是相对稳定的[10],这也就是为什么用户的人格特质可以作为预测用户行为的一个很好的出发点。有人格理论的学者提出,用户的人格特征对其偏好以及行为都有很大的影响,人格显著影响着人们的思维方式、感受方式、行为方式[15]。Ngai[16]等人强调,人格特征往往被认为是解释影响用户后续行为特征的基本理论之一。可以说人格特质定义了我们的本质,并反映在我们的思想和行动中[17]。
传统地,用户的人格是通过调查问卷获得的,例如 Big Five Inventory(BFI),最近几年,有学者发现可以直接从社交网络中挖掘用户的人格特质[18]。2018 年微博用户发展报告指出,微博的日活跃用户数已达 1.84 亿,如此大的流量每天在微博中进行点赞、转发、评论、收藏、发布内容等互动,所有的行为被记录下来称之为数字足迹,这些数字足迹真实可靠又方便计算,可以用于不同学科的分析研究,这其中也包括用于社交行为的预测。大五人格特质已经被证明与社交网络中的行为显著相关,如,外向性高的人在社交网络中的活跃度更高[19],拥有更多的朋友[20];高度神经质的人更倾向于隐藏自己,使用社交媒体时以一种被动的方式来了解他人[21],在发布的内容中使用更多的消极词[22];相反,宜人性高的人较少使用脏话,在他们生成的内容中更频繁地表达积极地情绪[23];谨慎性高的用户会更加慎重地管理自己的个人资料,贴出较少的照片[24],点赞数也少,很少参加社交网络中的集体活动[20];开放性高的人想要拥有更大的社交圈[20],会给更多的内容点赞。Michal Kosinski[20]等人已经证明,可以通过在线社交网络中用户行为的数字记录预测用户的包括人格特质在内的私密属性,并且证明了 Facebook 上的赞与人格特质之间的相关性。也有证据表明,社交媒体用户档案中生成和分享的内容代表了一个人自我的延伸,反映了其个人用户的真实个性,而不是展现他们最理想的特征[21]。
.................................
第2章 相关理论基础
2.1 社交网络的理论基础
社交网络在社会学中被称为社会网络,指由社会中的个体和个体间的社会关系构成的网络结构。在线社交网络是指在 Web2.0 的体系和信息技术的基础上,结合了现实关系的网络应用平台,为用户实现在虚拟空间中交互的功能。最初的社交网络是 Email 的形式,属于点对点的交流,而之后的 BBS 增加了群发和转发的功能,实现了群体内的互动,发展为点对面的交流,再到即时通讯的出现,使用户之间的交流具有了实时性和更强的互动感,另外博客使得用户在网络中的表达更具主体感,表达内容也更能体现社会心理学的理论,直至发展到 YouTube 和微博的时代,社交网络平台提供的功能越来越丰富,现实社会里的人际关系更多地体现在线上社交网络中,虚拟空间的社交网络对现实中的社交也发挥出更大的影响,社交网络已经不再依附于现实社会,而是与现实社会交融重叠相互影响。
社交网络属于复杂网络的一种形式,同样可以用点和线构成的图表示,具有复杂的拓扑结构,其复杂性主要体现在以下几个方面:
(1)节点的复杂性。社交网络中的每一个节点表示一个用户,每个用户都是独立的个体,他们拥有相似的属性但又各不相同,不可能存在完全相同的两个节点,同时社交网络中的节点数目巨大且动态变化,这使得网络节点更加复杂。
(2)关系的复杂性。社交网络中的关系用节点间的连线表示,节点间的连线通常比节点的数目更多,同时这些连接关系还是在不断变化的,每时每刻都可能有连接的消失和增加,而且有些社交网络的连接会带有权重或方向,这些都使得社交网络中的连接关系错综复杂。
(3)结构的复杂性。社交网络的节点与其关系共同构成网络的结构,结构的复杂性不言而明,同时结构和节点之间会相互影响,一方面节点的行为会受所处的环境的影响,即结构影响节点,另一方面节点用户的行为活动会影响网络结构的演变,即节点影响结构。
.............................
2.2 社交关系传播的理论基础
(1)六度分隔理论
六度分隔理论(Six Degrees of Separation)是社交网络理论中的基础理论之一,该理论表示素不相识的两个人之间的间隔人数不超过六个人,即在社交网络中,最多需要通过六个人就能结识一个陌生人。Stanley 教授在一个信件传递实验中发现并提出了这个理论,在该实验中,大多受邀进行实验的居民都成功地通过五六个人的传递就完成了对一位素不相识的波士顿股票经纪人的信件传递。
社交网络中每一个用户都是一个独立的节点,拥有自己的社交圈并且以自身节点为主体,在其与他人友谊的基础上,建立与其他节点之间的各种各样的连接边,这样不断地延伸最后形成一个从自身出发的圈子,之后随着圈子的不断扩展,圈子中的主体节点也不断增多,从而形成一个巨大的关系网络。六度空间理论认为社交网络中的每个节点和节点间的连接关系都可以用数字形式表示,即使是两个完全无关的节点也可以通过一系列的节点之后产生关联,这是社交网络中人际关系和信息传播的重要理论基础,对于社交网络的研究有巨大的意义。但是,这一理论只考虑了两个个体之间建立关联关系的可能性,并没有考虑建立关联关系时的具体因素,这与实际应用中的情况还是有很大的出入。所以实际上,六度空间理论的应用需要建立在两大条件的前提下,第一,连接边的产生是具有随机性的,第二,影响关联关系的用户行为都是特定的类型,例如,社交网络中用户通过对消息内容的转发、评论、点赞等行为,使得信息在各用户之间传播,而在传播过程中具体是哪些用户接触信息是随机的。
(2)结构洞理论
结构洞(Structural Holes)理论属于社交网络中比较新的理论,最初在《结构洞:竞争性社会结构》一书中被提及,主要描述了社交网络中节点之间的关联结构。在社交网络中,有些节点之间属于直接关系,在有向网络中直接相连的两个节点至少有一方是认识对方的,另外有一些节点没有直接的