1.本发明属于衡量社交影响力技术领域,特别涉及一种基于多角度分析的社交用户影响力度量方法。
背景技术:
2.随着互联网的发展,社交网络已经成为人类社会关系维护和信息传播的重要工具,其已不再局限于信息交换,而是发展成集交流、资讯、娱乐、搜索、电子商务、办公协作和企业客户服务等为一体的综合化信息平台。随着社交网络用户规模的迅速扩大,社交内容数据也急剧增长,这些海量的社交数据具有巨大的价值。基于丰富的社交数据,社交网络中的影响力研究吸引了学者的广泛关注,社交影响力体现在能够改变其他用户情感、观点或行为的现象,分析网络中用户影响力的形成和传播过程,进而识别有影响力的传播者,对了解网络中用户的行为、信息在网络中的扩散以及社交网络的演化规律具有重要意义。同时,对于更好的进行舆情管控提供技术上的支持,具有广泛的应用前景。
3.目前衡量社交影响的方法从不同的维度刻画了用户影响力,在某些方面能够较有效地发现社交网络中有影响力的用户,但是仍存在不足。首先,社交网络中用户间的关系往往具有多种不同语义的链接,例如,在微博中,用户间不仅存在关注这种直接链接关系,还包括转发、评论、提及和点赞等多种交互关系。若只在一种链接关系的维度下来分析用户影响力,会忽略其他关系在社交网络信息传播中的影响。其次,用户间的关注关系一种相对静态的社交关系,只考虑关注关系构建的网络拓扑结构,未将用户间的动态交互行为作为用户影响力的评估指标,难以反映“僵尸用户”和正常用户之间的区别。最后,在分析用户间的紧密程度时,现有的方法大多数只考虑了用户间链接强度这种显性特征,没有考虑到用户间存在的兴趣偏好这一隐性特征,而具相似兴趣偏好的用户之间可能具有更强的影响力。
技术实现要素:
4.为了解决现有技术中存在的问题,本发明提出了一种基于多角度分析的社交用户影响力度量方法,利用用户活跃度、用户间交互强度和兴趣偏好等因素量化用户影响力,准确性更高、与实际的真实值更为一致以及用户影响力的传播覆盖范围更广。
5.为解决上述技术问题,本发明采用以下的技术方案:
6.本发明的一种基于多角度分析的社交用户影响力度量方法,包含以下步骤:
7.从多个角度分别构建用户的关系网络;
8.在不同的关系网络中,利用用户活跃度、交互强度以及兴趣相似度来量化用户影响力;
9.综合用户在不同角度下的影响力,得到用户在全局范围内的综合影响力。
10.进一步地,所述从多个角度分别构建用户的关系网络包括:
11.从关注关系、转发关系、评论关系和提及关系多个角度分别构建用户的关系网络,该关系网络定义为gi={vi,ei},其中vi为用户的集合,ei为链接关系,i∈{f,r,c,m}分别对
应关注、转发、评论和提及关系。
12.进一步地,所述用户活跃度表示用户在网络中发生多种活动的频率,定义用户活跃度如公式(1):
13.acti(v)=post(v)+interacti(v),i∈{f,r,c,m}
ꢀꢀꢀ
(1)
14.其中,acti(v)表示不同网络中用户v的活跃度,post(v)表示用户v发布微博的数量,interacti(v)表示用户v关注/转发/评论/提及其他用户的次数。
15.进一步地,所述交互强度用来描述并量化用户间的交互行为,定义交互强度如公式(2):
[0016][0017]
其中,rsi(v,u)表示不同网络中用户v与用户u的交互强度,interacti(v,u)表示用户u转发/评论/提及用户v的次数,interacti(u)表示用户u转发/评论/提及其他用户的次数,interactedi(v)表示其他用户转发/评论/提及用户v的次数。
[0018]
进一步地,所述兴趣相似度被看作信息从一个用户传播到另一个用户可能性的指示器,用户间的兴趣相似度通过比较用户间属性关键字向量的相似性来度量;
[0019]
对于任意用户v,抽取用户属性的关键字,表示为kw(v)=(keyword1:weight1;keyword2:weight2;......),其中keywordi表示用户v属性中的关键字,weighti表示keywordi在用户v的属性中所占的权重;
[0020]
对于两个用户v和u,通过计算两个关键字向量中相同子向量的内积和来得到用户间的兴趣相似度值,即通过计算kw(v)和kw(u)中关键字的交集,分别得到v和u的两个子向量,表示为sk(v)=(ckw1:w
v1
;ckw2:w
v2
;......),sk(u)=(ckw1:w
u1
;ckw2:w
u2
;......),其中ckw*表示kw(v)和kw(u)相同的关键字,w
*
表示权重,则定义用户v和u的兴趣相似度如公式(3):
[0021][0022]
其中,is(v,u)表示用户v与用户u的兴趣相似度,w
vk
和w
uk
分别表示用户v和用户u对应的权重,s表示相同关键词的数量。
[0023]
进一步地,在转发、评论和提及子网中,通过交互强度和兴趣相似度量化用户间交互影响,定义用户间交互影响如公式(4):
[0024][0025]
其中,infi(v,u)表示不同网络中用户v与用户u间的交互影响,rsi(v,u)表示表示不同网络中用户v与用户u的交互强度,is(v,u)表示用户v与用户u的兴趣相似度。
[0026]
进一步地,计算用户在转发子网中的影响力:
[0027]
定义在转发子网中用户v到用户u随机游走的转移概率如公式(5):
[0028][0029]
其中,ree(u)表示转发用户u的用户集合,infr(v,u)表示转发子网中用户v与用户
u间的交互影响;
[0030]
定义单个用户与转发子网中所有用户的活跃度之和的比值作为跳转概率,如公式(6):
[0031][0032]
其中,actr(v)表示转发子网中用户v的活跃度,θ值取不为0的小数;
[0033]
计算用户v在转发子网中的影响力如公式(7):
[0034][0035]
其中,α取0.85,ret(v)表示用户v转发的用户集合。
[0036]
进一步地,计算用户在评论子网中的影响力:
[0037]
定义在评论子网中用户v到用户u随机游走的转移概率如公式(8):
[0038][0039]
其中,coe(u)表示评论用户u的用户集合,infc(v,u)表示评论子网中用户v与用户u间的交互影响;
[0040]
定义单个用户与评论子网中所有用户的活跃度之和的比值作为跳转概率,如公式(9):
[0041][0042]
其中,actc(v)表示评论子网中用户v的活跃度,θ值取不为0的小数;
[0043]
计算用户v在评论子网中的影响力如公式(10):
[0044][0045]
其中,α取0.85,com(v)表示用户v评论的用户集合;
[0046]
同理,计算用户在提及子网中的影响力:
[0047]
在提及子网中,转移概率如公式(11):
[0048][0049]
其中,mee(u)表示提及用户u的用户集合,infm(v,u)表示提及子网中用户v与用户u间的交互影响;
[0050]
跳转概率如公式(12):
[0051][0052]
其中,actm(v)表示提及子网中用户v的活跃度,θ值取不为0的小数;
[0053]
计算用户v在提及子网中的影响力如公式(13):
[0054][0055]
其中,α取0.85,men(v)表示用户v提及的用户集合。
[0056]
进一步地,计算用户在关注子网中的影响力:
[0057]
定义在关注子网中用户v到用户u的转移概率如公式(14):
[0058][0059]
其中,foe(u)表示用户u的关注用户集合,post(v)表示用户v发布微博的数量;
[0060]
跳转概率如公式(15):
[0061][0062]
其中,actf(v)表示关注子网中用户v的活跃度,θ值取不为0的小数;
[0063]
计算用户v在关注子网中的影响力如公式(16):
[0064][0065]
其中,α取0.85,fow(v)表示用户v的粉丝集合。
[0066]
进一步地,通过线性融合,计算用户在全局范围内的综合影响力如公式(17):
[0067]
asinf(v)=β1asinff(v)+β2asinfr(v)+β3asinfc(v)+β4asinfm(v)
ꢀꢀꢀ
(17)
[0068]
其中,β1、β2、β3、β4分别为用户在关注网络、转发网络、评论网络和提及网络中的影响力权重,且β1+β2+β3+β4=1。
[0069]
与现有技术相比,本发明具有以下优点:
[0070]
本发明在pagerank算法的基础上进行改进,在不同关系网络维度下,提出了一种结合用户活跃度、用户间交互强度和兴趣偏好等因素的用户影响力度量方法—asirank(actively strengthand interest based rank)来衡量用户在社交网络中的影响力;首先,为充分考虑不同关系对用户影响力的贡献,分别从关注关系、转发关系、评论关系和提及关系等多个角度分别构建用户的关系网络;其次,为剔除“僵尸用户”的影响,在不同的关系网络中,通过分析用户的活跃度评价用户节点的质量,作为pagerank的跳转概率;再次,基于用户间的交互强度和兴趣相似度等因素刻画用户间的紧密程度,作为pagerank权值分配的依据,以体现用户间的影响大小;最后,通过对不同关系网络中用户影响力进行加权求和从而得到用户的影响力排名。本发明在准确度、相关性、覆盖率等方面比现有方法具有更好的性能,准确性更高、与实际的真实值更为一致以及用户影响力的传播覆盖范围更广。
附图说明
[0071]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0072]
图1是本发明实施例的基于多角度分析的社交用户影响力度量方法的流程图;
[0073]
图2是本发明实施例的异构信息微博网络链接图;
[0074]
图3是本发明实施例的对于n=2,采用交叉验证法的准确度对比结果;
[0075]
图4是本发明实施例的对于n=3,采用交叉验证法的准确度对比结果;
[0076]
图5是本发明实施例的对于n=4,采用交叉验证法的准确度对比结果;
[0077]
图6是本发明实施例的采用新浪微博官方影响力评价方法的准确度对比结果;
[0078]
图7是本发明实施例的五种算法的覆盖率对比结果。
具体实施方式
[0079]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0080]
首先简要介绍下社交网络中pagerank算法,具体内容如下:
[0081]
pagerank是一种用于分析网页重要程度的算法,它的基本思想是通过分析网络中的拓扑特性来计算网页的重要性。借鉴了学术论文评判的方法,一个节点的重要性不仅要看被链接的数量,还要关注链接节点本身的质量,类似“通过看一个人的朋友来分析这个人”,pagerank算法计算公式定义为:
[0082][0083]
其中pr(v)为网页v的pagerank值,n是网络中的网页总数,bv是链接到页面v的网页集合,l(u)是链接到页面u的网页数量,d是阻尼因子,表示一个网页被随机访问的概率,通常设置为0.85。
[0084]
在社交网络中,用户之间的关系也是点对点的有向边,类似于网页之间的链接,可将pagerank算法用来分析社交网络中节点的重要性,将pagerank与社会影响模型联系起来,认为节点的权威性等同于用户的影响力,因此,pagerank算法有助于识别网络中有影响力的节点或意见领袖。
[0085]
在社交网络中,如果某个用户发表的观点总能被其他用户所认同,或者某个用户总能对当前热点事件给出自己独特的评价,并引起其他用户直接讨论和关注,则此类用户具有一定的影响力。在微博中,用户间的影响力不仅可以通过一个用户阅读其他用户微博的可能性来度量,用户间的转发、评论和提及等交互行为同样也是影响力传播的重要方式,因为它们更为准确地代表了用户的反应。对于微博网络中用户的影响力定义基于以下假设:如果一个用户被更多的用户关注、转发、评论或提及,那么认为该用户是具有更高的影响力,受pagerank算法启发,若一个用户被另一影响力高的用户关注、转发、评论或提及,则该用户的影响力也会相应增加。为此,本发明在关注、转发、评论和提及等多种链接关系网络下,通过分析用户影响力的生成和传递过程,综合评价用户的影响力;基于此,如图1所示,本实施例提出了一种基于多角度分析的社交用户影响力度量方法(简称asirank),该方法包含以下步骤:
[0086]
步骤s11,为充分考虑不同关系对用户影响力的贡献,从关注关系、转发关系、评论关系和提及关系多个角度分别构建用户的关系网络;
[0087]
步骤s12,在不同的关系网络中,利用用户活跃度、交互强度以及兴趣相似度来量化用户影响力;
[0088]
步骤s13,综合用户在不同角度下的影响力,得到用户在全局范围内的综合影响力。
[0089]
步骤s11中从多个角度分别构建用户的关系网络具体包括:
[0090]
社交用户之间的联系往往是通过好友关系形成的,利用好友关系网络建立信息传播和交互机制,用户可以方便地获取和发布信息,并对其他用户产生影响,传统对用户影响力的评价都是通过分析好友关系网络的拓扑特征实现的。但大多数社交网络是有向的异构网络,例如在微博中,用户间的链接关系不单单只有关注关系,还存在转发、评论和提及等多种交互关系,网络中的用户可以随意评论其他用户,可以转发自己感兴趣的内容,而不用互相关注。信息传播的途径复杂且多样,造就了由用户间不同行为构成的异构信息网络链接图,如图2所示。
[0091]
将原有的异构社交网络按照链接关系进行拆分,拆分出基于不同链接关系的同构子网,这样不仅没有损失原有的网络结构,反而可以挖掘出更多的用户关系。子网定义为gi={vi,ei},其中vi为用户的集合,ei为链接关系,i∈{f,r,c,m}分别对应关注、转发、评论和提及关系。对于特定的边(v,u),表示为用户u关注/转发/评论/提及用户v。每个用户都附加了个人信息,如关键字,用户发布的微博数等。同时,记录了每对用户之间的交互次数。
[0092]
对步骤s12中用户活跃度、交互强度以及兴趣相似度这三个影响因素进行如下详细分析。
[0093]
a.用户活跃度
[0094]
社交网络是一个体现社交活动的网络结构,其中每个用户的活跃程度是不同,也就决定了其节点质量的差异,即一个用户发布、阅读、转发、点赞和评论微博的频率越高,用户的状态就越活跃,表明用户参与到更多的网络活动中,所发挥的作用就更大。
[0095]
活跃度直接表示用户在网络中发生多种活动的频率,是用户的行为属性,也是衡量用户影响力的重要指标。在微博中,提高用户活跃程度是十分重要的,用户必须持续参与热点、创造话题,才能吸引粉丝注意,提高知名度。由于现实的社交网络中存在大量的“僵尸用户”,其特点是关注了大量用户但却很少发布原创内容或是产生交互行为,所以通过分析每个用户活动的频数,可以找出网络中活跃的节点,有效削弱“僵尸用户”对于影响力分析的干扰,提高计算结果的准确性。定义用户活跃度如公式(1):
[0096]
acti(v)=post(v)+interacti(v),i∈{f,r,c,m}
ꢀꢀꢀ
(1)
[0097]
其中,acti(v)表示不同网络中用户v的活跃度,post(v)表示用户v发布微博的数量,interacti(v)表示用户v关注/转发/评论/提及其他用户的次数。用户在不同的关系网络中活跃度的体现也是不同的,例如在关注子网中是不考虑转发、评论等交互行为的,所以只计算发布微博的数量,而在转发、评论和提及子网中,就要同时考虑发布微博和交互行为的次数。
[0098]
b.交互强度
[0099]
社交网络用户之间的发生的转发、评论和提及等交互行为可以表示为有向加权边,通过定义交互强度来描述并量化用户间的交互行为。用户之间发生的交互行为越多,证明用户间产生影响就越深。例如在转发网络中,转发强度由两部分组成。第一部分是用户u
转发用户v的次数除以用户u转发其他用户的总次数。第二部分可以表示为用户u转发用户v的次数除以其他用户转发用户v的总次数。这两部分都符合这样一个事实,即值越大,用户v对用户u的影响越大。同理,评论和提及两种交互关系也有此现象,所以在转发、评论和提及关系网络中,定义交互强度如公式(2):
[0100][0101]
其中,rsi(v,u)表示不同网络中用户v与用户u的交互强度,interacti(v,u)表示用户u转发/评论/提及用户v的次数,interacti(u)表示用户u转发/评论/提及其他用户的次数,interactedi(v)表示其他用户转发/评论/提及用户v的次数。
[0102]
c.兴趣相似度
[0103]
在社交网络中,用户间的兴趣相似度可以被看作是信息从一个用户传播到另一个用户可能性的指示器,即潜在的交互。通常,兴趣相似度越大的用户,越有可能对相同的对象感兴趣,从而导致用户之间更容易被相互影响。同时,用户间的转发、评论和提及等行为很大程度也是基于相同兴趣爱好而产生的,因此,在转发、评论和提及关系网络中,考虑兴趣相似度可更好地刻画一个用户的影响力。
[0104]
用户间的兴趣相似度可以通过比较用户间属性关键字向量的相似性来度量;对于任意用户v,可抽取用户属性的关键字,表示为kw(v)=(keyword1:weight1;keyword2:weight2;......),其中keywordi表示用户v属性中的关键字,weighti表示keywordi在用户v的属性中所占的权重。对于两个用户v和u,可通过计算两个关键字向量中相同子向量的内积和来得到用户间的兴趣相似度值,即通过计算kw(v)和kw(u)中关键字的交集,分别得到v和u的两个子向量,表示为sk(v)=(ckw1:w
v1
;ckw2:w
v2
;......),sk(u)=(ckw1:w
u1
;ckw2:w
u2
;......),其中ckw*表示kw(v)和kw(u)相同的关键字,w
*
表示权重。则定义用户v和u的兴趣相似度如公式(3):
[0105][0106]
其中,is(v,u)表示用户v与用户u的兴趣相似度,w
vk
和w
uk
分别表示用户v和用户u对应的权重,s表示相同关键词的数量。
[0107]
综上所述,用户间交互影响代表用户v对用户u的影响程度,值越大,用户v对用户u的影响越大,信息将越有可能从用户v扩散到用户u。前面提出的两个不同的交互度量指标都可以用来衡量用户之间的影响程度。因此,为了简单起见,在转发、评论和提及子网中,通过交互强度和兴趣相似度量化用户间交互影响,定义用户间交互影响如公式(4):
[0108][0109]
其中,infi(v,u)表示不同网络中用户v与用户u间的交互影响,rsi(v,u)表示表示不同网络中用户v与用户u的交互强度,is(v,u)表示用户v与用户u的兴趣相似度。在这里,认为上述两个指标起着相同的作用,并在计算交互影响之前,将每个指标进行归一化,设置最大值为1.0,其他值按比例进行相应的更改。
[0110]
步骤s13中用户在不同角度下的影响力包括用户在转发子网、评论子网、提及子网和关注子网的影响力。
[0111]
a.计算用户在转发子网中的影响力
[0112]
利用用户活跃度和用户间交互影响,评估一个用户在网络中的影响。本发明采用pagerank算法的思想,通过随机游走的方式,进一步考虑用户活跃度和用户间交互特性来对用户影响力进行分析。在pagerank算法中有两个关键的概率需要处理,一是用户与其链接用户之间的转移概率;另一个是用户读取非链接信息的跳转概率,这是随机游走重启的重要因素。这两个关键点也是本发明将用户活跃度和用户间交互影响应用到pagerank算法的地方。
[0113]
定义在转发子网中用户v到用户u随机游走的转移概率如公式(5):
[0114][0115]
其中,ree(u)表示转发用户u的用户集合,infr(v,u)表示转发子网中用户v与用户u间的交互影响。
[0116]
对于跳转概率,传统的pagerank算法将其设置为1/n,表示每个用户被其他用户访问的概率相同。但是在社交网络中,可以认为如果一个用户在网络中越活跃,其他用户越有可能被这个用户吸引,进而访问这个用户,因此,本发明通过用户活跃度来计算跳转概率,定义如公式(6):
[0117][0118]
即用单个用户与转发子网中所有用户的活跃度之和的比值作为跳转概率,actr(v)表示转发子网中用户v的活跃度,θ值取不为0的小数,例如:0.01或者0.1,这里θ值是为了避免为零,从而保证网络中每个用户都能被访问到。
[0119]
这样就可以计算用户v在转发子网中的影响力如公式(7):
[0120][0121]
其中,α取0.85,ret(v)表示用户v转发的用户集合。
[0122]
b.计算用户在评论子网中的影响力
[0123]
在评论子网中,与转发子网中计算用户影响力一样,通过用户活跃度可以计算出跳转概率,利用用户间交互影响得到转移概率,最后可得到网络中每个用户的影响力,计算过程如下:
[0124]
定义在评论子网中用户v到用户u随机游走的转移概率如公式(8):
[0125][0126]
其中,coe(u)表示评论用户u的用户集合,infc(v,u)表示评论子网中用户v与用户u间的交互影响。
[0127]
定义单个用户与评论子网中所有用户的活跃度之和的比值作为跳转概率,如公式(9):
[0128][0129]
其中,actc(v)表示评论子网中用户v的活跃度,θ值取不为0的小数。
[0130]
计算用户v在评论子网中的影响力如公式(10):
[0131][0132]
其中,α取0.85,com(v)表示用户v评论的用户集合。
[0133]
c.计算用户在提及子网中的影响力
[0134]
同理,在提及子网中,转移概率如公式(11):
[0135][0136]
其中,mee(u)表示提及用户u的用户集合,infm(v,u)表示提及子网中用户v与用户u间的交互影响。
[0137]
跳转概率如公式(12):
[0138][0139]
其中,actm(v)表示提及子网中用户v的活跃度,θ值取不为0的小数。
[0140]
计算用户v在提及子网中的影响力如公式(13):
[0141][0142]
其中,α取0.85,men(v)表示用户v提及的用户集合。
[0143]
d.计算用户在关注子网中的影响力
[0144]
在关注子网中,由于用户之间的关注关系是无权有向边,无法通过交互强度去量化用户之间的交互影响,在这里通过分析用户间的推送微博这一行为来定义用户间的转移概率。假设用户u关注了很多用户,这些用户发布了不同数量的微博,所有这些微博都将直接推送到用户u。这样,如果被关注的用户集中用户v发布微博的数量越多,用户u收到的信息中来自用户v的部分就越多,从而导致用户v对用户u的影响更大,对应用户v到用户u的转移概率就更高。
[0145]
定义在关注子网中用户v到用户u的转移概率如公式(14):
[0146][0147]
其中,foe(u)表示用户u的关注用户集合,post(v)表示用户v发布微博的数量。
[0148]
跳转概率如公式(15):
[0149][0150]
其中,actf(v)表示关注子网中用户v的活跃度,θ值取不为0的小数。
[0151]
计算用户v在关注子网中的影响力如公式(16):
[0152][0153]
其中,α取0.85,fow(v)表示用户v的粉丝集合。
[0154]
步骤s13中计算用户在全局范围内的综合影响力
[0155]
基于上述对用户在关注、转发、评论和提及等不同网络维度下的影响力考量,通过线性融合计算用户的综合影响力,如公式(17):
[0156]
asinf(v)=β1asinff(v)+β2asinfr(v)+β3asinfc(v)+β4asinfm(v)
ꢀꢀ
(17)
[0157]
其中,β1、β2、β3、β4分别为用户在关注网络、转发网络、评论网络和提及网络中的影响力权重,显示了四种链接关系的重要性权重,且β1+β2+β3+β4=1。
[0158]
下面在腾讯微博真实数据集上进行试验,分别从准确度、相关度、覆盖率方面与mpprank、tunkrank、pagerank和degreerank等算法进行比较。
[0159]
a、实验设置
[0160]
腾讯微博是一种典型的社交网络,该网站中包含用户的个人属性信息和用户的微博内容信息以及用户之间的关注、转发、评论等交互关系信息。本发明使用了kdd cup 2012发布的腾讯微博数据集,它包含了本发明需要的所有数据。为了保证准确性,首先对数据集进行预处理,提取出包含100000个节点和1136750条边的子数据集,并设置相关实验参数,其中β1=0.15、β2=0.35、β3=0.3、β4=0.2、α=0.85。本实验在python3.5环境中进行,并在一台服务器上进行了测试。服务器的配置是intel core e5-2620 cpu,64gb ram,windows 10professional x64。
[0161]
b、对比的方法
[0162]
为了验证本发明提出的asirank方法的有效性,与以下几种测量微博数据集中用户影响力的方法进行比较。
[0163]
pagerank:在关注关系网络中运用原始的pagerank算法来衡量用户的影响。计算公式其中p(v,u)=1/followees(u),α值为0.85,该方法只考虑了关注网络下的拓扑结构。
[0164]
tunkrank:tunkrank算法是一种经典的微博用户影响力排序方法,计算公式为其中p(v
,
u)=1/followees(u),p是重启因子,理想值是0.287。
[0165]
mpprank:该方法同时考虑了用户的关注关系和基于内容的交互关系来分析用户影响力。
[0166]
degreerank:由于微博的关系网络可以表示为一个有向图,该方法使用用户的入度(粉丝数)来对影响力进行排名。
[0167]
c、准确度验证
[0168]
由于微博用户影响力的衡量标准众多,难以给定一个统一的标准,本发明分别采用交叉验证法和新浪微博官方影响力评价方法来得出参考排名,同时考察准确度和相关性等指标。交叉验证法是将多种算法认为的正确结果作为最终的正确结果。例如,给定5种算法,每种算法得到的排序集合分别为fa,fb,fc,fd,fe,当设置n=2时,即将2种算法认为的正
确结果作为最终的参考结果,称其为参考排名refrank2,定义如公式(18):
[0169]
refrank2=(fa∩fb)∪(fa∩fc)∪(fa∩fd)∪(fa∩fe)∪(fb∩fc)∪(fb∩fd)
[0170]
∪(fb∩fe)∪(fc∩fd)∪(fc∩fe)∪(fd∩fe)
ꢀꢀꢀꢀꢀꢀꢀ
(18)
[0171]
则算法a的准确度计算如公式(19),其他算法的准确度计算同理。
[0172]
accuracya=|fa∩refrank2|/faꢀꢀꢀ
(19)
[0173]
新浪微博官方影响力计算公式为:影响力=a
×
活跃度+b
×
互动力+c
×
覆盖度,满分为100分,由活跃度,互动力,覆盖度三部分组成,所占比例分别为:a=25%,b=55%,c=20%。其中,活跃度的计算指标为微博发布的数量;互动力的计算指标为用户被转发、评论和提及的次数;覆盖度的计算指标为用户的粉丝数量。按照上述评测标准计算每一个用户的分值并进行排序,从而也可得到一个参考排名refrankw。同样,使用公式(19)来评价不同影响力排序方法的准确度。本文验证了top10、top20、top30、top50、top80、top100下五种算法的准确度,对于n=2,3,4,采用交叉验证法的结果如图3、图4和图5所示,采用新浪微博官方影响力评价方法的结果如图6所示。
[0174]
结果表明,asirank方法在4个参考集中准确度最高,mpprank和tunkrank次之。pagerank和degreerank的准确度最低。对于交叉验证法,所有方法的准确度下降的趋势随着n的增加而增加,这是因为随着n值的增加,参考集合中的节点数减少,导致每种方法top-k与参考集合相交的节点数也同样随之减少。同时,随着top-k的增加,所有方法的精度都呈现出增加的趋势。当n=2时,asirank的性能最好,其准确度几乎达到90%。degreerank的低精度表明大量的粉丝并没有带来更大的影响,仅凭拓扑测量(如粉丝数量),很难揭示用户的影响力。pagerank的较差准确度也可以看出仅仅考虑一种关系,并不能准确的量化用户的影响力,需要综合考虑多种链接关系以及活跃度、交互强度、兴趣偏好等因素。
[0175]
在图6中,相较于新浪微博官方影响力评价方法,可以很明显观察到degreerank方法的准确度要比其他几种方法低的多,无论是前多少的排名中,asirank方法表现的最好,当对top100的用户进行比较时,本发明提出的方法相比于mpprank、tunkrank、pagerank和degreerank等算法,在计算准确度上分别提高了4%、7%、10%和20%。综上所述,从两个方面都能证明本发明提出的方法在分析用户影响力方面准确性更高。
[0176]
d、相关性比较
[0177]
为了进一步比较这五种算法,进而突出哪一种算法与实际的真实值更为一致,本发明使用spearman等级相关系数来计算整体排名的性能,用spearman等级相关系数ρ分析不同排名之间的相关性:
[0178][0179]
其中,和分别为相同用户在参考排名和待评价排名中的位置,其中上标t表示每一个用户变量,表示两个变量分别排序后成对的变量位置差,因子ρ的取值范围为[-1,1],如果两个等级完全相同,则ρ=1,反之,则ρ=-1。spearman等级相关性值越高,参考排名与待评价排名的相关性就越强,待评价方法的效果越好。
[0180]
表1相关性对比结果
[0181][0182]
在表1中显示了在不同评价标准下每种排序方法的spearman等级相关系数,使用refrank作为参考排名,可以看到在两种评价标准下asirank方法都具有更高的ρ值,即具有较高的秩相关性。这一结果表明,与其他四种排序算法相比,asirank方法得到的排名在总体上是可信的。
[0183]
d、覆盖率比较
[0184]
本发明采用独立级联模型(independentcascademodel)来检验用户影响力的传播覆盖范围。当一个用户的微博信息被其他用户游览并做出相应的互动行为,意味着影响在用户间进行了传递,这种传播行为符合独立级联模型中的激活行为,因此选用ic级联模型做覆盖率实验。选取影响力排名前k%的用户作为种子节点,网络中剩余用户作为待激活用户。比较上述五种算法的覆盖率,实验结果如图7。
[0185]
图7中,横坐标代表种子节点在整体用户中的比例,纵坐标表示被影响的用户在整体用户中所占的比值,比值越大,被影响的用户就越多,即影响所覆盖的范围就越广,从图中的结果可以看出,asirank算法的覆盖率均要优于mpprank、tunkrank、pagerank和degreerank算法。当用户比例为0.6时,用户被激活的数量已经占整体的90%,且比mpprank算法多出5%(大约5000多用户),这表明本发明提出的算法得出的影响力大的用户影响范围更广。
[0186]
本发明通过改进传统pagerank算法度量社交网络中的用户影响力,在不同关系网络维度下,选取用户活跃度、交互强度和兴趣相似度等多种有针对性的特征,提出了asirank算法,并与四种现有的方法进行比较,分别用准确率、覆盖率和相关性等指标验证了算法的有效性。实验结果表明,asirank方法的性能优于其他排序方法。
[0187]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0188]
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
技术特征:
1.一种基于多角度分析的社交用户影响力度量方法,其特征在于,包含以下步骤:从多个角度分别构建用户的关系网络;在不同的关系网络中,利用用户活跃度、交互强度以及兴趣相似度来量化用户影响力;综合用户在不同角度下的影响力,得到用户在全局范围内的综合影响力。2.根据权利要求1所述的基于多角度分析的社交用户影响力度量方法,其特征在于,所述从多个角度分别构建用户的关系网络包括:从关注关系、转发关系、评论关系和提及关系多个角度分别构建用户的关系网络,该关系网络定义为g
i
={v
i
,e
i
},其中v
i
为用户的集合,e
i
为链接关系,i∈{f,r,c,m}分别对应关注、转发、评论和提及关系。3.根据权利要求2所述的基于多角度分析的社交用户影响力度量方法,其特征在于,所述用户活跃度表示用户在网络中发生多种活动的频率,定义用户活跃度如公式(1):act
i
(v)=post(v)+interact
i
(v),i∈{f,r,c,m}
ꢀꢀꢀꢀ
(1)其中,act
i
(v)表示不同网络中用户v的活跃度,post(v)表示用户v发布微博的数量,interact
i
(v)表示用户v关注/转发/评论/提及其他用户的次数。4.根据权利要求3述的基于多角度分析的社交用户影响力度量方法,其特征在于,所述交互强度用来描述并量化用户间的交互行为,定义交互强度如公式(2):其中,rs
i
(v,u)表示不同网络中用户v与用户u的交互强度,interact
i
(v,u)表示用户u转发/评论/提及用户v的次数,interact
i
(u)表示用户u转发/评论/提及其他用户的次数,interacted
i
(v)表示其他用户转发/评论/提及用户v的次数。5.根据权利要求4所述的基于多角度分析的社交用户影响力度量方法,其特征在于,所述兴趣相似度被看作信息从一个用户传播到另一个用户可能性的指示器,用户间的兴趣相似度通过比较用户间属性关键字向量的相似性来度量;对于任意用户v,抽取用户属性的关键字,表示为kw(v)=(keyword1:weight1;keyword2:weight2;......),其中keywordi表示用户v属性中的关键字,weighti表示keywordi在用户v的属性中所占的权重;对于两个用户v和u,通过计算两个关键字向量中相同子向量的内积和来得到用户间的兴趣相似度值,即通过计算kw(v)和kw(u)中关键字的交集,分别得到v和u的两个子向量,表示为sk(v)=(ckw1:w
v1
;ckw2:w
v2
;......),sk(u)=(ckw1:w
u1
;ckw2:w
u2
;......),其中ckw*表示kw(v)和kw(u)相同的关键字,w
*
表示权重,则定义用户v和u的兴趣相似度如公式(3):其中,is(v,u)表示用户v与用户u的兴趣相似度,w
vk
和w
uk
分别表示用户v和用户u对应的权重,s表示相同关键词的数量。6.根据权利要求5所述的基于多角度分析的社交用户影响力度量方法,其特征在于,在转发、评论和提及子网中,通过交互强度和兴趣相似度量化用户间交互影响,定义用户间交互影响如公式(4):
其中,inf
i
(v,u)表示不同网络中用户v与用户u间的交互影响,rs
i
(v,u)表示表示不同网络中用户v与用户u的交互强度,is(v,u)表示用户v与用户u的兴趣相似度。7.根据权利要求6所述的基于多角度分析的社交用户影响力度量方法,其特征在于,计算用户在转发子网中的影响力:定义在转发子网中用户v到用户u随机游走的转移概率如公式(5):其中,ree(u)表示转发用户u的用户集合,inf
r
(v,u)表示转发子网中用户v与用户u间的交互影响;定义单个用户与转发子网中所有用户的活跃度之和的比值作为跳转概率,如公式(6):其中,act
r
(v)表示转发子网中用户v的活跃度,θ值取不为0的小数;计算用户v在转发子网中的影响力如公式(7):其中,α取0.85,ret(v)表示用户v转发的用户集合。8.根据权利要求7所述的基于多角度分析的社交用户影响力度量方法,其特征在于,计算用户在评论子网中的影响力:定义在评论子网中用户v到用户u随机游走的转移概率如公式(8):其中,coe(u)表示评论用户u的用户集合,inf
c
(v,u)表示评论子网中用户v与用户u间的交互影响;定义单个用户与评论子网中所有用户的活跃度之和的比值作为跳转概率,如公式(9):其中,act
c
(v)表示评论子网中用户v的活跃度,θ值取不为0的小数;计算用户v在评论子网中的影响力如公式(10):其中,α取0.85,com(v)表示用户v评论的用户集合;同理,计算用户在提及子网中的影响力:在提及子网中,转移概率如公式(11):
其中,mee(u)表示提及用户u的用户集合,inf
m
(v,u)表示提及子网中用户v与用户u间的交互影响;跳转概率如公式(12):其中,act
m
(v)表示提及子网中用户v的活跃度,θ值取不为0的小数;计算用户v在提及子网中的影响力如公式(13):其中,α取0.85,men(v)表示用户v提及的用户集合。9.根据权利要求8所述的基于多角度分析的社交用户影响力度量方法,其特征在于,计算用户在关注子网中的影响力:定义在关注子网中用户v到用户u的转移概率如公式(14):其中,foe(u)表示用户u的关注用户集合,post(v)表示用户v发布微博的数量;跳转概率如公式(15):其中,act
f
(v)表示关注子网中用户v的活跃度,θ值取不为0的小数;计算用户v在关注子网中的影响力如公式(16):其中,α取0.85,fow(v)表示用户v的粉丝集合。10.根据权利要求9所述的基于多角度分析的社交用户影响力度量方法,其特征在于,通过线性融合,计算用户在全局范围内的综合影响力如公式(17):asinf(v)=β1asinf
f
(v)+β2asinf
r
(v)+β3asinf
c
(v)+β4asinf
m
(v)
ꢀꢀꢀꢀ
(17)其中,β1、β2、β3、β4分别为用户在关注网络、转发网络、评论网络和提及网络中的影响力权重,且β1+β2+β3+β4=1。
技术总结
本发明属于衡量社交影响力技术领域,特别涉及一种基于多角度分析的社交用户影响力度量方法,首先,为充分考虑不同关系对用户影响力的贡献,从关注关系、转发关系、评论关系和提及关系多个角度分别构建用户的关系网络;其次,在不同的关系网络中,利用用户活跃度、交互强度以及兴趣相似度来量化用户影响力;最后,综合用户在不同角度下的影响力,得到用户在全局范围内的综合影响力。本发明在准确度、相关性、覆盖率等方面比现有方法具有更好的性能,准确性更高、与实际的真实值更为一致以及用户影响力的传播覆盖范围更广。影响力的传播覆盖范围更广。影响力的传播覆盖范围更广。
技术研发人员:巩道福 李震宇 谭磊 刘粉林 杨春芳 彭帅衡 徐金卯
受保护的技术使用者:中国人民解放军战略支援部队信息工程大学
技术研发日:2020.11.16
技术公布日:2022/3/7