话题领域中社交网络关键节点的识别方法

文档序号:10687125阅读:420来源:国知局
话题领域中社交网络关键节点的识别方法
【专利摘要】本发明提出了一种话题领域中社交网络关键节点的识别方法,克服现有技术中没有考虑到真实社交网络中用户节点对于信息传播的影响因素以及计算复杂性较高的问题。其实现步骤是:(1)构建网络的有向图;(2)生成与有向图对应的邻接矩阵;(3)量化用户节点对信息传播的影响因素;(4)量化用户节点的话题topic相关度;(5)量化用户节点信息传播能力;(6)识别关键节点。本发明提出的方法依赖于网络的本地拓扑结构,引入了实际社交网络中用户节点对于信息传播影响因素及用户话题相关度的概念,降低了计算的复杂性,可以有效地识别出话题领域中社交网络关键节点。
【专利说明】
话题领域中社交网络关键节点的识别方法
技术领域
[0001] 本发明属于网络技术领域,更进一步涉及数据挖掘技术领域的一种基于话题领域 社交网络中关键节点的识别方法。本发明通过对用户信息传播属性特征值的量化以及传播 模型的建立,在不需要整体网络拓扑结构的情况下,可有效地识别出特定话题领域中关键 节点。
【背景技术】
[0002] 社交网络中关键节点识别的研究源于复杂网络的研究工作,其特点是利用复杂网 络理论,分析节点及节点间的交互关系,进行网络模型的建立,对网络中关键节点进行识 另IJ,有助于更好地理解社交网络中信息传播过程,解决网络中信息传播最大化问题。目前, 已有的网络中关键节点的识别方法大都以来于网络拓扑结构,忽略了真实社交网络中信息 传播所具有的话题限制,社交网络中用户对于信息的关注依赖于个人所感兴趣的话题,不 同的话题领域中关键节点不同,如针对医学信息的传播,在具有相同度的情况下,在医学方 面具有权威性的用户比没有医学知识用户具有较高的可信度,更加有利于该类信息的传 播。
[0003] 西北工业大学申请的专利"微博网络意见领袖的识别方法"(专利申请号 201310027808.4,公开号CN 103136331 A)中公开了一种微博网络意见领袖的识别方法。该 方法包括信息的搜集,节点间交互关系权值的设定,以及意见领袖的识别,考虑到节点的粉 丝数量,节点链接关系和交互关系,从而通过权重的大小来标识节点重要性和影响力。该方 法存在的不足之处是,意见领袖的识别方法中没有考虑意见领袖中存在的话题限制,使得 通过识别方法得到的意见领袖在进行信息的传播的过程中,无法实现最短时间内信息的传 播最大化,降低了意见领袖识别准确性问题。
[0004] Zhongwu Zhai,Hua Xu,Peifa Jia在其发表的论文 "Identify ing Opinion Leaders in BBS"(IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology,2008)中提出一种用户兴趣的意见领袖识别方法。该方法 考虑到在BBS中信息传播过程中兴趣领域的限制问题,并通过与Zcore,PageRank等算法进 行对比,验证其方法的有效性。该方法存在的不足之处是,对于用户信息的回复链量化过程 中,计算复杂度相对较高,使得识别过程的开销增大,降低了关键节点识别的效率。
[0005] Klaus Wehmuth,Artur Ziviani在其发表的论文"Distributed Assessment of the Closeness Centrality Ranking in Complex Networks"(The Fourth Annual Workshop on Simplifying Complex Networks for Practitioners,2012)中提出一种利 用紧密中心性方法对关键节点进行分布式评估的方法。该方法在传统紧密中心性的计算方 法进行了改进,不需要了解网络整体拓扑结构的信息,仅依赖于本地拓扑结构的信息,降低 了关键节点识别方法的复杂性。该方法存在的不足之处是,没有考虑到真实社交网络中用 户节点对于信息传播的影响因素,较低了识别的有效性。

【发明内容】

[0006] 本发明的目的在于克服上述现有技术的不足,提出一种话题领域中社交网络关键 节点的识别方法,以实现实际社交网络中关键节点的识别。本发明通过分析网络拓扑结构, 量化用户节点对信息传播的影响因素及用户节点的话题topic相关度,依据实际社交网络 中用户节点信息传播能力,有效地实现话题领域中社交网络关键节点的识别。
[0007] 本发明的具体步骤如下:
[0008] (1)构建网络的有向图:
[0009] 将待识别的社交网络映射成有向图G(V,E),其中,V表示社交网络用户节点集合,E 表示社交网络用户节点间的交互关系集合。
[0010] (2)采用网络邻接矩阵的生成方法,生成与有向图对应的邻接矩阵。
[0011] (3)量化用户节点对信息传播的影响因素:
[0012] (3a)搜集用户发布的信息,按照下式,量化影响信息传播的用户节点信息发布的 活跃度:
[0014] 其中,Ai表示社交网络中第i个用户节点信息发布的活跃度,i表示社交网络中的 用户节点,n表示用户发布信息所选取的时间段的总数,E表示求和操作,/%表示用户发布 信息选取的A h时间段内用户发布信息的平均数,A k表示用户发布信息选取的第j个时间 段;
[0015] (3b)从搜集到的用户节点发布的信息中,提取影响信息传播的邻居节点对信息转 发数目、邻居节点对信息评论数目、邻居节点对信息赞同数目;
[0016] (3c)利用Saaty的10级重要性等级表,计算用户节点信息发布的活跃度、邻居用户 节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数 目对信息传播影响的权值;
[0017] (3d)按照下式,计算用户节点对信息传播影响因素的量化值:
[0018] Ui = aAi+ftri+y (r2+r3)
[0019] 其中,仏表示社交网络中第i个用户节点对信息传播影响因素的量化值,a表示用 户节点信息发布的活跃度对信息传播影响的权值,仏表示社交网络中第i个用户节点发布 信息的活跃度,0表示邻居用户节点对信息转发的数目对信息传播影响的权值,^表示邻居 用户节点对信息转发数目,Y表示邻居用户节点对信息评论的数目和邻居用户节点对信息 赞同的数目对信息传播影响的权值,^表示邻居用户节点对信息评论数目,r 3表示邻居用户 节点对信息赞同数目。
[0020] (4)量化用户节点的话题topic相关度:
[0021] (4a)搜集与话题topic相关的信息,从所搜集到的与话题topic相关的信息中,提 取与话题topic高度相关的高频词汇集wn;
[0022] (4b)搜集用户节点当前时间段内发布的信息,建立用户节点发布的信息集合M1;
[0023] (4c)利用汉词分词工具,对用户节点发布信息集合I中的每条信息进行数据处 理,建立用户节点发布信息的分词集合姐。;
[0024] (4d)将用户节点发布信息的分词集合Mi。与话题topic高度相关的高频词汇集wn进 行对比,采用权值设定方法,得到用户节点发布信息集合姐中每条信息与话题topic的相关 度气。;
[0025] (4e)通过下述量化公式,计算用户节点的话题topic相关度:
[0027]其中,Ri表示社交网络中第i个用户节点的话题topic相关度,s表示当前时间段内 用户节点发布信息的数目,E表示求和操作,G表示属于符号,Mi表示社交网络中第i个用 户节点发信息集合,mj。表示用户节点发布的信息集合中第j条信息的分词集合,表示用 户节点发布的信息集合中第j条信息与话题topic的相关度。
[0028] (5)量化用户节点信息传播能力:
[0029] (5a)按照下式,计算用户节点基本的信息传播能力:
[0030] PR(Vi) = deg(v,) * U,. * R,.
[0031] 其中,表示用户节点Vl基本的信息传播能力,Vl表示社交网络中第i个用户 节点,deg( Vi)表示用户节点Vi的度,Ui表示社交网络中第i个用户节点对对信息传播的影响 因素的量化值,心表示社交网络中第i个用户节点的话题topic相关度;
[0032] (5b)依据网络有向图中用户节点间的交互关系,按照下式,计算社交网络用户节 点的信息传播能力:
[0034]其中,PR(Vl)表示社交网络中第i个用户节点^信息传播能力,d表示阻尼系数,设 置为默认值〇.85,n表示社交网络中节点的总数,E表示求和操作,w(Vj,Vl)表示从社交网络 第i个用户节点 Vl到社交网络第j个用户节点W信息传播的概率,Vl表示社交网络的第i个用 户节点^表示社交网络的第j个用户节点,*表示相乘操作,degf表示社交网络中第j个用 户节点出度的大小;
[0035] (5c)判断相邻两次信息传播能力的差值是否小于0.01,若是,将相邻两次的最后 一次计算得到的结果作为社交网络用户节点的信息传播能力,执行步骤(6),否则,执行步 骤(5b)。
[0036] (6)识别关键节点:
[0037] (6a)按照从大到小的顺序,将社交网络用户节点的信息传播能力进行排序;
[0038] (6b)将排序中的前Q个用户节点作为网络关键节点,QG(〇, 10%)。
[0039] 本发明与现有技术相比存在以下优点:
[0040] 第一,由于本发明中对于用户节点信息传播能力的初始值计算,依赖于用户节点 的本地拓扑结构信息中度的大小作为用户节点基本信息传播能力,克服了现有技术当中存 在的计算复杂度相对较高,识别过程的开销增大,降低了关键节点识别的效率的问题,使得 本发明具有降低计算复杂度,提高关键节点识别效率优点。
[0041] 第二,由于本发明量化了用户节点对信息传播的影响因素,以及信息传播的影响 因素中用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信 息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值,克服了现有技术 中没有考虑到真实社交网络中用户节点对于信息传播的影响因素,较低了识别的有效性问 题,使得本发明具有提高关键节点识别有效性的优点。
[0042] 第三,由于社交网络中不同的话题topic领域中关键节点不同,本发明引入了用户 节点话题topic相关度的概念,针对社交网络特定话题领域中关键节点进行识别,克服了现 有技术当中存在的意见领袖的识别方法中没有考虑意见领袖中存在的话题限制,使得通过 识别方法得到的意见领袖在进行信息的传播的过程中,无法实现最短时间内信息的传播最 大化,降低了意见领袖识别准确性问题,使得本发明具有提高不同话题领域关键节点识别 准确性的优点。
【附图说明】
[0043] 图1为本发明的流程图;
[0044]图2为本发明量化用户节点的话题topic相关度步骤的流程图。
【具体实施方式】
[0045]下面结合图对本发明做进一步的详细描述。
[0046]参照图1,对本发明的具体实施步骤做进一步的详细描述。
[0047]步骤1.构建网络的有向图。
[0048] 将待识别的社交网络映射成有向图G(V,E),其中,V表示社交网络用户节点集合,E 表示社交网络用户节点间的交互关系集合。
[0049] 在本发明步骤1的实施例中,以国内大型微博网络一一新浪微博作为待识别的社 交网络,所采集到的用户数量为38225,用户之间的交互关系数目为57351,每个用户对于一 个节点,用户之间的交互关系对应节点之间的连接边。
[0050] 步骤2.生成与有向图对应的邻接矩阵。
[0051 ]采用网络邻接矩阵的生成方法,生成与有向图对应的邻接矩阵。
[0052]网络邻接矩阵的生成方法是指,从有向图中任意选取两个节点,判断所选取的两 个节点之间是否存在连接边,若存在,则得到与有向图对应的邻接矩阵中相应的元素W(Vi, vj),否则为0,其中,w(vj,vi)表示从社交网络第i个用户节点Vi到社交网络第j个用户节点vj 信息传播的概率, Vl表示社交网络的第i个用户节点,W表示社交网络的第j个用户节点。 [0053]在本发明步骤2的实施例中,当生成与有向图对应的邻接矩阵时,由于社交网络用 户节点间的交互关系有向性,邻接矩阵中相应的元素w(Vi, Vj)中,若i辛j,则w(Vi,Vj)辛w (Vj,Vl),由此得到邻接矩阵为:
[0055] 步骤3.量化用户节点对信息传播的影响因素。
[0056] 搜集用户发布的信息,按照下式,量化影响信息传播的用户节点信息发布的活跃 度:
[0058] 其中,A:表示社交网络中第i个用户节点信息发布的活跃度,i表示社交网络中的 用户节点,n表示用户发布信息所选取的时间段的总数,E表示求和操作,表示用户发布 信息选取的A h时间段内用户发布信息的平均数,A k表示用户发布信息选取的第j个时间 段。
[0059] 从搜集到的用户节点发布的信息中,提取影响信息传播的邻居节点对信息转发数 目、邻居节点对信息评论数目、邻居节点对信息赞同数目。
[0060] 利用Saaty的10级重要性等级表,计算用户节点信息发布的活跃度、邻居用户节点 对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对 信息传播影响的权值。
[0061] 计算用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节 点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值具体步骤如 下:
[0062]第1步,利用Saaty的10级重要性等级表,将用户节点发布信息的活跃度比邻居用 户节点对信息转发的数目稍微重要的影响,表示为等级3;将邻居用户节点对信息转发的数 目比邻居用户节点对信息评论的数目稍微重要的影响,表示为等级3;将邻居用户节点对信 息评论的数目和邻居用户节点对信息赞同数目同等重要的影响,表示为等级1;将用户节点 发布信息的活跃度比用户的受关注度较强重要的影响表示为等级5;
[0063]第2步,依据第1步中用户节点发布信息的活跃度、邻居用户节点对信息转发的数 目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同数目之间任意两两对比得 到的影响等级,建立等级对应的两两判断矩阵A4*4 ;
[0064]第3步,将等级对应的两两判断矩阵A4*4按列进行归一化处理,得到对应的矩阵 B4*4;
[0065] 第4步,将对应的矩阵B4*4中的元素按行相加,得到每行对应的行向量C(C1, C2,C3, C4)T,其中,T表不转置矩阵的符号;
[0066] 第5步,对行向量以仏^力^以进行归一化处理省到用户节点信息发布的活跃 度对信息传播影响的权值,邻居用户节点对信息转发的数目对信息传播影响的权值,邻居 用户节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值。 [0067]按照下式,计算用户节点对信息传播影响因素的量化值:
[0068] Ui = aAi+ftri+y (r2+r3)
[0069] 其中,仏表示社交网络中第i个用户节点对信息传播影响因素的量化值,a表示用 户节点信息发布的活跃度对信息传播影响的权值,仏表示社交网络中第i个用户节点发布 信息的活跃度,0表示邻居用户节点对信息转发的数目对信息传播影响的权值,^表示邻居 用户节点对信息转发数目,Y表示邻居用户节点对信息评论的数目和邻居用户节点对信息 赞同的数目对信息传播影响的权值,^表示邻居用户节点对信息评论数目,r3表示邻居用户 节点对信息赞同数目。
[0070]在本发明步骤3的实施例中,依据用户节点发布信息的活跃度、邻居用户节点对信 息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同数目之间任意 两两对比得到的影响等级,建立等级对应的两两判断矩阵A4*4为:
[0072]将等级对应的两两判断矩阵A4*4按列进行归一化处理,得到对应的矩阵B4*4,将对 应的矩阵B4*4中的元素按行相加,得到对应的行向量以(31,〇2,〇3,〇4)1,最终得到的用户节点 信息发布的活跃度对信息传播影响的权值为a = 0.5596,邻居用户节点对信息转发的数目 对信息传播影响的权值0 = 0.2495,邻居用户节点对信息评论的数目和邻居用户节点对信 息赞同的数目对信息传播影响的权值为T =〇.0955。
[0073]步骤4.量化用户节点的话题topic相关度。
[0074]参照图2,对本发明的具体实施步骤做进一步的详细描述。
[0075]搜集与话题topic相关的信息,从所搜集到的与话题topic相关的信息中,提取与 话题topic高度相关的高频词汇集Wn。
[0076]提取与话题topic高度相关的高频词汇集Wn的方法是指,依据搜集用户节点当前 时间段内发布的信息进行分词,提取出关键词语,将提取出的关键词语组成与话题topic高 度相关的高频词汇集wn,其中,高频词汇集Wn的大小为|w n| =50。
[0077]搜集用户节点当前时间段内发布的信息,建立用户节点发布的信息集合I。
[0078]利用汉词分词工具,对用户节点发布信息集合I中的每条信息进行数据处理,建 立用户节点发布信息的分词集合Mlc。
[0079]数据处理的具体步骤如下:
[0080]第1步,利用汉词分词工具,提取用户节点发布信息集合1中的每条信息词语,得 到初步用户节点发布信息的分词集合;
[0081]第2步,将初步用户节点发布信息的分词集合中的词语与停用词列表中的词语进 行对比,将相同的词语从初步的建立用户节点发布信息的分词集合中剔除,将剩余的初步 用户节点发布信息的分词集合的分词,组成用户节点发布信息的分词集合姐。。
[0082 ]将用户节点发布信息的分词集合Mi。与话题top i c高度相关的高频词汇集wn进行对 比,采用权值设定方法,得到用户节点发布信息集合1中每条信息与话题topic的相关度 mic °
[0083] 权值设定方法是指,从用户节点发布信息的分词集合中,每条信息的分词集合与 话题topic高度相关的高频词汇集对比结果中,选出相同词汇的数目k,依据下式,计算用户 节点发布信息集合中每条信息与话题topic的相关度:
[0084] mp = 8k
[0085] 其中,表示用户节点发布的信息集合中第j条信息与话题topic的相关度,S表 示权值SG(〇,l),k表示从用户节点发布信息的分词集合中,每条信息的分词集合与话题 topic高度相关的高频词汇集对比结果中选出相同词汇的数目。
[0086 ]通过下述量化公式,计算用户节点的话题top i c相关度:
[0088]其中,心表示社交网络中第i个用户节点的话题topic相关度,s表示当前时间段内 用户节点发布信息的数目,E表示求和操作,G表示属于符号,Mi表示社交网络中第i个用 户节点发信息集合,表示用户节点发布的信息集合中第j条信息的分词集合,巧:表示用 户节点发布的信息集合中第j条信息与话题topic的相关度。
[0089] 在本发明步骤4的实施例中,利用的汉词分词工具为中科院计算技术研究所研发 的汉语词法分析系统ICTCLAS,停用词列表为中国软件开发者社区CSDN提供的停用词列表。
[0090] 步骤5.量化用户节点信息传播能力。
[0091]按照下式,计算用户节点基本的信息传播能力:
[0092] PR(v.) = deg( V))
[0093] 其中,资(v/)表示用户节点Vi基本的信息传播能力,Vi表示社交网络中第i个用户 节点,deg( Vi)表示用户节点Vi的度,Ui表示社交网络中第i个用户节点对对信息传播的影响 因素的量化值,心表示社交网络中第i个用户节点的话题topic相关度。
[0094] 依据网络有向图中用户节点间的交互关系,按照下式,计算社交网络用户节点的 信息传播能力:
[0096] 其中,PR(Vl)表示社交网络中第i个用户节点^信息传播能力,d表示阻尼系数,设 置为默认值〇.85,n表示社交网络中节点的总数,E表示求和操作,w( Vj,Vl)表示从社交网络 第i个用户节点Vl到社交网络第j个用户节点W信息传播的概率, Vl表示社交网络的第i个用 户节点^表示社交网络的第j个用户节点,*表示相乘操作,表示社交网络中第j个用 户节点出度的大小。
[0097] 判断相邻两次信息传播能力的差值是否小于0.01,若是,将相邻两次的最后一次 计算得到的结果作为社交网络用户节点的信息传播能力,执行步骤6,否则,重新计算用户 节点信息传播能力。
[0098] 在本发明步骤5的实施例中,对于用户节点Vi的基本传播能力Pm)的计算中,由 于本实例的数据量较大,deg( Vl)取值设为用户节点Vl的度以10为底进行log运算的大小,按 照下式,计算从社交网络第i个用户节点 Vl到社交网络第j个用户节点W信息传播的概率w (vj,Vi):
[0099] w(Vi,Vj)=Uj*Rj*PR(Vi)
[0100] 其中,w(vj, Vi)表示从社交网络第i个用户节点Vi到社交网络第j个用户节点Vj信 息传播的概率,v谦示社交网络的第j个用户节点, Vl表示社交网络的第i个用户节点,山表 示社交网络中第j个用户节点对对信息传播的影响因素的量化值,心表示社交网络中第j个 用户节点的话题topic相关度,PR( Vi)表示社交网络中第i个用户节点Vi信息传播能力。 [0101]步骤6.识别关键节点。
[0102]按照从大到小的顺序,将社交网络用户节点的信息传播能力进行排序。
[0103]将排序中的前Q个用户节点作为网络关键节点,QG(〇, 10%)。
【主权项】
1. 一种话题领域中社交网络关键节点的识别方法,具体步骤如下: (1) 构建网络的有向图: 将待识别的社交网络映射成有向图G (V,E ),其中,V表示社交网络用户节点集合,E表示 社交网络用户节点间的交互关系集合; (2) 采用网络邻接矩阵的生成方法,生成与有向图对应的邻接矩阵; (3) 量化用户节点对信息传播的影响因素: (3a)搜集用户发布的信息,按照下式,量化影响信息传播的用户节点信息发布的活跃 度:其中,仏表示社交网络中第i个用户节点信息发布的活跃度,i表示社交网络中的用户节 点,n表示用户发布信息所选取的时间段的总数,E表示求和操作,表示用户发布信息选 取的A k时间段内用户发布信息的平均数,A k表示用户发布信息选取的第j个时间段; (3b)从搜集到的用户节点发布的信息中,提取影响信息传播的邻居节点对信息转发数 目、邻居节点对信息评论数目、邻居节点对信息赞同数目; (3c)利用Saaty的10级重要性等级表,计算用户节点信息发布的活跃度、邻居用户节点 对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对 信息传播影响的权值; (3d)按照下式,计算用户节点对信息传播影响因素的量化值: Ui = aAi+0ri+y (r2+r3) 其中,U表示社交网络中第i个用户节点对信息传播影响因素的量化值,a表示用户节点 信息发布的活跃度对信息传播影响的权值,Ai表示社交网络中第i个用户节点发布信息的 活跃度,0表示邻居用户节点对信息转发的数目对信息传播影响的权值,^表示邻居用户节 点对信息转发数目,Y表示邻居用户节点对信息评论的数目和邻居用户节点对信息赞同的 数目对信息传播影响的权值,^表示邻居用户节点对信息评论数目,r 3表示邻居用户节点对 信息赞同数目; (4) 量化用户节点的话题topic相关度: (4a)搜集与话题topic相关的信息,从所搜集到的与话题topic相关的信息中,提取与 话题topic高度相关的高频词汇集Wn; (4b)搜集用户节点当前时间段内发布的信息,建立用户节点发布的信息集合M1; (4c)利用汉词分词工具,对用户节点发布信息集合姐中的每条信息进行数据处理,建立 用户节点发布信息的分词集合姐。; (4d)将用户节点发布信息的分词集合Mi。与话题topic高度相关的高频词汇集wn进行对 比,采用权值设定方法,得到用户节点发布信息集合1中每条信息与话题topic的相关度 mje ; (4e)通过下述量化公式,计算用户节点的话题topic相关度:其中,Ri表示社交网络中第i个用户节点的话题topic相关度,s表示当前时间段内用户 节点发布信息的数目,E表示求和操作,G表示属于符号1表示社交网络中第i个用户节 点发信息集合,1^。表示用户节点发布的信息集合中第j条信息的分词集合,表示用户节 点发布的信息集合中第j条信息与话题topic的相关度; (5) 量化用户节点信息传播能力: (5a)按照下式,计算用户节点基本的信息传播能力: P^) = deg(v,);i;U,.5HRi 其中,表示用户节点Vi基本的信息传播能力,Vi表示社交网络中第i个用户节 点,deg(Vl)表示用户节点Vl的度,U表示社交网络中第i个用户节点对对信息传播的影响因 素的量化值,心表示社交网络中第i个用户节点的话题topic相关度; (5b)依据网络有向图中用户节点间的交互关系,按照下式,计算社交网络用户节点的 信息传播能力:其中,PR(Vl)表示社交网络中第i个用户节点^信息传播能力,d表示阻尼系数,设置为 默认值〇.85,n表示社交网络中节点的总数,E表示求和操作,w(Vj,Vl)表示从社交网络第i 个用户节点Vl到社交网络第j个用户节点W信息传播的概率,Vl表示社交网络的第i个用户 节点,^表示社交网络的第j个用户节点,*表示相乘操作,degf表示社交网络中第j个用户 节点出度的大小; (5c)判断相邻两次信息传播能力的差值是否小于0.01,若是,将相邻两次的最后一次 计算得到的结果作为社交网络用户节点的信息传播能力,执行步骤(6),否则,执行步骤 (5b); (6) 识别关键节点: (6a)按照从大到小的顺序,将社交网络用户节点的信息传播能力进行排序; (6b)将排序中的前Q个用户节点作为网络关键节点,QG (〇,10% )。2. 根据权利要求1所述的话题领域中社交网络关键节点的识别方法,其特征在于,步骤 (2)中所述的网络邻接矩阵的生成方法是指,从有向图中任意选取两个节点,判断所选取的 两个节点之间是否存在连接边,若存在,则得到与有向图对应的邻接矩阵中相应的元素 w (^,^),否则为〇,其中,《(^,^)表示从社交网络第1个用户节点^到社交网络第」个用户节 点W信息传播的概率,Vl表示社交网络的第i个用户节点,W表示社交网络的第j个用户节 点。3. 根据权利要求1所述的话题领域中社交网络关键节点的识别方法,其特征在于,步骤 (3c)中所述的计算用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用 户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值具体步 骤如下: 第1步,利用Saaty的10级重要性等级表,将用户节点发布信息的活跃度比邻居用户节 点对信息转发的数目稍微重要的影响,表示为等级3;将邻居用户节点对信息转发的数目比 邻居用户节点对信息评论的数目稍微重要的影响,表示为等级3;将邻居用户节点对信息评 论的数目和邻居用户节点对信息赞同数目同等重要的影响,表示为等级1;将用户节点发布 信息的活跃度比用户的受关注度较强重要的影响表示为等级5; 第2步,依据第1步中用户节点发布信息的活跃度、邻居用户节点对信息转发的数目、邻 居用户节点对信息评论的数目、邻居用户节点对信息赞同数目之间任意两两对比得到的影 响等级,建立等级对应的两两判断矩阵A4*4; 第3步,将等级对应的两两判断矩阵A4*4按列进行归一化处理,得到对应的矩阵B4*4; 第4步,将对应的矩阵B4*4中的元素按行相加,得到每行对应的行向量C(C1,C2,C3,C4)T, 其中,T表示转置矩阵的符号; 第5步,对行向量以(^,(32,(33,(34)7进行归一化处理,得到用户节点信息发布的活跃度对 信息传播影响的权值,邻居用户节点对信息转发的数目对信息传播影响的权值,邻居用户 节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值。4. 根据权利要求1所述的话题领域中社交网络关键节点的识别方法,其特征在于,步骤 (4a)中所述的提取与话题topic高度相关的高频词汇集^的方法是指,依据搜集用户节点 当前时间段内发布的信息进行分词,提取出关键词语,将提取出的关键词语组成与话题 topic高度相关的高频词汇集Wn,其中,高频词汇集Wn的大小为|wn| =50。5. 根据权利要求1所述的话题领域中社交网络关键节点的识别方法,其特征在于,步骤 (4c)中所述的数据处理的具体步骤如下: 第1步,利用汉词分词工具,提取用户节点发布信息集合姐中的每条信息词语,得到初步 用户节点发布信息的分词集合; 第2步,将初步用户节点发布信息的分词集合中的词语与停用词列表中的词语进行对 比,将相同的词语从初步的建立用户节点发布信息的分词集合中剔除,将剩余的初步用户 节点发布信息的分词集合的分词,组成用户节点发布信息的分词集合姐。。6. 根据权利要求1所述的话题领域中社交网络关键节点的识别方法,其特征在于,步骤 (4d)中所述的权值设定方法是指,从用户节点发布信息的分词集合中,每条信息的分词集 合与话题topic高度相关的高频词汇集对比结果中,选出相同词汇的数目k,依据下式,计算 用户节点发布信息集合中每条信息与话题topic的相关度: mir = 3k 其中,冗表示用户节点发布的信息集合中第j条信息与话题topic的相关度,S表示权值 S G (〇,1),k表示从用户节点发布信息的分词集合中,每条信息的分词集合与话题topic高 度相关的高频词汇集对比结果中选出相同词汇的数目。
【文档编号】G06F17/30GK106055627SQ201610364264
【公开日】2016年10月26日
【申请日】2016年5月27日
【发明人】杨力, 田亚平, 王小琴, 马建峰, 张俊伟, 张冬冬, 王利军
【申请人】西安电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1