基于行为时间序列的社交网络因果关系发现算法

文档序号:6639328阅读:467来源:国知局
基于行为时间序列的社交网络因果关系发现算法
【专利摘要】本发明公布了基于行为时间序列的社交网络因果关系发现算法。该算法包括构建全局因果关系图、确定因果影响滞后期、优化因果关系图结构这三个阶段。在构建全局因果关系图阶段,基于行为时间序列数据发现行为时间序列变量间的因果关系,构建全局因果关系图;在确定因果影响的滞后期阶段,基于最小描述长度准则确定存在因果关系的行为时间序列变量间间的影响滞后期,更新全局因果关系图对应边的权值;在优化因果关系图结构阶段,基于全局因果图检查全局因果关系图中所有边及其滞后期,剔除冗余的因果关系以及缩短因果影响中冗余的滞后期,最终实现行为时间序列数据上的可靠因果关系发现。
【专利说明】基于行为时间序列的社交网络因果关系发现算法

【技术领域】
[0001] 本发明设及数据挖掘领域,主要设及一种基于行为时间序列的社交网络因果关系 发现的算法。

【背景技术】
[0002] 社交网络作为一个重要的信息发布和分享平台,在我们的生活中的地位和作用日 益重要,截至2014年6月,中国社交网站用户规模为2. 57亿。目前社交网络已成为设及社 会学、屯、理学、新闻传播学等多领域的研究热点,越来越多的研究揭示了社交网络在公众舆 论、社会动员、公民民主、危机传播,市场营销,信息传播,人才招聘、推荐系统、链路预测、病 毒式营销、公共健康、专家发现、突发事件检测、广告投放、用户社会影响力分析、用户交互 行为预测等方面的作用的重大。
[0003] 近几年来,国内外学者们研究重点主要集中在研究用户影响力,因为高影响力用 户在社交网络上起到主导性作用。化ge等人[1]在1999年提出了基于网页链接关系计算 网页重要度的计算方法化geRank,该方法基于马尔科夫随机游走的思想通过迭代计算节点 间影响力的传播来计算网页的排名,后来被研究者推广到社交网络上。在PageRank算法的 基础上,Tunkelang等人[2]在2009年提出了化nkRank算法进行用户影响力度量,该方法 根据粉丝的影响力作为个体影响力衡量的主要因素,随后Weng等人[3]在2010年提出了 TwitterRank,该算法也是在化geRank算法上进行拓展,基于用户间主题相似性及用户声 明的好友关系网络,通过用户所发布的微博数量及其粉丝接受信息的多少来决定衡量用户 的影响力。化a等人[4]在2010年提出的方法是基于用户声明的好友关系网络并通过入 度,转发和提及S个因素来分析Twitter上用户的影响力。
[0004] 对于上述所提到的社交网络中用户影响力的度量方法,它们之间有一个共同点: 都是基于用户已经声明的好友关系网络。然而事实证明用户显式声明的好友关系并不一 定真实的存在相互的影响关系,G. Ver Steeg等人[引在2012年提出的用in化rmation transfer度量用户影响力的方法证明了该一说法。G. Ver Steeg提出的方法虽能发现用户 间潜在的因果关系网络,但是其找到的因果关系网络并不是一个最优的因果关系网络。根 据Nicholas等人[6]提出的度影响力原则"可知,影响力在社会网络上的传播遵循一 定的规律,我们所做或所说的任何事情,都会在网络上会受=度W内朋友的影响。结合因果 马尔可夫假设可知,给定一个节点的直接原因,该节点条件独立于所有那些不是它的直接 或间接结果的节点,因此在给定用户"一度"朋友的情况下,他与他的"二度朋友",度朋 友"条件独立。所WG. Ver Steeg的方法只考虑任意两个用户间是否存在因果关系,无法进 一步区分直接因果关系与间接因果关系,其构造出来的因果关系图将包含大量的冗余边。
[0005] 另外,基于行为时间序列的分析用户影响力的方法都只考虑了前一个时刻产生的 影响,然而根据Granger因果关系[7]的基本观念,两个相互之间存在影响的对象在时间上 有先导滞后的关系。要得出"A是B的原因"该样的结论,必须全面考虑宇宙中所有的事件, 否则往往就会发生误解。因此如果我们要探讨用户A是否对用户B在T时刻产生的行为有 因果影响,那么需考虑用户A发生在T时刻之前的所有行为,判断其是否对用户B在T时刻 的行为有显著的影响。不过该样将导致模型的空间复杂度和时间复杂度大大增加,我们知 道,随着时间的推移,用户过去历史行为对于现在的行为影响力会随时间衰减,影响力存在 一个滞后期,过长的滞后长度会使得我们的模型复杂度增加,相反,过短的复杂度会导致我 们模型的拟合度下降,根据化ssanen[引在1978年提出的最小描述准则,我们可在重构目 标因果网络结构的拓扑简单性与对实际的因果影响拟合度之间的做一个权衡,使得我们可 W在时间复杂度和空间复杂度较小的情况下构建出用户间潜在的因果关系网络。
[0006] 文献列表
[0007] [l]Page L,Brin S,Motwani R,et al. The PageRank citation ranking:Bringing order to the web[J]. 1999.
[0008] [2] I\mkelang,D. ;A Twitter Analog to 化geRank,
[0009] http://thenoisychannel. com/2009/01/13/a-twitter-analog-t〇-pagerank/
[0010] [3]Weng J,Lim E P,Jiang J,et al. Twitterrank:finding topic-sensitive influential twitterers[C]//Proceedingsof the third ACM international conference on Web search and data mining. ACM,2010:261-270.
[0011] [4]Cha M,Haddadi H,Benevenuto F,et al. Measuring User Influence in TwitteriHie Million Follower Fal-lacy[J].ICWSM,2010,10:10-17.
[0012] [5]Ver Steeg G,Galstyan A. Information transfer in social media[C]// Proceedings of the 21st international conference on World Wide Web. ACM, 2012:509-518.
[0013] [6]Walker S K. Connected:The Surprising Power of Our Social Networks and How They 化ape Our Lives[J]. Journal of Family 化6〇巧&1?6¥16讯,2011,3(3):220-224.
[0014] [7]Granger,C. W. J. Investigating causal relations by econometric models and crossspectral methods. Eco-nometrica. 1969,(37):424-438.
[0015] [8]Rissanen J. Modeling by shortest data description[J]. Automatica, 1978,14(5) : 465-471.


【发明内容】

[0016] 为了解决因果关系模型构建上存在冗余边W及基于行为时间序列的数据上未考 虑影响产生滞后期的问题,本发明建立了一个从局部到整体有效结合的自底向上构建的可 行框架。在该框架通过局部结构推导出全局结构,又从全局结构反向优化局部结构,使得本 算法具有较好的因果关系识别表达能力,同时充分考虑行为时间序列上影响产生的滞后期 问题,使得因果关系分析更准确。此外本发明还结合最小描述长度准则,在模型复杂度与拟 合度之间做取舍,使得模型可应用于大规模的社交数据。
[0017] 该算法包括构建全局因果关系图、确定因果影响滞后期、优化因果关系图结构该 =个阶段。在构建全局因果关系图阶段,基于行为时间序列数据发现行为时间序列变量间 的因果关系,构建全局因果关系图;在确定因果影响的滞后期阶段,基于最小描述长度准则 确定存在因果关系的行为时间序列变量间间的影响滞后期,更新全局因果关系图对应边的 权值;在优化因果关系图结构阶段,基于全局因果图检查全局因果关系图中所有边及其滞 后期,剔除冗余的因果关系w及缩短因果影响中冗余的滞后期,最终实现行为时间序列数 据上的可靠因果关系发现。
[0018] 一些成熟的行为时间序列因果学习方法在行为时间序列数据的因果关系推断上 有较好的表现,第一部分的构建全局因果关系图学习中应用了该种因果学习方法。第二部 分根据最小描述长度准则在模型复杂度与拟合度做取舍,基于第一部分学习得到的全局因 果图遍历捜索图中的有向边,进一步的发现影响产生的滞后期。第=部分优化因果关系图 结构,基于第二部分学习到的带权重的全局因果图检查图中所有边及其滞后期,剔除冗余 的因果关系W及缩短因果影响中冗余的滞后期,最终实现行为时间序列数据上的可靠因果 关系发现。

【专利附图】

【附图说明】
[0019] 图1为本发明的算法架构图。 具体实施方案
[0020] 相应于上述算法的=个阶段,本发明由=个模块顺序组成。第一模块"构建全局 因果关系图":设计和构建非冗余全局因果关系图结构模型。第二模块"确定因果影响滞后 期";设计和分析行为时间序列变量间影响滞后期的最大范围的算法。第=部分"优化因果 关系图结构":基于全局因果图检查图中所有边及其滞后期,剔除因果结构中冗余边W及缩 短因果影响中冗余的滞后期。立个层面的工作相互交替,迭代进行,不断完善。该=个模块 的具体功能和实施步骤详述如下。
[0021] 1.构建全局因果关系图
[002引输入;样本集合D,变量集合V,阔值a,当前时刻t,时间长度tmax,最长滞后期 lagmax,原因候选节点集S。
[002引输出;全局因果关系图(其中Gu= 1表示存在V J- V 1)。
[0024] 1)初始化全局因果关系图G的每个元素为0
[0025] 2)对V中每个变量Vi初始化原因候选节点集S为0。
[0026] 扣计算Vi从时刻t到tmax-lagmax-1时刻的状态与其他变量V j从t-1时刻到 tmax-lagmax时刻的状态,给定原因候选节点集S的情况的因果传递滴Cvpvii肋,
[0027] 4)在第3)基础上,采用洗牌算法对Vj从t-1时刻到tmax-lagmax时刻的状态进 行重排序,计算洗牌后的C\rv,i临),循环100次,得到一个关于的分布。
[002引 W在第4)基础上,根据阔值a W及C7的分布求出C的置信区间,若肋〉C, 则Gu, = 1,并将V 加到原因候选节点集S中,否则进行下一步。
[0029] 6)对Vi迭代完成第3)步到第5)步,得到变量V i与其他节点的局部的因果关系。
[0030] 7)对V中所有变量迭代完成第2)步到第5)步,得到全局因果关系图G。
[0031] 2.确定因果影响滞后期
[0032] 输入;样本集合D,变量集合V,全局因果关系图G,阔值a,当前时刻t,时间长度 tmax,最长滞后期lagmax,原因候选节点集S。
[0033] 输出:带权全局因果关系图G。
[0034] 1)对V中每个变量V期始化原因集P 1,Pi= {V JI Gu声0}。
[0035] 2)对Pi中每个变量V j初始化时延lag为2
[0036] 扣计算Vi从时刻t到tmax-lagmax-1时刻的状态与原因集P冲的变量V j从 t-lag时刻到tmax-lagmax-lag时刻的状态,给定原因候选节点集Si的情况的因果传递滴 Cy巧怕),
[0037] 4)在第3)基础上,采用洗牌算法对Vj从t-lag时刻到tmax-lagmax-lag时刻的 状态进行重排序,计算洗牌后的肋,循环100次,得到一个关于C7的分布。
[003引 W在第4)基础上,根据阔值a W及C7的分布求出C的置信区间,若Cv产贼> C, 贝ljG《w》= lag,并将Vj't-iag加到原因候选节点集S冲,否则跳到第。步。
[0039] 6)时延lag增加1,若lag > lagmax,跳到第2)步,否则继续迭代完成第3)步到 第6)步
[0040] 7)对V中所有变量迭代完成第1)步到第6)步,得到带权全局因果关系图G。
[0041] 3.优化因果关系图结构
[0042] 输入;样本集合D,变量集合V,带权全局因果关系图G,阔值a,当前时刻t,时间 长度tmax,最长滞后期lagmax,原因候选节点集S。
[0043] 输出;最优全局因果关系图G。
[0044] 1)对V中每个变量Vi初始化原因集P 1,Pi= {V JI Gy声0}。
[0045] 。对P冲每个变量V J构建原因集S U,Su= {V J……,v"_iag| lag = G。'}。
[0046] 扣计算Vit与原因集P冲的变量V j.,给定其他原因候选节点集S的情况的因果传 递滴 Cs:ij 吻 ii(s-Sij)
[0047] 4)在第扣基础上,采用洗牌算法对S。的状态进行重排序,计算洗牌后的C7= S。一 V i I (S-S。),循环100次,得到一个关于c7的分布。
[0048] W在第4)基础上,根据阔值a W及C7的分布求出C的置信区间,若C, 贝iJ G《i, j》=lag,并将v"_iag加到原因候选节点集S冲,否则Gj》=0,从S中移除S。',从 P冲移除Vj.,跳到第3)步。
[0049] 6) lag = Gy,计算Sy中的V jt_hg与V it,给定其他原因候选节点集S的情况的因果 传递滴〔^"_1巧一,| = -Vjt-bg)
[0050] 7)在第6)基础上,采用洗牌算法对S。中的的状态进行重排序,计算洗牌后 的C7= V jt-hg- V i I (S-Vjt-iw),循环100次,得到一个关于C7的分布。
[0051] 8)在第7)基础上,根据阔值a化及C7的分布求出C的置信区间,若C, 跳到第3)步,否则G = G 从Sy中移除V Ww,若Sy为空,从S中移除S U,从P 中移除vj,跳到第3)步,否则跳到第6)步。
[0052] 9)对V中所有变量迭代完成第1)步到第8)步,得到最优的带权值的全局因果关 系图G。
【权利要求】
1. 一种基于行为时间序列的社交网络因果关系发现算法,其包括:构建全局因果关系 图,基于行为时间序列数据发现行为时间序列变量间的因果关系,构建全局因果关系图;确 定因果影响滞后期,基于最小描述长度准则确定因果关系影响产生的滞后期,更新全局因 果关系图中对应的边权值;优化因果关系图结构,基于全局因果图检查全局因果关系图中 所有边及其滞后期,剔除冗余的因果关系以及缩短因果影响中冗余的滞后期,最终实现行 为时间序列数据上的可靠因果关系发现。
2. 如权利要求1所述的基于行为时间序列的社交网络因果关系发现算法,其特征在于 基于行为时间序列数据的"构建全局因果关系图-确定因果影响的滞后期-优化因果网络 图结构"三阶段因果关系发现方法。
3. 如权利要求1所述的构建全局因果关系图算法,其特征在于对行为时间序列问题上 的因果关系发现,其因果关系判断标准描述为:
间序列变量间集:心情况下的因果关系强度,t表示当前时刻,t-1表示当前时刻的前一个时 刻。
4. 如权利要求1所述的确定因果影响滞后期算法,其特征在于基于最小描述长度准则 遍历全局因果关系图中的所有边,确定影响力产生滞后期。
5. 如权利要求4所述的满足最小描述长度准则权衡模型复杂度与拟合度,其特征在于 结合randomshuffle算法和区间估计判断某一时刻状态是否对当前时刻具备显著影响性。
6. 如权利要求1所述的优化因果网络图结构,其特征在于通过检查全局因果关系图中 所有边及其滞后期,剔除冗余的因果关系以及缩短因果影响中冗余的滞后期。
【文档编号】G06Q50/30GK104504637SQ201410795360
【公开日】2015年4月8日 申请日期:2014年12月11日 优先权日:2014年12月11日
【发明者】蔡瑞初, 袁畅, 郝志峰, 谢伟浩, 谢蔚涛, 温雯, 王丽娟, 洪英汉 申请人:广东工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1