社交网络信息爆发检测方法与系统的制作方法

文档序号:9376367阅读:376来源:国知局
社交网络信息爆发检测方法与系统的制作方法
【技术领域】
[0001] 本发明涉及网络信息传播检测技术领域,尤其涉及一种社交网络信息爆发检测方 法与系统。
【背景技术】
[0002] 以微博为代表的在线社交网络的流行极大的改变了人类获取信息的传统方式,替 代了传统大众传媒的部分功能。如各大门户网站和信息分享网站都开设了微博账号,会及 时发布相关的新闻消息,各级政府组织、公司和机构也都建立起了微博主页,实时的更新自 身的公告和重大事件。更进一步,任何人都能成为消息的产生者,任何消息都可以在社交网 上发布并进行传播。
[0003] 在微博网络中,洪泛式的信息传播使得消息的扩散变得十分的便捷和高效,人们 获取信息的时效性大大提高。然而,消息的爆发往往伴随着巨大的社会舆论和影响,对公司 来讲,能够在消息爆发的早期就预测到消息爆发的行为,对于自身的在线信誉监控(Online Reputation Monitoring)具有重要的意义,如果是负面的消息,则及时采取相应的措施, 降低公司信誉损失,正面的消息则可借机营销,提升公司业绩。对于政府部门来讲,尽早地 发现社交网络中的关于自然灾害事件和公共卫生疾病的消息,对于政府及时采取对应的措 施,提前进行相应决策和部署是非常有利的。
[0004] 目前,预测消息的爆发和流行主要是基于内容特征的突发性分析方法,该方法旨 在通过捕捉消息相关的内容特征发生的异常变化,找到相关的突发消息,而内容特征的变 化从概率上讲是通过观测值和期望值之间的背离来衡量的。但是,基于内容特征的方法需 要检测到内容特征的突发改变,即观测值和期望值之间的背离,也就是说社交网络中对某 一消息产生了一定数量的转发和评论,并且已经达到了显著的水平。这在客观上造成了爆 发被检测出的时间较大地滞后于爆发实际发生的时间。因此,如何在更早的时刻,即消息在 网络中刚刚出现零星的传播,还没有形成一定的规模时预测消息是否会爆发传播是一个需 要解决的问题。
[0005] 综上可知,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。

【发明内容】

[0006] 针对上述的缺陷,本发明的目的在于提供一种社交网络信息爆发检测方法与系 统,其可以有效的预测社交网络消息是否会爆发传播。
[0007] 为了实现上述目的,本发明提供一种社交网络信息爆发检测方法,所述方法包 括:
[0008] A、采集社交网络的结构和用户产生内容;
[0009] B、构建用户的话题传播概率矩阵;
[0010] C、获取社交网络中用户发布或转发的消息;
[0011] D、根据消息的转发标志和时间信息构建消息的传播轨迹;
[0012] E、根据所述话题传播概率矩阵构建消息传播矩阵;
[0013] F、根据所述消息的传播轨迹和消息传播矩阵,分析消息爆发的可能性。
[0014] 根据本发明的社交网络信息爆发检测方法,所述步骤A和B之间还包括:
[0015] G、对步骤A采集的数据进行垃圾过滤处理。
[0016] 根据本发明的社交网络信息爆发检测方法,所述步骤G具体为:
[0017] 对数据文本进行分词、词形还原及去停用词处理。
[0018] 根据本发明的社交网络信息爆发检测方法,所述步骤B具体为:
[0019] 根据每条消息的话题分布、用户转发历史记录和用户关注网络,构建用户的话题 传播概率矩阵。
[0020] 根据本发明的社交网络信息爆发检测方法,所述步骤具体为:
[0021] 根据所述传播概率矩阵计算消息经过多步传播直至收敛后,消息从网络中任一出 发点到达社交网络中任一终止点的概率。
[0022] 根据本发明的社交网络信息爆发检测方法,所述步骤F包括:
[0023] F1、根据消息的传播轨迹,分析预测消息的传播范围;
[0024] F2、根据所述消息的传播范围,分析消息的爆发可能性。
[0025] 根据本发明的社交网络信息爆发检测方法,所述步骤F2具体为:
[0026] 根据消息最终到达的范围,结合该范围占全网的比率和预设的阈值进行比较,判 断消息是否爆发。
[0027] 本发明还相应提供一种社交网络信息爆发检测系统,包括:
[0028] 数据采集模块,用于采集社交网络的结构和用户产生内容;
[0029] 传播计算模块,用于构建用户的话题传播概率矩阵;
[0030] 消息获取模块,用于获取社交网络中用户发布或转发的消息;
[0031] 轨迹获取模块,用于根据消息的转发标志和时间信息构建消息的传播轨迹;
[0032] 矩阵生成模块,用于根据所述话题传播概率矩阵构建消息传播矩阵;
[0033] 分析处理模块,用于根据所述消息的传播轨迹和消息传播矩阵,分析消息爆发的 可能性。
[0034] 根据本发明的社交网络信息爆发检测系统,所述分析处理模块包括:
[0035] 分析子模块,用于根据消息的传播轨迹,分析预测消息的传播范围;
[0036] 处理子模块,用于根据所述消息的传播范围,分析消息的爆发可能性。
[0037] 根据本发明的社交网络信息爆发检测系统,所述处理子模块具体用于根据消息最 终到达的范围,结合该范围占全网的比率和预设的阈值进行比较,判断消息是否爆发。
[0038] 本发明通过首先采集社交网络中的网络结构和用户产生内容,利用朋友网络和用 户产生内容构建网络的话题传播概率矩阵。对于需要预测的消息,采集其初始的传播动态 信息,并利用话题传播概率矩阵计算消息的传播矩阵。再通过传播矩阵求给定消息初始传 播节点集合的影响范围;根据影响范围的大小判断该消息是否爆发。借此,本发明可以有效 的预测消息爆发的可能性,减少因消息的爆发造成的影响。
【附图说明】
[0039] 图1是本发明的社交网络信息爆发检测方法流程图;
[0040] 图2是本发明一实施例的话题影响力的概率图模型;
[0041] 图3是本发明一实施例的社交网络中的信息传播示意图;
[0042] 图4是本发明的社交网络信息爆发检测系统结构示意图。
【具体实施方式】
[0043] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0044] 参见图1,本发明提供了一种基于话题性扩散距离的社交网络消息爆发检测方法, 该方法具体包括以下步骤:
[0045] 步骤S101,采集社交网络的结构和用户产生内容。
[0046] 根据社交网络的特点采集社交网络的结构和用产生内容,对于微博和Twitter来 讲,指的是用户的关注网络和发布的消息。采用滚雪球采样的方式,先选择一个种子集合, 以种子集合为基础,沿着用户的关注关系做宽度优先搜索,保存用户的关系和历史微博数 据,直到用户的数量达到期望的规模,或者搜索结束。
[0047] 步骤S102,构建用户的话题传播概率矩阵。
[0048] 利用话题模型工具GibbsLDA++学习出历史消息的话题分布,根据每条消息的话 题分布、用户转发历史记录和用户朋友网络,构建用户的话题传播概率矩阵。为了描述方 便,本发明预先定义一组符号,如表1所示:
[0049] 表1符号表
[0050]
[0051] 设在社交网络中,用户u关注了用户V,在事件V发生的情况下,用户V以某一固定 的概率影响用户u,使事件R uv发生。假设该概率服从Bernoulli分布,在不考虑主题的情 况下,事件Ruv成功发生的概率,可以表示为用户历史转发数据的极大似然估计¥,即用 户U对V的转发数占用户V所发消息的总数得到。
[0052] 在考虑话题的情况下,转发的消息被映射到一个主题向量空间中,T、Ruv和V三 个变量的关系表示如图2所示,用户V对u在话题t下的影响力可以定义为条件概率 P (Ruv I Vt),即对于主题t,在事件V已经发生的条件下,事件Ruv发生的概率。由于P (Ruv I Vt) 不便于直接求解,通过贝叶斯公式得到公式(1):
[0053]
[0054] P(t|V)表示用户V发布的消息中主题t出现的概率,可以用公式⑵表示,
[0055]
[0056] 其中,I(m,t)为指示函数,若消息m的主题为t,则I(m,t) = 1,否则I(m,t)= 0。P(Ruvt|V)表示在队中,被用户u转发且话题为t的概率,可以通过公式⑶计算。
[0057]
[0058] 综合公式(1),⑵和(3),可得出公式(4),
[0059]
[0060] 事实上,一条消息可能包含不止一个主题,为了更加细粒度的划分话题,我们以词 为单位进行统计,设P (t |m)表示消息m中话题为t的词出现的概率,则公式(4)可以进一 步表示为公式(5),
[0061]
[0062] 其中,P(t|m)可以通过话题模型得出。通过公式(5),计算社交网络中存在连边的 用户之间的话题传播概率。
[0063] 步骤S103,获取社交网络中用户发布或转发的消息。具体的,本发明可以直接利用 社交网络中提供的API或其它软件工具从社交网络中实时抓取用户发布或转发的消息。
[0064] 步骤S104,根据消息的转发标志和时间信息构建消息的传播轨迹。
[0065] 具体
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1