社交网络突发事件的层次分析方法

文档序号:8299144阅读:936来源:国知局
社交网络突发事件的层次分析方法
【技术领域】
[0001] 本发明属于大数据处理技术领域,尤其是涉及一种社交网络突发事件的层次分析 方法。
【背景技术】
[0002] 社交网络在人们的生活中扮演着越来越重要的角色,比如微博,国内最大的两大 微博平台新浪和腾讯的注册人数早已超过5亿。CNNIC第33次中国互联网络发展状况调查 统计报告截至2013年12月,我国微博用户规模为2. 81亿,网民中微博使用率为45. 5%。
[0003] 对于突发事件或者说热点事件来说,微博的影响规模和传播速度超越了普通博客 和传统的新闻媒体。2008年5月12日,中国四川汶川发生大地震,Twitter在约14时35 分33秒披露首条消息。包括临武瓜农事件、校车超载事故,以及2014年4月起在全国产生 巨大影响的"幼童香港小便事件"也是通过微博平台在社会人群中迅速传播,进而引起广泛 讨论,微博已经成为不可小觑的舆论平台。
[0004] 微博能够及时反映舆论情况,及时地从微博获取实时信息,判断突发事件,找到相 关微博具有重大的意义。目前从大量微博中检测突发事件的方式多种多样,比如采用基于 聚类的方法、采用主题模型的方法等来实现突发事件的检测。但是,这些方法一般依据由各 微博数据文本中包含的关键词构成的图结构来进行检测,由于该图结构的词语中具有很多 对事件检测冗余的词语,表现力不够,从而使得微博中突发事件的检测结果不佳。而且现有 的事件检测结果是以关键词集合的形式罗列出每个事件对应的所有词语,不能揭示出每个 事件中包含的子事件层次,从而不能实现更细粒度的事件分析。

【发明内容】

[0005] 针对上述存在的问题,本发明提供一种社交网络突发事件的层次分析方法,用以 准确检测出社交网络中的突发事件以及各突发事件对应的不同子事件,从而实现突发事件 的精细粒度分析。
[0006] 本发明提供了一种社交网络突发事件的层次分析方法,包括:
[0007] 获取突发热词共现图;其中,所述突发热词共现图的节点集包括各突发热词节点 以及分别与每个突发热词节点存在共现关系的各共现词节点,所述突发热词共现图的边集 包括所述各突发热词节点与所述各突发热词节点分别对应的共现词节点间的边;其中,所 述突发热词共现图为对关键词共现图进行突发热词检测后得到的,所述关键词共现图根据 所述社交网络中的待处理数据文本中包含的共现关键词得到,所述共现关键词是指同时出 现在同一个数据文本中的关键词;
[0008] 确定与所述突发热词共现图对应的二分图,所述二分图的节点集合由所述突发热 词共现图中的突发热词节点组成,所述二分图的边集合中的边根据所述突发热词共现图中 各突发热词节点间的边确定,且所述二分图的边集合中的边为无权边;
[0009] 对所述二分图进行k派系过滤处理,得到各个k派系社团以及每个k派系社团对 应的各最大派系,其中,每个k派系社团中包含的突发热词节点构成一个突发事件,每个k派系社团对应的每个最大派系构成突发事件的一个方面,k取大于或等于3的整数;
[0010] 分别以所述各个k派系社团中的每个k派系社团作为待处理k派系社团,根据预 设节点重要性度量指标,分别对所述待处理k派系社团对应的每个最大派系中包含的突发 热词节点进行降序排列,得到经过所述降序排列处理的各最大派系;
[0011] 根据经过所述降序排列处理的各最大派系中突发热词节点的排列顺序,构建突发 事件特征树,其中,所述突发事件特征树中节点间的父子关系是根据所述各最大派系中突 发热词节点的排列顺序确定的;
[0012] 对所述突发事件特征树进行树深度为k的广度优先遍历,确定所述突发事件特征 树中树深度不超过所述k时对应的各k深度分支;
[0013] 确定每个k深度分支对应的子分支,其中,每个k深度分支对应的子分支包括承接 在所述k深度分支的叶子节点下的各子分支;
[0014] 确定与每个k深度分支以及所述每个k深度分支对应的子分支对应的最大派系中 所包含的突发热词节点构成所述待处理k派系社团对应的突发事件的一个子事件。
[0015] 本发明提供的社交网络突发事件的层次分析方法,在获得包含有各待处理数据文 本中的突发热词以及与各突发热词分别共现连接的各共现词的热词共现图之后,基于由该 热词共现图得到的二分图进行k派系过滤处理,以得到各个k派系社团即各突发事件以及 每个k派系社团对应的各最大派系即每个突发事件的各不同方面。为了进一步得到每个突 发事件所包含的各子事件,对一个k派系社团的各最大派系分别进行突发热词节点重要性 排序处理,以构建由各最大派系中的突发热词节点组成的突发事件特征树,从而基于该特 征树得到每个子事件对应的分支。通过该方案,不但能够准确检测出社交网络中包含的各 个突发事件,还能够检测出每个突发事件包含的各子事件,从而实现精细粒的度突发事件 检测分析。
【附图说明】
[0016] 图1为本发明社交网络突发事件的层次分析方法实施例一的流程图;
[0017] 图2为图1所示实施例一中步骤101的具体实现流程图;
[0018] 图3为关键词共现图的不意图;
[0019] 图4为突发热词共现图的示意图;
[0020] 图5为本发明社交网络突发事件的层次分析方法实施例二的流程图。
【具体实施方式】
[0021] 图1为本发明社交网络突发事件的层次分析方法实施例一的流程图,如图1所示, 该方法包括:
[0022] 步骤101、获取突发热词共现图;
[0023] 其中,所述突发热词共现图Gk(t)的节点集包括各突发热词节点以及分别与每个 突发热词节点存在共现关系的各共现词节点,所述突发热词共现图的边集包括所述各突发 热词节点与所述各突发热词节点分别对应的共现词节点间的边;其中,所述突发热词共现 图为对关键词共现图进行突发热词检测后得到的,所述关键词共现图根据所述社交网络中 的待处理数据文本中包含的共现关键词得到,所述共现关键词是指同时出现在同一个数据 文本中的关键词。
[0024] 本实施例中的社交网络比如可以是微博、论坛等社交网络,本实施例中的所述待 处理数据文本相应的比如可以是微博数据文本。值得说明的是,本实施例中主要是针对文 本类型的数据信息进行处理,称之为数据文本。微博数据具有数据质量低、文本短、用语非 正式、非事件噪音文本多等特点。为了能够准确检测出众多微博数据文本中所包含的突发 事件,即在很短时间段内被广泛讨论、传播的热点事件,首先,需要从各个数据文本中确定 共现关键词,其中,共现关键词是指同时出现在同一个数据文本中的关键词,即同一个数据 文本中的关键词存在共现关系。
[0025] 本实施例中,社会网络比如微博中的一个事件被表示成一组紧密相关的关键词集 合。但是实际上,尽管描述一件事件的数据文本多种多样,但是其核心的关键词会有一致的 倾向。对于突发事件来说,其核心关键词在使用量上会有突发性特征。本实施例中使用关 键词与关键词的共现关系,建模关键词与关
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1