基于微博的事件脉络获取方法和系统的制作方法

文档序号:9217270阅读:1750来源:国知局
基于微博的事件脉络获取方法和系统的制作方法
【技术领域】
[0001] 本发明涉及信息处理技术,尤其涉及一种基于微博的事件脉络获取方法和系统。
【背景技术】
[0002] 微博已经成为目前网民最为常见的一种休闲互动方式,同时微博也是一种用户了 解新闻事件、传播新闻事件的有效工具,具有明显的媒体属性。相同话题所包含的事件构成 的集合在新闻门户网站中一般称之为专题,一个专题通常由若干事件进展组成。譬如:"钓 鱼岛争端"专题中包括"日本购岛","香港保钓"等若干事件。任何专题事件都包括产生、发 展、高潮、结束这样一个过程,且整个过程中关键时间节点上发生的事件串联起来便形成了 关于该专题进展的事件脉络。事件脉络是了解一个新闻专题事件发展的重要途径。那么, 如何基于微博获取某个专题事件的事件脉络便给技术人员提出了新的挑战。

【发明内容】

[0003] 本发明的实施例提供一种基于微博的事件脉络获取方法和系统,以利用微博快 速、准确的获取预定专题所包含事件的事件脉络。
[0004] 为达到上述目的,本发明的实施例提供了一种基于微博的事件脉络获取方法,包 括:获取统计时间段内针对预定的专题所包含的事件的原创微博及其转发微博的信息;计 算所述事件的原创微博及其转发微博的信息在所述统计时间段内对应的关于所述专题的 事件热度时间分布,所述事件热度为与事件相关的原创微博及其转发微博在用户群中的关 注程度;根据所述统计时间段内所述专题的事件热度时间分布,从所述统计时间段内选取 多个事件脉络时间节点,及其对应的节点事件构成所述专题的事件脉络。
[0005] 进一步地,所述原创微博及其转发微博的信息包括:所述原创微博及其转发微博 的评论数、转发数和点赞数。
[0006] 优选地,所述计算所述事件的原创微博及其转发微博的信息在所述统计时间段内 对应的关于所述专题的事件热度时间分布的处理包括:根据所述专题所包含的事件的所有 原创微博及其转发微博的所述评论数、转发数和点赞数计算所述统计时间段内关于所述专 题的第一事件热度时间分布;所述第一事件热度为所有目标事件对应的所述事件热度的和 值。
[0007] 进一步地,所述根据所述专题所包含的事件的所有原创微博及其转发微博的所述 评论数、转发数和点赞数计算所述统计时间段内关于所述专题的第一事件热度时间分布的 处理包括:对所述专题所包含的事件的所有原创微博及其转发微博的所述评论数、转发数 和点赞数分别设置权重系数;将所述统计时间段内各时间节点对应的所述事件的所有新产 生的原创微博及转发微博的所述评论数、转发数和点赞数分别与对应的权重系数相乘后, 再相加的和值作为相应时间节点上所述第一事件热度;根据所述统计时间段内各时间节点 对应的所述第一事件热度,形成所述第一事件热度时间分布。
[0008] 进一步地,所述根据所述统计时间段内所述专题的事件热度时间分布,从所述统 计时间段内选取多个事件脉络时间节点的处理包括:根据所述统计时间段内所述专题的第 一事件热度时间分布,从所述统计时间段内选取多个位于所述第一事件热度时间分布中表 征第一事件热度陡增的时间节点;将所述第一事件热度时间分布中表征第一事件热度陡增 的时间节点中最早的时间节点确定为起始事件的脉络时间节点。
[0009] 进一步地,所述根据所述统计时间段内所述专题的第一事件热度时间分布,从所 述统计时间段内选取多个位于所述第一事件热度时间分布中表征第一事件热度陡增的时 间节点的处理包括:针对所述统计时间段内所述专题对应的所述第一事件热度时间分布, 利用一个包含多个时间节点的计算窗口以一个时间节点作为滑动窗口计算所述统计时间 段内各时间节点对应的第一事件热度陡增参量,并形成第一事件热度陡增参量序列;将所 述第一事件热度陡增参量序列中大于第一阈值的第一事件热度对应的时间节点确定为所 述表征第一事件热度陡增的时间节点。
[0010] 可选地,所述第一阈值为通过如下处理获得:计算所述第一事件热度陡增参量序 列的平均值和标准差,并配置相应的权重系数;将所述第一事件热度陡增参量序列的平均 值和标准差分别乘以相应的权重系数后,其和值确定为所述第一阈值。
[0011] 进一步地,所述计算所述事件的原创微博及其转发微博的信息在所述统计时间段 内对应的关于所述专题的事件热度时间分布的处理包括:根据所述统计时间段内,所述专 题所包含的事件在所述起始事件的脉络时间节点以后的所有原创微博及其转发微博的所 述评论数、转发数和点赞数计算所述统计时间段内关于所述专题的第二事件热度时间分 布;所述第二事件热度为对所有目标事件对应的原创微博及其转发微博分别设置权重系数 后的所述事件热度的权重和值。
[0012] 优选地,所述根据所述统计时间段内,所述专题所包含的事件在所述起始事件的 脉络时间节点以后的所有原创微博及其转发微博的所述评论数、转发数和点赞数计算所述 统计时间段内关于所述专题的第二事件热度时间分布的处理包括:对所述统计时间段内, 所述起始事件的脉络时间节点以后的所述专题所包含的事件的所有新产生的原创微博及 其转发微博的所述评论数、转发数和点赞数分别设置权重系数;将所述统计时间段内,所述 起始事件的脉络时间节点以后的所述专题所包含的事件的所有新产生的原创微博及其转 发微博中,在所述起始事件的脉络时间节点以后的各时间节点上新产生的所述评论数、转 发数和点赞数分别与对应的权重系数相乘,再将所有原创微博对应的乘积值相加,得到相 应时间节点对应的原创微博的事件热度;和再将所有转发微博对应的乘积值相加,得到相 应时间节点对应的转发微博的事件热度;对所述原创微博的事件热度和所述转发微博的事 件热度分别设置相应的权重系数;将所述起始事件的脉络时间节点以后的各时间节点上对 应的所述原创微博的事件热度和转发微博的事件热度分别与相应的权重系数相乘后,再相 加的和值作为相应时间节点上所述第二事件热度;根据所述统计时间段内,所述起始事件 的脉络时间节点以后的各时间节点对应的所述第二事件热度,形成所述第二事件热度时间 分布。
[0013] 进一步地,所述根据所述统计时间段内所述专题的事件热度时间分布,从所述统 计时间段内选取多个事件脉络时间节点的处理包括:根据所述统计时间段内所述专题的第 二事件热度时间分布,从所述统计时间段内选取多个位于所述第二事件热度时间分布中表 征有新事件产生的时间节点;将所述第二事件热度时间分布中表征有新事件产生的时间节 点确定为发展事件的脉络时间节点。
[0014] 进一步地,所述根据所述统计时间段内所述专题的第二事件热度时间分布,从所 述统计时间段内选取多个位于所述第二事件热度时间分布中表征有新事件产生的时间节 点的处理包括:统计所述统计时间段内,所述起始事件的脉络时间节点以后的非所述专题 对应的其他专题所包含事件对应的所述第二事件热度时间分布;针对包含所述专题以及非 所述专题对应的所述第二事件热度时间分布,利用两个相邻且包含相同时间节点的计算窗 口以一个时间节点作为滑动窗口计算所述第二事件热度时间分布上每相邻两个时间节点 对应的所述专题与非所述专题之间所述第二热度比值的卡方统计量,并将所述卡方统计量 作为后一计算窗口中第一个所述时间节点对应的卡法统计量;将所述卡方统计量中大于第 二阈值的卡方统计量对应的时间节点确定为一个所述表征有新事件产生的时间节点。
[0015] 进一步地,所述根据所述统计时间段内所述专题的事件热度时间分布,从所述统 计时间段内选取多个事件脉络时间节点对应的所述事件的处理包括:对获取的所述专题对 应的所述起始事件的脉络时间节点以及多个所述发展事件的所述脉络时间节点对应的所 述专题包含的新增事件的原创微博的事件热度以及微博质量进行综合分数评估,并选取所 述综合分数最高的原创微博对应的事件作为相应所述脉络时间节点对应的所述节点事件。
[0016] 本发明的实施例还提供了一种基于微博的事件脉络获取系统,包括:信息获取模 块,用于获取统计时间段内针对预定的专题所包含的事件的原创微博及其转发微博的信 息;事件热度计算模块,用于计算所述事件的原创微博及其转发微博的信息在所述统计时 间段内对应的关于所述专题的事件热度时间分布,所述事件热度为与事件相关的原创微博 及其转发微博在用户群中的关注程度;事件脉络生成模块,用于根据所述统计时间段内所 述专题的事件热度时间分布,从所述统计时间段内选取多个事件脉络时间节点,及其对应 的节点事件构成所述专题的事件脉络。
[0017] 进一步地,所述原创微博及其转发微博的信息包括:所述原创微博及其转发微博 的评论数、转发数和点赞数。
[0018] 优选地,所述事件热度计算模块,用于根据所述专题所包含的事件的所有原创微 博及其转发微博的所述评论数、转发数和点赞数计算所述统计时间段内关于所述专题的第 一事件热度时间分布;所述第一事件热度为所有目标事件对应的所述事件热度的和值。
[0019] 进一步地,所述事件热度计算模块包括:第一权重系数设置单元,用于对所述专题 所包含的事件的所有原创微博及其转发微博的所述评论数、转发数和点赞数分别设置权重 系数;第一事件热度生成单元,用于将所述统计时间段内各时间节点对应的所述事件的所 有新产生的原创微博及转发微博的所述评论数、转发数和点赞数分别与对应的权重系数相 乘后,再相加的和值作为相应时间节点上所述第一事件热度;第一事件热度分布单元,用于 根据所述统计时间段内各时间节点对应的所述第一事件热度,形成所述第一事件热度时间 分布。
[0020] 进一步地,所述事件脉络生成模块包括:热度陡增选取单元,用于根据所述统计时 间段内所述专题的第一事件热度时间分布,从所述统计时间段内选取多个位于所述第一事 件热度时间分布中表征第一事件热度陡增的时间节点;起始事件节点单元,用于将所述第 一事件热度时间分布中表征第一事件热度陡增的时间节点中最早的时间节点确定为起始 事件的脉络时间节点。
[0021] 进一步地,所述热度陡增选取单元用于:针对所述统计时间段内所述专题对应的 所述第一事件热度时间分布,利用一个包含多个时间节点的计算窗口以一个时间节点作为 滑动窗口计算所述统计时间段内各时间节点对应的第一事件热度陡增参量,并形成第一事 件热度陡增参量序列;将所述第一事件热度陡增参量序列中大于第一阈值的第一事件热度 对应的时间节点确定为所述表
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1