基于微博的事件脉络获取方法和系统的制作方法_4

文档序号:9217270阅读:来源:国知局
bOi) = di^arLhot-factori+S transimit-hot-factoi^ei..................(8)
[0099] hot_factor(weibo) = 2hot_factor(weiboj).............................................(9)
[0100] 其中,ori_hot_factor、transimit_hot_factor分别为原创微博及转发微博的 事件热度;〇ri_hot_factori、transimitjiot-factorij、hot-factoiKweibOi)分别为第i 条原创微博及其所有转发微博中第j条转发微博的事件热度以及二者热度和值(第i条 微博的热度)吨和e,依次为第i条原创微博及其所有转发微博对应的权重系数;hot_ factor(weibo)为所有原创微博及其转发微博的加权和的事件热度的和值(第二事件热 度);i、j为大于〇的整数。
[0101] S290,根据统计时间段内,起始事件的脉络时间节点以后的各时间节点对应的第 二事件热度,形成第二事件热度时间分布。
[0102] 相对应地,基于上述获取的第二事件热度时间分布,本实施例中,针对上述步骤 S130,根据统计时间段内专题的事件热度时间分布,从统计时间段内选取多个事件脉络时 间节点的处理包括:根据第二事件热度时间分布确定发展事件的脉络时间节点(对应步骤 为S300 ~S310) 〇
[0103] S300,根据统计时间段内专题的第二事件热度时间分布,从统计时间段内选取多 个位于第二事件热度时间分布中表征有新事件产生的时间节点。
[0104] 通常,在专题所包含的事件中有新生事件或出现事件进展时,用户会对相关事件 的原创微博及其转发微博进行相对集中的关注。而这些集中的关注反映在上述第二事件热 度时间分布中,就对应为第二事件热度在随时间变化时出现热度陡增现象。利用这一特点, 可对上述第二事件热度时间分布中出现热度陡增的时间节点进行分析,从中确定出多个发 展事件的脉络时间节点。
[0105] 具体地,本实施例示出了根据第二事件热度时间分布,选取多个表征有新事件产 生的时间节点的具体实现方式(对应步骤包括cl~c3)。
[0106] cl,统计时间段内,起始事件的脉络时间节点以后的非专题对应的其他专题所包 含事件对应的第二事件热度时间分布。
[0107] 为了表征预定专题中有新事件产生而引起的微博的事件热度的变化,本实施例引 入了非预定专题的其他专题所包含的事件的原创微博及其转发微博对应的第二事件热度 时间分布作为对比信息,以筛选出预定专题对应的第二事件热度时间分布中表征有新事件 产生的时间节点。
[0108] 其中,关于相同统计时间段内,非预定专题的其他专题对应的第二事件热度时间 分布的计算与前述方法相同,在此不做赘述。而针对非预定专题的其他专题的数量在此不 做限定,优选的引入尽可能多的数量。
[0109] c2,针对包含专题以及非专题对应的第二事件热度时间分布,利用两个相邻且包 含相同时间节点的计算窗口以一个时间节点作为滑动窗口计算第二事件热度时间分布上 每相邻两个时间节点对应的专题与非专题之间第二热度比值的卡方统计量,并将卡方统计 量作为后一计算窗口中第一个所述时间节点对应的卡法统计量。
[0110] 这里,我们引入了卡方假设检验的方法,通过比较两个相邻窗口的样本参量来为 每个事件节点计算出能够表征是否针对预定专题有新生事件或进展事件产生的卡方统计 量。
[0111] 举例说明,本实施例中,将每个时间节点上对应的卡方统计量作为判断该时间节 点上,关于预定专题是否有新进展事件发生的一个衡量值。首先选取两个相邻且包含相同 时间节点的计算窗口,如图4所示的计算窗口中,每个计算窗口的长度可为4天(对应包含 4个时间节点,每个时间节点对应为1天),并以1天为滑动窗口的长度;不断计算时间轴 上,每两个计算窗口所对应的卡方统计量,并将该卡方统计量幅值给后一计算窗口中第一 个时间节点。由此,利用卡方统计量对每一个时间节点是否为事件进展点进行评估。
[0112] 具体地,如图4中所示,计算每两个相邻计算窗口对应的卡方统计量的方法如下:
[0113] 假设两个计算窗口分别为T0和T1,对应的预定专题与非预定专题的第二事件热 度如表1所示。分别提取两个计算窗口内预设专题与非预设专题的第二事件热度,得到二 者的比值;通过卡方统计的假设检验方法判断这个比值在这两个计算窗口对应的时间段上 是否具有显著变化。这个变化的显著性则作为预设专题在该计算窗口内有新事件发生的卡 方统计量。
[0114] 表1预定专题与非预定专题的第二热度分布表
[0116] 在表1所示内容的基础上,可通过公式(10)得到图4中对应时间段内的卡方统计 量的值Score(Q)。
[0118] 其中N=hi+l^+l^+l^。
[0119] 最后,将得到的Scored)作为后一计算窗口T1中第一个时间节点对应的卡法统 计量。
[0120] c3,将卡方统计量中大于第二阈值的卡方统计量对应的时间节点确定为一个表征 有新事件产生的时间节点。所述的第二阈值为衡量卡方统计量是否能够表征其对应的时间 节点为有新事件产生的时间节点的参量。
[0121] S310,将第二事件热度时间分布中表征有新事件产生的时间节点确定为发展事件 的脉络时间节点。
[0122] 基于上述步骤获取的起始事件和发展事件的脉络时间节点,作为步骤S130的细 化,从相关事件中选取对应的事件从而构成关于所述专题的事件脉络包括(步骤S320):
[0123] S320,对获取的专题对应的起始事件的脉络时间节点以及多个发展事件的脉络时 间节点对应的专题包含的新增事件的原创微博的事件热度以及微博质量进行综合分数评 估,并选取综合分数最高的原创微博对应的事件作为相应脉络时间节点对应的节点事件构 成专题的事件脉络。
[0124] 例如,可通过公式(11)对选定的脉络时间节点对应的预定专题包含的新增事件 的原创微博的事件热度以及微博质量进行综合分数评估。
[0125] Score(p) =f*ori_hot_factor(weiboj) +g*quality.......... . (11)
[0126] 其中,Score(p)为综合分数;oriLhoi^factoiKweibOi)为目标事件的原创微博的 事件热度;quality为原创微博对应的微博质量;f、g分别为原创微博的事件热度机微博质 量对应的权重系数。
[0127] 最后,将综合分数最高的原创微博对应的事件作为相应脉络时间节点对应的节点 事件,从而将所有脉络时间节点上的事件依次串连构成专题的事件脉络。
[0128] 图5所示,为本实施提供的根据上述实施例所示方法得到的针对专题为"平安"所 包含事件的事件脉络样例图。
[0129] 本发明实施例提供的基于微博的事件脉络获取方法,在图1所示实施例的基础 上,进一步示出了通过形成的第一事件热度时间分布,确定预定专题的起始事件的脉络时 间节点;通过形成的第二事件热度时间分布,确定预定专题的发展事件的脉络时间节点; 通过确定的起始事件和发展事件的脉络时间节点,确定相应时间节点上对应的节点事件, 从而得到关于预定专题的事件脉络。这些步骤的增加,更提高了最终确定的专题事件的事 件脉络的准确性。
[0130] 实施例三
[0131] 图6为本发明提供的基于微博的事件脉络获取系统一个实施例的结构示意图,图 6所示系统可用于执行如图1所示实施例的方法步骤。
[0132] 参照图6,该基于微博的事件脉络获取系统具体包括信息获取模块610、事件热度 计算模块620和事件脉络生成模块630。
[0133] 信息获取模块610,用于获取统计时间段内针对预定的专题所包含的事件的原创 微博及其转发微博的信息;事件热度计算模块620,用于计算事件的原创微博及其转发微 博的信息在统计时间段内对应的关于专题的事件热度时间分布,所述事件热度为与事件相 关的原创微博及其转发微博在用户群中的关注程度;事件脉络生成模块630,用于根据统 计时间段内专题的事件热度时间分布,从统计时间段内选取多个事件脉络时间节点,及其 对应的节点事件构成专题的事件脉络。
[0134] 本发明实施例提供的基于微博的事件脉络获取系统,通过在统计时间段内,分析 获取预定的专题所包含的事件的原创微博及其转发微博在用户群众的关注程度,以形成关 于所述专题的事件热度时间分布,然后利用该事件热度时间分布的分布特点从中选取多个 事件脉络时间节点,及其对应的节点事件构成关于所述专题的事件脉络。本实施例所述系 统可快速和准确的获取预定专题在统计时间段内的事件脉络。
[0135] 实施例四
[0136] 图7为本发明提供的基于微博的事件脉络获取系统另一个实施例的结构示意图, 可视为图6所示实施例的一种具体实现结构,用于执行如图2所示实施例的方法步骤。
[0137] 参照图7,该基于微博的事件脉络获取系统包括信息获取模块610、事件热度计算 模块620和事件脉络生成模块630,且分别与图6中的相应模炔基本相同。
[0138] 进一步地,所述原创微博及其转发微博的信息包括:原创微博及其转发微博的评 论数、转发数和点赞数。
[0139] 在此基础上,图7所示的系统中,所述事件热度计算模块620还用于根据专题所包 含的事件的所有原创微博及其转发微博的所述评论数、转发数和点赞数计算所述统计时间 段内关于专题的第一事件热度时间分布;所述第一事件热度为所有目标事件对应的事件热 度的和值。
[0140] 进一步地,上述事件热度计算模块620包括:第一权重系数设置单元621,用于对 专题所包含的事件的所有原创微博及其转发微博的评论数、转发数和点赞数分别设置权重 系数;第一事件热度生成单元622,用于将统计时间段内各时间节点对应的事件的所有新 产生的原创微博及转发微博的所述评论数、转发数和点赞数分别与对应的权重系数相乘 后,再相加的和值作为相应时间节点上第一事件热度;第一事件热度分布单元623,
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1