一种用于微博的突发特征检测方法及装置与流程

文档序号:12363752阅读:192来源:国知局
本发明涉及网络信息挖掘
技术领域
,特别是涉及一种用于微博的突发特征检测方法及装置。
背景技术
:近年来,随着web2.0社交网络的兴起,微博以其方便快捷的优点迅速流行起来,现在已经发展成为网络信息传播的主要途径。微博用户数量众多,每天产生的信息量非常庞大。在微博中,人人都是信息的生产者和传播者,信息发布、转发非常便捷,这使得微博成为信息传播速度最快的网络媒体。社会上许多突发性话题,往往在微博平台上首发,借助其好友转发机制迅速传播,引起广泛的社会共鸣,进而波及传统媒体如新闻、论坛、博客等,产生巨大的社会影响。因此,微博平台上的社会突发话题检测技术,对于社会热点及时发现、网络民意尽快感知、突发事件及早响应等方面都具有积极的现实意义。与传统新闻话题相比,微博话题作为大众媒体的产物,具有自己显著的特点:(1)话题的多样性:同一时间,微博上各种话题,如社会事件类话题、娱乐八卦类话题、个人生活琐事等多种话题掺杂在一起,特别是一些生活琐事类话题,可能表现出一些周期性的突发特点,如周一“不想上班”,周末“出游计划”,月末“月光族”等话题。(2)话题的间歇性:同一个话题,通常会随着微博用户的关注程度和时间的推移经历一个产生、发展、成熟、衰退和消亡的完整生命周期。而且微博基于好友的转发机制,导致海量的信息冗余,产生大量的滞后过期信息,这使 得话题表现出一定的间歇性特征。鉴于微博的上述特点,传统的基于简单统计的突发特征检测方法识别准确率较低,不适用于微博信息的特征检测。如何针对微博信息噪音大、数据多样性的特点进行突发特征检测,现有技术尚无有效的解决方案。技术实现要素:本发明要解决的技术问题是提供一种用于微博的突发特征检测方法及装置,用以解决现有技术中微博信息噪音大、数据多样突发特征检测准确率低的问题。一方面,本发明提供一种用于微博的突发特征检测方法,包括:根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征;将所述候选突发特征中的频繁伪突发特征和间歇性伪突发特征滤除。可选的,所述根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征包括:提取所述信息流中的重复串;对所述重复串进行上下文邻接分析,以从所述重复串中提取有意义串;如果所述有意义串的被检特征的频次增长率大于预设增长阈值,确定所述有意义串的被检特征为候选突发特征。可选的,将所述候选突发特征中的频繁伪突发特征滤除包括:将第一预设时间段内各时间窗口上的候选突发特征形成第一频次序列;将所述第一频次序列变换到频域;根据所述第一频次序列的频谱分布,识别并滤除所述候选突发特征中的频繁伪突发特征。可选的,所述根据所述第一频次序列的频谱分布,识别并滤除所述候选突发特征中的频繁伪突发特征包括:确定所述第一频次序列频谱的0频率的能量值与其他频率的能量平均值的能量比;在所述能量比大于预设比值的情况下,确定所述第一频次序列对应的候选突发特征为频繁伪突发特征;将所述频繁伪突发特征从所述候选突发特征中滤除。可选的,将所述候选突发特征中的间歇性伪突发特征滤除包括:将第二预 设时间段内各时间窗口上的候选突发特征形成第二频次序列;通过对所述第二频次序列进行趋势分析,确定所述候选突发特征是否为首次突发;在所述候选突发特征不是首次突发的情况下,确定所述候选突发特征为间歇性伪突发特征并将所述间歇性伪突发特征滤除。另一方面,本发明还提供一种用于微博的突发特征检测装置,包括:检测单元,用于根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征;第一滤除单元,用于将所述候选突发特征中的频繁伪突发特征滤除;第二滤除单元,用于将所述候选突发特征中的间歇性伪突发特征滤除。可选您的,所述检测单元包括:提取模块,用于提取所述信息流中的重复串;邻接分析模块,用于对所述重复串进行上下文邻接分析,以从所述重复串中提取有意义串;确定模块,用于如果所述有意义串的被检特征的频次增长率大于预设增长阈值,确定所述有意义串的被检特征为候选突发特征。可选的,所述第一滤除单元包括:第一形成模块,用于将第一预设时间段内各时间窗口上的候选突发特征形成第一频次序列;变换模块,用于将所述第一频次序列变换到频域;第一滤除模块,用于根据所述第一频次序列的频谱分布,识别并滤除所述候选突发特征中的频繁伪突发特征。可选的,所述识别和滤除模块,具体用于:确定所述第一频次序列频谱的0频率的能量值与其他频率的能量平均值的能量比;在所述能量比大于预设比值的情况下,确定所述第一频次序列对应的候选突发特征为频繁伪突发特征;将所述频繁伪突发特征从所述候选突发特征中滤除。可选的,所述第二滤除单元包括:第二形成模块,用于将第二预设时间段内各时间窗口上的候选突发特征形成第二频次序列;趋势分析模块,用于通过对所述第二频次序列进行趋势分析,确定所述候选突发特征是否为首次突发;第二滤除模块,用于在所述候选突发特征不是首次突发的情况下,确定所述候选突发特征为间歇性伪突发特征并将所述间歇性伪突发特征滤除。本发明实施例提供的用于微博的突发特征检测方法及装置,能够根据信息 流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征,然后将候选突发特征中的频繁伪突发特征和间歇性伪突发特征滤除,从而能够针对微博信息噪音大、数据多样性的特点将相应的伪突发特征滤除,提高了微博突发特征检测的准确性。附图说明图1是本发明实施例提供的用于微博的突发特征检测方法的一种流程图;图2是本发明实施例提供的用于微博的突发特征检测方法的另一种流程图;图3是本发明实施例提供的用于微博的突发特征检测方法的又一种流程图;图4是本发明实施例提供的用于微博的突发特征检测装置的一种结构示意图。具体实施方式以下结合附图对本发明进行详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。如图1所示,本发明实施例提供的用于微博的突发特征检测方法,包括:S11,根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征;S12,将所述候选突发特征中的频繁伪突发特征和间歇性伪突发特征滤除。本发明实施例提供的用于微博的突发特征检测方法,能够根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征,然后将候选突发特征中的频繁伪突发特征和间歇性伪突发特征滤除,从而能够针对微博信息噪音大、数据多样性的特点将相应的伪突发特征滤除,提高了微博突发特征检测的准确性。需要说明的是,在微博信息中,存在着这样一类频繁特征,如“工作人员”,“上半年”,“短信”等,它们会周期性或者非周期性的频繁出现,但每天出现的频次不会特别高。由于语言的多样复杂性,这类频繁特征可以在多重语境中重复出现,偶尔呈现瞬时爆发增长趋势,但实际上并非真正的突发话题关键特征,称为频繁伪突发特征。频繁伪突发特征与真正的突发特征在短时间内都表现出明显的爆发趋势,但是频繁伪突发特征在历史信息中频繁而规律的出现,而突发特征在历史信息中出现情况不稳定。此外,微博话题还会呈现出一定的生存周期,有些话题的产生、发展、消亡是连续的,从话题产生开始到结束期间,每天都产生相关消息,而有些话题的发展是间歇性的,话题产生后沉寂几天才会有新的进展和消息,在话题存在的整个周期中,不一定每天都出现相关讨论。在一个话题周期内,特征第一次爆出是突发特征,再一次爆发就不构成突发特征,称为间歇性伪突发特征。要检测出真正的突发特征,就需要将上述的频繁伪突发特征和间歇性伪突发特征滤除。为此,在步骤S11中,首先可以根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征,然后在步骤S12中这两种伪突发特征滤除。可选的,在步骤S11中,根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征可具体包括:提取所述信息流中的重复串;其中,重复串是指重复出现频次大于两次的字符串。可选的,重复串的长度可以根据需要限定在一定数量的字符以内,例如10个字符以内。对所述重复串进行上下文邻接分析,以从所述重复串中提取有意义串;如果所述有意义串的被检特征的频次增长率大于预设增长阈值,确定所述有意义串的被检特征为候选突发特征。具体而言,可以将微博信息看作时间序列上的文本流,设置时间窗口T,将时间窗口T内的微博信息作为文档集合D={D1,D2,D3,…},提取D中 的有意义串。其中,时间窗口T可以根据需要设置,例如,在本发明的一个实施例中,时间窗口T可以取值为1天、2天等。其中,有意义串是指包含具体语义且能在多种不同语境中使用的字符串。有意义串是灵活独立的语言单元,可包括未录入的新词和命名实体,以及有意义的词组和短语。也就是说,有意义串都具有语义完整性,但突破了词典中词语的界限。可选的,可以采用邻接分析的方法进行有意义串的提取。邻接分析是指分析有意义字符串的上下文语言环境,如果该字符串能够应用于多种不同的上下文环境,具有语用灵活性,则该字符串就是有意义串。上下文邻接分析首先要提取重复串的邻接集合,计算每个重复串的邻接种类。邻接集合和邻接种类定义如下:邻接集合:分为左邻接集合NBL和右邻接集合NBR,分别指真实文本中,与字符串S左边或者右边相邻的词语的集合。当字符串做为一个句子的开始,其左邻接元素记为BOS,做为句子的结束时,其右邻接元素记为EOS。邻接种类:分为左邻接种类VL和右邻接种类VR,分别指左邻接集合中和右邻接集合种元素的数目,它们反映了字符串上文和下文语境种类的多少。选取重复串S的左邻接类别和右邻接类别中的较小值记为minVN。当minVN大于预设阈值TVN时,该重复串S就是有意义串。其中,预设阈值TVN的选取与微博信息的规模相关,取值应大于2,例如可以为3。有意义串的被检特征的爆发程度可以通过不同时间窗口上被检特征的频次变化情况来体现。在本发明的一个实施例中,提取当前时间窗口的有意义串后,可以统计每个有意义串的被检特征在当前时间窗口与上一个时间窗口相比的频次增长情况,如果当前时间窗口的频次与上一时间窗口的频次相比,增大超过了预设增长阈值,则该被检特征即可作为候选突发特征。如果被检特征在上一时间窗口未出现,则上一时间窗口对应的频次为0。具体而言,为了得到真正的突发特征,在步骤S12中,需要分别将候选突 发特征中的频繁伪突发特征和间歇性伪突发特征滤除,由于这两种伪突发特征是相互独立的,因此,滤除的先后顺序不限。可选的,将所述候选突发特征中的频繁伪突发特征滤除可包括:将第一预设时间段内各时间窗口上的候选突发特征形成第一频次序列;将所述第一频次序列变换到频域;根据所述第一频次序列的频谱分布,识别并滤除所述候选突发特征中的频繁伪突发特征。具体而言,可以统计候选特征在较长历史时间段(例如1个月或1年)的频次,形成N个时间窗口上的频次序列,然后将该频次序列看作离散时间信号,对其进行傅立叶变换,以便产生频域信号序列。通过对信号进行频域分析,即能够直观看到信号在不同频率成份上的大小分布,直接反映信号的频繁程度,从而揭示信号随频率的变化规律。例如,在频域中,频繁伪突发特征在0频率上的能量比较大,而其它频率上的能量相对较小,曲线有较明显的冲击;突发特征在0频率上的能量与其它频率上的能量差距相对较小,曲线比较平缓。因此,通过分析特征在0频率上与其他频率上的能量情况,即可将频繁伪突发特征识别出来。可选的,根据所述第一频次序列的频谱分布,识别并滤除所述候选突发特征中的频繁伪突发特征可包括如下步骤:确定所述第一频次序列频谱的0频率的能量值与其他频率的能量平均值的能量比;在所述能量比大于预设比值的情况下,确定所述第一频次序列对应的候选突发特征为频繁伪突发特征;将所述频繁伪突发特征从所述候选突发特征中滤除。举例说明,如图2所示,在本发明的一个实施例中,可以计算候选突发特征在当前时间窗口(当天)往前一个月内每天的的频次,构成频次序列,并进行傅立叶变换,根据频域中0频率与其他频率上的能量比识别频繁伪突发特征。其中,信号的频谱分布中,0频率的能量与其它频率能量平均值的比值称为能量比,用符号S表示:S=|x[0]|21K(Σk=1K|x[k]|2)---(1)]]>S可作为被检特征是否为频繁伪突发特征的度量,S的值越大,被检特征是频繁伪突发特征的可能性越大。实际应用中可以通过大量的标注数据训练得到预设比值ST,将能量比S与预设比值ST相比较,如果能量比S大于预设比值ST,即可确定该被检特征为频繁伪突发特征。具体的,步骤S12中的将候选突发特征中的间歇性伪突发特征滤除可包括:将第二预设时间段内各时间窗口上的候选突发特征形成第二频次序列;通过对所述第二频次序列进行趋势分析,确定所述候选突发特征是否为首次突发;在所述候选突发特征不是首次突发的情况下,确定所述候选突发特征为间歇性伪突发特征并将所述间歇性伪突发特征滤除。其中,第二预设时间段一般比第一预设时间段短,可选的,可以为微博等信息平台的一个话题周期。从阶段性趋势来看,经过间歇期后的爆发点就已经处于特征的下降趋势范围了,可以对话题周期内的频次序列进行平滑,分析其阶段性的趋势特点,进而判断突发特征是否为首次突发,从而识别出间歇性伪突发特征。例如,如果一个话题周期为M天,则可以对特征的频次曲线进行M天移动指数平滑EMA(exponentialmovingaverage),再计算移动平均收敛发散MACD(MovingAverageConvergencc-Divergence)指标,通过该指标来判断被检特征是否为首次突发,进而识别出间歇性伪突发特征。其中,指数移动平均EMA,是指将特征的频次时间序列进行n天指数平均,平均后的频次值与前n天的频次值相关,距离较近的频次值具有较大权重较大。EMA(n)[x]t=αxt+(1-α)EMA(n-1)[x]t-1=Σk=0nα(1-α)kxt-k---(2)]]>其中,xt是第t天的频次值,EMA(n)[x]t是n天指数平均频次值,它对于近期频次的变化要快于简单的n天平均值。α取值与n相关,一般为2/(n+1)。移动平均收敛发散MACD(MovingAverageConvergencc-Divergence)MACD指标是由两条曲线构成:一条实线(称为“MACD线”)与一条虚线(称为“Signal线”)。MACD线是较快的EMA线和较慢的EMA线的差值,它对于频次值变动的反应比较敏感。较快的EMA线与较慢的EMA线相比,n取值更小,受影响的历史区间更小,对当前值反应更快。“Signal线”是MACD线是经过指数平均之后的另一条EMA线,它对于频次值变动的反应比较缓慢。具体计算公式如下:MACD(n1,n2)=EMA(n1)-EMA(n2)(n1<n2)(3)signal(n1,n2,n3)=EMA(n3)[MACD(n1,n2)](n1<n3<n2)(4)当快速的MACD线穿越慢速的Signal线,频次的趋势发生变化。用histogram来表示,它是MACD和signal的差值,计算公式如下:histogram(n1,n2,n3)=MACD(n1,n2)-signal(n1,n2,n3)(5)hisrogram扩大了特征的平均频次值和局部波动之间的差异,当hisrogram大于0时,表示频次处于上升趋势,当hisrogram小于0时,表示频次处于下降趋势。它可用来反映特征频次的变化趋势,作为衡量特征是否为首次突发的指标。间歇性突发特征在首次出现时,hisrogran大于0,频次呈现上升态势,属于突发特征;当间歇性特征在话题周期内再次出现时,hisrogram小于0,频次呈现下跌态势,则表明特征在前期出现过大规模爆发,判断该特征不是首次突发特征,而仅仅是间歇性突发特征。本实施例中的间歇性伪突发特征检测的具体过程可如图3所示。在上述突发特征的趋势分析中,参数n1,n2,n3的取值应该与话题周期 相关。一般n2可以取值为一个话题周期,n1可以取值为半个话题周期,而n3取值在n1和n2之间。通过分析和训练发现,大部分话题的生存周期在一周左右,在本实例中,n1可取值为3,n2取值为7,n3取值为5。相应的,如图4所示,本发明的实施例还提供一种用于微博的突发特征检测装置,包括:检测单元40,用于根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征;第一滤除单元41,用于将所述候选突发特征中的频繁伪突发特征滤除;第二滤除单元42,用于将所述候选突发特征中的间歇性伪突发特征滤除。本发明实施例提供的用于微博的突发特征检测装置,检测单元40能够根据信息流中有意义串的被检特征的瞬时爆发情况,检测出候选突发特征,第一滤除单元41能够将候选突发特征中的频繁伪突发特征滤除,第二滤除单元42能够将候选突发特征中的间歇性伪突发特征滤除,从而能够针对微博信息噪音大、数据多样性的特点将相应的伪突发特征滤除,有效提高了微博突发特征检测的准确性。可选的,检测单元40可包括:提取模块,用于提取所述信息流中的重复串;邻接分析模块,用于对所述重复串进行上下文邻接分析,以从所述重复串中提取有意义串;确定模块,用于如果所述有意义串的被检特征的频次增长率大于预设增长阈值,确定所述有意义串的被检特征为候选突发特征。可选的,第一滤除单元41可包括:第一形成模块,用于将第一预设时间段内各时间窗口上的候选突发特征形成第一频次序列;变换模块,用于将所述第一频次序列变换到频域;第一滤除模块,用于根据所述第一频次序列的频谱分布,识别并滤除所述候选突发特征中的频繁伪突发特征。可选的,识别和滤除模块,可具体用于:确定所述第一频次序列频谱的0频率的能量值与其他频率的能量平均值的能量比;在所述能量比大于预设比值的情况下,确定所述第一频次序列对应的候选突发特征为频繁伪突发特征;将所述频繁伪突发特征从所述候选突发特征中滤除。可选的,第二滤除单元42可包括:第二形成模块,用于将第二预设时间段内各时间窗口上的候选突发特征形成第二频次序列;趋势分析模块,用于通过对所述第二频次序列进行趋势分析,确定所述候选突发特征是否为首次突发;第二滤除模块,用于在所述候选突发特征不是首次突发的情况下,确定所述候选突发特征为间歇性伪突发特征并将所述间歇性伪突发特征滤除。尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1