面向话题的多微博时序文摘方法与流程

文档序号:13673772阅读:199来源:国知局
技术领域本发明涉及网络微博中的数据挖掘技术领域,特别是涉及一种面向话题的多微博时序文摘方法。

背景技术:
随着互联网技术的飞速发展,特别是微博的出现,人们获取信息的方式发生了一定的改变。然而,由于微博庞大的用户量和开放的信息发布方式,其上的信息存在着大量的冗余,为了帮助用户精准快速的从微博上获取自己所需的信息,对微博摘要算法的研究设计具有重要的现实意义。摘要是简明确切地记述文献重要内容的短文,其长度一般在原始文献长度的15%以下,通过这种方式来获取信息,可以在不曲解原始文献含义的前提下大大缩短获取信息所需要的时间和精力。面对互联网上海量的信息,人工完成摘要显然是不可能的,而自动摘要就显得格外重要。然而,互联网应用方式的变化对自动摘要的方法提出了新的要求,微博网站,如Twitter的出现使得互联网上内容的形式大大改变。微博是近年出现的一种互联网平台,它允许用户在其上发布和浏览信息,并具有一些很强的社交属性功能,如转发和回复功能。由于微博内容的简短性、高实时性、高社交性的特点,使得面向微博的自动摘要技术需要采用与传统自动摘要所不同的方法。

技术实现要素:
为了解决上述技术问题,本发明提供一种面向话题的多微博时序文摘方法,该方法通过小波去噪的方法检测出特定话题下微博序列中的重要时间点,并在此基础上,利用一类改进的基于图的随机游走算法对多微博进行摘要,输出结果准确度高。为此,本发明的技术方案如下:一种面向话题的多微博时序文摘方法,包括如下步骤:1)面向话题的微博文本流热度信号建模记某一时间点为ti,在ti时间点包含关键词K的微博的更新速度为其中,表示时间段[ti,ti+Δt]中发布的包含关键词K的微博条数,表示[ti,ti+Δt]中发布的所有微博条数;给定关键词K和时间段[tstart,tend],以此为基础抽取出此时间段内包含K的微博实验数据集,选定单位时长Δt,沿时间轴计算各点的微博更新速度得到一个一维向量作为初始热度信号;2)重要时间点检测建模采用小波分析和小波降噪的原理对步骤1)得到的初始热度信号进行降噪;按一定的时间粒度选取其中的信号极大值点,优选此处观察粒度以天为单位,依据对应更新速度的大小进行排序,并依次以其对应的时间点为重要时间点,记为imp={imp1,imp2,…,impl
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1