一种基于动态摘要技术的微博流信息提取方法

文档序号:6523962阅读:197来源:国知局
一种基于动态摘要技术的微博流信息提取方法
【专利摘要】本发明公开了一种基于动态摘要技术的微博流信息提取方法,该发明首先设计了一种基于微博流的增量聚类方法,并提出一种新的微博类向量的数据结构,以维护类的聚集信息。同时,结合金字塔型时间帧结构,保存历史时刻的信息快照,从而支持对任意时间段进行摘要。利用聚类方法得到的信息,提出高层次摘要算法,选取最具有代表性的微博作为摘要。在此基础上,通过检测摘要内容的变化,设计一种话题演变检测方法,自动地生成时间轴。本发明设计的方法在面向海量社会化文本进行信息提取的效率和效果上取得了良好的平衡,既使得用户在知识获取过程中更加的便利,同时也支持诸如实时报道、历史综述等数据分析工作。
【专利说明】一种基于动态摘要技术的微博流信息提取方法
【技术领域】
[0001]本发明涉及机器学习领域的文本摘要方法、数据库领域的流数据聚类以及人机交互领域的时间轴可视化方法,尤其涉及一种基于流聚类的海量社会化文本摘要方法。
【背景技术】
[0002]由于近年来信息的爆炸式增长,人工地从海量数据中获取重要信息已经越来越困难,因此,能够自动提取重要信息的文本摘要技术获得了极大的关注。文本摘要可分为提取式摘要和抽象式摘要。提取式摘要是从原文档中选取句子以组成摘要,而抽象式摘要则是根据一定的语法句法结构自行生成短语和句子。其中提取式摘要更为简单有效,因此在文本摘要领域一般采用提取式摘要。目前,文本摘要技术已经被广泛应用于网络新闻媒体、社交网络、教育等多个领域。
[0003]在数据库领域的流数据聚类方面,增量聚类是一种可以动态地维护和更新类信息的方法。随着新数据的接收,或者更新该数据所属的类,或者以该数据为基础新建一个类。另外,金字塔型时间帧是一种可以帮助获取数据流历史信息的数据结构。它根据不同时间在各个层次上存储不同粒度的信息快照,时间离当前时刻越近,其存储的快照密度就越大,反之则越小。流聚类对于更新快速、数量庞大的数据具有效果好、效率高的特点,被广泛应用于流数据的分析处理当中。
[0004]时间轴是一种数据可视化技术,它用来描述一定时间范围内的话题演变情况。目前生成时间轴的方法主要有两类,一类预先定义关键的时间节点,然后对每个节点对应的内容使用摘要方法得到摘要。另一类通过检测与话题相关的文本数量在某一时期的爆发度,如某时刻的微博数量急剧增长,自动检测出时间节点,然后提取特定的文本信息(如标签、摘要等)以描述该节点。时间轴技术广泛地应用于许多领域,例如信息检索、自然语言处理以及人机交互等。它为用户提供了一种简洁易懂的可视化信息,既增强了用户体验,也提高了信息获取的效率。

【发明内容】

[0005]本发明的目的在于针对现有技术的不足,提供一种基于动态摘要技术的微博流信息提取方法。
[0006]本发明解决其技术问题采用的技术方案如下:
[0007](I)首先建立微博流中微博的数据模型,一条微博由三部分组成:文本内容、时间戮和权重。
[0008](2)对微博流数据进行流聚类:通过对每一条最新接收的微博采用增量聚类的方法,维护并更新微博类向量的数据结构,从而将源源不断的海量数据流提炼为动态更新的微博类。
[0009](3)在步骤2的过程中,每隔一定时间T,将当前内存中维护的微博类的数据信息快照存入一个金字塔型时间帧的结构。[0010](4)基于微博的时效性特点,周期性地检查当前维护的类集合中,是否含有过期的类,并将之删除,以此保证当前内存中维护类的新鲜度。
[0011](5)为防止类数量过多导致方法效率降低以及内存消耗过大的问题,当类的数量达到限制数量N后,进行类合并操作。
[0012](6)基于步骤2和步骤3所维护的信息,为实时摘要和历史摘要获取不同的输入内容。实时摘要可直接提取当前内存中维护的类信息,而历史摘要则需要通过时间段的两个端点,从金字塔型时间帧中获取对应时间所存储的类信息,并进行相减操作来得到。
[0013](7)基于步骤6中得到的类信息,进行高层次摘要。首先对类信息中包含的微博计算分数,然后利用该分数同时结合内容覆盖率和新颖度对微博进行排序,依次选取微博加入摘要。
[0014](8)通过步骤7可得到任意一段时间内连续的时间间隔T’的摘要,然后根据摘要内容的变化幅度,来检测话题的演变情况,并动态地生成时间轴。
[0015]本发明具有的有益效果是:以在线的方式对微博流进行处理,可同时提供动态的时间轴以及任意时间段摘要的输出形式。此方法在面向海量社会化文本进行信息提取的效率和效果上取得了良好的平衡,既使得用户在知识获取过程中更加的便利,同时也支持诸如实时报道、历史综述等数据分析工作。
【专利附图】

【附图说明】
[0016]图1是本发明实施步骤流程图;
[0017]图2是金字塔型时间帧结构中快照存储的示意图;
[0018]图3是时间戳的概率密度函数的示意图。
【具体实施方式】
[0019]现结合具体实施和示例对本发明的技术方案作进一步说明。
[0020]如图1,本发明具体实施过程和工作原理如下:
[0021]步骤1:建立微博的数据模型,由三部分组成:文本内容、时间戳和权重。文本内容基于空间向量模型,每个维度上的数值是某个词的TF-1DF值。时间戳即该微博发布的时间。权重即该微博发布者的社会化影响力,其计算方法为:先利用社交关系建立一个用户矩阵,然后在该矩阵上计算每个用户的PageRank值,以这个值来衡量用户的影响力,并作为其发布的微博的权重。
[0022]微博作为一种网络社会化媒体的产物,其不仅具有单纯的文本内容,同时也具有相应的时间属性和社交属性。所以此数据模型可以充分地利用微博所蕴含的信息。
[0023]步骤2:对微博流数据进行流聚类。首先积累少量微博(数量可任意指定)并采用K-means聚类方法产生初始的类,并初始化相应的微博类向量。微博类向量维护了属于某个类的微博的六种聚集信息,包括正则化的文本向量和sum_v、加权文本向量和wsum_v、时间戳之和tsl、时间戳平方和ts2、包含的微博数量η以及焦点微博集合ft_set。焦点微博集合是指与当前类向量中心最为相似的m条微博,类向量中心可以通过WSUm_v/n来得到,相似度计算采用Cosine相似度,m值的选取范围为[10,100],其数值的增大会导致类向量的存储开销增大。[0024]在初始化完成后,对于每一条最新接收的微博,采用增量聚类的方法:计算各个微博类向量中心与该微博文本向量的Cosine相似度,从而找出与该微博最相似的类。如果它
们之间的相似度大于
【权利要求】
1.一种基于动态摘要技术的微博流信息提取方法,其特征在于,该方法的步骤如下: (O首先建立微博流中微博的数据模型,一条微博由三部分组成:文本内容、时间戳和权重。 (2)对微博流数据进行流聚类:通过对每一条最新接收的微博采用增量聚类的方法,维护并更新微博类向量的数据结构,从而将源源不断的海量数据流提炼为动态更新的微博类。 (3)在步骤2的过程中,每隔一定时间T,将当前内存中维护的微博类的数据信息快照存入一个金字塔型时间帧的结构。 (4)基于微博的时效性特点,周期性地检查当前维护的类集合中,是否含有过期的类,并将之删除,以此保证当前内存中维护类的新鲜度。 (5)为防止类数量过多导致方法效率降低以及内存消耗过大的问题,当类的数量达到限制数量N后,进行类合并操作。 (6)基于步骤2和步骤3所维护的信息,为实时摘要和历史摘要获取不同的输入内容。实时摘要可直接提取当前内存中维护的类信息,而历史摘要则需要通过时间段的两个端点,从金字塔型时间帧中获取对应时间所存储的类信息,并进行相减操作来得到。 (7)基于步骤6中得到的类信息,进行高层次摘要。首先对类信息中包含的微博计算分数,然后利用该分数同时结合内容覆盖率和新颖度对微博进行排序,依次选取微博加入摘要。 (8)通过步骤7可得到任意一段时间内连续的时间间隔T’的摘要,然后根据摘要内容的变化幅度,来检测话题的演变情况,并动态地生成时间轴。
2.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤I中,文本内容基于空间向量模型,每个维度上的数值是某个词的TF-1DF值。时间戳即该微博发布的时间。权重即该微博发布者的社会化影响力,其计算方法为:先利用社交关系建立一个用户矩阵,然后在该矩阵上计算每个用户的PageRank值,以这个值来衡量用户的影响力,并作为其发布的微博的权重。
3.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤具体为:首先积累微博并采用K-means聚类方法产生初始的类,并初始化相应的微博类向量。微博类向量维护了属于某个类的微博的六种聚集信息,包括正则化的文本向量和sum_v、加权文本向量和wsum_v、时间戳之和tsl、时间戳平方和ts2、包含的微博数量η以及焦点微博集合ft_set。焦点微博集合是指与当前类向量中心最为相似的m条微博,类向量中心可以通过wsum_v/n来得到,相似度计算采用Cosine相似度,m值的选取范围为[10,100],其数值的增大会导致类向量的存储开销增大。在初始化完成后,对于每一条最新接收的微博,采用增量聚类的方法:计算各个微博类向量中心与该微博文本向量的Cosine相似度,从而找出与该微博最相似的类。如果它们之间的相似度大于,则将该微博加入这个类当中,并更新其类向量。否则,就将该微博升级为一个新建的类。该判断条件中,β e (O, 1), β越小则越不容易创建新的类,类数量的增长就越慢,β越大则越容易创建新的类,类数量的增长就越快。表示属于该类的微博与类向量中心的平均Cosine相似度,c表示类向量中心,t表示属于该类的某条微博,矹巧可根据以下公式计算得到:
4.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤5中,所述类合并操作具体为:首先根据类中心相似度,对两两组成的类对排序,然后从最相似的类对开始进行合并,两个类的合并操作,即两个类向量、^^!!!—V1, wsum—V1j tsl” ts2lJ ft—Set1)和 V2= (sum—v2,wsum—v2,tsl2,ts22,ft—set2)相加得到新的类向量V3= (sum—v3,wsum—v3,tsl3,ts23,ft—set3),具体方法如下:
sum_v3=sum_v1+sum_v2 ;
wsum_v3=wsum_v1+wsum_v2 ;
tSI3—tS Ii+tS I];
ts23=ts21+ts22 ; ft_set3则由Ifi^set1 U ft_set2中与新的类中心向量最相似的m条微博组成。
5.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤6中,两个类的相减操作,即类向量V1= (Sun^v1, Wsun^v1, tsl” ts2v ft_Set1)减去 V2= (sum_v2, wsum_v2, tsl2, ts22, ft_set2)得至Ij 新的类向量 V3= (sum_v3, wsum_v3, tsl3, ts23, ft_set3),具体方法如下:
sum_v3=sum_v1-sum_v2 ;
wsum_v3=wsum_v1-wsum_v2 ;
t S I3—t S IS I];
ts23=ts21-ts22 ; ft_set3则由Ifi^set1中存在但不在ft_set2中的微博组成。
6.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤7通过以下三个子步骤来实现: (7.1)首先对ft_sets中所有的微博计算LexRank值。 (7.2)从每一个类中选取一条LexRank值最高的微博,并按照以下公式进行选择,依次加入摘要:
7.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤8中,利用JS divergence来衡量相邻时刻两个摘要的单词分布之间的距离。
【文档编号】G06F17/30GK103699611SQ201310688854
【公开日】2014年4月2日 申请日期:2013年12月16日 优先权日:2013年12月16日
【发明者】胡天磊, 寿黎但, 陈珂, 陈刚, 王振华 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1