基于时序分布信息和主题模型的新闻事件演化分析方法

文档序号:6542466
基于时序分布信息和主题模型的新闻事件演化分析方法
【专利摘要】本发明“基于时序分布信息和主题模型的新闻事件演化分析方法”,涉及文本分析领域。首先通过分析新闻报道在时间序列上表现出来的分布特征,并利用K-Means聚类算法,将语料库按时间划分成几个子语料库;然后利用主题模型依次对每个子语料库进行主题建模,通过Gibbs抽样的方法将模型学习出来,得到每个子语料的主题分布信息;最后通过计算相邻子语料库中两两主题之间的Jensen-Shannon距离,取距离最小的主题串联起来,被串联起来的主题便是该事件的主主题,每个子语料中除了主主题之外的辅助主题,便是该事件在各个阶段的关注点和新的发展。能更好地刻画新闻预料中事件发展的主线以及在各个阶段爆发出来的新的关注点。
【专利说明】基于时序分布信息和主题模型的新闻事件演化分析方法
【技术领域】
[0001]本发明涉及文本分析领域,特别涉及到一种新闻事件主题演化分析的方法。
【背景技术】
[0002]互联网时代,信息以爆炸式的速度增长,但是寻找自己真正需要的信息却变得越来越困难,因此,我们需要新的方法来帮助我们组织和理解这些庞大的信息。主题模型作为一种可以自动组织、理解、搜索和概括大规模电子文档的方法,能够用于挖掘隐藏在文档集合中的主题信息,然后根据文档的主题进行标记,最后可以根据标记来组织、概括和搜索文本。
[0003]主题模型(Topic Models)的基本思想是,一个文档是由多个主题混合而成的,而主题是在词库上的一个概率分布。主题模型是一个生成式模型,为了生成一个文档,首先选择一个主题的概率分布,然后对于文档的每个词,根据主题的概率分布随机的选择一个主题,并从该主题中选择一个词。利用统计学的一个方法,我们可以推理出生成该文档集合的
主题集合。
[0004]主题模型的起源是隐性语义索引(Latent Semantic Indexing, LSI)。LSI并不是概率模型,因此也算不上一个主题模型,但是其基本思想为主题模型的发展奠定了基础。在 LSI 基础上,Hofmann (1999; 2001)提出了 pLSI (Probabilistic Latent SemanticIndexing)模型,但pLSI并没有用一个概率模型来模拟文档的产生,只是通过对训练集种的有限文档进行拟合,得到特定文档的主题混合比例。这样就导致了 PLSI模型参数随着训练集中的文档数目线性增加,出现过拟合现象,而且对于训练集以外的文档很难分配合适的概率。2003年,Blei等人pLSI基础上加以扩展,提出了 LDA(Latent DirichletAllocation)模型。LDA模型用服从Drichlet分布的K维隐含随机变量表示文档的主题混合比例,来模拟文档的产生。Dirchlet分布作为多项分布的共轭先验,很好的简化了统计推理问题。
[0005]但是LDA模型假设语料库中的所有文档是可交换的,但是在许多实际的语料中,该假设并不合适,如学术期刊,邮件,新闻等等的内容,都是随着时间不断演化的。为了显示地描述和发现主题的动态变化情况,2006年Blei和Lafferty又提出了 DTM (Dynamic TopicModel)。在DTM模型中,作者按时间片对文档集合进行划分,然后分别对每个时间片内地文档用LDA模型进行建模,而时间片t的主题是从时间片t-Ι的主题进化而来的。
[0006]但是DTM模型中,每个时间片内的主题数是确定的,并且所有的主题都是由第一个时间片内的主题演变而来,因此该模型比较适合大规模的涵盖多个主题的语料库,这样的情况下,DTM模型能够很好的跟踪每个主题,如何从第一个时间片一步一步演变到最后一个时间片。对于只包含特定新闻事件的语料库,DTM很难发现后续时间片内事件的新变化。

【发明内容】

[0007]本发明目的在于克服现有技术的不足,公开一种基于时序分布信息和主题模型的新闻事件演化分析方法,本发明方法将主题模型应用到新闻事件的主题跟踪和演化分析,同时结合新闻报道在时序上表现出的分布信息,改进主题模型在新闻事件跟踪和演化分析的效果,以更好获取新闻事件发展脉络。
[0008]本发明方法技术方案概括为:首先通过分析新闻报道在时间序列上表现出来的分布特征,并利用K-Means聚类算法,将语料库按时间划分成几个子语料库;然后利用主题模型(LDA)依次对每个子语料库进行主题建模,通过Gibbs抽样的方法可以将模型学习出来,得到每个子语料的主题分布信息;最后通过计算相邻子语料库中两两主题之间的Jensen-Shannon距离,取距离最小的主题串联起来,被串联起来的主题便是该事件的主主题,每个子语料中除了主主题之外的辅助主题,便是该事件在各个阶段的关注点和新的发展。
[0009]上述技术方案,具体包括实施步骤:
[0010](I)文档时序分析。通过遍历某一事件相关报道的文档集合,生成报道在时间上的分布信息,即每天各有多少数量的相关报道,并在二维空间绘制分布图,横轴表示时间,纵轴表示数量;
[0011](2)通过自适应的K-Means算法,将(I)获得分布数据进行聚类分析,从而将该事件相关报道的文档集合划分成多个子集合,每个子集合拥有不同的时间跨度,并且在时间上拥有连续性,即前一个子集合的结束时间是下一个子集合的开始时间;
[0012](3)文档预处理,构建新闻演化分析的语料库。给定关于某一事件的相关报道的文档集合,通过词性标注仅保留名词(包括专有名词)、动词(及其变形)、形容词(及其变形),去掉停用词等处理,获取文档集合中的有效词作为语料库;
[0013](4)词典和文档矩阵构建。基于(3)获得的语料库,构建语料库词典,给每个唯一词编号,并用该编号构建文档一词的矩阵,文档矩阵中每一行记录文档中出现的所有词;
[0014](5)模型构建和推导。基于(2)的划分,分别对每个子集合的构建LDA主题模型,并通过Gibbs抽样算法,推导出每个子集合内的文档一主题分布,以及主题一词分布;
[0015](6)绘制主题演化图,发现主主题。基于(5)获得的分布信息,分别计算各个相邻子集合内的主题相似度,并将各相邻子集合中相似度最高的主题通过有向边串联起来;通过串联所有子集合后,被串联起来的主题便是主主题,各个子集合中非主主题的其它所有主题便是辅助主题;
[0016](7)事件演化发展分析。通过(6)获得了主主题和辅助主题,主主题描述了事件的核心焦点,并且在各子集合中保持较高的相似度,辅助主题在各个子集合中有较大的差异性,表现了事件在各个阶段的新发展和焦点。
[0017]在上述方法中,步骤(2)使用自适应的K-Means算法将文档划分成时间跨度各不相同的子文档集;由于新闻事件的报道在时间序列表现出一定的分布特性,通过聚类后的文档子集合在内容上表现出较高的相似性。
[0018]在上述方法中,所述步骤(2)进一步包括下列具体的步骤:
[0019](21)设置初始聚类数量为2,最大迭代次数max_k以及阀值t ;
[0020](22)若聚类数量小于max_k,运行K-Means算法,获得每个点的类别以及到聚类中心的距离;
[0021](23)计算当前每个聚类中所有点到该聚类中心的平均距离(meandistance, md);
[0022](24)计算所有类的平均距离的加权平均值(weighted mean distance, wmd);
[0023](25)若当前丽id与前一次的丽id的差值小于阀值t,则结束迭代;否则,聚类数量加1,并重新执行步骤b);若聚类数量等于max_t,也结束迭代;
[0024](26)获取最优聚类数量K,以及各个点的类标。
[0025]其中K-Means算法在计算距离时采用的是欧式距离,wmd的计算公式如下:
【权利要求】
1.一种基于时序分布信息和主题模型的新闻事件演化分析方法,其特征在于,首先通过分析新闻报道在时间序列上表现出来的分布特征,并利用K-Means聚类算法,将语料库按时间划分成几个子语料库;然后利用主题模型依次对每个子语料库进行主题建模,通过Gibbs抽样的方法将模型学习出来,得到每个子语料的主题分布信息;最后通过计算相邻子语料库中两两主题之间的Jensen—Shannon距离,取距离最小的主题串联起来,被串联起来的主题便是该事件的主主题,每个子语料中除了主主题之外的辅助主题,便是该事件在各个阶段的关注点和新的发展。
2.如权利要求1所述的基于时序分布信息和主题模型的新闻事件演化分析方法,其特征在于,具体包括下列步骤: (1)文档时序分析 通过遍历某一事件相关报道的文档集合,生成报道在时间上的分布信息,即每天各有多少数量的相关报道,并在二维空间绘制分布图,横轴表示时间,纵轴表示数量; (2)通过自适应的K-Means算法,将(I)获得分布数据进行聚类分析,从而将该事件相关报道的文档集合划分成多个子集合,每个子集合拥有不同的时间跨度,并且在时间上拥有连续性,即前一个子集合的结束时间是下一个子集合的开始时间; (3)文档预处理,构建新闻演化分析的语料库 给定关于某一事件的相关报道的文档集合,通过词性标注仅保留名词(包括专有名词)、动词(及其变形)、形容词(及其变形),去掉停用词等处理,获取文档集合中的有效词作为语料库; (4)词典和文档矩阵构建 基于(3)获得的语料库,构建语料库词典,给每个唯一词编号,并用该编号构建文档一词的矩阵,文档矩阵中每一行记录文档中出现的所有词; (5)模型构建和推导 基于(2)的划分,分别对每个子集合的构建LDA主题模型,并通过Gibbs抽样算法,推导出每个子集合内的文档一主题分布,以及主题一词分布; (6 )绘制主题演化图,发现主主题 基于(5)获得的分布信息,分别计算各个相邻子集合内的主题相似度,并将各相邻子集合中相似度最高的主题通过有向边串联起来;通过串联所有子集合后,被串联起来的主题便是主主题,各个子集合中非主主题的其它所有主题便是辅助主题; (7)事件演化发展分析 通过(6)获得了主主题和辅助主题,主主题描述了事件的核心焦点,并且在各子集合中保持较高的相似度,辅助主题在各个子集合中有较大的差异性,表现了事件在各个阶段的新发展和焦点。
3.根据权利要求2所述的基于时序分布信息和主题模型的新闻事件演化分析方法,其特征在于,所述步骤(2)进一步包括下列具体的步骤: (21)设置初始聚类数量为2,最大迭代次数max_k以及阀值t; (22)若聚类数量小于max_k,运行K-Means算法,获得每个点的类别以及到聚类中心的距离; (23)计算当前每个聚类中所有点到该聚类中心的平均距离(meandistance, md);(24)计算所有类的平均距离的加权平均值(weightedmean distance, wmd); (25)若当前wmd与前一次的wmd的差值小于阀值t,则结束迭代;否则,聚类数量加1,并重新执行步骤b);若聚类数量等于max—t,也结束迭代; (26)获取最优聚类数量K,以及各个点的类标。 其中K-Means算法在计算距离时釆用的是欧式距离,wmd的计算公式如下:
4.根据权利要求2所述的基于时序分布信息和主题模型的新闻事件演化分析方法,其特征在于,所述步骤(6)中所定义的主主题和辅助主题的详细定义如下: (61)主主题是贯穿在所有子集合中,在不同的子集合中变化很小,有很高的相似性,它是对事件高度的概括和提炼; (62)在各个子集合中除了主主题之外的所有主题,叫做辅助主题;在不同的子集合中,辅助主题随着时间变化而变化,它是对事件在不同时间段最新的发展和变化的概括; 主题的发现,是通过计算相邻子集合中两两主题之间的距离,距离最小的两个主题即主主题;主题之间的距离用Jensen-Shannon距离表示,计算公式表示如下:
【文档编号】G06F17/27GK103984681SQ201410127095
【公开日】2014年8月13日 申请日期:2014年3月31日 优先权日:2014年3月31日
【发明者】王俊丽, 王志成, 赵卫东, 王坚 申请人:同济大学
再多了解一些
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1