一种基于混合距离依赖中餐馆过程的层次化主题建模方法

文档序号:6636347阅读:541来源:国知局
一种基于混合距离依赖中餐馆过程的层次化主题建模方法
【专利摘要】本发明公开了一种基于混合距离依赖中餐馆过程的层次化主题建模方法,包括如下步骤:首先用自然语言处理(NLP)工具从新闻文档中提取出事件要素;然后利用这些要素和文档内容作为产生文档之间链接的依据;在模型的估计过程中这些链接和他们相连的点(即文档)构成一个有向无环图(DAG),亦即事件发展结构图;最后将类似的事件聚集到一起,形成主题。本发明具有的有益效果有:能够在保证模型简单灵活的前提下涵盖多个事件要素;模型的输出既是层级的又是结构化的,这保证了既能找出事件,又能够发掘出其主题;对于一个特定的事件,可以描述出它的发展过程;具有良好的可扩展性,可作为多种应用的算法基础。
【专利说明】一种基于混合距离依赖中餐馆过程的层次化主题建模方法

【技术领域】
[0001] 本发明涉及主题模型,尤其涉及一种基于混合距离依赖中餐馆过程的层次化主题 建模方法。

【背景技术】
[0002] 随着互联网技术的飞速发展,产生了海量的关系错综复杂的文本数据,这让将这 些文本以有意义的方式组织并展现出来成为了巨大的挑战。在很多应用领域,如新闻文本 分析,为了提取出关键事件并生成相关专题,往往需要通过人工的阅读、筛选、排序和组合 等费时费力的工作。
[0003] 很多研宄人员都尝试通过开发一些自动文本分析算法,用机器去发掘关键事件和 隐藏的主题,以此来优化上述过程。其中,一些如LDA(LatentDirichletAllocation,隐狄 利克雷分布)这样的统计主题模型以及它们的一些变体都是比较有效的一些方法。它们都 基于词袋(bag-of-words)假设,而且认为"文本一主题"、"主题一词"服从"狄利克雷一多 项式"共轭先验分布,这也就意味着每篇文本之间是条件独立的。
[0004] 上述假设完全忽视了文本之间在时间和空间上的相互依赖关系,这就导致这些方 法无法生成关键事件序列。同时LDA无法区分不同粒度的主题。因此,人们陆续提出了一 些层次主题建模方法,如hLDA、nDP、TSSB等模型来解决主题粒度的问题,这些模型采用nDP 先验或nCRP先验,可以产生层次化的多粒度的主题。
[0005] 在应用主题模型处理新闻文本的过程中,往往很难将算法得到的主题与现实世界 中的话题或事件对应起来。例如,一个真实的编辑在整理一个事件材料的时候,他需要将包 含事件要素(如时间、地点、人物等)的文本组织在一起。然而很多主题模型产生的主题往 往不能覆盖全部要素。为了能够更加适用于实际应用场景,一些主题模型甚至又引入了如 时间戳、作者、地理信息等元数据信息。但它们的副作用也很快就显现出来了 :1)监督信息 并不总是可以得到的;2)向模型中引入过多的因子会导致建模变得非常复杂,求解困难, 很难真正实施应用。
[0006] 总而言之,针对新闻文本建模,目前没有一个统一的主题模型可以同时解决以下 几个问题:1)在保证模型简单灵活的前提下涵盖多个新闻事件要素。2)既找出关键事件又 能同时发掘他们对应的主题。3)给定一个特定事件,模型能够描述出它的发展过程。4)自 动估计关键事件的数量以及他们主题的数目。


【发明内容】

[0007] 本发明的目的是克服现有技术的不足,提供一种基于混合距离依赖中餐馆过程的 层次化主题建模方法。
[0008] 基于混合距离依赖中餐馆过程的层次化主题建模方法包括如下步骤:
[0009] 1)对新闻文档数据进行预处理,提取事件要素实体词,包括时间、地点、人物;
[0010] 2)根据实体词和文档内容计算出每两个文档之间的相似度,根据基于相对熵的方 法计算出每两个事件之间的相似度,事件是指属于同一个类的所有文档;
[0011] 3)利用以上两种相似度,结合混合距离依赖的中餐馆过程先验,通过坍缩吉布斯 采样,对每个文档选择与其最相似的文档并连接,即得到每个文档的链接,如果选择的文档 是自己则进一步选择与该文档最相似的一个主题;
[0012] 4)重复步骤3)迭代地确定所有链接和主题;
[0013] 5)根据链接和主题的最终分配结果得到事件的发展结构图及其所属的主题。
[0014] 所述的步骤1)包括:
[0015] (1)采用自然语言处理工具对文档进行分词,以得到文档中出现过的词;
[0016] (2)去除其中的停词以及频数过低的生僻词,组成词汇表;
[0017] (3)根据词汇表将文本文档转化成向量;
[0018] (4)采用命名实体提取工具提取出文档中出现的实体及其相关属性。
[0019] 所述的步骤2)包括:
[0020] (1)定义文档X和y的相似度为^4〃)= | # + #,其中exy表示在文档X和文 档y中出现过的共有实体的数量,IXL表示文档X中出现过的所有实体的数量;
[0021] ⑵定义dSx,y为文档X和y基于共现实体的距离,且满足哫,v 4f5 (:M/);
[0022] (3)用一个带权重的窗口衰减方程作为距离dSx;y上的衰减方程:
[0023] Fs(x,y,dSx,y) =l[0〈tx-ty〈a]dSx,y,其中 1 □是一个示性函数,tx是文档X的时间 戳,a是时间窗口大小;
[0024] (4)文档的集合构成了事件Si,将它定义为一个平滑多项式分布,用相对熵的方法 来度量它们之间的相似度,定义吖为它们之间的距离,其中fT(Si,Sj)是基于对 称相对熵的距离函数,如对称KL距离KL(H) +I唯4)° 2
[0025] 所述的步骤3)包括:
[0026] (1)对于文档集合中的每一个文档xd,从事件层距离依赖中餐馆过程ddCRP(ns; a) (ns= {Fs,dS})中采样得到指向该文档最相关文档的链接cd,如果cd指向文档xd自己, 则继续从主题层距离依赖中餐馆过程CMCRP(IIw3I)(nT= {FT,dT})中采样得到文档&的 主题4(以'否则其主题指向义⑴以),其中方程f;(l)返回链接1所指向的文档所在类 的编号,fs (c)返回事件类c中指向自己的那个链接的编号;
[0027] (2)在事件层和主题层的相似度变量S= {S1:M}和T= {Τ1:κ}都是隐变量,且都是 多项式分布,它们都能被积分消除,因此只需要采样文档链接c= }和事件的主题ζ= {z1:M};
[0028] (3)设xd是文档集合中的文档d,cd是文档X,与其最相近文档之间的链接,y是通 过链接Cd与文档Xd相连的文档,X。是一组以多项式分布C分布的数据集合,α表示事件层 和主题层的聚类集中程度参数,控制事件的个数,那么对于文档集合中的每一个文档xd,能 根据以下公式采样得到链接cd:
[0029;

【权利要求】
1. 一种基于混合距离依赖中餐馆过程的层次化主题建模方法,其特征在于包括如下步 骤: 1) 对新闻文档数据进行预处理,提取事件要素实体词,包括时间、地点、人物; 2) 根据实体词和文档内容计算出每两个文档之间的相似度,根据基于相对熵的方法计 算出每两个事件之间的相似度,事件是指属于同一个类的所有文档; 3) 利用以上两种相似度,结合混合距离依赖的中餐馆过程先验,通过坍缩吉布斯采样, 对每个文档选择与其最相似的文档并连接,即得到每个文档的链接,如果选择的文档是自 己则进一步选择与该文档最相似的一个主题; 4) 重复步骤3)迭代地确定所有链接和主题; 5) 根据链接和主题的最终分配结果得到事件的发展结构图及其所属的主题。
2. 根据权利要求1所述的一种基于混合距离依赖中餐馆过程的层次化主题建模方法, 其特征在于所述的步骤1)包括: (1) 采用自然语言处理工具对文档进行分词,以得到文档中出现过的词; (2) 去除其中的停词以及频数过低的生僻词,组成词汇表; (3) 根据词汇表将文本文档转化成向量; (4) 采用命名实体提取工具提取出文档中出现的实体及其相关属性。
3. 根据权利要求1所述的一种基于混合距离依赖中餐馆过程的层次化主题建模方法, 其特征在于所述的步骤2)包括:
4. 根据权利要求1所述的一种基于混合距离依赖中餐馆过程的层次化主题建模方法, 其特征在于所述的步骤3)包括: (1)对于文档集合中的每一个文档xd,从事件层距离依赖中餐馆过程ddCRP(ns;a) 中采样得到指向该文档最相关文档的链接cd,如果(^指向文档xd自己,则继续从主题层距 离依赖中餐馆过程ddCRP(nT; )中采样得到文档xd的主题:J'否则其主题%d指向 4(/九))'其中ns= {Fs,dS},nT= {FT,dT},方程f。⑴返回链接1所指向的文档所在类的 编号,fs(c)返回事件类c中指向自己的那个链接的编号,a是控制事件层聚类集中程度的 超参数,是控制主题层聚类集中程度的超参数; (2)S= {S1:M}和T= {T1:K}分别是表示事件和主题的多项式分布,它们都是隐变量,它 们都能被积分消除,因此只需要采样文档链接c= }和事件的主题z= {z1:M},其中Nd 是数据集中所有文档的个数; (3) 设xd是文档集合中的文档d,cd是文档x,与其最相近文档之间的链接,y是通过链 接^与文档xd相连的文档,X。是一组以多项式分布。分布的数据集合,a是控制事件层聚 类集中程度的超参数,控制事件的个数,0 = 那么对于文档集合中的每一个文档 xd,能根据以下公式采样得到链接cd:
(4) 设zm是事件Sm的主题,dT表示基于相关度熵的距离,31是控制主题层聚类集中程 度的超参数,控制主题的个数,取值范围是[〇, 1],0是狄利克雷平滑参数,i和j是主题的 编号,类似地,能根据以下公式采样得到文档的主题z:

5. 根据权利要求1所述的一种基于混合距离依赖中餐馆过程的层次化主题建模方法, 其特征在于所述的步骤4)包括: (1) 完成上一步采样和更新过程后检查算法是否满足收敛条件或是否到达最大迭代次 数,未满足则返回步骤3); (2) 算法满足收敛条件或达到最大迭代次数后,输出所有的文档链接c以及文档的主 题z〇
6. 根据权利要求1所述的一种基于混合距离依赖中餐馆过程的层次化主题建模方法, 其特征在于所述的步骤5)包括: (1) 将通过链接直接相连的文档提取出来,即构成了包括发生发展过程的事件; (2) 将聚集到一起的所有事件提取出来作为主题;
【文档编号】G06F17/30GK104484346SQ201410706246
【公开日】2015年4月1日 申请日期:2014年11月28日 优先权日:2014年11月28日
【发明者】汤斯亮, 吴飞, 李斯, 鲁伟明, 邵健, 庄越挺 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1