一种结构化摘要的生成方法

文档序号:6364921阅读:245来源:国知局
专利名称:一种结构化摘要的生成方法
技术领域
本发明涉及计算机应 用技术的技术领域,具体地涉及一种结构化摘要的生成方法。
背景技术
在当今信息爆炸时代,多文档摘要能够使读者高效、省时地了解信息。传统文档摘要方法所生成的摘要内容通常是无结构的,信息内容上缺乏有效的组织,并且可读性比较差。例如,对于产品评论,一般来说,用户总是围绕着产品或服务的某些属性或侧面对产品或服务进行评论和打分。例如,手机的属性包括电池、屏幕、系统、应用等;汽车的属性包括安全性、油耗、内饰等。对于新闻文档来说,可以从时间、地点、人物、事件等结构来描述;或者根据具有聚类性质的子话题来描述摘要内容的结构。考虑这些产品不同属性或不同侧面,或不同子话题的摘要生成方法叫做结构化的摘要生成方法。而这些不同属性或不同侧面,或不同子话题被统一称作aspect (属性,或属性词)。aspect刻画和反映了某种对象的特定属性,例如汽车的安全性,而在汽车安全性这个aspect中,刹车、安全气囊、碰撞和稳定性等词的出现概率比较高。这些aspects可以用来指导摘要的生成,并把摘取的句子分配到相应的aspect中,从而得到结构化的摘要,大大改善摘要的质量和可读性。摘要内容多样化和冗余去除在文档摘要系统中起着重要作用。最大边际相关性(Maximal Marginal Relevance,MMR)作为一种常用的冗余去除方法,把信息与查询的相关度(或者信息重要性)和信息的新颖性结合起来,通过线性加权的方式平衡候选句子的重要性和候选句子与已选句子的重复程度。该方法每次选取MMR值最大的句子,直至达到摘要长度或者句子数目的限制。结构化摘要中,对每一个aspect定义一个同义词集,并将该同义词集作为aspect的指示词。如果一句话含有某个aspect的任意一个指示词,则给该评论赋予这个aspect的标签。这样得到aspect的句子集合,然后计算MMR的值,MMR的计算公式如下MMR = arg max ]AD1 (q, Si )-(1-/1) max D2 (st, 5 ) >
_S Isj (=SI其中,Ra是所有和aspect a相关的句子的集合,S是已经抽取的句子,D1是句子Si归一化后的排序分数(可以是把句子中单词的文档频率相加的值)。D2是Si和S」之间的相似度,参数、用来调节分数D1和相似度D2的影响。这种方法没有考虑各个aspect的相对重要性,同时局限于预先定义的aspect同义词集,不能够很好的扩展。

发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种自动生成aspect的指示词并综合考虑每个aspect的重要性的结构化摘要的生成方法。本发明的第一技术方案是这种结构化摘要的生成方法,包括以下步骤(i)从文档集合中识别产品的属性词aspect,通过聚类方法或预先预定来获得aspect的同义词集或指示词集合;
(ii)对每个文档进行分句,通过字典匹配方法将每个句子分配到各个aspect上,即如果句子包含该aspect指示词集中的词,贝U认为该句子与该aspect相关;(iii)对每个aspect,将所有与此aspect相关的句子放在一起,利用最大边际相关性MMR方法生成一个摘要;(iv)利用句子的基于TF*IDF表示的余弦相似度,去掉aspect之间冗余度高的重复句子;(v)按照aspect,输出结构化的摘要。本发明的第二技术方案是这种结构化摘要的生成方法,包括以下步骤(I)抽取aspect特征词及生成aspect标签;(2)基于 Labeled LDA 的 aspect 建模;(3)进行aspect的重要性度量;(4)进行句子与aspect的相关性度量;(5)生成结构化摘要。本方法提出了一种基于预定义aspect生成结构化文档摘要的新框架,该框架以最大化所有aspects信息需求的期望满意度为优化目标,同时考虑了各个aspect的相对重要性和句子与aspect的相关性。另外,本方法采用了基于卡方检验的指示词识别与LabledLDA话题模型相结合的方法对文档集进行建模,把话题与aspect对应起来。


图I是根据本发明的第一技术方案的流程图;图2是根据本发明的第二技术方案的流程图;图3是根据本发明的第一技术方案的结构化摘要的示例图;图4是根据本发明的第二技术方案的步骤(2)的Labeled LDA的图模型表示;图5是根据本发明的第二技术方案的步骤(5)的AspSum[2]算法的伪代码。
具体实施例方式下面对本发明的技术方案做进一步的详细描述。如图I所示,这种结构化摘要的生成方法,包括以下步骤(i)从文档集合中识别产品的属性词aspect,通过聚类方法或预先预定来获得aspect的同义词集或指示词集合;(ii)对每个文档进行分句,通过字典匹配方法将每个句子分配到各个aspect上,即如果句子包含该aspect指示词集中的词,贝U认为该句子与该aspect相关;(iii)对每个aspect,将所有与此aspect相关的句子放在一起,利用最大边际相关性MMR方法生成一个摘要;(iv)利用句子的基于TF*IDF表示的余弦相似度,去掉aspect之间冗余度高的重复句子;(v)按照aspect,输出结构化的摘要(图3给出了一个示例)。如图2所示,还提供了第二技术方案。这种结构化摘要的生成方法,包括以下步骤
(I)抽取aspect特征词及生成aspect标签;(2)基于 Labeled LDA 的 aspect 建模;(3)进行aspect的重要性度量;(4)进行句子与aspect的相关性度量;(5)生成结构化摘要。本方法提出了一种基于预定义aspect生成结构化文档摘要的新框架,该框架以最大化所有aspects信息需求的期望满意度为优化目标,同时考虑了各个aspect的相对重要性和句子与aspect的相关性。另外,本方法采用了基于卡方检验的指示词识别与LabledLDA话题模型相结合的方法对文档集进行建模,把话题与aspect对应起来。对于第二技术方案优选地,步骤(I)包括以下分步骤(I. I)每个aspect都有一组相关文档,用皮尔逊卡方检验比较单词在特定aspect相关的文档集与背景文档集中出现的频率,从而抽取aspect的指示词,背景文档集由从所有aspect的相关文档集中随机抽取的文档构成;(I. 2)删除卡方值低的单词和低频词,去掉不是单词的术语并去掉那些出现在多个aspects中的单词,然后得到每个aspect的指示词列表。对于第二技术方案优选地,如图4所示,步骤(2)中假设待摘要的文档集含有M篇文档,分别用D = Cl1, d2,…,dM表示,其中每篇文档d表示为Nd个单词构成的序列% =%,&,…,,每个单词都选自一个大小为V的词表,Nd为d中的单词个数;假设有K个指定的aspect,在Labeled LDA模型中,每个aspect对应一个话题,另外还有一个表示一些在所有aspect中都出现的常用词的背景话题,总共有K+1个话题,每个话题是一个单词上的多项分布,第k个话题的分布为{P(w| ^ k)}wGV ;Labeled LDA中标签集合A = U1,12,…,lk+1}中的每个标签与一个话题对应,每个文档d只与标签集的一个子集对应為C Z,文档d的话题混合分布0 d只定义在标签子集A d对应的话题上,根据话题混合分布e d,为(!中的每个单词都赋予一个话题,认为该单词是由这个话题产生,经过参数学习与推理,可以得到每篇文档d的话题混合比例e d以及每个话题z的单词分布P z ;根据话题与aspect的对应关系,得到每个aspect的单词分布和每篇文档的aspect分布。对于第二技术方案优选地,步骤(3)中,文档集D中各个aspect的相对重要性为P(z) = Z 尸(z I d} )P(d])
;=1=TuO^Pid1)
;=1其中,吃是文档话题混合分布&向量的第z个分量,P(dj)是文档Cli的归一化长度,即文档4的单词数除以文档集D的总单词数;排除背景话题之后,各个aspect的P(Z)重新进行归一化。对于第二技术方案优选地,步骤(4)中句子s和aspect z的相关性V(s, z)使用以下三种方法表示后验概率、归一化似然和余弦相似性,分别如下面的公式(a)、(b)和(C)所示,其中0Z)是包含句子s的文档d中话题z的混合比例,欢w)是话题z的单词分布中单词w的概率,巧z)是包含句子s的文档d中话题z’的混合比例,和及w)是话题z’的单词分布中单词w的概率;
权利要求
1.一种结构化摘要的生成方法,其特征在于包括以下步骤(i)从文档集合中识别产品的属性词aspect,通过聚类方法或预先预定来获得aspect 的同义词集或指示词集合;(ii)对每个文档进行分句,通过字典匹配方法将每个句子分配到各个aspect上,SP如果句子包含该aspect指示词集中的词,则认为该句子与该aspect相关;(iii)对每个aspect,将所有与此aspect相关的句子放在一起,利用最大边际相关性 MMR方法生成一个摘要;(iv)利用句子的基于词频TF*倒文档频率IDF表示的余弦相似度,去掉aspect之间冗余度高的重复句子;(V)按照aspect,输出结构化的摘要。
2.—种结构化摘要的生成方法,其特征在于包括以下步骤(1)抽取aspect特征词及生成aspect标签;(2)基于Labeled LDA 的 aspect 建模;(3)进行aspect的重要性度量;(4)进行句子与aspect的相关性度量;(5)生成结构化摘要。
3.根据权利要求2所述的结构化摘要的生成方法,其特征在于步骤(I)包括以下分步骤(1. 1)每个aspect都有一组相关文档,用皮尔逊卡方检验比较单词在特定aspect相关的文档集与背景文档集中出现的频率,从而抽取aspect的指示词,背景文档集由从所有 aspect的相关文档集中随机抽取的文档构成;(1.2)删除卡方值低的单词和低频词,去掉不是单词的术语并去掉那些出现在多个 aspects中的单词,然后得到每个aspect的指示词列表。
4.根据权利要求3所述的结构化摘要的生成方法,其特征在于步骤(2)中假设待摘要的文档集含有M篇文档,分别用D =d1,d2,…,dM表示,其中每篇文档d表示为Nd个单词构成的序列wd=w1,w2,...,wnd,每个单词都选自一个大小为V的词表,Nd为d中的单词个数;假设有K个指定的aspect,在Labeled LDA模型中,每个aspect对应一个话题,另外还有一个表示一些在所有aspect中都出现的常用词的背景话题,总共有K+1个话题,每个话题是一个单词上的多项分布,第k个话题的分布为{P(w|βk)}(wIPkMwev ;Labeled LDA中标签集合A = (I1, I2,…,lk+1}中的每个标签与一个话题对应,每个文档d只与标签集的一个子集对应為c: A,文档d的话题混合分布e d只定义在标签子集A d对应的话题上,根据话题混合分布9 d,为d中的每个单词都赋予一个话题,认为该单词是由这个话题产生,经过参数学习与推理,可以得到每篇文档d的话题混合比例e d以及每个话题Z的单词分布0 z ;根据话题与aspect的对应关系,得到每个aspect的单词分布和每篇文档的aspect分布。
5.根据权利要求4所述的结构化摘要的生成方法,其特征在于步骤(3)中,文档集D 中各个aspect的相对重要性为
6.根据权利要求5所述的结构化摘要的生成方法,其特征在于步骤(4)中句子s和 aspect z的相关性V(s,z)使用以下三种方法表示后验概率、归一化似然和余弦相似性, 分别如下面的公式(a)、(b)和(C)所示,其中死2)是包含句子s的文档d中话题z的混合比例,尾(w)是话题z的单词分布中单词w的概率,是包含句子s的文档d中话题z’的混合比例,和武(w)是话题z’的单词分布中单词w的概率;
7.根据权利要求6所述的结构化摘要的生成方法,其特征在于步骤(5)利用P(Z)和 v(s, z),采用过最大化所有aspects的期望满意度得到结构化摘要,并且采用基于贪心搜索策略的近似算法来生成摘要。
全文摘要
公开了一种自动生成aspect(属性词,指产品的属性或一个话题的不同侧面)的指示词并综合考虑每个aspect的重要性的结构化摘要的生成方法,包括以下步骤(i)从文档集合中识别产品的属性词aspect,通过聚类方法或预先预定来获得aspect的同义词集或指示词集合;(ii)对每个文档进行分句,通过字典匹配方法将每个句子分配到各个aspect上,即如果句子包含该aspect指示词集中的词,则认为该句子与该aspect相关;(iii)对每个aspect,将所有与此aspect相关的句子放在一起,利用最大边际相关性MMR方法生成一个摘要;(iv)利用句子的基于词频TF词频*倒文档频率IDF表示的余弦相似度,去掉aspect之间冗余度高的重复句子;(v)按照aspect,输出结构化的摘要。还提供了另一种方法。
文档编号G06F17/30GK102622411SQ20121003687
公开日2012年8月1日 申请日期2012年2月17日 优先权日2012年2月17日
发明者朱小燕, 黄民烈 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1