一种信息媒介的专题阶段性摘要的生成方法_4

文档序号：9288424阅读：来源：国知局

档的向量表示和相关计算产生额外的干扰，影响话题聚类的效果。先进行主题抽取再进行话题聚类的做法，能够突出文档的重要内容而略去低信息量词语（或句子）在新闻文档中的作用，不仅降低了文档表示时的向量空间维度，有利于缓解数据的稀疏性，也增强了相关新闻文档的耦合性，提高话题检测与追踪的效果。因此，在生成新闻专题的阶段性摘要时，先对新闻文档进行主题抽取而后对主题集进行话题聚类，有助于对摘要的质量的提高。
[0100] 表1中，二次聚类（SD-FEL2C)的效果明显优于单次聚类（SD-FEL1C)的效果，前者的各项Rouge-R指标均比后者的指标有显著的提高，证实了基于时间流的双向聚类过程中有多个文档同时被正向类别和逆向类别所包含，也说明了新闻专题阶段性摘要的生成过程中第二次聚类的必要性。此外，从表1中我们可以看出，SD-FEL1C除了Rouge-2R略低，但其他Rouge-R指标均比SD-FCLE高，也佐证了先主题抽取再话题聚类的顺序较适合于新闻专题阶段性摘要的生成。在多文档摘要的生成方法对比上，表1中的LexRank和ETTS方法的 Rouge-IR和Rouge-LR指标尚佳，但其他Rouge指标偏低。在计算Rouge值时，为了避免重复信息或冗余信息的作用被放大，我们对多次出现的同一个词或词串只统计一次，弱化了这些对Rouge的贡献。而LexRank和ETTS在向量的迭代计算过程中，中心性（Centrality)的作用过于突出，导致了信息的重要性被增强而信息的多样性被弱化，因此LexRank和ETTS 方法生成的摘要中更多地强调新闻文档中的一些重复信息。
[0101] 例如，LexRank和ETTS方法生成的摘要中，4月1日都重复强调澳大利亚成立了 "多国协调中心"，4月5日都重复介绍了当日"搜寻海域"的情况，4月6日都重复提及中国 "海巡-01"号监测到的信号与失联客机黑匣子所发信号频率一致。由于摘要都有句数或篇幅的限制，这些重复的信息尽管突出了 "马航MH370航班失联"专题在当时的重要话题，但另一方面却影响了其他话题在摘要中的体现，导致了信息的多样性不佳。以R〇uge-S4R和 R〇Uge-S9R为例，图3和图4分别给出了对语料中4月1日至4月9日的每日新闻集采用 SD-FEL2C、LexRank和ETTS三种方法生成的摘要折线图，可以发现LexRank和ETTS这两种方法在4月1日、5日、6日、9日的几项Rouge-R指标均不如本文方法SD-FEL2C。
[0102] 请参阅表2,表2给出了利用本文方法对语料中2014年4月1日至4月9日的每日新闻文档集生成的自动摘要的各项R〇uge-R值。
[0103] 表2?本文方法4月1日至4月9日的Rouge-R值
[0104]
[0105] 从表2可以看出，各天的Rouge-R不是很均衡，彼此相差较大，其中4月1日、5日、 6日的自动摘要质量较好，4月2日、3日、4日、8日的自动摘要质量较差。一方面说明了本文的算法还是有提升的空间，另一方面是由于自动摘要和人工摘要的内容存在一些偏差，主要表现在：
[0106] ①标注语料的人工局限性。标注语料通常都需要人工进行，工作量巨大，难免出现一些疏漏。以4月2日为例，当天的新闻集出现多篇有关MH370航班的法律索赔的新闻文本，形成一个有关法律索赔的新话题，但本文的标注语料中却没有体现，导致了 4月2日部分Rouge指标较低。
[0107] ②新闻话题的信息滞后性。由于信息的滞后性，新闻见稿时只能报道之前发生的事件或内容，而来不及报道最新进展。新闻专题的阶段性摘要也存在这种现象。标注语料中，有几天的人工摘要突出了前一天重要的新闻话题，而较少提及当天的新闻话题的。例如，4月3日的人工摘要中，涉及了 4月2日召开的家属见面会话题和4月2日捞起的航班残骸疑似物话题，但对4月3日举行的马来西亚和澳大利亚两国元首举行的关于最新进展的新闻发布会话题没有提及，而该话题的相关内容却出现在4月4日的人工摘要中，导致了 4月3日和4月4日部分Rouge指标较低。
[0108] 相较于现有技术，本发明实施例的信息媒介的专题阶段性摘要的生成方法利用主题抽取方法对各新闻文档进行主题抽取从而完成文档集到主题集的转换，然后利用TDT技术对主题集进行话题的二次聚类，最后根据聚类结果来完成新闻专题阶段性摘要的生成。相较于现有的多文档摘要技术，本发明的方法具有较好的召回率的优点。
[0109] 以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。
【主权项】
1. 一种信息媒介的专题阶段性摘要的生成方法，其特征在于，包括步骤：获取特定时间段内的各信息媒介的文档；对所述各信息媒介的文档进行主题抽取并生成主题集；对所述主题集利用话题检测与追踪技术进行话题聚类，并生成信息媒介专题的阶段性摘要。2. 根据权利要求1所述的信息媒介的专题阶段性摘要的生成方法，其特征在于，所述对信息媒介的文档进行主题抽取并生成主题集的步骤包括：计算各信息媒介的文档中句子的度中屯、性；计算信息媒介的句子的位置信息；结合句子的度中屯、性和位置信息完成对信息媒介主题的抽取。3. 根据权利要求2所述的信息媒介的专题阶段性摘要的生成方法，其特征在于，所述信息媒介的文档中句子的度中屯、性的计算依据如下公式：其中，Si、Sj是待计算相似度的两个句子，Wik是第k个词在句子Si中的tfi壯值，WA是第k个词在句子S,的余弦相似度值。4. 根据权利要求3所述的信息媒介的专题阶段性摘要的生成方法，其特征在于，所述计算信息媒介的句子的位置信息依据公式：Loc(Si)表示新闻句子的位置信息对主题抽取的加权。n表示每篇新闻文档的句子总数。5. 根据权利要求4所述的信息媒介的专题阶段性摘要的生成方法，其特征在于，所述结合句子的度中屯、性和位置信息完成对信息媒介主题的抽取依据如下公式： ET(Si) =aXSimi(Si，Sj)+bLoc(Si) 其中Si、Sj表示文档D的第i、j(i声如句，XSim1(Si,Sj)表示句子Si与其他句子之间的相似度之和，Loc(Si)表示新闻句子的位置信息对主题抽取的加权，a和b是系数，a= b= 0. 5。6. 根据权利要求2所述的信息媒介的专题阶段性摘要的生成方法，其特征在于，所述生成信息媒介专题的阶段性摘要的步骤包括：对所述生成的主题集进行基于时间流的双向聚类；对经过双向聚类生成的话题进行差集或交集分析W提取共同关注的话题和新产生的话题；对聚类生成的重复的话题进行二次聚类生成所述信息媒介专题的阶段性摘要。7. 根据权利要求6所述的信息媒介的专题阶段性摘要的生成方法，其特征在于，所述生成信息媒介专题的阶段性摘要的聚类或双向聚类是基于Single化ss聚类算法生成的。
【专利摘要】本发明提供一种信息媒介的专题阶段性摘要的生成方法，包括获取特定时间段内的各信息媒介的文档；对所述信息媒介的文档进行主题抽取并生成主题集，以及对所述主题集利用话题检测与追踪技术进行话题聚类，并生成信息媒介专题的阶段性摘要，本发明实施例的信息媒介的专题阶段性摘要的生成方法具有生成的专题阶段性摘要有较好的召回率的优点。
【IPC分类】G06F17/30
【公开号】CN105005590
【申请号】CN201510366843
【发明人】张仰森, 尤建清
【申请人】北京信息科技大学
【公开日】2015年10月28日
【申请日】2015年6月29日

完整全部详细技术资料下载

当前第4页1 2 3 4