一种基于频繁项集的多文档自动摘要方法

文档序号:6619402阅读:569来源:国知局
专利名称:一种基于频繁项集的多文档自动摘要方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于频繁项集的多文档自动摘要方 法。
背景技术
随着全球信息高速路的不断发展,尤其是互联网应用的不断普及,每天都有大量 电子文档涌现,并在互联网上传递和交流。多文档文摘是将针对同一主题下的多个文档集 合中的多次重复信息以一次出现在文摘中,其他与主题相关的信息根据重要性及压缩比依 次抽取的文本集合压缩技术。目前国外关于多文档文摘的研究主要集中在对于英文信息的 处理,常用的多文档文摘方法如基于单文档文摘的方法获得多篇文档的摘要,此方法简单 易行,但是它仅仅是利用了词频、句子位置、主题词等特征信息,忽略了多文档集合中文档 之间的信息;基于信息抽取的方法,该方法需要人工制订模板,如应用于自然灾害领域文摘 的原型系统SUMMON系统,该方法针对不同领域需要制订不同模板,此方法不易推广,实用 性不高;目前多文档文摘最有效也最流行的方法是将多文档集合作为一个整体进行研究, 通过对多文档集合中的句子按照其表达意思的相近程度重新聚类成不同的子主题,然后从 不同的子主题中抽取文摘句组合成多文档摘要。美国密西根大学的Radev等人首先提出了 质心(Centroid)的概念,采用统计的方法找出文档集合中出现频率最高的词和句子集合作 为此多文档集合的中心主题,通过计算句子与此质心的相似度度来对句子进行排序并抽取 文摘句,开发出了多文档自动文摘系统MEAD。在中文多文档自动摘要中,中文句子聚类方法主要是基于句子相似度计算,常用 的中文句子相似度计算方法有tf*idf方法、语义词典方法、词形与词序结合的方法、依存 树方法以及编辑距离方法。这些方法在中文句子相似度计算上都有着各自的难点。tf*idf方法主要依靠句子之间词的匹配程度来确定句子之间的相似度。该方法 不需要对文档内容进行深层理解,是一种基于词频的统计方法,这使得其结果依赖于文档 集合的规模,且由于只考虑了词在上下文中的统计特性,在应用上有一定的局限性。语义词典方法主要是利用现有的语义资源计算句子中的词语的相似度来计算句 子的相似度。但目前的语义标注理论本就不成熟,使得单纯依靠词语的语义信息并不能真 实反映句子所表达的含义,所计算的句子相似度的准确率也值得商榷。词形与词序结合的方法基于词与词之间的词形匹配,没有考虑语义信息,也没有 区分不同词性的词语对句子的不同影响,经常会出现语义相似的句子相似度结果却较低的 不合理现象。依存树方法穗志方等提出了基于骨架依存树的语句相似度计算模型基于对句子 的句法结构分析,虽然理论上是一种较好的计算模型,但是实际应用性不强。编辑距离方法车万翔等将改进的编辑距离方法应用到中文句子相似度计算中, 通过计算句子中词语的编辑距离计算句子相似度,同时加入了词汇的语义信息,虽然结果 比单纯基于语义词典的方法准确率高,但是句子中不同的词语对整体的贡献并不一致且汉语句子中经常会出现短语移位现象,所以,单纯凭借编辑距离的大小对句子的相似与否做 出判断有时并不准确。句子相似度计算是多文档子主题划分的最基本也最关键的一步,而针对中文相似 度计算的研究目前还处于一个起始阶段,利用它进行多文档自动摘要还存在着较大的困难。

发明内容
本发明所要解决的问题是如何提供一种基于频繁项集的多文档自动摘要方法, 该方法不需要经过句子相似度计算而直接将句子聚类到不同的子主题,具有高简易性、清 晰性、实用性等特点。本发明所提出的技术问题是这样解决的提供一种基于频繁项集的多文档自动摘 要方法,其特征在于,包括以下步骤步骤 1 SFI (Sub-topics based on Frequent Item sets)子主题划分 i=UP i,.“,iy是购物篮数据中所有项的集合,而P/^ t,.“,^是所有事 务的集合,每个事务、包含的项集都是/的子集,在关联分析中,包含0个或多个项的集合被称为项集(item set),如果一个项集包含A个项,则称它为项集,关联规则是形如Z—y的蕴涵表达式,其中Z和7是不相交的项集,即= 关联规则的强度用它的支持度 (.support)和置信度(co/i/iife/^e)度量,支持度和置信度这两种度量的形式定义如下
权利要求
1. 一种基于频繁项集的多文档自动摘要方法,其特征在于,包括以下步骤步骤1 SFI子主题划分①定义今1={“,“…,iy是购物篮数据中所有项的集合,而r=/^ 、...,。是所有事 务的集合,每个事务^包含的项集都是/的子集,在关联分析中,包含ο个或多个项的集合被称为项集,如果一个项集包含k个项,则称它为k-项集,关联规则是形如λ' — F的蕴涵表达式,其中I和/是不相交的项集,即ΖΓΙΓ=0,关联规则的强度用它的支持度和置信度度 量,支持度和置信度这两种度量的形式定义如下支持度确定规则用于给定数据集的频繁程度,而置信度确定/在包含X的事务中出现 的频繁程度,关联分析中频繁项集挖掘目标是发现满足最小支持度阈值的所有项集,这些 项集称作频繁项集;②多文档预处理令d2…,^代表多文档集合,其中,為表示单个文档,对々中的所有文档进行 分句,令P^p V,Sj为分句后的所有句子集合,其中力表示单个句子,对Γ中的所 有句子进行分词并去除停用词,令/表示得到的有效词集合;设X为频繁项集,若句子S包 含χ中的所有项,则称句子S支持频繁项集X,句子s支持的频繁项集的个数称为句子对频 繁项集的支持度;③基于频繁项集子主题划分使用关联规则进行频繁项集挖掘,设厂为生成的所有频繁项集的集合, PJU,其中,每个fi表示一个频繁项集,知力C i ,在SFI方法中,一个频繁项集就代表一个子主题;若句子S支持频繁项集/;.,即句子S包含中所有的有效词,则将句子S归类于此频 繁项集所代表的子主题,直到所有句子都被归类于频繁项集所代表的子主题;但是,句子对 频繁项集的支持度并非都为1,使得一个句子会同时出现在多个子主题中,将句子最终归属 于单一子主题的处理过程称为子主题去重;④子主题去重子主题去重需要遵循两个原则首先,频繁项集的子集也一定是频繁的,则支持左阶 频繁项集的文本同时也支持该频繁项集的所有子集;其次,由于初始子主题是由其频繁项 集的项来描述的,一个频繁项集中的项数越多,对子主题的描述能力就越强;根据这两个原 则,在对子主题去重时,从支持最大同阶频繁项集的子主题句子集合开始处理,将它们从所 有低阶频繁项集所代表的子主题中删除,实现一部分句子的唯一归属;对于支持同阶频繁项集的子主题句子集合,通过计算频繁项集中所有项出现的频率然 后进行加权,得到各频繁项集的重要度,将句子归属于重要度最高的频繁项集所代表的子 主题,若出现重要度相同的情况,则将句子随机归类于某一相同重要度的子主题中; 步骤2摘要生成 ①子主题排序通常认为一个子主题中包含的句子个数越多,并且句子分布在不同文档的数量越大, 该子主题就越重要,子主题打分排序如下
全文摘要
本发明公开了一种基于频繁项集的多文档自动摘要方法,该方法引入了关联规则中频繁项集挖掘的思想,利用关联算法挖掘有效词集的频繁项集作为子主题,不经过句子相似度计算而直接将句子聚类到不同的子主题,并基于SFI方法进行多文档自动摘要。该方法不需要经过句子相似度计算而直接将句子聚类到不同的子主题,具有高简易性、清晰性、实用性等特点。
文档编号G06F17/30GK102043851SQ20101059994
公开日2011年5月4日 申请日期2010年12月22日 优先权日2010年12月22日
发明者吕建成, 张海仙, 张蕾, 彭德中, 杜芳, 桑永胜, 章毅 申请人:四川大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1