用于改善由机器自动生成的摘要的可读性的方法和装置的制作方法

文档序号:6419904阅读:165来源:国知局
专利名称:用于改善由机器自动生成的摘要的可读性的方法和装置的制作方法
技术领域
本发明涉及信息检索领域,具体地说,本发明涉及一种为文本文档自动生成摘要的方法和装置,特别是,用于改善由机器自动生成的摘要的可读性的方法和装置。
背景技术
在信息检索中,为了方便用户对电子文档的浏览,通常要借助计算机的自动文本处理功能为用户自动生成摘要。目前比较实用的为文本文档自动生成摘要的方法有以下四种·列出文章的首自然段或文章开始的若干个句子作为摘要(如infoseek,Yahoo!等)该方法非常简单,但不能反映文章的全貌;·列出检索命中的句子(Lotus站点、北京日报站点等)与检索直接相关,也无法反映文章的全貌;·使用模板这种方法匹配文档中的某些模式,把匹配命中的内容填充到预先做好的模板中。这种方法生成的摘要非常通顺,但它仅能适用于固定的文体和固定的领域,很难通用化;·统计词语的出现频度这是一种基于统计的方法,一般来说分四个步骤(1)分析文档的篇章结构,把文档切分为段落和句子;(2)对句子进行词语切分;(3)评价词语和句子的重要性;(4)输出评价分值高的句子作为文档的摘要。
在以上方法中,由于基于统计的方法考虑了文档中诸词语的出现频率,据此评价词语和句子的重要性,并输出评价分值高的句子作为文档的摘要,所以基于统计的方法生成的摘要更能反映文章的全貌,于是被广泛采用。
但是,在大多数情况下,评价分值高的句子通常分散在文档的各个部分,它们之间不一定直接相关,于是简单地将那些评价分值高的句子连接起来而生成的摘要的可读性通常较差。

发明内容
于是,为了改善由机器自动生成的摘要的可读性,根据本发明的第一个方面,提供了一种为文本文档自动生成摘要的方法,包括以下步骤对于给定的文本文档进行分段处理,生成文档段,其中,所述文档段是文本文档中的词语、句子或段落;提取一些文档段为该文本文档生成一个初始摘要;对于所述初始摘要中的每一文档段,计算该文档段与其相邻文档段之间的相关程度,其中一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及将具有较高相关程度的相邻文档段加入到所述初始摘要中。
根据本发明的第二个方面,提供了一种为文本文档自动生成摘要的方法,包括以下步骤对于给定的文本文档进行分段处理,生成文档段,其中,所述文档段是文本文档中的词语、句子或段落;对于要加入到摘要中的每一文档段,计算该文档段与其相邻文档段之间的相关程度,其中一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及如果该文档段与其相邻文档段之间的相关程度较高,则将该文档段与其相邻文档段一起加入到摘要中。
根据本发明的第三个方面,提供了一种用于改善由机器自动生成的摘要的可读性的方法,包括以下步骤对于已生成的初始摘要中的每一文档段,计算该文档段与其相邻文档段之间的相关程度,其中,所述文档段是文本文档中的词语、句子或段落,而一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及将具有较高相关程度的相邻文档段加入到所述初始摘要中。
根据本发明的第四个方面,提供了一种为文本文档自动生成摘要的装置,包括分段装置,用于将给定的文本文档划分成文档段,其中,所述文档段是文本文档中的词语、句子或段落;文档段提取装置,用于从所述分段装置生成的文档段中提取将构成摘要的文档段;相关性计算装置,用于计算所述文档段提取装置提取的文档段与其相邻文档段之间的相关程度,其中,一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及相关性摘要生成装置,用于对所述文档段提取装置提取的文档段和所述相关性计算装置计算出的具有较高相关程度的相邻文档段进行组合以生成可读性得到改善的摘要。
根据本发明的第五个方面,提供了一种用于改善由机器自动生成的摘要的可读性的装置,包括相关性计算装置,对于已生成的初始摘要中的每一文档段,计算该文档段与其相邻文档段之间的相关程度,其中,所述文档段是文本文档中的词语、句子或段落,而一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及相关性摘要生成装置,用于将所述相关性计算装置计算出的具有较高相关程度的相邻文档段加入到所述初始摘要中以生成可读性得到改善的摘要。
根据本发明的第六个方面,提供了一个因特网门户系统,包括订户服务装置,用于为各个订户维护一个因特网目的地列表;摘要自动生成引擎,用于通过访问因特网目的地列表中的因特网目的地,根据预先编制的条件检索信息,并且从检索到的信息中提取出将要提供给订户的摘要;以及摘要下载装置,用于按预定方式将摘要自动生成引擎生成的摘要下载给订户,其中所述摘要自动生成引擎包括分段装置,用于将给定的文本文档划分成文档段,其中,所述文档段是文本文档中的词语、句子或段落;文档段提取装置,用于从所述分段装置生成的文档段中提取将构成摘要的文档段;相关性计算装置,用于计算所述文档段提取装置提取的文档段与其相邻文档段之间的相关程度,其中一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及相关性摘要生成装置,用于对所述文档段提取装置提取的文档段和所述相关性计算装置计算出的具有较高相关程度的相邻文档段进行组合以生成可读性得到改善的摘要。
根据本发明的第七个方面,提供了一种电子文档浏览器,包括电子文档浏览单元,用于查找、定位和读取用户想要浏览的电子文档,和在电子文档中选择一些文档段提供给用户浏览,其中,所述文档段是文本文档中的词语、句子或段落;以及,可读性改善装置,包括相关性计算装置,对于所述电子文档浏览单元已选取的每一文档段,计算该文档段与其相邻文档段之间的相关程度,其中一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及,相关性文档段生成装置,用于将所述电子文档浏览单元选取的文档段与所述相关性计算装置计算出的具有较高相关程度的相邻文档段进行组合以生成可读性得到改善的供用户浏览的信息。
在根据本发明的为文本文档自动生成摘要的方法和装置、用于改善由机器自动生成的摘要的可读性的方法和装置、应用了以上方法和装置的因特网门户系统及电子文档浏览器中,考虑了相邻文档段之间的相关程度,并将具有较高相关程度的相邻文档段加入到摘要中,于是改善了机器自动生成的摘要的可读性。


相信通过以下结合附图对本发明具体实施例的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施例的为文本文档自动生成摘要的方法的流程图;图2是根据本发明的另一个实施例的为文本文档自动生成摘要的方法的流程图;图3A和图3B分别示出了通过现有技术的方法生成的摘要及根据本发明的方法生成的摘要;图4是根据本发明的一个实施例的为文本文档自动生成摘要的装置的方框图;
图5示出了根据本发明的一个实施例的因特网门户系统的概要;图6示出了图5中的因特网门户系统的组成;图7示出了根据本发明的一个实施例的电子文档浏览器的组成;以及图8A和图8B示出了图7所示的电子文档浏览器的用户接口。
具体实施例方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
图1是根据本发明的一个实施例的为文本文档自动生成摘要的方法的流程图。如图1所示,根据本发明的一个实施例的为文本文档自动生成摘要的方法首先,在步骤101,对文档进行篇章结构分析,识别文档的标题、分节、段落边界、句子边界等。
在步骤102,根据文档的语种对文档的每个句子进行词法分析。
通过以上的篇章结构分析和词法分析形成句子集S和词语集W,为在步骤103中进行句子重要性的评价做准备。
在步骤103中,基于由步骤101和步骤102形成的句子集S和词语集W对文档中的每个句子进行评价,确定它们的重要性。为此,首先计算每个词语的分值。在计算每个词语的分值时,例如,可以考虑以下因素同用户提交的查询或话题的相关程度、与文档标题中的词语的相关程度、在文档中出现的次数等,一个词语的分值可以是这些因素的加权和。然后,基于词语的分值计算句子的分值。在计算计算句子的分值时,除了考虑该句子中所有词语的分值总和之外,例如,还可以考虑以下因素句子在段落和篇章中的位置,段落和篇章的第一个句子比其他位置的句子获得更高的分值;以及,句子之间的相似性,若内容相似的句子在文档中多次出现,该句子获得更高的分值。
在步骤104中,基于步骤103对每个句子的评价,提取评价分值较高的句子形成初始摘要。如图所示,在形成初始摘要时,具体提取多少个评价分值较高的句子,可以由以下参数来控制摘要的长度或摘要相对原始文档的压缩比。以上参数可以是由用户设置的值,也可以是系统的缺省值。无论用户(系统)选择的参数是“摘要的长度”还是“摘要相对原始文档的压缩比”,都可以对具体提取多少个评价分值较高的句子形成初始摘要进行控制。但是,如果用户选择的参数是“摘要的长度”,则对各个文档来说,其摘要是定长的,而如果用户选择的参数是“摘要相对原始文档的压缩比”,则对各个文档来说,其摘要是变长的。
在步骤105中,对初始摘要中的每个句子计算该句子与其相邻的句子之间的相关程度。
目前常用的句子相关程度计算一般分为两个等级,分别为语法相关程度、语义相关程度。
语法相关程度根据语法结构的相似性判断两个句子是否相似。该方法对子句进行句法分析,并将分析结果以框架或依存树的形式表示,在此基础上进行相关程度计算。用这种方法计算相关程度虽然比较准确,然而对于大规模的语料进行语法分析这一研究本身还很不成熟,所以这一技术并未得到广泛的应用。
语义相关程度根据词典或语义词典判断两个句子是否有近义词。这种方法主要通过判断组成句子的词语的相关程度来判断句子的相关程度。
度量两个词语关系的一个重要指标是词语的距离。
一般而言,词语距离是一个
]>其中α是一个可调节的参数。α的含义是当相关程度为0.5时的词语距离值。
这种转换关系并不是唯一的,我们这里只是给出了其中的一种可能。
在很多情况下,直接计算词语的相关程度比较困难,通常可以先计算词语的距离,然后再转换成词语的相关程度。
常见的词语距离计算方法是根据某种世界知识体系(Ontology)来计算。
根据世界知识体系计算词语语义距离的方法,一般是利用一部语义词词典(Thesaurus)。一般同义词词典都是将所有的词组织在一棵或几棵树状的层次结构中。我们知道,在一棵树形图中,任何两个结点之间有且只有一条路径。于是,这条路径的长度就可以作为这两个概念的语义距离的一种度量。
除了先计算词语的距离,然后在转换成词语的相关程度之外,另一种词语相关程度的计算方法是通过大规模的语料来统计。例如,利用词语的相关性来计算词语的相关程度。事先选择一组特征词,然后计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中在该词的上下文中出现的频率来度量),于是,对于每一个词都可以得到一个相关性的特征词向量,然后利用这些向量之间的相关程度(一般用向量的夹角余弦来计算)作为这两个词的相关程度。这种做法的假设是,凡是语义相近的词,他们的上下文也应该相似。
在确定了两个句子中的词语的相关程度之后,就可以基于它们来确定句子的相关程度。
例如,通过以下公式来确定句子的相关程度R(Si,Sj)=Σkwk(Si,Sj)/Max(wkn(Si),wkn(Sj))]]>其中,R(Si,Sj)表示句子Si,Sj之间的相关程度,wk(Si,Sj)表示句子Si,Sj中第k个相关的词语的相关程度,wkn(.)表示一个句子中所有词语的权重之和。
对初始摘要中的每个句子计算该句子与其相邻的句子之间的相关程度时,还需考虑的另一个问题是相邻范围。一般,一个句子的相邻句子指的是直接在该句子之前或之后的一个句子。但是,在有些情况下,一个句子与其非直接相邻的句子密切相关,于是,在这种情况下就需要确定一个相邻范围N(N是一个大于等于1的正整数)。例如,如果将相邻范围N确定为3,则计算一个句子与其之前或之后各3个句子之间的相关程度。如果在该相邻范围内,该句子与其之前或之后的非直接相邻的句子相关程度较高,则在下一个步骤中应将该相关程度较高的非直接相邻的句子以及它们之间的句子一起加入到初始摘要中,以改善初始摘要的可读性。很明显在相邻范围N等于1的情况下,是计算一个句子与在该句子之前或之后的一个直接相邻的句子之间的相关程度。
在步骤106中,将具有较高相关程度的句子到初始摘要中,形成最终的相关性摘要。如图所示,可以通过以下参数中的一个或多个对最终形成的相关性摘要进行控制最终形成的相关性摘要的长度;最终形成的相关性摘要相对原始文档的压缩比;或者,最终形成的相关性摘要中相关程度较高的句子所占的比例,等等。以上参数可以是用户设置的值,或者是系统的缺省值。如果,用户需要进一步改善最终形成的摘要的可读性,可以增加最终形成的相关性摘要的长度、最终形成的相关性摘要相对原始文档的压缩比、或者最终形成的相关性摘要中相关程度较高的句子所占的比例。如果,用户想使最终形成的摘要更简捷,可以减小最终形成的相关性摘要的长度、最终形成的相关性摘要相对原始文档的压缩比、或者最终形成的相关性摘要中相关程度较高的句子所占的比例。
以上结合图1介绍了根据本发明的一个实施例的为文本文档自动生成摘要的方法。在该方法中,由于考虑了相邻句子之间的相关程度,并将具有较高相关程度的相邻句子加入到初始摘要中,于是改善了机器自动生成的摘要的可读性。
在以上实施例中,是通过对文档进行篇章结构分析和词法分析,形成句子集S和词语集W,基于形成的句子集S和词语集W对文档中的每个句子进行评价,确定它们的重要性,并且提取评价分值较高的句子形成初始摘要的。并且在确定它们的重要性时考虑了与用户提交的查询或话题的相关程度。但是,所有这些细节都是为了便于理解本发明,而不应该作为对本发明的限制。对于本领域一般技术人员来说,很明显,本发明的方法可以具有许多变型。例如,对于一篇长篇小说来说,其摘要应该是该篇小说中的一些比较重要的段落,于是,为了改善了机器自动生成的摘要的可读性,可以将相关程度较高的相邻段落加入到初始摘要中。而对于只包含了几个句子的一篇短文来说,其摘要应该是其中的重要的词语。于是,为了改善了机器自动生成的摘要的可读性,可以将相关程度较高的词语加入到初始摘要中。此外,以上介绍的词语相关程度的计算及基于词语的相关程度来计算句子的相关程度,可以很容易地扩展到计算段落的相关程度。
于是,由以上可以看出,本发明的为文本文档自动生成摘要的方法是通过对于给定的文本文档进行分段处理;提取一些文档段为该文本文档生成一个初始摘要;对于所述初始摘要中的每一文档段,计算该文档段与其相邻文档段之间的相关程度;以及,将具有较高相关程度的相邻文档段加入到所述初始摘要中,来改善由机器自动生成的摘要的可读性的。其中的文档段对于不同的应用场合可以分别是文本文档中的词语、句子或段落。而且形成初始摘要的方法也不限于以上实施例中具体描述的。
尽管在图1所示的实施例中,作为一种完整的用于为文本文档自动生成摘要的方法,介绍了如何形成初始摘要,但是可以通过仅应用图1中从步骤105开始向后的步骤,来改善一个现有的摘要自动生成系统所生成的摘要的可读性。于是,本发明还提供了一种用于改善由机器自动生成的摘要的可读性的方法,包括步骤对于已生成的初始摘要中的每一文档段,计算该文档段与其相邻文档段之间的相关程度;以及,将具有较高相关程度的相邻文档段加入到所述初始摘要中。
图2是根据本发明的另一个实施例的为文本文档自动生成摘要的方法的流程图。图2所示的实施例与图1所示的实施例的区别在于在图2所示的实施例中,在评价句子的重要性(步骤203)之后,没有形成一个初始摘要。而是,在提取一个评价分值较高的句子的同时计算该句子与其相邻的句子之间的相关程度(步骤204)。如果相关程度高于一个阈值(步骤205),则将该句子与其相邻的句子一起加入到摘要中(步骤206),该摘要初始为空。否则,只将该句子加入到摘要中(步骤207)。然后,判断该摘要的长度是否满足要求(步骤208),即根据最终形成的相关性摘要的长度或最终形成的相关性摘要相对原始文档的压缩比等参数的用户设置值,或者是系统的缺省值来判断该摘要的长度是否满足要求。如果满足要求,则结束(步骤210)。否则,判断目前摘要中相关程度较高的句子所占的比例是否大于或等于用户设置的(或者,系统缺省的)最终形成的相关性摘要中相关程度较高的句子所占的比例(步骤209)。如果判断结果为“否”,则返回到步骤204。如果判断结果为“是”,则只提取所需数目的评价分值较高的句子,形成最终的摘要(步骤211)。
在以上实施例中,当在步骤208判断出目前摘要的长度不满足要求,但是在步骤209判断出目前摘要中相关程度较高的句子所占的比例已大于或等于用户设置的(或者,系统缺省的)最终形成的相关性摘要中相关程度较高的句子所占的比例时,只简单地提取所需数目的评价分值较高的句子,形成最终的摘要。此外,也可以在提取下一个评价分值较高的句子Wj的同时,计算该句子Wj与其相邻的句子之间的相关程度,并且判断该相关程度是否大于目前摘要中某一句子(例如句子Wi)与其相邻句子之间的相关程度,如果“是”,则从目前摘要中去掉相关程度较低的相邻的句子,而将句子Wj及其相邻的句子加入到摘要中。重复该步骤,直到目前摘要的长度满足要求。
图3A和图3B分别示出了通过现有技术的方法生成的摘要及根据本发明的方法生成的摘要。从图中所示的例子可以清楚地看出,由于在本发明的方法中考虑了相邻句子之间的相关程度,并将具有较高相关程度的相邻句子加入到初始摘要中,于是改善了机器自动生成的摘要的可读性。
图4是根据本发明的一个实施例的为文本文档自动生成摘要的装置400的方框图。如图4所示,该装置包括数据库401、用户接口402、分段装置403、重要性评价装置404、文档段提取装置405、相关性计算装置406及相关性摘要生成装置407。
其中,用户可以通过用户接口402输入所要进行的查询/感兴趣的话题,并且还可以通过该接口来设置以下参数以词语为文本段、以句子为文本段、以段落为文本段、相邻范围、初始摘要的长度、最终生成的摘要的长度、初始摘要相对于原始文本文档的压缩比、最终生成的摘要相对于原始文本文档的压缩比和最终生成的摘要中相关程度较高的相邻文档段所占的比例。用户通过该接口输入的查询/感兴趣的话题或以上控制参数存储在数据库401d中。
分段装置403,包括篇章结构分析器和词法分析器,用于对文档进行篇章结构分析,识别文档的标题、分节、段落边界、句子边界等和根据文档的语种对文档的每个句子进行词法分析,以形成句子集S和词语集W,并且将形成的句子集S和词语集W存储在数据库401c中,为重要性评价装置404进行重要性评价做准备。在结合图1介绍的根据本发明一个实施例的为文本文档自动生成摘要的方法中,已对篇章结构分析和词法分析进行了详细的描述,于是在此省略了有关它们的说明。
重要性评价装置404,包括词语重要性评价器、句子重要性评价器和段落重要性评价器。其中,词语重要性评价器根据词语集W中每个词语与用户提交的查询或话题的相关程度、与文档标题中的词语的相关程度、在文档中出现的次数等,计算每个词语的分值。然后,句子重要性评价器基于词语的分值计算句子的分值。在计算句子的分值时,除了考虑该句子中所有词语的分值总和之外,例如,还可以考虑以下因素句子在段落和篇章中的位置,段落和篇章的第一个句子比其他位置的句子获得更高的分值;以及,句子之间的相似性,若内容相似的句子在文档中多次出现,该句子获得更高的分值。段落重要性评价器根据段落的位置及段落中句子的评价分值,计算每个段落的评价分值。经过重要性评价装置404的处理之后,每个段落、句子及词语都具有相应的评价分值。
文档段提取装置405,包括段落提取器、句子提取器和词语提取器,分别用于提取较重要的段落、句子或词语以形成摘要。
相关性计算装置406,包括段落相关性计算器、句子相关性计算器和词语相关性计算器,分别用于计算文档段提取装置405中的段落提取器、句子提取器和词语提取器提取的较重要的段落、句子或词语与相邻的段落、句子或词语的相关程度。在结合图1介绍的根据本发明一个实施例的为文本文档自动生成摘要的方法中,已详细地描述了如何计算词语之间的相关程度,以及如何基于词语之间的相关程度来计算句子之间相关程度,对于本领域一般技术人员来说,很容易基于它们来计算段落之间的相关程度。于是在此省略了有关它们的说明。
相关性摘要生成装置407,对文档段提取装置405提取的段落、句子、或词语及相关性计算装置406计算出的具有较高相关程度的相邻段落、句子、或词语进行组合以生成可读性得到改善的摘要。
在以上实施例中,分段装置403、重要性评价装置404、文档段提取装置405、相关性计算装置406、相关性摘要生成装置407,根据用户(通过用户接口402)输入的参数或系统的缺省参数以词语为文本段、以句子为文本段、以段落为文本段,来确定是以词语、句子还是段落为单位来形成摘要。例如,如果用户输入的参数是“以句子为文本段”,则分段装置、重要性评价装置、文档段提取装置、相关性计算装置以及相关性摘要生成装置都以句子为单位进行相应的处理,以此形成摘要。此外,相关性计算装置406根据用户输入的参数或系统的缺省参数相邻范围,来确定在进行相关性计算时提取的相邻段落、句子或词语的范围。相关性摘要生成装置407根据用户输入的参数或系统参数初始摘要的长度、最终生成的摘要的长度、初始摘要相对于原始文本文档的压缩比、最终生成的摘要相对于原始文本文档的压缩比和最终生成的摘要中相关程度较高的相邻文档段所占的比例等,对文档段提取装置提取的段落、句子或词语和相关性计算装置计算出的具有较高相关程度的段落、句子或词语进行组合,生成在长度方面或相关比例方面满足用户要求的摘要。
尽管在图4所示的实施例中,作为根据本发明的一个实施例,详细地描述了一个完整的用于为文本文档自动生成摘要的装置,但是可以通过该装置中的相关性计算装置406、相关性摘要生成装置407,来改善一个现有的摘要自动生成系统所生成的摘要的可读性。于是,本发明还提供了一种用于改善由机器自动生成的摘要的可读性的装置。
以上结合附图描述了根据本发明具体实施例的为文本文档自动生成摘要的方法和装置,以及用于改善由机器自动生成的摘要的可读性的方法和装置。以上的介绍的装置和方法可以具有许多相关的应用。图5示出了根据本发明的一个实施例的因特网门户系统的概要,其中的因特网门户系统应用了以上的介绍的装置或方法来改善摘要的可读性。图7和图8示出了应用了以上的介绍的装置或方法的电子文档浏览器。正如本领域一般技术人员所理解的,除了以上两个方面的具体应用之外,本发明的为文本文档自动生成摘要装置和方法可以具有许多相关的应用。为了便于进一步理解本发明,下面结合附图描述一下根据本发明具体实施例的因特网门户系统和电子文档浏览器。
图5示出了根据本发明的一个实施例的因特网门户系统的概要。在图5所示的实施例中,因特网门户系统501运行在ISP(因特网服务提供商)的一台服务器502上,为因特网订户提供信息检索服务,其中包括按照订户的要求为订户提供所需要的摘要信息。因特网作为本发明的首选应用,但并不限于此,因为本发明可以应用于其他网络。
在本实施例中,ISP包括一台服务器502、一个调制解调器池503(此处用一台调制解调器表示),和一个用于存储数据的海量存储器504。如图所示,将ISP连接到因特网。这里,未示出ISP中存在的并连接到因特网上的该技术领域中公知的其他设备,如IP路由器,数据交换机,网关等,但是应该认为存在这些设备。正如该技术领域中所公知的,订户通过订户操作装置506利用订户名和密码访问因特网门户系统501,后者通过访问因特网上各个网站(例如图中示出的三台因特网服务器)向订户提供个性化的网页。
以下就结合图6描述一下图5中的因特网门户系统的组成。如图6所示,该因特网门户系统包括订户服务装置601、摘要自动生成引擎602以及摘要下载装置603。其中,订户服务装置601为各个订户维护一个因特网目的地列表,订户希望得到来自列表中列出的因特网目的地的所需要的信息。摘要自动生成引擎602,用于通过访问因特网目的地列表中的因特网目的地,根据预先编制的条件检索信息,并且从检索到的信息中提取出将要提供给订户的摘要。摘要下载装置603。用于按预定方式将摘要自动生成引擎生成的摘要下载给订户。其中,摘要自动生成引擎602包括分段装置,用于将给定的文本文档划分成文档段;文档段提取装置,用于从所述分段装置生成的文档段中提取将构成摘要的文档段;相关性计算装置,用于计算所述文档段提取装置提取的文档段与其相邻文档段之间的相关程度;以及相关性摘要生成装置,用于对所述文档段提取装置提取的文档段和所述相关性计算装置计算出的具有较高相关程度的相邻文档段进行组合以生成可读性得到改善的摘要。订户可以通过一个客户端的用户接口来规定摘要下载的方式。例如订户可以选择以下方式中的一种立即下载、周期性下载或按请求下载。订户服务装置601把订户选定的下载方式储存在一个为各个订户维护的摘要配置文件中,而摘要下载装置603根据该摘要配置文件将摘要自动生成引擎602生成的摘要或者立即下载给订户,或者按照一定的周期性下载给订户,或者根据来自订户的请求而将摘要下载给订户。此外,订户还可以通过该客户端用户接口来规定以下内容订户所感兴趣的领域、话题和词语。订户服务装置601也把这些内容存储在为各个订户维护的摘要配置文件中。这样,摘要自动生成引擎602就可以按照订户所感兴趣的领域、话题和词语为订户提供所需要的摘要信息。在该实施例中,订户还可以通过该客户端用户接口来规定以下参数以词语为文本段、以句子为文本段、以段落为文本段、相邻范围、初始摘要的长度、最终生成的摘要的长度、初始摘要相对于原始文本文档的压缩比、最终生成的摘要相对于原始文本文档的压缩比和最终生成的摘要中相关程度较高的相邻文档段所占的比例等。订户服务装置601也把这些参数存储在为各个订户维护的摘要配置文件中。这样,摘要自动生成引擎602就可以按照订户的要求提供所需要的摘要信息。
图7和图8示出了本发明的另一个方面的应用,即电子文档浏览器。
如图7所示,根据本发明一个具体实施例的电子文档浏览器,包括电子文档浏览单元701、可读性改善装置702、数据库703、用户接口704以及控制装置705。其中,电子文档浏览单元701包括定位和读取装置,用于查找、定位和读取用户想要浏览的电子文档;以及,文档段提取装置,用于在电子文档中选择一些文档段提供给用户浏览。可读性改善装置702,包括相关性计算装置,对于电子文档浏览单元已选取的每一文档段,计算该文档段与其相邻文档段之间的相关程度;以及,相关性文档段生成装置,用于将所述电子文档浏览单元选取的文档段所述相关性计算装置计算出的具有较高相关程度的相邻文档段进行组合以生成可读性得到改善的供浏览的信息。数据库703,用于存储供用户浏览的电子文档及各种控制参数。用户接口704,用户可以通过该接口输入各种控制参数,和通过该接口浏览电子文档。控制装置705,用于根据用户通过一个用户接口设置的控制参数或系统的缺省参数对整个浏览器的各个组成部分进行控制。
图8A和图8B示出了图7所示的电子文档浏览器的用户接口。用户可以通过屏幕上方的按钮来控制是否需要对现有的加入一些相关程度高的文档段(例如句子)来改善其可读性,并且可以对相关程度高的文档段(例如句子)在整个摘要中所占的比例进行控制。
根据该实施例,可读性改善装置702可以与读者用来浏览电子文档的通用浏览器(例如,IE、Acrobat Reader等)共用,或者说将通用电子文档浏览器与本发明的可读性改善装置702集成在一起(例如以插件方式),这样可以改善供浏览的信息的可读性。
以上虽然通过一些示例性的实施例对本发明的为文本文档自动生成摘要的方法和装置、用于改善由机器自动生成的摘要的可读性的方法和装置、应用了以上方法和装置的因特网门户系统及电子文档浏览器进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。
权利要求
1.一种为文本文档自动生成摘要的方法,包括以下步骤对于给定的文本文档进行分段处理,生成文档段,其中,所述文档段是文本文档中的词语、句子或段落;提取一些文档段为该文本文档生成一个初始摘要;对于所述初始摘要中的每一文档段,计算该文档段与其相邻文档段之间的相关程度,其中一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及将具有较高相关程度的相邻文档段加入到所述初始摘要中。
2.一种为文本文档自动生成摘要的方法,包括以下步骤对于给定的文本文档进行分段处理,生成文档段,其中,所述文档段是文本文档中的词语、句子或段落;对于要加入到摘要中的每一文档段,计算该文档段与其相邻文档段之间的相关程度,其中一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及如果该文档段与其相邻文档段之间的相关程度较高,则将该文档段与其相邻文档段一起加入到摘要中。
3.根据权利要求1或2的为文本文档自动生成摘要的方法,还包括步骤由用户来设置以下参数中的一个或多个以词语为文本段、以句子为文本段、以段落为文本段、相邻范围、初始摘要的长度、最终生成的摘要的长度、初始摘要相对于原始文本文档的压缩比、最终生成的摘要相对于原始文本文档的压缩比和最终生成的摘要中相关程度较高的相邻文档段所占的比例。
4.根据权利要求1或2的为文本文档自动生成摘要的方法,其中当所述相邻范围大于1时,如果在所述相邻范围内,一个文档段与其非直接相邻的文档段之间的相关程度较高,则将该文档段、其非直接相邻的文档段以及位于它们之间的文档段一起加入到摘要中。
5.根据权利要求1或2的为文本文档自动生成摘要的方法,其中如果所述文档段为句子,则根据该句子与其相邻句子中词语的相关程度来确定它们之间的相关程度。
6.根据权利要求5的为文本文档自动生成摘要的方法,其中根据两个词语之间的距离来确定两个词语之间的相关程度。
7.根据权利要求6的为文本文档自动生成摘要的方法,其中根据某种世界知识体系来计算两个词语之间的距离。
8.根据权利要求5的为文本文档自动生成摘要的方法,其中根据对大规模语料的统计来确定两个词语之间的相关程度。
9.一种用于改善由机器自动生成的摘要的可读性的方法,包括以下步骤对于已生成的初始摘要中的每一文档段,计算该文档段与其相邻文档段之间的相关程度,其中,所述文档段是文本文档中的词语、句子或段落,而一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及将具有较高相关程度的相邻文档段加入到所述初始摘要中。
10.根据权利要求9的用于改善由机器自动生成的摘要的可读性的方法,还包括步骤由用户来设置以下参数中的一个或多个相邻范围、最终生成的摘要的长度、最终生成的摘要相对于原始文本文档的压缩比和最终生成的摘要中相关程度较高的相邻文档段所占的比例。
11.根据权利要求9的用于改善由机器自动生成的摘要的可读性的方法,其中当所述相邻范围大于1时,如果在所述相邻范围内,一个文档段与其非直接相邻的文档段之间的相关程度较高,则将该文档段、其非直接相邻的文档段以及位于它们之间的文档段一起加入到摘要中。
12.根据权利要求9的用于改善由机器自动生成的摘要的可读性的方法,其中如果所述文档段为句子,则根据该句子与其相邻句子中词语的相关程度来确定它们之间的相关程度。
13.根据权利要求12的用于改善由机器自动生成的摘要的可读性的方法,其中根据两个词语之间的距离来确定两个词语之间的相关程度。
14.根据权利要求13的用于改善由机器自动生成的摘要的可读性的方法,其中根据某种世界知识体系来计算两个词语之间的距离。
15.根据权利要求12的用于改善由机器自动生成的摘要的可读性的方法,其中根据对大规模语料的统计来确定两个词语之间的相关程度。
16.一种为文本文档自动生成摘要的装置,包括分段装置,用于将给定的文本文档划分成文档段,其中,所述文档段是文本文档中的词语、句子或段落;文档段提取装置,用于从所述分段装置生成的文档段中提取将构成摘要的文档段;相关性计算装置,用于计算所述文档段提取装置提取的文档段与其相邻文档段之间的相关程度,其中,一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及相关性摘要生成装置,用于对所述文档段提取装置提取的文档段和所述相关性计算装置计算出的具有较高相关程度的相邻文档段进行组合以生成可读性得到改善的摘要。
17.根据权利要求16的为文本文档自动生成摘要的装置,还包括一个用户接口用户可以通过该接口来设置以下参数中的一个或多个以词语为文本段、以句子为文本段、以段落为文本段、相邻范围、初始摘要的长度、最终生成的摘要的长度、初始摘要相对于原始文本文档的压缩比、最终生成的摘要相对于原始文本文档的压缩比和最终生成的摘要中相关程度较高的相邻文档段所占的比例。
18.根据权利要求16的为文本文档自动生成摘要的装置,其中所述分段装置包括篇章结构分析器和词法分析器,用于对文本文档进行段落、句子、词语划分。
19.根据权利要求16的为文本文档自动生成摘要的装置,其中当所述相邻范围大于1时,如果在所述相邻范围内,所述相关性计算装置计算出一个文档段与其非直接相邻的文档段之间的相关程度较高,则所述相关性摘要生成装置将该文档段、其非直接相邻的文档段以及位于它们之间的文档段一起加入到摘要中。
20.根据权利要求16的为文本文档自动生成摘要的装置,其中如果所述文档段为句子,则所述相关性计算装置根据一个句子与其相邻句子中的词语的相关程度来确定它们之间的相关程度。
21.根据权利要求20的为文本文档自动生成摘要的装置,其中所述相关性计算装置根据两个词语之间的距离来确定两个词语之间的相关程度。
22.根据权利要求21的为文本文档自动生成摘要的装置,其中所述相关性计算装置根据某种世界知识体系来计算两个词语之间的距离。
23.根据权利要求20的为文本文档自动生成摘要的装置,其中所述相关性计算装置根据对大规模语料的统计来确定两个词语之间的相关程度。
24.一种用于改善由机器自动生成的摘要的可读性的装置,包括相关性计算装置,对于已生成的初始摘要中的每一文档段,计算该文档段与其相邻文档段之间的相关程度,其中,所述文档段是文本文档中的词语、句子或段落,而一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及相关性摘要生成装置,用于将所述相关性计算装置计算出的具有较高相关程度的相邻文档段加入到所述初始摘要中以生成可读性得到改善的摘要。
25.根据权利要求24的用于改善由机器自动生成的摘要的可读性的装置,还包括一个用户接口,用户可以通过该接口来设置以下参数中的一个或多个相邻范围、最终生成的摘要的长度、最终生成的摘要相对于原始文本文档的压缩比和最终生成的摘要中相关程度较高的相邻文档段所占的比例。
26.根据权利要求24的用于改善由机器自动生成的摘要的可读性的装置,其中当所述相邻范围大于1时,如果在所述相邻范围内,所述相关性计算装置计算出一个文档段与其非直接相邻的文档段之间的相关程度较高,则所述相关性摘要生成装置将该文档段、其非直接相邻的文档段以及位于它们之间的文档段一起加入到摘要中。
27.根据权利要求24的用于改善由机器自动生成的摘要的可读性的装置,其中如果文档段为句子,则所述相关性计算装置根据该句子与其相邻句子中的词语的相关程度来确定它们之间的相关程度。
28.根据权利要求27的用于改善由机器自动生成的摘要的可读性的装置,其中所述相关性计算装置根据两个词语之间的距离来确定两个词语之间的相关程度。
29.根据权利要求28的用于改善由机器自动生成的摘要的可读性的装置,其中所述相关性计算装置根据某种世界知识来计算两个词语之间的距离。
30.根据权利要求27的用于改善由机器自动生成的摘要的可读性的装置,其中所述相关性计算装置对大规模语料的统计来确定两个词语之间的相关程度。
31.一个因特网门户系统,包括订户服务装置,用于为各个订户维护一个因特网目的地列表;摘要自动生成引擎,用于通过访问因特网目的地列表中的因特网目的地,根据预先编制的条件检索信息,并且从检索到的信息中提取出将要提供给订户的摘要;以及摘要下载装置,用于按预定方式将摘要自动生成引擎生成的摘要下载给订户,其中所述摘要自动生成引擎包括分段装置,用于将给定的文本文档划分成文档段,其中,所述文档段是文本文档中的词语、句子或段落;文档段提取装置,用于从所述分段装置生成的文档段中提取将构成摘要的文档段;相关性计算装置,用于计算所述文档段提取装置提取的文档段与其相邻文档段之间的相关程度,其中一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及相关性摘要生成装置,用于对所述文档段提取装置提取的文档段和所述相关性计算装置计算出的具有较高相关程度的相邻文档段进行组合以生成可读性得到改善的摘要。
32.根据权利要求31的因特网门户系统,其中所述摘要下载装置将摘要自动生成引擎生成的摘要立即下载给订户。
33.根据权利要求31的因特网门户系统,其中所述摘要下载装置将摘要自动生成引擎生成的摘要周期性地下载给订户。
34.根据权利要求31的因特网门户系统,其中所述摘要下载装置响应来自订户的请求而将摘要自动生成引擎生成的摘要下载给订户。
35.根据权利要求31的因特网门户系统,其中所述订户服务装置还为各个订户维护一个摘要配置文件,其中列出各个订户所感兴趣的领域、话题和词语。
36.根据权利要求31的因特网门户系统,其中所述订户服务装置还为各个订户维护一个摘要配置文件,其中列出各个订户通过一个客户端的用户接口设置的以下参数中的一个或多个以词语为文本段、以句子为文本段、以段落为文本段、相邻范围、初始摘要的长度、最终生成的摘要的长度、初始摘要相对于原始文本文档的压缩比、最终生成的摘要相对于原始文本文档的压缩比和最终生成的摘要中相关程度较高的相邻文档段所占的比例。
37.一种电子文档浏览器,包括电子文档浏览单元,用于查找、定位和读取用户想要浏览的电子文档,和在电子文档中选择一些文档段提供给用户浏览,其中,所述文档段是文本文档中的词语、句子或段落;以及可读性改善装置,包括相关性计算装置,对于所述电子文档浏览单元已选取的每一文档段,计算该文档段与其相邻文档段之间的相关程度,其中一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及,相关性文档段生成装置,用于将所述电子文档浏览单元选取的文档段与所述相关性计算装置计算出的具有较高相关程度的相邻文档段进行组合以生成可读性得到改善的供用户浏览的信息。
38.根据权利要求37的电子文档浏览器,还包括一个用户接口,用户可以通过该接口来设置以下参数中的一个或多个以词语为文本段、以句子为文本段、以段落为文本段、相邻范围、初始浏览信息的长度、最终生成的浏览信息的长度、初始浏览信息相对于原始文本文档的压缩比、最终生成的浏览信息相对于原始文本文档的压缩比和最终生成的浏览信息中相关程度较高的相邻文档段所占的比例。
全文摘要
本发明公开了一种为文本文档自动生成摘要的方法、装置以及相关的应用。本发明的方法包括以下步骤对于给定的文本文档进行分段处理,生成文档段,其中,所述文档段是文本文档中的词语、句子或段落;提取一些文档段为该文本文档生成一个初始摘要;对于所述初始摘要中的每一文档段,计算该文档段与其相邻文档段之间的相关程度,其中一文档段的相邻文档段是指与该文档段之间的距离在预定相邻范围内的文档段;以及将具有较高相关程度的相邻文档段加入到所述初始摘要中。
文档编号G06F17/30GK1609845SQ20031010175
公开日2005年4月27日 申请日期2003年10月22日 优先权日2003年10月22日
发明者刘世霞, 杨力平 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1