评估文件的特殊性的制作方法

文档序号:6376685阅读:132来源:国知局

专利名称::评估文件的特殊性的制作方法
技术领域
:本发明涉及包括文件概要的自然语言处理。尤其是,本发明涉及从数量上评估经过比较的两个文件或文件组中的一个文件的一个组元(例如一个句子、项或短语)的特殊性等级,从而提高自然语言处理的性能。
背景技术
:在多文件概要中,比较两个文件或文件组以在它们之间提取不同部分的一个处理是重要的。关于下列讨论,从文件提取的不同部分被称为“目标文件”,和目标文件相比较的其它文件被称为“对比文件”。此前的一个惯例是将目标文件和对比文件分成小的元素,比较生成的元素并且确定出不一致的元素作为不同部分。所述元素可以是一个句子、一个段落和每一个独立的范围,在这种情况时文件在自动提取的主题的变更点上被划分。在这种情况下,矢量空间模型常被用于元素的比较。在每一个元素被一个矢量空间模型所代表的情况中,矢量的分量对应在文件中出现的单个项,并且给出了元素中的相对应项的频率或是与其相关的数量作为每一个矢量分量的值。所述矢量之间的余弦相似性可被用于判断所述元素之间的一致性是好还是差。当所述余弦相似性高于一个预定的阈值时,判断所述元素以使彼此一致。相应的,与所述对比文件的所有元素的相似性低于所述阈值的目标文件的一个元素被认为是不同的部分。另一个公知的方法是,在两个文件都被图表表示后,建立图表元素的对应关系以便从不相对应的图表元素中获得不同的部分。这里是两种用于提取不同部分的技术(A)提取其中表达信息不同的任一部分。(B)提取反映通过两个文件表达于文件中的概念的差别的任一部分。许多文件概要的现有技术的方法基于技术(A)。提取两个文件中的不同部分,目标文件中的每一不同部分的重要性未被估算。因此,仅仅由于与对比文件不同,作为信息不是非常重要的一个部分可作为不同部分而被提取。在技术(B)中,本发明使满足以下条件的任一不同部分的提取成为可能从目标文件中提取的不同部分也是目标文件中的一个重要部分。即,差异性和重要性平衡。满足条件的不同部分更适于在目标文件中被表示为“特殊部分”,而不仅仅是不同部分。因此,满足该条件的一个不同部分将在下文中被称为“特殊部分”。可为目标文件的每一个句子计算一个估算值作为特殊性的范围。可为被提取的特殊部分计算一个估算值作为项或项系列的特殊性等级,以确定什么项或项系列形成主要因子。
发明内容一种估算一个满足上述条件的目标文件的特殊性等级的方法如下。根据本发明的一个实施例是一种从目标文件中提取具有高等级的特殊性的文件段的方法。首先,目标文件和对比文件都被分为文件段,并获得每一个文件段的一个矢量,该矢量的分量是在文件段中出现的项的频率。由于大多数自然文件段是一个句子,下文中假设文件段为一个句子。因此,两个文件被表示为一组句子矢量。随后,当两个文件的所有句子矢量被投影在一个特定的投影坐标轴上时,建立一个最大化一个比率的投影坐标轴(起源于目标文件的投影值的平方和)/(起源于对比文件的投影值的平方和)。关于这样的一个投影坐标轴,目标文件的句子矢量的投影值的平方和变大而对比文件的句子矢量的投影值的平方和变小。因此,反映出信息很大程度存在于目标文件中且在对比文件中几乎不存在。结果,当句子矢量被投影在投影坐标轴上时,对于在内容上不同于对比文件的句子,目标文件中的投影值的绝对值变大,且它们可作为目标文件的单独句子的特殊性等级的计算基础而被采用。根据本发明的另一个实施例是具有一个高等级特殊性的项的选择方法。关于这个项,计算在单独句子中的一个目标项的频率和相应句子的特殊性等级之间的相关性,并选择具有一个高度相关值的任一项。由于这样的一个项将只能出现在具有一个特殊性高等级的句子中,这样的一个项可被视为一个特殊项。因此,基于相关值而计算项的特殊性等级。诸如出现在目标文件中的短语或模式等项系列的特殊性等级可通过与用于句子或项的方法类似的方法被估算。例如,为每一个项系列获得一个矢量,其中对应于包含在一个目标项系列中的项的分量采用一个值“1”,而其它分量采用一个值“0”,可通过用于计算句子的特殊性等级的方法来计算每一个项系列的特殊性等级。另外,当单独句子中的每一个项系列的频率被预先计算时,在用于计算项的特殊性等级的方法中,可通过以每一项系列的频率替代每一项的频率来估算项系列的特殊性等级。此外,根据本发明的另一个实施例的用于估算一个目标文件的特殊性等级的方法如下所述。一个句子被假设为一个文件段。处理步骤到文件段矢量的获取与上述实施例相同。随后,为目标文件的每一个句子计算与整个目标文件的相似性和与整个对比文件的相似性。目标文件中的任何重要句子都与整个目标文件有高度的相似性,且任何具有不同于对比文件内容的句子都与整个对比文件有低的相似性。因此,可通过使用一个比率(与整个目标文件的相似性)/(与整个对比文件的相似性)来定义其差异性和重要性被较好地平衡的特殊性的等级。此外,可通过计算单独句子的特殊性等级和在相应的句子中的项的频率之间的相关性来计算一个项的特殊性等级。并且,与上述实施例一样,也可通过从项系列获取一个矢量并计算该矢量与整个目标文件及与整个对比文件的相似性来计算每一个项系列的特殊性等级。另外,可从单独句子中的项系列的频率和相应句子的特殊性等级之间的相关性中计算每一个项系列的特殊性等级。根据本发明,当比较两个文件时,可为构造两个文件之一的一个目标文件的单独句子、短语或单词计算特殊性等级。例如,一个对比文件是另一个文件,且对比文件和目标文件都是诸如叙述一个相同情况的新闻报导,具有特殊性高等级的句子从目标文件中被选择,相应的,可识别叙述主题不同于那些对比文件的句子。例如,关于某场交通事故,在对比文件中叙述“事故概况”和“肇事者和受害者”,而除了“事故概况”之外,在目标文件中也叙述“警察观察”等,关于“警察观察”的句子的特殊性等级在目标文件中为高等级,且与“警察观察”相关的一个部分可被识别。如果一位用户已经查阅过对比文件,他/她被允许识别和仅仅阅读不为其所知的“警察观察”部分。因此,可提高获取信息的效率。在一个调查中,当目标文件和对比文件分别是从某个群体和另一个群体所获得的一组答复时,可通过应用本发明的一个实施例的方法来掌握目标文件的群体中的特殊答复趋向。依照这种方式,由于本发明的应用,可轻易确定和分析来自目标文件的信息。附图1是一个包含有本发明特征的计算机的框图。附图2是一个在相关的附图1中描述的计算机响应于按照本发明的第一个实施例的计算机存储的程序而执行操作的流程图;该流程图包括从计算机读出文件到计算机确定一个文件段的特殊性等级的步骤。附图3是按照本发明的计算机操作的第二个实施例的流程图,该流程图包括从计算机读出文件到计算机确定一项的特殊性等级的步骤。附图4是按照本发明的计算机操作的第三个实施例的流程图;流程图包括从计算机读出文件到计算机确定一个文件段和一项的相应的特殊性等级的步骤。附图5A至5D是对描述附图1中的计算机如何编程来处理一目标文件和一对比文件的句子矢量有帮助的示意图。具体实施例方式附图1是一个包括用于阅读对比文件和目标文件的文件阅读器110的计算机的方框图。一个数据处理器120从文件阅读器110接收一个输出并且执行输入文件等的项检测,形态分析(morphologicalananlysis),文件分割等。处理器120将经检测、分析和分割的文件提供给一个选择引擎130的选择数据处理块,它从目标文件中选择一个具有高等级特殊性的文件段或一个具有高等级特殊性的项。引擎130为装置140答复选择的文件段,例如,一个计算机显示器或打印机,它们能输出所选择的特殊文件段或特殊项。附图1中的计算机可以是一个通用的计算机或一个用于执行在相关的附图2-5中描述的操作的专用计算机。下面将描述一种附图1中的计算机执行响应于一个计算机存储的程序以从一个目标文件中提取具有高等级特殊性的任何文件段的方法。附图2是附图1中的计算机按顺序执行估测一个文件段的特殊性的等级的操作流程图。这个方法可以用如下步骤实现,具有这里引入的一个实施例的程序在一个通用计算机上运行来实现。参照附图2,数字11表示由文件阅读器110执行的比较/目标文件输入步骤,数字12表示由数据处理器120执行的项检测步骤,数字13表示一个形态分析步骤,和数字14表示一个同样由数据处理器120执行的文件分割步骤。此外,数字15表示一个文件段矢量构造步骤,数字16表示一个主体差异因子分析步骤,数字17表示一个文件段矢量投影步骤,数字18表示对于主体差异因子的每一阶(order)进行文件段特殊性的计算步骤,数字19表示总的文件段特殊性等级的计算步骤,和数字20表示一个特殊的文件段选择步骤。选择引擎130执行15-20的每一个步骤。对附图1中的计算机如何操作来执行附图2的各步骤的如下描述是使用英语语言文件作为例子的。首先,在比较/目标文件输入步骤11中输入一个目标文件和一个比较文件。在项检测步骤12中,处理器120从两个文件中检测单词,公式,一系列符号等。在下文中,所有的单词,一系列符号等通常都指的是“项”。在英语语言书写的情况下,在其中项被隔开的记号方法已经建立,因此检测该项是很容易的。接着,对比文件和目标文件两个文件都在形态分析步骤13进行形态分析,例如,将一个指示词类(part-of-speech)的标记添加到每一个项中。在文件分割步骤14中,两个文件都被分成文件段。文件段最基本的单位是一个句子。以英语书写为例,一个句子可以很容易地被提取,因为一个句子以句点结尾,其后紧跟一个空格。其它的文件分割方法包括(1)将一个复杂的句子分成一个主句和一个从句,(2)集中将多个句子分成文件段以致于具有大体上相等数目的项,和(3)从头开始,将文件分成具有相同数目项的段,而不考虑句子等等。在文件段矢量构造步骤15中,选择引擎130确定(1)根据在整个文档中出现的项来构造矢量的维数以及(2)相应的维和单独项之间的对应性。矢量的分量不需要对应于出现项的所有类型,而是仅仅根据选择的项来构造矢量,例如,名词和动词,通过利用步骤13的语音部分标记结果。在步骤15中,选择引擎130通过获得在每一个文件段中出现的项的类型和它的频率来构造文件段矢量,并且通过频率乘以加权来确定相应的矢量分量的值。加权可以用已知的在主体差异因子分析步骤16中,选择引擎130通过用全部的文件段矢量的投射值的平方和得出使对比文件和目标文件的比率最大的投影轴。在下文中,一句子被假定为文件段。考虑文件D和T,对该文件的一组出现项由{W1,..,WJ}给出,并且该文件分别由M和N个句子组成。文件T是对比文件时,而文件D是目标文件。由一组句子矢量代表相应的文件,并且相应文件的第K个句子的句子矢量由dk=(dk1,..,dkj)T和tk=(tk1,..,tkj)T来表示,其中上标T表示该矢量的转置。附图5A-5D显示了当文件段是一个句子时的概念图。目标文件D由M个句子组成(附图5A),并且句子矢量dk根据第K个句子而构造(附图5B)。对应于项Wj的矢量分量dk表示为dkj。因为分量dkj表示项wj在第K个句子中的频率,因此它获得了每一个示范值。附图5C和5D指的是对比文件。符号α表示一建立的投影轴。假定||α||=1,其中||α||表示α的范数。PD和Pt表示当文件D和T在轴α上相应投影的所有句子矢量时投影值的平方和,建立的投影轴被赋值为最大化比率或判别式J(α)=PD/PT的值α。PD和PT的平方和表示如下PD=Σk=1M(dkTα)2=αTSDα,]]>公式1SD=Σk=1MdkdkTx,]]>公式2PT=Σk=1N(tkTα)2=αTSTα,]]>公式3ST=Σk=1NtktkT.]]>公式4因此,判别式J(α)也可以写为J(α)=PDPT=αTSDααTSTα.]]>公式5可获得由公式5给定的最大化判别式J(α)的轴α,以使通过相对于α差分J(a)而获得的一个值等于0(零)。这个轴指定为通过以下指出的一广义特征值问题的特征向量SDα=λSTα.公式6这些操作对应于获得的投影轴,当两个文件的所有句子矢量被投影到某个投影轴上时该投影轴使比率(源于目标文件的投影值的平方和)/(源于对比文件的投影值的平方和)最大。关于这样的投影轴,目标文件的句子矢量的投影值的平方和变大,而对比文件的句子矢量的投影值的平方和却变小。因此,反映出在目标文件中是普遍的和在对比文件中不是普遍的这样一个信息。通常,多个值可以作为公式6的每一特征值和特征向量来被计算。第i阶的特征值和特征向量分别由λi和αi表示。第i阶的特征向量可以被认为是表示第i个因子,其反映出存在于目标文件D和不存在于比较目标T中的信息。所以,第i阶的特征向量αi可以称作目标文件D的″第i阶主题差异因子矢量″。选择引擎130在步骤16(主体差异因子分析)中计算这些主体差异因子矢量。因为λi=αiTSDαi/αiTSTαi,λi是使用αi时的判别式的值。所以,在两个文件之间的差异程度在反映在相应阶的主体差异因子矢量上时彼此不相同。因此,相应阶的主体差异因子矢量按照差异程度优选被加权。加权通过确定第i阶的特征向量αi的范数来执行以致于成为αiTSTαi=1公式7那么,αiTSDαi=λi公式8在目标文件D的相应的句子矢量和特征向量αi之间的内积的平方和等于λi。就公式6来说,为了计算特征向量矩阵ST必须是正则矩阵。但是,现实情况是,当对比文件中的句子的数目小于项的数目时或其中指定的项总是成对共同存在,则该矩阵ST不能作为一个正则矩阵获得。在这种情况下,特征向量可以通过调整该矩阵ST使其和下列公式相一致来计算S^T=ST+β2I]]>公式9其中β2表示一参数,并且I表示单位矩阵。就公式7来说,判别式J(α)是如下相等地减少J(α)=PD/(PT+β2).公式10在步骤17中,在选择引擎130确定文件段矢量投影期间,目标文件的每一个句子矢量被投影在每一阶的主体差异因子矢量上以便计算一个相应的投影值。在第i阶的主体差异因子矢量αi上的目标文件的句子k的句子矢量dk的投影值由yki表示,并且由引擎130用下列公式计算yki=αiTdk.公式11但是,因为这样定义的投影值对一个长句趋向于变得很大,根据||dk||可以实行对投影值归一化来使得投影值独立于该句子的长度。在这种情况下,投影值yki是这样给出的yki=αiTdk/||dk||.]]>公式12在步骤18中,引擎130为主体差异因子的每一阶计算文件段的特殊性,句子矢量dk的第i阶的特殊性的等级distinc(dk,i)基于投影值yki来计算。通常,投影值yki取一正的或负的值。当句子k的内容更接近于目标文件D的内容并且更加不同于对比文件T的内容时,投影值yki的绝对值会增大。因此,特殊性等级distinc(dk,i)可以被定义为distinc(dk,i)=yki2公式13distinc(dk,i)=|yki|.公式14引擎130仅仅用第i个因子来计算第i阶的特殊性等级,由公式13表示。引擎130根据多个因子计算特殊性的等级来精确地表达句子k的特殊性。为了这个目的,在步骤19中,引擎130按照如下公式计算句子k的总的文件段特殊性的等级distinc(dk)=Σi=1Ldistinc(dk,i).]]>公式15变量L表示用于计算句子特殊性的主体差异因子矢量的数目,并且一适当的值必须用实验方法确定。L的最大值是特征值的值等于或大于1的特征值的数目。在特殊文件段选择的步骤20中,引擎130在目标文件中根据相应阶特殊性的等级和以前计算的总的特殊性的等级选择任何特殊句子。选择以如下描述的方式进行。在最简单的方法中,引擎130选择具有总的特殊性等级等于或大于预定值的任何一个句子。一较复杂的方法使用一指定阶的主体差异因子矢量。引擎130首先将单独句子分类成目录组和第二组,在目录组中位于主体差异因子矢量上的相应句子矢量的投影值变成正的,在第二组中的相应的投影值变成负的。其次,从相应的组中选择每一阶的特殊性的等级等于或大于预定值的任何句子。这些操作为全部的主体差异因子矢量执行直到预定的阶L,而完全相同的句子被排除,由此特殊句子被选中。引擎130可以通过单一的或复杂的方法选择特殊句子。而且,按照附图2的程序,不但文件段的特殊性的等级,而且那些项组合的特殊性的等级,例如短语,有从属关系的项组,或项系列模式,都以如下所述来估算。例如,“gameofsoccerplayedatYokohama”这个表达式词中,“ofsoccer”修饰名词“game”,因此“gameofsoccer”成为了一个名词短语,还有“playedatYokohama”修饰名词短语“gameofsoccer”,因此上述的表达式就变成了一个完整的名词短语。更详细的,“atYokohama”修饰动词“played”,因此“playedatYokohama”变成了一个在从属关系下的项组,除此之外,在“gameofsoccerplayedatxx”的表达作为包括xx的不同地点名字重复出现的情况下,“gameofsoccerplayedat”变成了一个项系列模式。在步骤13中,除了执行形态分析,处理器120还提取了要被估算的项的组合。短语或者在从属关系下的项组都通过执行的一个语法分析而被提取。为提取经常出现的项系列模式,已经设计了多种方法,它们能够毫无问题的被使用。在步骤15中,除了用在步骤16中的文件段矢量以外,还构造矢量p=(p1,..,pj)T用于每一个将被估算的项的组合。矢量p是这样一个矢量,其中对应于包含在项组合中的项的分量取值“1”,而它的其它的分量取值“0”。一个矢量p的实际例子在下面进行解释。就表达式“gameofsoccerplayedatYokohama”来说,矢量p变为这样一个矢量,其中的仅对应于项“Yokohama”,“played”,“soccer”和“game”的分量取值“1”,而其它的分量取值“0”。使用这样的一个矢量p而不是步骤17、18和19中的句子矢量dk,引擎130计算将被估算的项组合的特殊性的等级。所以在步骤20中,在特殊句子中,特殊项组合同样选择引擎130。在第二个实施例中,将要描述一个从目标文件中选择任何具有高等级特殊性的项的方法。关于项,对在单个句子中的目标项的频率和相应句子的特殊性等级之间的相关性进行计算,并且任何具有高相关值的项被选中。根据相关值对项的特殊性等级进行计算。附图3是根据本发明用于估算一项的特殊性等级的第二个实施例的流程图。这个方法可以用这样一种方式实现在一个通用计算机上运行具有其中包含本发明实施例的程序。参照附图3的流程图,数字11表示对比/目标文件输入步骤,数字12表示项检测步骤,数字13表示形态分析步骤,和数字14表示文件分割步骤。此外,数字15表示文件段矢量构造步骤,和数字16表示主体差异因子分析步骤。除此之外,数字27表示文件段矢量投影步骤,数字28表示对主体差异因子的每一阶计算项特殊性等级的步骤,数字29表示总的项特殊性等级计算步骤,和数字30表示特殊项选择步骤。在上述步骤之中,部分11-16和在附图2中说明的是相同的。将一文件段假定为一个句子的例子以附图2的情况进行描述。在文件段矢量投影步骤27中,除了在附图2的步骤17中的目标文件D的句子矢量的投影,对比文件T的全部的句子矢量还被投影。由zki表示的在第i阶的主体差异因子矢量αi上的对比文件T的句子矢量tk的投影值通过下述公式计算zki=αiTtk公式16或zki=αiTtk/||tk||.]]>公式17在对每一阶的主体差异因子的项特殊性等级的计算的步骤28中,首先计算单个句子的投影值和在相应句子中的项频率之间的相关性。这里,correl(wj,i)表示在对应于第j项wj的目标文件和对比文件中的句子矢量的那些分量值和相应句子矢量在第i阶的主体差异因子矢量di上的投影值之间的相关系数。句子矢量dk和tk的第j个分量是dkj和tkj,并且在矢量αi上的投影值分别是yki和zki,因此该相关系数可以由下列公式计算correl(wj,i)=(Σk=1Mykidkj+Σk=1Nzkitkj)(Σk=1Myki2+Σk=1Nzki2Σk=1Mdkj2+Σk=1Ntkj2.]]>公式18当在对应于句子矢量dk或tk中的项Wj的分量值和句子矢量在主体差异因子矢量αi上的投影值之间保持比例关系时,对于项wj的相关系数增大。也就是说,第i阶的句子的特殊性等级在项Wj出现时变大和在项wj没有出现时变小,这时相关系数增大。在这种情况下,项wj可以被认为是控制每一个句子的第i阶的特殊性等级的特殊项;所以,由distinc(wj,i)表示的第i阶的项的特殊性等级可以在步骤28中由以下公式计算distinc(wj,i)=correl(wj,i)2公式19或distinc(wj,i)=|correl(wj,i)|.公式20在总的项特殊性等级计算步骤29中,如在附图2的情况中那样,对每一个项的总的特殊性等级由结合多个因子来计算。由distinc(wj)表示的项wj的总的特殊性等级在步骤29中由下列公式计算distinc(wj)=Σi=1Ldistinc(wj,i).]]>公式21在特殊项选择步骤30中,在目标文件中的任何特殊项根据已经计算的相应阶的特殊性等级和总的特殊性等级被选择。选择可以按照以下的叙述进行。最简单的方法是一种选中任何具有总的特殊性等级等于或大于一预定值的项的方法。同样,接下来的方法也是可行的。首先,关于指定阶的主体差异因子矢量,单独的项被分成一个组,其中在相应的句子矢量在主体差异因子矢量上的投影值和相应的项的频率之间的相关系数变成正的,和一个组,其中它们变成负的。其次,从相应的组中选择每一阶的特殊性等级等于或大于预定值的项。对所有的主体差异因子矢量执行这些操作直到预定的阶L,并且完全相同的项被排除,由此特殊项被选中。特殊项可以通过这任何一个方法进行选择。此外,按照对应于本发明的第二个实施例,不仅项的特殊性等级,而且那些项组合的特殊性等级,例如短语,有从属关系的项组,或项系列模式,可以按照以下的叙述估算。当在第一个实施例中,在步骤13,除执行形态分析之外,还对将被估算的项的组合进行提取。短语,或有从属关系的项组可以通过执行语法分析而被提取。对于提取经常出现的项系列模式的各种方法已经被提出,并且它们可以毫无问题的被使用。在步骤15,除构造用于步骤16的文件段矢量外,还对每一个将被估算项的组合出现在相应的文件段中的频率进行计算。这里,PDk表示在目标文件D的句子k中的频率,并且pTk表示在对比文件T的句子k中的频率。在步骤28和29中,可通过用pDk替换dKj和用pTk替换tKi来计算将被估算的项的组合的特殊性等级,而不是项Wj的特殊性等级。因此,在步骤30中,可以像对特殊项一样选择特殊项组合。其次,为了估算一目标文件的特殊性,按照本发明的第三实施例按如下操作。从第三个实施例的对比/目标文件输入步骤11到文件段矢量构造步骤15为第一个和第二个实施例所共有。其后,为目标文件的每一个句子对整个目标文件的相似性和整个对比文件的相似性进行计算。附图4是一显示本发明的第三个实施例用于估算一文件段和一项的特殊性等级的流程图,这个方法可以以这样一种方式实现在一通用计算机上运行具有其中包含该实施例的程序。参照附图4的流程图,数字11表示对比/目标文件输入步骤,数字12表示项检测步骤,数字13表示形态分析步骤,和数字14表示文件分割步骤。此外,数字15表示文件段矢量构造步骤,数字36表示相似性计算步骤,数字37表示文件段的特殊性等级计算步骤和数字38表示项的特殊性等级等级化步骤。除此之外,数字39表示特殊文件段选择步骤,和数字40表示特殊项选择步骤。步骤11-15和在附图2中所说明的相同。在相似性计算步骤36,引擎130计算在目标/对比文件的单独句子的矢量和整个目标/对比文件之间的相似性。设定sim(D,dk)表示目标文件的句子矢量dk对整个目标文件的相似性,和sim(T,dk)表示其对整个对比文件的相似性,sim(D,dk)和sim(T,dk)可以根据在句子矢量dk和目标文件与对比文件所有的句子矢量之间内积的平方和分别进行计算,如下述sim(D,dk)=(Σm=1M(dkTdm)2Σm=1MΣn=1M(dmTdn)2||dk||2)1/2]]>公式22sim(T,dk)=(Σm=1N(dkTtm)2Σm=1NΣn=1N(tmTtn)2||dk||2)1/2.]]>公式23另外,设定d和t表示目标文件与对比文件的平均句子矢量,上述相似性可以以下列公式分别计算sim(D,dk)=dkTd‾(d‾Td‾)(dkTdk),]]>公式24sim(T,dk)=dkTt‾(t‾Tt‾)(dkTdk).]]>公式25顺便提及,在相似性计算步骤36,为项特殊性等级计算步骤38作准备,为对比文件的全部的句子矢量同样计算相对于整个目标文件和整个对比文件的相似性。在文件段的特殊性等级计算步骤37中,引擎130对目标文件的所有句子矢量计算特殊性等级。任何在目标文件中重要的句子对于整个目标文件有高的相似性,并且任何具有不同于对比文件的内容的句子对于整个对比文件有低的相似性。因此,其中的差异性和重要性被很好平衡的特殊性等级可以通过使用比率(对整个目标文件的相似性)/(对整个对比文件的相似性)来定义。因此,引擎130在步骤37中用如下公式计算目标文件D的句子k的特殊性等级distinc(dk)distinc(dk)=sim(D,dk)/sim(T,dk).公式26这样计算的句子k的特殊性等级在句子k对目标文件有高的相似性和对对比文件有低的相似性这种情况下变大。顺便提及,在文件段的特殊性等级计算步骤37中,对对比文件T的句子特殊性等级也进行计算,为下一步骤38的项特殊性计算作准备。对比文件T的句子k的特殊性等级应该由distinc(tk)表示。在步骤38,引擎130根据在单独句子的特殊性等级和在相应的句子中的项频率之间的相关系数执行项的特殊性等级计算。在步骤38,引擎130按照如下公式计算由distinc(Wj)表示的一项Wj的特殊性等级distinc(wj)=(Σk=1Mdkjdistinc(dk)+Σk=1Ntkjdistinc(tk))Σk=1Mdkj2+Σk=1Ntkj2Σk=1Mdistinc(dk)2+Σk=1Ndistinc(tk)2.]]>公式27当在对应于句子矢量dk或tk中的项wj的分量值和该句子的特殊性等级之间保持比例关系时,对项wj的相关系数变高。也就是说,当项wj出现时句子的特殊性等级变大和当项Wj未出现时句子的特殊性等级变小,这时相关系数会增大。在这种情况下,项wj可以被认为是控制每一个句子的特殊性等级的特殊项。在步骤39和40,引擎130分别选择特殊文件段和特殊项,这样任何句子特殊性等级等于或大于预定值的句子,和任何项特殊性等级等于或大于预定值的项被选中。从而,可以获得特殊句子和项。按照附图4,除了项的组合,例如短语、有从属关系的项组、或项系列模式的特殊性等级以外,还有项和文件段的特殊性等级可以用以下的叙述估算。在步骤13,除执行形态分析之外,还对将被估算的项的组合进行提取。短语,或有从属关系的项组可以通过执行语法分析来提取。已经设计出用于提取经常出现的项系列模式出现频率的各种方法,并且它们可以毫无问题的被使用。在步骤15中,除用于步骤16中的文件段矢量之外,还构造矢量p=(p1,..,pj)T用于每一个将被估算的项的组合。矢量p是一个具有如下分量的矢量对应于包含在将被估算的项组合中的项的分量取值″1″,而其他分量取值″0″。其次,在步骤36和37,在这样的一个矢量p和目标文件D之间的相似性sim(D,p)和在矢量p和对比文件T之间的相似性sim(T,p)通过用矢量p替换句子矢量dk来计算。就象公式20和21,这些相似性可以如下定义sim(D,p)=(Σm=1M(pTdm)2Σm=1MΣn=1M(dmTdn)2||p||2)1/2,]]>公式28sim(T,p)=(Σm=1N(pTtm)2Σm=1NΣn=1N(tmTtn)2||p||2)1/2.]]>公式29另外地,就象公式22和23,相似性可以如下公式很好的定义sim(D,p)=pTd‾(d‾Td‾)(pTp),]]>公式30sim(T,p)=pTt‾(t‾Tt‾)(pTp).]]>公式31使用该相似性,将被估算的项的组合的特殊性等级可以被如下计算distinc(p)=sim(D,p)/sim(T,p).公式32在步骤40,那些它的特殊性等级等于或大于预定值的项组合被选择作为特殊项的组合。此外,在这些实施例中,短语、有从属关系的项组、或每一个由多个的项组成的项系列模式的特殊性等级可以按照以下的叙述进行计算。在步骤15,除用于步骤16中的文件段矢量的构造之外,还对在相应的文件段中出现的每一个将被估算的项的组合的频率进行计算。这里,pDk表示在目标文件D的句子k中的频率,和pTk表示在对比文件T的句子k中的频率。在步骤38中,可通过用pDk替换dKj和用pTk替换tKi来计算将被估算的项的组合的特殊性等级,而不是项Wj的特殊性等级。在步骤39,那些特殊性等级等于或大于预定值的项组合被选择作为特殊项的组合。为提出本发明的某些特征而利用公式13的实验结果如下。作为用于实验的数据,二个文件在适当长度的判别式和高相似性的条件下从一文本分类全集″Reuters-21578″的第一类别″acq″中被选择。这些文件的″id″是1836和2375。文件之间的余弦相似性是0.955。文件1836由43个句子组成,而文件2375由32个句子组成。该文件是同一天的新闻条目。认为已经晚送的文件2375被设置为目标文件D,文件1836作为对比文件T,以便从目标文件D中提取特殊句子等等。文件的内容涉及通过一美国航空公司″TWA″兼并一美国航空公司″USAir″。句子D-1到D-4概述新闻,句子D-5到D-24叙述兼并事件的细节,和句子D-25及以下等等叙述对公司″TWA″的分析。许多不存在于文件T中的信息条目被包含在句子D-1到D-4和D-5到D-24,和句子D-25及以下等等的一些句子中。该文件的整个文本将在这些说明书的末端作为″实验文件数据″被指出。实验按照本发明的第一个实施例执行。因此,八个句子D-1,D-8,D-11,D-24,D-25,D-27,D-28和D-30被选为高等级的特殊性的句子。并且在一个人阅读对比试验中,这些句子被认为是与对比文件有微弱关系的和在目标文件中是特殊句子。通过按照公式19选择有高等级特殊性的词所获得的结果如下列出。对于具有高等级特殊性的十个字的每一个,指出了词的特殊性等级,该词在目标文件D中的出现频率,和该词在对比文件T中的出现频率。选择的字特殊性等级在目标文件D中的出现频率在对比文件T中的出现频率succeed85.730work85.320cost85.220surviving81.620clear80.430company71.051fall67.320arbitrager67.051bid62.451merge61.931根据这些结果,出现频率在比较文件T中很低并且在目标文件D中很高的字将被选中。作为这样一个实验的应用,考虑接下来的例子。当某些新闻条目较早就被阅读以掌握新闻内容时,任何其内容没有在该较早的新闻条目中叙述的关键词可能从迟到的新闻项中被提取。因此,能够作出关于后来的新闻条目是否需要详细阅读的决定。甚至能够对两个项获得不同的特殊性等级,例如如上所述的字″succeed″和″clear″,它们在目标文件和对比文件中有完全相同的频率,而作为本发明的优点可以判定哪个更加特殊。实验文件数据下面叙述在本发明中使用的文件对比文件T(Reuter-id1836)TransWorldAirlinesInccomplicatedthebiddingforPiedmontAviationIncbyofferingeithertobuyPiedmontsuitorUSAirGroupor,alternatively,tomergewithPiedmontandUSAir.Piedmont′sboardwasmeetingtoday,andWallStreetspeculatedtheboardwasdiscussingopposingbidsfromNorfolkSouthernCorpandUSAir.TheTWAofferwasannouncedshortlyafterthePiedmontboardmeetingwasscheduledtobegin.TWAofferedtobuyUSAirfor52dlrscashpershare.ItalsosaiditwasthelargestshareholderofUSAirandthreatenedtogodirectlytoUSAirshareholderswithanofferfor51pctofthestockatalowerprice.TWAalsosaiditbelieveditsofferwasabetterdealforUSAirshareholdersthananacquisitionofPiedmont,butitsaiditalternativelywoulddiscussathreewaycombinationoftheairlines.MarketsourcesandanalystsspeculatedthatTWAchairmanCarlIcahnmadetheofferinordertoputhisownairlineintothetakeoverarena.We′rejustwonderingifhe′snotjusttryingtogetTWAintoplay.There′sspeculationonthestreethejustwantstomoveontosomethingelse,saidonearbitrager.WethinkTWAmightjustbeputtingupatrialballoon.AnalystssaidtheoffermustbetakenseriouslybyUSAir,butthattheairlinewillprobablyrejectitbecausethepriceisrelativelylowcomparedtootherairlinedeals.TheyalsosaidIcahnmustprovehisoffercrediblebyrevealingfinancingarrangements.Theyneedtoshowtheircommitmentandtheirabilitytofinance.Ithinkit′sacredibleoffer,saidTimothyPettee,aBearStearnsanalyst.Ithinkit′scertainlyonthelowendofrelativevaluesofairlinedeals,saidPettee.Petteeestimated58dlrswouldbeinamorereasonablerangebasedonotherairlinemergers.USAirstocksoaredafterTWAmadepublicitsoffer.AspokesmanforUSAirdeclinedcomment,andsaidUSAirhadnotchangeditsofferforPiedmont.USAirofferedofbuy50petofthatairline′sstockfor71dlrscashpershareandthebalancefor73dlrspershareinUSAirstock.USAirclosedup5-3/8at49-1/8onvolumeof1.9minshares.Piedmont,whichslipped1/2tocloseat69-5/8,alsoremainedsilentontheTWAaction.Piedmonthasanoutstanding65dlrcashpershareofferfromNorfolkSouthernCorp.NorfolkSoutherndeclinedcomment,butsaiditstuckwithitsofferforPiedmont.Norfolkownsabout20pctofPiedmontandopenedthebiddingwhenitsaiditwouldproposeatakeoverofPiedmont.SomeanalystssaidIcahnmaybetryingtoacquireUSAirtomakehisownairlineamoreattractivetakeovertarget.IcahnIthinkhadwantedtosellhisairlineandtherewerenotakers.Ithinkthestrategymighthavecalledformakinghisinvestmentmoreattractive.Onewaytoaccomplishthatspecificobjectiveistogooutandacquireotherairlines,saidAndrewKimofEberstadtFleming.Idon′tknowwhosegoingtobuythem,butatleastthiswayitbecomesamuchmoreviablepackage,saidKim.ButIcahn′sfinancingabilityforsuchatransactionremainsindoubt,inpartbecauseofTWA′sheavydebtload.WallstreetsourcessaidTWAhassomecashwithwhichtodotheoffer.ThesourcessaidIcahnhasnotlinedupoutsidefinancialadvisersandplanstomakehisownarrangements.IcahnearlierthisyearabandonedplanstobuyUSXCorp<X>andstillretains11petofthatcompany′sstock.SomeWallstreetsourcessaidthefinancier′sUSXplanwasimpactedbythecloudhangingoverhisadviser,DrexelBurnhamLambertInc,becauseofWallStreet′sinsidertradingscandal.IndustrysourcesalsopredictedUSAirmightrejecttheTWAofferonpriceandfinancingconcerns.It′slitteredwithcontingenciesanditdoesn′tevenhaveafinancingarrangement,saidoneexecutiveatanothermajorairline.ButtheexecutiveconcededamergedTWAUSAirwouldbeastrongcontenderwithUSAir′seastcoastroutesystemandplannedwestcoastpresencefromPSA.USAircouldfeedtheintenrationalflightsofTWA,whichhasamidwestpresenceinitsSt.Louishub.AddingPiedmont,dominantinthesoutheast,tothemixwoulddevelopanevenstrongerforce.ThecombinedentitywouldalsohaveTWA′sparsreservationsystem.Suchamergerwouldbecomplexandanalystssaiditwouldresultinanairlineiwthan18pctmarketshare.目标文件D(Reuter-id2375)D-1CarlIcahn′sboldtakeoverbidforUSAirGroup<U>hascloudedthefateofPiedmontAviationInc,whichwasbeingcourtedbyUSAir.D-2Yesterday,Icahn′sTransworldAirlinesInc<TWA>madea1.4billiondlrofferforUSAirGroup.D-3ThemovecomplicatedaUSAirtakeoverofferforPiedmont,whichwasbelievedtobeclosetoacceptingthebid.D-4Today,USAirrejectedIcahn′s52dlrpershareofferandsaidthebidwasalastminuteefforttointerfereinitstakeoverofPiedmont.D-5Icahnwasunavailableforcomment.D-6Piedmontfelloneto68-5/8onvolumeof963,000.D-7TWAwasoff3/8to31-1/2.D-8USAirfell1-3/8to47-3/4asdoubtspreaditwouldbetakenover.D-9AnalystsandmarketsourcesviewtheTWAbidasanattempttoeithertriggeracounterofferfromUSAirortoattractasuitorwhomightwantbothairlinesoncetheymerged.D-10ThenextmoveiseitherIcahnstartsatenderofferorPiedmontandUSAirannounceadeal,speculatedonearbitrager.D-11SomearbitragerssaidthereisnowsomeriskinthecurrentpriceofPiedmontsinceitisnotclearthatUSAir′sbidwillsucceed.D-12Piedmont′slargestshareholderandothersuitor,NorfolkSouthernCorp<NSC>hasoffered65dlrspershareforthecompany.D-13USAiroffered71dlrscashpershareforhalfofPiedmontstock,and73dlrspershareinstockforthebalance.D-14Somearbitragers,however,believethedepressedpriceofPiedmontoffersabuyingopportunitysincetheairlineisdestinedtobeacquiredbysomeone.D-15USAir,theysaid,istheleastlikelytobebought.D-16Icahn,whohaslongtalkedaboutfurtherconsolidationintheairlineindustry,alsoofferedUSAirthealternativeofathreewayairlinecombination,includingTWAandPiedmont.D-17ButWallStreethasgivenlittlecredibilitytoIcahn′soffer,whichlackedfinancingandwasriddledwithcontingencies.D-18Still,hehassucceededinholdingupamergeroftwoairlinesbothofwhichanalystssaidwouldfitwellwithTWA.D-19Youcan′tdiscounthim,saidonearbitrager.D-20Analysts,however,saidIcahnwouldhavetoproveheisseriousbyfollowingthroughwithhisthreatsormakinganewoffer.D-21InmakingtheofferforUSAir,Icahnthreatenedtogodirectlytoshareholdersfor51pctofthestockatalowerpriceifUSAirrejectedhisoffer.D-22It′sclearIcahnwantstosellandhe′sbluffing,saidonearbitrager.D-23Analystssaidthe52dlrpershareofferwasunderpricedbyaboutsixdlrspershare.D-24SomeanalystsbelieveIcahn′sproposedthreewayairlinecombinationmightfaceinsurmountableregulatoryhurdles,butothersbelieveitcouldbeclearedifthecompaniesareacquiredseparately.D-25TWAwouldhavetobethesurvivingcompanyforthedealtowork,saidoneanalyst.D-26Analystssaidsuchamergerwouldbecostlyandcomplicated.D-27TWAhasthebestcoststructure,sinceIcahnsucceededinwinningconcessionsfromitsunions.D-28InorderfortheothercarrierstocomedowntoTWA′swagescaleinamerger,TWAwouldhavetobethesurvivingentity,analystssaid.D-29SuchamovedoesnotnecessarilyfreeIcahnofTWA,theysaid.D-30TheysaidheshowedskillinreducingOzarkAirlines′costswhenhemergeditintoTWAlastyear,andhemightbeanecessaryingredientforamergertowork.D-31However,otheranalystsspeculatedthemanagementsofPiedmontandUSAirwouldnottolerateIcahnasheadofanewcompany.D-32TheysaidaUSAiracquisitionofTWAmightbeawayforhimtoexitthecompanyifUSAir′sairlineisthenmergedintoTWA.权利要求1.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个文件段的特殊性等级并且识别特殊文件段的方法,该方法包括(a)为包含在对比文件和目标文件中的每一个文件段确定相应的文件段矢量,每一个文件段矢量具有与在它相应的文件段中出现的项的的出现频率相关的分量值;(b)根据上述文件段矢量,计算分别对应于对比文件和目标文件的平方和矩阵;(c)根据上述对应于对比文件和目标文件的平方和矩阵,计算目标文件的主体差异因子矢量的预定的阶号;(d)根据上述对应的文件段矢量和上述相应阶的主体差异因子矢量,计算上述相应阶的相应特殊性等级和对于目标文件的每一个文件段的总的特殊性等级;和(e)基于上述相应的阶的特殊性等级或根据目标文件的总的特殊性等级,在目标文件中识别一个特殊文件段。2.如权利要求1所述的方法,进一步包括通过定义J作为一个出现在目标文件和对比文件中的项的类型的数目较大的一个,且定义M作为在目标文件中的文件段的数目,和定义第k个文件段矢量为dk=(dk1,..dkj)T(k=1,..,M)来计算目标文件的平方和矩阵,其中T表示矢量的转置,而dkj表示与第j个项出现在上述文件段中的出现频率相关的值,并且按照下列公式计算目标文件的平方和矩阵SD=Σk=1MdkdkT,]]>和通过定义N作为在对比文件中的文件段的数目,且定义第n个文件段矢量为tk=(tk1,..tkJ)T(k=1,..,N)来计算对比文件的平方和矩阵,其中T表示矢量的转置,tkj表示与第j个项存在于上述文件段中的出现频率相关的值,并且按照下列公式计算对比文件的平方和矩阵ST=Σk=1NtktkT.]]>3.如权利要求2所述的方法,进一步包括根据广义特征值问题的第i阶的特征向量αi按照下列公式计算目标文件的第i阶的主体差异因子矢量SDα=λSTα。4.如权利要求1的方法,进一步包括通过在所述相应的文件段矢量和每一阶的主体差异因子矢量之间内积的平方值或绝对值之一,或者通过用所述文件段矢量的一个范数来为每一个文件段归一化每一阶的所述特殊性等级,为所述目标文件的每一个文件段计算每阶的特殊性等级,且通过增加所述相应阶的一个预定的特殊性等级数来计算所述总的特殊性等级。5.如权利要求2的方法,进一步包括通过在所述相应的文件段矢量和每一阶的主体差异因子矢量之间内积的平方值或绝对值之一,或者通过用所述文件段矢量的一个范数来为每一个文件段归一化每一阶的所述特殊性等级,为所述目标文件的每一个文件段计算每阶的特殊性等级,且通过增加所述相应阶的一个预定的特殊性等级数来计算所述总的特殊性等级。6.如权利要求3的方法,进一步包括通过在所述相应的文件段矢量和每一阶的主体差异因子矢量之间内积的平方值或绝对值之一,或者通过用所述文件段矢量的一个范数来为每一个文件段归一化每一阶的所述特殊性等级,为所述目标文件的每一个文件段计算每阶的特殊性等级,且通过增加所述相应阶的一个预定的特殊性等级数来计算所述总的特殊性等级。7.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级并且识别特殊项组合的方法,该方法包括(a)为包含在对比文件和目标文件中的每一个文件段识别相应的文件段矢量,每一个文件段矢量具有与在它相应的文件段中出现的项的出现频率相关的分量值;(b)根据上述文件段矢量,计算分别对应于对比文件和目标文件的平方和矩阵;(c)根据上述对应于对比文件和目标文件的平方和矩阵,计算目标文件的主体差异因子矢量的预定的阶号;(d)在所述目标文件中为每一个项组合计算项组合矢量,每一个项组合矢量具有对应于包括在项组合中的项的被给出一个由所述项在所述项组合中出现的数目所确定的值的分量,并具有等于“0”的其它分量;(e)根据所述对应的项组合矢量和所述相应阶的主体差异因子矢量,为所述目标文件的每一个项组合计算所述相应阶的特殊性等级和总的特殊性等级;(f)根据上述相应阶的所述特殊性等级或所述目标文件的总的特殊性等级,将所述目标文件中的项组合识别为特殊的。8.如权利要求7所述的方法,进一步包括通过在所述对应的项组合矢量和每阶的所述主体差异因子矢量之间内积的平方值或绝对值的一个,或者是通过用所述项组合矢量的范数来为每一个项组合规一化每一阶的所述特殊性等级,为所述目标文件的每一个项组合计算每一阶的特殊性等级,和通过增加所述相应阶的一个预定的特殊性等级数来计算所述总的特殊性等级。9.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项的特殊性等级并且识别特殊项的方法,该方法包括(a)为包含在对比文件和目标文件中的每一个文件段识别相应的文件段矢量,每一个文件段矢量具有与在它相应的文件段中出现的项的出现频率相关的分量值;(b)根据上述文件段矢量,计算分别对应于对比文件和目标文件的平方和矩阵;(c)根据上述分别对应于对比文件和目标文件的平方和矩阵,计算目标文件的主体差异因子矢量的预定的阶号;(d)为目标文件和对比文件的所述文件段的每一个计算内积的值,在所述对应的文件段矢量和所述相应阶的所述主体差异因子矢量之间计算所述内积值;(e)根据所述相应文件段的每一个项的频率和所述内积值之间的相关系数,为包含在所述目标文件中的每一项计算所述相应阶的特殊性等级和总的特殊性等级;(f)根据上述相应阶的所述特殊性等级或所述目标文件的总的特殊性等级,识别所述目标文件中的特殊项组合。10.如权利要求9所述的方法,进一步包括通过定义J作为一个出现在目标文件和对比文件中的项的类型的数目较大的一个,且定义M作为在目标文件中的文件段的数目,和定义第k个文件段矢量为dk=(dk1,..dkj)T(k=1,..,M)来计算目标文件的平方和矩阵,其中T表示矢量的转置,而dkj表示与第j个项出现在上述文件段中的出现频率相关的值,并且按照下列公式计算目标文件的平方和矩阵SD=Σk=1MdkdkT,]]>和通过定义N作为在对比文件中的文件段的数目,且定义第n个文件段矢量为tk=(tk1,..tkJ)T(k=1,..,N)来计算对比文件的平方和矩阵,其中T表示矢量的转置,tkj表示与第j个项出现于上述文件段中的出现频率相关的值,并且按照下列公式计算对比文件的平方和矩阵ST=Σk=1NtktkT.]]>11.如权利要求9所述的方法,进一步包括根据广义特征值的第i阶的特征向量αi按照下列公式计算目标文件的第i阶的主体差异因子矢量SDα=λSTα。12.如权利要求9所述的方法,进一步包括通过在所述相应的文件段中每项的频率和对应的文件段矢量与相应阶的所述主体差异因子矢量内积之间的相关系数的平方值或绝对值之一,为包含在所述目标文件的每一项计算每阶的特殊性等级,且通过增加所述相应阶的一个预定的特殊性等级数来计算所述总的特殊性等级。13.如权利要求10所述的方法,进一步包括通过在所述相应的文件段中每项的频率和对应的文件段矢量与相应阶的所述主体差异因子矢量内积之间的相关系数的平方值或绝对值之一,为包含在所述目标文件的每一项计算每阶的特殊性等级,且通过增加所述相应阶的一个预定的特殊性等级数来计算所述总的特殊性等级。14.如权利要求11所述的方法,如权利要求10所述的方法,进一步包括通过在所述相应的文件段中每项的频率和对应的文件段矢量与相应阶的所述主体差异因子矢量内积之间的相关系数的平方值或绝对值之一,为包含在所述目标文件的每一项计算每阶的特殊性等级,且通过增加所述相应阶的一个预定的特殊性等级数来计算所述总的特殊性等级。15.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级并且识别特殊项组合的方法,该方法包括(a)为包含在对比文件和目标文件中的每一个文件段识别相应的文件段矢量,每一个文件段具有与相应的文件段中出现的项的出现频率相关的分量值;(b)根据上述文件段矢量,计算分别对应于对比文件和目标文件的平方和矩阵;(c)根据上述对应于对比文件和目标文件的平方和矩阵,计算目标文件的主体差异因子矢量的预定的阶号;(d)为目标文件和对比文件的所述文件段的每一个计算内积的值,在所述对应的文件段矢量和所述相应阶的所述主体差异因子矢量之间计算所述内积值;(e)根据所述相应文件段的每一个项组合的频率和所述内积值之间的相关系数,为包含在所述目标文件中的每一项组合计算所述相应阶的特殊性等级和总的特殊性等级;(f)根据上述相应阶的所述特殊性等级或所述目标文件的总的特殊性等级,识别所述目标文件中的特殊项组合。16.如权利要求15所述的方法,进一步包括通过定义J作为一个出现在目标文件和对比文件中的项的类型的的数目较大的一个,且定义M作为在目标文件中的文件段的数目,和定义第k个文件段矢量为dk=(dk1,..dkj)T(k=1,..,M)来计算目标文件的平方和矩阵,其中T表示矢量的转置,而dkj表示与第j个项出现在上述文件段中的出现频率相关的值,并且按照下列公式计算目标文件的平方和矩阵SD=Σk=1MdkdkT,]]>以及通过定义N作为在对比文件中的文件段的数目,且定义第n个文件段矢量为tk=(tk1,..tkJ)T(k=1,..,N)来计算对比文件的平方和矩阵,其中T表示矢量的转置,tkj表示与第j个项出现于上述文件段中的出现频率相关的值,并且按照下列公式计算对比文件的平方和矩阵ST=Σk=1NtktkT.]]>17.如权利要求16所述的方法,进一步包括根据广义特征值的第i阶的特征向量αi按照下列公式计算目标文件的第i阶的主体差异因子矢量SDα=λSTα。18.如权利要求15所述的方法,进一步包括通过在所述相应的文件段中每个项组合的频率和所述的内积值之间的所述相关系数的平方值或绝对值之一,为包含在所述目标文件的每一项组合计算每阶的特殊性等级,且通过增加所述相应阶的特殊性等级的一个预定数来计算所述总的特殊性等级。19.如权利要求16所述的方法,进一步包括通过所述相应的文件段中的每个项组合的频率和所述内积值之间的所述相关系数平方值或绝对值之一来为包含在所述目标文件中的每一个项组合计算每一阶的特殊性等级,并通过增加所述相应阶的特殊性等级的一个预定数目来计算所述总的特殊性等级。20.如权利要求17所述的方法,进一步包括通过在所述相应的文件段中每个项组合的频率和所述的内积值之间的所述相关系数的平方值或绝对值之一,为包含在所述目标文件的每一项组合计算每阶的特殊性等级,且通过增加所述相应阶的特殊性等级的一个预定数来计算所述总的特殊性等级。21.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个文件段的特殊性等级并且识别特殊文件段的方法,该方法包括(a)为包含在对比文件和目标文件中的每一个文件段识别相应的文件段矢量,每一个文件段具有与相应的文件段中出现的项的出现频率相关的分量值;(b)为所述目标文件的每一个文件段计算所述文件段矢量的相似性,所述文件段矢量的相似性对应于所述目标文件和所述对比文件;(c)通过使用与所述目标文件和所述对比文件的相似性,为所述目标文件的每一个文件段计算一个总的特殊性等级;以及(d)根据所述目标文件的总的特殊性等级,在所述目标文件中识别特殊文件段。22.如权利要求21所述的方法,进一步包括根据所述文件段矢量和所述目标文件的相应的段矢量之间的一个内积的平方和,计算所述文件段矢量和所述目标文件之间的相似性,并且根据所述文件段矢量和所述对比文件的相应的段矢量之间的一个内积的平方和,计算所述文件段矢量和所述对比文件之间的相似性。23.如权利要求21所述的方法,进一步包括根据所述文件段矢量和所述目标文件的一个平均段矢量之间的内积来计算所述文件段矢量和所述目标文件之间的相似性,并且根据所述文件段矢量和所述对比文件的一个平均段矢量之间的内积来计算所述文件段矢量和所述对比文件之间的相似性。24.如权利要求21所述的方法,进一步包括通过与所述目标文件的相似性和与所述对比文件的相似性之间的一个比率来计算所述文件段的总的特殊性等级。25.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一项的特殊性等级并且识别特殊项的方法,该方法包括(a)为所述对比文件和目标文件的每一个文件段识别相应的文件段矢量,所述文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值;(b)为所述目标文件的每一个文件段计算相应的文件段矢量的相似性,所述对应的文件段矢量的相似性对应于所述目标文件和对比文件;(c)通过使用与所述目标文件和所述对比文件的相似性来为所述目标文件的每一个文件段计算一个总的特殊性等级;(d)通过使用与所述目标文件和所述对比文件的相似性来为所述对比文件的每一个文件段计算一个总的特殊性等级;(e)根据在所述目标文件和所述对比文件的相应文件段中的每一项的频率和所述相应文件段矢量的总的特殊性等级的值之间的相关系数来为包含在所述目标文件中的每一项计算一个总的特殊性等级;(f)根据所述目标文件的总的特殊性等级,识别所述目标文件中的特殊项。26.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级并且识别特殊项组合的方法,该方法包括(a)为所述对比文件和目标文件的每一个文件段识别相应的文件段矢量,所述文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值;(b)为所述目标文件的每一个文件段计算相应的文件段矢量的相似性,所述相应的文件段矢量的相似性相对应于所述目标文件和对比文件;(c)通过使用与所述目标文件和所述对比文件的相似性而为所述目标文件的每一个文件段计算总的特殊性等级;(d)根据所述相应文件段中的每一个项组合的频率和所述相应文件段的总的特殊性等级的值之间的相关系数来为包含在所述目标文件中的每一个项组合计算特殊性等级。(e)根据所述目标文件的总的特殊性等级来确定所述目标文件中的特殊项组合。27.如权利要求26所述的方法,进一步包括根据所述文件段矢量和所述目标文件的所述相应段矢量之间的内积的一个平方和来计算所述文件段矢量和所述目标文件之间的相似性,并且根据所述文件段矢量和所述对比文件的所述相应段矢量之间的内积的一个平方和来计算所述文件段矢量和所述对比文件之间的相似性。28.如权利要求26所述的方法,进一步包括根据所述文件段矢量和所述目标文件的一个平均段矢量之间的内积来计算所述文件段矢量和所述目标文件之间的相似性,并根据所述文件段矢量和所述对比文件的一个平均段矢量之间的内积来计算所述文件段矢量和所述对比文件之间的相似性。29.如权利要求26所述的方法,进一步包括根据与所述目标文件的相似性和与所述对比文件的相似性的比率来计算所述文件段的总的特殊性等级。30.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级并且识别特殊项组合的方法,该方法包括(a)为所述对比文件和目标文件的每一个文件段识别相应的文件段矢量,每一个文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值;(b)在所述目标文件中为每一个项组合而计算一个项组合矢量,所述项组合矢量具有对应于包括在项组合中的项的由在所述项组合中出现的所述项的数目所确定给定值的分量,并具有等于“0”的其它分量;(c)为所述目标文件的每一个项组合计算项的对应的组合矢量的相似性,所述对应的组合矢量的相似性对应于所述目标文件和对比文件;(d)通过使用与所述目标文件和所述对比文件的相似性,为所述目标文件的每一个项组合计算一个总的特殊性等级;(e)根据所述目标文件的总的特殊性等级,在所述目标文件中确定一个特殊项组合。31.如权利要求30所述的方法,进一步包括基于所述项组合矢量和所述目标文件的相应的段矢量之间的一个内积的平方和来计算所述项组合矢量和所述目标文件之间的相似性,并基于所述项组合矢量和所述对比文件的相应的段矢量之间的一个内积的平方和来计算所述项组合矢量和所述对比文件之间的相似性。32.如权利要求30所述的方法,进一步包括基于所述项组合矢量和所述目标文件的一个平均段矢量之间的内积来计算所述项组合矢量和所述目标文件之间的相似性,并基于所述项组合矢量和所述对比文件的一个平均段矢量之间的内积来计算所述项组合矢量和所述对比文件之间的相似性。33.如权利要求30所述的方法,进一步包括通过与所述目标文件的相似性和与所述对比文件的相似性之间的一个比率来计算所述项组合的总的特殊性等级。34.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一文件段的特殊性等级的方法,该方法包括(a)为包含在所述对比文件和目标文件中的每一个文件段识别相应的文件段矢量,每一个文件段矢量具有与出现在所述相应文件段中的项的出现频率相关的分量值;(b)根据所述文件段矢量,计算分别相对应于所述对比文件和所述目标文件的平方和矩阵;(c)根据与所述对文件和所述目标文件对应的平方和矩阵,计算所述目标文件的主体差异因子矢量的一个预定的阶数;(d)根据所述对应的文件段矢量和所述相应阶的主体差异因子矢量,为所述目标文件的每一个文件段计算所述相应阶的特殊性等级和总的特殊性等级。35.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级并且识别特殊项组合的方法,该方法包括(a)为包含在所述对比文件和目标文件中的每一个文件段识别相应的文件段矢量,每一个文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值;(b)根据所述文件段矢量,计算分别与所述对比文件和所述目标文件相对应的平方和矩阵。(c)根据对应于所述对比文件和所述目标文件的所述平方和矩阵,计算所述目标文件的主体差异因子矢量的一个预定阶数;(d)在所述目标文件中为每一个项组合计算项组合矢量,每个项组合矢量具有对应于包括在项组合中的项的由在所述项组合中出现的所述项的数目所确定给定值的分量,并具有等于“0”的其它分量;以及(e)根据所述对应的项组合矢量和所述相应阶的主体差异因子矢量,为所述目标文件的每一个项组合计算所述相应阶的特殊性等级和总的特殊性等级。36.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一项的特殊性等级并且识别特殊项的方法,该方法包括(a)为包含在所述对比文件和目标文件中的每一个文件段识别相应的文件段矢量,每一个文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值;(b)根据所述文件段矢量,计算分别与所述对比文件和所述目标文件相对应的平方和矩阵。(c)根据分别对应于所述对比文件和所述目标文件的所述平方和矩阵,计算所述目标文件的主体差异因子矢量的一个预定阶数;(d)为所述目标文件和所述对比文件的每一个所述的文件段计算内积值,在所述相应的文件段矢量和所述相应阶的所述主体差异因子矢量之间计算所述内积值;(e)基于所述相应文件段中的每一项的频率和所述内积值之间的相关系数,为包含在所述目标文件中的每一项计算所述相应阶的特殊性等级和一个总的特殊性等级。37.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级的方法,该方法包括(a)为包含在所述对比文件和目标文件中的每一个文件段识别相应的文件段矢量,每一个文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值;(b)根据所述文件段矢量,计算分别与所述对比文件和所述目标文件相对应的平方和矩阵。(c)根据分别对应于所述对比文件和所述目标文件的所述平方和矩阵,计算所述目标文件的主体差异因子矢量的一个预定阶数;(d)为所述目标文件和所述对比文件的每一个所述的文件段计算内积值,在所述相应的文件段矢量和所述相应阶的所述主体差异因子矢量之间计算所述内积值;(e)基于所述相应文件段中的每一个项组合的频率和所述内积值之间的相关系数,为包含在所述目标文件中的每一个项组合计算所述相应阶的特殊性等级和总的特殊性等级。38.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一文件段的特殊性等级的方法,该方法包括(a)为所述对比文件和目标文件的每一个段识别相应的文件段矢量,每一个文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值;(b)为所述目标文件的每一个文件段计算所述文件段的相似性,所述文件段矢量的所述相似性相对应于所述目标文件和所述对比文件;(c)通过使用与所述目标文件和所述对比文件的相似性,为所述目标文件的每一个文件段计算一个总的特殊性等级。39.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一项的特殊性等级的方法,该方法包括为所述对比文件和目标文件的每一个文件段识别相应的文件段矢量,所述文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值;(a)为所述目标文件的每一个文件段计算对应的文件段矢量的相似性,所述相应的文件段矢量的相似性对应于所述目标文件和对比文件;(b)通过使用与所述目标文件和所述对比文件的相似性为所述目标文件的每一个文件段计算一个总的特殊性等级;(c)通过使用与所述目标文件和所述对比文件的相似性为所述对比文件的每一个文件段计算一个总的特殊性等级;(d)根据在所述目标文件和所述对比文件的相应文件段中的每一项的频率和所述相应文件段矢量的总的特殊性等级值之间的相关系数,为包含在所述目标文件中的每一项计算一个总的特殊性等级。40.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级的方法,该方法包括(a)为所述对比文件和目标文件的每一个文件段确定相应的文件段矢量,所述文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值;(b)为所述目标文件的每一个文件段计算对应的文件段矢量的相似性,所述相应的文件段矢量的相似性相对应于所述目标文件和对比文件;(c)通过使用与所述目标文件和所述对比文件的相似性为所述目标文件的每一个文件段计算一个总的特殊性等级;(d)根据所述相应文件段中的每一个项组合的频率和所述相应文件段的总的特殊性等级的值之间的相关系数,为包含在所述目标文件中的每一个项组合计算一个特殊性等级。41.一种相对于包括至少一个文件段的对比文件估算包含在包括至少一个文件段的目标文件中的每一个项组合的特殊性等级的方法,该方法包括(a)为所述对比文件和目标文件的每一个文件段识别相应的文件段矢量,所述文件段矢量具有与出现在所述文件段中的项的出现频率相关的分量值;(b)在所述目标文件中为每一个项组合计算一个项组合矢量,所述项组合矢量具有对应于包括在项组合中的项的由在所述项组合中出现的所述项的数目所确定给定值的分量,并具有等于“0”的其它分量;(c)为所述目标文件中的每一个项组合计算对应的项的组合矢量的相似性,所述对应的组合矢量的相似性相对应于所述目标文件和对比文件;(d)通过使用与所述目标文件和所述对比文件的相似性,为所述目标文件的每一个项组合计算一个总的特殊性等级。全文摘要在自然语言处理中比较两个文件组,并通过以下手段估算一个文件组的每一个组成元素(例如一个句子,项或短语)的特殊性将目标文件和对比文件分为文件段,构造每一个文件段的句子矢量,其分量是在文件段中出现的项的出现频率,在一个投影轴上投影两个文件的所有句子矢量以发现一个投影轴,该投影坐标轴使等于(起源于目标文件的投影值的平方和)/(起源于对比文件的投影值的平方和)的比率最大化。通过在投影轴上投影句子矢量来获取投影值,并在投影值的基础上计算目标文件的单独句子的特殊性等级。文档编号G06F17/27GK1495644SQ0315462公开日2004年5月12日申请日期2003年7月4日优先权日2002年7月4日发明者T·卡瓦塔尼,T卡瓦塔尼申请人:惠普开发有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1