摘要评估装置和方法及含摘要评估程序的可机读记录媒体的制作方法

文档序号:6599347阅读:310来源:国知局
专利名称:摘要评估装置和方法及含摘要评估程序的可机读记录媒体的制作方法
技术领域
本发明涉及利用计算机评估文章段的摘要的技术。更具体来说,本发明涉及利用有监督的机器学习方法自动地进行文章段的摘要的评估处理的技术。
摘要处理主要可化分为两种类型通过从目标文章段抽取重要句子进行概括;和通过以目标文章段的内容为根据自由地生成句子进行概括。在通过抽取重要句子进行概括的处理中,按照规定的概括比率(rate)抽取目标文章段中出现的句子,以构成摘要。在通过自由地生成句子进行概括的处理中,人根据目标文章段的内容自由地生成句子。
作为评估通过抽取重要句子进行概括的一种方法,有可能通过利用应当从文章某段中抽取哪些句子的信息的自动处理进行评估。例如,将一个表示当到达某个程度时该句子就应当被抽取作为摘要的重要度预先分配给文章段中的每个句子,然后通过把每个被抽取句子的重要度相加来评估该摘要。
另一方面,自动评估自由构成的摘要是困难的。这是因为,可能应当获得一个文章段的多个合适的摘要,因此为所有合适的摘要准备正确信息是非常困难的。
于是,在有关技术中,就根据个人的知识和经验手工地进行对自由构成的摘要的评估。在下面引用的文献1中所示的方法,就是在相关技术中存在的一种自动评估摘要的方法。在引用文献1的处理方法中,利用再调用比(recall ratio)、相关比(relevance ratio)、基于计算机处理所抽取的句子与人事先选择的重要句子之间的一致性的F值,进行摘要评估。
也可以通过利用字的频率向量(frequency vector of words)确定自由生成的(freely made)摘要与人事先准备好的正确摘要之间的相似度(degree of similarity)而认识自由生成的摘要的评估。“引用文献1Shu Nobata等,集成多个评估标准的重要句子抽取系统,第七届语言处理学会年会论文集,pp301-304,2001。
在引用文献1中所示的评估自由制作的摘要的处理中,利用字频率向量确定目标摘要与准备好的正确摘要之间的相似度。因此有这样的趋势,即如果表示摘要的内容的关键字的分布类似于被认为是正确的摘要的关键字的分布,则摘要的评估值变高。就是说,如果某摘要包括某些在正确摘要中存在的字,该摘要将获得一个确定的好评估,即使该摘要的形式作为一段文章来说是极其难读的。因此,这种摘要获得好摘要的评估是有问题的。
在相关技术中,专家评估手工构成的摘要。然而毫无疑问,专家的评估取决于评估者的经验和技巧。因此,有的时候,对同一个摘要的评估可能因评估者的不同而不同,有的时候,即使在评估者相同时也因评估的时间不同而有不同的评估。因此,如果像相关技术中那样,根据专家的经验和技巧来评估手工构成的摘要,则不但没有摘要的评估的可重复性,而且要做到公平地评估摘要也很困难。
需要不受评估者的主观影响并且可重复的客观评估的、对包括自由构造的摘要在内的摘要的自动评估处理。
现在考察对由计算机自动生成的摘要的评估与由专家自由构成的摘要的评估的比较。计算机生成的摘要在概括内容和句子流畅的适当性方面的概括精确度一般比由人制作的摘要低。因此许多情况下,由计算机生成的摘要,其逼真度达不到与人工摘要相同的程度。
假设“好摘要”具有这样的逼真度,该逼真度达到使得难以区分该摘要与手工摘要的程度,这个“好摘要”使得由计算机生成的该摘要的句子结构和摘要内容达到与由人工生成的摘要相似的程度。因此应当明白,按“计算机摘要”和“手工摘要”划分类别可用作为摘要的评估。
因此本发明的目的是提供一种自动执行不仅评估通过抽取重要句子作出的摘要而且也评估利用计算机自由地生成的摘要的处理的方法。
本发明的另一个目的是提供一种实现这个处理方法的装置。
本发明的另一个目的是提供一种其中记录有用于在计算机上执行这个自动摘要评估处理的程序的计算机可读的记录媒体。
本发明的另一个目的是提供一种把各种用于获得摘要的处理装置分成类别(classification)并执行自动评估利用这些类别的装置获得的摘要的处理方法,提供一种用于实现这个处理的装置和在计算机上执行这个处理的程序。
因此,本发明提供的摘要评估方法包含下述步骤访问用于存储解决方案(solution)数据的解决方案数据存储装置,其中解决方案数据由一个组构成,该组包括由文章段及其摘要构成的一个问题、以及由该摘要的评估构成的解决方案;从解决方案数据存储装置中获取解决方案数据;从解决方案数据的问题中抽取特征并建立解决方案和特征的集合的组;用有监督的机器学习方法,从解决方案和特征的集合的组中学习在哪种特征时哪种解决方案是最容易的,并存储该学习的结果;从输入的文本抽取特征的集合;和根据学习的结果,推断在从特征抽取步骤中获得的特征而抽取了集合的情况下,哪种解决方案是最容易得到成功的。
因此,本发明提供的摘要评估装置包含用于存储解决方案数据的解决方案数据存储装置,其中解决方案数据由一个组构成,该组包括由文章段及其摘要构成的一个问题、以及由该摘要的评估构成的解决方案;解决方案/特征对抽取装置,用于获得解决方案数据、从解决方案数据的问题中抽取特征并建立解决方案和特征的集合的组;机器学习装置,用于用有监督的机器学习方法,从解决方案和特征的集合的组中学习在哪种特征时哪种解决方案是最容易的,并存储该学习的结果;特征抽取装置,用于从输入的文本抽取特征的集合;和评估推断装置,用于根据学习的结果,推断在从特征抽取装置获得的特征而抽取了的集合的情况下,哪种解决方案是最容易得到成功的。
本发明提供一种其中记录有使计算机执行这个摘要评估方法的各步骤的摘要评估程序的计算机可读的记录媒体。
本发明中,事先准备大量的由例子构成的解决方案数据,各个例子被分配由对每个由机器生成的摘要和每个由人建立的摘要的摘要评估构成的解决方案。对于每个例子,抽取解决方案和特征的集合的组,并用机器学习技术从所抽取的解决方案和特征的集合的组中学习在哪种特征时哪种解决方案(摘要评估)是最容易获得成功的。之后,当构成某主题的摘要被输入时,从所输入的摘要中抽取特征的集合,然后通过参考机器学习的结果,通过推断就哪种特征的集合而言哪种解决方案是容易得到成功的。
这样就有可能提供一种可重复的、无偏见的评估,而不受评估者的经验和技巧的影响。
例如,表示摘要是用计算机生成的“机器摘要”和表示摘要是由人制作的的“手工摘要”这两种类别可用作分配给解决方案数据的解决方案。在这种情况下,在本发明中,要对输入的摘要是“机器摘要”还是“手工摘要”作出判定。这两种类别可以利用处理计算机由机器处理来作分配,以便从作为解决方案数据准备的摘要本身中自动地获得。在通过机器处理分配类别时,在分配解决方案中所涉及的处理负荷能得到减轻。在考虑解决方案数据的精确性时,用方案是由专家分配的解决方案数据也是可能的。在这种情况下,也可能按照评估分配三个或五个类别,以便执行多阶段评估,诸如三个阶段、五个阶段的评估,等等。
在计算机上实现本发明的装置、功能或元件的程序,可以存储在适当的计算机可读的记录媒体上,诸如便携式存储媒体、半导体存储器或硬盘等中,可以通过在这种记录媒体上的记录而提供,或者通过利用通过通信接口的通信网络的交换而提供。
解决方案数据存储单元11是用于存储构成用于机器学习过程中的有监督的数据的数据(解决方案数据)的装置。由问题和解决方案的集构成的例子作为解决方案数据被存储在解决方案数据存储单元11中。问题包括概括之前的一个文章段和一个摘要本身。摘要既可以由计算机制作,也可以由人制作。解决方案是对摘要的评估,有两个类别“由计算机产生的摘要(计算机摘要)”和“由人产生的摘要(手工摘要)”。这两个类别可以根据一种用于生成摘要的处理技术自动地分配,或者可以由人分配。使用“计算机摘要”和“手工摘要”这两种类别作为解决方案的理由是,为了能根据生成摘要的处理装置机械地分配类别。就是说,“计算机摘要”的解决方案(类别)被自动地分配给计算机自动地生成的摘要。被分配以解决方案“手工摘要”的解决方案数据,被用于由人制作的摘要。这就减轻了在分配解决方案中所牵涉到的处理负荷。此外,在解决方案的准确性重要时,可以由专家把解决方案分配给每个例子。
解决方案/特征对抽取单元12,是用于从存储在解决方案数据存储单元11中的每个例子中抽取解决方案和特征的集的组的装置。可以抽取一个特征,作为(1)指示句子是否流畅的信息,(2)指示内容是否被适当表达的信息,(3)用于自动概括的特征信息,等等。
(1)作为指示句子流畅性的信息,可以抽取k语法形态序列(k-gram morph sequence)的出现的百分率或者以主体(corpus)的形式实现的解决方案数据存储单元11中的修饰从句之间的语义一致的程度。
(2)作为指示该文章段的内容是否被适当表达的信息,在作概括之前该文章段中存在的关键短语(key-phrases)的包含率被抽取。
此外,(3)抽取句子的位置、关于句子是否是起始句子的信息、TF/IDF(Term Frequency/Inversed Document Frequency-术语频率/逆文件频率)、句子长度、或者诸如特征表达/连接词/功能字之类的关键表达的存在,作为用于自动概括的特征信息。
机器学习单元13是用于用有监督的机器学习方法从由解决方案/特征对抽取单元12抽取的解决方案和特征的集合的组中学习在哪种特征时哪种解决方案是最直截了当的装置。这个学习的结果然后被存储在学习结果数据存储单元14中。如果机器学习单元13用有监督的机器学习方法学习,则可以用这种方法执行处理。这种技术例如可以是判定树技术、支持向量技术、参数调整技术、简单贝叶斯(Baysian)技术、最大熵(entropy)技术或判定表技术。
特征抽取单元15是用于从评估目标的摘要2中抽取一组特征并把所抽取的该组特征传送给评估推断单元16的装置。
评估推断单元16是用于参考学习结果数据存储单元14的学习结果数据并在特征集合被从特征抽取单元15传送过来时推断对其来说某解决方案(评估)是最直截了当的结果、然后输出一个由该推断结果构成的评估3的装置。
图2表示本发明的一个处理流程图。在自动摘要评估处理装置1的解决方案数据存储单元11中存储着大量的例子作为解决方案数据,其中将解决方案信息分配给多种语言的数据。例如,在下面的示例1中表示了取作为输入的文本的一个例子。
示例1
首先,在解决方案/特征对抽取单元12,从解决方案数据存储单元11为每个例子抽取一解决方案和特征的集的一组(步骤S1)。例如,抽取以下作为特征特征e1主体中k语法形态序列的出现;特征e2修饰从句之间的语义一致的程度;特征e3在概括之后具有大的TF/IDF值的“自然语言用词”的包含率;特征e4对输入文章段的第一个句子是否在被使用的确定;特征e5输出摘要的长度;和特征e6确定在摘要被抽取的位置之前是否有连接词“tsumari(换言之)”。
解决方案/特征对抽取单元12检查对于每个例子来说,是否在主体中出现一个k语法形态序列,作为特征e1,如果存在,就抽取之。k语法形态序列例如是一个三语法词素的“动词を(doushi-wo)<|>する(suru)(其中<|>表示一个分割)”,这是从“动词を(doushi-wo)<|>省略(syouryaku)<|>する(suru)”中省略“省略(syouryaku)”得出的。如果形态序列“动词を(doushi-wo)<|>する(suru)”不在主体中出现,就推断是因为该表达作为句子看起来不流畅。k语法形态序列在主体中的出现,可以被用作特征e1,以便确定摘要的流畅性。
解决方案/特征对抽取单元12通过检查例如是否在从“动词を(doushi-wo)<|>省略(syouryaku)<|>すゐ(suru)”中省略“省略(syouryaku)”得出的“动词を(doushi-wo)<|>する(suru)”的主体中存在修饰“する(suru)”从句的从句“动词を(doushi-wo)”,抽取修饰从句之间的一致程度作为特征e2。如果在“动词を(doushi-wo)”和“する(suru)”之间没有修饰(modification),则可以推断该表达不是一个流畅的句子。
解决方案/特征对抽取单元12抽取例如一个关于是否在概括之前的文章段中出现的关键短语(自然语言的短语的字)被包含在摘要中的关键短语包含率,作为特征e3。如果这些短语被尽可能多地包含在摘要中,则可以确定该摘要是个准确表达这个文章段(文本)的内容的好摘要。
TF/IDF技术主要可以用于关键短语自动抽取处理。TF是一个表示某字在某文章段中的出现次数或频率的值。IDF是已经具有的某字在其中出现的一组大量的文件(documents)的文件数的倒数。通常,其TF与IDF之和的值大的字适合作为关键短语。假设“自然言语(shizengengo)(自然语言)”、“动词(doushi)(动词)”、“省略(syouyaku)(omission)”、“复元(fukugen)(恢复)”、“表层の表现(hyousou-no-hyougen)(表面情况表示)(surface caserepresentation)”和“用例(yourei)(例子)”对应于图3中所示的文章段中的短语。这些字在表达这个文本的内容时是重要字,因此希望在摘要中出现这些字。
解决方案/特征对抽取单元12利用例如TF/IDF技术来抽取构成前面所述的那种关键短语的字。它然后检查TF或IDF的值是否高,以及这些字是否被包含在摘要中,然后抽取这些字的包含率,作为特征e3。
解决方案/特征对抽取单元12然后抽取对输入文本中的第一个句子是否被使用的确定,作为特征e4。重要句子出现在一个文章段的开头一般是非常普遍的。因此可以确定,如果采用靠近文件的开头的句子作为摘要则能得到好的摘要。
解决方案/特征对抽取单元12也检查摘要的长度并抽取这个长度,作为特征e5。摘要的目标一般是要短句子。因此可以确定,短摘要是好摘要。
解决方案/特征对抽取单元12也抽取对是否在被作为摘要抽取的位置之前有“つまり(tsumari)(换言之)”之类的连接词的确定,作为特征e6。还存在着一些关键的表达,例如连接词、功能字,它们指示希望作为摘要来抽取的句子和位置。例如,当存在“tsumari”之类的连接词时,在这个连接词“tsumari”的后面就存在概括这个文本的内容的表达。这意味着,如果这部分被抽取,则可以确定是好摘要。
机器学习单元13然后用机器学习方法从由解决方案/特征对抽取单元12抽取解决方案和特征的集的组学习在哪种特征时哪种解决方案是最容易的(例如“机器摘要”、或“手工摘要”)(步骤S2)。机器学习单元13例如采用简单贝叶斯方法、判定表技术、最大熵方法或支持向量机器方法等等作为有监督的机器学习方法。
简单贝叶斯方法是根据贝叶斯定理推断每个类别的概率的方法,该方法将概率值最高的类别作为要采用的类别。
判定表技术定义由特征和类别组成的各组,用于在一个有预定优先级的表中存储。当要被提交作检查的输入然后被提供时,用该表从最高优先级开始按顺序比较该输入数据和所定义的特征。如果特征匹配,则所定义的类别被作为输入类别。
在最大熵方法中,当采用预定集合的特征fj(1≤j≤k)作为F集合时,获得在满足规定约束条件的同时某个表达何时意味着熵最大的概率分布,然后按照这个概率分布获得的每个类别的概率,获得概率值较大的类别。
支持向量机器方法是一种将空间划分成超平面对两个类别中的数据分类的方法。
判定表技术和最大熵方法在下文引用的参考文献2中有说明,支持向量机器方法在下文引用的参考文献3和4中有说明。
“引用参考文献2Society for language analysis in electronicinformation communication studies and communications(电子信息通信研究和通信中的语言分析学会),NCL2001-2,(2001),Ambiguityresolution trials employing various machine learningtechniques(采用各种机器学习方法的歧义解析试验)(村田真樹、内山将夫、内元清貴、馬青、井佐原均、種々の機械学習法を用いた多羲解消実験、電子情報通信学会言語理解とコミユニケ一ション研究会)。”“引用参考文献3Nello Cristianini和John Shawe-TaylorAn Introduction to Support Vector Machines and otherkernel-based learning methods(Cambridge University Press,2000)(支持向量机和其它基于内核的学习方法的介绍,剑桥大学出版社,2000年)”“引用参考文献4Taku Kudoh,TinysvmSupport VectorMachines(支持向量机)(http//cl.aist-nara.ac.jp/taku-ku//software/TinySVM/index.html,2000)”。
之后,将希望评估的摘要2输入到特征抽取单元15(步骤S3)。
特征抽取单元15采用与解决方案/特征对抽取单元12的基本相同的处理从输入的摘要2中抽取一组特征,并把这些特征传送给评估推断单元16(步骤S4)。
评估推断单元16根据在学习结果数据存储单元14中的学习结果收集在到传送过来的特征时推断哪种解决方案是最直截了当的,然后输出该推断解即评估3(步骤S5)。例如,评估推断单元16如果推断,作为根据从摘要2中抽取的特征集用机器学习技术执行处理的结果,摘要2的解决方案是“手工摘要”,则可以输出一个“手工摘要”或“好摘要”的评估3。评估推断单元16在推断出摘要2的解决方案是“机器摘要”时,也可以输出一个“机器摘要”或“坏摘要”的评估3。
以上给出了本发明的实际实现的说明,但是在本发明的范围内可以有各种修改。例如,在举例说明的本发明的一个实施例中,将“机器摘要”和“手工摘要”这两个类别作为存储在解决方案数据存储单元11中的解决方案数据,但是也可以采用三种或更多的类别作为解决方案。
按照本发明,将原始文本和摘要作为问题,为摘要生成装置准备大量的解决方案数据,作为“人工的”或“机器的”解决方案。然后根据利用这个解决方案数据的机器学习得出的结果,对作为处理对象的摘要推断出是“机器摘要”还是“手工摘要”的评估。因此,即使处理的对象是自由建立的摘要,也有可能对这个评估进行自动处理。因此即使对自由制作的摘要也能进行可重复的、无偏见的评估。
按照本发明,对于同一个摘要总是输出等同的评估。因此可以对相同的摘要多次重复进行相同的评估处理,当把执行本发明的处理系统调整得性能优异时,则能直截了当地获得关于这个处理系统的评估。
按照本发明,有可能对相同的摘要重复相同的评估,能共享摘要处理方法的评估。
权利要求
1.一种采用计算机的摘要评估方法,包含以下步骤访问用于存储解决方案数据的解决方案数据存储装置,其中解决方案数据由一个组构成,该组包括由文章段及其摘要构成的一个问题、以及由来自解决方案数据存储器的摘要的评估构成的一个解决方案;从解决方案数据存储装置获得解决方案数据;从解决方案数据的问题中抽取特征并建立解决方案和特征的集合的组;用有监督的机器学习方法,从解决方案和特征的集合的组中学习在哪种特征时哪种解决方案是最容易的,并存储该学习的结果;从输入的文本抽取特征的集合;和根据学习的结果,推断在从特征抽取步骤中获得的特征而抽取了的集合的情况下,哪种解决方案是最容易得到成功的。
2.按照权利要求1的摘要评估方法,其中,解决方案由两个类别组成机器处理的摘要、及人制作的摘要。
3.一种摘要评估装置,包含用于存储解决方案数据的解决方案数据存储装置,其中解决方案数据由一个组构成,该组包括由文章段及其摘要构成的一个问题、以及由该摘要的评估构成的一个解决方案;解决方案/特征对抽取装置,用于从解数据存储装置获得解决方案数据、从该解决方案数据的问题中抽取特征并建立解决方案和特征的集合的组;机器学习装置,用于用有监督的机器学习方法,从解决方案和特征的集合的组中学习在哪种特征时哪种解决方案是最容易的,并存储该学习的结果;特征抽取装置,用于从输入的文本抽取特征的集;和评估推断装置,用于根据学习的结果,推断在从特征抽取装置获得的特征而抽取了的集合的情况下,哪种解决方案是最容易得到成功的。
4.按照权利要求3的摘要评估装置,其中,解决方案由两个类别组成机器处理的摘要、及人制作的摘要。
5.一种记录有摘要评估程序的计算机可读的记录媒体,该程序使计算机执行以下处理访问用于存储解决方案数据的解决方案数据存储装置,其中解决方案数据由一个组构成,该组包括由文章段及其摘要构成的一个问题、以及由来自解决方案存储器的摘要的评估构成的一个解决方案;从解决方案数据存储装置获得解决方案数据;存储解决方案数据,该解决方案数据由一个组构成,该组包括由文章段及其摘要构成的一个问题、以及由摘要的评估构成的一个解决方案。从解决方案数据的问题中抽取特征并建立解决方案和特征的集合的组;用有监督的机器学习方法,从解决方案和特征的集合的组中学习在哪种特征时哪种解决方案是最容易的,并存储该学习的结果;从输入的文本抽取特征的集合;和根据学习的结果,推断在从特征抽取处理中获得的特征而抽取了的集合的情况下,哪种解决方案是最容易得到成功的。
6.按照权利要求5的计算机可读的记录媒体,其中,解决方案由两个类别组成机器处理的摘要、及人制作的摘要。
全文摘要
按照本发明的装置在解决方案数据存储单元中存储由文章段、文章段的摘要和对摘要的评估构成的例子。从所存储的例子中抽取解决方案和特征的集合的组,并用机器学习技术学习在哪种情况下哪种解决方案是最直截了当的,学习的结果被存储在学习结果数据存储单元中。然后,从输入的摘要中抽取特征的集,推断就所抽取的特征集合而言哪种解决方案是容易得到成功的,并将其作为评估输出。
文档编号G06F17/30GK1435774SQ0310217
公开日2003年8月13日 申请日期2003年1月30日 优先权日2002年1月31日
发明者村田真树 申请人:独立行政法人通讯综合研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1