注解辅助装置及用于其的计算机程序的制作方法

文档序号:11288586阅读:218来源:国知局
注解辅助装置及用于其的计算机程序的制造方法

本发明涉及自然语言处理技术,尤其是涉及用于对文本有效地进行针对自然语言的语句中频繁出现的省略、代词等指示语的照应关系的注解的注解辅助装置。



背景技术:

在自然语言的文本中,频繁出现省略以及指示语。例如考虑图1所示的例句30。例句30包括第一句和第二句。在第二句中包含「其」这一指示语(代词)42。在该情况下,「其」这一指示语指代第一句的「农历新年的日期」这一表现40。将如此确定指示语所指代的词语的处理称为「照应解析」。另一方面,考虑图2的例句60。该例句60包括第一句和第二句。在第二句中,省略了「搭载自诊断功能」这一谓语部分的主语,在该主语的省略位置76,省略了第一句的「新型交换机」这一单词72。同样地,省略了「预定设置200系统。」这一谓语部分的主语。在该主语的省略位置74,省略了第一句的「n公司」这一单词70。将如此检测主语等的省略并且对其进行补足的处理称为「省略解析」。以后,将照应解析和省略解析一起称为「照应/省略解析」。

在所谓的人工智能中,为了取得与人的交流,自然语言处理是不可缺少的技术。作为自然语言处理的重要的问题,存在自动翻译以及问题解答等。照应/省略解析的技术,在这种自动翻译以及问题解答中是必不可少的技术。但是,现状的照应/省略解析的技术水平,虽然也根据语言而不同,但是还未达到实用级别。

如此,照应/省略解析的性能不能提高的理由,可以考虑各种理由。作为主要的理由,可以列举在这种解析中需要一般常识。为了考虑一般常识,需要考虑与照应/解析相关的人的判断。但是,考虑了这样的要素的解析算法比较困难。归根到底,需要准备大量人的判断作为学习数据,生成通过统计学习来进行照应/省略解析的解析器。但是,已知用于生成这样的解析器构筑用的学习数据的成本是非常大的。因此,由于不能生成足够量的学习数据,所以难以实现照应/省略解析的性能的提高。

为了提高自然语言处理的性能,进而使人工智能更智能,需要解决与照应/省略解析相关的这样的问题。

作为生成照应/省略解析器的学习数据的技术,存在后述的非专利文献1所记载的技术。在该技术中,如以下那样进行学习数据的生成。即,进行如下作业:人从开头开始阅读文本,人工检测代词以及省略等。作为机械的支援,例如是预先列举照应关系的指代目标的表现的程度。

另一方面,在后述的非专利文献2中,公开了自动地按一定的步骤进行照应/省略解析的照应/省略解析算法。该文献所公开的技术,利用词素解析、语法/依存解析(以下简称为「依存解析」)等所输出的信息、和词典等外部资源工具。这里所利用的词典,是汇集了如下特性的词典,即,例如「吃」这一动词的宾语中包括相当于「食物」的表现。在非专利文献2所公开的技术中,除此之外,还参考从文本中得到的信息来进行代词的指代目标以及省略的补足。

在先技术文献

非专利文献

非专利文献1:饭田龙、小町守、井之上直也、乾健太郎、松本裕治、谓语构造和照应关系的注解:naist从文本语料库构筑的经验到自然语言处理(述語構造と照応関係のアノテ一シヨン:naistテキストコ一パス構築の経験から、自然言語処理),vol.17,no.2,pp.25-50,2010.

非专利文献2:ryuiida,massimopoesio.across-lingualllpsolutiontozeroanaphoraresolution.the49thannualmeetingoftheassociationforcomputationallinguistics:humanlanguagetechnologies(acl-hlt2011),pp.804-813.2011.



技术实现要素:

发明要解决的课题

但是,根据前述的非专利文献2,报告了如下数字:在日语的照应解析的情况下,再现率为44%、精度为42%,在主语的省略解析的情况下,再现率以及精度都是35%。在日常生活中所见的文档中,频繁使用省略以及代词等。为了进行准确的资源语言处理,必须准确地进行省略位置的检测、省略位置以及代词的指示目标的检测。为此,需要得到精度较高的照应/省略解析器。但是,如前所述,为了进行那样的照应/省略解析器的学习,存在如下问题:生成学习数据花费工夫,成本太高。学习数据,通过对文本进行针对语句中出现的省略、代词等指示语的照应关系的注解来生成。当然,因为必须提高注解的精度本身,所以必须使学习数据反映人的判断。即,设注解本身由人来进行,在解决上述课题方面,期望得到能够高效地进行那样的人的注解作业那样的系统。

因此,本发明的目的在于提供一种注解辅助装置,人能够容易地构筑对文本的注解数据,由此降低成本。

用于解决课题的手段

本发明的第1方面所涉及的注解辅助装置,对用于自然语言的文本的照应/省略解析的注解数据的生成进行辅助。该注解辅助装置包括:输入输出单元,其包括显示装置和输入装置,通过与用户的对话型处理来受理用户输入;读出单元,其从成为注解对象的文本档案中读出文本数据;解析单元,其进行读出单元读出的文本数据的词素解析以及依存解析,输出附加了表示依存构造的信息的词素串;谓语检索单元,其检索解析单元输出的词素串中的谓语;对象确定单元,其用于检测在谓语检索单元检索出的各个谓语参与的依存关系中针对该谓语省略了应处于规定关系的单词的情况或者成为指示语的情况,并作为注解处理的对象,确定该单词的位置;候补推定单元,其针对对象确定单元所确定的各个单词的位置,使用该位置与周围词素串的关系以及预先准备的语言知识,来推定应插入到该位置的表现的候补;候补存储单元,其将由候补推定单元推定出的候补与单词的位置建立关联地进行存储;候补显示单元,其针对注解处理的各个对象,从候补存储单元读出候补推定单元推定出的候补,在显示装置显示为用户能够选择任一个;和对话式选择单元,其响应对由候补显示单元所显示的任一个候补进行选择的用户的指示,将所选择的候补作为注解而附加到位置。

优选为,候补推定单元包括:疑问句生成单元,其针对对象确定单元所确定的各个单词的位置,使用该位置的周围的单词串来生成用于询问应加入到该单词的位置的单词的句子;疑问句输入单元,其将疑问句生成单元所生成的疑问句作为输入提供给预先准备的问题解答系统;和根据针对从疑问句输入单元提供的疑问句而从问题解答系统获得的回答,使应插入到单词的位置的单词的候补与该单词的位置建立关联地存储到候补存储单元中的单元。

更优选为,候补推定单元还包括:语言知识存储单元,其存储多个语言知识规则;匹配表现提取单元,其针对对象确定单元所确定的各个单词的位置,确定与语言知识存储单元中所存储的任一语言知识匹配、并且包括该单词的位置和确定该单词的位置时使用的谓语的表现;和通过对由匹配表现提取单元所提取出的表现和该表现匹配的语言知识规则进行比对,从而将表现中的应插入到对象确定单元所确定的单词的位置的表现作为应插入到该单词的位置的字符串的候补而存储到候补存储单元中的单元。

进而优选为,候补推定单元还包括:注解检索单元,其在预先准备的既存的已注解文本数据库中包含的文本中,检索附加了与省略或者照应关系相关的注解的位置;和针对由注解检索单元所检索出的各个位置,依据按照各注解而预先决定的方式使句子变形,将该变形位置作为对所检索出的位置的注解的候补而存储到候补存储单元中的单元。

候补推定单元进而还可以包括:将解析单元输出的解析后的词素串提供为对其他既存的照应/省略解析器的单元的输入的单元;和接收既存的照应/省略解析器的照应/省略解析结果,并使该照应/省略解析结果存储到候补存储单元中的单元。

本发明的第2方面所涉及的计算机程序使计算机作为对用于自然语言句子的照应/省略解析的注解数据的生成进行辅助的注解辅助装置来进行动作。该计算机程序使计算机作为以下单元发挥功能:输入输出单元,其通过使用了该计算机的显示装置和输入装置的与用户的对话型处理来受理用户输入;读出单元,其从成为注解对象的文本档案中读出文本数据;解析单元,其进行读出单元读出的文本数据的词素解析以及依存解析,输出附加了表示依存构造的信息的词素串;谓语检索单元,其检索解析单元输出的词素串中的谓语;对象确定单元,其用于检测在谓语检索单元检索出的各个谓语参与的依存关系中针对该谓语省略了应处于规定关系的单词的情况或者成为指示语的情况,并作为注解处理的对象,确定该单词的位置;候补推定单元,其针对对象确定单元所确定的各个单词的位置,使用该位置与周围词素串的关系以及预先准备的语言知识,来推定应插入到该位置的表现的候补;候补存储单元,其将由候补推定单元推定出的候补与单词的位置建立关联地进行存储;候补显示单元,其针对注解处理的各个对象,从候补存储单元读出候补推定单元推定出的候补,在显示装置显示为用户能够选择任一个;和对话式选择单元,其响应对由候补显示单元显示的任一个候补进行选择的用户的指示,将所选择的候补作为注解而附加到位置。

附图说明

图1是用于说明照应解析的示意图。

图2是用于说明省略解析的示意图。

图3是用于说明省略解析的过程的示意图。

图4是包括本发明的一实施方式所涉及的学习数据生成辅助装置的照应/省略解析用的系统的整体框图。

图5是用于说明构成语言知识的规则的概略构成的图。

图6是说明问题类型db的概略构成的示意图。

图7是示出利用了问题解答系统的注解方法的概略的示意图。

图8是学习数据生成辅助装置的框图。

图9是生成注解候补的第1候补生成部的框图。

图10是生成注解候补的第2候补生成部的框图。

图11是说明利用了语言知识的注解候补的生成过程的图。

图12是说明利用了语言知识的注解候补的生成过程的图。

图13是说明利用了语言知识的注解候补的生成过程的图。

图14是说明利用了语言知识的注解候补的生成过程的图。

图15是生成注解候补的第3候补生成部的框图。

图16是生成注解候补的第4候补生成部的框图。

图17是用于通过与用户的对话来执行向文本的注解从而生成学习数据的程序的状态转移图。

图18是检测器学习装置222的详细功能模块图。

图19是示出执行用于生成学习数据的程序的计算机的外观的图。

图20是图19中示出外观的计算机的硬件框图。

具体实施方式

在以下的说明以及附图中,对同一部件标注同一参考编号。因此,不反复对它们的详细说明。

[概略]

参考图3来说明本发明的第1实施方式所涉及的学习数据生成辅助装置中对文本附加注解(annotation)的作业的概略。参考图3的上段,在显示装置的画面显示注解对象的文本90。该文本90包括两句。第一句中包括「导入」这一谓语部分、作为谓语部分的主语的「n公司」这一单词100、和作为谓语部分的宾语的「新型交换机」这一单词110。第二句实质上包括两个分句。在前半句的开头,存在省略了「搭载自诊断功能」的主语的位置(省略位置)114。在前半句与后半句的中间位置,存在省略了「预定设置200系统。」的主语的省略位置104。

在照应/省略解析中,如矩形102以及矩形112内所记载的那样,首先发现省略位置104或者114。之后,寻找并决定要对该省略位置进行补足的表现。在省略位置104的情况下,单词100成为要补足的表现。在省略位置114的情况下,单词110成为要补足的表现。

以往,这样的省略位置的发现、和补足表现的寻找以及决定都由人来进行。但是,那样的作业效率低,成为了推高学习数据的生成成本的主要原因。在本实施方式中,由计算机程序自动地进行上述的省略位置的发现、和补足表现的候补的发现。在这样的处理中,如后所述,使用各种方法。尤其,通过有效地利用语言知识,从而与人进行的作业同样,有效地进行省略位置的发现和补足表现的候补的寻找。

若省略位置的发现和补足表现的候补的发现结束,则对各省略位置,进行图3的下段所示那样的处理。在该示例中,假定对于图3的上段所示的省略位置114对应的补足表现,发现「新型交换机」这一单词110,在省略位置104发现了包含单词100的多个单词。在该情况下,学习数据生成辅助装置在省略位置114插入包括与单词110相同的「新型交换机」这一单词和主格的格助词的字符串130,进而在其右侧显示表示存在所谓的下拉列表的图标。若用户点击该图标则显示下拉列表132。在下拉列表132中,显示询问附加所显示的候补作为对该省略位置114的注解是否合适的两个选项(“是”、“否”)和人手动输入的选项(「手动输入」)。若使用者选择“是”,则在该省略位置114附加字符串130作为注解。若选择“否”,则在该省略位置114不附加注解。若选择「手动输入」,则打开未图示的输入对话框,能够直接输入注解。

在省略位置104的情况下,显示候补之一,例如包括与单词100相同的单词和格助词「是」的字符串134,在右侧显示表示下拉列表的图标。若用户点击该图标,则显示包括多个候补的列表和「直接输入」作为选项的下拉列表。若用户选择任一候补,则附加该候补的单词作为对省略位置104的注解。对于选择了直接输入时,与省略位置114相同。

[照应/解析系统的整体构成]

首先,参考图4来说明使用本实施方式所涉及的学习数据生成辅助装置的照应/省略解析系统150的整体构成。

该照应/省略解析系统150包括:注解数据生成辅助系统160,其辅助通过对预先准备的大量文本进行省略位置以及照应词的检测,并将它们所指代的表现(先行词)的候补提示给用户并以简单的操作使其选择,从而生成用户在照应/省略解析所需要的模型的学习数据(注解数据);学习数据db162,其存储使用注解数据生成辅助系统160由用户生成的学习数据;和学习系统164,其用于使用学习数据db162中存储的学习数据,进行后述的省略检测器166、照应词检测器168以及先行词确定器170的学习。省略检测器166将文本中的任意谓语作为对象进行省略检测。省略检测器166包括用于检测文本中的主语、宾语等被省略的省略位置的统计模型。照应词检测器168包括将文本中的任意名词句(照应词候补)作为分类对象,用于检测用于指示其他单词等的照应词的统计模型。先行词确定器170包括:将文本中的带有省略的谓语和作为先行词候补的名词句作为分类对象,用于确定省略所指的目标(先行词)的检测器;和将文本中的名词句的对(照应词和先行词候补)作为分类对象,用于确定照应词所指的先行词的检测器。这些检测器分别具有单独的统计模型。在本实施方式中,省略检测器166、照应词检测器168以及先行词确定器170都使用svm(supportvectormachine,支持向量机)作为统计模型。

照应/省略解析系统150还包括照应/省略解析装置172,照应/省略解析装置172使用省略检测器166、照应词检测器168以及先行词确定器170,检测输入文本中的省略位置以及照应词,并附加用于确定它们所指的先行词的信息而输出。

<注解数据生成辅助系统160>

注解数据生成辅助系统160包括:输入输出装置202,其使用显示装置和键盘以及鼠标等在与用户之间进行对话式的输入输出;和学习数据生成辅助装置204,其通过使用包括语言知识在内的各种资源,辅助用户对文本档案192中所存储的大量文本的注解附加作业,从而生成学习数据并输出到学习数据db162。

学习数据生成辅助装置204使用的资源包括:既存小规模学习数据db190,其存储了与学习数据db162相同的学习数据;语言知识db194,其以规则的形式存储了能够对文本档案192中所存储的文本进行应用的形式的语言知识;改述(paraphrase)/类别词典196,其存储了用于在学习数据生成辅助装置204对文本应用语言知识db194中所存储的语言知识时,将规则中的表现改用其他表现、或者将规则中的单词替换为其他单词而使用的改述规则以及类别;和模式词典198,其用于存储预先准备的模式,使得在文本具有特定模式时,能够确定该模式所附带的省略位置。

注解数据生成辅助系统160还包括:问题解答系统206,其在学习数据生成辅助装置204在文本中发现了省略位置时,查询该省略位置指示的单词的候补;问题类型db200,其在学习数据生成辅助装置204基于文本生成针对问题解答系统206的问题时进行参考;和既存照应/省略解析器208,其用于对文本进行照应/省略解析,在学习数据生成辅助装置204执行的照应/省略解析时,对学习数据生成辅助装置204提示省略位置、照应词、先行词等的候补。

既存小规模学习数据db190的结构,只要是能够确定文本中的省略位置、照应词以及先行词的格式,则可以是任意形式。

文本档案192中所存储的文本,在本实施方式中是单纯的文本,以未进行词素解析、构造/依存解析为前提。但是,本发明不限定于这样的实施方式。也可以使用由其他系统进行词素解析或者构造/依存解析或者这两者并附加了这样的信息的文本。

<语言知识db194>

参考图5,语言知识db194中所存储的语言知识的规则大致分为4种。即,因果关系知识290、含意关系知识292、事态发生顺序关系知识294以及事态发生无效化关系知识296。各知识也可以包含发挥通配符式的作用的、能够置换为任意名词句等的变量(以下,由「x」、「y」等来表示)。

因果关系知识290是例如「x吸烟」这一相当于原因的表现和「x提高肺癌的可能性」这一相当于结果的表现的定序对。这里,设为相当于原因的表现在先,相当于结果的表现在后。

含意关系知识292例如用如下两个表现的定序对表示如下情况:通过「x是y的作者」这一表现,隐含表示了「x写了y」这一表现。这里,进行隐含表示的表现在先,被隐含表示的表现在后。

事态发生顺序关系知识294例如用如下两个表现的定序对表示如下现象的常规的顺序关系:若产生「x发现y」这一现象,则可能产生「x发表y」这一现象。这里,按照现象的顺序关系来配置表现。

事态发生无效化关系知识296是处于通过发生了某现象从而无效化其他某现象的发生这样的关系的表现的定序对,例如若发生「禁止x」这一现象,则发生「不能公开x」这一现象。这里,设为发生的现象在先,由该现象而无效化发生的现象在后。

如后所述,这些知识能够单独对文本进行应用,但不仅如此,例如在两个知识中一个知识的后半的表现与另一个知识的前半的表现一致那样的情况下,能够使知识相联系来应用。另外,这里所说的「一致」也包括例如同义语的改述、含意等。

<问题类型db200>

参考图6,在学习数据生成辅助装置204利用问题解答系统206取得先行词的候补时,利用问题类型db200。问题类型db200具有多个条目。各条目例如包括针对某动词在某表现内的该动词的依存关系中被省略的部分的语法作用、和表示当求取要插入到省略部分的表现时可以用怎样的形式生成疑问句的信息(问题类型)。例如对于「吃」这一动词,在某表现内省略了其主语的情况下,若将「谁」配置在句子开头来生成句子,则作为回答能够从问题解答系统得到要成为「吃」的主语的表现。

<问题解答系统206>

参考图7,来说明利用问题解答系统206来获得省略位置指代的表现的候补的过程。首先,设输入文本320包括两句。设第一句是「晚饭喝红酒吧」这一句,第二句是「防止心脏病」。在第二句的开头,省略了「防止」这一动词332的主语,设在该省略位置334附加了表示省略的标签。这里,在该省略位置应该插入「红酒」这一单词330。

这里,为了利用问题解答系统从该文本获得要插入到省略位置334的表现的候补,需要生成适当的疑问句并提供为对问题解答系统206的输入。这里,需要知道输入文本320的省略位置的句子中「防止」的主语。虽然未图示,但设为在改述/类别词典196中存储了如下信息:「预防」和「防止」可以改述。于是,在图6所示的问题类型db200中,能找到动词为「预防」、语法作用为「主语」的条目。在其「问题类型」的栏中存储了「什么」。学习数据生成辅助装置204根据这些信息生成「什么防止心脏病」这一疑问句336。在疑问句的生成中,句末按照适合疑问句且预先准备的规则进行变换。也可以将句末的变换规则预先存储到问题类型db200的各条目中。

参考图7,问题解答系统206若接收到该疑问句336,则从系统内的数据库内,检索并取出适合作为对疑问句336的回答的单词候补群342。问题解答系统206进而将如此获得的单词候补群342分类别使各类别344、346以及348包含一个或多个回答候补地发送给学习数据生成辅助装置204。这里,设类别344包括「红酒」、「酒」、「啤酒」。其他类别346以及348也同样。学习数据生成辅助装置204例如选择如此获得的单词的候补中的与在输入文本320内处于省略位置334之前的位置的单词一致的表现(在该示例中是「红酒」这一单词330),将省略位置334和作为其指代目标的候补的单词330设为注解350的对象。以上是使用了问题解答系统206的注解附加作业的概略。

<既存照应/省略解析器208>

参考图8,既存照应/省略解析器208是原有的进行照应/省略解析的单元。这里,既存照应/省略解析器208用于提示省略位置的候补、照应词的候补、以及省略位置以及照应词的先行词的候补。最终,人从这些候补中选择正确的候补。因此,这里使用的既存照应/省略解析器208的精度可以不必很高。

<学习数据生成辅助装置204>

参考图8,学习数据生成辅助装置204包括:词素解析系统380,其对文本档案192中包含的各文本进行词素解析,输出附加了各种语法信息的词素串;依存关系解析系统382,其对词素解析系统380输出的词素串,进行句子的构造以及依存解析,输出附加了构造/依存信息的词素串;和解析后文本db384,其将依存关系解析系统382输出的词素串与它们的语法信息以及构造/依存关系一起进行存储。这里,依存关系解析系统382设为至少对各词素串附加表示哪个单词与哪个单词有关的依存信息。另外,在图8中,为了使附图简化而没有进行图示,但在本实施方式中,学习数据生成辅助装置204内的各要素,根据经由输入输出装置202的用户的指示进行动作。

学习数据生成辅助装置204还包括:第1候补生成部388,其在解析后文本db384中所存储的解析后文本中,检测省略位置,使用问题类型db200以及问题解答系统206来生成指代各省略位置的先行词的注解候补群;第2候补生成部390,其在解析后文本db384中所存储的解析后文本中,与第1候补生成部388同样地检测省略位置,针对各省略位置使用语言知识db194、改述/类别词典196以及模式词典198来生成与省略位置相关的注解候补群;第3候补生成部392,其针对既存小规模学习数据db190中所存储的学习数据,变更其中存在的照应关系、省略关系的一部分来生成新的学习数据,根据该学习数据生成新的注解候补;和第4候补生成部394,其使用既存照应/省略解析器208,进行对解析后文本db384中所存储的文本的照应/省略解析,将该结果生成为注解候补。

学习数据生成辅助装置204还包括:候补db386,其将第1候补生成部388、第2候补生成部390、第3候补生成部392以及第4候补生成部394输出的注解候补群与要附加各注解的省略位置、照应词等建立关联地进行存储;和对话型注解装置396,其针对解析后文本db384中所存储的各文本的省略位置以及照应词的每一个,参考候补db386以能够选择候补的形式显示于输入输出装置202的显示装置,受理来自用户的选择输入从而作为学习数据输出到学习数据db162。

再次参考图4,学习系统164包括:分别与注解数据生成辅助系统160使用的问题类型db200以及学习数据生成辅助装置204相同的问题类型db220以及问题解答系统226;记述了如后所述在先行词确定器170的学习时对所选择的先行词施加的制约的选择限制db224;存储了具有与注解数据生成辅助系统160使用的语言知识db194相同的构成的语言知识的语言知识db228;以及使用学习数据db162中所存储的学习数据、问题类型db220、问题解答系统226、语言知识db228以及选择限制db224,来执行省略检测器166、照应词检测器168以及先行词确定器170的学习处理的检测器学习装置222。

<第1候补生成部388>

参考图9,第1候补生成部388包括:谓语检索部420,其检索在解析后文本db384中所存储的各文本数据中的谓语;谓语列表存储部422,其将谓语检索部420输出的各谓语的列表与各谓语的出现位置一起进行存储;省略候补检测部424,其检测谓语列表存储部422所存储的各谓语中该谓语参与的依存关系中进行省略的位置,作为省略候补进行输出;疑问句自动生成部426,其对省略候补检测部424所输出的各个省略候补,参考问题类型db200来生成求取对该省略位置进行补足的单词作为回答的疑问句,并且作为疑问句提供给问题解答系统206;回答接收部428,其从疑问句自动生成部426接收疑问句,从问题解答系统206接收对该疑问句的回答候补群,将疑问句及其回答候补群进行组合来输出;出现位置确认部430,其接收回答接收部428输出的疑问句和回答候补群的对,选择回答候补群中包含的候补当中确认解析后文本db384中所存储的解析后文本文内的出现位置而出现在比成为问题对象的省略位置靠前的位置的全部候补,作为省略位置的指代目标候补进行输出;和候补追加部432,其将从出现位置确认部430输出的省略位置和补足该省略位置的候补群作为一组,作为注解候补追加到候补db386中。

<第2候补生成部390>

参考图10,第2候补生成部390包括:分别与图9所示的谓语检索部420、谓语列表存储部422以及省略候补检测部424相同的谓语检索部450、谓语列表存储部452以及省略候补检测部454;对象谓语检索部456,其检索由省略候补检测部454检测到的省略候补中在文本内具有该省略候补的谓语之前出现的其他谓语,将检索到的各谓语和具有该省略候补的谓语作为一对来进行输出;语言知识检索部458,其针对对象谓语检索部456输出的各谓语对,判断构成那些对的谓语、或者以参考改述/类别词典196而获得的等效的表现对其进行改述得到的谓语分别出现在第一句和第二句这样的语言知识是否存在于语言知识db194内、或者那样表现的模式是否存在于模式词典198中,若存在,则输出该语言知识或者模式;和匹配语言知识存储部460,其临时存储语言知识检索部458输出的语言知识或者模式;和候补追加部462,其使用匹配语言知识存储部460中所存储的语言知识或者模式,并使用包含对象谓语检索部456输出的谓语对的各谓语的表现,来推定这些表现中包含的省略位置的指代目标,将省略位置和指代目标作为一组,作为注解候补存储到候补db386。

候补追加部462进行的省略位置的指代目标的推定,按照以下方式进行。参考图11,假定对于文本482中出现的某谓语对(字符串494的「导入」、字符串500的「设置」),语言知识检索部458检索到语言知识480。文本482与图2所示的例句60相同。语言知识480包括第一句「x导入y」和第二句「x设置y」。在文本482内,相当于第一句的变量x的表现是「n公司」这一字符串490。相当于第一句的「y」的表现是文本482内的「新型交换机」这一字符串492。而且,语言知识480的第一句的「导入」这一表现,与文本482内的「导入」这一字符串494一致。根据该关系可知,变量x所指的候补是字符串490中的「n公司」这一单词,变量y所指的候补是字符串492中的「新型交换机」这一单词。

另一方面,作为与语言知识480的第二句的「设置」这一表现匹配的表现在文本482中出现的是「设置200系统」中的「设置」这一字符串500。在该表现的开头,附加了表示省略位置496的标签。通过对该句(「(<主语>)设置200系统」)这一句和语言知识480的第二句进行比较可知,y相当于「系统」,x被省略。若利用由语言知识480的第一句获得的知识,则文本482的省略位置496指代语言知识480的x,因此可知「n公司」这一字符串490是「设置」的主语。进而,文本482的第二句的「系统」相当于语言知识480的变量y,因此可知,文本482的「新型交换机」这一字符串492对应于文本482的「系统」这一字符串498。如此,通过对语言知识480和文本进行比较从而求出省略位置496的指代目标的候补。

对于使用了语言知识的另一例,参考图12来进行说明。在该示例中,示出如下处理:通过依次结合两个以上的规则,从而获得针对三个以上的句子的连续的因果关系,通过使用该关系,从而确定与文本中出现的三个以上的谓语关联而检测到的两处以上的省略位置的指代目标候补。

如图12所示,假定存在「沙漠化进展→黄沙增加」这一知识作为第1语言知识520,存在「黄砂增加→哮喘恶化」这一知识作为第2语言知识522。第1语言知识520的第二句与第2语言知识522的第一句一致。因此,通过使这两个知识联系,从而能获得「沙漠化发展→黄沙增加→哮喘恶化」这一第3知识524。对该第3知识524和例如图12所示的文本526尤其关注谓语的出现顺序来进行比较。这里,假定针对文本526进行了省略位置的推定,附加了表示省略位置542、省略位置548等的标签。另外,在文本526中,「(φ1)」表示第1省略位置,「(φ2)」表示第2省略位置,以下相同。于是,在文本526中,以与第3知识524的三个谓语部分相同的顺序出现了「沙漠化得到发展」这一表现540、「(φ1)增加」这一表现544以及「(φ2)恶化」这一表现546。这些表现的谓语部分,与第3知识524的谓语相同或者是其活用形。因此,通过比较第3知识524和文本526中上述谓语出现的位置可知,φ1指代黄沙,φ2指代哮喘。

通过这种比较,从而有效地利用连结两个以上的知识而得到的知识,由此能够高效地寻找省略位置的指代目标。另外,至于将知识连结到哪种程度,与设计事项相关。若知识变长则以一个知识能够寻找的省略位置的指代目标数的最大值变大,但是能够应用规则的文本变少。在本实施方式中,设想了两个知识为止的连结。但是,本发明不限定于这样的实施方式。也可以连结更多的知识而用于省略位置的指代目标的寻找。或者,也可以根据句子种类来改变连结数的最大值,或者使用户指定知识的连结数的最大值。

参考图13,说明通过运用知识的谓语的改述,从而用一个知识进行更多的指代目标的寻找的示例。假定作为知识,存在「x产生→销售x」这一事态发生顺序关系语言知识570。另一方面,假定在改述/类别词典196中存储有将「销售」改述为「出售」这样的改述规则574。作为处理对象的文本,考虑「威士忌‘w’在北海道产生,a公司销售了(φ)」这一文本572。处理对象的文本包含用(φ)表示的省略位置582。对文本572的前半部分与事态发生顺序关系语言知识570的第一句进行比较可知,变量x指代文本572中的「威士忌‘w’」这一单词580。另一方面,文本572的谓语「销售」的宾语成为x。根据该结果和文本572的后半部的谓语是「销售了」这一表现584,可知文本572中用「φ」示出的省略位置582相当于「威士忌‘w’」这一单词580。因此,首先获得这种注解完成的文本572。进而,针对如此获得的文本572,通过应用了改述规则574的改述576,从而将「销售了」置换为「出售了」这一表现586,通过原样保留注解,从而获得注解完成的新的注解完成文本578。

参考图14,进而对使用经验性地获得的句子的模式来确定省略位置或者照应词的指代源以及/或者指代目标的处理进行说明。例如,在出现「x进行~,进行~」这样的模式的情况下,经验性地知道「<谓语>进行」的主语和「<谓语>进行」的主语都是x这样的示例较多。将这样的知识作为语法模式而预先存储在模式词典198中。在模式中,也可以插入确定相当于省略位置的部分的信息和表示其指代目标的信息。然后,在处理对象的文本中出现了与模式词典198中所存储的模式匹配的表现的情况下,通过将该表现与模式进行比较,从而能够确定输入位置内的省略位置(指代源)和该省略位置的指代目标的候补。

例如,如图14所示,假定模式612存储在模式词典198中。该模式612记述了如下内容:在依次出现了「x」这一表现650、「进行……」这一表现652以及「进行……」这一表现654的情况下,在表现654的开头附加表示省略了表现654的主语的位置的标签656、该标签656的指代目标是x。

假定作为输入而提供了文本610。在文本610中,依次出现「台风20号」这一表现630、「在……北上」这一表现632以及「接近」这一表现634。通过将该文本610与模式612进行比对614,从而判明x相当于台风20号、「接近」的主语省略并且其指代目标是台风20号。因此,将表示「接近」跟前的省略位置的标签636和作为其指代目标的「台风20号」设为一对来作为注解候补。如此,通过将根据人的经验而导出的模式适当应用于照应/省略解析,从而能够实现有效地利用了人具有的知识的照应/省略解析。

<第3候补生成部392>

参考图15,第3候补生成部392包括:照应/省略关系检索部680,其从既存小规模学习数据db190中检索注解完成的照应关系以及省略关系,并且对两者进行区分来输出;指代源省略句生成部682,其针对构成照应/省略关系检索部680输出的照应关系的各个名词句对,生成自动省略了该名词句内的指代源(在文本内位于后方的单词)的新的句子从而生成新的文本;注解追加部684,其在指代源省略句生成部682所生成的句子中省略的位置和与所省略的位置一起注解了照应关系的名词句之间附加新的省略关系的注解候补;省略要素恢复部688,其针对包含照应/省略关系检索部680输出的省略关系的文本部分中的省略位置,基于注解而在省略位置恢复该指代目标的要素作为代词从而生成新的句子;注解追加部690,其在由省略要素恢复部688生成的新的句子中追加包含由省略要素恢复部688恢复的代词的指代源和其指代目标的注解候补;和候补追加部686,其将由注解追加部684以及注解追加部690所生成的新的句子与其注解候补一起追加到候补db386中。

在由第3候补生成部392省略了指代源的情况下,省略通过机器按照某基准自动地进行。因此,对于省略语的表现,也会产生人不能判断该省略部分的指代目标是什么的情况。在这种情况下,将该注解作为反例追加到学习数据中。

另外,在解析后文本db384中不存在照应/省略关系检索部680以及省略要素恢复部688输出的文本的情况下,候补追加部686将这些文本追加到解析后文本db384中,并且将注解候补与追加到解析后文本db384中的文本建立关联地追加到候补db386中。

<第4候补生成部394>

参考图16,第4候补生成部394包括:照应/省略解析执行部710,其对存储于解析后文本db384的解析后文本,应用既存照应/省略解析器208,从而获得照应/省略解析的执行结果,并作为注解追加到解析后文本中;解析结果存储部712,其存储附加了照应/省略解析执行部710输出的照应/省略解析结果的注解的文本;和候补追加部714,其将存储于解析结果存储部712的解析结果中所包含的注解作为对在解析后文本db384中成为解析对象的文本的注解候补而追加到候补db386中。

<对话型注解装置396>

图8所示的对话型注解装置396通过进行图17所示那样的状态转移的程序来实现。参考图17,该程序在程序执行开始时以及文档关闭时等执行初始处理,从显示了初始画面的状态(初始状态)740开始。在该状态下,能够选择从文本档案选择处理对象文档的处理和结束程序的执行的处理中的任一个。若选择了文档选择则程序状态转移到文档选择状态742。在文档选择状态742下,显示文档文件的选择对话框。这里,能够选择文档文件的选择和处理的取消。若选择处理的取消,则状态返回到初始状态740。若在文档选择状态742下选择文档,则程序转移到显示文档内容的状态(文档显示状态)744。在文档显示状态744下,能够选择如下处理中的任一个:取消文档显示,不反映更新而再次返回到文档选择状态742的处理;反映更新而关闭文档的处理;和为了生成照应/省略解析的学习数据,指示注解候补的选择的处理。若指示注解候补的选择,则从文档的当前正在处理的位置朝向文档的末尾方向,经由检索注解候补的状态(候补检索状态)746之后,转移到显示注解候补来等待用户的注解候补选择的状态(候补选择待机状态)748。

在候补检索状态746下,检索附加了注解候补的下一个位置,若在检索到的位置所附加的注解候补仅有一个,则生成图3的下段所示那样的指定是否同意注解候补的下拉列表,在对象位置显示用于下拉列表显示的图标。在存在多个注解候补的情况下,生成将它们全部进行显示的下拉列表,在对象位置显示用于下拉列表显示的图标。另外,在下拉列表的显示时,若用户使指针指向列表的任一项,则用相同的颜色突出显示该候补和与该候补对应的文档上的表现。通过这种处理,用户能够容易地理解指代源和指代目标的对应。在该状态下,能够选择如下处理中的任一个:中断注解选择处理而使状态转移到文档显示状态744的处理;和使之前进行的注解的选择反映到文档后保存文档,并关闭文档文件的处理。

若通过下拉列表的操作从而选择候补的任一项,则程序转移到注解附加状态750。在注解附加状态750下,按照选择在文档内的指定位置附加所选择的注解,更新存储器上的文档,使得对其他候补附加表示未被选择的信息。程序再次转移到候补检索状态746,若发现下一候补则转移到候补选择待机状态748。

若在候补选择待机状态748下显示着文档而选择中断注解处理,则程序转移到文档显示状态744。在选择了反映对文档进行的注解处理并保存当前的文档的情况下,程序转移到文档关闭状态752。在文档关闭状态752下,程序能够选择如下处理中的任一个:将加载在存储器中的更新完成的文档数据改写保存为文档文件,关闭正在打开的文档文件的处理;和不保存文档而转移到文档选择状态742的处理。若选择不保存文档,则状态直接转移到文档选择状态742。若选择保存文档,则转移到将存储器上的文件作为文档文件而改写保存到存储介质的状态(改写保存状态)754,若保存结束则转移到文档选择状态742。

通过执行该程序,会在装置侧自动地检索省略位置、照应词,每当检索到任一个,就显示附加到该位置的注解候补。若注解候补是一个,则用户输入是否同意该注解候补即可。根据情况,也可以手动输入注解候补。总之,与用户通过目视来寻找删除位置或者照应词,进而通过目视来寻找其指代目标的情况相比,可以非常容易地进行注解。

<检测器学习装置222>

再次参考图4,如前所述,检测器学习装置222根据学习数据db162中所存储的学习数据,使用选择限制db224、问题类型db220以及问题解答系统226来分别单独进行省略检测器166、照应词检测器168以及先行词确定器170的学习。对于先行词确定器170,还独立地进行省略位置的先行词用的确定器和照应词的先行词用的确定器的学习。

参考图18,为此,检测器学习装置222包括省略检测器学习部770、照应词检测器学习部772以及先行词确定器学习部774。

<省略检测器学习部770>

在本实施方式中,省略检测器166包括主语省略检测器800、宾语省略检测器802以及间接宾语省略检测器804。为了单独进行这三个检测器的学习,省略检测器学习部770包括:按格特征向量生成部780,其用于在学习数据db162中所存储的学习数据的各个省略位置是谓语的主语(ガ格:主格(subjects))、直接宾语(ヲ格:受格(directobjects))或者间接宾语(ニ格:与格(indirectobjects))时,对它们进行分类,从而生成用于分别进行主语省略检测器800、宾语省略检测器802以及间接宾语省略检测器804的学习的特征向量群782、784以及786;和svm学习处理部788,其用于使用这些特征向量群782、784以及786来分别进行构成主语省略检测器800、宾语省略检测器802以及间接宾语省略检测器804的svm的学习。

这里,所谓谓语(predicate),是指动词、形容词以及「形容动词」的形式的字符串。作为特征向量中包含的学习的标志(label),在谓语有省略的情况下使用1,其他的情况下使用0。

按格特征向量生成部780生成的特征向量包括以下那样的要素。

·关于省略检测对象的谓语,若检测对象的语法作用(例如,主语)处于依存关系,则1,否则0

·若成为主题的表现(用「は」标记的名词句)与谓语出现在同一句内则1,否则0

·若省略检测对象的谓语出现在对象文本的第1句中则1,否则0

·若省略检测对象的谓语是句子的开头的词则1,否则0

·与省略检测对象的谓语处于依存关系的词的词条、词性

<照应词检测器学习部772>

照应词检测器学习部772包括:照应词候补选择部830,其从存储于学习数据db162的学习数据中,选择附加了注解的单词作为照应关系的指代源(照应词),以便进行照应词检测器168的svm的学习;特征向量生成部832,其用于对由照应词候补选择部830所选择的各个照应词,生成后述那样的特征向量;和svm学习处理部834,其用于使用由特征向量生成部832生成的特征向量群,进行构成照应词检测器168的svm的学习。

在特征向量生成部832生成的特征向量中,若分类对象的名词句在文本的前方具有成为照应关系的指代目标则学习的标志为1,否则学习的标志为0。用于照应词检测学习的特征向量的要素包括以下要素。

·照应词候补的词性、词条字符串以及该候补后续的格助词

·照应词候补的关联目标的词性、词条、该关联目标后续的格助词

·文本中出现在照应词候补之前的位置的名词句作为字符串与照应词候补完全一致的情况下1,否则0

·文本中与照应词候补部分一致的情况下1,否则0

<先行词确定器学习部774>

先行词确定器170包括照应词用先行词确定器900和省略用先行词确定器902。因此,先行词确定器学习部774具有单独进行这两个确定器900以及902的学习的构成。

具体而言,先行词确定器学习部774包括进行照应词用先行词确定器900的学习的照应词用先行词确定器学习部840和进行省略用先行词确定器902的学习的省略用先行词确定器学习部842。

照应词用先行词确定器学习部840包括:照应词选择部850,其从存储于学习数据db162的学习数据中选择附加了注解的表现作为照应关系的指代源(照应词);先行词候补选择部852,其针对照应词选择部850选择的照应词,选择包括实际上注解为先行词的表现和其以外的有可能是先行词的表现的先行词候补;特征向量生成部854,其针对照应词选择部850选择的照应词和先行词候补选择部852选择的照应词候补的各个组合,生成用于进行照应词用先行词确定器900的学习的特征向量;和svm学习处理部856,其使用特征向量生成部854生成的特征向量来进行构成照应词用先行词确定器900的svm的学习。

另一方面,省略用先行词确定器学习部842包括:省略选择部870,其选择学习数据db162内的学习数据中注解为省略关系的表现(省略);先行词候补选择部872,其在学习数据中选择包括注解为省略选择部870选择的省略对应的先行词的表现且有可能成为先行词的候补;特征向量生成部874,其用于针对省略选择部870选择的省略部和先行词候补选择部872选择的先行词候补的各个组合,生成特征向量;和svm学习处理部876,其使用由特征向量生成部874生成的特征向量,进行构成省略用先行词确定器902的svm的学习。另外,如后所述,特征向量生成部874与选择限制db224、问题类型db220、问题解答系统226以及语言知识db228连接,在特征向量的生成时使用从它们获得的信息。

在特征向量生成部854以及特征向量生成部874生成的特征向量中,若分类对象的省略/先行词候补或者照应词/先行词候补的对为照应/省略关系,则学习的标志为1,否则学习的标志为0。

特征向量的要素如下。

·先行词候补的词性、词条字符串、该候补后续的格助词

·若先行词候补出现在文本的第1句则1,否则0

·若先行词候补是句中最初提及的先行词候补则1,否则0

·若先行词候补和照应词是完全相同的字符串则1,否则0

·若先行词候补和照应词是部分相同的字符串则1,否则0

·使用选择限制db224,带有省略的谓语与成为先行词的名词句之间满足选择限制的情况下1,否则0

·针对包含省略的句子中该省略的位置,使用问题类型db220生成该位置成为回答那样的疑问句并且提供给问题解答系统226而获得的任一回答与先行词候补一致则1,否则0

·若带有省略的谓语、先行词的关联目标的谓语与登记到检测器学习装置222中的因果关系知识中包含的谓语对匹配则1,否则0

<照应/省略解析装置172>

参考图4,照应/省略解析装置172包括:照应/省略解析器252,其与省略检测器166、照应词检测器168以及先行词确定器170连接,使用它们进行对输入250的照应/省略解析,并自动地将注解追加到输入250来作为输出254;和照应/省略解析器252进行照应/省略解析时的特征向量生成中使用的语言知识db256、问题类型db258、问题解答系统260以及选择限制db262。语言知识db256是存储了与照应/省略解析系统150使用的语言知识db194、学习系统164使用的语言知识db228相同的语言知识的数据库。问题类型db258具有与注解数据生成辅助系统160使用的问题类型db200以及学习系统164使用的问题类型db220相同的构成,其存储内容也相同。问题解答系统260是具有与注解数据生成辅助系统160使用的问题解答系统206以及学习系统164使用的问题解答系统226相同的功能的系统。选择限制db262是与学习系统164中的特征向量的生成时使用的选择限制db224相同的数据库。另外,这里记载为具有相同构成的db,既可以彼此是同一数据库,也可以彼此是不同的数据库。

[动作]

以上叙述了构成的照应/省略解析系统150如下进行动作。分为学习数据的生成、检测器的学习、以及对输入的自动注解这三个阶段进行说明。

<学习数据的生成>

学习数据的生成由注解数据生成辅助系统160进行。在该处理之前,需要预先准备既存小规模学习数据db190、文本档案192、语言知识db194、改述/类别词典196、模式词典198、既存照应/省略解析器208以及问题类型db200。此外,对于问题解答系统206,需要预先在注解数据生成辅助系统160内进行准备并且使得能够从学习数据生成辅助装置204进行访问,或者预先准备为对外部的问题解答系统发送疑问句。

参考图8,使用者启动学习数据生成辅助装置204,指定文本档案192,指示学习数据的生成的开始。词素解析系统380读出文本档案192中所存储的各文本,进行词素解析从而将附加了各种语法信息的词素串提供给依存关系解析系统382。依存关系解析系统382针对由所提供的词素串构成的各句子进行语法的构造解析以及依存解析,将附加了构造信息和依存信息的词素串输出给解析后文本db384。如此,对文本档案192中所存储的各文本进行解析,并将解析后文本积累在解析后文本db384中。

参考图9,第1候补生成部388的谓语检索部420读出解析后文本db384中所存储的各个解析后文本,检索谓语并写出到谓语列表存储部422。省略候补检测部424针对谓语列表存储部422中所积累的谓语列表内的各谓语,判断在包含该谓语的依存关系中,是否存在该谓语的主语、宾语、间接宾语等的任一个,在不存在时将该部分检测为省略候补并提供给疑问句自动生成部426。疑问句自动生成部426根据省略候补的部分成为回答那样的疑问句来生成疑问句。此时,疑问句自动生成部426将成为处理对象的谓语和省略候补的语法作用(主语、宾语等)作为关键字,访问问题类型db200,读出问题类型。疑问句自动生成部426进而使用所读出的问题类型的表现,对包含省略位置的句子进行变形,从而生成图7所示的疑问句336那样的疑问句。疑问句自动生成部426将该疑问句提供给问题解答系统206和回答接收部428。回答接收部428若从疑问句自动生成部426接收疑问句,则进行待机直到从问题解答系统206提供针对疑问句的回答。

在本实施方式中,问题解答系统206针对被提供的疑问句按照几个类别针对各类别生成多个回答候补,提供给回答接收部428。回答接收部428若从问题解答系统206接收回答,则确认该回答是针对从疑问句自动生成部426发送的哪个疑问句的回答,向出现位置确认部430提供用于确定成为处理对象的谓语的信息和回答。

出现位置确认部430给予来自回答接收部428的信息,确认处理对象的解析后文本中在成为处理对象的谓语之前出现的省略的指代目标候补的位置,将它们作为省略位置的补足候补,对成为处理对象的谓语和各个候补进行编组来输出给候补追加部432。候补追加部432将从出现位置确认部430提供的候补追加到候补db386中。

参考图10,第2候补生成部390如下进行动作。谓语检索部450检索解析后文本db384中所存储的解析后文本内的各谓语,积累到谓语列表存储部452。省略候补检测部454与图8所示的省略候补检测部424同样地,针对谓语列表存储部452中所积累的谓语列表内的各谓语,判断在包含该谓语的依存关系中是否存在该谓语的主语、宾语、间接宾语等的任一个,在不存在时将该部分检测为省略候补。省略候补检测部454将表示所检测到的省略候补的位置的信息提供给对象谓语检索部456。对象谓语检索部456检索由省略候补检测部454检测出的省略候补中在文本内具有该省略的候补的谓语之前出现的其他谓语,将所检索到的各谓语和具有该省略的候补的谓语进行组对来提供给语言知识检索部458。

语言知识检索部458针对对象谓语检索部456输出的各谓语对,判断是否存在构成这些对的谓语或者对其进行改述的谓语在语言知识db194内的任意语言知识中出现在第一句和第二句的语言知识,若存在,则输出该语言知识。此外,若存在包含从对象谓语检索部456提供的谓语对且与模式词典198中所存储的模式匹配的表现,则语言知识检索部458也将其输出。语言知识检索部458在将这些语言知识以及模式应用于文本时,使用改述/类别词典196中所存储的改述规则以及类别,将规则中的表现改述为其他表现,或者将规则中的单词替换为其他单词,由此扩大语言知识的应用对象。由语言知识检索部458所检索出的语言知识,与检索该语言知识时使用的谓语对一起积累到匹配语言知识存储部460中。最后,如参考图11~图14所说明的那样,候补追加部462通过对匹配语言知识存储部460中所存储的谓语对、和相匹配的语言知识或者模式进行比对,从而确定省略候补的指代目标候补,并将省略候补与各指代目标候补的对作为注解候补追加到候补db386中。

参考图15,第3候补生成部392的照应/省略关系检索部680在既存小规模学习数据db190中检索注解完成的照应关系以及省略关系,将包含照应关系的句子输出给指代源省略句生成部682,将包含省略关系的句子输出给省略要素恢复部688。

指代源省略句生成部682从包含照应关系的文本中寻找构成照应关系的名词句对,并针对每一个,生成在该名词句内、文本内自动地省略了位于后方的指代源的新的文本,提供给注解追加部684。注解追加部684在这样由指代源省略句生成部682生成的句子中省略的位置和与省略的位置一起注解了照应关系的名词句之间附加新的省略关系的注解候补,来输出给候补追加部686。

候补追加部686在包含照应/省略关系检索部680输出的省略关系的文本中,针对省略位置,基于注解将该指代目标的要素恢复为代词而生成新的文本,并提供给注解追加部690。注解追加部690在由省略要素恢复部688生成的新的文本中,追加新的照应关系的注解候补并输出给候补追加部686,其中新的照应关系的注解候补包括由省略要素恢复部688所恢复的代词构成的指代源和通过原来的注解而成为了指代目标的部分。

候补追加部686将从注解追加部684以及注解追加部690输出的文本与对它们附加的注解候补一起追加到候补db386中。

参考图16,第4候补生成部394的照应/省略解析执行部710从解析后文本db384读出文本,执行基于既存照应/省略解析器208的照应/省略解析。既存照应/省略解析器208虽然在其性能上存在极限,但是对所输入的文本执行照应/省略解析,并将注解后的文本返回到照应/省略解析执行部710。照应/省略解析执行部710将该注解后的解析结果积累到解析结果存储部712。候补追加部714将存储于解析结果存储部712中的解析结果中包含的注解作为注解候补追加到候补db386中。

通过对文本档案192(参考图4以及图8)中所存储的全部文本执行以上的处理,从而最终在候补db386中积累附加了注解候补的文本。候补db386中积累的文本包含省略候补以及照应词候补,在各省略候补以及照应词候补附加有表示它们的指代目标的一个或多个注解候补。

对话型注解装置396针对候补db386中所积累的各个候补,通过使用了输入输出装置202的与用户的对话型处理,针对各个省略候补以及照应词候补,如下进行动作。

参考图3的下段,对话型注解装置396在画面显示包含注解候补的文本92。此时,对话型注解装置396针对各个省略候补以及照应词候补,生成如以下那样选择注解候补的下拉菜单。即,在省略候补的指代目标仅存在一处的情况下,在图3中由字符串130示出的省略候补的位置,显示与作为其指代目标候补的单词110相同的单词,进而在其右侧显示表示存在下拉菜单的图标。在下拉菜单中,显示表示是否接受所显示的候补的选项(“是”、“否”)和表示直接输入的选项。若用户选择“是”,则所选择的注解被确定为注解。在选择了“否”的情况下,注解未确定而保留。若选择直接输入,则显示用于直接指定由字符串130所示的省略候补的指代目标的对话框。通过用户输入指代目标,从而生成按照用户的指定的新的注解,并且成为确定注解。在该情况下,最初进行了显示并且没有被用户选择的注解,用于生成学习时的特征向量生成之际的反例。因此,对该注解候补附加表示是反例的记号(flag)。

在注解候补有多个的情况下,生成包含这多个注解候补作为选项的下拉列表。在相应位置,显示注解候补中开头的注解候补,或者以某种形式对注解候补进行了打分时的最高评分的注解候补。在其右侧,显示表示存在下拉列表的图标在该情况下,在下拉列表中也显示选择直接输入的选项项目。若用户选择任一选项,则所选择的注解候补确定为注解。对于未选择的候补,在学习时的特征向量生成时,用于生成反例。

在任意的情况下,确定了注解的解析后文本都积累到学习数据db162中。对于候补db386中所存储的全部解析后文本,若上述的注解的选择完成,则学习数据db162完成。

<检测器的学习>

参考图18,检测器学习装置222如以下那样动作。省略检测器学习部770的按格特征向量生成部780读出学习数据db162中所存储的已注解确定的学习数据中包含省略的学习数据。按格特征向量生成部780在学习数据的省略位置的每一个为谓语的主语(主格(ガ格))、直接宾语(受格(ヲ格))或者间接宾语(与格(ニ格))时,对它们进行分类,分别生成特征向量群782、784以及786,并积累到未图示的存储装置中。此时,按格特征向量生成部780对于确定了的注解将学习标志设为1,对于其以外的注解将学习标志设为0。svm学习处理部788使用这些特征向量群782、784以及786,来进行主语省略检测器800、宾语省略检测器802以及间接宾语省略检测器804具有的svm的学习。

照应词检测器学习部772的照应词候补选择部830读出积累在学习数据db162中的学习数据中包含照应词候补的文本,选择附加了注解的单词作为照应关系的指代源(照应词)。特征向量生成部832针对由照应词候补选择部830选择的各个照应词候补,生成前述的特征向量。此时,特征向量生成部832对于已确定的注解将学习标志设为1,对于其以外的注解将学习标志设为0。特征向量生成部832生成的特征向量被积累到未图示的存储装置中。svm学习处理部834使用如此积累的特征向量群,进行构成照应词检测器168的svm的学习。

在先行词确定器学习部774中,照应词用先行词确定器学习部840如下进行动作。照应词用先行词确定器学习部840的照应词选择部850选择存储于学习数据db162的学习数据中作为照应关系的指代源(照应词)而进行了注解的表现,并提供给先行词候补选择部852。先行词候补选择部852针对照应词选择部850选择的照应词,选择包括实际上被注解为先行词的表现和其以外的有可能是先行词的表现(名词句)这两方的先行词候补。特征向量生成部854针对照应词选择部850选择的照应词和先行词候补选择部852选择的各个照应词候补的组合,生成用于进行照应词用先行词确定器900的学习的特征向量。此时,特征向量生成部854对于照应关系中作为照应词的指代目标而注解的表现将学习标志设为1,将其他的学习标志设为0。svm学习处理部856使用特征向量生成部854生成的特征向量进行构成照应词用先行词确定器900的svm的学习。

另一方面,省略用先行词确定器学习部842如下进行动作。省略用先行词确定器学习部842的省略选择部870选择学习数据db162内的学习数据中作为省略关系而注解的表现(省略),提供给先行词候补选择部872。先行词候补选择部872在学习数据中选择包括作为针对省略选择部870所选择的省略的先行词而注解的表现且有可能成为省略的先行词的候补。特征向量生成部874针对省略选择部870选择的省略部和先行词候补选择部872选择的各个先行词候补的组合,生成特征向量并积累到未图示的存储装置中。此时,在特征向量生成部874生成的特征向量中,若分类对象的省略/先行词候补的对成为省略关系则学习的标志是1,否则学习的标志是0。此外,特征向量生成部874在特征向量的生成时,如前所述,使用选择限制db224、问题类型db220、问题解答系统226以及语言知识db228。svm学习处理部876使用由特征向量生成部874生成的特征向量,进行构成省略用先行词确定器902的svm的学习。

通过以上处理,省略检测器166中包括的主语省略检测器800、宾语省略检测器802以及间接宾语省略检测器804、照应词检测器168、和先行词确定器170中包括的照应词用先行词确定器900以及省略用先行词确定器902的学习结束。

<自动注解>

返回到图4,照应/省略解析器252对输入250的照应/省略解析及其结果的自动注解,按照以下方式执行。另外,该解析被分割为省略解析、照应解析、对省略以及照应词的先行词解析。在省略解析中使用省略检测器166。在照应解析中使用照应词检测器168。在先行词解析中使用先行词确定器170。

最初,执行对输入250的词素解析以及构造/依存解析,附加了构造/依存信息的词素串成为处理对象。对于该词素串,在省略解析中,分别生成与进行图18所示的主语省略检测器800、宾语省略检测器802以及间接宾语省略检测器804的学习时同样构成的特征向量,并将它们提供给检测器。根据主语省略检测器800、宾语省略检测器802以及间接宾语省略检测器804的输出,在输入250中分别在表示最高评分的部分附加作为省略位置的注解。在照应词解析中,从输入250所包含的名词句对中选择能够成为照应词候补的语句,并针对它们的每一个,从输入250生成与由图18所示的特征向量生成部832所生成的特征向量同样构成的特征向量。通过将该组成向量提供给照应词检测器168,从而从照应词检测器168获得评分。根据该评分,来决定是否是照应词,并附加该意思的注解。

照应词用先行词确定器900执行的先行词的推定,按照以下方式进行。对于由照应词检测器168判定为照应词的各个表现,在输入250中选择能够成为先行词的表现,将两者成对地与图18的特征向量生成部854同样地生成特征向量。将该特征向量作为对照应词用先行词确定器900的输入,获得照应词用先行词确定器900的评分,在示出高于阈值且最高的评分的先行词候补与处理对象的照应词之间追加照应关系的注解。

省略用先行词确定器902执行的先行词的推定也同样。但是,在该情况下,不使用由特征向量生成部854生成的特征向量,而使用与由特征向量生成部874生成的特征向量同样构成的特征向量。因此,此时需要选择限制db224、问题类型db220、问题解答系统226以及语言知识db228。

如上所述,根据本实施方式,能够容易地根据文本档案来进行用于进行照应/省略解析用的检测器的学习的学习数据生成。例如自动地检索照应/省略关系的候补,并且将该先行词候补作为列表来显示。若列表中所显示的候补是一个且是正确的,则用户同意即可,若列表中所显示的候补有多个,则用户选择其中的一个即可。不需要像以往那样进行如下作业:目视寻找照应/省略关系的位置,接下来再目视寻找其指示的位置,从而对两者附加照应/省略关系的注解。即使在所显示的列表中没有示出正确的指代目标时,也能够通过手动输入来指定正确的指代目标。

因此,与以往的技术相比,能够非常简便地准备用于进行照应/省略解析的检测器的学习的学习数据。结果,能够使学习数据的生成成本以及生成时间都降低。由于能够以低成本准备大量的学习数据,因此利用使用该学习数据进行学习的省略检测器166、照应词检测器168以及先行词确定器170,能够有效地进行文本的照应/省略解析。此外,由于学习数据变得大量,因此能够期待这些检测器的精度提高,能够以较高的精度几乎自动地进行文本的照应/省略解析。

另外,在上述实施方式中,设为问题解答系统206是一个来进行了说明。但是,本发明不限定于这种实施方式。只要能够利用多个问题解答系统,也可以利用多个问题解答系统。在该情况下,若各问题解答系统都将自然语言的文本作为输入,则仅通过向它们发送同一疑问句,便能够获得回答候补。

[基于计算机的实现]

上述实施方式所涉及的学习数据生成辅助装置204能够通过计算机硬件和该计算机硬件上执行的计算机程序来实现。图19示出该计算机系统930的外观,图20示出计算机系统930的内部构成。

参考图19,该计算机系统930包括:具有存储器端口952以及dvd(digitalversatiledisc,数字多用盘)驱动器950的计算机940、键盘946、鼠标948和监视器942。

参考图20,除了存储器端口952以及dvd驱动器950之外,计算机940还包括:cpu(中央处理装置)956;与cpu956、存储器端口952以及dvd驱动器950连接的总线966;存储启动程序等的读出专用存储器(rom)958;与总线966连接,并且存储程序指令、系统程序以及作业数据等的随机存取存储器(ram)960;和硬盘954。计算机系统930还包括网络接口(i/f)944,网络接口(i/f)944提供向能够与其他终端通信的网络968的连接。

用于使计算机系统930作为上述实施方式所涉及的学习数据生成辅助装置204的各功能部而发挥功能的计算机程序,存储在安装于dvd驱动器950或者存储器端口952的dvd962或者移动存储器964中,进而传送到硬盘954。或者,程序也可以通过网络968发送到计算机940并存储到硬盘954中。在程序执行时,加载到ram960中。也可以从dvd962、从移动存储器964或者经由网络968,直接将程序加载到ram960中。

该程序包括用于使计算机940作为上述实施方式所涉及的学习数据生成辅助装置204的各功能部而发挥功能的多个指令所构成的指令序列。使计算机940进行该动作所需的若干基本功能,通过计算机940上动作的操作系统或者第三方程序或安装于计算机940的可动态链接的各种编程工具包或者程序库来提供。因此,该程序本身可以不必包含用于实现该实施方式的系统以及方法所需要的全部功能。该程序可以仅包含指令内的、通过以控制为获得期望结果的方法在执行时动态地调用适当的功能或者编程工具包或者程序库内的适当的程序从而实现作为上述系统的功能的指令。当然,也可以仅利用程序来提供所需要的全部功能。

本次所公开的实施方式仅是例示,并非将本发明仅限制于上述的实施方式。本发明的范围,在参酌了发明的详细说明的记载的基础上,由权利要求书的各权利要求来示出,包括与权利要求中记载的措辞等同的意思以及范围内的全部变更。

产业上的可利用性

本发明能够在用于自然语言处理的学习数据等的整备的产业以及为此的装置、和使用这样整备的学习数据来提供与自然语言处理相关的多样化服务的产业中加以利用。

符号说明

150照应/省略解析系统

160注解数据生成辅助系统

162学习数据db

164学习系统

166省略检测器

168照应词检测器

170先行词确定器

172照应/省略解析装置

190既存小规模学习数据db

192文本档案

194、228、256语言知识db

196改述/类别词典

198模式词典

200、220、258问题类型db

202输入输出装置

204学习数据生成辅助装置

206、226、260问题解答系统

222检测器学习装置

224、262选择限制db

252照应/省略解析器。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1