二元关系提取装置、使用二元关系提取处理的信息检索装置、二元关系提取处理方法、使...的制作方法

文档序号：6567875阅读：170来源：国知局

专利名称：二元关系提取装置、使用二元关系提取处理的信息检索装置、二元关系提取处理方法、使 ...的制作方法
技术领域：
本发明涉及使用有教师的机器学习处理从文本数据中提取具有二元关系的表达(词、字符串等)的对的二元关系提取技术和使用二元关系提取处理的信息检索技术。
背景技术：
从文本数据库等之中提取信息的方法已知有着眼于关联语句的二元关系来提取所希望的信息的方法。例如，非专利文献l的方法是，提供用以提取使用句法分析结果即谓语项结构所得的信,包、的模式格架(pattern frame ),并从带有正确解答的语料库中提取，将提取到的模式之中不合适的模式排除掉，使用按照这种方式挑选出来的模式提取适宜的信息。非专利文献l:药师寺AKANE(A力、a)等著，《使用谓语项结构模式的医学/生物学领域信息提取》，语言处理学会第11次年会,2005年3月发明内容本发明试图解决的课题目前，人们主要使用利用人工制作的模式进行二元关系提取处理的方法。另外，在非专利文献l的方法中，为了提高模式的精度，通过与学习语料库进行对照来对模式进行挑选，以图提高二元关系的提取处理的精度。但是，在使用模式作为二元关系提取规则的情况下，如果问题对象变得复杂，则模式就会变得繁杂。因此,使用模式的方法有其局限性。另外，也存在着提取方法的性能不高的问题。本发明的目的是提供一种在从文本数据中提取二元关系的全部问题中都能够使用的、对于复杂的问题也能够高性能地提取二元关系的二元关系提取装置。另外，本发明的另一个目的是提供使用上述二元关系提取处理的信息检索装置以及通过这些装置执行的各处理方法和用于在计算机中实现这些装置的功能的程序。课题解决办法本发明是一种使用机器学习处理提取计算机可读取的存储装置中所保存的文本数据中所出现的二元关系的二元关系提取处理装置，其特征在于，其具备以下单元1) 教师数据存储单元，其中保存的教师数据包含的是由问题与解答的组所构成的事例、问题是文本数据中所出现的二元关系、解答是要提取的二元关系；2) 解答-特性对提取单元，用于从上述教师数据存储单元中提取上述事例，针对上述每个事例，提取预定信息作为特性(identity),生成由上述解答和上述所提取的特性的集合构成的组；3) 机器学习单元，其基于预定的机器学习算法，针对上述解答和特性的集合构成的组执行机器学习处理，学习在何种特性集合的情况下会形成上述解答，并将表示在上述何种特性集合的情况下会形成上述解答的信息作为学习结果信息保存到学习结果存储单元中；4) 候选提取单元，其从上述存储装置中保存的文本数据中提取上述二元关系的元素，并提取由上述元素所构成的对，将上述提取的对作为二元关系的候选；5) 特性提取单元，其通过执行与上述解答-特性对提取单元所执行的提取处理相同的提取处理，针对上述二元关系的候选，提取上述预定信息作为特性；6) 解答推断单元，其基于上述学习结果存储单元中保存的上述学习结果信息，推断在上述二元关系的候选特性的集合的情况下容易形成上述解答的程度；7) 二元关系提取单元，其在上述推断结果针对上述二元关系的候选容易形成上述解答的程度好于预定程度的情况下，选择上述二元关系的候选作为应提取的二元关系。本发明预先在教师数据存储单元中存储教师数据，这些教师数据中包含赋予了用于表示文本数据中出现的二元关系中应提取的二元关系的解答信息的事例。此外，借助于解答-特性对提取单元，从教师数据存储单元中取出事例，针对各个事例，提取预定信息作为特性，生成所提取的特性集合和解答的组。进而，借助于机器学习单元，基于预定的机器学习算法，针对解答和特性集合的组执行机器学习处理，学习在何种特性集合的情况下会形成何种解答，并将表示"在何种特性集合的情况下会形成何种解答"的信息作为学习结果信息保存到学习结果存储单元中。然后，借助于候选提取单元，从存储装置中保存的文本数据中提取二元关系的元素，并提取由上述元素所构成的对，将上述提取的对作为二元关系的候选，则借助于特性提取单元，通过执行与解答-特性对提取单元所执行的提取处理相同的提取处理，针对二元关系的候选，提取预定信息作为特性。此外，借助于解答推断单元，基于学习结果存储单元中保存的学习结果信息，推断在二元关系的候选特性的集合的情况下容易形成解答的程度，并借助于二元关系提取单元，根据推断结果，在针对二元关系的候选容易形成解答的程度好于预定程度的情况下，提取该二元关系的候选。另外，本发明是一种信息检索装置，其在使用多个检索关键字进行信息检索的处理中，利用使用有教师的机器学习处理得到的二元关系提取处理结果提取检索结果，其特征在于，其具备以下单元1) 教师数据存储单元，其中保存的教师数据包含的是由问题与解答的组所构成的事例、问题是以检索关键字作为元素的二元关系、解答是要提取的二元关系；2) 解答-特性对提取单元，用于从上述教师数据存储单元中提取上述事例，针对上述每个事例，提取预定信息作为特性，生成由上述解答和上述所提取的特性的集合构成的组；3) 机器学习单元，其基于预定的机器学习算法，针对上述解答和特性的集合构成的组执行机器学习处理，学习在何种特性集合的情况下会形成上述解答，并将表示在上述何种特性集合的情况下会形成上述解答的信息作为学习结果信息保存到学习结果存储单元中；4) 信息检索单元，其使用所输入的多个检索关键字生成输入检索关键字对，从作为检索对象的文本数据中提取包含上述输入检索关键字对的文本数据；5) 候选提取单元，其根据通过上述检索取得的各文本数据生成由上述输入检索关键字所构成的对，将上述生成的对作为二元关系的候选；6) 特性提取单元，其通过执行与上述解答-特性对提取单元所执行的提取处理相同的提取处理，针对上述二元关系的候选，提取上述预定信息作为特性；7) 解答推断单元，其基于上述学习结果存储单元中保存的上述学习结果信息，推断在上述二元关系的候选特性的集合的情况下容易形成上述解答的程度；8) 检索结果提取单元，其在上述推断结果针对上述二元关系的候选容易形成上述解答的程度好于预定程度的情况下，选择上述二元关系的候选作为应提取的二元关系，并将包含上述选择的二元关系的文本数据作为检索结果提取出来。本发明预先在教师数据存储单元中存储教师数据，这些教师数据中包含赋予了用于表示以检索关键字作为元素的二元关系中应提取的二元关系的解答信息的事例。此外，借助于解答-特性对提取单元，从教师数据存储单元中取出事例，针对各个事例，提取预定信息作为特性，生成所提取的特性集合和解答的组。进而，借助于机器学习单元，基于预定的机器学习算法，针对解答和特性集合的组执行机器学习处理，学习在何种特性集合的情况下会形成何种解答，并将表示"在何种特性集合的情况下会形成何种解答"的信息作为学习结果信息保存到学习结果存储单元中。然后，借助于信息检索单元，使用所输入的多个检索关键字生成输入检索关键字对，从作为检索对象的文本数据中提取包含输入检索关键字对的文本数据，并借助于候选提取单元，根据通过检索取得的各文本数据生成由输入检索关键字所构成的对，将上述生成的对作为二元关系的候选。此外，借助于特性提取单元，通过执行与解答-特性对提取单元所执行的提取处理相同的提取处理，针对二元关系的候选，提取预定信息作为特性。进而，借助于解答推断单元，基于学习结果存储单元中保存的学习结果信息，推断在二元关系的候选特性的集合的情况下容易形成解答的程度，并借助于检索结果提取单元，在上述推断结果针对上述二元关系的候选容易形成解答的程度好于预定程度的情况下，选择该二元关系的候选作为应提取的二元关系，并将包含所选择的二元关系的文本数据作为检索结果提取出来。另外，本发明是利用上述二元关系提取装置或上述信息检索装置分别实现的二元关系提取处理方法、使用二元关系提取处理方法的信息检索处理方法。另外，本发明是将上述二元关系提取处理方法或上述信息检索处理方法中执行的各个处理过程交由计算机执行所需的二元关系提取处理程序和使用二元关系提取处理方法的信息检索处理程序。发明的效果借助于本发明，利用通过人工赋予了表示其是否是应提取的二元关系的标签的文本数据作为学习数据进行机器学习，从而在提供了新的二元关系的候选的情况下，能够判断该候选是否是应提取的二元关系。例如，通过使用已经赋予了表示是否是要提取的二元关系的标签的"存在相互作用的蛋白质的名称的对，，作为学习数据，就能够从文本数据库等之中取得所希望的"存在相互作用的蛋白质的名称的对"信息。另外，对于信息检索处理中的AND检索的两个检索关键字，通过使用在其检索结果的文档中已经赋予了表示其是否是有意义的关系的标签后的"检索关键字的对，，作为学习数据，就能够从检索对象的文本数据中提取有意义的检索结果。本发明能够应用于从文本数据中提取二元关系的全部问题中，因此其通用性非常高。

图1是表示本发明的二元关系提取装置的结构实例的图。图2是表示二元关系提取装置的处理流程的图。图3是表示教师数据的实例的图。图4是表示支持向量机法的分类间隔(Margin)最大化的概念的图。图5是表示与图3所示的二元关系的特性集合的组的实例的图。图6是表示本发明的信息检索装置的结构实例的图。图7是表示信息检索装置的处理流程的图。图8是表示与教师数据与其二元关系的特性集合的组的实例的图。图9是表示与教师数据与其二元关系的特性集合的组的实例的图。图10是表示与教师数据与其二元关系的特性集合的组的实例的图。符号说明1二元关系提取装置 11教师数据存储部 12解答-特性对提取部 13机器学习部14学习结果存储部15候选提取部16特性提取部17解答推断部18 二元关系提取部2文本数据3 二元关系4信息检索装置40信息一全索部41教师数据存储部42解答-特性对提取部43机器学习部44学习结果存储部45候选提取部46特性提取部47解答推断部48检索结果提取部5检索用文本数据6检索结果具体实施方式
下面说明本发明的二元关系提取装置1的实施例。二元关系提取装置l是一种使用已经赋予了表示是否是应提取的二元关系的标签的文本数据即教师数据，对何种语句对是应提取的二元关系进行机器学习，从所提供的文本数据2之中取得二元关系的候选，并提取应提取的二元关系3的处理装置。图1中表示本发明的二元关系提取装置1的结构实例。二元关系提取装置1具备教师数据存储部11、解答-特性对提取部12、机器学习部13、学习结果存储部14、候选提取部15、特性提取部16、解答推断部17、以及二元关系提取部18。教师数据存储部11是用于存储机器学习处理中所使用的作为教师数据的文本数据的装置。教师数据使用以文本数据的正文中出现的二元关系的元素(其中一个元素称为第l元素，另一个元素称为第2元素)作为问题、以表示是否是应提取的二元关系的信息作为解答的事例。具体地，仅针对一个文本数据的正文中包含两个以上二元关系的元素的文本，通过人工针对该正文中的二元关系元素对赋予表示其是应提取的对(正例)、或者其是不应提取的对(负例)的任一个的解答的标签。当一个正文中包含三个以上的二元关系元素时，针对元素的全部组合即对，分别赋予标签。此外，作为教师数据的事例，也可以使用仅赋予了表示应提取的对(正例) 的解答的二元关系。解答-特性对提取部12是根据教师数据存储部11中存储的文本数据内的事例提取解答和特性的集合的组的处理单元。特性是用于机器学习处理的信息。解答-特性对提取部12所提取的特性是例如二元关系的元素、出现在元素周围的单词/字符及其出现位置或顺序、元素或周围的单词的词类信息、形态要素分析信息、句法分析信息、元素之间的出现距离、元素之间其他二元关系的元素的有无等^息。机器学习部13是借助于有教师的机器学习法根据由解答-特性对提取部12提取的解答和特性集合的组学习在何种特性时容易形成何种解答的处理单元。其学习结果保存在学习结果存储部14。特性提取部16是针对从文本数据2中提取的二元关系的候选，提取预定特性的处理单元。解答推断部17是参照学习结果存储部14的学习结果，针对二元关系的各个候选推断在该特性集合的情况下容易形成何种解答(分类目标)的程度的处理单元。二元关系提取部18是基于解答推断部17的推断结果，将二元关系的候选之中推断为其成为表示应提取的二元关系的解答的程度较高的二元关系输出为二元关系3的处理单元。图2中表示二元关系提取装置1的处理流程。二元关系提取装置1的教师数据存储部11中预先保存着文本数据2 作为教师数据，该文本数据2包含在具有某种意义的元素对即二元关系中赋予了用于表示其是应提取的二元关系(正)还是不应提取的二元关系(负)的任一个的"解答"信息的事例。此外，也可以仅针对应提取的对，将包含赋予了预定解答的事例的文本数据2预先存储起来。在这种情况下，赋予了文本数据2的解答的对被看作是带有应提取的二元关系即(正)的解答，未被赋予解答的其余的对则被看作是带有不应提取的二元关系(负)的解答。首先，解答-特性对提取部12根据教师数据存储部11的教师数据，针对各事例提取预定的特性，生成解答(通过标签赋予的信息)和所提取的特性的集合的组(步骤Sl )。解答-特性对提取部12根据预定的标签从教师数据即文本数据中提取二元关系，针对所提取的二元关系的元素执行形态要素分析处理、句法分析处理、元素的出现位置或元素之间的距离的计算处理等，提取预定的特性。此外，机器学习部13根据由解答-特性对提取部12生成的解答和特性集合的组，通过机器学习法学习在何种特性集合时容易形成何种解答(正或负)，并将学习结果保存到学习结果存储部14 (步骤S2)。机器学习部13使用例如k近邻法、简单贝叶斯法、决策列表(decision list) 法、最大熵(maximum entropy)法、支持向量机法等方法之中的任一种作为有教师的机器学习法，执行机器学习处理。其后，候选提取部15输入想要提取二元关系的文本数据2，从所输入的文本数据2中提取二元关系的候选(步骤S3 )。候选提取部15将文本数据按照句子单位进行分割，仅将一个句子中出现两个以上的二元关系的元素的句子作为处理对象，从该句子中提取二元关系的候选。特性提取部16执行与解答-特性对提取部12的处理大致相同的处理，针对从文本数据2中提取的二元关系的各个候选，提取其特性(步骤S4)。解答推断部17基于学习结果存储部14的学习结果，针对各候选推断在该特性集合的情况下容易形成何种解答、即"容易形成正"还是"容易形成负"的程度(步骤S5)。继而，8系3输出(步骤S6)。接着说明本发明的二元关系提取处理的具体实例。在本例中，假定二元关系提取装置1是用于从生物医学相关的论文的文本数据库中提取存在相互作用的蛋白质表达(蛋白质名)的二元关系的装置，其以100% 的精度确定文本数据库中的蛋白质表达。另外，假定构成二元关系的元素出现在同一句子中。此外，构成二元关系的元素也可以是出现在同一段落内、同一文档中的元素。在生成教师数据的处理中，在将成为二元关系的元素的表达例如蛋白质表达、病名和治疗方法等特定表达作为二元关系的元素提取出来的情况下，按照以下方式执行。1 )使用规则提取元素。由人工定义"NF-Kappa[A-Z],其中，[A-Z]是从A到Z的任意一个字母"等模式，提取匹配的表达。利用该模式，提取NF-KappaA、 NF-KappaB等蛋白质名的表达即元素。2) 使用词典提取元素。使用载有病名或治疗方法等表达的词典，将与这些词典中收录的表达(字符串、单词列等)完全相同的字符串等作为病名或治疗方法的表达元素提取出来。3) 通过机器学习处理提取元素。准备在蛋白质表达、病名和治疗方法等表达的前后赋予了开始位置标签和结束位置标签的文本数据作为学习数据。继而，使用这种带有标签的学习数据进行机器学习处理，利用该学习结果，在不带标签的新的文本数据的相应表达的开始位置和结束位置处插入标签，从而确定元素。4) 使用表示预定二元关系的信息进行提取。利用预先在有可能成为二元关系的元素的表达中赋予了标签的数据，基于该标签提取作为二元关系的元素的表达。图3表示教师数据的实例。使用图3 (A)所示的包含将具有相互作用的蛋白质表达作为元素的二元关系的英文文本数据作为教师数据。在本例中，教师数据中仅对应提取的二元关系赋予了表示解答(正/positive)的标签。亦即，在机器学习处理中使用仅包含正的事例的教师数据。图3 (B)中表示教师数据中赋予的标签的实例。教师数据中包含两个二元关系的对Pl、对P2。二元关系(对)Pl由第1元素pl "delta-catenin"、第2元素p2 "presenilin 1"构成。另外，二元关系(对) P2由第1元素pl "presenilin ( PS ) 1"、第2元素p2 "delta-catenin"构成。解答-特性对提取部12根据教师数据存储部11中存储的文本数据内的事例提取解答和特性的集合的组。例如，提取以下信息作为特性。1) 在二元关系的元素的周围出现的单词或字符。例如，二元关系的第1元素(最初的元素)的前方预定个数的单词/字符、第2元素(第二个元素)的后方预定个数的单词/字符、第l元素和第2元素之间的预定个数的单词/字符。2) 在二元关系的元素的周围出现的单词/字符的出现位置、出现顺序等；3) 二元关系的两个元素；4) 二元关系的元素或周围的单词的词类信息、形态要素分析信息等；5) 二元关系的元素或周围的单词的句法分析信息；6) 二元关系的第1元素和第2元素的出现距离；7) 二元关系的第1元素和第2元素之间有无元素出现；在这些特性之中，例如词类信息是使用形态要素分析系统"ChaSen"等现有的形态要素分析处理方法取得的(参照http://chasen.aist-nara. ac.jp/index.htm 1 ja )。英语的文本数据的情况下的词类信息则使用例如 "Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging" (Eric Brill, Computational Linguistics, Vol.21, No.4, p.543-565, 1995 )取^寻。这里，当二元关系的元素出现在同一段落中的情况下，也可以使用二元关系的元素是否跨句子这一信息作为特性。另外，当二元关系的元素出现在同一文档中的情况下，也可以使用二元关系的元素是否跨句子这一信息、是否跨段落这一信息作为特性。解答-特性对提取部12从图3 (B)所示的带有标签的教师数据的事例中提取特性，生成特性集合和解答的组。例如，针对二元关系P2 的事例，如图5所示，假定生成解答(positive:正)和以下的特性集合的组。"在第1元素的前方3个单词内出现了 "for"、 "interaction", "w池"；元素之间出现了 "and"、 "cloned"、 "the"、 "full"、 "-，，、 "length"、 "cDNA"、 "of，、 "human";在第2元素的后方3个单词内出现了"which"、 "encoded", "1225，，"。机器学习部13基于该解答和特性的集合对在何种特性集合的情况下容易形成解答(positive)进行机器学习处理，并将学习结果保存到学习结果存储部14。机器学习部13使用例如k近邻法、简单贝叶斯法、决策列表法、最大熵法、支持向量机法等方法作为有教师的机器学习法。k近邻法是一种使用最类似的k个事例而不是最类似的一个事例，通过这k个事例进行多数决定来求取分类目标(解答)的方法。k是预先决定的整数数字，通常使用l至9之间的奇数。简单贝叶斯法是基于贝叶斯定理推断形成各分类的概率、将其概率值最大的分类用作所求取的分类目标的方法。在简单贝叶斯法中，上下文b中产生分类a的概率通过以下算式(1 ) 提供。[算式1]<formula>formula see original document page 21</formula> (1 )<formula>formula see original document page 21</formula>(2) 其中，这里的上下文b是预先设定的特性<formula>formula see original document page 21</formula>的集合。p (b)是上下文b的出现概率。这里，其是不依赖于分类a的常数，因此不予计算。P (a)(这里的P是p上部带有波浪号)和P (f」a)是根据教师数据推断得到的概率，分别表示分类a的出现概率、分类a时具有特性f的概率。如果使用最优推断所求得的值作为P(fj|a)，则其值常常会等于零，导致出现算式(2)的值难以由零来决定分类目标的情形。因此，进行平滑(smoothing)处理。这里采用通过以下算式(3)进行平滑处理的方式。[算式2]<formula>formula see original document page 113</formula>其中，freq(f;, a )表示具有特性fi并且分类为a的事例的个数，fr叫(a) 表示分类为a的事例的个数。决策列表法是以特性和分类目标的组作为规则、并按照预先决定的优先顺序将它们预先保存到列表中的方法，当输入了检索对象时，从列表中的高优先顺序开始对输入数据与规则特性进行比较，将特性相同的规则的分类目标作为该输入的分类目标。在决策列表法中，仅将预先设定的特性f] ( 6F, lSj^k)之中的任一个特性作为上下文，求取各分类的概率值。某个上下文b输出分类 a的概率由以下算式提供。<formula>formula see original document page 113</formula>其中，fmax由以下算式提供。 [算式3]/maX = argmax力￡7 max。,"另外，P U」lfj)(这里的P是p上部带有波浪号)是上下文中具有特性fj的情况下分类a,的出现比例。最大熵法是以预先设定的特性f, ( l〇_j^k)的集合作为F时求取满足以下算式(6)的同时使表示熵的算式(7)最大时的概率分布p (a, b)、并根据该概率分布将具有所求得的各分类概率之中最大概率值的分类作为所求取的分类目标的方法。[算式4]<formula>formula see original document page 113</formula>;(",6》 (7)其中，A、 B表示分类和上下文的集合，gj(a, b)表示的是在上下文b 中具有特性fj并且分类为a的情况下等于1、除此之外的情况下等于0 的函数。另外，P (a,lfj)(这里的P是p上部带有波浪号)表示已知数据中(a, b)的出现比例。算式(6)通过将概率p乘以表示输出和特性组的出现的函数g来求取输出和特'性组的频度的期望值，其以右边的已知数据中的期望值与左边的基于所求得的概率分布计算出来的期望值相等为制约条件，实施熵最大化(概率分布的平滑化)处理，求取输出和上下文的概率分布。关于最大熵法的详细内容，可以参照以下的参考文献1和参考文献2。(参考文南夂1: Eric Sven Ristad, Maximum Entropy Modeling for Natural Language, ( ACL/EACL Tutorial Program, Madrid, 1997);参考文献2: Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta， ( http:〃www.mnemonic.com/software/memt, 1998 ))支持向量机法是利用超平面对空间进行分割从而对由两个分类构成的数据进行分类的方法。图4表示支持向量机法的分类间隔最大化的概念。图4中，白圈表示正例、黑圏表示负例，实线表示对空间进行分割的超平面、虛线表示用于表示分类间隔区域的边界的面。图4 ( A)是正例和负例的间隔狭窄的情况下(小间隔small margin)的概念图，图4 (B)是正例和负例的间隔宽阔的情况下(大间隔large margin )的概念图。这时，可以认为，如果两个分类是由正例和负例构成的，则学习数据中的正例和负例的间隔(margin)越大，开放数据(open data)中分类错误的可能性越低，如图4(B)所示，求取使该间隔达到最大的超平面，用于实施分类。基本情况如上所述，通常使用在学习数据中分类间隔的内部区域中也可以包含少数事例的方法扩展、或者将超平面的线形部分改为非线形的扩展(核函数的导入)。该扩展后的方法等价于使用以下识别函数进行分类，根据该识别函数的输出值是正还是负，能够判断两种分类。[算式5]<formula>formula see original document page 24</formula>其中，x表示要识别的事例的上下文(特性集合)，&和力(1=1, yj6 (1， -1})表示学习数据的上下文和分类目标，函数sgn是:<formula>formula see original document page 24</formula>另外，各o^在算式(10)和算式(11 )的制约下使算式(9)达到最大' [算式6]<formula>formula see original document page 24</formula>另外，函数K被称为核函数，可以使用各种各样的形式，在本实施方式中使用以下的多项式。<formula>formula see original document page 24</formula>
C、 d是在实验的基础上设定的常数。在后文叙述的具体实例中，C在所有处理中都固定为1。而d则尝试使用l和2这两种形式。这里， apt)时的Xj称为支持向量，通常情况下，算式(8)的求和部分仅使用该事例进行计算。即，在实际的分析中，仅使用学习数据之中被称为支持向量的事例。此外，关于扩展后的支持向量机法的详细内容可以参照以下的参考文献3和参考文献4。(参考文南大 3 : Nello Cristianini and John Shawe誦Taylor ， An Introduction to Support Vector Machines and other kernel-based learning methods, ( Cambridge University Press, 2000 );参考文献4: Taku Kudoh, Tinysvm: Support Vector machines, (http:〃cl.aist-nara.ac.jp/taku-ku〃software/Tiny SVM/index.htm 1,2000 ))支持向量机法处理分类数为2的数据。因此，在处理分类数大于等于3个的事例的情况下，通常将其与Pair-Wise法或One VS Rest法等方法组合起来使用。Pair-Wise法是在具有n个分类的数据的情况下，生成不同的2个分类目标的所有对(n ( n-1 ) /2个)，利用二值分类器即支持向量机法处理模块求取各对中哪一个较好，最终通过n (n-1 ) /2个二值分类得到的分类目标的多数决定，求取分类目标的方法。One VS Rest法是在例如存在a、 b、 c这样三个分类目标时生成分类目标a及其他、分类目标b及其他、分类c目标及其他这样的三个组，针对各个组利用支持向量机法进行学习处理。此外，在根据学习结果进行推断的处理中，使用这三个组的支持向量机的学习结果。观察要推断的二元关系的候选在这三个支持向量机中是怎样推断的，将在这三个支持向量机之中不是其他的分类目标、并且距离支持向量机的分离平面最远的情况下的分类目标作为所求取的解答。例如，当某一候选在"分类目标a与其他"的组的学习处理中生成的支持向量^/L中如果距离分离平面最远，就将该候选的分类目标推断为a。然后，候选提取部15从所输入的新的文本数据2中提取二元关系的候选。具体地，将文本数据2以句子单位进行分割，提取出各句子中成为二元关系的元素的表达(字符串)。继而，查看一个句子中成为二元关系的元素的表达是否存在二个以上，将一个句子中存在的二元关系的元素的全部两两组合(对)生成为二元关系的候选。另外，将新的文本数据2分割为各段落，提取出各段落中成为二元关系的元素的表达，针对同一段落中存在两个以上元素的段落，生成全部两两组合(对)作为二元关系的候选。另外，也可以从文本数据2的一个文档中提取成为二元关系的元素的表达，生成全部两两组合(对) 作为二元关系的候选。从文本数据2中提取成为二元关系的元素的表达的方法是上述教师数据生成方法中所说明的方法。例如，提取出与模式或词典的记载相吻合的表达，提取出基于有教师的机器学习的学习结果推断所得的表达。当文本数据2的一个句子中出现了两个以上的元素的情况下，将该元素的对作为二元关系的候选。此外，当一个句子中出现了三个以上的元素的情况下，将元素的所有组合对作为二元关系的候选。继而，特性提取部16通过与解答-特性对提取部12相同的处理从二元关系的候选中提取同样的特性。解答推断部17基于学习结果存储部14中存储的学习结果，针对各二元关系的候选，推断在该候选的特性集合的情况下容易形成正的解答 (positive)的程度。二元关系提取部18基于解答推断部17的推断结果，将二元关系的候选之中推断为容易形成正的解答的程度高的作为二元关系2输出。在本例中，提取上述特性，采用支持向量机法执行机器学习处理。利用10等分的交叉验证(cross-validation)调整精度时，得到F值-47.50/。的精度。F值表示再现率和符合率的调和平均。再现率是表示从文本数据2中应提取的二元关系之中何种程度的二元关系可以输出的比例。符合率是表示二元关系提取装置1所提取的二元关系之中何种程度的二元关系是应取出的二元关系的比例。在二元关系提取装置1中，利用机器学习部13基于预定的机器学习算法，使用所提供的教师数据，针对各二元关系的解答和特性集合的组，对在何种特性集合的情况下会成为何种解答这一内容进行机器学习处理，将表示在何种特性集合的情况下会成为何种解答这一内容的信息作为学习结果信息保存到学习结果存储部14,利用解答推断部17基于该学习结果信息推断在二元关系的候选的特性集合的情况下容易形成上述解答的程度。在二元关系提取装置1中，当采用k近邻法作为机器学习方法的情况下，机器学习部13对教师数据的事例之间基于从该事例中提取的特性集合之中重复特性的比例(具有多少个相同特性的比例)定义事例之间的类似度，将上述定义的类似度和事例作为学习结果信息预先保存到学习结果存储部14中。继而，解答推断部17在新的文本数据2输入时，参照学习结果存储部14所定义的相似度和事例，针对从文本数据2提取出来的二元关系的候选，按照与该候选的相似度高的顺序从学习结果存储部14的事例中选择k个事例，将所选择的k个事例通过多数决定所确定的分类目标推断为二元关系的候选的分类目标(解答)。亦即，在解答推断部17中，采用所选择的k个事例在执行多数决定时的票数即这里是"应提取" 这一分类所获得的票数即作为二元关系的候选的特性集合的情况下容易形成某个解答的程度。另外，在使用简单贝叶斯法作为机器学习法的情况下，机器学习部13针对教师数据的事例，将上述事例的解答和特性集合的组作为学习结果信息保存到学习结果存储部14。继而，解答推断部17在新的文本数据2输入时，基于学习结果存储部14的学习结果信息的解答和特性集合的组，根据贝叶斯定理计算出在特性提取部16 所取得的二元关系候选的特性集合的情况下成为各分类的概率，将其概率值最大的分类推断为该二元关系的候选的特性的分类(解答)。亦即，在解答推断部17中，采用成为各分类的概率即这里是成为"应提取" 这一分类的概率即作为二元关系的候选的特性集合的情况下容易形成某个解答的程度。另夕卜，在使用决策列表法作为机器学习法的情况下，机器学习部13 针对教师数据的事例，将特性和分类目标的规则按照预定优先顺序排列而成的列表保存到学习结果存储部14。继而，当新的文本数据2输入时，解答推断部17按照学习结果存储部14的列表的优先顺序高的顺序将从文本数据2中提取的二元关系的候选的特性与规则的特性进行比较，将特性一致的规则的分类目标推断为该候选的分类目标(解答)。亦即，在解答推断部17中，采用预定的优先顺序或与此相当的数值、尺度即这里是成为"应提取"这一分类的概率的列表中的优先顺序即作为二元关系的候选的特性集合的情况下容易形成某个解答的程度。另外，在使用最大熵法作为机器学习方法的情况下，机器学习部13 根据教师数据的事例确定可能成为解答的分类，求取可能成为满足预定条件公式并且表示熵的算式为最大时的特性集合和解答的分类的二项所构成的概率分布，保存到学习结果存储部14。继而，当新的文本数据2输入时，解答推断部17利用学习结果存储部14的概率分布，针对从文本数据2中提取的二元关系的候选的特性集合，求取可能成为其解答的分类的概率，确定可能成为具有最大概率值的解答的分类，将所确定的该分类推断为该候选的解答。亦即，在解答推断部17中，采用成为各分类的概率即这里是成为"应提取"这一分类的概率即作为二元关系的候选的特性集合的情况下容易形成某个解答的程度。另外，在使用支持向量机法作为机器学习方法的情况下，机器学习部13根据教师数据的事例确定可能成为解答的分类，将分类分割为正例和负例，按照使用了核函数的预定的执行函数，在以事例的特性集合作为维度的空间中，求取使该事例的正例和负例的间隔最大、并且以超平面对正例和负例进行分割的超平面，保存到学习结果存储部14。继而，当新的文本数据2输入后，解答推断部17利用学习结果存储部14的超平面，确定从文本数据2中提取的二元关系的候选的特性集合在以超平面分割而成的空间中是位于正例一侧还是负例一侧，根据该确定结果，将所决定的分类推断为该候选的解答。亦即，在解答推断部17中，采用从分离平面到正例(应提取的二元关系)的空间的距离大小作为二元关系的候选的特性集合的情况下容易形成某个解答的程度。更详细来说，在以应提取的二元关系作为正例、以不应提取的二元关系作为负例的情况下，相对于分离平面，将位于正例一侧的空间中的事例判定为"应提取的事例，，，将该事例与分离平面的距离作为该事例的程度。另外，在解答-特性对提取部12中，也可以使用例如"两个元素自身的单词"作为特性。另外，也可以使用"从元素的前方开始第一个单词/字符串、第二个单词/字符串、从后方开始第一个单词/字符串、第二个单词/字符串"作为特性。在图3 (A)的情况下，特性是 "第1元素为'presenilin ( PS ) 1，；第2元素为 'delta誦catenin';第1元素的第一个单词为 'presenilin，；第l元素的第二个单词为'(PS)，；第1元素的最后开始的第二个单词为'(PS)，；第1元素的最后开始的第一个单词为'l，；第2元素的第一个单词为'delta';第2元素的第一个单词为'-，；第2元素的最后开始的第二个单词为'-，；第2元素的最后开始的第一个单词为'cateninT、fe^，"。另外，"第1元素的开始的1个字符为'p，；第1元素的开始的2个字符为'pr，；第1元素的开始的3个字符为'pre,;第1元素的最后的1个字符为'r ;第1元素的最后的2个字符为'X《一又，r;第1元素的最后的3个字符为'),X《一X, r;第2元素的开始的1个字符为'd，；第2元素的开始的2个字符为'de，；第2元素的开始的3个字符为'del，；第2元素的最后的1个字符为'n，；第2元素的最后的2个字符为'in，；第3元素的最后的3个字符为<^i^,，，。另外，在以元素的前后2个单词自身及其词类信息作为特性的情况特性是"第1元素的两个之前的单词为' interaction'; 第1元素的两个之前的单词的词类为'名词，；第l元素的前一个单词为'with'; 第1元素的前一个单词的词类为'前置词'；第l元素的后一个单词为'and，；第1元素的后一个单词的词类为'连接词，；第1元素的两个之后的单词为'cloned';; 第1元素的两个之后的单词的词类为'动词，；第2元素的两个之前的单词为'of; 第2元素的两个之前的单词的词类为'前置词，；第2元素的前一个单词为 'human，；第2元素的前一个单词的词类为'名词，；第2元素的后一个单词为'which，；笫2元素的后一个单词的词类为'代名词，；第2元素的两个之后的单词为'encoded';第2元素的两个之后的单词的词类为'动词，"。另外，在使用两个元素之间的距离、即这两个元素之间所存在的单词数目作为特性的情况下，"两个元素之间的距离为'9，"这一信息就成为特性。另外，将两个元素之间的单词数为0到1的状态称为"小距离"、单词数为2到4的状态称为"中等距离"、单词数为5到9的状态称为 "大距离"、单词数大于等于10的状态称为"特大距离，，，在以各自的状态作为特性的情况下，"两个元素之间的距离为'大距离，"这一信息就成为特性。另外，在将两个元素之间有无其他元素存在这一状态作为特性的情况下，"两个元素之间不存在其他元素"这一信息就成为特性。进而，在设定了不同种类的术语作为二元关系的元素的情况下，也可以将元素的出现顺序作为特性使用。例如，在病名和治疗方法的二元关系中，"第1元素为'病名，、第2元素为'治疗方法，"或者"第1 元素为'治疗方法，、第2元素为'病名，"这一信息就成为特性。二元关系提取装置1除了提供存在相互作用的蛋白质表达的二元关系作为教师数据之外，也可以提供病名和治疗方法的二元关系、病名和蛋白质表达的二元关系、病名和器官(内脏器官)的二元关系、病名和动物种类的二元关系、病名和相关化学物质的二元关系、蛋白质表达和目前为止针对该蛋白质所作的实验方法的二元关系等各种各样的二元关系的事例，从而能够从生物医学论文的文本数据2中提取它们所对应的二元关系。例如，可以使用包含以下二元关系的文本数据作为教师数据。 r Oral corticosteroids(元素治疗方法)are the preference of many for the treatment of CIDP (元素病名),being much less expensive than IVIG (元素治疗方法)infusion or TA (元素治疗方法).Jr In the CIDP (元素:病名)patient, the IgG antibody (元素:蛋白质表达)titer to GD3(元素化学物质表达)was remarkably elevated( titer, 1: 10,000 ), indicating maximal avidity to the tetrasaccharide epitope (-NeuAcalpha2-8NeuAcalpha2-3Galbetal-4Glc-) . Jr Ciliated metaplasia ( CM ) in the stomach (元素器官名)is mainly found in gastric mucosa (元素器官名)that harboursgastric cancer (元素病名)」「 Variant Creutzfbldt-Jakob disease ( CJD )(元素病名)is a transmissible spongiform encephalopathy believed to be caused by the bovine (元素动物种类)spongiform encephalopathy agent， an abnormal isofbrmof the prion protein ( PrP (sc))(元素蛋白质表达).Jr AIDP(元素病名)and CIDP(元素病名)having specific antibodies to the carbohy drate epitope ( -NeuAcalpha2-8NeuAcalpha2-3Galbetal-4Glc-) of gangliosides.(元素化学物质表达)JGene expression in archived frozen suralnerve biopsies of patients with chronic inflammatory delnyelinatingpolyneuropathy ( CIDP )(元素病名)was compared to that in vasculitic nerve biopsies( VAS )and to normal nerve ( NN ) by DNA microarraytechnology (元素实马全方、法).Jr This novel interaction was identified in a yeast two-hybrid screen (元素实验方法)using PrP ( C )(元素蛋白质表达)as bait and confirmed by an in vitro binding assay and co-immunoprecipitations Jr Comparative study of the PrP ( BSE )(元素蛋白质表达) distribution in brains (元素器官名)from BSE (元素病名)field cases using rapid tests (元素检查法).J另外，也可以将例如公司的产品名称和对该产品的评价(例如，评价好、坏等信息)的对作为二元关系提取出来。如上所述，借助于本发明的二元关系提取装置1,只要准备赋予了是否是应提取的二元关系的评价(解答)的文本数据作为机器学习处理用的教师数据，就能够从新的文本数据中自动地提取推断为应提取的二元关系。由此，能够避免二元关系提取处理中所使用的模式生成的复杂性。另外，通过提高有教师的机器学习的精度，有可能提高二元关系提取处理的性能。接着说明本发明的信息检索装置4的实施例。信息检索装置4是这样一种处理装置，其将AND检索处理的两个检索关键字的关系看作是有意义的二元关系，针对以这些检索关键字为元素的二元关系，使用赋予了表示其是应提取的关系(正)或表示其不是应提取的关系(负)的任一个的解答的标签的教师数据进行机器学习，从检索对象即检索用文本数据5中，将包含两个检索关键字的报道、并被推断为应提取该检索关键字对的二元关系的内容作为检索结果6输出。图6中表示本发明的信息检索装置4的结构实例。信息检索装置4 具备信息检索部40、教师数据存储部41、解答-特性对提取部42、机器学习部43、学习结果存储部44、候选提取部45、特性提取部46、解答推断部47、以及检索结果提取部48。信息检索装置4的教师数据存储部41、解答-特性对提取部42、机器学习部43、学习结果存储部44、候选提取部45、特性提取部46以及解答推断部47是分别执行与图1所示的二元关系提取装置1的教师数据存储部11、解答-特性对提取部12、机器学习部13、学习结果存储部14、候选提取部15、特性提取部16以及解答推断部17相同的处理的处理装置。信息检索部40使用AND检索处理中所提供的检索关键字对检索用文本数据5进行检索，取得相应的报道(文本数据)。候选提取部45提取以与信息检索部40所取得的报道中包含的两个检索关键字相同的字符串(单词)的对为元素的二元关系的候选。检索结果提取部48基于解答推断部47的推断结果，从由检索用文本数据5中检索得到的报道的二元关系的候选中提取容易形成所推断的正的解答(是应提取的二元关系)的程度好于预定程度的候选，将包含所提取的二元关系的候选的报道或用于确定报道的信息作为检索结果6输出。图7中表示信息检索装置4的处理流程。信息检索装置4的教师数据存储部41中预先保存着文本数据作为教师数据，该文本数据包含在以AND检索处理中提供的两个检索关键字作为元素的二元关系中赋予了用于表示其是应提取的二元关系(正)还是不应提取的二元关系(负) 的任一个的"解答"的信息的事例。首先，解答-特性对提取部42根据教师数据存储部41的教师数据，针对各事例提取预定的特性，生成解答(通过标签赋予的信息)和所提取的特性的集合的组(步骤Sll)。解答-特性对提取部42根据预定的标签从教师数据即文本数据中提取二元关系，针对所提取的二元关系的元素(检索关键字)执行形态要素分析处理、句法分析处理、元素的出现位置或元素之间的距离的计算处理等，提取预定的特性。此外，机器学习部43根据由解答-特性对提取部42生成的解答和特性集合的组，通过机器学习法学习在何种特性集合时容易形成何种解答(正或负)，并将学习结果保存到学习结果存储部44 (步骤S12)。机器学习部43使用例如k近邻法、简单贝叶斯法、决策列表法、最大熵法、支持向量机法等方法之中的某一种作为有教师的机器学习法，执行机器学习处理。其后，候选提取部45使用在AND检索处理中提供的两个输入检索关键字生成全部的两组合(对)(步骤S13)。信息检索部40使用两个输入检索关键字的对针对检索用文本数据5进行AND检索处理，提取包含输入检索关键字对的报道(文本数据)，候选提取部45使用通过检索处理提取的报道中出现的输入检索关键字将全部的两组合(对)作为二元关系提取出来(步骤S14)。继.而，特性提取部46通过与解答-特性对提取部42中所执行的处理大致相同的处理，针对检索得到的报道中出现的二元关系的各候选，提取预定的特性的集合(步骤S15)。解答推断部47基于学习结果存储部14的学习结果，针对各候选推断在该特性集合的情况下容易形成何种解答、即"容易形成正"还是"容易形成负"的程度(步骤S16)。继而，检索结果提取部48从二元关系的候选中将以优于预定程度的程度推断为"容易形成正"的作为应提取的二元关系选择出来，将包含该二元关系的报道或用于确定报道的信息作为检索结果6输出(步骤sn)。接着说明本发明的信息检索处理的具体实例。在本实例中，信息检索装置4将检索用文本数据5之中包含有可能成为在AND检索处理中使用的两个检索关键字的字符串作为元素的二元关系的文本数据用作教师数据。此外，制作以在AND检索处理中提供的输入检索关键字为元素的二元关系的候选，使用该二元关系的候选进行检索，从检索用文本数据5中提取报道。推断检索得到的报道中包含的输入检索关键字的二元关系的候选是否应提取，将包含被推断为应提取的程度高的二元关系的候选的报道作为检索结果6输出。假定AND检索的检索关键字设定为"京大"和"総長"。另外，由人来判断检索关键字的二元关系是正还是负，通过人工赋予表示正或负的解答的标签。因此，在机器学习处理中使用包含正的事例和负的事例的教师数据。图8至图10中表示教师数据存储部41中存储的教师数据的实例和根据该教师数据利用解答-特性对提取部42提取的特性的实例。在本实例中，图8和图9的教师数据D1、 D2中赋予了针对应提取的二元关系表示解答为正(positive)的标签。另外，在图10的教师数据D3中赋予了针对不应提取的二元关系表示解答为负(negative)的标签。图8的教师数据Dl中包含两个检索关键字的对即二元关系的对 P3, 二元关系(对)P3由第1元素pl (检索键K1 )"京大"、第2元素 p2 (检索键K2)"総長"构成，在二元关系的对P3中赋予了正的解答 (positive )。同样地，图9的教师数据D2中包含两个检索关键字的对即二元关系的对P4，二元关系(对)P4由第1元素pl (检索键K1 )"京大"、第 2元素p2 (检索键K2)"総長"构成，在二元关系的对P4中赋予了正的解答(positive )。这是因为，能够判断图8和图9的教师数据内容为 "京大。総長"。另外，图10的教师数据D3中包含两个检索关键字的对即二元关系的对P5，二元关系(对)P5由第1元素pl (检索键K1 )"京大"、第2 元素p2 (检索键K2)"総長"构成，在二元关系的对P5中赋予了负的解答(negative )。在同一数据内出现了 "京大"和"総長"，但能够判断其相互之间没有关系，不是"京大0総長"的内容。解答-特性对提取部42根据教师数据存储部41中存储的教师数据的事例提取解答和特性的集合的组。例如，作为特性，采用元素(检索关键字)前后的两个单词的单词本身和单词的词类作为特性。例如，以教师数据D1为例，特性是"第1元素的两个之前的单词为'今日，；第1元素的两个之前的单词的词类为'名词，；第l元的前一个单词为'，，；第1元素的前一个单词的词类为'逗号，；第l元素的后一个单词为'<formula>formula see original document page 34</formula>，第1元素的后一个单词的词类为'助词，；34第l元素的后一个单词为'(7)，；第1元素的后一个单词的词类为'助词，；第2元素的两个之前的单词为'T、，；第2元素的两个之前的单词的词类为'助词，；第2元素的前一个单词为'，，第2元素的前一个单词的词类为'逗号，；第2元素的后一个单词为'力《，；第2元素的后一个单词的词类为'助词，；第2元素的两个之后的单词为'出席，；第2元素的两个之后的单词的词类为'名词，"。此外，解答-特性对提取部42能够将二元关系提取处理中所说明的信息作为特性提取出来。机器学习部43基于该解答和特性的集合对在何种特性集合的情况下容易形成何种解答(正(positive ) /负(negative ))进行机器学习处理，并将学习结果保存到学习结果存储部44。机器学习部43使用例如k近邻法、简单贝叶斯法、决策列表法、最大熵法、支持向量机法等上述处理方法作为有教师的机器学习法。其后，信息检索部40根据所提供的输入检索关键字"京大"和"総長"对检索用文本数据5进行AND检索，取得包含输入检索关键字的报道。继而，候选提取部45从所提取的报道中提取二元关系的候选。具体地，根据AND检索的检索结果即报道中包含的输入检索关键字中提取二元关系的候选。继而，特性提取部46从二元关系的候选中提取与解答-特性对提取部42相同的特性，解答推断部47根据学习结果存储部44中存储的学习结果，针对各二元关系的候选，推断在该候选的特性集合的情况下容易形成正(positive)或负(negative)的程度。检索结果提取部48根据解答推断部47的推断结果，从二元关系的候选中提取推断得到的容易形成正的解答的程度较高的二元关系，将包含该二元关系的报道、用于特定报道的信息作为检索结果6输出。例如，候选提取部45根据所提供的输入检索关键字生成两个输入关键字的全部组合(对)，将生成的对作为二元关系的候选。继而，信息检索部40使用各个二元关系的候选的元素(两个输入检索关键字) 执行AND检索处理。继而，特性提取部46针对所提取的报道中出现的二元关系的候选，提取预定的特性集合。解答推断部47基于学习结果存储部44的学习结果，针对各二元关系的候选，推断在该候选的特性集合的情况下容易形成解答的程度。当输入检索关键字对即二元关系的候选在检索到的其报道内分别只出现一个一个时，在推断发现所有这些二元关系的候选为正(应提取)的程度较高的情况下，将该报道、用于确定报道的信息作为检索结果6。另外，当输入检索关键字对即二元关系在检索到的该报道内出现多次时，以针对所出现的多个二元关系的候选之中的一个候选推断发现为正(应提取)的程度较高为条件，进而，在推断发现各个二元关系的候选全部满足上述条件、正的程度高的情况下，将该报道、用于确定报道的信息作为检索结果6。进而，候选提取部45根据所提供的输入检索关键字，生成全部的两个输入检索关键字对，将生成的对用作二元关系的候选。继而，信息检索部40使用各个二元关系的候选的元素(两个输入检索关键字)执行AND检索处理。继而，特性提取部46针对所提取的报道中出现的二元关系的候选，提取预定的特性集合。解答推断部47基于学习结果存储部44的学习结果，针对各二元关系的候选，推断在该候选的特性集合的情况下容易形成解答的程度。当输入检索关键字对即二元关系的候选在检索到的该报道内分别只出现一个一个时，针对所有这些二元关系的候选推断其为正(应提取)的程度，将针对所有这些二元关系的候选推断得出的正的程度相乘，结果作为该报道的正的程度。继而，将推断发现正的程度较高的报道、用于确定报道的信息用作检索结果6。另外，当输入检索关键字对即二元关系在检索到的报道内出现多次时，针对所出现的多个二元关系的候选推断其正的程度，将这些多个二元关系的候选的推断得出的程度之中值最好的程度作为该二元关系的候选的程度。继而，求取各个二元关系的程度，将求得的程度相乘，结果作为该报道的正的程度。继而，将推断发现正的程度较高的报道、用于确定报道的信息用作检索结果6。如上所述，借助于本发明的信息检索装置4,只要准备好在AND 检索处理的两个检索关键字的二元关系中赋予表示其是否是应提取的二元关系的评价的文本数据作为机器学习处理用的教师数据，就能够从新的检索用文本数据5之中自动地提取包含应提取的二元关系的报道。本发明的信息检索装置4通过使用二元关系提取处理对AND检索处理的检索结果的报道中出现的检索关键字的关系进行评价，根据其对检索关键字的包含进行匹配，能够排除检索关键字之间的关系松散、其结果是在内容上无关的、即偏离检索意图的报道内容。另外，通过提高有教师的机器学习的精度，有可能提高信息检索处理的性能。以上的实施例说明了二元关系提取处理和信息检索处理中由两个元素构成的二元关系的实例。本发明也适用于三个元素构成的三元关系。例如，在二元关系提取装置l中，准备包含三个元素的三元关系的数据作为教师数据。此外，解答-特性对提取部12将例如三个元素之中的第l元素(最早出现的元素)的前方两个单词、第3元素(最后出现的元素)的后方两个单词、第1元素和第2元素(中间出现的元素) 之间的全部单词、第2元素和第3元素之间的全部单词的单词信息作为该三元关系的特性，由此，机器学习部13能够根据三元关系的特性的集合学习形成解答的容易程度，在二元关系提取部18中能够实现三元关系的提取。此外，提供给三元关系的解答与二元关系的情形同样地设定为"应提取的三元关系"或"不应提取的三元关系"。例如，在二元关系提取装置l中，准备包含三个元素的三元关系的数据作为教师数据。继而，二元关系提取装置1的各处理单元将由教师数据的三元关系分解得到的各个二元关系即第1元素和第2元素的二元关系、第2元素和第3元素的二元关系、第1元素和第3元素的二元关系分别作为单个的二元关系进行处理。继而，针对所有的各个二元关系，计算出其是否是应提取的三元关系的解答的程度，将计算得到的程度相乘后所得的值作为该三元关系的程度。继而，将其程度大的作为应提取的三元关系提取出来。这时，如果机器学习部13使用的是支持向量机法，则分类目标有两个(正或负)，因此，使用Pair-Wise法或One VS Rest法对三元关系进行机器学习。另外，在二元关系提取部18中，在提取二元关系3时，求取该提取的确信度。此外，由多个二元关系组合而成的三元关系的确信度使用各个组合的二元关系的确信度的乘积，从中提取三元关系的确信度大的。二元关系的确信度使用在通常的机器学习处理中计算得到的确信度。在信息检索装置4中也能够以同样的方式执行这种三元关系的提取处理。例如，在检索与"平成12年0京大(D総長，，相关的报道的情况下，提供包含由"平成12年"、"京大"以及"総長"这三个检索关键字构成的三元关系的数据作为教师数据，从检索用文本数据5中输出利用这三个检索关键字进行AND检索的检索结果6。另外，在本实例中，使用了 "正(是应提取的二元关系)"或"负 (不是应提取的二元关系)"作为赋予事例的二元关系或三元关系的解答的信息进行说明，但所赋予的解答信息也可以是例如"存在相互作用"、"存在反作用"、"没有作用"等多分类的信息。以上通过其实施方式对本发明进行了说明，但本发明在其主旨范围内可以作出各种各样的变形，这是不言而喻的。另外，本发明也可以作为可由计算机读取并执行的程序实施。实现本发明的程序可以保存到计算机可读的可搬运介质存储器、半导体存储器、硬盘等适当的记录介质中，记录到这些记录介质中而被提供，或者通过通信接口，利用各种通信网进行发送接收而提供。
权利要求
1.一种二元关系提取装置，其特征在于，是一种使用机器学习处理提取计算机可读取的存储装置中所保存的文本数据中所出现的二元关系的处理装置，其具备以下单元教师数据存储单元，其中保存的教师数据包含的是由问题与解答的组所构成的事例、问题是文本数据中所出现的二元关系、解答是要提取的二元关系；解答-特性对提取单元，用于从上述教师数据存储单元中提取上述事例，针对上述每个事例，提取预定信息作为特性，生成由上述解答和上述所提取的特性的集合构成的组；机器学习单元，其基于预定的机器学习算法，针对上述解答和特性的集合构成的组执行机器学习处理，学习在何种特性集合的情况下会形成上述解答，将表示在上述何种特性集合的情况下会形成上述解答的信息作为学习结果信息保存到学习结果存储单元中；候选提取单元，其从上述存储装置中保存的文本数据中提取上述二元关系的元素，并提取由上述元素所构成的对，将上述提取的对作为二元关系的候选；特性提取单元，其通过执行与上述解答-特性对提取单元所执行的提取处理相同的提取处理，针对上述二元关系的候选，提取上述预定信息作为特性；解答推断单元，其基于上述学习结果存储单元中保存的上述学习结果信息，推断在上述二元关系的候选特性的集合的情况下容易形成上述解答的程度；二元关系提取单元，其在针对上述二元关系的候选容易形成表示其是应提取的二元关系的解答的程度好于预定程度的情况下，选择上述二元关系的候选作为应提取的二元关系。
2. 如权利要求1所述的二元关系提取装置，其特征在于，上述教师数据存储单元保存着教师数据，该教师数据所包含的上述事例有其中提供了表示成为问题的二元关系是应提取的二元关系的正的解答的正的事例、其中提供了表示成为问题的二元关系是不应提取的二元关系的负的解答的负的事例。
3. 如权利要求1或权利要求2的任意一项所述的二元关系提取装置，其特征在于，上述机器学习单元根据上述教师数据设定由上述预定信息即特性的集合和表示解答的信息的对所构成的规则，将上述规则按照预定顺序排列成列表作为学习结果，将上述规则的列表作为学习结果信息保存到上述学习结果存储单元中；上述解答推断单元从开头位置对上述学习结果存储单元中保存的上述学习结果信息即上述规则的列表进行查验，检测出与从上述二元关系的候选中提取的特性集合一致的规则，基于表示所检测到的规则的解答的信息，推断出上述二元关系的候选的解答。
4. 如权利要求1或权利要求2的任意一项所述的二元关系提取装置，其特征在于，上述机器学习单元根据上述教师数据确定可能成为解答的分类，求取在满足预定条件公式并且使表示熵的算式达到最大时的特性集合和可能成为解答的分类这二项构成的概率分布，将上述概率分布作为上述学习结果信息保存到上述学习结果存储部；上述解答推断单元利用上述学习结果存储单元中保存的上述学习结果信息即上述概率分布求取在上述二元关系的候选的集合的情况下可能成为各个解答的分类的概率，确定出可能成为具有最大概率值的解答的分类，将上述确定的分类推断为上述二元关系的候选的解答。
5. 如权利要求1或权利要求2的任意一项所述的二元关系提取装置，其特征在于，上述机器学习单元根据上述教师数据确定可能成为解答的分类，将上述分类分割为正例和负例，按照使用了预定核函数的执行支持向量机法的函数，在以从上述二元关系的候选中提取出来的特性集合为维度的空间中，求取使上述正例和上述负例的间隔最大、并且被超平面分割的超平面，将上述超平面作为上述学习结果信息保存到上述学习结果存储单元；上述解答推断单元利用上述学习结果存储单元中保存的上述学习结果信息即上述超平面，确定从上述二元关系的候选中提取的特性集合在上述超平面分割而成上述空间中位于上述正例一侧还是上述负例一侧，根据上述确定的结果确定可能成为解答的分类，将上述确定的分类推断为上述二元关系的候选的解答。
6. 如权利要求1或权利要求2的任意一项所述的二元关系提取装置，其特征在于，上述机器学习单元预先定义基于上述教师数据的事例之间在从该事例中提取出来的特性集合之中重复特性的比例的事例之间的相似度，将上述定义的相似度和事例作为上述学习结果信息保存到上述学习结果存储单元；上述解答推断单元参照上述学习结果存储单元中保存的上述学习结果信息即上述所定义的相似度和上述事例，针对上述二元关系的候选，按照与该候选的相似度高的顺序选择k个事例，将由上述所选择的 k个事例通过多数决定而确定的分类目标推断为上述二元关系的候选的解答。
7. 如权利要求1或权利要求2的任意一项所述的二元关系提取装置，其特征在于，上述机器学习单元将上述解答和特性集合的组作为上述学习结果信息保存到上述学习结果存储单元；上述解答推断单元基于上述学习结果存储单元的上述解答和特性集合的组，根据贝叶斯定理计算出在由上述特性提取单元所取得的上述二元关系的候选的特性集合的情况下成为各分类的概率，将上述概率值最大的分类推断为上述二元关系的候选的解答。
8. —种使用了二元关系提取处理的信息检索装置，其特征在于，是在使用多个检索关键字进行信息检索的处理中，利用使用有教师的机器学习处理的二元关系提取处理结果提取检索结果的处理装置；其具备以下单元教师数据存储单元，其中保存的教师数据包含的是由问题与解答的组所构成的事例、问题是以检索关键字作为元素的二元关系、解答是要提取的二元关系；解答-特性对提取单元，用于从上述教师数据存储单元中提取上述事例，针对上述每个事例，提取预定信息作为特性，生成由上述解答和上述所提取的特性的集合构成的组；机器学习单元，其基于预定的机器学习算法，针对上述解答和特性的集合构成的组执行机器学习处理，学习在何种特性集合的情况下会形成上述解答，将表示在上述何种特性集合的情况下会形成上述解答的信息作为学习结果信息保存到学习结果存储单元中；信息检索单元，其生成使用所输入的多个检索关键字的输入检索关键字对，从作为检索对象的文本数据中提取并得到包含上述输入检索关键字对的文本数据；候选提取单元，其根据通过上述检索取得的各文本数据生成由上述输入检索关键字所构成的对，将上述生成的对作为二元关系的候选；特性提取单元，其通过执行与上述解答-特性对提取单元所执行的提取处理相同的提取处理，针对上述二元关系的候选，提取上述预定信息作为特性；解答推断单元，其基于上述学习结果存储单元中保存的上述学习结果信息，推断在上述二元关系的候选特性的集合的情况下容易形成上述解答的程度；检索结果提取单元，其在针对上述二元关系的候选容易形成表示其是应提取的二元关系的解答的程度好于预定程度的情况下，选择上述二元关系的候选作为应提取的二元关系，将包含上述所选择的二元关系的文本数据作为检索结果提取出来。
9. 如权利要求8所述的使用了二元关系提取处理的信息检索装置，其特征在于，上述教师数据存储单元保存着教师数据，该教师数据所包含的上述事例有其中提供了表示成为问题的二元关系是应提取的二元关系的正的解答的正的事例，其中提供了表示成为问题的二元关系是不应提取的二元关系的负的解答的负的事例。
10. 如权利要求8或权利要求9的任意一项所述的使用了二元关系提取处理的信息检索装置，其特征在于，上述机器学习单元根据上述教师数据设定由上述预定信息即特性的集合和表示解答的信息的对所构规则的列表作为学习结果信息保存到上述学习结果存储;元中；'上述解答推断单元从开头位置对上述学习结果存储单元中保存的上述学习结果信息即上述规则的列表进行查验，检测出与从上述二元关系的候选中提取的特性集合一致的规则，基于表示所检测到的规则的解答的信息，推断出上述二元关系的候选的解答。
11. 如权利要求8或权利要求9的任意一项所述的使用了二元关系提取处理的信息检索装置，其特征在于，上述机器学习单元根据上述教师数据确定可能成为解答的分类，求取在满足预定条件公式并且使表示熵的算式达到最大时的特性集合和可能成为解答的分类这二项构成的概率分布，将上述概率分布作为上述学习结果信息保存到上述学习结果存4诸部；上述解答推断单元利用上述学习结果存储单元中保存的上述学习结果信息即上述概率分布，求取在上述二元关系的候选的集合的情况下可能成为各个解答的分类的概率，确定出可能成为具有最大概率值的解答的分类，将上述确定的分类推断为上述二元关系的候选的解答。
12. 如权利要求8或权利要求9的任意一项所述的使用了二元关系提取处理的信息检索装置，其特征在于，上述机器学习单元根据上述教师数据确定可能成为解答的分类，将上述分类分割为正例和负例，按照使用了预定核函数的执行支持向量机法的函数，在以从上述二元关系的候选中提取出来的特性集合为维度的空间中，求取使上述正例和上述负例的间隔最大、并且被超平面分割的超平面，将上述超平面作为上述学习结果信息保存到上述学习结果存储单元；上述解答推断单元利用上述学习结果存储单元中保存的上述学习结果信息即上述超平面，确定从上述二元关系的候选中提取的特性集合在上述超平面分割而成的上述空间中位于上述正例一侧还是上述负例一侧，根据上述确定的结果确定可能成为解答的分类，将上述确定的分类推断为上述二元关系的候选的解答。
13. 如权利要求8或权利要求9的任意一项所述的使用了二元关系提取处理的信息检索装置，其特征在于，上述机器学习单元预先定义基于上述教师数据的事例之间在从该事例中提取出来的特性集合之中重复特性的比例的事例之间的相似度，将上述定义的相似度和事例作为上述学习结果信息保存到上述学习结果存储单元；上述解答推断单元参照上述学习结果存储单元中保存的上述学习结果信息即上述所定义的相似度和上述事例，针对上述二元关系的候选，按照与该候选的相似度高的顺序选择k个事例，将由上述所选择的 k个事例通过多数决定而确定的分类目标推断为上述二元关系的候选的解答。
14. 如权利要求8或权利要求9的任意一项所述的使用了二元关系提取处理的信息检索装置，其特征在于，上述机器学习单元将上述解答和特性集合的组作为上述学习结果信息保存到上述学习结果存储单元；上述解答推断单元基于上述学习结果存储单元的上述解答和特性集合的组，根据贝叶斯定理计算出在由上述特性提取单元所取得的上述二元关系的候选的特性集合的情况下成为各分类的概率，将上述概率值最大的分类推断为上述二元关系的候选的解答。
15. —种二元关系提取处理方法，其特征在于，是一种使用机器学习处理提取计算机可读取的存储装置中所保存的文本数据中所出现的二元关系的二元关系提取处理方法，其包括解答-特性对提取处理过程，其从保存着包含由问题和解答的组构成的事例中问题是文本数据中出现的二元关系、解答是应提取的二元关系作为内容的教师数据的教师数据存储单元中提取上述事例，针对上述每个事例，提取预定的信息作为特性，生成上述解答和上述所提取的特性集合的组；机器学习处理过程，其基于预定的机器学习算法，针对上述解答和特性的集合构成的组执行机器学习处理，学习在何种特性集合的情况下会形成上述解答，将表示在上述何种特性集合的情况下会形成上述解答的信息作为学习结果信息保存到学习结果存储单元中；候选提取处理过程，其从上述存储装置中保存的文本数据中提取上述二元关系的元素，并提取由上述元素所构成的对，将上述提取的对作为二元关系的候选；特性提取处理过程，其通过执行与上述解答-特性对提取单元所执行的提取处理相同的提取处理，针对上述二元关系的候选，提取上述预定信息作为特性；解答推断处理过程，其基于上述学习结果存储单元中保存的上述学习结果信息，推断在上述二元关系的候选特性的集合的情况下容易形成上述解答的程度；二元关系提取处理过程，其在作为上述推断结果、针对上述二元关系的候选容易形成表示其是应提取的二元关系的解答的程度好于预定程度的情况下，选择上述二元关系的候选作为应提取的二元关系。
16. —种使用了二元关系提取处理的信息检索处理方法，其特征在于，是在计算机使用多个检索关键字进行信息检索处理的情况下，利用使用有教师的机器学习处理的二元关系提取处理结果提取检索结果的信息检索处理方法；其包括解答-特性对提取处理过程，其从保存着包含由问题和解答的组构成的事例中问题是以检索关键字为元素的二元关系、解答是应提取的二元关系作为内容的教师数据的教师数据存储单元中提取上述事例，针对上述每个事例，提取预定的信息作为特性，生成上述解答和上述所提取的特性集合的组；机器学习处理过程，其基于预定的机器学习算法，针对上述解答和特性的集合构成的组执行机器学习处理，学习在何种特性集合的情况下会形成上述解答，将表示在上述何种特性集合的情况下会形成上述解答的信息作为学习结果信息保存到学习结果存储单元中；信息检索处理过程，其生成使用所输入的多个检索关键字的输入检索关键字对，从作为检索对象的文本数据中提取包含上述输入检索关键字对的文本数据；候选提取处理过程，其根据通过上述检索取得的各文本数据生成由上述输入检索关键字所构成的对，将上述生成的对作为二元关系的候选；特性提取处理过程，其通过执行与上述解答-特性对提取单元所执行的提取处理相同的提取处理，针对上述二元关系的候选，提取上述预定信息作为特性；解答推断处理过程，其基于上述学习结果存储单元中保存的上述学习结果信息，推断在上述二元关系的候选特性的集合的情况下容易形成上述解答的程度；检索结果提取处理过程，其在作为上述推断结果、针对上述二元关系的候选容易形成表示其是应提取的二元关系的解答的程度好于预定程度的情况下，选择上述二元关系的候选作为应提取的二元关系，将包含上述所选择的二元关系的文本数据作为检索结果提取出来。
17. —种二元关系提取处理程序，其特征在于，其执行一种使用机器学习处理提取计算机可读取的存储装置中所保存的文本数据中所出现的二元关系的处理方法，该方法扭J亍解答-特性对提取处理过程，其从保存着包含由问题和解答的组构成的事例中问题是文本数据中出现的二元关系、解答是应提取的二元关系作为内容的教师数据的教师数据存储单元中提取上述事例，针对上述每个事例，提取预定的信息作为特性，生成上述解答和上述所提取的特性集合的组；机器学习处理过程，其基于预定的机器学习算法，针对上述解答和特性的集合构成的组执行机器学习处理，学习在何种特性集合的情况下会形成上述解答，将表示在上述何种特性集合的情况下会形成上述解答的信息作为学习结果信息保存到学习结果存储单元中；候选提取处理过程，其从上述存储装置中保存的文本数据中提取上述二元关系的元素，并提取由上述元素所构成的对，将上述提取的对作为二元关系的候选；特性提取处理过程，其通过执行与上述解答-特性对提取单元所执行的提取处理相同的提取处理，针对上述二元关系的候选，提取上述预定信息作为特性；解答推断处理过程，其基于上述学习结果存储单元中保存的上述学习结果信息，推断在上述二元关系的候选特性的集合的情况下容易形成上述解答的程度；二元关系提取处理过程，其在作为上述推断结果、针对上述二元关系的候选容易形成表示其是应提取的二元关系的解答的程度好于预定程度的情况下，选择上述二元关系的候选作为应提取的二元关系。
18. —种使用了二元关系提取处理的信息检索处理程序，其特征在于，其是一种在计算机使用多个检索关键字进行信息检索处理的情况下，利用使用有教师的机器学习处理的二元关系提取处理结果提取检索结果的方法；该方法执行解答-特性对提取处理过程，其从保存着包含由问题和解答的组构成的事例中问题是以检索关键字为元素的二元关系、解答是应提取的二元关系作为内容的教师数据的教师数据存储单元中提取上述事例，针对上述每个事例，提取预定的信息作为特性，生成上述解答和上述所提取的特性集合的组；机器学习处理过程，其基于预定的机器学习算法，针对上述解答和特性的集合构成的组执行机器学习处理，学习在何种特性集合的情况下会形成上述解答，将表示在上迷何种特性集合的情况下会形成上述解答的信息作为学习结果信息保存到学习结果存储单元中；信息检索处理过程，其生成使用所输入的多个检索关键字的输入检索关键字对，从作为检索对象的文本数据中提取包含上述输入检索关键字对的文本数据；候选提取处理过程，其根据通过上述检索取得的各文本数据生成由上述输入检索关键字所构成的对，将上述生成的对作为二元关系的候选；特性提取处理过程，其通过执行与上述解答-特性对提取单元所执行的提取处理相同的提取处理，针对上述二元关系的候选，提取上述预定信息作为特性；解答推断处理过程，其基于上述学习结果存储单元中保存的上述学习结果信息，推断在上述二元关系的候选特性的集合的情况下容易形成上述解答的程度；检索结果提取处理过程，其在作为上述推断结果、针对上述二元关系的候选容易形成表示其是应提取的二元关系的解答的程度好于预定程度的情况下，选择上述二元关系的候选作为应提取的二元关系，将包含上述所选择的二元关系的文本数据作为检索结果提取出来。
全文摘要
本发明提供一种针对复杂的问题也能够高性能地提取二元关系的装置。解答-特性对提取部(12)从保存着包含在文本数据中出现的二元关系中赋予了表示其是应提取的内容的解答的事例的教师数据的教师数据存储部(11)中提取事例的特性，生成特性的集合和解答的组。机器学习部(13)利用预定的机器学习方法，对该组在何种特性集合的情况下会形成何种解答这一问题进行机器学习，并将学习结果信息保存到学习结果存储部(14)。候选提取部(15)从文本数据(2)中提取二元关系的候选，特性提取部(16)提取二元关系的候选的特性的集合。解答推断部(17)基于学习结果信息推断在二元关系的候选的特性集合的情况下容易形成解答的程度，二元关系提取部(18)根据推断结果提取正的解答的推断程度良好的二元关系的候选。
文档编号G06F19/00GK101253497SQ200680022356
公开日2008年8月27日申请日期2006年6月23日优先权日2005年6月23日
发明者三森智裕, 土井晃一, 村田真树, 福田安志申请人:独立行政法人情报通信研究机构

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：村田真树;三森智裕;土井晃一;福田安志
技术所有人：独立行政法人情报通信研究机构
我是此专利的发明人

上一篇：在基于身份标识的情况下增强当事人引用的方法
上一篇：射频功率应用中的电弧检测和处理的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。