二元关系提取装置、使用二元关系提取处理的信息检索装置、二元关系提取处理方法、使...的制作方法

文档序号:6567875阅读:170来源:国知局
专利名称:二元关系提取装置、使用二元关系提取处理的信息检索装置、二元关系提取处理方法、使 ...的制作方法
技术领域
本发明涉及使用有教师的机器学习处理从文本数据中提取具有二 元关系的表达(词、字符串等)的对的二元关系提取技术和使用二元关 系提取处理的信息检索技术。
背景技术
从文本数据库等之中提取信息的方法已知有着眼于关联语句的二 元关系来提取所希望的信息的方法。例如,非专利文献l的方法是,提 供用以提取使用句法分析结果即谓语项结构所得的信,包、的模式格架(pattern frame ),并从带有正确解答的语料库中提取,将提取到的模式 之中不合适的模式排除掉,使用按照这种方式挑选出来的模式提取适宜 的信息。非专利文献l:药师寺AKANE(A力、a)等著,《使用谓语项结构模式 的医学/生物学领域信息提取》,语言处理学会第11次年会,2005年3月发明内容本发明试图解决的课题目前,人们主要使用利用人工制作的模式进行二元关系提取处理的 方法。另外,在非专利文献l的方法中,为了提高模式的精度,通过与 学习语料库进行对照来对模式进行挑选,以图提高二元关系的提取处理的精度。但是,在使用模式作为二元关系提取规则的情况下,如果问题对象 变得复杂,则模式就会变得繁杂。因此,使用模式的方法有其局限性。 另外,也存在着提取方法的性能不高的问题。本发明的目的是提供一种在从文本数据中提取二元关系的全部问 题中都能够使用的、对于复杂的问题也能够高性能地提取二元关系的二元关系提取装置。另外,本发明的另一个目的是提供使用上述二元关系 提取处理的信息检索装置以及通过这些装置执行的各处理方法和用于 在计算机中实现这些装置的功能的程序。课题解决办法本发明是一种使用机器学习处理提取计算机可读取的存储装置中 所保存的文本数据中所出现的二元关系的二元关系提取处理装置,其特 征在于,其具备以下单元1) 教师数据存储单元,其中保存的教师数据包含的是由问题与解 答的组所构成的事例、问题是文本数据中所出现的二元关系、解答是要提取的二元关系;2) 解答-特性对提取单元,用于从上述教师数据存储单元中提取 上述事例,针对上述每个事例,提取预定信息作为特性(identity),生 成由上述解答和上述所提取的特性的集合构成的组;3) 机器学习单元,其基于预定的机器学习算法,针对上述解答和 特性的集合构成的组执行机器学习处理,学习在何种特性集合的情况下 会形成上述解答,并将表示在上述何种特性集合的情况下会形成上述解 答的信息作为学习结果信息保存到学习结果存储单元中;4) 候选提取单元,其从上述存储装置中保存的文本数据中提取上 述二元关系的元素,并提取由上述元素所构成的对,将上述提取的对作 为二元关系的候选;5) 特性提取单元,其通过执行与上述解答-特性对提取单元所执 行的提取处理相同的提取处理,针对上述二元关系的候选,提取上述预 定信息作为特性;6) 解答推断单元,其基于上述学习结果存储单元中保存的上述学 习结果信息,推断在上述二元关系的候选特性的集合的情况下容易形成 上述解答的程度;7) 二元关系提取单元,其在上述推断结果针对上述二元关系的候 选容易形成上述解答的程度好于预定程度的情况下,选择上述二元关系 的候选作为应提取的二元关系。本发明预先在教师数据存储单元中存储教师数据,这些教师数据中 包含赋予了用于表示文本数据中出现的二元关系中应提取的二元关系 的解答信息的事例。此外,借助于解答-特性对提取单元,从教师数据存储单元中取出事例,针对各个事例,提取预定信息作为特性,生成所 提取的特性集合和解答的组。进而,借助于机器学习单元,基于预定的 机器学习算法,针对解答和特性集合的组执行机器学习处理,学习在何 种特性集合的情况下会形成何种解答,并将表示"在何种特性集合的情 况下会形成何种解答"的信息作为学习结果信息保存到学习结果存储单 元中。然后,借助于候选提取单元,从存储装置中保存的文本数据中提取 二元关系的元素,并提取由上述元素所构成的对,将上述提取的对作为 二元关系的候选,则借助于特性提取单元,通过执行与解答-特性对提 取单元所执行的提取处理相同的提取处理,针对二元关系的候选,提取预定信息作为特性。此外,借助于解答推断单元,基于学习结果存储单 元中保存的学习结果信息,推断在二元关系的候选特性的集合的情况下 容易形成解答的程度,并借助于二元关系提取单元,根据推断结果,在 针对二元关系的候选容易形成解答的程度好于预定程度的情况下,提取 该二元关系的候选。另外,本发明是一种信息检索装置,其在使用多个检索关键字进行 信息检索的处理中,利用使用有教师的机器学习处理得到的二元关系提取处理结果提取检索结果,其特征在于,其具备以下单元1) 教师数据存储单元,其中保存的教师数据包含的是由问题与解 答的组所构成的事例、问题是以检索关键字作为元素的二元关系、解答 是要提取的二元关系;2) 解答-特性对提取单元,用于从上述教师数据存储单元中提取 上述事例,针对上述每个事例,提取预定信息作为特性,生成由上述解 答和上述所提取的特性的集合构成的组;3) 机器学习单元,其基于预定的机器学习算法,针对上述解答和 特性的集合构成的组执行机器学习处理,学习在何种特性集合的情况下 会形成上述解答,并将表示在上述何种特性集合的情况下会形成上述解 答的信息作为学习结果信息保存到学习结果存储单元中;4) 信息检索单元,其使用所输入的多个检索关键字生成输入检索 关键字对,从作为检索对象的文本数据中提取包含上述输入检索关键字 对的文本数据;5) 候选提取单元,其根据通过上述检索取得的各文本数据生成由上述输入检索关键字所构成的对,将上述生成的对作为二元关系的候选;6) 特性提取单元,其通过执行与上述解答-特性对提取单元所执 行的提取处理相同的提取处理,针对上述二元关系的候选,提取上述预 定信息作为特性;7) 解答推断单元,其基于上述学习结果存储单元中保存的上述学 习结果信息,推断在上述二元关系的候选特性的集合的情况下容易形成 上述解答的程度;8) 检索结果提取单元,其在上述推断结果针对上述二元关系的候 选容易形成上述解答的程度好于预定程度的情况下,选择上述二元关系 的候选作为应提取的二元关系,并将包含上述选择的二元关系的文本数 据作为检索结果提取出来。本发明预先在教师数据存储单元中存储教师数据,这些教师数据中 包含赋予了用于表示以检索关键字作为元素的二元关系中应提取的二 元关系的解答信息的事例。此外,借助于解答-特性对提取单元,从教 师数据存储单元中取出事例,针对各个事例,提取预定信息作为特性, 生成所提取的特性集合和解答的组。进而,借助于机器学习单元,基于 预定的机器学习算法,针对解答和特性集合的组执行机器学习处理,学 习在何种特性集合的情况下会形成何种解答,并将表示"在何种特性集 合的情况下会形成何种解答"的信息作为学习结果信息保存到学习结果 存储单元中。然后,借助于信息检索单元,使用所输入的多个检索关键字生成输 入检索关键字对,从作为检索对象的文本数据中提取包含输入检索关键 字对的文本数据,并借助于候选提取单元,根据通过检索取得的各文本 数据生成由输入检索关键字所构成的对,将上述生成的对作为二元关系 的候选。此外,借助于特性提取单元,通过执行与解答-特性对提取单 元所执行的提取处理相同的提取处理,针对二元关系的候选,提取预定 信息作为特性。进而,借助于解答推断单元,基于学习结果存储单元中 保存的学习结果信息,推断在二元关系的候选特性的集合的情况下容易 形成解答的程度,并借助于检索结果提取单元,在上述推断结果针对上 述二元关系的候选容易形成解答的程度好于预定程度的情况下,选择该 二元关系的候选作为应提取的二元关系,并将包含所选择的二元关系的文本数据作为检索结果提取出来。另外,本发明是利用上述二元关系提取装置或上述信息检索装置分 别实现的二元关系提取处理方法、使用二元关系提取处理方法的信息检 索处理方法。另外,本发明是将上述二元关系提取处理方法或上述信息检索处理 方法中执行的各个处理过程交由计算机执行所需的二元关系提取处理 程序和使用二元关系提取处理方法的信息检索处理程序。发明的效果借助于本发明,利用通过人工赋予了表示其是否是应提取的二元关 系的标签的文本数据作为学习数据进行机器学习,从而在提供了新的二 元关系的候选的情况下,能够判断该候选是否是应提取的二元关系。例 如,通过使用已经赋予了表示是否是要提取的二元关系的标签的"存在 相互作用的蛋白质的名称的对,,作为学习数据,就能够从文本数据库等 之中取得所希望的"存在相互作用的蛋白质的名称的对"信息。另外,对于信息检索处理中的AND检索的两个检索关键字,通过 使用在其检索结果的文档中已经赋予了表示其是否是有意义的关系的 标签后的"检索关键字的对,,作为学习数据,就能够从检索对象的文本 数据中提取有意义的检索结果。本发明能够应用于从文本数据中提取二元关系的全部问题中,因此 其通用性非常高。


图1是表示本发明的二元关系提取装置的结构实例的图。 图2是表示二元关系提取装置的处理流程的图。 图3是表示教师数据的实例的图。图4是表示支持向量机法的分类间隔(Margin)最大化的概念的图。 图5是表示与图3所示的二元关系的特性集合的组的实例的图。 图6是表示本发明的信息检索装置的结构实例的图。 图7是表示信息检索装置的处理流程的图。图8是表示与教师数据与其二元关系的特性集合的组的实例的图。 图9是表示与教师数据与其二元关系的特性集合的组的实例的图。 图10是表示与教师数据与其二元关系的特性集合的组的实例的图。符号说明1二元关系提取装置 11教师数据存储部 12解答-特性对提取部 13机器学习部14学习结果存储部15候选提取部16特性提取部17解答推断部18 二元关系提取部2文本数据3 二元关系4信息检索装置40信息一全索部41教师数据存储部42解答-特性对提取部43机器学习部44学习结果存储部45候选提取部46特性提取部47解答推断部48检索结果提取部5检索用文本数据6检索结果具体实施方式
下面说明本发明的二元关系提取装置1的实施例。 二元关系提取装置l是一种使用已经赋予了表示是否是应提取的二 元关系的标签的文本数据即教师数据,对何种语句对是应提取的二元关 系进行机器学习,从所提供的文本数据2之中取得二元关系的候选,并 提取应提取的二元关系3的处理装置。图1中表示本发明的二元关系提取装置1的结构实例。二元关系提取装置1具备教师数据存储部11、解答-特性对提取部12、机器学习部13、学习结果存储部14、候选提取部15、特性提取部16、解答推 断部17、以及二元关系提取部18。教师数据存储部11是用于存储机器学习处理中所使用的作为教师 数据的文本数据的装置。教师数据使用以文本数据的正文中出现的二元关系的元素(其中一 个元素称为第l元素,另一个元素称为第2元素)作为问题、以表示是 否是应提取的二元关系的信息作为解答的事例。具体地,仅针对一个文 本数据的正文中包含两个以上二元关系的元素的文本,通过人工针对该 正文中的二元关系元素对赋予表示其是应提取的对(正例)、或者其是 不应提取的对(负例)的任一个的解答的标签。当一个正文中包含三个 以上的二元关系元素时,针对元素的全部组合即对,分别赋予标签。此 外,作为教师数据的事例,也可以使用仅赋予了表示应提取的对(正例) 的解答的二元关系。解答-特性对提取部12是根据教师数据存储部11中存储的文本数 据内的事例提取解答和特性的集合的组的处理单元。特性是用于机器学习处理的信息。解答-特性对提取部12所提取 的特性是例如二元关系的元素、出现在元素周围的单词/字符及其出现位 置或顺序、元素或周围的单词的词类信息、形态要素分析信息、句法分 析信息、元素之间的出现距离、元素之间其他二元关系的元素的有无等^息。机器学习部13是借助于有教师的机器学习法根据由解答-特性对 提取部12提取的解答和特性集合的组学习在何种特性时容易形成何种 解答的处理单元。其学习结果保存在学习结果存储部14。特性提取部16是针对从文本数据2中提取的二元关系的候选,提 取预定特性的处理单元。解答推断部17是参照学习结果存储部14的学习结果,针对二元关 系的各个候选推断在该特性集合的情况下容易形成何种解答(分类目 标)的程度的处理单元。二元关系提取部18是基于解答推断部17的推断结果,将二元关系 的候选之中推断为其成为表示应提取的二元关系的解答的程度较高的 二元关系输出为二元关系3的处理单元。图2中表示二元关系提取装置1的处理流程。二元关系提取装置1的教师数据存储部11中预先保存着文本数据2 作为教师数据,该文本数据2包含在具有某种意义的元素对即二元关系 中赋予了用于表示其是应提取的二元关系(正)还是不应提取的二元关 系(负)的任一个的"解答"信息的事例。此外,也可以仅针对应提取的对,将包含赋予了预定解答的事例的 文本数据2预先存储起来。在这种情况下,赋予了文本数据2的解答的 对被看作是带有应提取的二元关系即(正)的解答,未被赋予解答的其 余的对则被看作是带有不应提取的二元关系(负)的解答。首先,解答-特性对提取部12根据教师数据存储部11的教师数据, 针对各事例提取预定的特性,生成解答(通过标签赋予的信息)和所提 取的特性的集合的组(步骤Sl )。解答-特性对提取部12根据预定的标 签从教师数据即文本数据中提取二元关系,针对所提取的二元关系的元 素执行形态要素分析处理、句法分析处理、元素的出现位置或元素之间 的距离的计算处理等,提取预定的特性。此外,机器学习部13根据由解答-特性对提取部12生成的解答和 特性集合的组,通过机器学习法学习在何种特性集合时容易形成何种解 答(正或负),并将学习结果保存到学习结果存储部14 (步骤S2)。机 器学习部13使用例如k近邻法、简单贝叶斯法、决策列表(decision list) 法、最大熵(maximum entropy)法、支持向量机法等方法之中的任一种 作为有教师的机器学习法,执行机器学习处理。其后,候选提取部15输入想要提取二元关系的文本数据2,从所输 入的文本数据2中提取二元关系的候选(步骤S3 )。候选提取部15将文 本数据按照句子单位进行分割,仅将一个句子中出现两个以上的二元关 系的元素的句子作为处理对象,从该句子中提取二元关系的候选。特性提取部16执行与解答-特性对提取部12的处理大致相同的处 理,针对从文本数据2中提取的二元关系的各个候选,提取其特性(步 骤S4)。解答推断部17基于学习结果存储部14的学习结果,针对各候选推 断在该特性集合的情况下容易形成何种解答、即"容易形成正"还是"容 易形成负"的程度(步骤S5)。继而,8系3输出(步骤S6)。接着说明本发明的二元关系提取处理的具体实例。在本例中,假定 二元关系提取装置1是用于从生物医学相关的论文的文本数据库中提取存在相互作用的蛋白质表达(蛋白质名)的二元关系的装置,其以100% 的精度确定文本数据库中的蛋白质表达。另外,假定构成二元关系的元素出现在同一句子中。此外,构成二 元关系的元素也可以是出现在同 一段落内、同 一文档中的元素。在生成教师数据的处理中,在将成为二元关系的元素的表达例如蛋 白质表达、病名和治疗方法等特定表达作为二元关系的元素提取出来的 情况下,按照以下方式执行。1 )使用规则提取元素。由人工定义"NF-Kappa[A-Z],其中,[A-Z]是从A到Z的任意一个 字母"等模式,提取匹配的表达。利用该模式,提取NF-KappaA、 NF-KappaB等蛋白质名的表达即元素。2) 使用词典提取元素。使用载有病名或治疗方法等表达的词典,将与这些词典中收录的表 达(字符串、单词列等)完全相同的字符串等作为病名或治疗方法的表达元素提取出来。3) 通过机器学习处理提取元素。准备在蛋白质表达、病名和治疗方法等表达的前后赋予了开始位置 标签和结束位置标签的文本数据作为学习数据。继而,使用这种带有标 签的学习数据进行机器学习处理,利用该学习结果,在不带标签的新的 文本数据的相应表达的开始位置和结束位置处插入标签,从而确定元 素。4) 使用表示预定二元关系的信息进行提取。利用预先在有可能成为二元关系的元素的表达中赋予了标签的数 据,基于该标签提取作为二元关系的元素的表达。图3表示教师数据的实例。使用图3 (A)所示的包含将具有相互作用的蛋白质表达作为元素的二元关系的英文文本数据作为教师数据。 在本例中,教师数据中仅对应提取的二元关系赋予了表示解答(正/positive)的标签。亦即,在机器学习处理中使用仅包含正的事例的教师数据。图3 (B)中表示教师数据中赋予的标签的实例。教师数据中包含两个二元关系的对Pl、对P2。 二元关系(对)Pl由第1元素pl "delta-catenin"、第2元素p2 "presenilin 1"构成。另外,二元关系(对) P2由第1元素pl "presenilin ( PS ) 1"、第2元素p2 "delta-catenin"构成。解答-特性对提取部12根据教师数据存储部11中存储的文本数据 内的事例提取解答和特性的集合的组。例如,提取以下信息作为特性。1) 在二元关系的元素的周围出现的单词或字符。例如,二元关系 的第1元素(最初的元素)的前方预定个数的单词/字符、第2元素(第 二个元素)的后方预定个数的单词/字符、第l元素和第2元素之间的预 定个数的单词/字符。2) 在二元关系的元素的周围出现的单词/字符的出现位置、出现顺序等;3) 二元关系的两个元素;4) 二元关系的元素或周围的单词的词类信息、形态要素分析信息等;5) 二元关系的元素或周围的单词的句法分析信息;6) 二元关系的第1元素和第2元素的出现距离;7) 二元关系的第1元素和第2元素之间有无元素出现; 在这些特性之中,例如词类信息是使用形态要素分析系统"ChaSen"等现有的形态要素分析处理方法取得的(参照http://chasen.aist-nara. ac.jp/index.htm 1 ja )。英语的文本数据的情况下的词类信息则使用例如 "Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging" (Eric Brill, Computational Linguistics, Vol.21, No.4, p.543-565, 1995 )取^寻。这里,当二元关系的元素出现在同一段落中的情况下,也可以使用 二元关系的元素是否跨句子这一信息作为特性。另外,当二元关系的元 素出现在同 一文档中的情况下,也可以使用二元关系的元素是否跨句子 这一信息、是否跨段落这一信息作为特性。解答-特性对提取部12从图3 (B)所示的带有标签的教师数据的 事例中提取特性,生成特性集合和解答的组。例如,针对二元关系P2 的事例,如图5所示,假定生成解答(positive:正)和以下的特性集合的组。"在第1元素的前方3个单词内出现了 "for"、 "interaction", "w池";元素之间出现了 "and"、 "cloned"、 "the"、 "full"、 "-,,、 "length"、 "cDNA"、 "of,、 "human";在第2元素的后方3个单词内出现了"which"、 "encoded", "1225,,"。机器学习部13基于该解答和特性的集合对在何种特性集合的情况 下容易形成解答(positive)进行机器学习处理,并将学习结果保存到学 习结果存储部14。机器学习部13使用例如k近邻法、简单贝叶斯法、决策列表法、 最大熵法、支持向量机法等方法作为有教师的机器学习法。k近邻法是一种使用最类似的k个事例而不是最类似的一个事例, 通过这k个事例进行多数决定来求取分类目标(解答)的方法。k是预 先决定的整数数字,通常使用l至9之间的奇数。简单贝叶斯法是基于 贝叶斯定理推断形成各分类的概率、将其概率值最大的分类用作所求取 的分类目标的方法。在简单贝叶斯法中,上下文b中产生分类a的概率通过以下算式(1 ) 提供。[算式1]<formula>formula see original document page 21</formula> (1 )<formula>formula see original document page 21</formula>(2) 其中,这里的上下文b是预先设定的特性<formula>formula see original document page 21</formula>的集合。p (b)是上下文b的出现概率。这里,其是不依赖于分类a的常数,因 此不予计算。P (a)(这里的P是p上部带有波浪号)和P (f」a)是根 据教师数据推断得到的概率,分别表示分类a的出现概率、分类a时具 有特性f的概率。如果使用最优推断所求得的值作为P(fj|a),则其值常 常会等于零,导致出现算式(2)的值难以由零来决定分类目标的情形。 因此,进行平滑(smoothing)处理。这里采用通过以下算式(3)进行 平滑处理的方式。[算式2]<formula>formula see original document page 113</formula>其中,freq(f;, a )表示具有特性fi并且分类为a的事例的个数,fr叫(a) 表示分类为a的事例的个数。决策列表法是以特性和分类目标的组作为规则、并按照预先决定的 优先顺序将它们预先保存到列表中的方法,当输入了检索对象时,从列 表中的高优先顺序开始对输入数据与规则特性进行比较,将特性相同的 规则的分类目标作为该输入的分类目标。在决策列表法中,仅将预先设定的特性f] ( 6F, lSj^k)之中的 任一个特性作为上下文,求取各分类的概率值。某个上下文b输出分类 a的概率由以下算式提供。<formula>formula see original document page 113</formula>其中,fmax由以下算式提供。 [算式3]/maX = argmax力£7 max。,"另外,P U」lfj)(这里的P是p上部带有波浪号)是上下文中具有 特性fj的情况下分类a,的出现比例。最大熵法是以预先设定的特性f, ( l〇_j^k)的集合作为F时求取满 足以下算式(6)的同时使表示熵的算式(7)最大时的概率分布p (a, b)、并根据该概率分布将具有所求得的各分类概率之中最大概率值的分 类作为所求取的分类目标的方法。[算式4]<formula>formula see original document page 113</formula>;(",6》 (7)其中,A、 B表示分类和上下文的集合,gj(a, b)表示的是在上下文b 中具有特性fj并且分类为a的情况下等于1、除此之外的情况下等于0 的函数。另外,P (a,lfj)(这里的P是p上部带有波浪号)表示已知数 据中(a, b)的出现比例。算式(6)通过将概率p乘以表示输出和特性组的出现的函数g来 求取输出和特'性组的频度的期望值,其以右边的已知数据中的期望值与 左边的基于所求得的概率分布计算出来的期望值相等为制约条件,实施 熵最大化(概率分布的平滑化)处理,求取输出和上下文的概率分布。 关于最大熵法的详细内容,可以参照以下的参考文献1和参考文献2。(参考文南夂1: Eric Sven Ristad, Maximum Entropy Modeling for Natural Language, ( ACL/EACL Tutorial Program, Madrid, 1997);参考文献2: Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, ( http:〃www.mnemonic.com/software/memt, 1998 ))支持向量机法是利用超平面对空间进行分割从而对由两个分类构 成的数据进行分类的方法。图4表示支持向量机法的分类间隔最大化的概念。图4中,白圈表 示正例、黑圏表示负例,实线表示对空间进行分割的超平面、虛线表示 用于表示分类间隔区域的边界的面。图4 ( A)是正例和负例的间隔狭 窄的情况下(小间隔small margin)的概念图,图4 (B)是正例和负 例的间隔宽阔的情况下(大间隔large margin )的概念图。这时,可以认为,如果两个分类是由正例和负例构成的,则学习数 据中的正例和负例的间隔(margin)越大,开放数据(open data)中分 类错误的可能性越低,如图4(B)所示,求取使该间隔达到最大的超平面,用于实施分类。基本情况如上所述,通常使用在学习数据中分类间隔的内部区域中也可以包含少数事例的方法扩展、或者将超平面的线形部分改为非线形 的扩展(核函数的导入)。该扩展后的方法等价于使用以下识别函数进行分类,根据该识别函 数的输出值是正还是负,能够判断两种分类。[算式5]<formula>formula see original document page 24</formula>其中,x表示要识别的事例的上下文(特性集合),&和力(1=1, yj6 (1, -1})表示学习数据的上下文和分类目标,函数sgn是:<formula>formula see original document page 24</formula>另外,各o^在算式(10)和算式(11 )的制约下使算式(9)达到最大' [算式6]<formula>formula see original document page 24</formula>另外,函数K被称为核函数,可以使用各种各样的形式,在本实施 方式中使用以下的多项式。<formula>formula see original document page 24</formula>
C、 d是在实验的基础上设定的常数。在后文叙述的具体实例中,C在所有处理中都固定为1。而d则尝试使用l和2这两种形式。这里, apt)时的Xj称为支持向量,通常情况下,算式(8)的求和部分仅使 用该事例进行计算。即,在实际的分析中,仅使用学习数据之中被称为 支持向量的事例。此外,关于扩展后的支持向量机法的详细内容可以参照以下的参考 文献3和参考文献4。(参考文南大 3 : Nello Cristianini and John Shawe誦Taylor , An Introduction to Support Vector Machines and other kernel-based learning methods, ( Cambridge University Press, 2000 );参考文献4: Taku Kudoh, Tinysvm: Support Vector machines, (http:〃cl.aist-nara.ac.jp/taku-ku〃software/Tiny SVM/index.htm 1,2000 ))支持向量机法处理分类数为2的数据。因此,在处理分类数大于等 于3个的事例的情况下,通常将其与Pair-Wise法或One VS Rest法等方 法组合起来使用。Pair-Wise法是在具有n个分类的数据的情况下,生成不同的2个分 类目标的所有对(n ( n-1 ) /2个),利用二值分类器即支持向量机法处理 模块求取各对中哪一个较好,最终通过n (n-1 ) /2个二值分类得到的分 类目标的多数决定,求取分类目标的方法。One VS Rest法是在例如存在a、 b、 c这样三个分类目标时生成分类 目标a及其他、分类目标b及其他、分类c目标及其他这样的三个组, 针对各个组利用支持向量机法进行学习处理。此外,在根据学习结果进 行推断的处理中,使用这三个组的支持向量机的学习结果。观察要推断 的二元关系的候选在这三个支持向量机中是怎样推断的,将在这三个支 持向量机之中不是其他的分类目标、并且距离支持向量机的分离平面最 远的情况下的分类目标作为所求取的解答。例如,当某一候选在"分类 目标a与其他"的组的学习处理中生成的支持向量^/L中如果距离分离平 面最远,就将该候选的分类目标推断为a。然后,候选提取部15从所输入的新的文本数据2中提取二元关系 的候选。具体地,将文本数据2以句子单位进行分割,提取出各句子中 成为二元关系的元素的表达(字符串)。继而,查看一个句子中成为二 元关系的元素的表达是否存在二个以上,将一个句子中存在的二元关系 的元素的全部两两组合(对)生成为二元关系的候选。另外,将新的文本数据2分割为各段落,提取出各段落中成为二元 关系的元素的表达,针对同一段落中存在两个以上元素的段落,生成全 部两两组合(对)作为二元关系的候选。另外,也可以从文本数据2的 一个文档中提取成为二元关系的元素的表达,生成全部两两组合(对) 作为二元关系的候选。从文本数据2中提取成为二元关系的元素的表达的方法是上述教师数据生成方法中所说明的方法。例如,提取出与模式或词典的记载相吻 合的表达,提取出基于有教师的机器学习的学习结果推断所得的表达。当文本数据2的一个句子中出现了两个以上的元素的情况下,将该元素的对作为二元关系的候选。此外,当一个句子中出现了三个以上的 元素的情况下,将元素的所有组合对作为二元关系的候选。继而,特性提取部16通过与解答-特性对提取部12相同的处理从 二元关系的候选中提取同样的特性。解答推断部17基于学习结果存储部14中存储的学习结果,针对各 二元关系的候选,推断在该候选的特性集合的情况下容易形成正的解答 (positive)的程度。二元关系提取部18基于解答推断部17的推断结果, 将二元关系的候选之中推断为容易形成正的解答的程度高的作为二元 关系2输出。在本例中,提取上述特性,采用支持向量机法执行机器学习处理。 利用10等分的交叉验证(cross-validation)调整精度时,得到F值-47.50/。 的精度。F值表示再现率和符合率的调和平均。再现率是表示从文本数 据2中应提取的二元关系之中何种程度的二元关系可以输出的比例。符 合率是表示二元关系提取装置1所提取的二元关系之中何种程度的二元 关系是应取出的二元关系的比例。在二元关系提取装置1中,利用机器学习部13基于预定的机器学 习算法,使用所提供的教师数据,针对各二元关系的解答和特性集合的 组,对在何种特性集合的情况下会成为何种解答这一内容进行机器学习 处理,将表示在何种特性集合的情况下会成为何种解答这一内容的信息 作为学习结果信息保存到学习结果存储部14,利用解答推断部17基于 该学习结果信息推断在二元关系的候选的特性集合的情况下容易形成 上述解答的程度。在二元关系提取装置1中,当采用k近邻法作为机器学习方法的情况下,机器学习部13对教师数据的事例之间基于从该事例中提取的特 性集合之中重复特性的比例(具有多少个相同特性的比例)定义事例之间的类似度,将上述定义的类似度和事例作为学习结果信息预先保存到学习结果存储部14中。继而,解答推断部17在新的文本数据2输入时,参照学习结果存 储部14所定义的相似度和事例,针对从文本数据2提取出来的二元关 系的候选,按照与该候选的相似度高的顺序从学习结果存储部14的事 例中选择k个事例,将所选择的k个事例通过多数决定所确定的分类目 标推断为二元关系的候选的分类目标(解答)。亦即,在解答推断部17中,采用所选择的k个事例在执行多数决定时的票数即这里是"应提取" 这一分类所获得的票数即作为二元关系的候选的特性集合的情况下容 易形成某个解答的程度。另外,在使用简单贝叶斯法作为机器学习法的 情况下,机器学习部13针对教师数据的事例,将上述事例的解答和特 性集合的组作为学习结果信息保存到学习结果存储部14。继而,解答推 断部17在新的文本数据2输入时,基于学习结果存储部14的学习结果 信息的解答和特性集合的组,根据贝叶斯定理计算出在特性提取部16 所取得的二元关系候选的特性集合的情况下成为各分类的概率,将其概率值最大的分类推断为该二元关系的候选的特性的分类(解答)。亦即, 在解答推断部17中,采用成为各分类的概率即这里是成为"应提取" 这一分类的概率即作为二元关系的候选的特性集合的情况下容易形成 某个解答的程度。另夕卜,在使用决策列表法作为机器学习法的情况下,机器学习部13 针对教师数据的事例,将特性和分类目标的规则按照预定优先顺序排列 而成的列表保存到学习结果存储部14。继而,当新的文本数据2输入时, 解答推断部17按照学习结果存储部14的列表的优先顺序高的顺序将从 文本数据2中提取的二元关系的候选的特性与规则的特性进行比较,将 特性一致的规则的分类目标推断为该候选的分类目标(解答)。亦即, 在解答推断部17中,采用预定的优先顺序或与此相当的数值、尺度即 这里是成为"应提取"这一分类的概率的列表中的优先顺序即作为二元 关系的候选的特性集合的情况下容易形成某个解答的程度。另外,在使用最大熵法作为机器学习方法的情况下,机器学习部13 根据教师数据的事例确定可能成为解答的分类,求取可能成为满足预定条件公式并且表示熵的算式为最大时的特性集合和解答的分类的二项 所构成的概率分布,保存到学习结果存储部14。继而,当新的文本数据2输入时,解答推断部17利用学习结果存储部14的概率分布,针对从 文本数据2中提取的二元关系的候选的特性集合,求取可能成为其解答 的分类的概率,确定可能成为具有最大概率值的解答的分类,将所确定 的该分类推断为该候选的解答。亦即,在解答推断部17中,采用成为 各分类的概率即这里是成为"应提取"这一分类的概率即作为二元关系 的候选的特性集合的情况下容易形成某个解答的程度。另外,在使用支持向量机法作为机器学习方法的情况下,机器学习 部13根据教师数据的事例确定可能成为解答的分类,将分类分割为正 例和负例,按照使用了核函数的预定的执行函数,在以事例的特性集合 作为维度的空间中,求取使该事例的正例和负例的间隔最大、并且以超 平面对正例和负例进行分割的超平面,保存到学习结果存储部14。继而, 当新的文本数据2输入后,解答推断部17利用学习结果存储部14的超 平面,确定从文本数据2中提取的二元关系的候选的特性集合在以超平 面分割而成的空间中是位于正例 一 侧还是负例 一 侧,根据该确定结果, 将所决定的分类推断为该候选的解答。亦即,在解答推断部17中,采 用从分离平面到正例(应提取的二元关系)的空间的距离大小作为二元 关系的候选的特性集合的情况下容易形成某个解答的程度。更详细来 说,在以应提取的二元关系作为正例、以不应提取的二元关系作为负例 的情况下,相对于分离平面,将位于正例 一 侧的空间中的事例判定为"应 提取的事例,,,将该事例与分离平面的距离作为该事例的程度。另外,在解答-特性对提取部12中,也可以使用例如"两个元素 自身的单词"作为特性。另外,也可以使用"从元素的前方开始第一个 单词/字符串、第二个单词/字符串、从后方开始第一个单词/字符串、第 二个单词/字符串"作为特性。在图3 (A)的情况下,特性是 "第1元素为'presenilin ( PS ) 1,;第2元素为 'delta誦catenin';第1元素的第一个单词为 'presenilin,;第l元素的第二个单词为'(PS),;第1元素的最后开始的第二个单词为'(PS),;第1元素的最后开始的第一个单词为'l,;第2元素的第 一个单词为'delta';第2元素的第一个单词为'-,;第2元素的最后开始的第二个单词为'-,;第2元素的最后开始的第一个单词为'cateninT、fe^,"。另外,"第1元素的开始的1个字符为'p,;第1元素的开始的2个字符为'pr,;第1元素的开始的3个字符为'pre,;第1元素的最后的1个字符为'r ;第1元素的最后的2个字符为'X《一又,r;第1元素的最后的3个字符为'),X《一X, r;第2元素的开始的1个字符为'd,;第2元素的开始的2个字符为'de,;第2元素的开始的3个字符为'del,;第2元素的最后的1个字符为'n,;第2元素的最后的2个字符为'in,;第3元素的最后的3个字符为<^i^,,,。另外,在以元素的前后2个单词自身及其词类信息作为特性的情况特性是"第1元素的两个之前的单词为' interaction'; 第1元素的两个之前的单词的词类为'名词,; 第l元素的前一个单词为'with'; 第1元素的前一个单词的词类为'前置词'; 第l元素的后一个单词为'and,; 第1元素的后一个单词的词类为'连接词,; 第1元素的两个之后的单词为'cloned';; 第1元素的两个之后的单词的词类为'动词,; 第2元素的两个之前的单词为'of; 第2元素的两个之前的单词的词类为'前置词,; 第2元素的前一个单词为 'human,; 第2元素的前一个单词的词类为'名词,; 第2元素的后一个单词为'which,;笫2元素的后一个单词的词类为'代名词,;第2元素的两个之后的单词为'encoded';第2元素的两个之后的单词的词类为'动词,"。另外,在使用两个元素之间的距离、即这两个元素之间所存在的单 词数目作为特性的情况下,"两个元素之间的距离为'9,"这一信息就 成为特性。另外,将两个元素之间的单词数为0到1的状态称为"小距离"、 单词数为2到4的状态称为"中等距离"、单词数为5到9的状态称为 "大距离"、单词数大于等于10的状态称为"特大距离,,,在以各自的 状态作为特性的情况下,"两个元素之间的距离为'大距离,"这一信息 就成为特性。另外,在将两个元素之间有无其他元素存在这一状态作为特性的情 况下,"两个元素之间不存在其他元素"这一信息就成为特性。进而,在设定了不同种类的术语作为二元关系的元素的情况下,也 可以将元素的出现顺序作为特性使用。例如,在病名和治疗方法的二元 关系中,"第1元素为'病名,、第2元素为'治疗方法,"或者"第1 元素为'治疗方法,、第2元素为'病名,"这一信息就成为特性。二元关系提取装置1除了提供存在相互作用的蛋白质表达的二元关 系作为教师数据之外,也可以提供病名和治疗方法的二元关系、病名和 蛋白质表达的二元关系、病名和器官(内脏器官)的二元关系、病名和 动物种类的二元关系、病名和相关化学物质的二元关系、蛋白质表达和 目前为止针对该蛋白质所作的实验方法的二元关系等各种各样的二元 关系的事例,从而能够从生物医学论文的文本数据2中提取它们所对应 的二元关系。例如,可以使用包含以下二元关系的文本数据作为教师数据。 r Oral corticosteroids(元素治疗方法)are the preference of many for the treatment of CIDP (元素病名),being much less expensive than IVIG (元素治疗方法)infusion or TA (元素治疗方法).Jr In the CIDP (元素:病名)patient, the IgG antibody (元素:蛋白 质表达)titer to GD3(元素化学物质表达)was remarkably elevated( titer, 1: 10,000 ), indicating maximal avidity to the tetrasaccharide epitope (-NeuAcalpha2-8NeuAcalpha2-3Galbetal-4Glc-) . Jr Ciliated metaplasia ( CM ) in the stomach (元素器官名)is mainly found in gastric mucosa (元素器官名)that harboursgastric cancer (元 素病名)」「 Variant Creutzfbldt-Jakob disease ( CJD )(元素病名)is a transmissible spongiform encephalopathy believed to be caused by the bovine (元素动物种类)spongiform encephalopathy agent, an abnormal isofbrmof the prion protein ( PrP (sc))(元素蛋白质表达).Jr AIDP(元素病名)and CIDP(元素病名)having specific antibodies to the carbohy drate epitope ( -NeuAcalpha2-8NeuAcalpha2-3Galbetal-4Glc-) of gangliosides.(元素化学物质表达)JGene expression in archived frozen suralnerve biopsies of patients with chronic inflammatory delnyelinatingpolyneuropathy ( CIDP )(元素 病名)was compared to that in vasculitic nerve biopsies( VAS )and to normal nerve ( NN ) by DNA microarraytechnology (元素实马全方、法).Jr This novel interaction was identified in a yeast two-hybrid screen (元素实验方法)using PrP ( C )(元素蛋白质表达)as bait and confirmed by an in vitro binding assay and co-immunoprecipitations Jr Comparative study of the PrP ( BSE )(元素蛋白质表达) distribution in brains (元素器官名)from BSE (元素病名)field cases using rapid tests (元素检查法).J另外,也可以将例如公司的产品名称和对该产品的评价(例如,评 价好、坏等信息)的对作为二元关系提取出来。如上所述,借助于本发明的二元关系提取装置1,只要准备赋予了 是否是应提取的二元关系的评价(解答)的文本数据作为机器学习处理 用的教师数据,就能够从新的文本数据中自动地提取推断为应提取的二 元关系。由此,能够避免二元关系提取处理中所使用的模式生成的复杂 性。另外,通过提高有教师的机器学习的精度,有可能提高二元关系提 取处理的性能。接着说明本发明的信息检索装置4的实施例。信息检索装置4是这样一种处理装置,其将AND检索处理的两个 检索关键字的关系看作是有意义的二元关系,针对以这些检索关键字为 元素的二元关系,使用赋予了表示其是应提取的关系(正)或表示其不是应提取的关系(负)的任一个的解答的标签的教师数据进行机器学习, 从检索对象即检索用文本数据5中,将包含两个检索关键字的报道、并 被推断为应提取该检索关键字对的二元关系的内容作为检索结果6输 出。图6中表示本发明的信息检索装置4的结构实例。信息检索装置4 具备信息检索部40、教师数据存储部41、解答-特性对提取部42、 机器学习部43、学习结果存储部44、候选提取部45、特性提取部46、 解答推断部47、以及检索结果提取部48。信息检索装置4的教师数据存储部41、解答-特性对提取部42、 机器学习部43、学习结果存储部44、候选提取部45、特性提取部46以 及解答推断部47是分别执行与图1所示的二元关系提取装置1的教师 数据存储部11、解答-特性对提取部12、机器学习部13、学习结果存 储部14、候选提取部15、特性提取部16以及解答推断部17相同的处 理的处理装置。信息检索部40使用AND检索处理中所提供的检索关键字对检索用 文本数据5进行检索,取得相应的报道(文本数据)。候选提取部45提取以与信息检索部40所取得的报道中包含的两个 检索关键字相同的字符串(单词)的对为元素的二元关系的候选。检索结果提取部48基于解答推断部47的推断结果,从由检索用文 本数据5中检索得到的报道的二元关系的候选中提取容易形成所推断的 正的解答(是应提取的二元关系)的程度好于预定程度的候选,将包含 所提取的二元关系的候选的报道或用于确定报道的信息作为检索结果6输出。图7中表示信息检索装置4的处理流程。信息检索装置4的教师数 据存储部41中预先保存着文本数据作为教师数据,该文本数据包含在 以AND检索处理中提供的两个检索关键字作为元素的二元关系中赋予 了用于表示其是应提取的二元关系(正)还是不应提取的二元关系(负) 的任一个的"解答"的信息的事例。首先,解答-特性对提取部42根据教师数据存储部41的教师数据, 针对各事例提取预定的特性,生成解答(通过标签赋予的信息)和所提 取的特性的集合的组(步骤Sll)。解答-特性对提取部42根据预定的 标签从教师数据即文本数据中提取二元关系,针对所提取的二元关系的元素(检索关键字)执行形态要素分析处理、句法分析处理、元素的出 现位置或元素之间的距离的计算处理等,提取预定的特性。此外,机器学习部43根据由解答-特性对提取部42生成的解答和 特性集合的组,通过机器学习法学习在何种特性集合时容易形成何种解 答(正或负),并将学习结果保存到学习结果存储部44 (步骤S12)。机 器学习部43使用例如k近邻法、简单贝叶斯法、决策列表法、最大熵 法、支持向量机法等方法之中的某一种作为有教师的机器学习法,执行 机器学习处理。其后,候选提取部45使用在AND检索处理中提供的两个输入检索 关键字生成全部的两组合(对)(步骤S13)。信息检索部40使用两个输 入检索关键字的对针对检索用文本数据5进行AND检索处理,提取包 含输入检索关键字对的报道(文本数据),候选提取部45使用通过检索 处理提取的报道中出现的输入检索关键字将全部的两组合(对)作为二 元关系提取出来(步骤S14)。继.而,特性提取部46通过与解答-特性对提取部42中所执行的处 理大致相同的处理,针对检索得到的报道中出现的二元关系的各候选, 提取预定的特性的集合(步骤S15)。解答推断部47基于学习结果存储部14的学习结果,针对各候选推 断在该特性集合的情况下容易形成何种解答、即"容易形成正"还是"容 易形成负"的程度(步骤S16)。继而,检索结果提取部48从二元关系 的候选中将以优于预定程度的程度推断为"容易形成正"的作为应提取 的二元关系选择出来,将包含该二元关系的报道或用于确定报道的信息作为检索结果6输出(步骤sn)。接着说明本发明的信息检索处理的具体实例。在本实例中,信息检 索装置4将检索用文本数据5之中包含有可能成为在AND检索处理中 使用的两个检索关键字的字符串作为元素的二元关系的文本数据用作 教师数据。此外,制作以在AND检索处理中提供的输入检索关键字为 元素的二元关系的候选,使用该二元关系的候选进行检索,从检索用文 本数据5中提取报道。推断检索得到的报道中包含的输入检索关键字的 二元关系的候选是否应提取,将包含被推断为应提取的程度高的二元关 系的候选的报道作为检索结果6输出。假定AND检索的检索关键字设定为"京大"和"総長"。另外,由人来判断检索关键字的二元关系是正还是负,通过人工赋予表示正或负 的解答的标签。因此,在机器学习处理中使用包含正的事例和负的事例 的教师数据。图8至图10中表示教师数据存储部41中存储的教师数据的实例和 根据该教师数据利用解答-特性对提取部42提取的特性的实例。在本 实例中,图8和图9的教师数据D1、 D2中赋予了针对应提取的二元关 系表示解答为正(positive)的标签。另外,在图10的教师数据D3中赋 予了针对不应提取的二元关系表示解答为负(negative)的标签。图8的教师数据Dl中包含两个检索关键字的对即二元关系的对 P3, 二元关系(对)P3由第1元素pl (检索键K1 )"京大"、第2元素 p2 (检索键K2)"総長"构成,在二元关系的对P3中赋予了正的解答 (positive )。同样地,图9的教师数据D2中包含两个检索关键字的对即二元关 系的对P4, 二元关系(对)P4由第1元素pl (检索键K1 )"京大"、第 2元素p2 (检索键K2)"総長"构成,在二元关系的对P4中赋予了正 的解答(positive )。这是因为,能够判断图8和图9的教师数据内容为 "京大。総長"。另外,图10的教师数据D3中包含两个检索关键字的对即二元关系 的对P5, 二元关系(对)P5由第1元素pl (检索键K1 )"京大"、第2 元素p2 (检索键K2)"総長"构成,在二元关系的对P5中赋予了负的 解答(negative )。在同一数据内出现了 "京大"和"総長",但能够判 断其相互之间没有关系,不是"京大0総長"的内容。解答-特性对提取部42根据教师数据存储部41中存储的教师数据 的事例提取解答和特性的集合的组。例如,作为特性,采用元素(检索 关键字)前后的两个单词的单词本身和单词的词类作为特性。例如,以 教师数据D1为例,特性是"第1元素的两个之前的单词为'今日,;第1元素的两个之前的单词的词类为'名词,;第l元的前一个单词为',,;第1元素的前一个单词的词类为'逗号,;第l元素的后一个单词为'<formula>formula see original document page 34</formula>,第1元素的后一个单词的词类为'助词,;34第l元素的后一个单词为'(7),;第1元素的后一个单词的词类为'助词,;第2元素的两个之前的单词为'T、,;第2元素的两个之前的单词的词类为'助词,;第2元素的前一个单词为',,第2元素的前一个单词的词类为'逗号,;第2元素的后一个单词为'力《,;第2元素的后一个单词的词类为'助词,;第2元素的两个之后的单词为'出席,;第2元素的两个之后的单词的词类为'名词,"。此外,解答-特性对提取部42能够将二元关系提取处理中所说明 的信息作为特性提取出来。机器学习部43基于该解答和特性的集合对在何种特性集合的情况 下容易形成何种解答(正(positive ) /负(negative ))进行机器学习处理, 并将学习结果保存到学习结果存储部44。机器学习部43使用例如k近 邻法、简单贝叶斯法、决策列表法、最大熵法、支持向量机法等上述处 理方法作为有教师的机器学习法。其后,信息检索部40根据所提供的输入检索关键字"京大"和"総 長"对检索用文本数据5进行AND检索,取得包含输入检索关键字的 报道。继而,候选提取部45从所提取的报道中提取二元关系的候选。 具体地,根据AND检索的检索结果即报道中包含的输入检索关键字中 提取二元关系的候选。继而,特性提取部46从二元关系的候选中提取 与解答-特性对提取部42相同的特性,解答推断部47根据学习结果存 储部44中存储的学习结果,针对各二元关系的候选,推断在该候选的 特性集合的情况下容易形成正(positive)或负(negative)的程度。检 索结果提取部48根据解答推断部47的推断结果,从二元关系的候选中 提取推断得到的容易形成正的解答的程度较高的二元关系,将包含该二元关系的报道、用于特定报道的信息作为检索结果6输出。例如,候选提取部45根据所提供的输入检索关键字生成两个输入 关键字的全部组合(对),将生成的对作为二元关系的候选。继而,信 息检索部40使用各个二元关系的候选的元素(两个输入检索关键字) 执行AND检索处理。继而,特性提取部46针对所提取的报道中出现的二元关系的候选,提取预定的特性集合。解答推断部47基于学习结果存储部44的学习结果,针对各二元关 系的候选,推断在该候选的特性集合的情况下容易形成解答的程度。当 输入检索关键字对即二元关系的候选在检索到的其报道内分别只出现 一个一个时,在推断发现所有这些二元关系的候选为正(应提取)的程度较高的情况下,将该报道、用于确定报道的信息作为检索结果6。另外,当输入检索关键字对即二元关系在检索到的该报道内出现多 次时,以针对所出现的多个二元关系的候选之中的 一个候选推断发现为 正(应提取)的程度较高为条件,进而,在推断发现各个二元关系的候 选全部满足上述条件、正的程度高的情况下,将该报道、用于确定报道的信息作为检索结果6。进而,候选提取部45根据所提供的输入检索关键字,生成全部的 两个输入检索关键字对,将生成的对用作二元关系的候选。继而,信息 检索部40使用各个二元关系的候选的元素(两个输入检索关键字)执 行AND检索处理。继而,特性提取部46针对所提取的报道中出现的二 元关系的候选,提取预定的特性集合。解答推断部47基于学习结果存储部44的学习结果,针对各二元关 系的候选,推断在该候选的特性集合的情况下容易形成解答的程度。当 输入检索关键字对即二元关系的候选在检索到的该报道内分别只出现 一个一个时,针对所有这些二元关系的候选推断其为正(应提取)的程 度,将针对所有这些二元关系的候选推断得出的正的程度相乘,结果作 为该报道的正的程度。继而,将推断发现正的程度较高的报道、用于确 定报道的信息用作检索结果6。另外,当输入检索关键字对即二元关系在检索到的报道内出现多次 时,针对所出现的多个二元关系的候选推断其正的程度,将这些多个二 元关系的候选的推断得出的程度之中值最好的程度作为该二元关系的 候选的程度。继而,求取各个二元关系的程度,将求得的程度相乘,结 果作为该报道的正的程度。继而,将推断发现正的程度较高的报道、用 于确定报道的信息用作检索结果6。如上所述,借助于本发明的信息检索装置4,只要准备好在AND 检索处理的两个检索关键字的二元关系中赋予表示其是否是应提取的 二元关系的评价的文本数据作为机器学习处理用的教师数据,就能够从新的检索用文本数据5之中自动地提取包含应提取的二元关系的报道。本发明的信息检索装置4通过使用二元关系提取处理对AND检索 处理的检索结果的报道中出现的检索关键字的关系进行评价,根据其对 检索关键字的包含进行匹配,能够排除检索关键字之间的关系松散、其 结果是在内容上无关的、即偏离检索意图的报道内容。另外,通过提高 有教师的机器学习的精度,有可能提高信息检索处理的性能。以上的实施例说明了二元关系提取处理和信息检索处理中由两个 元素构成的二元关系的实例。本发明也适用于三个元素构成的三元关 系。例如,在二元关系提取装置l中,准备包含三个元素的三元关系的 数据作为教师数据。此外,解答-特性对提取部12将例如三个元素之 中的第l元素(最早出现的元素)的前方两个单词、第3元素(最后出 现的元素)的后方两个单词、第1元素和第2元素(中间出现的元素) 之间的全部单词、第2元素和第3元素之间的全部单词的单词信息作为 该三元关系的特性,由此,机器学习部13能够根据三元关系的特性的 集合学习形成解答的容易程度,在二元关系提取部18中能够实现三元 关系的提取。此外,提供给三元关系的解答与二元关系的情形同样地设 定为"应提取的三元关系"或"不应提取的三元关系"。例如,在二元关系提取装置l中,准备包含三个元素的三元关系的 数据作为教师数据。继而,二元关系提取装置1的各处理单元将由教师 数据的三元关系分解得到的各个二元关系即第1元素和第2元素的二元 关系、第2元素和第3元素的二元关系、第1元素和第3元素的二元关 系分别作为单个的二元关系进行处理。继而,针对所有的各个二元关系, 计算出其是否是应提取的三元关系的解答的程度,将计算得到的程度相 乘后所得的值作为该三元关系的程度。继而,将其程度大的作为应提取 的三元关系提取出来。这时,如果机器学习部13使用的是支持向量机法,则分类目标有 两个(正或负),因此,使用Pair-Wise法或One VS Rest法对三元关系 进行机器学习。另外,在二元关系提取部18中,在提取二元关系3时,求取该提 取的确信度。此外,由多个二元关系组合而成的三元关系的确信度使用 各个组合的二元关系的确信度的乘积,从中提取三元关系的确信度大的。二元关系的确信度使用在通常的机器学习处理中计算得到的确信度。在信息检索装置4中也能够以同样的方式执行这种三元关系的提取 处理。例如,在检索与"平成12年0京大(D総長,,相关的报道的情况下,提供包含由"平成12年"、"京大"以及"総長"这三个检索关键 字构成的三元关系的数据作为教师数据,从检索用文本数据5中输出利 用这三个检索关键字进行AND检索的检索结果6。另外,在本实例中,使用了 "正(是应提取的二元关系)"或"负 (不是应提取的二元关系)"作为赋予事例的二元关系或三元关系的解 答的信息进行说明,但所赋予的解答信息也可以是例如"存在相互作 用"、"存在反作用"、"没有作用"等多分类的信息。以上通过其实施方式对本发明进行了说明,但本发明在其主旨范围 内可以作出各种各样的变形,这是不言而喻的。另外,本发明也可以作为可由计算机读取并执行的程序实施。实现 本发明的程序可以保存到计算机可读的可搬运介质存储器、半导体存储 器、硬盘等适当的记录介质中,记录到这些记录介质中而被提供,或者 通过通信接口,利用各种通信网进行发送接收而提供。
权利要求
1.一种二元关系提取装置,其特征在于,是一种使用机器学习处理提取计算机可读取的存储装置中所保存的文本数据中所出现的二元关系的处理装置,其具备以下单元教师数据存储单元,其中保存的教师数据包含的是由问题与解答的组所构成的事例、问题是文本数据中所出现的二元关系、解答是要提取的二元关系;解答-特性对提取单元,用于从上述教师数据存储单元中提取上述事例,针对上述每个事例,提取预定信息作为特性,生成由上述解答和上述所提取的特性的集合构成的组;机器学习单元,其基于预定的机器学习算法,针对上述解答和特性的集合构成的组执行机器学习处理,学习在何种特性集合的情况下会形成上述解答,将表示在上述何种特性集合的情况下会形成上述解答的信息作为学习结果信息保存到学习结果存储单元中;候选提取单元,其从上述存储装置中保存的文本数据中提取上述二元关系的元素,并提取由上述元素所构成的对,将上述提取的对作为二元关系的候选;特性提取单元,其通过执行与上述解答-特性对提取单元所执行的提取处理相同的提取处理,针对上述二元关系的候选,提取上述预定信息作为特性;解答推断单元,其基于上述学习结果存储单元中保存的上述学习结果信息,推断在上述二元关系的候选特性的集合的情况下容易形成上述解答的程度;二元关系提取单元,其在针对上述二元关系的候选容易形成表示其是应提取的二元关系的解答的程度好于预定程度的情况下,选择上述二元关系的候选作为应提取的二元关系。
2. 如权利要求1所述的二元关系提取装置,其特征在于,上述教 师数据存储单元保存着教师数据,该教师数据所包含的上述事例有其 中提供了表示成为问题的二元关系是应提取的二元关系的正的解答的 正的事例、其中提供了表示成为问题的二元关系是不应提取的二元关系 的负的解答的负的事例。
3. 如权利要求1或权利要求2的任意一项所述的二元关系提取装置,其特征在于,上述机器学习单元根据上述教师数据设定由上述预定 信息即特性的集合和表示解答的信息的对所构成的规则,将上述规则按 照预定顺序排列成列表作为学习结果,将上述规则的列表作为学习结果信息保存到上述学习结果存储单元中;上述解答推断单元从开头位置对上述学习结果存储单元中保存的 上述学习结果信息即上述规则的列表进行查验,检测出与从上述二元关 系的候选中提取的特性集合一致的规则,基于表示所检测到的规则的解 答的信息,推断出上述二元关系的候选的解答。
4. 如权利要求1或权利要求2的任意一项所述的二元关系提取装 置,其特征在于,上述机器学习单元根据上述教师数据确定可能成为解 答的分类,求取在满足预定条件公式并且使表示熵的算式达到最大时的 特性集合和可能成为解答的分类这二项构成的概率分布,将上述概率分 布作为上述学习结果信息保存到上述学习结果存储部;上述解答推断单元利用上述学习结果存储单元中保存的上述学习 结果信息即上述概率分布求取在上述二元关系的候选的集合的情况下 可能成为各个解答的分类的概率,确定出可能成为具有最大概率值的解 答的分类,将上述确定的分类推断为上述二元关系的候选的解答。
5. 如权利要求1或权利要求2的任意一项所述的二元关系提取装 置,其特征在于,上述机器学习单元根据上述教师数据确定可能成为解 答的分类,将上述分类分割为正例和负例,按照使用了预定核函数的执 行支持向量机法的函数,在以从上述二元关系的候选中提取出来的特性 集合为维度的空间中,求取使上述正例和上述负例的间隔最大、并且被 超平面分割的超平面,将上述超平面作为上述学习结果信息保存到上述 学习结果存储单元;上述解答推断单元利用上述学习结果存储单元中保存的上述学习 结果信息即上述超平面,确定从上述二元关系的候选中提取的特性集合 在上述超平面分割而成上述空间中位于上述正例 一 侧还是上述负例一 侧,根据上述确定的结果确定可能成为解答的分类,将上述确定的分类 推断为上述二元关系的候选的解答。
6. 如权利要求1或权利要求2的任意一项所述的二元关系提取装 置,其特征在于,上述机器学习单元预先定义基于上述教师数据的事例 之间在从该事例中提取出来的特性集合之中重复特性的比例的事例之间的相似度,将上述定义的相似度和事例作为上述学习结果信息保存到上述学习结果存储单元;上述解答推断单元参照上述学习结果存储单元中保存的上述学习 结果信息即上述所定义的相似度和上述事例,针对上述二元关系的候选,按照与该候选的相似度高的顺序选择k个事例,将由上述所选择的 k个事例通过多数决定而确定的分类目标推断为上述二元关系的候选的解答。
7. 如权利要求1或权利要求2的任意一项所述的二元关系提取装 置,其特征在于,上述机器学习单元将上述解答和特性集合的组作为上 述学习结果信息保存到上述学习结果存储单元;上述解答推断单元基于上述学习结果存储单元的上述解答和特性 集合的组,根据贝叶斯定理计算出在由上述特性提取单元所取得的上述 二元关系的候选的特性集合的情况下成为各分类的概率,将上述概率值 最大的分类推断为上述二元关系的候选的解答。
8. —种使用了二元关系提取处理的信息检索装置,其特征在于, 是在使用多个检索关键字进行信息检索的处理中,利用使用有教师的机 器学习处理的二元关系提取处理结果提取检索结果的处理装置;其具备 以下单元教师数据存储单元,其中保存的教师数据包含的是由问题与解答的 组所构成的事例、问题是以检索关键字作为元素的二元关系、解答是要 提取的二元关系;解答-特性对提取单元,用于从上述教师数据存储单元中提取上述 事例,针对上述每个事例,提取预定信息作为特性,生成由上述解答和 上述所提取的特性的集合构成的组;机器学习单元,其基于预定的机器学习算法,针对上述解答和特性 的集合构成的组执行机器学习处理,学习在何种特性集合的情况下会形 成上述解答,将表示在上述何种特性集合的情况下会形成上述解答的信 息作为学习结果信息保存到学习结果存储单元中;信息检索单元,其生成使用所输入的多个检索关键字的输入检索关 键字对,从作为检索对象的文本数据中提取并得到包含上述输入检索关 键字对的文本数据;候选提取单元,其根据通过上述检索取得的各文本数据生成由上述输入检索关键字所构成的对,将上述生成的对作为二元关系的候选;特性提取单元,其通过执行与上述解答-特性对提取单元所执行的 提取处理相同的提取处理,针对上述二元关系的候选,提取上述预定信 息作为特性;解答推断单元,其基于上述学习结果存储单元中保存的上述学习结 果信息,推断在上述二元关系的候选特性的集合的情况下容易形成上述 解答的程度;检索结果提取单元,其在针对上述二元关系的候选容易形成表示其 是应提取的二元关系的解答的程度好于预定程度的情况下,选择上述二 元关系的候选作为应提取的二元关系,将包含上述所选择的二元关系的 文本数据作为检索结果提取出来。
9. 如权利要求8所述的使用了二元关系提取处理的信息检索装置, 其特征在于,上述教师数据存储单元保存着教师数据,该教师数据所包 含的上述事例有其中提供了表示成为问题的二元关系是应提取的二元 关系的正的解答的正的事例,其中提供了表示成为问题的二元关系是不 应提取的二元关系的负的解答的负的事例。
10. 如权利要求8或权利要求9的任意一项所述的使用了二元关系 提取处理的信息检索装置,其特征在于,上述机器学习单元根据上述教 师数据设定由上述预定信息即特性的集合和表示解答的信息的对所构规则的列表作为学习结果信息保存到上述学习结果存储;元中;'上述解答推断单元从开头位置对上述学习结果存储单元中保存的 上述学习结果信息即上述规则的列表进行查验,检测出与从上述二元关 系的候选中提取的特性集合一致的规则,基于表示所检测到的规则的解 答的信息,推断出上述二元关系的候选的解答。
11. 如权利要求8或权利要求9的任意一项所述的使用了二元关系 提取处理的信息检索装置,其特征在于,上述机器学习单元根据上述教 师数据确定可能成为解答的分类,求取在满足预定条件公式并且使表示 熵的算式达到最大时的特性集合和可能成为解答的分类这二项构成的 概率分布,将上述概率分布作为上述学习结果信息保存到上述学习结果 存4诸部;上述解答推断单元利用上述学习结果存储单元中保存的上述学习结果信息即上述概率分布,求取在上述二元关系的候选的集合的情况下 可能成为各个解答的分类的概率,确定出可能成为具有最大概率值的解 答的分类,将上述确定的分类推断为上述二元关系的候选的解答。
12. 如权利要求8或权利要求9的任意一项所述的使用了二元关系 提取处理的信息检索装置,其特征在于,上述机器学习单元根据上述教 师数据确定可能成为解答的分类,将上述分类分割为正例和负例,按照使用了预定核函数的执行支持向量机法的函数,在以从上述二元关系的 候选中提取出来的特性集合为维度的空间中,求取使上述正例和上述负 例的间隔最大、并且被超平面分割的超平面,将上述超平面作为上述学 习结果信息保存到上述学习结果存储单元;上述解答推断单元利用上述学习结果存储单元中保存的上述学习 结果信息即上述超平面,确定从上述二元关系的候选中提取的特性集合 在上述超平面分割而成的上述空间中位于上述正例 一 侧还是上述负例 一侧,根据上述确定的结果确定可能成为解答的分类,将上述确定的分 类推断为上述二元关系的候选的解答。
13. 如权利要求8或权利要求9的任意一项所述的使用了二元关系 提取处理的信息检索装置,其特征在于,上述机器学习单元预先定义基 于上述教师数据的事例之间在从该事例中提取出来的特性集合之中重 复特性的比例的事例之间的相似度,将上述定义的相似度和事例作为上 述学习结果信息保存到上述学习结果存储单元;上述解答推断单元参照上述学习结果存储单元中保存的上述学习 结果信息即上述所定义的相似度和上述事例,针对上述二元关系的候 选,按照与该候选的相似度高的顺序选择k个事例,将由上述所选择的 k个事例通过多数决定而确定的分类目标推断为上述二元关系的候选的 解答。
14. 如权利要求8或权利要求9的任意一项所述的使用了二元关系 提取处理的信息检索装置,其特征在于,上述机器学习单元将上述解答 和特性集合的组作为上述学习结果信息保存到上述学习结果存储单元;上述解答推断单元基于上述学习结果存储单元的上述解答和特性 集合的组,根据贝叶斯定理计算出在由上述特性提取单元所取得的上述 二元关系的候选的特性集合的情况下成为各分类的概率,将上述概率值 最大的分类推断为上述二元关系的候选的解答。
15. —种二元关系提取处理方法,其特征在于,是一种使用机器学 习处理提取计算机可读取的存储装置中所保存的文本数据中所出现的二元关系的二元关系提取处理方法,其包括解答-特性对提取处理过程,其从保存着包含由问题和解答的组构 成的事例中问题是文本数据中出现的二元关系、解答是应提取的二元关 系作为内容的教师数据的教师数据存储单元中提取上述事例,针对上述每个事例,提取预定的信息作为特性,生成上述解答和上述所提取的特 性集合的组;机器学习处理过程,其基于预定的机器学习算法,针对上述解答和 特性的集合构成的组执行机器学习处理,学习在何种特性集合的情况下 会形成上述解答,将表示在上述何种特性集合的情况下会形成上述解答 的信息作为学习结果信息保存到学习结果存储单元中;候选提取处理过程,其从上述存储装置中保存的文本数据中提取上 述二元关系的元素,并提取由上述元素所构成的对,将上述提取的对作 为二元关系的候选;特性提取处理过程,其通过执行与上述解答-特性对提取单元所执 行的提取处理相同的提取处理,针对上述二元关系的候选,提取上述预 定信息作为特性;解答推断处理过程,其基于上述学习结果存储单元中保存的上述学 习结果信息,推断在上述二元关系的候选特性的集合的情况下容易形成 上述解答的程度;二元关系提取处理过程,其在作为上述推断结果、针对上述二元关 系的候选容易形成表示其是应提取的二元关系的解答的程度好于预定 程度的情况下,选择上述二元关系的候选作为应提取的二元关系。
16. —种使用了二元关系提取处理的信息检索处理方法,其特征在 于,是在计算机使用多个检索关键字进行信息检索处理的情况下,利用 使用有教师的机器学习处理的二元关系提取处理结果提取检索结果的 信息检索处理方法;其包括解答-特性对提取处理过程,其从保存着包含由问题和解答的组构 成的事例中问题是以检索关键字为元素的二元关系、解答是应提取的二 元关系作为内容的教师数据的教师数据存储单元中提取上述事例,针对 上述每个事例,提取预定的信息作为特性,生成上述解答和上述所提取的特性集合的组;机器学习处理过程,其基于预定的机器学习算法,针对上述解答和 特性的集合构成的组执行机器学习处理,学习在何种特性集合的情况下 会形成上述解答,将表示在上述何种特性集合的情况下会形成上述解答 的信息作为学习结果信息保存到学习结果存储单元中;信息检索处理过程,其生成使用所输入的多个检索关键字的输入检 索关键字对,从作为检索对象的文本数据中提取包含上述输入检索关键 字对的文本数据;候选提取处理过程,其根据通过上述检索取得的各文本数据生成由 上述输入检索关键字所构成的对,将上述生成的对作为二元关系的候 选;特性提取处理过程,其通过执行与上述解答-特性对提取单元所执 行的提取处理相同的提取处理,针对上述二元关系的候选,提取上述预 定信息作为特性;解答推断处理过程,其基于上述学习结果存储单元中保存的上述学 习结果信息,推断在上述二元关系的候选特性的集合的情况下容易形成 上述解答的程度;检索结果提取处理过程,其在作为上述推断结果、针对上述二元关 系的候选容易形成表示其是应提取的二元关系的解答的程度好于预定 程度的情况下,选择上述二元关系的候选作为应提取的二元关系,将包 含上述所选择的二元关系的文本数据作为检索结果提取出来。
17. —种二元关系提取处理程序,其特征在于,其执行一种使用机 器学习处理提取计算机可读取的存储装置中所保存的文本数据中所出 现的二元关系的处理方法,该方法扭J亍解答-特性对提取处理过程,其从保存着包含由问题和解答的组构 成的事例中问题是文本数据中出现的二元关系、解答是应提取的二元关 系作为内容的教师数据的教师数据存储单元中提取上述事例,针对上述 每个事例,提取预定的信息作为特性,生成上述解答和上述所提取的特 性集合的组;机器学习处理过程,其基于预定的机器学习算法,针对上述解答和 特性的集合构成的组执行机器学习处理,学习在何种特性集合的情况下 会形成上述解答,将表示在上述何种特性集合的情况下会形成上述解答的信息作为学习结果信息保存到学习结果存储单元中;候选提取处理过程,其从上述存储装置中保存的文本数据中提取上述二元关系的元素,并提取由上述元素所构成的对,将上述提取的对作为二元关系的候选;特性提取处理过程,其通过执行与上述解答-特性对提取单元所执行的提取处理相同的提取处理,针对上述二元关系的候选,提取上述预定信息作为特性;解答推断处理过程,其基于上述学习结果存储单元中保存的上述学 习结果信息,推断在上述二元关系的候选特性的集合的情况下容易形成 上述解答的程度;二元关系提取处理过程,其在作为上述推断结果、针对上述二元关 系的候选容易形成表示其是应提取的二元关系的解答的程度好于预定 程度的情况下,选择上述二元关系的候选作为应提取的二元关系。
18. —种使用了二元关系提取处理的信息检索处理程序,其特征在 于,其是 一 种在计算机使用多个检索关键字进行信息检索处理的情况 下,利用使用有教师的机器学习处理的二元关系提取处理结果提取检索 结果的方法;该方法执行解答-特性对提取处理过程,其从保存着包含由问题和解答的组构 成的事例中问题是以检索关键字为元素的二元关系、解答是应提取的二 元关系作为内容的教师数据的教师数据存储单元中提取上述事例,针对 上述每个事例,提取预定的信息作为特性,生成上述解答和上述所提取 的特性集合的组;机器学习处理过程,其基于预定的机器学习算法,针对上述解答和 特性的集合构成的组执行机器学习处理,学习在何种特性集合的情况下 会形成上述解答,将表示在上迷何种特性集合的情况下会形成上述解答 的信息作为学习结果信息保存到学习结果存储单元中;信息检索处理过程,其生成使用所输入的多个检索关键字的输入检 索关键字对,从作为检索对象的文本数据中提取包含上述输入检索关键 字对的文本数据;候选提取处理过程,其根据通过上述检索取得的各文本数据生成由 上述输入检索关键字所构成的对,将上述生成的对作为二元关系的候 选;特性提取处理过程,其通过执行与上述解答-特性对提取单元所执 行的提取处理相同的提取处理,针对上述二元关系的候选,提取上述预定信息作为特性;解答推断处理过程,其基于上述学习结果存储单元中保存的上述学 习结果信息,推断在上述二元关系的候选特性的集合的情况下容易形成上述解答的程度;检索结果提取处理过程,其在作为上述推断结果、针对上述二元关 系的候选容易形成表示其是应提取的二元关系的解答的程度好于预定 程度的情况下,选择上述二元关系的候选作为应提取的二元关系,将包 含上述所选择的二元关系的文本数据作为检索结果提取出来。
全文摘要
本发明提供一种针对复杂的问题也能够高性能地提取二元关系的装置。解答-特性对提取部(12)从保存着包含在文本数据中出现的二元关系中赋予了表示其是应提取的内容的解答的事例的教师数据的教师数据存储部(11)中提取事例的特性,生成特性的集合和解答的组。机器学习部(13)利用预定的机器学习方法,对该组在何种特性集合的情况下会形成何种解答这一问题进行机器学习,并将学习结果信息保存到学习结果存储部(14)。候选提取部(15)从文本数据(2)中提取二元关系的候选,特性提取部(16)提取二元关系的候选的特性的集合。解答推断部(17)基于学习结果信息推断在二元关系的候选的特性集合的情况下容易形成解答的程度,二元关系提取部(18)根据推断结果提取正的解答的推断程度良好的二元关系的候选。
文档编号G06F19/00GK101253497SQ200680022356
公开日2008年8月27日 申请日期2006年6月23日 优先权日2005年6月23日
发明者三森智裕, 土井晃一, 村田真树, 福田安志 申请人:独立行政法人情报通信研究机构
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1