文本含意辨认装置、文本含意辨认方法和计算机可读记录介质的制作方法

文档序号:6397122阅读:202来源:国知局
专利名称:文本含意辨认装置、文本含意辨认方法和计算机可读记录介质的制作方法
技术领域
本发明涉及用于确定特定文本是否暗指另一文本的文本含意辨认装置和文本含意辨认方法,以及计算机可读记录介质,其上记录有用于实现上述装置和方法的程序。
背景技术
近年来,已经注意到文本含意辨认以便实现用于处理自然语言的大量复杂应用,例如检索具有意义的自然语句。文本含意辨认是指一种任务,当给定文本T和文本H时,确定是否“能够从文本T推导出文本H”。例如,当给定“文本T:N公司具有500亿日元的利润”和“文本H:N公司盈利”时,可以从文本T推导出文本H,并确定文本T暗指文本H。原因在于认为“500亿日元的利润”足以意味着“盈利”。例如,非专利文献I公开了一种传统文本含意辨认系统的示例。非专利文献I中公开的文本含意辨认系统首先解析文本T和文本H中的每一个,并针对每个文本创建树结构,在所述树结构中动词是根部(顶部节点),动词的论元(argument)(主语、宾语等)中包括的字词是子节点或孙节点。接下来,非专利文献I中公开的含意确定系统对文本T执行字词替换和语法解释,并尝试在文本T的子树中创建与文本H的树结构相匹配的树结构。然后,如果能够在文本T的子树中创建上述树结构,则含意确定系统确定文本T暗指文本H。此外,利用非专利文献I中公开的含意确定系统,除了是否存在理想匹配的匹配确定以外,还可以在对树结构执行匹配确定时执行近似匹配确定。具体地,在创建上述树结构之后,含意确定系统根据创建的树结构来创建被称作VAS(动词论元结构)的数据。VAS是一种所谓的谓语论元结构,包括用作树结构根部的动词和针对每个论元类型分离创建的字词集。例如,在非专利文献I中,从语句“Casey Sheehan在伊拉克被杀害”生成VAS “〈杀害,(宾语:Casey, Sheehan),(其他:伊拉克)>”。非专利文献I还公开了一种方法,其中如果根部是动词“是”且论元类型之间无差异,则根据子节点和孙节点的整体性来创建字词集。然后,非专利文献I中公开的含意确定系统针对从文本T和文本H创建的两个VAS,确定相同论元的字词集之间字词覆盖的百分比。随后,如果上述字词覆盖的百分比大于或等于预定覆盖,则含意确定系统确定两个VAS的论元内容匹配,如果论元匹配程度大于或等于固定比率,则还确定两个VAS的原始树结构也匹配。因此,在生成VAS的情况下,不仅可以实现动词论元的字符串之间的理想匹配,还可以确定近似匹配。引用列表非专利文献非专利文献 I:Asher Stern et al., " Rule Chaining and Approximate Matchin textual inference " , Text Analysis Conference2010, (Online Proceedings),http://www.nist.gov/tac/publications/2010/participant.papers/BIU.proceedings,pdf

发明内容
本发明要解决的技术问题如上所述,非专利文献I中公开的上述含意确定系统能够确定两个感兴趣自然语句中的一个是否暗指另一个,因此例如能够令人信服地检索自然语句。然而,非专利文献I中公开的上述含意确定系统存在的问题在于:如果谓语的论元结构不同则不能执行含意确定。原因在于该含意确定系统在谓语的论元结构相同的假设下执行文本之间的核对。例如,假设存在“文本T:A公司从个人计算机商业领域撤出”和“文本H:来自A公司的个人计算机将消失”。非专利文献I中公开的上述含意确定系统从文本T中提取“撤出(主语:A公司,宾语:个人计算机,商业领域)”作为VAS,并从文本H中提取“消失(主语:A公司,从,个人计算机)”。在提取上述VAS的情况下,“撤出”和“消失”是不同的动词。结果,在非专利文献I中公开的上述含意确定系统中,即使文本T暗指文本H,仍确定文本T不暗指文本H。此外,在含意确定系统中,即使在上述情况下认为所有动词都是相同的,“消失”的主语不同于“撤出”的主语和宾语,因此,在这种情况下仍确定文本T没有含意文本H。本发明的目的本发明的目的示例在于解决上述技术问题并提供一种文本含意辨认装置、文本含意辨认方法和计算机可读记录介质,即使在谓语的论元结构不同的情况下,也能够对进行确定的多个文本进行含意确定。解决技术问题的技术手段根据本发明的一方面,为了实现上述目的,提供了一种文本含意辨认装置,用于确定第一文本是否暗指第二文本,所述文本含意辨认装置包括:矢量生成单元,获取第一文本和第二文本中每一个的谓语论元结构,并使用除对所述谓语论元结构中的谓语论元的类型加以指示的字词以外的字词,对于第一文本和第二文本中的每一个生成针对每个谓语论元结构的矢量;组合识别单元,将针对第一文本的每个谓语论元结构生成的矢量与针对第二文本的每个谓语论元结构生成的矢量进行比较,并根据比较结果识别第一文本的所述谓语论元结构与第二文本的所述谓语论元结构的组合;以及含意确定单元,针对识别的每个组合获得特征量,并根据获得的所述特征量来确定第一文本是否暗指第二文本。此外,根据本发明的一方面,为了实现上述目的,提供了一种文本含意辨认方法,用于确定第一文本是否暗指第二文本,所述文本含意辨认方法包括:(a)获取第一文本和第二文本中每一个的谓语论元结构,并使用除对谓语论元结构中的谓语论元的类型加以指示的字词以外的字词,对于第一文本和第二文本中的每一个生成针对每个谓语论元结构的矢量;(b)将针对第一文本的每个谓语论元结构生成的矢量与针对所述第二文本的每个所述谓语论元结构生成的矢量进行比较,并根据比较结果识别第一文本的谓语论元结构与第二文本的谓语论元结构的组合;以及(c)针对识别的每个组合获得特征量,并根据获得的特征量来确定第一文本是否暗指第二文本。此外,根据本发明的一方面,为了实现上述目的,提供了一种计算机可读记录介质,其上记录有用于计算机确定第一文本是否暗示第二文本的程序,所述程序包括使所述计算机执行以下步骤的指令:(a)获取第一文本和第二文本中每一个的谓语论元结构,并使用除对谓语论元结构中的谓语论元的类型加以指示的字词以外的字词,对于第一文本和第二文本中的每一个生成针对每个谓语论元结构的矢量;(b)将针对第一文本的每个所述谓语论元结构生成的矢量与针对第二文本的每个所述谓语论元结构生成的矢量进行比较,并根据比较结果识别第一文本的谓语论元结构与第二文本的谓语论元结构的组合;以及(C)针对识别的所述每个组合获得特征量,并根据获得的特征量来确定第一文本是否暗指第二文本。发明的技术效果如上所述,根据本发明,即使在谓语的论元结构不同的情况下,也能够对经历确定的多个文本进行含意确定。


图1是示出了根据本发明实施例的含意确定装置的配置的方框图。图2是示出了根据本发明实施例的含意确定装置的操作的流程图。图3是示出了从文本中提取谓语论元结构的示例的图。图4是示出了从图3所示谓语论元结构中生成矢量的图。图5是示出了在本实施例中执行的组合识别处理的示例的图。图6是示出了在本实施例中执行的含意确定处理的示例的图。图7是示出了根据本发明实施例用于实现含意确定装置的计算机示例的方框图。
具体实施例方式实施例下文中,将参考图1到7来描述根据本发明实施例的含意确定装置、含意确定方法和程序。装置的配置首先,参考图1来描述根据本发明实施例的含意确定装置的配置。图1是示出了根据本发明实施例的含意确定装置的配置的方框图。图1所示根据本实施例的含意确定装置2是一种用于确定第一文本是否暗指第二文本的装置。如图1所示,含意确定装置2包括矢量生成单元21、组合识别单元22和含意确定单元23。其中,矢量生成单元21首先获取第一文本和第二文本的相应谓语论元结构。然后,对于第一文本和第二文本中的每一个,矢量生成单元21通过使用除对谓语论元结构中的谓语论元的类型加以指示的字词以外的字词,生成针对每一个谓语论元结构的矢量。组合识别单元22将针对第一文本的每个谓语论元结构生成的矢量与针对第二文本的每个谓语论元结构生成的矢量进行比较,并根据比较结果识别第一文本的谓语论元结构与第二文本的谓语论元结构的组合。含意确定单元23针对识别的每个组合计算特征量,并根据获得的所述特征量来确定第一文本是否暗指第二文本。因此,利用含意确定装置2,从忽略论元结构的矢量比较结果中识别经历确定的谓语论元结构的组合,并根据识别的组合确定文本之间的含意。因此,利用含意确定装置2,即使在谓语的论元结构不同的情况下,也能够对经历确定的多个文本进行含意确定。接下来,将更详细地描述本发明中含意确定装置2的配置。首先,在本实施例中,含意确定装置2是一种在程序控制下操作并通过在计算机上执行下述程序来实现的装置。此外,在本实施例中,“谓语论元结构”至少包括文本中包含的谓语(动词)、用作谓语论元的字词和对论元的类型加以指示的字词(标签)(参见下述图3)。因此,在本实施例中,“除对谓语论元结构中的谓语论元的类型加以指示的字词以外的字词”是指谓语(动词)和用作论元的字词。如图1所示,在本实施例中,输入装置1、存储在含意确定装置2中使用的各种数据的存储装置3和用于输出结果的输出装置4与含意确定装置2相连。含意确定装置2与输入装置1、存储装置3和输出装置4构成含意确定系统。输入装置I将经历含意确定装置2执行的含意确定的两个文本(即,第一文本和第二文本)输入到含意确定装置2中。注意在以下描述中,可以将第一文本称作“文本T”,或简称“T”,可以将第二文本称作“文本H”,或简称“H”。在本实施例中,经历含意确定的文本T和文本H可以是由给定方法定义的任意单位文本。经历含意确定的文本T和文本H的示例包括构成文本文件的部分或所有文本、通过链接由解析获得的任意子树中包括的字符串创建的文本、和通过链接谓语论元结构中的字符串创建的文本。输出装置4输出含意确定装置2针对从输入装置I输入的文本T和文本H执行的含意确定的结果。输出装置4的具体示例包括显示装置和打印机。存储装置3包括字词核对规则存储单元30和谓语论元结构核对规则存储单元31。在本实施例中,含意确定装置2可以使用存储在存储装置3中的信息,因此与没有连接存储装置3的情况相比较,能够实现含意确定准确度的提高。字词核对规则存储单元30存储字词之间建立的含意规则(字词核对规则),例如同义词、下义词、部分词和派生词。字词核对规则的示例包括“日本电气株式会社一NEC”,“跑一移动”,“东京一日本”,以及“制造商一制造”。谓语论元结构核对规则存储单元31存储在含意确定期间要核对的谓语论元结构之间的论元关系(谓语论元结构核对规则)。谓语论元结构核对规则的示例包括“撤出(主语:x,宾语:Y)—消失(主语:x的Y)”和“杀害(宾语:x)—死亡(主语:x)”。在本实施例中,除了上述矢量生成单元21、组合识别单元22和含意确定单元23以夕卜,含意确定装置2还包括谓语论元结构分析单元20。谓语论元结构分析单元20分析由输入装置I输入的文本,根据解析结果从每个文本中提取谓语论元结构。此外,谓语论元结构分析单元20向矢量生成单元21输出提取的谓语论元结构。在本实施例中,如上所述,矢量生成单元21提取除对谓语论元结构中的谓语论元的类型加以指示的字词以外的字词(即,谓语、用作谓语论元的字词),并使用这些字词生成矢量。此外,矢量生成单元21针对每个文本中的每个谓语论元结构生成矢量,即,在每个文本包括多个谓语论元结构的情况下针对每个谓语论元结构。矢量生成单元21将生成的矢量输出到组合识别单元22。在本实施例中,组合识别单元22可以从字词核对规则存储单元30和谓语论元结构核对规则存储单元31的每一个中读取核对规则,并参考核对规则来识别组合。此外,组合识别单元22向含意确定单元23输出识别的组合。同样,在本实施例中,组合识别单元22计算针对文本T的每个谓语论元结构生成的矢量与针对文本H的每个谓语论元结构生成的矢量之间的相似度。然后,组合识别单元22根据计算的相似度识别文本T的谓语论元结构和文本H的谓语论元结构的组合。具体地,例如假定文本T仅包括单个谓语论元结构。在这种情况下,组合识别单元22针对文本H的每个谓语论元结构识别谓语论元结构和文本T的单个谓语论元结构的组合。换句话说,识别与文本H的谓语论元结构数目相对应数目的组合。另一方面,假定文本T包括多个谓语论元结构。在这种情况下,组合识别单元22针对从文本H的谓语论元结构生成的矢量和从文本T的谓语论元结构生成的矢量的所有可能配对来计算相似度。然后,组合识别单元22指定相似度大于或等于阈值的任意配对,或具有最高相似度的配对,并识别被创建了指定配对的两个谓语论元结构。在本实施例中,含意确定单元23根据除对谓语论元结构中的谓语论元的类型加以指示的字词以外的字词(谓语和用作论元的字词)来计算特征量。特征量的示例包括文本T的谓语论元结构和文本H的谓语论元结构之间的字词覆盖程度和仅针对用作论元的字词的字词匹配程度。例如,含意确定单元23可以针对特征量设置阈值,如果特征量大于或等于所设阈值,则确定文本T暗指文本H。此外,在本实施例中,除了特征量以外,含意确定单元23还可以使用谓语论元结构的结构特征来执行确定。之后,含意确定单元23向输出装置4输出含意确定结果。注意到本实施例中,关于在含意确定中使用的确定准则并无限制,可以使用常规已经使用的任意确定规则。装置的操作接下来,将参考图2来描述根据本发明实施例的含意确定装置2的操作。图2是示出了根据本发明实施例的含意确定装置的操作的流程图。在以下描述中,必要时将参考图1。此外,在本实施例中,通过操作含意确定装置2来执行含意确定方法。因此,含意确定装置2的以下描述可以替代本发明中含意确定方法的描述。 用于提取谓语论元结构的处理首先,如图2所示,谓语论元结构分析单元20从输入装置I接收文本T和文本H的输入,并从作为输入接收的文本T和文本H中提取谓语论元结构(步骤SI)。本文中,将参考图3来描述谓语论元结构的具体示例。图3是示出了从文本中提取谓语论元结构的示例的图。在图3所示示例中,示出了文本T和文本H,文本T包括两个文本,即文本Tl和文本T2。当输入如图3的文本Tl和T2以及文本H时,含意确定装置2确定文本Tl是否暗指文本H,以及文本T2是否暗指文本H。此外,在图3的示例中,由于谓语是“证实”,谓语论元结构分析单元20从文本“Tl:股东大会证实B先生是A公司(东京)的董事长”中提取“证实(主语:股东大会,宾语:B先生,目标:A公司(东京)的董事长)”作为谓语论元结构。此外,由于谓语是“就职”和“居住”,谓语论元结构分析单元20从文本“T2:居住东京的B先生就职为A公司(东京)的董事长”中提取“就职(主语:B先生,目标:A公司(东京)的董事长)”和“居住(主语:B先生,地点:东京)”作为谓语论元结构。此外,由于谓语是“成为”和“位于”,谓语论元结构分析单元20从文本“H:B先生成为位于东京的A公司的董事长”中提取“成为(主语:B先生,目标:位于东京的A公司的董事长)”和“位于(主语:A公司,地点:东京)”作为谓语论元结构。注意在图3所示示例中,当确定Tl暗指H而T2没有暗指H时,给出校正答案。这是因为从T2中不能读出信息“A公司位于东京”。用于生成谓语论元结构矢量的处理接下来,矢量生成单元21获取在步骤SI中提取的每个文本的谓语论元结构,针对每个文本创建矢量(以下称作“谓语论元结构矢量”),所述每个谓语论元结构的分量是谓语论元结构中的谓语和用作谓语论元的字词。图4示出了从图3所示谓语论元结构中生成的矢量。如图4所示,矢量生成单元21仅使用例如谓语和用作谓语论元的字词之类的内容字词来生成谓语论元结构矢量。在本实施例中,谓语论元结构包括除对谓语论元结构中的谓语论元的类型加以指示的字词以外的字词作为其分量就足够了。具体地,如图4所示,矢量生成单元21从Tl中提取的谓语论元结构“证实(主语:股东大会,宾语:B先生,目标:A公司(东京)的董事长)”中生成(证实,股东,大会,B先生,A公司,东京,董事长)作为谓语论元结构矢量。此外,矢量生成单元21从T2中提取的谓语论元结构“就职(主语:B先生,目标:A公司(东京)的董事长)”和“居住(主语:B先生,地点:东京)”中生成(就职,B先生,A公司,董事长)和(居住,B先生,东京)。此外,矢量生成单元21从H中提取的谓语论元结构“成为(主语:B先生,目标 位于东京的A公司的董事长)”和“位于(主语:A公司,地点:东京)”中生成(成为,B先生,东京,A公司,董事长)和(位于,A公司,东京)。在本实施例中,矢量生成单元21还将例如从论元结构中获取的任意信息(以下称作“结构信息”,例如“predicate_type of argument_word”)添加到谓语论元结构矢量中。在这种情况下,例如矢量生成单元21可以生成矢量(证实,股东,大会,B先生,A公司,东京,董事长,谓语:证实,approve_subject_stockholder, approve_subject_generalmeeting, approve_object_Mr.B,...)。识别谓语论元结构的组合的处理接下来,组合识别单元22计算从文本Tl和文本T2的每个谓语论元结构获取的矢量相对于从文本H的谓语论元结构获取的每个矢量的相似度,并根据相似度识别谓语论元结构的组合(步骤S3)。 例如,组合识别单元22指定相似度大于或等于阈值的任意配对,或具有最高相似度的配对,并识别被创建了指定配对的两个谓语论元结构。为了计算相似度,将要计算的两个谓语论元结构矢量转换为维度数目等于从两个矢量的字符创数目的总值减去共同字符串的数目而获得的值的矢量。此时,将其中存在字符串的分量设为“ I ”,将其中不存在字符串的分量设为“O”。例如,针对文本T2的(居住,B先生,东京)和文本H的(成为,B先生,东京,A公司,位于,董事长)给出示例。在这种情况下,维度的数目是7( = 3+6-2)。此外,将前者转换为(1,1,1,0,0,0,0),将后者转换为(0,1,1,1,1,1,1)。此外,可以将以特定方式估计的
权重值添加到每个转换矢量的分量。本文中,参考图5来描述步骤S3的处理的特定示例。图5是示出了在本实施例中执行的组合识别处理的示例的图。在图5的示例中,将相似度的阈值设为0.5,使用以下表达式I来计算余弦相似度sim。在以下表达式I中,X和y表示要计算的两个转换矢量。此夕卜,在以下表达式I中,(X *y)表示矢量X和矢量y的内积,X表示矢量χ的长度,Iy I表不矢量I的长度。表达式Isim = (χ.y)/(|x| |yI)如图5所示,首先假定对Tl和H进行含意确定。由于Tl仅包括一个谓语论元结构,因此自动识别Tl的谓语论元结构和H的“位于(主语:A公司,地点:东京)”的组合与Tl的同一谓语论元结构和H的“成为(主语:B先生,目标:位于东京的A公司的董事长)”的组合。另一方面,假定对T2和H进行含意确定,针对所有的可能矢量配对计算相似度。根据以上表达式1,将H的谓语论元结构矢量“位于(主语:A公司,地点:东京)”和T2的“居住(主语:B先生,地点:东京)”之间的相似度计算为0.333。此外,将H的谓语论元结构矢量“位于(主语:A公司,地点:东京)”和T2的“就职(主语:B先生,目标:A公司的董事长)”之间的相似度计算为0.289。尽管在这种情况下两个相似度均没有超过阈值,但是将具有最大相似度的“居住(主语:B先生,地点:东京)”识别为要针对H的“位于(主语:A公司,地点:东京)”进行确定的谓语论元结构。类似地,对于H的“成为(主语:B先生,目标:位于东京的A公司的董事长)”,将相对于T2的“就职(主语:B先生,目标:A公司的董事长)”的谓语论元结构矢量的相似度计算为0.617,并将相对于T2的“居住(主语:B先生,地点:东京)”的谓语论元结构矢量的相似度计算为0.471。在这种情况下,后一个相似度低于阈值,因此仅将具有最大相似度的“就职(主语:B先生,目标:A公司的董事长)”识别为要经历确定的谓语论元结构。同样,在本实施例中,识别组合单元22可以参考存储在字词核对规则存储单元30中的字词核对规则,并计算将字词核对规则中定义的两个字词视为匹配时的相似度。例如,在字词核对规则中预先确定了动词和具有派生关系的名词的情况下,组合识别单元22可以计算将动词和名词视为匹配字词时的相似度。结果,能够更适当地识别要经历确定的谓语论元结构,而不会受到谓语论元结构的限制。此外,在本实施例中,如果将步骤S2的描述中所述的结构信息添加到谓语论元结构矢量中,则组合识别单元22参考存储在谓语论元结构核对规则存储单元31中的谓语论元结构核对规则。然后,在这种情况下,组合识别单元22计算当将谓语论元结构核对规则中定义的两个谓语论元结构的相应论元视为匹配字词时的相似度。备选地,当确定论元之间的匹配时,组合识别单元22可以参考字词核对规则。在步骤S3,在相似度计算期间,组合识别单元22可以根据每个论元结构矢量中包括的信息量来执行归一化处理,以便识别不包括冗余信息的谓语论元结构。谓语论元结构矢量中包括的信息量的示例包括矢量中非0(零)分量的数目和分量的权重。此外,在执行归一化处理之后计算的相似度的示例包括余弦相似度和jaccard系数。例如,考虑谓语论元结构“宣布(主语:董事长,意图:B先生成为主席)”。在这种情况下,谓语论元结构“成为(主语B先生,目的:主席)”是谓语论元结构的“意图”所固有的。因此,当将共同字词的数目用作相似度,针对谓语论元结构“成为(主语B先生,目的:主席)”尝试识别要经历确定的谓语论元结构时,与前一种谓语论元结构的相似度是三个字词,与前一种中固有的后一种谓语论元结构的相似度是两个字词。结果,如果将共同字词的数目用作相似度,则倾向于选择前一种作为要经历确定的谓语论元结构。然而,由于前一种谓语论元结构包括字词“董事长”,即使这并不意味着B先生是董事长,因此根据下述含意确定单元23的确定准则,可能导致以下错误含意确定:“成为(主语B先生,目的:主席)”暗指前一种谓语论元结构。因此,例如能够通过以下方式来执行归一化:将每个谓语论元结构矢量的共同字词的数目除以两个谓语论元结构矢量的相应字词数目中较大的一个。在这种情况下,前一种谓语论元结构的相似度是0.6 ( = 3/5),后一种谓语论元结构的相似度是0.66 ( = 2/3),因此趋向于选择后一种作为要经历确定的谓语论元结构。这样,当在相似度计算期间执行上述归一化处理时,趋向于选择不包括冗余信息的谓语论元结构。因此,能够减小错误含意确定的可能性。含意确定处理最后,含意确定单元23针对在步骤S3被组合识别单元22识别为要经历确定的H侧谓语论元结构和T侧谓语论元结构的每一种组合获取特征量,并根据特征量确定T是否暗指H(步骤S4)。同样,在本实施例中,含意确定单元23例如根据所获取的特征量,计算T和H之间的含意分数,并在含意分数大于或等于给定值的情况下确定T暗指H。具体地,含意确定单元23根据除对谓语论元结构中的谓语论元的类型加以指示的字词以外的字词(谓语和用作谓语论元的字词),获取谓语论元结构之间的字词覆盖程度或仅针对用作论元的字词的字词匹配程度,作为特征量。此外,利用组合识别单元22,含意确定单元23能够使用字词核对规则和谓语论元结构核对规则之一或二者来获取特征量。本文中,参考图6来描述步骤S4中处理的特定示例。图6是示出了在本实施例中执行的含意确定处理的示例的图。在图6的示例中,获取谓语论元结构之间的字词覆盖程度(覆盖的百分比)作为特征量。具体地,当“a”表示H的谓语论元结构矢量与Tl或T2的谓语论元结构矢量的匹配分量数目,且b表示识别的组合中谓语论元结构的分量总数时,使用以下表达式2来计算覆盖的百分比。表达式2覆盖的百分比=a/b
此外,在图6的示例中,计算Tl或T2与H之间计算的特征量的平均值,并将该平均值用作含意分数。然后,如果该含意分数大于或等于0.50,则确定Tl或T2暗指H。如图6所示,在Tl和H的含意确定中,根据以上表达式2,H的“位于(主语:A公司,地点:东京)”和Tl的“证实(主语:股东大会,宾语:B先生,目标:A公司(东京)的董事长)”之间的覆盖百分比是0.66 ( = 2/3)。根据以上表达式2,H的“成为(主语:B先生,目标:位于东京的A公司的董事长)”和Tl的“证实(主语:股东大会,宾语:B先生,目标:A公司(东京)的董事长)”之间的覆盖百分比是0.66 ( = 4/6)。因此,Tl和H之间的含意分数是0.66( = (0.66+0.66)/2)。结果,含意分数大于或等于作为阈值的0.50,因此含意确定单元23确定“Tl暗指H”。另一方面,根据以上表达式2,在T2和H之间的含意确定中,H的“位于(主语:A公司,地点:东京)”和T2的“居住(主语:B先生,地点:东京)”之间的覆盖百分比是0.33=(1/3)。此外,根据以上表达式2,H的“成为(主语:B先生,目标:位于东京的A公司的董事长)”和T2的“就职(主语:B先生,目标:A公司的董事长)”之间的覆盖百分比是0.5=(3/6)。因此,T2和H之间的含意分数是0.415( = (0.33+0.5)/2)。结果,含意分数大于或等于作为阈值的0.50,含意确定单元23确定“T2没有暗指H”。此外,在本实施例中,含意确定单元23可以根据通过机器学习获取的数据项,当确定特征量时向特征量添加权重。具体地,在已经通过机器学习了被确定为暗指的两个文本的大量组合的情况下,含意确定单元23可以根据学习的数据校正计算的特征量。机器学习的特定示例包括判决树、感知器和支持矢量机。在上述图6的示例中,含意确定单元23使用根据谓语论元结构中包括的谓语和用作论元的字词确定的特征量,针对每个组合执行含意确定,但是本发明并不局限于此。在本实施例中,除了上述特征量以外,含意确定单元23还可以使用每个文本的谓语论元结构的结构特征来确定T是否暗指H。本文中,结构特征的示例包括是否存在添加到谓语论元结构的信息,包括“否定”和“模态(例如推论、可能性)”以及谓语论元的类型。具体地,假定Tl的“证实”是“未证实”,将“否定”作为信息添加到谓语论元结构。在这情况下,假定没有向H侧添加“否定”,即使覆盖百分比较高,含意确定单元23也根据“否定”被添加到T侧这一事实确定T没有暗指H。因此,在本实施例中,除了根据谓语和用作谓语论元的字词确定的特征量以外,在含意确定中还使用谓语论元结构的结构特征,因此即使仅使用其中之一难以执行含意确定,也能够执行准确的含意确定。此外,在除了特征量以外还是用谓语论元结构的结构特征的情况下,含意确定单元23能够根据T的谓语论元结构和H的谓语论元结构之间的结构相似度,优先考虑特征量和特征结构之一来执行含意确定。本文中,例如根据谓语之间的相似程度或根据谓语论元结构中包括的论元类型之间相似程度来指定“结构相似度”。例如,假定将“是(主语:A先生,目的,东京的立法会员)”和“被选举(主语:A先生,宾语:立法会员,地点:东京)”进行比较,在这种情况下,两个谓语论元结构之间的结构相似度较低,因此谓语论元结构的结构特征在含意确定中无效。因此,含意确定单元23优先考虑特征量来执行含意确定。另一方面,例如假定将“说服(主语:A先生,宾语:B先生)”和“描述(主语:B先生,宾语:A先生)”相比较,在这种情况下,两个谓语论元结构之间的结构相似度较高,因此谓语论元结构的结构特征在含意确定中有效。此外,在该示例中,如果仅使用上述特征量来执行确定,则确定T暗指H的可能性较大。然而实际中,由于例如论元类型和用作论元的字词的组合之类的结构特征并不匹配,因此T不暗指H。因此,在该示例中,含意确定单元23优先考虑结构特征来执行含意确定。实施例的技术效果本文中,考虑简单使用文本中字词集的覆盖百分比作为含意分数来执行含意确定的情况。参考图3的示例,Tl和T2均包括H的六个内容字词中的四个字词(A公司,B先生,东京,董事长)。因此,这些文本中相对于H的字词集覆盖百分比均为0.66 ( = 4/6)。这意味着不可能在暗指和非暗指之间进行区分。相反,在本实施例中,从忽略论元结构的矢量比较结果中识别经历确定的谓语论元结构的组合,并根据识别的组合确定文本之间的含意。因此,如关于使用图6的步骤S6所述,确定Tl暗指H,而T2不暗指H。根据本实施例,即使在谓语的论元结构不同的情况下,也能够对经历确定的多个文本进行含意确定。程序根据本实施例的程序可以是使计算机执行图2所示的步骤S1-S4的任意程序。可以通过在计算机中安装程序并执行程序来实现根据本实施例的含意确定装置2和含意确定方法。在这种情况下,计算机的CPU(中央处理单元)用作谓语论元结构分析单元20、矢量生成单元21、组合识别单元22和含意确定单元23,并执行处理。此外,在本实施例中,例如在计算机中设置的硬盘之类的存储装置可以用作存储装置3。本文中,参考图7来描述通过执行程序来实现根据本实施例的含意确定装置2的计算机。图7是示出了根据本发明实施例的用于实现含意确定装置的计算机示例的方框图。如图7所示,计算机100包括CPU111、主存储器112、存储装置113、输入接口 114、显示控制器115、数据读取器/写入器116和通信接口 117。这些组件经由总线121彼此相连,以便能够进行数据通信。CPUlll通过以下方式来执行各种计算:在主存储器112中扩展存储在存储装置113中的根据本实施例的程序(代码),并按照预定序列执行程序。主存储器112典型是易失性存储装置,例如DRAM (动态随机读取存储器)。按照存储在计算机可读记录介质120中的状态来提供根据本实施例的程序。注意,可以经由通信接口 117在因特网上分发根据本实施例的程序。除了硬盘以外,存储装置113的特定示例还包括例如快闪存储器之类的半导体存储器。输入接口 114传递CPUlll与例如键盘和鼠标之类的输入设备118之间的数据传输。显示控制器115与显示装置119相连并控制显示装置119上的显示。数据读取器/写入器116传递CPUl 11和记录介质120之间的数据传输,从记录介质120读取程序并将计算机110中执行的处理结果写入到记录介质120。通信接口 117传递CPUlll和其他计算机之间的数据传输。记录介质120的特定示例包括例如CF(紧致快闪(注册商标))和SD(安全数字)的通用半导体存储器件、例如软盘的磁存储介质和例如CD-R0M(只读存储器紧致盘)的光学存储介质。尽管以下描述的(补充注释I)到(补充注释24)部分或完全表示了上述实施例,但是本发明并不局限于以下描述。(补充注释I)一种文本含意辨认装置,用于确定第一文本是否暗指第二文本,所述文本含意辨认装置包括:矢量生成单元,获取第一文本和第二文本中的每一个的谓语论元结构,使用除对所述谓语论元结构中的谓语论元的类型加以指示的字词以外的字词,对于第一文本和第二文本中的每一个生成针对每个所述谓语论元结构的矢量;组合识别单元,所述组合识别单元将针对所述第一文本的每个所述谓语论元结构生成的矢量与针对所述第二文本的每个所述谓语论元结构生成的矢量进行比较,并根据比较结果识别所述第一文本的所述谓语论元结构与所述第二文本的所述谓语论元结构的组合;以及含意确定单元,所述含意确定单元针对识别的所述每个组合获得特征量,并根据获得的所述特征量来确定所述第一文本是否暗指所述第二文本。(补充注释2)根据补充注释I所述的文本含意辨认装置,其中谓语论元结构包括在所述第一文本或所述第二文本中包含的谓语、用作谓语的论元的字词以及对所述论元的类型加以指示的字词,并且矢量生成单元使用所述谓语和所述用作谓语的论元的字词来生成所述矢量。(补充注释3)根据补充注释I或2所述的文本含意辨认装置,其中组合识别单元计算针对所述第一文本的每个所述谓语论元结构生成的矢量与针对所述第二文本的每个所述谓语论元结构生成的矢量之间的相似度,并根据计算的相似度来识别所述第一文本的所述谓语论元结构和所述第二文本的所述谓语论元结构的组合。(补充注释4)根据补充注释3所述的文本含意辨认装置,其中组合识别单元根据所述矢量的信息量在相似度的计算期间执行归一化处理。(补充注释5)根据补充注释I到4之一所述的文本含意辨认装置,其中含意确定单元针对所述每个组合,根据除对谓语论元结构中的谓语论元的类型加以指示的字词以外的字词来获得所述第一文本的所述谓语论元结构和所述第二文本的所述谓语论元结构之间的字词覆盖程度和仅针对用作所述论元的字词的字词匹配程度之一,作为所述特征量。(补充注释6)根据补充注释5所述的文本含意辨认装置,其中除了所述特征量以外,所述含意确定单元还使用所述谓语论元结构的结构特征来确定所述第一文本是否暗指所述第二文本。(补充注释7)根据补充注释6所述的文本含意辨认装置,其中含意确定单元根据所述第一文本的所述谓语论元结构和所述第二文本的所述谓语论元结构之间的结构相似度,优先考虑所述谓语论元结构的特征量和结构特征之一来执行所述确定。(补充注释8)根据补充注释5-7之一所述的文本含意辨认装置,其中当获得所述特征量时,含意确定单元根据通过机器学习获得的数据向所述特征量添加权重。(补充注释9)一种文本含意辨认方法,用于确定第一文本是否暗指第二文本,所述文本含意辨认方法包括:(a)获取第一文本和第二文本中的每一个的谓语论元结构,使用除对所述谓语论元结构中的谓语论元的类型加以指示的字词以外的字词,对于第一文本和第二文本中的每一个生成针对每个所述谓语论元结构的矢量;(b)将针对所述第一文本的每个所述谓语论元结构生成的矢量与针对所述第二文本的每个所述谓语论元结构生成的矢量进行比较,并根据比较结果识别所述第一文本的所述谓语论元结构与所述第二文本的所述谓语论元结构的组合;以及(C)针对识别的所述每个组合获得特征量,并根据获得的所述特征量来确定所述第一文本是否暗指所述第二文本。(补充注释10)根据补充注释9所述的文本含意辨认方法,其中所述谓语论元结构包括在所述第一文本或所述第二文本中包含的谓语、用作谓语的论元的字词以及对所述论元的类型加以指示的字词,并且在所述步骤(a)中,将所述谓语和所述用作谓语的论元的字词用于生成所述矢量。(补充注释11)根据补充注释9或10所述的文本含意辨认方法,其中在所述步骤(b)中,计算针对所述第一文本的每个所述谓语论元结构生成的矢量与针对所述第二文本的每个所述谓语论元结构生成的矢量之间的相似度,并根据计算的相似度来识别所述第一文本的所述谓语论元结构和所述第二文本的所述谓语论元结构的组合。(补充注释12)根据补充注释11所述的文本含意辨认方法,其中在所述步骤(b)中,根据所述矢量的信息量在所述相似度的计算期间执行归一化处理。(补充注释13)根据补充注释9到12之一所述的文本含意辨认方法,其中在所述步骤(C)中,针对所述每个组合,根据除对谓语论元结构中的谓语论元的类型加以指示的字词以外的字词,来获得所述第一文本的所述谓语论元结构和所述第二文本的所述谓语论元结构之间的字词覆盖程度和仅针对用作所述论元的字词的字词匹配程度之一,作为所述特征量。(补充注释14)根据补充注释13所述的文本含意辨认方法,其中在所述步骤(C)中,除了所述特征量以外,还使用所述谓语论元结构的结构特征来确定所述第一文本是否暗指所述第二文本。(补充注释15)根据补充注释14所述的文本含意辨认方法,其中在所述步骤(C)中,根据所述第一文本的所述谓语论元结构和所述第二文本的所述谓语论元结构之间的结构相似度,优先考虑所述谓语论元结构的特征量和结构特征之一来执行所述确定。(补充注释16)根据补充注释13-15之一所述的文本含意辨认方法,其中在所述步骤(C)中,当获得所述特征量时,根据通过机器学习获得的数据向所述特征量添加权重。(补充注释17)一种计算机可读记录介质,其上记录有用于计算机确定第一文本是否暗指第二文本的程序,所述程序包括使所述计算机执行以下步骤的指令:(a)获取第一文本和第二文本中的每一个的谓语论元结构,使用除对所述谓语论元结构中的谓语论元的类型加以指示的字词以外的字词,对于第一文本和第二文本中的每一个生成针对每个所述谓语论元结构的矢量;(b)将针对所述第一文本的每个所述谓语论元结构生成的矢量与针对所述第二文本的每个所述谓语论元结构生成的矢量进行比较,并根据比较结果识别所述第一文本的所述谓语论元结构与所述第二文本的所述谓语论元结构的组合;以及(C)针对识别的所述每个组合获得特征量,并根据获得的所述特征量来确定所述第一文本是否暗指所述第二文本。(补充注释18)根据补充注释17所述的计算机可读记录介质,其中所述谓语论元结构包括在所述第一文本或所述第二文本中包含的谓语、用作谓语的论元的字词以及对所述论元的类型加以指示的字词,并且在所述步骤(a)中,所述谓语和所述用作谓语的论元的字词用于生成所述矢量。(补充注释19)根据补充注释17或18所述的计算机可读记录介质,其中在所述步骤(b)中,计算针对所述第一文本的每个所述谓语论元结构生成的矢量与针对所述第二文本的每个所述谓语论元结构生成的矢量之间的相似度,并根据计算的相似度来识别所述第一文本的所述谓语论元结构和所述第二文本的所述谓语论元结构的组合。(补充注释20)根据补充注释19所述的计算机可读记录介质,其中在所述步骤(b)中,根据所述矢量的信息量在所述相似度的计算期间执行归一化处理。(补充注释21)根据补充注释17-20之一所述的计算机可读记录介质,其中在所述步骤(C)中,针对所述每个组合,根据除对谓语论元结构中的谓语论元的类型加以指示的字词以外的字词,来获得所述第一文本的所述谓语论元结构和所述第二文本的所述谓语论元结构之间的字词覆盖程度和仅针对用作所述论元的字词的字词匹配程度之一,作为所述特征量。(补充注释22)
根据补充注释21所述的计算机可读记录介质,其中在所述步骤(C)中,除了所述特征量以外,还使用所述谓语论元结构的结构特征来确定所述第一文本是否暗指所述第二文本。(补充注释23)根据补充注释22所述的计算机可读记录介质,其中在所述步骤(C)中,根据所述第一文本的所述谓语论元结构和所述第二文本的所述谓语论元结构之间的结构相似度,优先考虑所述谓语论元结构的特征量和结构特征之一来执行所述确定。(补充注释24)根据补充注释21-23之一所述的计算机可读记录介质,其中在所述步骤(C)中,当获得所述特征量时,根据通过机器学习获得的数据向所述特征量添加权重。尽管以上已经参考实施例描述了本发明,本发明并不局限于上述实施例。本领域技术人员可以在本发明的范围内对本发明的配置和细节进行各种修改。本申请要求2011年10月20日递交的日本专利申请N0.2011-230773的优先权,其公开一并在此作为参考。工业实用性如上所述,根据本发明,即使在谓语的论元结构不同的情况下,也能够对经历确定的多个文本进行含意确定。因此,本发明可用于例如信息检索系统中的自然语句的语义检索之类的应用中。本发明还可以用于例如文本挖掘中观点聚类分析之类的应用中。参考数字的描述I 输入装置2 含意确定装置3 存储装置4 输出装置20 谓语论元结构分析单元21 矢量生成单元22 组合识别单元23 含意确定单元30 字词核对规则存储单元31 谓语论元结构核对规则存储单元110计算机111 CPU112主存储器113存储装置114 输入接口115显示控制器116数据读取器/写入器117 通信接口118输入设备119显示装置
120记录介质121 总线
权利要求
1.一种文本含意辨认装置,所述文本含意辨认装置用于确定第一文本是否暗指第二文本,所述文本含意辨认装置包括: 矢量生成单元,所述矢量生成单元获取所述第一文本和所述第二文本中每一个的谓语论元结构,并通过使用除对所述谓语论元结构中的谓语论元的类型加以指示的字词以外的字词,对于所述第一文本和所述第二文本中的每一个生成针对每个所述谓语论元结构的矢量; 组合识别单元,所述组合识别单元将针对所述第一文本的每个所述谓语论元结构生成的所述矢量与针对所述第二文本的每个所述谓语论元结构生成的所述矢量进行比较,并根据比较结果识别所述第一文本的所述谓语论元结构与所述第二文本的所述谓语论元结构的组合;以及 含意确定单元,所述含意确定单元针对识别的每个所述组合获得特征量,并根据获得的所述特征量来确定所述第一文本是否暗指所述第二文本。
2.根据权利要求1所述的文本含意辨认装置,其中所述谓语论元结构包括在所述第一文本或所述第二文本中包含的谓语、用作所述谓语的论元的字词以及对所述论元的类型加以指示的字词,并且 所述矢量生成单元使用所述谓语和用作所述谓语的论元的所述字词来生成所述矢量。
3.根据权利要求1或2所述的文本含意辨认装置,其中所述组合识别单元计算针对所述第一文本的每个所述谓语论元结构生成的所述矢量与针对所述第二文本的每个所述谓语论元结构生成的所述矢量 之间的相似度,并根据计算的所述相似度来识别所述第一文本的所述谓语论元结构和所述第二文本的所述谓语论元结构的组合。
4.根据权利要求3所述的文本含意辨认装置,其中所述组合识别单元根据所述矢量的信息量在所述相似度的计算期间执行归一化处理。
5.根据权利要求1-4之一所述的文本含意辨认装置,其中所述含意确定单元针对所述组合中的每一个,根据除对所述谓语论元结构中的谓语论元的类型加以指示的字词以外的字词,来获得所述第一文本的所述谓语论元结构和所述第二文本的所述谓语论元结构之间的字词覆盖程度和仅针对用作所述论元的字词的字词匹配程度之一,作为所述特征量。
6.根据权利要求5所述的文本含意辨认装置,其中除了所述特征量以外,所述含意确定单元还使用所述谓语论元结构的结构特征来确定所述第一文本是否暗指所述第二文本。
7.根据权利要求6所述的文本含意辨认装置,其中所述含意确定单元根据所述第一文本的所述谓语论元结构和所述第二文本的所述谓语论元结构之间的结构相似度,优先考虑所述谓语论元结构的所述特征量和所述结构特征之一来执行确定。
8.根据权利要求5-7之一所述的文本含意辨认装置,其中当获得所述特征量时,所述含意确定单元根据通过机器学习获得的数据向所述特征量添加权重。
9.一种文本含意辨认方法,所述文本含意辨认方法用于确定第一文本是否暗指第二文本,所述文本含意辨认方法包括: (a)获取所述第一文本和所述第二文本中每一个的谓语论元结构,并使用除对所述谓语论元结构中的谓语论元的类型加以指示的字词以外的字词,对于所述第一文本和所述第二文本中的每一个生成针对每个所述谓语论元结构的矢量; (b)将针对所述第一文本的每个所述谓语论元结构生成的所述矢量与针对所述第二文本的每个所述谓语论元结构生成的所述矢量进行比较,并根据比较结果识别所述第一文本的所述谓语论元结构与所述第二文本的所述谓语论元结构的组合;以及 (C)针对识别的每个所述组合获得特征量,并根据获得的所述特征量来确定所述第一文本是否暗指所述第二文本。
10.一种计算机可读记录介质,其上记录有用于通过计算机确定第一文本是否暗指第二文本的程序,所述程序包括使所述计算机执行以下步骤的指令: (a)获取所述第一文本和所述第二文本中每一个的谓语论元结构,并使用除对所述谓语论元结构中的谓语论元的类型加以指示的字词以外的字词,对于所述第一文本和所述第二文本中的每一个生成针对每个所述谓语论元结构的矢量; (b)将针对所述第一文本的每个所述谓语论元结构生成的所述矢量与针对所述第二文本的每个所述谓语论 元结构生成的所述矢量进行比较,并根据比较结果识别所述第一文本的所述谓语论元结构与所述第二文本的所述谓语论元结构的组合;以及 (C)针对识别的每个所述组合获得特征量,并根据获得的所述特征量来确定所述第一文本是否暗指所述第二文本。
全文摘要
一种文本含意辨认装置(2)包括矢量生成单元(21),使用除对谓语论元结构中的谓语论元的类型加以指示的字词以外的字词,对于第一和第二文本中的每一个生成针对每个谓语论元结构的矢量;组合识别单元(22),将针对第一文本的每个谓语论元结构生成的矢量与针对第二文本的每个谓语论元结构生成的矢量进行比较,并根据比较结果识别第一文本的谓语论元结构与第二文本的谓语论元结构的组合;以及含意确定单元(23),针对识别的每个组合获得特征量,并根据获得的特征量来确定第一文本是否暗指第二文本。
文档编号G06F17/27GK103221947SQ201280003691
公开日2013年7月24日 申请日期2012年10月4日 优先权日2011年10月20日
发明者土田正明, 石川开, 大西贵士 申请人:日本电气株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1