基于受限的语义依存分析的文本推理方法

文档序号:6436872阅读:182来源:国知局
专利名称:基于受限的语义依存分析的文本推理方法
技术领域
本发明属于自然语言处理领域,特别涉及一种基于受限的语义依存分析的文本推理方法。
背景技术
近几年,文本推理的研究在自然语言处理领域受到了广泛关注,文本推理已从最早的纯粹理论探讨转换为较大规模的理论研究团体和经验性平台建设。2005-2007年,欧共体研究平台PASCAL组织了三届文本推理竞赛RTE (Recognizing Textual Entailment), 现由 NIST(National Institute of Standards and Technology,美国国家标准技术研究院)组织接着举办文本推理竞赛,到目前为止,文本推理竞赛RTE系列评测竞赛已经举办6 届。计算语 S 学十办会 ACL (The Association for Computational Linguistics)还专门组织了几次研讨会,探讨文本推理相关工作及其应用。另外,日本国家科学信息系统中心信息检索系统测试集会议(NACSIS Test Collections for IR,简称为NT(HR)也开始了文本推理的组织任务。从对文本推理研究的现状可以看到,目前文本推理主要关注文本蕴涵,而忽略文本预设和隐含。对于一般的描述性语料,如新闻语料,可能主要涉及文本蕴涵,但在话语性 (discourse)或对话性(dialogue)语料中,一般会有大量的文本预设和隐含推理,所以现有仅关注文本蕴涵的文本推理方法并不适用于话语性和对话性语料的推理。下面例1)给出了两个学生A和B间的一段对话。例1) A-I 你怎么中午又吃一次麦当劳? B-I 我早上吃过一次。(预设)
A-2:很贵吧?(隐含) B-2:我有优惠卷。(蕴涵)
1)中,A第一次问B的时候(A-I)利用了一个预设(B-1):B已经吃了一次麦当劳。B在 B-I中证实了这个预设。一般来说,连续两次吃麦当劳对于一个学生来说比较贵,这是一种隐含知识,因此A在A-2中基于这种隐含知识,再次询问B。B在回答中,利用了“有优惠券” 和“价格不贵”间的蕴涵,回答A,并间接否定了 A-2所利用的隐含推理。从此例可看出,对话语的正确理解需要同时处理蕴涵、预设和隐含这三种推理形式。目前,文本蕴涵推理的策略主要有以下四种 一、分类策略
该策略下,文本蕴涵形式化为蕴涵和非蕴涵的分类问题。根据已标注的蕴涵和非蕴涵训练实例,学习其中的词汇特征并建立分类器,其中大部分分类器都是基于支持向量机SVM (Support Vector Machine),而用于学习的特征主要是基于同现频率或一阶逻辑的词汇句法和语义特征[1]。
二、转换策略
该策略下,语段τ和假设H的推理关系取决于T的句法表示是否可以基于蕴涵规则 (entailment rules)经过若干转换(transformation)而得到假设H的句法表示,所用算法包括基于树编辑距离、保持语义等价性的转换和概率模型等[μ]。三、深度语义分析和推理
该策略主要采用传统的逻辑推理、自然逻辑、本体推理或语义特征等[6]。四、性能驱动策略
这种策略主要是针对一些特定的语言形式,如词汇相似性或矛盾(contradiction),设计正确性驱动(precision-oriented)的模块,利用投票机制结合这些模块并辅以针对召回率(recall-oriented)的处理机制,该策略的关键仍是蕴涵规则的自动获取[7]。影响文本推理性能的主要原因如下
第一,就分类策略而言,文本推理的蕴涵和非蕴涵两个类都比较庞杂,实例间的相似性难以保证,它们的区别性特征就不容易确定,所以据此建立的分类器性能不太理想;就深度语义分析和推理策略而言,推理知识的获取是其主要瓶颈,没有足够的推理知识支撑,推理过程的性能就难以保证。第二,基于蕴涵规则的转换策略是目前文本推理的主要策略,深度语义分析和推理策略及性能驱动策略的核心也是蕴涵规则的自动发现,但目前蕴涵规则自动发现的总体性能有待提高。蕴涵规则的自动获取一般分两个步骤命题模板抽取和规则获取,例如对 1) “鲁迅是《狂人日记》的作者。”和2) “鲁迅写了《呐喊》、《狂人日记》等有影响的著作。”, 其中2)蕴涵1)。要获取这种蕴涵关系首先需要对它们进行依存分析,并分别抽取其中的模板“X是Y的作者”和“X写Y”,然后通过词汇相似性或分布分析确定其蕴涵关系。第三,全局因素,如指代消解一般作为判断蕴涵关系的前提,其错误可能会在后续的操作中发生扩散[8_1(1]。目前文本推理系统的性能与各种应用系统的要求尚有较大距离。根据历届文本蕴涵识别RTE (Recognizing Textual Entailment)的分析报告,RTEl共有17个提交系统, 准确率介于50%和60%之间;RTE2有23个提交系统,准确率介于49%和80%之间,但只有个别系统接近80% ; RTE3有沈个提交系统,准确率介于45%和74%之间;RTE5和RTE6中大部分提交系统的准确率都低于75%。可见就系统准确率而言仍有较大改进空间。本文涉及的相关文献Luisa Bentivoglij Ido Daganj Hoa Trang Dang, Danilo Giampiccolo and Bernardo Magnini· 2010. The Fifth PASCAL Recognizing Textual Entailment Challenge. In Proceedings of The Fifth PASCAL Recognizing Textual Entailment Challenge, Gaithersburgj MAj USA.Roy Bar-Haimj Jonathan Berant and Ido Dagan. 2009. A Compact Forest for Scalable Inference over Entailment and Paraphrase Rules. In Proceedings of EMNLP2009, Singapore.Milen Kouylekovj Bernardo Magnini. 2005. Recognizing Textual Entailment with Tree Edit Distance Algorithm. In Proceedings of the 1st RTE Challenge.Jesus Herreraj Anselmo Penas and Felisa Verdejo. 2006. Techniques forRecognizing Textual Entailment and Semantic Equivalence. In Postproceedings of the XI conference of the Spanish Association for Artificial Intelligence. Spain.Oren Glickmanj Ido Dagan and Moshe Koppe1. 2005. A Probabilistic Lexical Approach to Textual Entailment· In Proceedings of the 19th international joint conference on Artificial intelligence, Trentoj Italy.Johan Bos and Katja Markert· 2005. Pecognising Textual Entailment with Logical Inference. In Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing, Vancouver, B. C., Canada.D. G. Bobrowj C. Condoravdi,R. Crouch, V. de Paivaj L Karttunenj T. H. King, R. Nairn, L Price and A. zaenen. 2007. Precision-focused Textual Inference. In Proceedings of the ACL—PASCAL Workshop on Textual Entailment and Paraphrasing.Ido Daganj Bill Dolanj Bernardo Magnini and Dan Textual Entailment: Rational, Evaluation and Approaches. Engineering 15(4).Oscar Ferrandezj Rafael Munoz Tero1, Rafael Martinez-Barco and Manuel Palomar. 2006. Deep vs. Shallow Applied to Textual Entailment Recognition. Advances in Processing 4319/2006: 225-236.Andrew Hickl and Jeremy Bensley. 2007. A Discourse Commitment-based Framework for Recognizing Textual Entailment. In Proceedings of the ACL—PASCAL Workshop on Textual Entailment and Paraphrasing。

发明内容
针对现有技术存在的不足,本发明将文本推理的判断形式化为一个受限的语义依存分析问题,并将文本推理类型从蕴涵扩展至预设和隐含,提出了一种综合了蕴涵、预设和隐含三种文本推理类型的、基于受限的语义依存分析的文本推理方法,该方法适用于处理较为复杂的话语性和对话性语料的推理。为了解决上述技术问题,本发明采用如下的技术方案 一种基于受限的语义依存分析的文本推理方法,包括以下步骤
步骤一、根据语义依存的表示机制,建立一个汉语文本推理标注资源,其中,一个文本推理标注实例包含一个语段Λ —个假设//、假设//的语义依存图及推理类型;
步骤二、在步骤一所建立的汉语文本推理标注资源的基础上,在新输入的语段Γ的限制下对新输入的假设//进行语义依存分析,从而判断语段r是否能推理出假设
步骤三、对步骤二的分析过程和判断结果进行评估、分析和概括,并利用反馈改善分析过程的性能。步骤二具体为以步骤一所建立的汉语文本推理标注资源为基础,在新输入的语
Roth. Recognizing Natural Language
Munozj Patricio Semantic Analysis Natural Language
6段r的限制下对新输入的假设//进行语义依存分析,得到假设//的语义依存图,如果假设// 的语义依存图存在的概率大于预设值々,则语段r可推理出假设//,否则无法推理出假设//, 其中,δ根据实验结果设定。上述假设//的语义依存图的获得,包括以下步骤
1)无向树分析,该步骤进一步包括以下子步骤
1.1将无向树分析形式化为r =,其中,表示假设//的最大生成
树,^Th为假设//的生成树集合,θ为特征的权重向量, 为假设//的生成树集合中的元素, /(Hi)为描写 的特征向量; 所述的特征有如下几种
a、二元特征对于任一条边O^w2>,二元特征包括< W1W2 >、<w1;c2 >、<q,W2 > 、> ,其中,CT1和4分别指W1和巧在Hownet或同义词词林中所属的概念类;
b、结构特征与< 2>邻接的任一节点w,则<>为一结构特征;
C、上下文特征位于假设#中W1和馮间任一位置或巧和巧外一定距离的词沖, 则<w,wlfw2 >为一上下文特征。d、语段Γ上下文特征假设H中实词在语段T中一般有对应,因此语段T上下文特征可通过上述的上下文特征方法获得;如果语段r上下文特征中有指代,则采用其指代候选参与构成特征;
e、语段Γ结构特征对语段Γ进行结构分析,并利用语段T中包含的依存关系,得到语段r结构特征;如果语段τ结构特征中有指代,则采用其指代候选参与构成特征;
f、历史特征是根据分析过程中自定义的启发式规则特征、用来模拟由无标记无向图到有标记有向图的转换过程;
1. 2把训练数据中的每个标记转化为节点,并确定最大生成树; 1. 3对步骤1. 2所得的树进行训练;
1.4根据步骤1. 3的训练输出,采用步骤1. 1中的公式^ = m-gxam.^*f(T,H,t)对新输
入的语段r和新输入的假设//进行解码,即得到假设//对应的无标记的无向树& ;
2)有向图分析,该步骤进一步包括以下子步骤
2.1无向图分析将步骤1)所得的无标记的无向树转换为无标记的无向图; 2.2标记分析将步骤2.1所得的无标记的无向图转换为有标记的无向2. 3有向图分析将步骤2. 2所得的有标记的无向图转换为有标记的有向图,即得到假设//的语义依存图。步骤1. 2中最大生成树的确定是采用普里姆算法。步骤1. 3采用Perceptron实时学习算法对步骤1. 2所得的树进行训练,具体为以训练数据<乃反&>为输入,以特征权重向量θ为输出,特征权重向量θ初始
化为O ;对每个训练数据,根据公式^ = =计算?并计算f(TM,tB)和/(Γ,/ ,Ι*),调整特征权重向量;其中&力步骤1. 2所得的树。步骤2. 1具体为通过支持向量机SVM对每条可能的边进行分类,并根据分类结果判断是否应该加入改边。步骤2. 2和步骤2. 3均利用了如下规则
规则1:[实体][属性值]==〉[属性值]依存于[实体]
规则2 [实体][属性值标记V][属性]==〉[实体]依存于[属性]
规则3:[实体]([属性标记L]) [属性]==〉[实体]依存于[属性]。步骤三中的评估、分析和概括具体包括对语义依存图进行总体分析,包括对依存、关系、方向、根节点及依存结构进行总体分析;对蕴涵推理判断的准确率、召回率和F值进行评估;总结概括汉语文本推理的主要句法和语义模板、三种推理类型的分布、各种数据源的比较、错误发生的主要类型及原因。本发明将语段Γ和假设//的文本推理关系的判断形式化为一个受限的语义依存分析问题。直观上,可把语段r看作一种限制,并在语段τ的限制下对假设//进行语义依存分析,如果假设//能够顺利得到语义分析,则语段r能够推理出假设//;否则语段r无法推理出假设从例如,对于ι) “鲁迅是《狂人日记》的作者。”和2) “鲁迅写了《呐喊》、《狂人日记》等有影响的著作。”,可把2)看作限制,对ι)进行语义依存分析,3)则给出了 ι)的语义依存分析结果3)〈狂人日记,的,作者〉〈鲁迅,是,作者〉。直观上,《狂人日记》作为一个作品有一“作者”属性;鲁迅是作者可看做“作者”的值;“的”反映“狂人日记”和属性“作者”的关系,“是”反映“鲁迅”和“作者”的关系。不难看出,2)的描述中覆盖了这种关系。传统上,句法和语义依存分析都是针对单个句子来说的,没有附加任何条件或限制。本发明提出的受限的语义依存分析是从一个新角度诠释依存分析,虽然分析的对象仍是单个句子(假设//),但它是在另一个文本(语段Τ、的前提下进行的,即受限的语义依存分析结果应最大限度地与语段一致。这种视野从语义解释的角度更具意义,即假设的语义解释应与语段最大限度地一致。另一方面,从限制(S卩,语段Π的角度看,对单个句子(即,假设//)的分析其实是对语段T的部分分析,但必须是在假设//的限制下。这不同于以往的骨架分析或浅层分析,因为骨架分析和浅层分析都是针对句子的主要句法结构,而部分分析可能对句子的任何一个部分,可以是骨架结构,也可以是非骨架结构,如宾语从句。这也不同于以往的部分分析, 因为以前的部分分析是从句法分析的准确度来判定的,即句法分析中哪些部分比较没有歧义,就把它作为部分分析抽取出来;本发明中的部分分析是由语段T之外的假设H限定的, 而非语段T本身决定的。
与现有技术相比,本发明具有以下的优点和有益效果
1、本发明方法从一个崭新的角度进行文本推理,将文本推理的判断形式化为一个受限的语义依存分析问题,并将文本推理类型从蕴涵扩展至预设和隐含,并将这三种推理类型形式综合到一个统一的框架中,有助于处理较复杂的话语性和对话性语料的推理;
2、相对于现有的文本推理方法,本发明方法具有更高的准确率;
3、本发明方法无需抽取命题谓词和模板,因为命题模板存在于语义依存分析的结果中,简化了步骤;4、本发明方法无需抽取蕴涵规则,而是将蕴涵规则自动发现的问题简化为相关词的发现问题;例如在1) “鲁迅是《狂人日记》的作者。”和2) “鲁迅写了《呐喊》、《狂人日记》等有影响的著作。”中只需确定“作者”和“写”的相关性,所以在一定程度上降低了蕴涵规则发现过程中面临的稀疏性问题;
5、本发明方法将指代消解综合在语义依存分析过程中,无需作为一种前提从而避免错误扩散。


图1为本发明方法流程图; 图2为语义依存图实例1;
图3为语义依存图实例2; 图4为语义依存图实例3; 图5为获取假设//的语义依存图的流程图; 图6为无标记的无向图到有标记的无向图的转换; 图7为有标记的无向图到有标记的有向图的转换。
具体实施例方式文本推理的原始问题是对任一语段Γ及假设//,判断Γ是否可推理出//。为提高文本推理系统的性能,如推理判断的准确率(/7)、召回率(r)和厂值,厂值是准确率和召回率的调和平均数(harmonic mean),即F = 2prf(p + r)。本发明将文本推理的上述原始问题形
式化为一个受限的语义依存分析问题,受限语义依存分析问题为给定语段Γ及假设//,在语段r的限制下,对假设//进行语义依存分析,如果假设//能够顺利得到语义分析,则Γ可推理出# ;否则无法推理出H。可从两个角度直观上看待受限语义依存分析问题。第一,对假设//进行语义依存分析,但其语义依存关系应与语段r的描述一致;第二,对语段r进行语义依存分析,但只对其进行部分分析(partial parsing),其中的部分与假设#一致。
下面将结合附图和具体实施例对本发明做进一步说明。步骤一、根据语义依存的表示机制,建立一个汉语文本推理标注资源,其中,一个文本推理标注实例包含一个语段Λ —个假设//、假设//的语义依存图及推理类型,推理类型包括蕴涵、预设和隐含。本发明采用有标记的有向图来表示语义依存图。该步骤需要解决以下问题 1、语义依存图
本发明采用有标记的有向图来表示语义依存结果,即语义依存图。图2给出了语段1) 的语义依存图
1)鲁迅是《狂人日记》的作者。2 )鲁迅是《狂人日记》作者。3)鲁迅写《狂人日记》。直观上,语段1)表示的意义是《狂人日记》作为一本著作,必定有一个属性或特征,即其作者,这个作者是鲁迅,这也是图2描述的结果。图2中,“的”表示“作者”是《狂
9人日记》的属性,而“是”表示“鲁迅”是该属性的取值。考察语段1)的一个简化形式语段 2),其中省略了一个结构助词“的”,其语义依存图如图3所示,图3中《狂人日记》与“作者” 的边上没有标记,这是因为这种属性关系是隐含在句子中,没有明确的标记表示这种关系。 再考察语段3 ),其语义依存图如图4所示。—般来说,语义依存图由节点和有向边组成,有向边反映实体与属性间的关系或实体间的关系,以语段1)为例,实体指狂人日记和鲁迅,“的”表示“作者”是《狂人日记》的属性,而“是”表示“鲁迅”是该属性的取值,标记即为“的”和“是”。实体与属性间的关系可能有标记,如图2所示,可能没有标记,如图3中“作者”和“狂人日记”的关系;实体间的关系没有标记,如图4所示,因为如果属性出现,将会优先标记实体与属性间的关系,因为实体间关系是通过属性实现的,如果没有属性出现,才标记实体间的关系,但不标记其名称或类型,如图4中实体之间隐含了动作的发起者Agent和动作的接受者I^tient关系,如此就避免了人工定义一组语义关系。语义依存图中的关系有两类,一类是实体与实体间的关系,它们之间没有标记(没有属性出现);另一类是实体与属性间的关系,标记可出现或不出现,如果出现,它是属性标记或属性值标记。这样定义语义依存结构是合理的,因为实体词间要么通过属性反映它们的关系,要么隐含它们的关系;当采用属性反映关系的时候,标记可出现也可不出现。用有标记的有向图表示语义依存结构是可行的,这是因为第一,图的节点对应概念(词);第二,图的边可表示关系;第三,边的有向性表示依存方向。本发明定义的语义依存结构和传统的句法依存结构是不同的,首先,句法依存主要以谓词为中心标注依存关系,且不标注关系类型;而语义依存标注实体间的关系或实体与属性间的关系,如果实体与属性间有标记,则标注它们间的关系类型,即属性标记或属性值标记;其次,本发明区分属性词和实体词,实际上把语义关系形式化为统一的实体-实体、和实体-属性间的关系。句法依存和语义依存也有类似的地方,即它们判定依存方向的时候都主要依靠语序,但结果未必一致。比如在语段3)的语义依存中,“鲁迅”依存于“作者”,而在句法依存中,“鲁迅”依存于“是”,不难看出,语义依存反映的是语义关系。2、实体-实体间、实体-属性间的关系判断原则
为保证标注的一致性,需要制定统一合理的判定原则,包括依存、关系类型和依存方向的判定。本发明采用提问的方法判断实体-实体间、实体-属性间的语义关系,两个实词若发生关系,其中一方一般可在原文背景下进行提问,实词指有实在意义、能够单独充当句子成分、一般能单独回答问题的词语,可以为名词、动词、形容词等,此处的实词指实体和属性。对于语段3),可做如下提问
i)谁写?
ii)写了什么?
从上述提问的回复中,可正确确定实词间的语义关联。再例如对于下面的语段iii),可做iv) - ν )提问
iii)研究目的明确
iv)什么目的? ν)目的如何?
10vi)〈研究, ,目的〉,〈目的,,明确〉
根据iv)_ ν )提问的答案,推测语段2)中实词间的语义关联,如vi)所示,即“研究”有一属性“目的”,其值为“明确”。此处本发明仍避免手工定义关系,一是因为没有标准的关系类型定义;二是从最终目的(语义依存)来说,关系类型标记不必要,除非有明确的标记词出现。其次,我们结合语义关联和词序判断语义依存方向。本发明定义了如下规则规则 1、规则2和规则3,其中,规则1适用于与语段3)结构相同的语段,规则2适用于与语段1) 结构相同的语段,规则3分别适用于与语段2)结构相同的语段。规则1 [实体][属性值]==〉[属性值]依存于[实体] 规则2 [实体][属性值标记V][属性]==〉[实体]依存于[属性] 规则3:[实体]([属性标记L]) [属性]==〉[实体]依存于[属性]
根据上述规则1,就可判断语段3)中的依存方向。根据规则2和3,即可确定语段1) 和语段2)中的依存方向。上述规则的左边是正规表达式,右边是对应的依存方向,如规则 3中,[属性标记L]可出现也可不出现,分别对应于图2和图3中“狂人日记”和“作者”间的关系。根据这些规则判定依存方向是可行的,因为第一,这些规则不仅反映语义关系, 同时也包含语序关系,而依存方向主要取决于语序;第二,规则中出现的项素(item)是有限的,包括[实体]、[属性]、[属性标记]和[属性值标记]等,因此规则也是很有限的。3、资源建立
为实现汉语文本推理关系的自动判别,本发明根据语义依存的表示机制,建立一个大规模的文本推理标注资源,文本推理标注资源中的一个文本推理标注实例包含一个语段T、 一个假设H、假设H的语义依存图及推理类型,其中推理类型有蕴涵、预设和隐含三类,本实施例中所建立的文本推理标注资源包含有5000个文本推理标注实例。建立文本推理标注资源的首要问题是语料选取,语料选取一方面可利用现有评测任务的数据,另一方面,可从新闻语料、中小学语文阅读理解和汉语水平考试等来源进行语料选取。上述策略是可行的,因为,第一,在利用现有评测任务的数据时,因为现有评测任务的数据一般有结构化特征,可编写程序来抽取语段和假设;第二,从新闻语料中抽取语料, 可保证语料的实效性;第三,从汉语水平考试和阅读理解中抽取语料可保证语料的覆盖性。目前文本蕴涵识别RTE (Recognizing Textual Entailment)英文的训练数据中包含蕴涵、未知和矛盾三类,本发明在此未标记未知和矛盾类,因为一方面未知类可从系统的输出结果(得分)予以判断;另一方面,矛盾类又分为两子类,一类是相对类,例如假设“老舍是《狂人日记》的作者”相对于语段1)来说是相对的假设,这类假设也可从系统的输出结果判定;另一类是逻辑矛盾类,如“鲁迅不是《狂人日记》的作者”相对于语段1)来说,就是矛盾假设,这类假设更多地与逻辑算子如否定有关,与语义依存没有多少关系,可结合语义依存分析和逻辑运算处理此类假设。步骤二、在步骤一所建立的汉语文本推理标注资源的基础上,在新输入的语段Γ 的限制下对新输入的假设//进行语义依存分析,从而判断语段r是否能推理出假设//。所述的步骤二具体为以步骤一所建立的汉语文本推理标注资源为基础,在新输入的语段r的限制下对新输入的假设//进行语义依存分析,得到假设//的语义依存图,如果假设//的语义依存图存在的概率大于预设值々,则语段Γ可推理出假设//,否则无法推理出假设//,其中,δ根据实验结果设定。由于语义依存图是一个有标记的有向图,为保证分析效率,本发明采用两个阶段对语段r和假设//进行语义依存分析,从而得到假设//的语义依存图。图5所示为本发明获得假设H的语义依存图的流程图。
第一阶段(Phase 1)为无向树分析,第二阶段(Phase II)为有向图分析,两个阶段都采用对数线性模型进行分析。第一阶段可利用最大生成树进行无向树分析,由于最大生成树的搜索空间为^fc2),其中,η为语义依存图中节点的个数,可对搜索空间进行全搜索,并得到精确解;第二阶段的搜索空间为指数空间,无法找到最优解,但可在第一阶段Wiase I的基础上确定较优解。下面将详细说明假设//的语义依存图的获得过程。包括以下步骤 1、无向树分析,该步骤又进一步包括以下子步骤
1.1无向树分析问题形式化
将无向树分析形式化为f· = afSf^g5^J(IU),其中,卩表示假设//的最大生成树,
^Th为假设//的生成树集合,θ为特征的权重向量, 为假设//的生成树集合中的元素, /(HC为描写 的特征向量。本发明的特征有如下几种形式
a、二元特征对于任一条边Of^w2 >,二元特征包括< W^w2 >、0 , >、<c、,w2 >、
<clrc2 > ,其中,。和^分别指巧和巧在此丽讨或同义词词林中所属的概念类。b、结构特征与< WliW2 >邻接的任一节点w,则<H>p2 >为一结构特征。C、上下文特征位于假设#中W1和W2间任一位置或、和Β外一定距离的词w, 则< WsWlsW2 >为一上下文特征。d、语段Γ上下文特征假设//中实词在语段Γ中一般有对应,因此假设//中的结构特征和上下文特征在语段T中可找到对应的特征,称为语段Γ特征(包括语段Γ上下文特征和语段r结构特征)。语段上下文r特征可通过上述的上下文特征方法获得;注意如果语段 r上下文特征中有指代(代词或有定名词短语),为防止指代消解错误扩散,可用其指代候选参与构成特征。e、语段T结构特征可对语段Γ进行结构分析,然后利用语段T中包含的依存关系,得到语段r结构特征;注意如果语段r上下文特征中有指代(代词或有定名词短语),为防止指代消解错误扩散,可用其指代候选参与构成特征。这对概括总结类型的假设//(如数字推导)有帮助。f、历史特征根据分析过程中的启发式规则定义特征,用以模拟由无标记无向图到有标记有向图的转换过程。1. 2把训练数据中的每个标记转化为节点,并确定最大生成树
由于文本推理标注资源中标注的结果是语义依存图,而无向树分析的结果是确定最大生成树,因此需要把训练数据从有标记的有向图转化为无标记的无向树。首先,把训练数据
12中的每个标记转化为节点,然后利用克鲁斯卡尔算法或普里姆算法确定最大生成树。1. 3对步骤1. 2所得的最大生成树进行训练
本训练过程采用Perc^tron实时学习算法,具体为以训练数据<T,HJH>为输以特征权重向量θ为输出,特征权重向量θ初始化为0;对每个训练数据<2;//,&>,根据公式= mgm^0*f(T,Hj)计算广,并计算/(Γ>丑知)和/(7;/£>巧,调整特征权重向量;其中,G为步骤1. 2所得的树。1.4解码过程由步骤1.3得到特征权重向量〃,采用步骤1.1中的公式 e = 对新输入的语段Γ和新输入的假设//进行解码,即得到假设//对
应的无标记的无向树&。2、有向图分析
有向图分析包含无向图分析、标记分析和有向图分析三个子步骤,每个步骤输出的数据空间都呈指数性,因此不存在精确的求解算法,但是可以利用一些启发式规则求得近似解。2.1无向图分析
无向图分析指从无标记的无向树出发通过增加边生成无标记的无向图的过程。为此我们可对每条可能的边通过支持向量机SVM进行分类,判断是否应该加入该边,并把这些边记作候选边。本具体实施中分类所采用的特征同步骤1. 1中所采用的特征。2. 2标记分析
标记分析指从无标记的无向图转化为有标记的无向图的过程,为此可定义一些启发式规则,例如前面定义的规则1、2、3。由于语义依存图中的标记只有两种,属性标记和属性值标记,因此此类启发式规则也是有限的。例如图6给出一条规则,其中“的”是属性标记,因此在语义依存图中应当作为边的标记。2. 3有向图分析
有向图分析是指确定有向图中边的方向,即依存方向,从而将有标记的无向图转换为有标记的有向图,为此可利用前面提到的规则1、2、3。图7给出一个启发式规则的应用实例,其采用的启发式规则是前面提到的规则2 [实体][属性值标记V][属性]==〉[实体] 依存于[属性]。由于节点类型及标记都有限,此类启发式规则也仅为有限的几个。本步骤的解码过程是指从无标记无向树到带标记有向图的生成过程,此过程根据上述规则1、2、3,获取最后语义依存图及其得分。步骤三、对步骤二的分析过程和判断结果进行评估、分析和概括,并利用反馈改善分析过程的性能。本步骤中的评估、分析和概括具体包括对语义依存图进行总体分析,包括对依存、关系、方向、根节点及依存结构进行总体分析;对蕴涵推理判断的准确率、召回率和F值进行评估;总结概括汉语文本推理的主要句法和语义模板、三种推理类型的分布、各种数据源的比较、错误发生的主要类型及原因。除依存结构的总体分析评估外,节点评估、边评估、推理判断和推理类型评估都采用准确率、召回率和F值这些标准是目前广泛采用的。
文本推理研究的兴起是自然语言处理领域各项具体应用任务的需求。如在问题回答领域,很多问题的正确答案无法从相关文本中直接抽取而需要一定的推理。例如对于问题4)和相关文本描述5)
4)谁是《狂人日记》的作者?
5)鲁迅写了《呐喊》、《狂人日记》等有影响的著作。要正确回答问题4),需要从相关文本描述5)中推理出“鲁迅是《狂人日记》的作者”。在信息检索领域,一般来说,正确的检索结果(文档)应该一定程度上推理出查询所描述的命题。例如,6)是一个查询,7)给出了一个相关文本中的一段描述。6)查询有关在台湾举办汉代文物大展的时间和地点。7)中新社香港二月十二日电台北消息台北“故宫博物院”将于三月下旬举办 “宋代文物大展”,以使观众认识中国历史上宋代文化艺术格外昌盛的风貌。可以看出,7)给出了查询6)所要求的活动(“汉代文物大展”)及其时间(“三月下旬”)和地点(“台北故宫博物院”)。在此意义上,7)包含的命题覆盖了 6)描述的命题,因此 6)可看作7)的推理结果。在信息抽取领域,特别是对于关系抽取,由于同一种关系可用多种不同的词语或模板进行描述,因此就需要确定这些不同描述间的推理关系。例如8)给出了一个关于雇佣关系的信息抽取任务,目的是抽取具有三个属性(雇主、雇员、职位)的雇佣关系,9)给出一组文本数据。8)关系抽取 Event:雇佣关系 Attributes Employer:雇主; Employee:雇员; Role:职位
9)数据
1 Jim^ s employment as lawyer by his cousin ljim’ s employment of his cousin as lawyer
ISilverton hired Stickney in 2001 as a contracted anesthetist. IPresident Clinton appointed him as ambassador
ITo run the business, he hired Barbara Japhaj former associate general counsel at U S West, to be president and general counsel
从9)可以看出,雇佣关系可用多种词语或模板(9)中黑体所示)进行描述,正确判断雇佣关系就需要确定这些词语或模板之间的推理关系。文本推理在自动文摘或机器翻译领域也有重要应用。例如在多文档自动文摘中, 可利用推理关系判断文摘句子的冗余;在机器翻译中,可利用翻译结果和标准翻译间的推理关系评测翻译系统的质量。 另外,文本推理还可以应用到国安领域的问题回答和生物信息领域的关系蕴涵, 并考察文本推理在这些应用中的性能。
权利要求
1.一种基于受限的语义依存分析的文本推理方法,其特征在于,包括以下步骤 步骤一、根据语义依存的表示机制,建立一个汉语文本推理标注资源,其中,一个文本推理标注实例包含一个语段Λ —个假设//、假设//的语义依存图及推理类型;步骤二、在步骤一所建立的汉语文本推理标注资源的基础上,在新输入的语段Γ的限制下对新输入的假设//进行语义依存分析,从而判断语段r是否能推理出假设步骤三、对步骤二的分析过程和判断结果进行评估、分析和概括,并利用反馈改善分析过程的性能。
2.根据权力要求ι所述的基于受限的语义依存分析的文本推理方法,其特征在于 所述的步骤二具体为以步骤一所建立的汉语文本推理标注资源为基础,在新输入的语段r的限制下对新输入的假设//进行语义依存分析,得到假设//的语义依存图,如果假设 //的语义依存图存在的概率大于预设值々,则语段r可推理出假设//,否则无法推理出假设 //,其中,δ根据实验结果设定。
3.根据权力要求2所述的基于受限的语义依存分析的文本推理方法,其特征在于 所述的假设//的语义依存图的获得,包括以下步骤·1)无向树分析,该步骤进一步包括以下子步骤·1. 1将无向树分析形式化为^ = argm^5./(r,/f,l),其中表示假设//的最大生成树,^Th为假设//的生成树集合,θ为特征的权重向量, 为假设//的生成树集合中的元素, /(Γ,U)为描写 的特征向量; 所述的特征有如下几种a、二元特征对于任一条边<W1,W2 >,二元特征包括CWpw2 >、OfliC2 >、<c、,w2 > 、 h而 >,其中,A和Q分别指W和W2在Hownet或同义词词林中所属的概念类;b、结构特征与<W1jW2 >邻接的任一节点w,则< w,wi,w2 >为一结构特征;c、上下文特征位于假设#中\和巧间任一位置或巧和《外一定距离的词11(则 < WsWliW2 >为一上下文特征;d、语段Γ上下文特征假设H中实词在语段T中一般有对应,因此语段T上下文特征可通过上述的上下文特征方法获得;如果语段Γ上下文特征中有指代,则采用其指代候选参与构成特征;e、语段Γ结构特征对语段Γ进行结构分析,并利用语段T中包含的依存关系,得到语段r结构特征;如果语段T结构特征中有指代,则采用其指代候选参与构成特征;f、历史特征是根据分析过程中自定义的启发式规则特征、用来模拟由无标记无向图到有标记有向图的转换过程;·1. 2把训练数据中的每个标记转化为节点,并确定最大生成树; 1. 3对步骤1. 2所得的树进行训练;·1. 4根据步骤1. 3的训练输出,采用步骤1. 1中的公式^ =I(ZHJ)对新输入的语段r和新输入的假设//进行解码,即得到假设//对应的无标记的无向树& ;2)有向图分析,该步骤进一步包括以下子步骤·2.1无向图分析将步骤1)所得的无标记的无向树转换为无标记的无向图; 2.2标记分析将步骤2.1所得的无标记的无向图转换为有标记的无向图; 2. 3有向图分析将步骤2. 2所得的有标记的无向图转换为有标记的有向图,即得到假设//的语义依存图。
4.根据权力要求3所述的基于受限的语义依存分析的文本推理方法,其特征在于 所述的步骤1. 2中最大生成树的确定是采用普里姆算法。
5.根据权力要求3所述的基于受限的语义依存分析的文本推理方法,其特征在于 所述的步骤1. 3采用Perceptron实时学习算法对步骤1. 2所得的树进行训练,具体为以训练数据<Γ,^~>为输入,以特征权重向量θ为输出,特征权重向量θ初始化为0 ;对每个训练数据> ,根据公式^ = ^^&力^^计算广并计算f(T,H,iH)和/(H巧,调整特征权重向量;其中力步骤1. 2所得的树。
6.根据权力要求3所述的基于受限的语义依存分析的文本推理方法,其特征在于 所述的步骤2. 1具体为通过支持向量机SVM对每条可能的边进行分类,并根据分类结果判断是否应该加入改边。
7.根据权力要求3所述的基于受限的语义依存分析的文本推理方法,其特征在于 所述的标记分析和有向图分析均利用了如下规则规则1:[实体][属性值]==〉[属性值]依存于[实体]规则2 [实体][属性值标记V][属性]==〉[实体]依存于[属性]规则3:[实体]([属性标记L]) [属性]==〉[实体]依存于[属性]。
8.根据权力要求1所述的基于受限的语义依存分析的文本推理方法,其特征在于 所述步骤三中的评估、分析和概括具体包括对语义依存图进行总体分析,包括对依存、关系、方向、根节点及依存结构进行总体分析;对蕴涵推理判断的准确率、召回率和F值进行评估;总结概括汉语文本推理的主要句法和语义模板、三种推理类型的分布、各种数据源的比较、错误发生的主要类型及原因。
全文摘要
本发明公开了一种基于受限的语义依存分析的文本推理方法,包括以下步骤步骤一、根据语义依存的表示机制,建立一个汉语文本推理标注资源,其中,一个文本推理标注实例包含一个语段T、一个假设H、假设H的语义依存图及推理类型;步骤二、在汉语文本推理标注资源的基础上,在新输入的语段T的限制下对新输入的假设H进行语义依存分析,从而判断语段T是否能推理出假设H;步骤三、对步骤二的分析过程和判断结果进行评估、分析和概括,并利用反馈改善分析过程的性能。本发明将文本推理的判断形式化为一个受限的语义依存分析问题,并将文本推理类型从蕴涵扩展至预设和隐含,该方法有助于处理较为复杂的话语性和对话性语料的推理。
文档编号G06F17/27GK102360346SQ201110336338
公开日2012年2月22日 申请日期2011年10月31日 优先权日2011年10月31日
发明者史华新, 吕晨, 吴龙飞, 姬东鸿, 孙程, 张明尧, 汪辉, 滕冲, 陈波, 韩欣 申请人:武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1