一种自然语言句子的语义角色标注方法

文档序号:6472028阅读:213来源:国知局

专利名称::一种自然语言句子的语义角色标注方法
技术领域
:本发明涉及一种对自然语言的语义分析的方法,尤其涉及一种对自然语言句子的语义角色进行分析和标注的方法,属于计算语言学中的自然语言处理领域。
背景技术
:语义分析是自然语言处理的一个关键问题。作为目前的热点研究课题之一,语义角色标注(SemanticRoleLabeling,SRL)是浅层语义分析(ShallowSemanticParsing)的一种,其实质是在句子级别进行浅层的语义分析。所谓语义角色标注,就是对于给定句子,对句中的每个谓词标注出句中的相应语义成分,并作相应的语义标记,如施事、受事、工具或附加语等。SRL能应用于问答系统、信息抽取、文本摘要、文本蕴含等领域,具有广泛的应用前景。基于机器学习的语义角色标注通常可分为四个阶段a)预处理,通常过滤掉不可能成为语义角色的句法成分;b)语义成分识别,识别出哪些标注单元是某一目标谓词的语义角色;c)语义角色分类,为识别语义成分的单元进行语义角色的分类;d)后处理,对标注的语义角色进行全局优化,确定合理的角色组合。其中,识别和分类阶段一般使用局部推导。所谓局部推导是指独立决定句中每个成分的语义标签,而不依赖于其他成分的标注,这样训练得到的模型称为局部模型。相应地,全局推导一般发生在后处理阶段。所谓全局推导是指在局部推导的基础上,考虑各成分标签之间的依赖关系,通过全局模型集成相关硬限制和软约束条件,从而得到合理的语义角色组合。通常,合理地集成局部模型和全局模型,能大大提髙系统的性能和健壮性。局部模型的学习方法通常可分为两类基于特征向量的方法和基于核函数的方法。从目前而言,基于特征向量的方法,取得了较大的成功,速度和性能都大大优于基于核函数的方法。基于特征向量的方法需要人为定义大量具有区分度的特征模板,然后根据此模板将每个实例转化为特征向量进行学习或预测操作。目前主要集中于特征工程和机器学习模型的研究。但由于基于特征向量的方法仅仅反映了待标注单元的局部信息,不能很好地反映全局信息和结构化句法信息,因此人们探索基于核函数的方法进行语义角色标注。基于核函数的方法的基本思想是将低维线性不可分问题映射到髙维空间,使之成为线性可分问题。通常这种映射可以通过计算核函数隐式达到,从而降低时间和空间复杂性。核函数能很好的融入支持向量机、感知器等学习算法,因而引起了人们广泛的兴趣。自然语言处理任务包括词性标注、句法分析、语义分析、信息抽取等,通常是按序进行的,即后一项任务在前一项任务的基础上进行,例如语义角色分析通常要基于句法分析的结果。句法分析(SyntacticParsing)是自然语言处理的一个基本问题和关键技术。它的任务是根据给定的语法,自动推导出句子的语法结构,即句子所包含的句法单位以及这些句法单位之间的关系。句法分析的目的主要有两个一个是确定句子所包含的"谱系"结构;另一个是确定句子的组成成份之间的关系。通常,输入一个句子,即单词之间的线性次序,输出一个非线性的数据结构,如短语结构树(如句法树)或有向无环图(如依存关系图)等。因此,现有技术中,总是首先进行句法分析,获得句法树,然后在句法树的基础上,进行语义分析,包括进行句子的语义角色标。这样的做法会带来一系列问题,其一,前项任务在进行时,无法考虑到后面任务的具体需求而不能满足需求,通常句法分析面向后续的多个任务,因此输出结果比较通用,而语义角色标注除需要这些通用信息外,还可能需要一些特定的信息,如句法树或其子树的概率信息等,这些信息句法分析系统通常比较欠缺其二,后项任务的性能受到前面任务性能的制约,句法分析结果的好坏会直接影响到语义角色标注的性能。现有的研究表明,在英文手工句法树和自动句法树上进行的语义角色标注,其性能(Fl值)相差IO个百分点,而基于中文手工句法树和自动句法树上进行的语义角色标注,其F1值相差甚至达30个百分点。
发明内容本发明目的是本发明的目的是提供一种有效的句子的语义角色标注方法,通过建立联合推导模型,减少自动句法分析结果对语义角色标注性能的影响,从而解决基于自动句法分析的语义角色标注方法性能较差的问题。为达到上述目的,本发明采用的技术方案是一种自然语言句子的语义角色标注方法,采用联合学习模型,同时实现中文句法分析和语义角色标注,包括如下步骤(l)生成语义角色标注模型生成训练文件从标注语料库中,根据下表中的特征抽取特征,生成所需的训练文件;<table>tableseeoriginaldocumentpage6</column></row><table>模型生成利用训练文件对最大熵分类器模型进行训练,得到语义角色标注模型文件;该模型可经过足够的标注语料训练学习后得到,使用该模型能够有效地识别出句子中给定谓词的语义角色。(2)生成联合学习模型在现有句法分析模型中,基于词汇化PCFG的句法分析模型虽然能够取得较好的性能,但执行效率过低,时间复杂度为0(ns);与此相比,基于历史信息的句法分析模型,按照从左至右的方式进行制定决策,仅需遍历一次,此方法由于只需一次从左至右遍历,故执行效率较髙,但缺点是,在作决策时仅使用到当前位置前面的组块信息,且父结点通常早于其子结点生成,在子结点未全部生成的情况下,根据所处的上下文信息做出的预测并不可靠,这样势必造成性能的下降。例如,基于图l所示的基本短语识别结果,要得到正确句法分析结果,则前四个决策必须是{StartS和No、StartVP和Noh即为组块NP(I)生成父亲结点NP和为组块VBD(saw)生成父亲结点VP,并且此时新生成的父亲结点NP和VP的其他儿子结点一概不知,即父亲结点的仅在其第一个儿子生成的情况下产生,这在现实情况下往往很难做到这一点。相反,当所有儿子结点已形成的情况下,预测其父结点则相对更加容易和可靠。基于此,本发明使用了一种基于历史信息的层次句法分析模型,此模型能够综合以上两种模型的优点,以较小时间复杂度取得较好的性能。其基本思想是在每层处理过程中,优先识别出容易识别的组块,这样就能提供更丰富的上下文信息进行复杂组块识别;未被合并的组块和新识别产生的组块共同构成下步处理的输入,重复此过程直至识别出根结点。其过程是一个层次处理的递归过程,结束条件是在某层处理时,所有的组块合并为一个新的组块,即句法树根结点。完整的句法分析过程可分为词性标注、基本组块识别和句法分析。句法分析模型的作用是在基本组块识别的基础上,预测各个组块下一步的决策,得到正确的句法分析结果。生成模型常用的特征模版有第n棵树的中心词及词性,当前句法成分标记及决策标记,当前成分的上下文特征等(包括1元、2元、3元等信息)。在层次句法分析模型基础上,融入语义角色标注信息,可得到本发明的联合学习模型,实现句法分析与语义角色标注的联合学习。提出的联合模型基于以下观察谓词W的角色成分通常是其兄弟结点,或其祖先结点的兄弟结点,实际上此原则也被广泛应用于语义角色标注的剪枝策略。基于此原则提出的联合模型由两部分组成句法树构建部分和角色标注部分,每当句法树构建部分生成一个新的目标动词的祖先结点时,便调用语义角色标注模型,判断并标注祖先结点的其他儿子结点与目标动词之间的语义角色关系,同时增加其他语义相关的信息,使之影响句法树的构建。由于句法树的构建始终处在变化中,并且这种变化的主要影响因素是语义信息,而语义角色标注模型的输入就是当前构建的句法树,因此输出的语义角色也在不断调整,句法分析和角色标注是相互影响的。具体描述如下给定谓词w,每当新生成一个w的祖先结点node时,调用语义角色标注模型,判断node的子结点与谓词w的语义角色关系。图2给出了一个英文句子的句法分析和语义角色标注联合学习实例示意图。对图2.a中的中间结果1,目标谓词为VBD(closed),在识别出其父结点VP后,如图2.b所示,调用语义角色标注模型,判断其兄弟结点PP(at2569.26)与动词VBD(closed)的语义角色关系,如图2.C所示;紧接着,当VP结点合并到节点S后,调用语义角色标注模型,判断VP的兄弟结点NP(TheDowJonesindustrials)与谓词VBD(closed)的语义角色关系。在调用语义角色标注模型,判断当前结点与谓词之间的语义角色关系时,如果得到的角色LI为非空,即当前结点是谓词的某个语义角色,则将该角色的概率值增加到系统概率中,如公式(l)所示prob(T)=prob(T)*prob(Ll)(1)T*=argmax(Prob(T))(2)其中,prob(T)是当前生成树T句法分析的概率,prob(Ll)是当前结点被标注为LI的概率。而句法分析模型的目标则是寻找最优句法树T*,这里T*满足公式(2)。除了语义角色这个信息,在句法分析模型中还增加其他语义相关信息,以进一步提髙语义信息的作用。由此,生成联合学习模型的方法是,提取训练语料从树库中,提取出句法分析训练语料,句法分析的训练事件中包含语义特征;生成训练文件在句法分析模型常用特征基础上,添加语义特征,生成训练文件所述句法分析模型常用特征由下表表示:_第n棵树的中心词、成分标记和决策标记第n棵树的中心词词性、成分标记和决策标记_第n棵树的成分标记和决策标记—第n棵树的上下文特征(l元、2元、3元、4元等)所述语义特征由下表表示:<table>tableseeoriginaldocumentpage8</column></row><table>语义特征的获取采用步骤(l)的语义角色标注模型实现;模型生成利用训练文件对最大熵分类器模型进行训练,得到联合学习模型文件;(3)词性标记调用词性标记模块,对给定句子进行词性标注,保留前N种最优的词性标记系列结果;(4)基本短语识别调用基本短语识别模块,分别对步骤(3)输出的N种词性标记结果,进行基本短语识别,最后保留前N种最优的基本短语识别结果(5)句法分析调用联合学习模型,以步骤(4)输出的N种基本短语识别结果作为输入,输出最优的句法分析结果和语义角色标注结果;其中,N为1020的整数,N值过大,解析过程中将保留太多的无用的中间结果,增加系统开销;而N值过小,则可能会丢失一些正确的中间结果。由于上述技术方案运用,本发明与现有技术相比具有下列优点本发明通过联合模型的使用,能够同时输出一个句子的句法分析结果和给定谓词的语义角色标注结果。在联合学习模型中,由于句法分析模型中增加了语义信息,使得训练出来的模型更适合于语义角色标注任务,因此由此模型输出的语义角色标注性能更髙。同时联合模型输出的句法分析结果同单个句法分析模型的结果相比,两者性能不会有很大差别,甚至由于语义信息的加入,还能够提髙句法分析的性能。图1是句子"Isawthemanwiththebook"的基本短语识别结果。图2是句法分析和语义角色标注联合学习实例示意图。其中句子为TheDowJonesindustrialsclosedat2569.26。图3是实施例中中文句子"中美在沪签订协议"的联合模型的输出结果。具体实施方式下面结合附图及实施例对本发明作进一步描述实施例将对语义角色的标注任务转换为分类问题,采用最大熵分类器进行训练,得到语义角色标注模型。对句法分析任务,分为词性标记子任务、基本短语识别子任务和层次句法分析子任务,词性标记和基本短语识别子任务采用现有句法分析软件中的成熟模块完成在句法分析时,调用语义角色标注模型,得到语义角色信息,将基本短语识别结果和语义信息作为输入,输出最优的句法分析结果和语义角色标注结果。语义角色标注模型的生成生成训练文件从标注语料库中,根据表1中的特征抽取特征,生成所需的训练文件;模型生成采用最大熵模型,对训练文件进行训练,得到语义角色标注模型.-表1位置路径中心词及其词性谓词子类框架句法成分类型句法成分首词和尾词句法成分左兄弟结点类型谓词语法框架动词类别句法成分前一个词句法成分父亲结点类型压縮路径句法成分是否有右兄弟结点句法成分左兄弟结点中心词类型修改的路径路径中是否存在根结点联合学习模型的生成提取训练语料从树库中,提取出层次句法分析训练语料;生成训练文件采用最大熵模型,根据句法分析模型常用特征(表3)再加上语义特征(表2),生成训练所需的特征文件模型生成采用最大熵模型,对训练文件进行训练,得到联合学习模型:表2谓词当前谓语动词本身谓词类别谓词所属的动词类别路径当前句法成分到谓词的路径谓词角色调用语义角色标注模型识别出的谓词语义角色表3第n棵树的中心词、成分标记和决策标记第n棵树的中心词词性、成分标记和决策标记第n棵树的成分标记和决策标记10第n棵树的上下文特征_对待分析的句子,依次进行词性标记调用词性标记模块,对给定句子进行词性标注,保留前N种最优的词性标记系列结果基本短语识别调用基本短语识别模块,进行基本短语识别,最后保留前N种最优的基本短语识别结果;句法分析调用联合学习模型,以3.2的N种基本短语识别结果作为输入,输出最优的句法分析结果和语义角色标注结果。图3是中文句子"中美在沪签订协议"的联合模型的输出结果。其中画圏的结点在生成时,需要调用语义角色标注模型,判断这个结点的子结点与谓词结点(签订)之间的语义关系。图中的每条边上的说明是句法分析的具体步骤。描述如下(1)对基本短语NP(中美)标记其为IP成分的开始,即标记为"S—IP(2)判断该短语是否结束,如为否,记为"NO"(3)对基本短语P(在)标记为PP成分的开始("S—PP")(4)短语未结束识别,记为"NO"(5)对基本短语NP(沪)标记为PP成分的继续("J.pp")(6)短语识别结束,记为"YES",形成句法成分PP;(7)对成分PP标记为VP成分的开始("S一VP")(8)短语未结束识别,记为"NO"(9)对基本短语W(签订)标记为VP成分的开始("S—VP")(10)短语未结束识别,记为"NO"(11)对基本短语NP(协议)标记为VP成分的继续("J一VP")(12)短语识别结束,记为"YES",形成句法成分VP;由于VP是谓语动词W(签订)的父结点,因此调用语义角色标注模型,判断该结点的另一孩子结点NP(协议)与谓词结点W(签订)之间的关系,得出NP(协议)是W的A1角色,修改当前句法分析的概率。(13)对成分VP标记为另一VP成分的继续("J—VP")(14)短语识别结束,记为"YES",形成句法成分VP;由于VP是谓语动词W(签订)的祖先结点,因此调用语义角色标注模型,判断该结点的另一孩子结点PP与谓词结点W之间的关系,得出PP是W的AM-LOC角色,修改当前句法分析的概率。(15)对成分VP标记为IP成分的继续("J_IP")(16)短语识别结束,记为"YES",形成句法成分IP;由于IP是谓语动词W(签订)的祖先结点,因此调用语义角色标注模型,判断该结点的另一孩子结点NP(中美)与谓词结点W之间的关系,得出NP是W的AO角色,修改当前句法分析的概率。权利要求1.一种自然语言句子的语义角色标注方法,其特征在于采用联合学习模型,同时实现中文句法分析和语义角色标注,包括如下步骤(1)生成语义角色标注模型生成训练文件从标注语料库中,根据下表中的特征抽取特征,生成所需的训练文件;位置路径中心词及其词性谓词子类框架句法成分类型句法成分首词和尾词句法成分左兄弟结点类型谓词语法框架动词类别句法成分前一个词句法成分父亲结点类型压缩路径句法成分是否有右兄弟结点句法成分左兄弟结点中心词类型修改的路径路径中是否存在根结点模型生成利用训练文件对最大熵分类器模型进行训练,得到语义角色标注模型文件;(2)生成联合学习模型提取训练语料从树库中,提取出句法分析训练语料,句法分析的训练事件中包含语义特征;生成训练文件在句法分析模型常用特征基础上,添加语义特征,生成训练文件;所述句法分析模型常用特征由下表表示第n棵树的中心词、成分标记和决策标记第n棵树的中心词词性、成分标记和决策标记第n棵树的成分标记和决策标记第n棵树的上下文特征所述语义特征由下表表示谓词当前谓语动词本身谓词类别谓词所属的动词类别路径当前句法成分到谓词的路径谓词角色调用语义角色标注模型识别出的谓词语义角色语义特征的获取采用步骤(1)的语义角色标注模型实现;模型生成利用训练文件对最大熵分类器模型进行训练,得到联合学习模型文件;(3)词性标记调用词性标记模块,对给定句子进行词性标注,保留前N种最优的词性标记系列结果;(4)基本短语识别调用基本短语识别模块,分别对步骤(3)输出的N种词性标记结果,进行基本短语识别,最后保留前N种最优的基本短语识别结果;(5)句法分析调用联合学习模型,以步骤(4)输出的N种基本短语识别结果作为输入,输出最优的句法分析结果和语义角色标注结果;其中,N为10~20的整数。全文摘要本发明公开了一种自然语言句子的语义角色标注方法,其特征在于采用联合学习模型,同时实现中文句法分析和语义角色标注。本发明通过联合模型的使用,能够同时输出一个句子的句法分析结果和给定谓词的语义角色标注结果。在联合学习模型中,由于句法分析模型中增加了语义信息,使得训练出来的模型更适合于语义角色标注任务,因此由此模型输出的语义角色标注性能更高。同时联合模型输出的句法分析结果同单个句法分析模型的结果相比,两者性能不会有很大差别,甚至由于语义信息的加入,还能够提高句法分析的性能。文档编号G06F17/27GK101446942SQ20081024360公开日2009年6月3日申请日期2008年12月10日优先权日2008年12月10日发明者周国栋,芳孔,朱巧明,李培峰,王红玲,钱培德,钱龙华申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1