一种基于树库转化的越南语依存树库错误检测的方法与流程

文档序号:14940843发布日期:2018-07-13 20:43
本发明涉及一种基于树库转化的越南语依存树库错误检测的方法,属于自然语言处理
技术领域

背景技术
:依存树库作为一种基础性语料,不管是作为构建依存句法分析器的训练语料,还是为机器翻译、信息检索、信息抽取等上层应用提供支撑都有着举足轻重的作用。通过任何方式构建的依存树库都难免会存在一些错误,这些错误可能是最基础的分词和词性标注出错,也可能是更上层的依存关系类型标注出错,其直接影响着上层应用如机器翻译的质量。因此,必须对这些错误进行检测和分析以便对其进行校正,从而进一步提高依存树库的质量。如何提高依存树库的质量是一个具有挑战性的研究课题。依存树库错误检测总体上有三种方法:(1)人工检测方法;(2)基于统计学的方法;(3)基于规则的方法。人工检测方法是最原始最机械的方法,虽精度高但极其费时费力且效率低下。Ambati(2011)等人研发了一个依存树库错误检测工具来自动检测印度语依存树库中存在的错误;AgarwalR(2012)等人对此工具做进一步研究后,提出了一种基于统计学的方法,充分节省了错误检测的时间;AgrawalB(2013)等人基于统计学的方法并利用一个依存句法解析器来自动检测依存树库中不易发现的错误,该方法虽提高了检测效率,但仅能检测到一部分错误。在中文方面,史林林(2016)等人基于产生式规则自动检测依存树库中存在的错误,最终从50275个依存结构树中检测出1529处错误,但其缺失了树库转化这一重要过程。在越南语方面,目前对依存树库错误检测的研究还十分缺乏。技术实现要素:本发明提供了一种基于树库转化的越南语依存树库错误检测的方法,以用于有效提高越南语依存树库的质量,为越南语依存树库错误检测提供了一种有效的方法;有效避免了人工检测的繁琐过程,充分节省了人力物力的时间;弥补了基于规则的方法缺失树库转化这一过程的不足;对越南语的机器翻译、信息抽取和信息检索等上层应用提供有力支撑;依存树库的质量是这些上层应用的基础。本发明的技术方案是:一种基于树库转化的越南语依存树库错误检测的方法,所述方法的具体步骤如下:Step1、首先定义越南语的依存关系类型;Step2、其次利用Step1的结果构建一个规则知识库,并利用该规则知识库推导出测试依存结构树中父节点和子节点构成的短语类型;Step3、然后将测试依存结构树转化为短语结构树;若转化失败,则直接说明测试依存结构树中最基础的分词与词性标注错误;若转化成功,则进入Step4;Step4、最后将Step3中实际转化成功得到的短语结构树的短语类型与Step2中推导出的短语类型进行对比;若对比一致,则说明测试依存结构树不存在错误;若对比不一致,则说明测试依存结构树中最基础的分词与词性标注正确,而更上层的依存关系标注错误。所述步骤Step1的具体步骤为:Step1.1、首先依据语义方式找出句子中哪些词语之间存在依存关系;在一个句子中,语义层面上存在某种联系的词语之间应该存在依存关系;也就是说,词语之间产生依存关系才能促使新语义的产生,本发明称之为语义原则。在进行依存关系标注时,语义原则应优先考虑;如图2所示,越南语句子“là(她)(是)xinh(美丽的)gái(女孩)”。其中:(是)和gái(女孩)这两个词产生关系才能构成新的语义,所以两词之间存在依存关系。Step1.2、其次依据主干方式找出句子中哪些词语与谓词之间存在依存关系;在一个句子中,一些词语对句子意思的表达起主导作用,在句子中不可或缺,属主要的词;而有些词语在句子中起辅助作用,只起到修饰主干成分的作用,即使去掉也不会影响整体语义的表达,属次要的词。在对依存关系进行标注时,应尽量保证主干词在依存关系中处于核心位置,其它修饰词应依存于这些核心词,本发明称之为主干原则。越南语依存句法分析主要以谓语为主导,分析其他词与谓语动词之间的关系;Step1.3、最后归类出Step1.1和Step1.2中所找出词语之间具体属于哪一种依存关系类型。同中文一样,越南语的语法规则和语义结构相当复杂多变,导致词与词之间的依存关系类型也很多变,但有些依存关系类型因出现频率较低且可以被其它类型所覆盖,因此为了能够更好地覆盖多种语法现象,而又不至于因关系类型过多导致标注困难和数据稀疏等问题。所述步骤Step2中,构建一个规则知识库的具体步骤如下:Step2.1、首先定义规则知识库的具体框架;条件=>结论(1)即父节点词性+子节点词性+依存关系类型=>短语类型(2)例如,“N+N+ATT=>NP”,其条件为“N+N+ATT”,结论为“NP”,在这里第一个N表示父节点词性为名词、第二个N表示子节点词性为名词、ATT表示父节点和子节点之间的依存关系类型为定中关系,NP表示推导出的短语类型为名词性短语;Step2.2、然后自动抽取条件库;即将目标依存树库中所有可能存在的条件都抽取出来。具体操作如下:遍历依存树库中每一棵依存树,并将树中每一条弧线关联的父节点词性、子节点词性以及它们之间的依存关系类型都一一抽取出来,将它们组合在一起就构成了一个条件;Step2.3、最后人工辅助添加结论。这里需要人工辅助才能确保条件的准确性,因此需要人工对每一个条件进行检查,如果条件没有问题就为其添加一个结论,即短语类型;如果条件不正确就将之剔除。所述步骤Step3中,依据中心子节点的思想、递归算法将越南语的依存结构树转化成短语结构树。所述步骤Step3中将测试依存结构树转化为短语结构树的转化原理具体说明如下:Rambow(2010)认为依存结构树和短语结构树是浅层句法分析的两种主要形式,它们都可以表达句子的意思,仅仅是表达形式不同但表达能力并无优劣;徐靖(2011)等人认为依存结构和短语结构虽表达形式不同,但它们都是对句子语法结构的描述,因此在结构上存在一致性。一般地,依存结构树中标注有中心词和依存关系类型等信息,短语结构树中标注有短语层次和短语类型等信息;但原理上依存结构树中也可以标注短语层次和短语类型等信息,短语结构树中也可以标注中心词和依存关系类型等信息;如果在其中任何一种形式的结构树中同时标注了中心词、依存关系类型、短语层次、短语类型这四项信息,则一定可以无歧义向另一种结构树转化。因此,在一棵依存结构树中,如果父节点词性、子节点词性以及它们之间的依存关系已知,那么就可以推导出这两个词所构成的短语类型。本发明依据中心子节点的思想将越南语的依存结构树转化成短语结构树。中心子节点在依存结构和短语结构中起着非常重要的作用,x-bar理论和管辖约束理论等语言理论认为,在依存结构中非中心子节点以某种依存关系依存于中心子节点,在短语结构中有一个中心子节点决定着这个短语的主要性质,短语中的其他节点都是该中心子节点的修饰子节点。本发明的有益效果是:1.本发明可以有效提高越南语依存树库的质量,为越南语依存树库错误检测提供了一种有效的方法;2.本发明提出的越南语依存树库错误检测方法有效避免了人工检测的繁琐过程,充分节省了人力物力的时间;3.本发明所提方法弥补了基于规则的方法缺失树库转化这一过程的不足;4.本发明最终得到的越南语依存树库能够对越南语的机器翻译、信息抽取和信息检索等上层应用提供有力支撑;依存树库的质量是这些上层应用的基础。附图说明图1为本发明的流程图;图2和图3为本发明依存结构树实例图;图4为本发明短语结构树实例图;图5和图6为本发明实验结果对比图。具体实施方式实施例1:如图1-6所示,一种基于树库转化的越南语依存树库错误检测的方法,所述方法的具体步骤如下:Step1、首先定义越南语的依存关系类型;Step2、其次利用Step1的结果构建一个规则知识库,并利用该规则知识库推导出测试依存结构树中父节点和子节点构成的短语类型;Step3、然后将测试依存结构树转化为短语结构树;若转化失败,则直接说明测试依存结构树中最基础的分词与词性标注错误;若转化成功,则进入Step4;Step4、最后将Step3中实际转化成功得到的短语结构树的短语类型与Step2中推导出的短语类型进行对比;若对比一致,则说明测试依存结构树不存在错误;若对比不一致,则说明测试依存结构树中最基础的分词与词性标注正确,而更上层的依存关系标注错误。作为本发明的优选方案,所述步骤Step1的具体步骤为:Step1.1、首先依据语义方式找出句子中哪些词语之间存在依存关系;在一个句子中,语义层面上存在某种联系的词语之间应该存在依存关系;也就是说,词语之间产生依存关系才能促使新语义的产生,本发明称之为语义原则。在进行依存关系标注时,语义原则应优先考虑;如图2所示,越南语句子“là(她)(是)xinh(美丽的)gái(女孩)”。其中:(是)和gái(女孩)这两个词产生关系才能构成新的语义,所以两词之间存在依存关系。Step1.2、其次依据主干方式找出句子中哪些词语与谓词之间存在依存关系;在一个句子中,一些词语对句子意思的表达起主导作用,在句子中不可或缺,属主要的词;而有些词语在句子中起辅助作用,只起到修饰主干成分的作用,即使去掉也不会影响整体语义的表达,属次要的词。在对依存关系进行标注时,应尽量保证主干词在依存关系中处于核心位置,其它修饰词应依存于这些核心词,本发明称之为主干原则。越南语依存句法分析主要以谓语为主导,分析其他词与谓语动词之间的关系;Step1.3、最后归类出Step1.1和Step1.2中所找出词语之间具体属于哪一种依存关系类型。同中文一样,越南语的语法规则和语义结构相当复杂多变,导致词与词之间的依存关系类型也很多变,但有些依存关系类型因出现频率较低且可以被其它类型所覆盖,因此为了能够更好地覆盖多种语法现象,而又不至于因关系类型过多导致标注困难和数据稀疏等问题,本发明结合CTB(宾州中文树库)的依存关系标注集,并依据中文依存关系标注体系与越南语的语法规则,最终定义了11种越南语依存关系类型,如表1所示。表1越南语依存关系类型类型名称类型标记类型描述举例主谓关系SVB主语依存于谓语员工->参加动宾关系VOB宾语依存于动词会议->参加定中关系ATT定语依存于中心词高中->学生介宾关系POB数词依存于量词公司->在状中关系ADV状语依存于中心词十分->迅速数量关系QUN数词依存于量词百->个并列关系COO前词依存于后词中国->贸易核心关系HED指出句子的核心我爱祖国->爱连谓结构VV前词依存于后词拿到->就走的字结构DE依存于“的”美丽->的地字结构DI依存于“地”匆匆->地作为本发明的优选方案,所述步骤Step2中,构建一个规则知识库的具体步骤如下:Step2.1、首先定义规则知识库的具体框架;条件=>结论(1)即父节点词性+子节点词性+依存关系类型=>短语类型(2)例如,“N+N+ATT=>NP”,其条件为“N+N+ATT”,结论为“NP”,在这里第一个N表示父节点词性为名词、第二个N表示子节点词性为名词、ATT表示父节点和子节点之间的依存关系类型为定中关系,NP表示推导出的短语类型为名词性短语;Step2.2、然后自动抽取条件库;即将目标依存树库中所有可能存在的条件都抽取出来。具体操作如下:遍历依存树库中每一棵依存树,并将树中每一条弧线关联的父节点词性、子节点词性以及它们之间的依存关系类型都一一抽取出来,将它们组合在一起就构成了一个条件;Step2.3、最后人工辅助添加结论。这里需要人工辅助才能确保条件的准确性,因此需要人工对每一个条件进行检查,如果条件没有问题就为其添加一个结论,即短语类型;如果条件不正确就将之剔除。本发明最终构建的规则知识库示例如表2所示:表2规则知识库示例作为本发明的优选方案,所述步骤Step3中,依据中心子节点的思想、递归算法将越南语的依存结构树转化成短语结构树。所述步骤Step3中将测试依存结构树转化为短语结构树的转化原理具体说明如下:Rambow(2010)认为依存结构树和短语结构树是浅层句法分析的两种主要形式,它们都可以表达句子的意思,仅仅是表达形式不同但表达能力并无优劣;徐靖(2011)等人认为依存结构和短语结构虽表达形式不同,但它们都是对句子语法结构的描述,因此在结构上存在一致性。一般地,依存结构树中标注有中心词和依存关系类型等信息,短语结构树中标注有短语层次和短语类型等信息;但原理上依存结构树中也可以标注短语层次和短语类型等信息,短语结构树中也可以标注中心词和依存关系类型等信息;如果在其中任何一种形式的结构树中同时标注了中心词、依存关系类型、短语层次、短语类型这四项信息,则一定可以无歧义向另一种结构树转化。因此,在一棵依存结构树中,如果父节点词性、子节点词性以及它们之间的依存关系已知,那么就可以推导出这两个词所构成的短语类型。本发明依据中心子节点的思想将越南语的依存结构树转化成短语结构树。中心子节点在依存结构和短语结构中起着非常重要的作用,x-bar理论和管辖约束理论等语言理论认为,在依存结构中非中心子节点以某种依存关系依存于中心子节点,在短语结构中有一个中心子节点决定着这个短语的主要性质,短语中的其他节点都是该中心子节点的修饰子节点。优选地,所述步骤Step3.1中将测试依存结构树转化为短语结构树的转化算法具体说明如表3所示:表3转化算法说明递归算法◆若根节点为叶子节点,则返回根节点并完成转化;◆查找根节点的中心子节点;◆转化以中心子节点为根的子树,并返回该子树的中心子节点headChild;◆对于其他非中心子节点:●转换以非中心子节点为根的子树,并返回该子树的中心子节点non_headChild;●将non_headChild依存于headChild并填入短语结构树。所述步骤Step3中将测试依存结构树转化为短语结构树的举例说明如下:例如,在越南语句子“Conbònhàngoàicánh”中,其依存结构树表示如图3所示,上面标注了每个词的词性及它们之间的依存关系类型。其依存结构树向短语结构树的转化采用上述递归算法,最终转化得到的短语结构树表示如图4所示,上面标注了短语层次及短语类型,此短语类型将在Step4中被用来与利用Step2.1推导得到的短语类型作对比。优选地,所述步骤Step4中短语类型对比的举例说明如下:例如,在越南语句子“Conbònhàngoàicánh”中,由图3可知的词性为名词N,的词性也为名词N,这两个词之间的依存关系类型为定中关系ATT,那么利用表2推导出这两个词构成的短语类型为名词性短语NP;然后利用Step3.1的转化算法将该句子的依存结构树转化为短语结构树;若实际转化得到的短语结构树中这两个词构成的短语类型也为NP,则说明这个越南语句子的依存结构树表示不存在错误;但若实际转化得到的短语结构树中这两个词构成的短语类型不是NP,则说明这个越南语句子的依存结构树表示中最基础的分词与词性标注正确,更上层的依存关系类型标注出错,即和的词性标注正确,但这两个词之间的依存关系类型不是定中关系ATT。具体的实验中:(1)实验数据:本发明的实验数据来自两个方面:1.本发明从借助汉-越双语词对齐语料构建的越南语依存树库中随机抽取了5000个越南语句子,用来构建规则知识库;2.实验测试语料共计3000个越南语句子,用作错误自动检测。如表4所示,这3000个句子最初来自从越南之声广播电台网站上爬取的新闻网页,这些网页经过规则提取、去重、机器标注、人工校对等步骤形成文本语料库,编码方式采用UTF-8,然后使用本实验室的越南语词性标注平台SVM-Tool对得到的越南语句子进行分词与词性标注处理,最后请越南语语言学专家对这些句子进行依存关系标注。表4实验测试语料类别文件数句子数平均句长(词/句)政治2049020.56经济4197721.07军事1035918.35体育1545117.91娱乐3372319.02合计119300019.38(2)评价指标:本发明采用PARSEVAL句法分析评价体系,它是一种国际上通用的评测标准。主要由准确率(LP)、召回率(LR)和F值三个指标,F值综合考虑了准确率和召回率。其定义如下:(3)实验结果:在构建规则知识库时,本发明共抽取了1554个条件,有些条件因频次较低可以被其它条件覆盖,将这部分条件剔除后,最终保留了612个条件,也即在规则知识库中共建立了612条规则,将这612条规则交由越南语语言学专家人工校对,最后证明它们全部正确;利用上面这612条规则,从测试语料中一共自动检测到1214个错误,经过越南语语言学专家判别这1214个错误均是正确的。利用同一规则知识库和同样的测试语料做实验,对比基于统计学的方法、基于规则的方法以及本发明所提方法。实验结果对比如图5所示,其中,每组错误检测中,最左边为基于统计学的方法检测出的结果,中间为基于规则的方法检测出的结果,最右边为本方法检测出的结果,从图中不难看出,对任何一种类型的错误而言,本发明所提方法检测到的错误数量均比其它两种方法多。本发明还分别从准确率、召回率和F值这三个评价指标对比了这三种方法,实验结果对比如图6所示,其中,每组直方图中,最左边为基于统计学的方法的结果,中间为基于规则的方法的结果,最右边为本方法的结果,从图中不难看出,本发明所提方法在准确率、召回率和F值这三个评价指标方面均比其它两种方法高。由此证明本发明所提方法比其它两种方法更有效。(4)结果分析:本发明最后人工辅助分析这些错误的类型及每种错误所占的比例,同中文依存树库错误检测结果一样,发现所有的错误都集中在这三个方面:分词错误、词性标注错误和依存关系标注错误。每类错误又可以详细地分为几个小类。实验结果分析如表5所示。表5实验结果分析由结果分析可知:依存树库中的错误大都集中在兼类词的词性标注错误上,所以应该加大对兼类词词性的分析与处理,以较大程度地提高依存树库的质量。本发明所提方法在检测错误之前已经人工对依存树库校对三遍,目的是控制分词错误和词性标注错误的数量;经过三遍人工校对后,依存树库存在的错误相对会减少,但仍然存在一些人工难以发现的错误,本发明提出将这些错误检测出来对提高依存树库的质量有十分重大的意义。上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。当前第1页1 2 3 
再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1