一种汉语句子功能成分分析方法与流程

文档序号:12666051阅读:532来源:国知局
一种汉语句子功能成分分析方法与流程

本发明涉及汉语句子功能成分分析方法,涉及机器翻译技术领域。



背景技术:

句法分析是自然语言处理的一个关键问题,目前达到的效果不尽如人意,处在一个瓶颈的状态下。在现在的研究中句法分析仍然是一个热点话题,原因在于句法分析处于整个自然语言处理任务中的过渡位置,很多其他自然语言处理任务都可以使用该结果,有很多研究都利用到了这部分分析内容,而且不管是上层结构还是下层结构都是可以应用该结果的,主要的句法分析方法可以分为两类,一类是浅层句法分析,也就是语块分析,不再以词为单元处理,而是以语块为基本单元进行处理,在这类分析中分为直接产生一个新型层序结果的分析方法,也有将不同语块再次进行分析的方法,以语块为单元进行句法分析,而忽略语块内结构的信息,产生出的结果仍然是一棵部分句法分析树;另一类是完全句法分析,在这里的处理单元则是句子中的每个词,产生的是一棵完全句法树,而这种句法分析任务也可以被划分为短语结构的句法树分析和依存结构句法树分析,在短语结构句法分析中,将基本句子单元词通过其在短语中的形式和关系,逐渐分层次建立的一棵完整的具有短语层次结构的句法树,类似的,在有依存句法分析中,根据依存语法的定义,通过模型建立出的是将词语之间依存关系建立出来的一棵具有依存关系的完整句法树。

但是,这些研究中都没有将句子中具有的功能信息考虑到其中,短语结构句法分析考虑的是短语层次的信息,而依存句法分析中考虑的是词语之间的依存关系,这些都没有体现词或词集合在句子中呈现出的作用(比如主谓宾等),清华大学的周强等人第一次提出了相类似的概念,他们把功能成分提取任务转化为一种语块分析任务,与之前短语语块不同的是标签为句子的功能成分,并且在CIPS-2009的任务中发布了相关任务,然而在之后的几年里,相关的研究基本处于停滞阶段,只有在2011年有一篇和该任务相关的文章发表在中文信息学报中。

句子功能成分在许多实际问题中都有很重要的意义,例如在机器翻译的词对齐任务中,利用句子功能成分信息,我们可以加快词对齐速度和准确率,即让相同成分的词进行相对应,这样的方法既简便,又符合语言学上的规则;类似地,在依存句法分析中,我们可以利用句子功能成分信息作为限定条件在柱搜索的过程中将不合法的路径直接删掉,从而提高搜索的速度,同样地,这样的规则也具有简便易行的优点;在语义分析上的研究。更为重要的是在整个自然语言处理任务中,它可以作为句法分析和语义分析的一个过渡任务,从粒度上看,它高于句法分析而低于语义分析,该任务获得较好的效果会对这两个任务都会有提高作用,从之前的介绍可以看出这种研究有很重要的应用前景,值得对这一方向进行关注。

但是现有的相关研究还是处于十分初级的阶段,并没有很多的工作可以借鉴,主要的分析方法还是周强等人的功能语块分析,然而这些方法还有很多缺陷。首先,汉语功能树库的数据量并不是十分多,同时有人工利用规则转换成的成分树库存在一定的准确性问题,而且之后并没有数据的更新;其次,不论是周强等人还是陈亿的研究都仅仅针对汉语句子标注出其功能语块,产生一个单层线性结构的结果而并非是一个层次结构,目的是为了服务于句法分析树的构建;另外,从具体研究任务上来说,目前还没有专门对汉语句子的功能成分有相关研究的开展。因此,我们提出汉语功能成分分析基线模型以及基于移进归约动作转移的分析方法。从上述的工作贡献和工作意义上看,我们的工作是有很好的背景意义的。



技术实现要素:

本发明的目的是为了解决现有技术没有考虑汉语句子的功能成分的问题,而提出一种汉语句子功能成分分析方法。

一种汉语句子功能成分分析方法具体过程为:

步骤一、对训练语料进行处理,其中训练语料采用CTB5.0,通过正则匹配的方式对CTB5.0进行转化,转化成带有功能成分标签的形式,对带有功能成分标签形式的句子进行修正,得到修正后的语料;将进行修正后的语料转化成基于字粒度的形式,作为训练数据A;

CTB5.0为汉语宾州树库;

步骤二、将整个功能成分分析过程考虑成一系列状态转移的过程,得到句法功能成分分析器,将训练数据A输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型C;

步骤三、根据汉语句子功能成分分析模型C对纯汉语文本数据进行处理,得到带有功能成分标签的句子,对带有功能成分标签的句子进行修正,得到修正后的语料;将进行修正后的语料转化成基于字粒度的形式,作为训练数据B,将训练数据A与训练数据B相结合作为最终的训练数据;

步骤四、将最终的训练数据输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型D,采用汉语句子功能成分分析模型D对待测试汉语句子进行测试,得到测试结果。

本发明的有益效果为:

本发明采用一种汉语句子功能成分分析方法,将整个功能成分分析过程考虑成一系列状态转移的过程,得到句法功能成分分析器,训练语料一部分采用CTB5.0(汉语宾州树库),另外一部分采用纯汉语文本数据进行一系列处理后的结果,使用句法功能成分分析器对训练语料进行训练,得到功能成分分析模型,采用汉语句子功能成分分析模型对待测试汉语句子(500个句子)进行测试,得到较高的精确率、召回率、F值。

如表1所示本发明在对500句汉语句子进行测试时整个句法功能成分树的精确率为97.38%,召回率为97.79%,F值为90.90%。

附图说明

图1为整个句法功能成分分析的方法框架图;

图2为以树状图展示了对一个汉语句子进行功能成分分析的结果图,其中,[SBJ]为主语,[PRE]为谓语,[OBJ]为宾语,[ADV]为状语,[ADJ]为修饰语,[HEAD]为中心语,IP为句子,NP为名词性短语,VP为动词性短语,ADVP为副词短语,PP为介词短语,CP为补充短语,ADJP为修饰短语,QP为数量短语,PN为代词,AD为副词,VV为动作性动词,VA为形容词性动词,JJ为形容词,NN为名词,AS为助动词,P为介词,CD为数量词,OD为带有顺序的数量词,DEC为的,CC为连词,PU为标点符号。

具体实施方式

具体实施方式一:本实施方式的一种汉语句子功能成分分析方法具体过程为:

步骤一、对训练语料进行处理,其中训练语料采用CTB5.0(汉语宾州树库),CTB5.0语料本身是句法分析的结果通过正则匹配的方式对CTB5.0进行转化,转化成带有功能成分标签的形式,对带有功能成分标签形式的句子进行修正,得到修正后的语料;将进行修正后的语料转化成基于字粒度的形式,作为训练数据A;

步骤二、将基于转移的句法分析方法()应用到功能成分分析中,将整个功能成分分析过程考虑成一系列状态转移的过程,得到句法功能成分分析器,将训练数据A输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型C;如图1;

步骤三、根据汉语句子功能成分分析模型C对纯汉语文本数据(不包括字母、英文)(人民网获取的关于新闻、社论的10000句)进行处理,得到带有功能成分标签的句子,对普遍存在的错误进行修正,对带有功能成分标签的句子进行修正,得到修正后的语料;将进行修正后的语料转化成基于字粒度的形式,作为训练数据B,将训练数据A与训练数据B相结合作为最终的训练数据;

步骤四、将最终的训练数据输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型D,采用汉语句子功能成分分析模型D对待测试汉语句子(500个句子)进行测试,得到测试结果。

具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一中对训练语料进行处理,其中训练语料采用CTB5.0(汉语宾州树库),CTB5.0语料本身是句法分析的结果,通过正则匹配的方式对CTB5.0进行转化,转化成带有功能成分标签的形式,对带有功能成分标签形式的句子进行修正,得到修正后的语料;将进行修正后的语料转化成基于字粒度的形式,作为训练数据A;具体过程为:

对训练语料进行处理,其中训练语料采用CTB5.0(汉语宾州树库),CTB5.0语料本身是句法分析的结果,通过正则匹配的方式对CTB5.0进行转化,转化成带有功能成分标签的形式,功能成分标签包括句子的主语、谓语、宾语、状语、定语、补语、中心语功能成分,以及句子的从属结构;对带有功能成分标签形式的句子中功能成分标签标错或漏标的进行修正,得到修正后的语料;

将修正后的语料内部汉字之间添加方向信息,生成汉字粒度的句法树,即为句法树中每个结点增加方向信息,作为训练数据A。

方向有三种:左(l)、右(r)、并列(c),分别表示两个子结点中表示核心语义的结点为左子结点、右子结点、以及两个子结点的地位相同的情形。比如,单词:科学,左子结点是科,右结点是学,他们是并列关系,这里的标注的是单纯内补,这种关系,不是句子;

即使用单词内部汉字之间的结构信息指导句法分析以及生成汉字粒度的句法树,我们对单词内部汉字之间的关系进行标注,为每个结点增加了“方向”信息。

其它步骤及参数与具体实施方式一相同。

具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述步骤二中句法功能成分分析器的分析过程为;

数据A里面的每一个句子一次进入队列,将整个功能成分分析过程考虑成一系列状态转移的过程,每个状态由一个栈和一个队列组成,栈中保存着已经生成的句法功能成分树片段(一个句法功能成分树中的一部分),队列中保存着尚未处理的汉字;

初始状态下,栈为空,队列中元素的个数与句子中汉字的个数相同;

每个状态转移的动作根据平均感知器在预先定义好的动作集合中选择,

定义好的动作集合为移进-分裂、移进-附着、归约-一元、归约-二元、归约-单词、归约-子单词、停顿、终结,平均感知器通过计算当前状态下每个动作的得分,采用柱搜索策略进行选择;

平均感知器通过计算当前状态下每个动作的得分为特征向量与平均感知器的权值向量的点积,特征向量为根据定义好的特征模板对待检测汉语句子进行特征向量提取得到的,通用的结构特征模板如下:

与汉字相关的结构特征模板如下:

句法功能成分分析器执行移进-分裂动作时使用的字符串特征如下

句法功能成分分析器执行移进-附着动作时使用的字符串特征如下

z-1.z0 z-1.z0.t-1 z0.y-1 start(ω-1).z0.t-1

句法功能成分分析器执行归约-单词动作时使用的字符串特征如下

终止状态下,队列为空,栈中只有唯一的IP,IP为句法功能成分树的根节点,在训练终止后得到汉语句子功能成分分析模型C,解码终止后得到一棵完整的句法功能成分树,如图2。

整个汉语句子功能成分分析过程主要包括训练语料库的处理、训练程序的编写、训练模型的参数选择。训练语料库的处理即纠正语料库中本身存在的分析标注错误以及将语料库转化成基于字粒度信息的形式。训练程序的关键部分是特征提取以及平均感知器实现。训练模型的参数选择主要包括迭代轮数。

平均感知器即在某一状态下对动作的决策分类,采用的是平均感知器原理,平均感知器策略在一定程度上可以避免过拟合的发生。设迭代总轮数为T,每轮迭代的索引为t,其中0<t<T+1,语料库中的句子总数为N,句子的索引为n,其中0<n<N+1。设第t轮迭代时,处理了第n句之后,模型的权值为wt,n,则传统的平均感知器算法训练得到的模型的权值为wT,N

此权值可以使得模型在训练集上取得较高的预测精度,但是容易造成过拟合现象,使得模型在测试集上的预测精度不高。平均感知器策略为了防止过拟合,并不使用wT,N作为最终权值,而是使用作为模型的权值。平均感知器算法如下所示

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:所述步骤三中根据汉语句子功能成分分析模型C对数据(纯汉语文本)(人民网获取的关于新闻、社论的10000句)进行功能成分分析,得到带有功能成分标签的句子,对普遍存在的错误进行修正,对带有功能成分标签的句子进行修正,得到修正后的语料;将修正后的语料转化成基于字粒度的形式,作为训练数据B,将训练数据A与训练数据B相结合作为最终的训练数据;具体过程为:

根据汉语句子功能成分分析模型C对数据(纯汉语文本)(人民网获取的关于新闻、社论的10000句)进行功能成分分析,得到带有功能成分标签的句子,对普遍存在的错误进行修正,功能成分标签包括句子的主语、谓语、宾语、状语、定语、补语、中心语功能成分,以及句子的从属结构;对功能成分标签中功能成分标错或漏标的进行修正,得到修正后的语料;

将修正后的语料内部汉字之间添加方向信息,生成汉字粒度的句法树,即为句法树中每个结点增加方向信息,作为训练数据B;

方向有三种:左(l)、右(r)、并列(c),分别表示两个子结点中表示核心语义的结点为左子结点、右子结点、以及两个子结点的地位相同的情形。

即使用单词内部汉字之间的结构信息指导句法分析以及生成汉字粒度的句法树,我们对单词内部汉字之间的关系进行标注,为每个结点增加了“方向”信息。

将训练数据A与训练数据B相加作为最终的训练数据。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五:本实施方式与具体实施方式一至四之一不同的是:所述步骤四中将最终的训练数据输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型D,采用汉语句子功能成分分析模型D对待测试汉语句子(500个句子)进行测试,得到测试结果;具体过程为:

将整个功能成分分析过程考虑成一系列状态转移的过程,得到句法功能成分分析器,将最终的训练数据输入句法功能成分分析器进行训练的具体为:

每个状态由一个栈和一个队列组成,栈中保存着已经生成的句法功能成分树片段(一个句法功能成分树中的一部分),队列中保存着尚未处理的汉字;

初始状态下,栈为空,队列中元素的个数与句子中汉字的个数相同;

每个状态转移的动作根据平均感知器在预先定义好的动作集合中选择,定义好的动作集合为移进-分裂、移进-附着、归约一元、归约-二元、归约-单词、归约-子单词、停顿、终结,平均感知器通过计算当前状态下每个动作的得分,采用柱搜索策略进行选择;

终止状态下,队列为空,栈中只有唯一的IP,IP为句法功能成分树的根节点,在训练终止后得到汉语句子功能成分分析模型D,解码终止后得到一棵完整的句法功能成分树。

其它步骤及参数与具体实施方式一至四之一相同。

采用以下实施例验证本发明的有益效果:

实施例一:

本实施例一种汉语句子功能成分分析方法具体是按照以下步骤制备的:

(1)训练语料

CTB(宾州树库)13000余句以及人民网获取的关于新闻、社论的10000句;将其处理成字粒度的形式。

(2)训练过程

使用CTB语料训练出初始模型1;使用初始模型1对10000条新句进行parse,得到句法功能成分结果,也作为训练语料;结合两部分训练语料,再次训练模型2。

(3)测试集

随机抽取不同于训练语料的500个句子,经过训练好的模型parse后,进行人工校对,保证测试集的准确性。

在校正后的500句测试集上的实验结果如下表所示:

F=2P*Q/(P+Q)。

本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1