一种基于协同神经网络的语义角色标注方法

文档序号:6365064阅读:509来源:国知局
专利名称:一种基于协同神经网络的语义角色标注方法
技术领域
本发明涉及语义角色标注、模式识别和协同神经网络领域,涉及将协同神经网络原理引入到浅层语义分析的方法,尤其涉及一种基于协同神经网络的语义角色标注方法。
背景技术
作为自然语言处理的ー个主要研究方向,语义分析能够将自然语言转化为计算机能够理解的形式化语言,从而做到人与计算机之间的相互理解。对句子进行正确的语义分析,一直是从事自然语言理解研究的学者们追求的主要目标。但受语义的复杂性所限,目前的语义分析主要是集中在角色标注等方面。语义角色标注不对整个句子进行详细的语义分祈,它只标注与句子中谓词有关的成分的语义角色,如施事、受事、与事、时间和地点等。近 年来,语义角色标注受到了越来越多的学者的关注,广泛于应用于信息抽取、信息检索、机器翻译等领域。随着自然语言中底层技术的逐渐成熟,如分词、句法分析等都为语义角色标注的发展打下了重要基础。语义角色标注的基本标注单元主要有词、短语和句法成分。从整体效果看,以句法成分为标注単元的语义角色标注要优于以词和短语为标注単元的方法。语义角色标注一般分为4个步骤。首先,进行预处理,过滤掉不可能成为语义角色的句法成分,预处理的任务即判断成分与目标动词之间是否具有语义角色关系,其可看作是ー个ニ元分类问题;其次,识别出谓词的可能语义角色;接着,为句法成分进行具体角色的分类;最后,进行后处理,得到合理的角色组合。其中,分类问题主要是采用机器学习技术进行处理。目前,主流的语义角色标注研究主要集中于使用各种机器学习技术,利用多种语言学特征,进行了语义角色的识别和分类。在角色分类过程中,无论是采用基于特征向量的方法,还是基于树核函数的方法,目的都是尽可能描述和计算两个对象之间的相似度。根据是否使用相关的角色信息,可以将标注模型分为局部模型和全局模型。目前,多数基于句法成分的语义角色标注系统是采用局部模型,直接对各个句法成分的角色进行分类。局部模型没有考虑到成分角色的依赖关系,各个成分的角色标注过程相互独立。全局模型则在局部推导的基础上,考虑角色间的依赖关系,通过相关约束条件,从而得到较合理的角色组合。全局模型可分为两种(I)在后处理步骤考虑语义角色全局信息,如利用角色间的约束条件,利用贪心策略保留约束的语义角色。(2)在分类的过程中考虑语义角色全局信息,如利用最大熵马尔科夫模型进行序列标注,此方法可得到更多的上下文信息。但会出现标注偏置问题而影响最終的性能。实际上,语义角色的确定依赖于与之同谓词的其它结点的角色,是ー个协同互动、相互制约的ー个过程。如果将这个问题从整体上考虑进而研究一体化的语义标注将有可能取得更好的效果,值得我们深入研究。考虑到同一文本语境中各歧义实体之间通过语义协同互动而最终突显出该语境整体语义的这ー特点,我们可以采用哈肯教授提出的协同神经网络处理语义标注问题。把语义标注过程看成是语境整体语义的形成过程语境中各歧义实体被加入到集合中,它们的不同语义參与竞争,最終具有最強初始支撑的序參量赢得胜利,驱使系统呈现原先缺少的特征,并最终突显出整个语境的整体语义,在此过程中各歧义实体的意义也得以确定。协同神经网络方法的优点之一是有较强的抗噪声和抗缺损能力,因而采用这种方法来实现语义标注将可以较好地处理语义标注时上下文信息不完整的模糊匹配的问题。协同模式识别方法目前已经被成功用在人脸识别、自动控制等领域,语义标注问题本质上也可以考虑为ー个模式识别问题,因此也完全有可能采用此方法加以解決。本发明将协同神经网络用于语义角色标注。中国专利CN101446942公开ー种自然语言句子的语义角色标注方法,采用联合学习模型,同时实现中文句法分析和语义角色标注。通过联合模型的使用,能够同时输出ー个句子的句法分析结果和给定谓词的语义角色标注結果。在联合学习模型中,由于句法分析模型中増加了语义信息,使得训练出来的模型更适合于语 义角色标注任务,因此由此模型输出的语义角色标注性能更高。同时联合模型输出的句法分析结果同单个句法分析模型的结果相比,两者性能不会有很大差别,甚至由于语义信息的加入,还能够提高句法分析的性倉^:。

发明内容
本发明的目的在于针对现有的利用机器学习算法进行的语义角色标注系统所存在的问题和缺点,提供可使语义标注有更高的标注性能的一种基于协同神经网络的语义角色标注方法。本发明包括以下步骤I)从训练语料和测试语料中抽取特征,并构造相应的语义特征向量;2)对语义特征向量进行核变换,并在此基础上构造原型模式和待测试模式;3)构造序參量,对每个依存成分求若干个侯选角色;4)构建谓词库,对每个谓词对应的所有依存成分的候选角色进行组合,得到各个谓词的角色链;5)优化网络參数,进行协同神经网络的动力学演化,从而得到最优角色链,并输出标注模式。在步骤I)中,所述抽取特征包括基本特征和扩展特征,所述基本特征包括谓词及词性、谓词语态、当前关系、路径、关系子类框架、中心词及位置等6类特征;所述扩展特征包括句法路径、句法路径长度、句法部分路径长度、关系路径、关系部分路径、句法部分路径、谓词兄弟的依存关系链、谓词+句法路径、谓词关系、谓词的句法子类框架、谓词+中心词、谓词兄弟的中心词链、中心词词性、中心词+词性、中心词当前关系等15类特征;所述扩展特征加到基本特征中可形成更丰富有效的扩展特征空间。在步骤2)中,所述对语义特征向量进行核变换的具体方法如下采用的混合核函
ηη
数可定义为丨レ,>0 =刀从レ,>0,其中、为系数,且Σ為=1,Mx,y)可根据语义特征组
i i
合的需要选择定义为多项式核函数、高斯核函数、卷积核函数等,通过核函数映射对已有特征进行了组合或者分解,将低维特征空间映射到高维特征空间,降低原型向量之间的相关程度,从而提闻网络的识别率;
所述构造原型模式可采用数学平均值方法构造原型模式,具体步骤为(I)每个类别分别选取若干个有代表性的训练样本;(2)对每个类别分别计算原型模式。与单原型模式的选择算法相比,该算法可有效地提高原型特征向量的可分性。在步骤3)中,所述对每个依存成分求若干个侯选角色的具体步骤包括(I)对原型模式和待测试模式构造序參量;(2)将序參量按大小顺序排序,得到相应的的候选角色。由语义特征所构造的原型向量产生相应的序參量,序參量代表输入模型对原型模式的系数,输入模式与原型模式越接近,系数越大,序參量可视为若干特征相互比较下的综合评价。序參量的构造对于整个网络的识别性能有重要影响;在步骤(I)中,所述构造序參量的方法可采用伪逆法、距离法或内积法,具体步骤如下设原型模式vk(k= 1,2…)、测试模式qi(l = 1,2···)和伴随模式Vi+ (k= 1,2···),则Vk和qi之间的序參量ξ lk为若采用伪逆法,则4, (I = 1,2-, k = 1,2···);若采用距离法,贝Uξ lk = I Ivk-Q1I I,(I = I,2..., k = 1,2...);若采用内积法,则
权利要求
1.一种基于协同神经网络的语义角色标注方法,其特征在于包括以下步骤 1)从训练语料和测试语料中抽取特征,并构造相应的语义特征向量; 2)对语义特征向量进行核变换,并在此基础上构造原型模式和待测试模式; 3)构造序参量,对每个依存成分求若干个侯选角色; 4)构建谓词库,对每个谓词对应的所有依存成分的候选角色进行组合,得到各个谓词的角色链; 5)优化网络参数,进行协同神经网络的动力学演化,从而得到最优角色链,并输出标注模式。
2.如权利要求I所述的一种基于协同神经网络的语义角色标注方法,其特征在于在步骤I)中,所述抽取特征包括基本特征和扩展特征,所述基本特征包括谓词及词性、谓词语态、当前关系、路径、关系子类框架、中心词及位置6类特征;所述扩展特征包括句法路径、句法路径长度、句法部分路径长度、关系路径、关系部分路径、句法部分路径、谓词兄弟的依存关系链、谓词+句法路径、谓词关系、谓词的句法子类框架、谓词+中心词、谓词兄弟的中心词链、中心词词性、中心词+词性、中心词当前关系15类特征。
3.如权利要求I所述的一种基于协同神经网络的语义角色标注方法,其特征在于在步骤2)中,所述对语义特征向量进行核变换的具体方法如下采用的混合核函数定义为
4.如权利要求I所述的一种基于协同神经网络的语义角色标注方法,其特征在于在步骤2)中,所述构造原型模式采用数学平均值方法构造原型模式,具体步骤为 (1)每个类别分别选取若干个有代表性的训练样本; (2)对每个类别分别计算原型模式。
5.如权利要求I所述的一种基于协同神经网络的语义角色标注方法,其特征在于在步骤3)中,所述对每个依存成分求若干个侯选角色的具体步骤包括 (1)对原型模式和待测试模式构造序参量; (2)将序参量按大小顺序排序,得到相应的的候选角色。
6.如权利要求5所述的一种基于协同神经网络的语义角色标注方法,其特征在于在步骤(I)中,所述构造序参量的方法采用伪逆法、距离法或内积法,具体步骤如下 设原型模式vk (k= 1,2···)、测试模式Q1 (I = 1,2···)和伴随模式(k = I, 2···),贝IjVk和%之间的序参量ξ lk为··
7.如权利要求I所述的一种基于协同神经网络的语义角色标注方法,其特征在于在步骤4)中,所述谓词的角色链的获取方法是从每个依存成分各取一个可能角色,通过组合算法构成链。
8.如权利要求I所述的一种基于协同神经网络的语义角色标注方法,其特征在于在步骤5)中,所述优化网络参数的方法采用基于量子微粒群算法的参数优化,将对训练样本的识别率作为适应度,在参数空间中搜索注意参数Uk,B,C)的最优解,Xk(k= 1,2···),B,C为协同神经网络的注意参数。
9.如权利要求I所述的一种基于协同神经网络的语义角色标注方法,其特征在于在步骤5)中,所述进行协同神经网络的动力学演化采用的动力学演化方程为 ik=Uk-BY^k-cfj#k k'^k k'=\ 式中Ik为序参量,λ k(k = 1,2…),B, C为协同神经网络的注意参数。
全文摘要
一种基于协同神经网络的语义角色标注方法,涉及语义角色标注、模式识别和协同神经网络领域,涉及将协同神经网络原理引入到浅层语义分析的方法。从训练语料和测试语料中抽取特征,并构造相应的语义特征向量;对语义特征向量进行核变换,并在此基础上构造原型模式和待测试模式;构造序参量,对每个依存成分求若干个侯选角色;构建谓词库,对每个谓词对应的所有依存成分的候选角色进行组合,得到各个谓词的角色链;优化网络参数,进行协同神经网络的动力学演化,从而得到最优角色链,并输出标注模式。首次将协同神经网络原理引入到语义角色标注中,该方法广泛适应于各种自然语言处理任务中。具有较好的应用前景和应用价值。
文档编号G06F17/30GK102662931SQ20121011155
公开日2012年9月12日 申请日期2012年4月13日 优先权日2012年4月13日
发明者史晓东, 周昌乐, 陈毅东, 黄哲煌 申请人:厦门大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1