一种对名词短语进行依存句法分析的方法及系统的制作方法

文档序号:6640427阅读:327来源:国知局
一种对名词短语进行依存句法分析的方法及系统的制作方法
【专利摘要】本发明涉及一种对名词短语进行依存句法分析的方法及系统,其方法包括:步骤1:基于语料数据库对权值向量和SVM分类器进行训练,得到稳定的权值向量和稳定SVM分类器;步骤2:接收待分析的短语进行预处理,得到至少两个规定格式的词语;步骤3:对所有词语进行分析处理,得到依存句法分析树。可以将该方法分解为两个步骤,即首先识别出句中的复杂名词短语,并利用本方法进行依存句法分析;然后用得到的子结构置换原句中的复杂名词短语,从而降低句子的复杂性。由于本算法是简单边优先算法的改进,保持了该算法高效的优点。针对名词短语长度较短,特征不够明显的特点,引进了SVM分类器用于依存关系方向的确定,保证了算法的有效性。
【专利说明】一种对名词短语进行依存句法分析的方法及系统

【技术领域】
[0001] 本发明涉及一种对名词短语进行依存句法分析的方法及系统,属于语言处理技术 领域。

【背景技术】
[0002] 依存句法分析最近几年在自然语言处理领域如信息抽取和机器翻译等领域受到 越来越多的关注。理论上,它植根于依存语法,关注的是词语之间的句法依存关系。
[0003] 对于名词短语语义结构研宄,目前主要集中在NN名词短语的语义解释上,主要任 务是自动获取修饰语和中心词之间隐含的语义关系。一般有两种策略:
[0004] 自上而下的策略(top-down strategy),这种方法首先定义好一组关系集合,然后 为每个名词短语分配适当的关系。
[0005] 自下而上的策略(bottom-up strategy),这种方法不定义名名关系,而是通过大 规模的语料去发现词语组合时隐含的语义关系,一般选择包含相关动词的释义语句来解释 名名关系。
[0006] 依存句法分析一直是自然语言处理领域的热点和难点问题之一,近年来受到了越 来越多的关注。CONLL国际会议已连续多年将依存句法分析评测列入其共享任务。目前主 流的依存句法分析算法可以归为三类:基于转换的句法分析方法、基于图的句法分析方法 和同时基于图与转换的句法分析方法。
[0007] 基于转换的依存句法分析方法自左向右扫描输入的对象,利用局部特征逐步完成 对象依存关系的获取。该方法速度快,却是局部最优的,即在分析的过程中它能很好地应用 待分析节点的左边特征以及历史分析所得到的特征,却无法充分利用右侧文本特征:一般 只能用到右边一到两个词距离范围内的特征。这也直接导致其错误传播和准确率的下降。
[0008] 基于图的依存句法分析方法对一个句子所有可能的依存句法分析树进行分析并 分别给予相应的分值,取分值最高者为依存句法分析树的边。该方法能充分利用全局特征 从而达到全局最优,然而因计算的时间复杂度太高(0(π31 Ogn))而影响了分析的效率。
[0009] 结合以上两种方法即得到同时基于转换和图的方法。这种方法能结合以上两种方 法的优点,并已经得到了广泛应用。此外针对中文的依存句法分析,目前已经提出了基于最 大熵的依存句法分析、基于词汇支配度的中文依存句法分析等等。
[0010] Yoav等结合两种思想,提出了计算复杂度为0(n21 ogn)的简单边优先算法,图4 为简单边算法的测试结果。并证明该算法对完整句子进行依存句法分析结果的准确率接近 最大生成树算法。


【发明内容】

[0011] 本发明所要解决的技术问题是,基于传统的依存句法分析算法多着眼于整句的分 析,导致当遇到结构比较复杂的句子时,分析的准确率的不到保证的不足;提供一种结合基 于转换的方法和图的方法,在简单边优先算法的基础上进行改进的对名词短语进行依存句 法分析的方法及系统。使该算法能较好地应用于中文复杂名词短语的依存句法分析。
[0012] 本发明解决上述技术问题的技术方案如下:一种对名词短语进行依存句法分析的 方法,具体包括以下步骤:
[0013] 步骤1 :基于语料数据库对权值向量和SVM分类器进行训练,得到稳定的权值向量 和稳定SVM分类器;
[0014] 步骤2 :接收待分析的短语进行预处理,得到至少两个规定格式的词语;
[0015] 步骤3 :对所有词语进行分析处理,得到依存句法分析树。
[0016] 本发明的有益效果是:本方法可以分解为两个步骤,即首先识别出句中的复杂名 词短语,并利用本方法进行依存句法分析;然后用得到的子结构置换原句中的复杂名词短 语,从而降低句子的复杂性。由于本算法是简单边优先算法的改进,保持了该算法高效的优 点。同时,针对名词短语长度较短,特征不够明显的特点,引进了 SVM分类器用于依存关系 方向的确定,保证了算法的有效性。
[0017] 在上述技术方案的基础上,本发明还可以做如下改进。
[0018] 进一步,所述步骤1具体包括以下步骤:
[0019] 步骤1. 1 :对语料数据库中的已知依存关系的短语进行标注,得到训练语料;
[0020] 步骤I. 2 :SVM分类器调用SVM自带的训练函数,基于训练语料完成训练,得到稳定 SVM分类器;
[0021] 步骤1. 3 :基于训练函数采用判别式的算法对初始值为零的权值向量进行迭代, 直到权值向量稳定,得到稳定权值向量。
[0022] 进一步,所述步骤2具体包括以下步骤:
[0023] 步骤2. 1 :接收待待分析的短语,将所述短语进行分词;
[0024] 步骤2. 2 :对所有词语进行词性标注,得到至少两个规定格式的词语。
[0025] 进一步,所述步骤3具体包括以下步骤:
[0026] 步骤3. 1 :基于权值向量对所有词语匹配出其最具依赖关系的一个词语,每两个 具有依赖关系的词语构成一个子树;
[0027] 步骤3. 2 :合并子树使子树数量变少,直到数量减少到一,构成依存句法分析树。
[0028] 进一步,所述步骤3. 2具体包括以下步骤:
[0029] 步骤3. 2. 1 :基于权值向量对所有子树匹配出最具依赖关系的一个子树,每两个 最具依赖关系的子树构成一个子树对;
[0030] 步骤3. 2. 2 :基于SVM分类器确定子树对之间的依赖关系方向;并按照依赖关系方 向合并子树对为一个子树;
[0031] 步骤3. 2. 3 :判断当前子树数量是否为一,如果是,执行步骤3. 2. 4 ;否则,执行步 骤 3. 2. 1 ;
[0032] 步骤3. 2. 4 :当前子树构成依存句法分析树。
[0033] 本发明解决上述技术问题的技术方案如下:一种对名词短语进行依存句法分析的 系统,包括训练模块、预处理模块和分析模块;
[0034] 所述训练模块用于基于语料数据库对权值向量和SVM分类器进行训练,得到稳定 的权值向量和稳定SVM分类器;
[0035] 所述预处理模块用于接收待分析的短语进行预处理,得到至少两个规定格式的词 语;
[0036] 所述分析模块用于对所有词语进行分析处理,得到依存句法分析树。
[0037] 本发明的有益效果是:本系统首先识别出句中的复杂名词短语,并利用本方法进 行依存句法分析;然后用得到的子结构置换原句中的复杂名词短语,从而降低句子的复杂 性。由于本系统是简单边优先算法的改进,保持了该算法高效的优点。同时,针对名词短语 长度较短,特征不够明显的特点,引进了 SVM分类器用于依存关系方向的确定,保证了有效 性。
[0038] 在上述技术方案的基础上,本发明还可以做如下改进。
[0039] 进一步,所述训练模块包括语料模块、SVM训练模块和向量训练模块;
[0040] 所述语料模块用于对语料数据库中的已知依存关系的短语进行标注,得到训练语 料;
[0041] 所述SVM训练模块用于使SVM分类器调用SVM自带的训练函数,基于训练语料完 成训练,得到稳定SVM分类器;
[0042] 所述向量训练模块基于训练函数采用判别式的算法对初始值为零的权值向量进 行迭代,直到权值向量稳定,得到稳定权值向量。
[0043] 进一步,所述预处理模块包括接收模块和标注模块;
[0044] 所述接收模块用于接收待待分析的短语,将所述短语进行分词;
[0045] 所述标注模块用于对所有词语进行词性标注,得到至少两个规定格式的词语。
[0046] 进一步,所述分析模块包括子树构建模块和合并模块;
[0047] 所述子树构建模块基于权值向量对所有词语匹配出其最具依赖关系的一个词语, 每两个具有依赖关系的词语构成一个子树;
[0048] 所述合并模块用于合并子树使子树数量变少,直到数量减少到一,构成依存句法 分析树。
[0049] 进一步,所述合并模块包括子树对模块、子树合并模块和判断模块;
[0050] 所述子树对模块基于权值向量对所有子树匹配出最具依赖关系的一个子树,每两 个最具依赖关系的子树构成一个子树对;
[0051] 所述子树合并模块基于SVM分类器确定子树对之间的依赖关系方向;并按照依赖 关系方向合并子树对为一个子树;
[0052] 所述判断模块用于判断当前子树数量是否为一,如果是,当前子树构成依存句法 分析树;否则,触发子树对模块。
[0053] 依存句法分析的方法主要是利用统计的方法,利用名词短语中词语的词、词性以 及上下文特征,确定词与词之间的依存关系。通过训练得到的特征向量和权值向量可以确 定哪两个词之间存在依存关系;利用SVM可以确定该依存关系的方向,即将上一步的到的 无向边转换为有向边。最终得到以一个词为树根的句法分析树。

【专利附图】

【附图说明】
[0054] 图1为本发明所述的一种对名词短语进行依存句法分析的方法流程图;
[0055] 图2为本发明所述的一种对名词短语进行依存句法分析的系统结构框图;
[0056] 图3为应用本发明所述的方法对具体短语进行具体分析的过程图;
[0057] 图4为现有技术中简单边算法的测试结果图;
[0058] 图5为本发明的测试结果图。
[0059] 附图中,各标号所代表的部件列表如下:
[0060] 1、训练模块,2、预处理模块,3、分析模块,11、语料模块,12、SVM训练模块,13、向量 训练模块,21、接收模块,22、标注模块,31、子树构建模块,32、合并模块。

【具体实施方式】
[0061] 以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并 非用于限定本发明的范围。
[0062] 如图1所示,为本发明所述的一种对名词短语进行依存句法分析的方法,具体包 括以下步骤:
[0063] 步骤1 :对语料数据库中的已知依存关系的短语进行标注,得到训练语料;
[0064] 步骤2 :SVM分类器调用SVM自带的训练函数,基于训练语料完成训练,得到稳定 SVM分类器;
[0065] 步骤3 :基于训练函数采用判别式的算法对初始值为零的权值向量进行迭代,直 到权值向量稳定,得到稳定权值向量;
[0066] 步骤4 :接收待待分析的短语,将所述短语进行分词;
[0067] 步骤5 :对所有词语进行词性标注,得到至少两个规定格式的词语;
[0068] 步骤6 :基于权值向量对所有词语匹配出其最具依赖关系的一个词语,每两个具 有依赖关系的词语构成一个子树;
[0069] 步骤7 :基于权值向量对所有子树匹配出最具依赖关系的一个子树,每两个最具 依赖关系的子树构成一个子树对;
[0070] 步骤8:基于SVM分类器确定子树对之间的依赖关系方向;并按照依赖关系方向合 并子树对为一个子树;
[0071] 步骤9 :判断当前子树数量是否为一,如果是,执行步骤10 ;否则,执行步骤7 ;
[0072] 步骤10 :当前子树构成依存句法分析树。
[0073] 如图3所示,为应用本发明所述的一种对名词短语进行依存句法分析的方法的具 体分析过程图,具体为对短语"小狐狸欢快的跳"的分析过程。
[0074] 如图2所示,为本发明所述的一种对名词短语进行依存句法分析的系统,包括训 练模块1、预处理模块2和分析模块3 ;
[0075] 所述训练模块1用于基于语料数据库对权值向量和SVM分类器进行训练,得到稳 定的权值向量和稳定SVM分类器;
[0076] 所述预处理模块2用于接收待分析的短语进行预处理,得到至少两个规定格式的 词语;
[0077] 所述分析模块3用于对所有词语进行分析处理,得到依存句法分析树。
[0078] 所述训练模块1包括语料模块11、SVM训练模块12和向量训练模块13 ;
[0079] 所述语料模块11用于对语料数据库中的已知依存关系的短语进行标注,得到训 练语料;
[0080] 所述SVM训练模块12用于使SVM分类器调用SVM自带的训练函数,基于训练语料 完成训练,得到稳定SVM分类器;
[0081] 所述向量训练模块13基于训练函数采用判别式的算法对初始值为零的权值向量 进行迭代,直到权值向量稳定,得到稳定权值向量。
[0082] 所述预处理模块2包括接收模块21和标注模块22 ;
[0083] 所述接收模块21用于接收待待分析的短语,将所述短语进行分词;
[0084] 所述标注模块22用于对所有词语进行词性标注,得到至少两个规定格式的词语。
[0085] 所述分析模块3包括子树构建模块31和合并模块32 ;
[0086] 所述子树构建模块31基于权值向量对所有词语匹配出其最具依赖关系的一个词 语,每两个具有依赖关系的词语构成一个子树;
[0087] 所述合并模块32用于合并子树使子树数量变少,直到数量减少到一,构成依存句 法分析树。
[0088] 所述合并模块32包括子树对模块、子树合并模块和判断模块;
[0089] 所述子树对模块基于权值向量对所有子树匹配出最具依赖关系的一个子树,每两 个最具依赖关系的子树构成一个子树对;
[0090] 所述子树合并模块基于SVM分类器确定子树对之间的依赖关系方向;并按照依赖 关系方向合并子树对为一个子树;
[0091] 所述判断模块用于判断当前子树数量是否为一,如果是,当前子树构成依存句法 分析树;否则,触发子树对模块。
[0092] 实现本发明目的的研宄路线是:
[0093] 1.分析已有的算法,重点关注简单边优先算法应用于中文复杂名词短语的效果;
[0094] 2.针对该算法的不足,针对性的做出改进;
[0095] 3.将SVM引入依赖关系的识别,形成完整的方法,并用语料进行测试。
[0096] 实现本发明目的的关键技术有:
[0097] 1.子树:复杂名词短语的下级结构,即由位置上邻接的词语之间构成的子结构, 以树根所代表的词为该部分的中心词,子树包含了大量的特征信息;
[0098] 本发明分析用到的子树特征如表1所示,
[0099]

【权利要求】
1. 一种对名词短语进行依存句法分析的方法,其特征在于,具体包括以下步骤: 步骤1 :基于语料数据库对权值向量和SVM分类器进行训练,得到稳定的权值向量和稳 定SVM分类器; 步骤2 :接收待分析的短语进行预处理,得到至少两个规定格式的词语; 步骤3 :对所有词语进行分析处理,得到依存句法分析树。
2. 根据权利要求1所述的一种对名词短语进行依存句法分析的方法,其特征在于,所 述步骤1具体包括以下步骤: 步骤1. 1 :对语料数据库中的已知依存关系的短语进行标注,得到训练语料; 步骤1. 2 :SVM分类器调用SVM自带的训练函数,基于训练语料完成训练,得到稳定SVM 分类器; 步骤1. 3 :基于训练函数采用判别式的算法对初始值为零的权值向量进行迭代,直到 权值向量稳定,得到稳定权值向量。
3. 根据权利要求1所述的一种对名词短语进行依存句法分析的方法,其特征在于,所 述步骤2具体包括以下步骤: 步骤2. 1 :接收待待分析的短语,将所述短语进行分词; 步骤2. 2 :对所有词语进行词性标注,得到至少两个规定格式的词语。
4. 根据权利要求1-3任一项所述的一种对名词短语进行依存句法分析的方法,其特征 在于,所述步骤3具体包括以下步骤: 步骤3. 1 :基于权值向量对所有词语匹配出其最具依赖关系的一个词语,每两个具有 依赖关系的词语构成一个子树; 步骤3. 2 :合并子树使子树数量变少,直到数量减少到一,构成依存句法分析树。
5. 根据权利要求4所述的一种对名词短语进行依存句法分析的方法,其特征在于,所 述步骤3. 2具体包括以下步骤: 步骤3. 2. 1 :基于权值向量对所有子树匹配出最具依赖关系的一个子树,每两个最具 依赖关系的子树构成一个子树对; 步骤3. 2. 2 :基于SVM分类器确定子树对之间的依赖关系方向;并按照依赖关系方向合 并子树对为一个子树; 步骤3. 2. 3 :判断当前子树数量是否为一,如果是,执行步骤3. 2. 4 ;否则,执行步骤 3. 2. 1; 步骤3. 2. 4 :当前子树构成依存句法分析树。
6. -种对名词短语进行依存句法分析的系统,其特征在于,包括训练模块、预处理模块 和分析模块; 所述训练模块用于基于语料数据库对权值向量和SVM分类器进行训练,得到稳定的权 值向量和稳定SVM分类器; 所述预处理模块用于接收待分析的短语进行预处理,得到至少两个规定格式的词语; 所述分析模块用于对所有词语进行分析处理,得到依存句法分析树。
7. 根据权利要求6所述的一种对名词短语进行依存句法分析的系统,其特征在于,所 述训练模块包括语料模块、SVM训练模块和向量训练模块; 所述语料模块用于对语料数据库中的已知依存关系的短语进行标注,得到训练语料; 所述SVM训练模块用于使SVM分类器调用SVM自带的训练函数,基于训练语料完成训 练,得到稳定SVM分类器; 所述向量训练模块基于训练函数采用判别式的算法对初始值为零的权值向量进行迭 代,直到权值向量稳定,得到稳定权值向量。
8. 根据权利要求6所述的一种对名词短语进行依存句法分析的系统,其特征在于,所 述预处理模块包括接收模块和标注模块; 所述接收模块用于接收待待分析的短语,将所述短语进行分词; 所述标注模块用于对所有词语进行词性标注,得到至少两个规定格式的词语。
9. 根据权利要求6-8任一项所述的一种对名词短语进行依存句法分析的系统,其特征 在于,所述分析模块包括子树构建模块和合并模块; 所述子树构建模块基于权值向量对所有词语匹配出其最具依赖关系的一个词语,每两 个具有依赖关系的词语构成一个子树; 所述合并模块用于合并子树使子树数量变少,直到数量减少到一,构成依存句法分析 树。
10. 根据权利要求9所述的一种对名词短语进行依存句法分析的系统,其特征在于,所 述合并模块包括子树对模块、子树合并模块和判断模块; 所述子树对模块基于权值向量对所有子树匹配出最具依赖关系的一个子树,每两个最 具依赖关系的子树构成一个子树对; 所述子树合并模块基于SVM分类器确定子树对之间的依赖关系方向;并按照依赖关系 方向合并子树对为一个子树; 所述判断模块用于判断当前子树数量是否为一,如果是,当前子树构成依存句法分析 树;否则,触发子树对模块。
【文档编号】G06F17/30GK104516874SQ201410837967
【公开日】2015年4月15日 申请日期:2014年12月29日 优先权日:2014年12月29日
【发明者】滕顺祥, 陈永波, 姬东鸿, 白旭 申请人:北京牡丹电子集团有限责任公司数字电视技术中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1