一种基于中文句法结构的关系挖掘方法

文档序号:6511090阅读:334来源:国知局
一种基于中文句法结构的关系挖掘方法
【专利摘要】本发明公开了一种基于中文句法结构的关系挖掘方法,它包括以下步骤:a.选取种子关系元组集合;b.获取种子元组在中文句法方面的表现形式;c.根据表现形式获取关系挖掘模板;d.把得到的关系挖掘模板用于挖掘,得到新的关系元组;e.对新的关系元组进行“准确化”,获取更精确的关系元组。本发明不依赖于深层次的语言处理技术,也不限制关系关键词的具体表现形式,从而具有更为广泛的应用范围。
【专利说明】一种基于中文句法结构的关系挖掘方法
【技术领域】
[0001]本发明涉及知识库的构建、网络资源的获取、自然语言处理技术(分词、实体识别、句法解析等)领域,具体地说是一种基于中文句法结构的关系挖掘方法。
【背景技术】
[0002]当今时代是一个信息化时代,海量数据使人们面临快速准确地选择相关数据的难题,在这种情况下信息抽取技术出现了。而在信息抽取中关系抽取也称关系挖掘是最受重视的一个领域。
[0003]关系挖掘是指从文本中找出多个实体和能够表示这些实体之间的关系的过程。根据所挖掘的关系类型的不同,关系挖掘可以分为两个主要类别。第一类,针对特定关系类型(如夫妻、总部)进行的挖掘。这类挖掘方法的好处是准确率和召回率高,但是由于在实际情况下总会存在一些关系类型是没有包含在预定义的关系集合中的,因此该类方法不具有良好的拓展性和移植性。第二类,开放的关系挖掘方法。这类方法不对关系的具体类型作任何限制而仅仅定义关系的表现形式。例如:将关系关键词定义为动词,就可以从句子中挖掘出以动词表现出来的关系;当然也可以将关系关键词定义为名词,这样就可以挖掘出以名词为关键词的关系。由于开放式关系挖掘方法中并没有预定义关系种类,可以从不同类型的数据集中找到更多的关系类型和关系元组实例,所以既可以应用于封闭数据集,又可以应用于网络环境中,具有良好的移植性。
[0004]但是简单地把关系关键词定义为动词或者名词都只能找到动词或者名词的关系,应用具有一定的局限性。所以把关系关键词定义为简单的词性组合是不合适的,尤其是对于复杂的中文结构而言。通过对中文语法的观察和统计,发现中文中存在一些典型的句法结构,并且这些句法结构和实体关系之间存在映射。

【发明内容】
`
[0005]本发明的目的是针对现有挖掘技术存在的不足而提供的一种基于中文句法结构的关系挖掘方法。该方法不需要大量的训练集,降低了对训练集的依赖性,并且在挖掘过程中使用语法解析提高了准确率,同时减少了 “无信息”关系元组的出现。
[0006]实现本发明目的的具体技术方案是:
一种基于中文句法结构的关系挖掘方法,该方法包括以下具体步骤:
a、选取种子元组集合;
b、获取种子元组在中文句法上的表现形式,具体包括: i)获取种子元组所在的共现句;
? )把元组共现句交给句法解析器进行句法解析;
iii)根据句法解析结果得到种子元组在中文句法上的表现形式;
C、根据步骤b中iii)的表现形式获取关系挖掘模板,具体包括: i)获取种子元组在句子结构上的所有链接路径;? )从所有链接路径中找出最短路径;
iii)把最短链接路径作为关系挖掘模板,用于关系挖掘过程;
d、把得到的关系挖掘模板用于挖掘,得到新的关系元组,具体包括:
i)获取待挖掘的语料集;
? )对语料集中的句子进行分词、实体识别的自然语言处理;
iii)过滤掉包含实体数小于2的句子,只保留包含2个和2个以上实体的句子;
iv)对保留下的句子进行中文句法解析;
V)根据已得到的关系挖掘模板和句子的中文句法解析结果,得到新的关系元组(如果存在的话);
e、对新的关系元组进行“准确化”,获取更精确的关系元组,具体包括:
i)如果关系关键词是动词,则以该动词为核心进行动词关键词“准确化”;
ii)如果关系关键词是名词,则以该名词为核心进行名词关键词“准确化”。
[0007]所述的种子元组包括实体对和关系关键词。
[0008]所述的关系元组具有和种子元组相同的结构即包含实体对和关系关键词。
`[0009]根据本发明的方法,用户需要获取一个种子元组集合,用来训练;然后利用种子元组获得关系挖掘模板;最后利用挖掘模板对待挖掘语料库进行新关系元组的挖掘并进行“准确化”。这样就得到了根据中文句法结构进行关系挖掘的目的了。
[0010]本发明利用了一些自然语言处理中常用的技术(分词、命名实体识别),同时还使用了句法解析器来对中文句子进行句法解析。这些技术相对于其他更深层次的处理技术,需要的时间和空间更少,更易于处理。
[0011]本发明能够利用中文句法结构得到关系挖掘模板;能够利用关系挖掘模板进行关系挖掘,得到关系元组;能够对关系元组进行“准确化”。本发明不依赖于深层次的语言处理技术,也不限制关系关键词的具体表现形式,从而具有更为广泛的应用范围。
【专利附图】

【附图说明】
[0012]图1为本发明流程图;
图2为本发明获取挖掘模板的流程图;
图3为本发明新关系元祖挖掘流程图;
图4为本发明新关系元组的“准确化”流程图。
【具体实施方式】
[0013]本发明不依赖于深层次的自然语言处理技术,不限制关系关键词的具体表现形式。
[0014]当用户已知一些关系元组后和其对应的共现句集合后,根据中文句法解析器从这些句子中得到关系挖掘模板,再利用这些关系挖掘模板从待挖掘语料中挖掘出新的关系元组,最后还可以对挖掘到的关系元组进行“准确化”从而得到更为精确的元组。
[0015]针对当前实体关系挖掘方法中使用深层语言处理技术带来的问题,本方法仅仅利用浅层语言处理技术就可以取得和它们相当的效果,并且在挖掘过程中不对关系的具体表现形式做任何限制,增加了本方法的适用范围。[0016]下面结合附图对本发明进行详细描述:
参阅图1,本发明首先把种子元组和对应的共现句集合交给句法解析器,从解析结果中得到的用于挖掘过程的关系挖掘模板集合;在得到待挖掘语料后,对其进行简单的处理和过滤后利用挖掘模板进行挖掘;在挖掘过程完成后可以得到新的关系元组;最后对新的关系元组进行“准确化”从而得到最终的关系元组。
[0017]参阅图2,本发明获得挖掘模板的具体过程:首先是步骤SlOl获取用于训练的种子元组;然后步骤sl02获取上步中每个种子元组的多个共现句;步骤sl03会对每个贡献句进行句法解析,得到每个句子的句法表现形式;步骤sl04针对每个句法树得到所有链接种子元组所有元素的所有路径,构成一个路径集合;步骤sl05则从路径集合中抽出针对每个种子元组的最短路径,构成最短路径集合;步骤sl06则把最短路径集合里面的每个路径进行形式化的表示,最终形成挖掘模板集合。
[0018]参阅图3,本发明新关系元祖挖掘的具体过程:步骤s201获取用于挖掘的语料集,这个语料集是用户提供的,可以是封闭的也可以是开放的,从这方面来说本发明不依赖于语料集。步骤s202对语料集中的每个句子进行分词和命名实体识别出来。步骤s203是针对上步得到的结果,过滤掉实体数少于2的句子即只保留包含2个或2个以上实体的句子。这是因为关系挖掘是挖掘实体之间的关系,如果一个句子中只有一个实体或者没有实体,就认为在这个句子中不可能存在关系。步骤s204把保留下来的句子进行句法解析,得到其对应的句法解析树。s205是根据已得到的挖掘模板和句子的句法树进行关系挖掘,更具体地说,如果句法树中可以形成模板集中的一个模板则根据模板的特点就可以挖掘出新关系元组,如果不能形成这样的模板则认为该句子中不存在新的关系元组。步骤s206是把获取到的新关系元组进行存储的过程。
[0019]参阅图4,本发明对新关系元组进行“准确化”的过程:步骤s301是针对关系关键词中的动词成分进行“准确化”,具体地说,当关系关键词中包含动词时,就会把其前后的动词和副词进行合并,直到其前后没有动词和名词。步骤s302是针对关系关键词中的名词成分进行“准确化”,具体地说,当关系关键词中包含名词时,就会把其前后的名词和形容词进行合并,直到其前后没有动词和名词。
【权利要求】
1.一种基于中文句法结构的关系挖掘方法,其特征在于该方法包括以下具体步骤: a、选取种子元组集合; b、获取种子元组在中文句法上的表现形式,具体包括: i)获取种子元组所在的共现句; ? )把元组共现句交给句法解析器进行句法解析; iii)根据句法解析结果得到种子元组在中文句法上的表现形式; C、根据步骤b中iii)的表现形式获取关系挖掘模板,具体包括: i)获取种子元组在句子结构上的所有链接路径; ? )从所有链接路径中找出最短路径; iii)把最短链接路径作为关系挖掘模板,用于关系挖掘过程; d、把得到的关系挖掘模板用于挖掘,得到新的关系元组,具体包括: i)获取待挖掘的语料集; ? )对语料集中的句子进行分词、实体识别的自然语言处理; iii)过滤掉包含的实体数小于2的句子,只保留包含2个和2个以上实体的句子; iv)对保留下的句子进行中文句法解析;V)根据已得到的关系挖掘模板和句子的中文句法解析结果,得到新的关系元组; e、对新的关系元组进行“准确化”,获取更精确的关系元组,具体包括:` i)如果关系关键词是动词,则以该动词为核心进行动词关键词“准确化”; ii)如果关系关键词是名词,则以该名词为核心进行名词关键词“准确化”。
2.根据权利要求1所述的方法,其特征在于所述的种子元组包括实体对和关系关键
ο
3.根据权利要求1所述的方法,其特征在于所述的关系元组具有和种子元组相同的结构即包含实体对和关系关键词。
【文档编号】G06F17/27GK103488624SQ201310411161
【公开日】2014年1月1日 申请日期:2013年9月11日 优先权日:2013年9月11日
【发明者】李付民 申请人:华东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1