藏语实体知识信息抽取方法

文档序号:6551940阅读:213来源:国知局
藏语实体知识信息抽取方法
【专利摘要】本发明涉及一种藏语实体知识信息抽取方法,所述方法包括:从藏汉文本语料信息中,抽取藏汉可比语料信息;从所述藏汉可比语料信息中,抽取出实体等价对;从所述实体等价对中,抽取出藏汉跨语言实体关系;从所述的藏汉跨语言实体关系中,抽取出藏语“实体-属性-值”三元组;将所述三元组存储到藏语实体知识语义资源库。本发明在一定程度上解决了藏语训练语料匮乏的问题,将促进不同语言之间的知识共享,为藏汉跨语言知识问答、信息检索、机器翻译等领域研究提供支撑。
【专利说明】藏语实体知识信息抽取方法

【技术领域】
[0001]本发明涉及一种藏语实体知识信息抽取方法,尤其涉及一种基于自然标注的藏汉跨语言实体知识信息抽取方法。

【背景技术】
[0002]Web内容的爆炸式增长,使得对Web的社会网络研究已经不再局限于对Web结构的分析,而是转向以Web内容为研究对象的分析,其中知识图谱成为大数据时代自然语言处理领域的一个研究热点。知识图谱以结点代表实体或者概念,边代表实体或者概念之间的各种语义关系,其中实体知识信息的抽取是主要研究内容之一。
[0003]实体知识信息抽取,要解决的重点问题是实体及其属性关系的抽取。基于机器学习的实体间语义关系抽取要求具有一定规模的训练语料,而语料库的人工标注需要花费大量的时间和人力。因此,利用已有的自然标注数据,自动挖掘海量、真实的文本信息,通过资源丰富的源语言帮助欠资源的目标语言,获取目标语言的相关知识,是解决目标语言信息处理问题的一个方案。
[0004]在网络来源信息中,约有21%的中文文章含有“实体一属性一值”的三元组关系信息盒,而目前的藏语文章中缺少信息盒。在信息盒缺失以及藏语标注语料非常少的情况下,无法获取大规模的训练语料以实现藏语实体知识信息的抽取。此外,尽管藏语的显示输出技术、编码技术、输入技术、文字处理技术、网页制作技术等相对来说已比较成熟,然而与汉语、英语等语言的信息处理研究相比仍差距较大,主要表现在词法、句法分析及其相关应用方面。例如,藏语尚缺乏实用的命名实体识别系统,在句子和篇章级的信息处理研究方面还处于起步阶段。因此,无法直接将英、汉实体属性及关系抽取中相对成熟的方法应用于藏语。在这种情况下,藏语实体知识信息的获取更多依靠人工的方式,无法实现大规模数据的处理及知识获取。


【发明内容】

[0005]本发明的目的是针对现有技术的缺陷,提供一种藏语实体知识信息抽取方法,可以利用现有的藏汉文本语料资源,以及相对丰富的汉语结构化、半结构化资源,挖掘藏语的实体知识信息,实现大规模数据的处理及知识信息的获取。
[0006]为实现上述目的,本发明提供了一种藏语实体知识信息抽取方法,所述方法包括:从藏汉文本语料信息中,抽取藏汉可比语料信息;从所述藏汉可比语料信息中,抽取出实体等价对;从所述实体等价对中,抽取出藏汉跨语言实体关系;从所述的藏汉跨语言实体关系中,抽取出藏语“实体-属性-值”三元组;将所述三元组存储到藏语实体知识语义资源库。
[0007]本发明基于自然标注下藏汉语言文本的特点,利用相对丰富的汉语资源,研究与解决跨语言环境下的藏汉可比语料获取、藏汉实体映射、半监督学习的实体关系及属性值抽取等关键技术,实现藏语实体知识信息的挖掘。该发明在一定程度上解决了藏语训练语料匮乏的问题,将促进不同语言之间的知识共享,为藏语知识图谱构建打下基础,为藏汉跨语言知识问答、信息检索、机器翻译等领域研究提供支撑。

【专利附图】

【附图说明】
[0008]图1为本发明提供的藏语实体知识信息抽取方法流程图;
[0009]图2为本发明藏语实体知识信息抽取方法双语网页可比语料信息的相似特征示意图;
[0010]图3为本发明藏语实体知识信息抽取方法利用跨语言关联获取可比语料信息示意图;
[0011]图4为本发明藏语实体知识信息抽取方法藏语实体关系模板构建示意图。

【具体实施方式】
[0012]下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
[0013]图1是本实施例提供的藏语实体知识信息抽取方法流程图,如图1所示,本发明的藏语实体知识信息抽取方法包括:
[0014]步骤S101,抽取藏汉可比语料信息。
[0015]根据不同网络环境中藏汉文本语料存在形式的差异,采取不同的方法。
[0016]具体地,对于网络环境中大量存在的仅仅是网页级别的平行,或者是跨网平行的没有直接跨语言的内部链接的藏汉文本语料,构建基于双语网页的多特征藏汉可比预料获取模型。由于这些文本语料的标题、作者、媒体和发布时间等相关信息已经被标注,同一网络事件具有实时性、一致性等特点,使得双语网页的文本语料具有较多的相似特征。如图2所示。通过对文本语料进行分词,结合数字、网页结构、事件发生时间、网页内容量、标题、关键词等特征,计算相似度,建立藏汉可比语料获取模型。
[0017]对于存在直接跨语言内部链接的藏汉文本语料,直接通过跨语言链接功能实现关联,获取藏汉可比语料,如图3所示。
[0018]步骤S102,抽取藏汉实体等价对。
[0019]根据不同网络环境中藏汉可比语料存在形式的差异,采取不同的方法。
[0020]网络中存在着大量自然标注的藏汉实体对,构成了一一对应的藏汉实体等价对,如表I所示。采用基于自然标注的藏汉实体等价对构建方法。具体地,通过搜索引擎在网络中挖掘所有具有一一对应特性的自然标注资源,构建藏汉实体等价对。
[0021]表I自然标注的藏汉实体等价对实例
[0022]

【权利要求】
1.一种藏语实体知识信息抽取方法,其特征在于,所述方法包括: 从藏汉文本语料信息中,抽取藏汉可比语料信息; 从所述藏汉可比语料信息中,抽取出实体等价对; 从所述实体等价对中,抽取出藏汉跨语言实体关系; 从所述的藏汉跨语言实体关系中,抽取出藏语“实体-属性-值”三元组; 将所述三元组存储到藏语实体知识语义资源库。
2.根据权利要求1所述的从藏汉文本语料中,抽取藏汉可比语料信息的方法,其特征在于,所述抽取藏汉可比语料信息具体为,利用藏汉双语网页对应的网页信息构建多特征藏汉可比语料获取模型,或者对网络信息进行跨语言链接关联处理,从而获取到所述藏汉可比语料信息。
3.根据权利要求2所述的多特征藏汉可比语料获取模型的构建方法,其特征在于,所述多特征藏汉可比语料获取模型具体为,通过对所述的藏汉文本语料进行分词处理,获取藏汉可比语料相似特征,构建多特征藏汉可比语料获取模型。
4.根据权利要求1所述的从所述藏汉可比语料信息中抽取出实体等价对的方法,其特征在于,所述抽取出实体等价对具体为,从自然标注的网页信息中抽取出实体等价对,或者利用平行句对最大字连续交集模型抽取出实体等价对。
5.根据权利要求4所述的平行句对最大字连续交集模型的建立方法,其特征在于,建立平行句对最大字连续交集模型,具体为; 对所述藏汉可比语料信息进行藏汉双语分词处理,获取藏汉平行句对; 对所述藏汉平行句对建立汉语命名实体倒排索引表; 在所述倒排索引表中每个所述的汉语命名实体对应的藏汉平行句对集合中,计算两个藏语句对的最大字连续交集,所述的最大字连续交集即为所述汉语命名实体对应的藏语等价对。
6.根据权利要求1所述的从所述实体等价对中抽取出藏汉跨语言实体关系的方法,其特征在于,所述抽取出藏汉跨语言实体关系具体为,通过分析藏语浅层语义结构构建实体关系模板,利用半监督学习法抽取实体关系。
7.根据权利要求6所述的分析藏语浅层语义结构构建实体关系模板的方法,其特征在于,所述构建实体关系模板具体为,利用藏语格标记的句法语义作用和动词信息分析藏语句子浅层结构,构建藏语实体和属性值的关系模板。
8.根据权利要求7所述的实体关系模板的构建方法,其特征在于,在所述构建实体关系模板之后,还包括:通过层次聚类过滤和泛化所述关系模板。
9.根据权利要求6所述的利用半监督学习法抽取实体关系的方法,其特征在于,所述利用半监督学习法抽取实体关系具体为: 以包含两个及以上所述命名实体的句子作为样本,采用向量空间模型计算特征的相似度; 利用所述相似度信息,构建实体对近邻图,在所述近邻图上进行标记的传递,直到收敛,推导出未标记实体对的关系。
【文档编号】G06F17/30GK104133848SQ201410310710
【公开日】2014年11月5日 申请日期:2014年7月1日 优先权日:2014年7月1日
【发明者】孙媛 申请人:中央民族大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1