一种基于异常处理的海量文本自动标注方法

文档序号:6627238阅读:371来源:国知局
一种基于异常处理的海量文本自动标注方法
【专利摘要】本发明公开了一种基于异常处理的海量文本自动标注方法,包括如下步骤:S1,从知识库中提取命名实体以及存在关系的命名实体对,分别进行存储;S2,根据存储的命名实体,通过使用字符串匹配找出海量文本中每个句子的命名实体,根据存储的命名实体对找出文本中所有命名实体对共现的句子,进行粗标注;S3,对进行过粗标注的句子中的命名实体进行判断,当存在词对异常时,将其删除;当存在命名实体异常时,通过过滤算法将有命名实体异常的命名实体全部去除掉,得到最终的文本标注结果。本发明能够有效解决在标注过程中错误标注的问题,提高了文本标注的准确率。
【专利说明】一种基于异常处理的海量文本自动标注方法

【技术领域】
[0001]本发明涉及一种文本标注方法,尤其涉及一种基于异常处理的海量文本自动标注 方法,属于自然语言处理【技术领域】。

【背景技术】
[0002]随着科学技术的飞速发展,各类信息层出不穷,甚至远远超出了人类阅读的能 力。如何有效地使用海量数据,从中找出需要的信息越来越受到人们的重视。信息抽取 (Information Extraction)是帮助人们使用海量数据的一种技术。它的主要目的是从无结 构的自然语言文本中抽取特定的事件、事实等信息,再转化为结构化或半结构化的信息,然 后储存在数据库中,供查询以及进一步分析利用,为数据挖掘、问答系统、文本挖掘等应用 系统提供重要基础。而实体关系抽取是信息抽取中的重要部分,其任务是从文本中抽取出 两个或者多个实体之间预先定义好的语义关系。
[0003]远程监督式实体关系抽取是实体关系抽取领域的研究热点之一。远程监督式实体 关系抽取首先要使用知识库从海量文本中抽取出训练数据,传统的做法就是使用命名实体 解析器从海量文本中识别命名实体,如果一个句子包含两个命名实体并且这两个命名实体 具有Freebase中的某个关系,认为这个句子是在描述这两个命名实体之间的关系,把这个 句子标注出来,后续再抽取特征、训练分类器。其中,文本标注的准确度直接关系到实体关 系抽取后形成的训练分类器的准确性,进而影响后续利用该实体关系进行的数据挖掘、问 答系统、文本挖掘等应用的准确性。
[0004] 然而,远程监督式实体关系抽取方法存在着很多的局限,命名实体解析器根据训 练时的情况,可以找出的命名实体类型是有限的,比如斯坦福的命名实体解析器只能识别 出人物、组织和地点这三种命名实体类型,不足Freebase中命名实体类型数量的百分之 一,召回率也不能很好地满足用户的需求。其次命名实体解析器并不能正确标注出所有的 人物、组织和地点实体,会存在错误和遗漏的情况,不能有效地满足文本标注的需求。


【发明内容】

[0005] 本发明所要解决的技术问题在于提供一种基于异常处理的海量文本自动标注方 法。
[0006] 为实现上述的发明目的,本发明采用下述的技术方案:
[0007] 一种基于异常处理的海量文本自动标注方法,包括如下步骤:
[0008] S1,从知识库中提取命名实体以及存在关系的命名实体对,分别进行存储;
[0009] S2,根据存储的命名实体,通过使用字符串匹配找出海量文本中每个句子的命名 实体,根据存储的命名实体对找出文本中所有命名实体对共现的句子,进行粗标注;
[0010] S3,对进行过粗标注的句子中的命名实体进行判断,当存在词对异常时,将其删 除;当存在命名实体异常时,通过过滤算法将有命名实体异常的命名实体全部去除掉,得到 最终的文本标注结果。
[0011] 其中较优地,在S2中使用字符串匹配找出文本中每个句子的命名实体时,首先判 断抽取的命名实体在句子中有没有重叠,如果有重叠,则选用长度最长的命名实体,如果没 有重叠,则将句子中的所有命名实体全部提取。
[0012] 其中较优地,对进行过粗标注的句子进行判断时,如果句子中两个命名实体存在 单一关系,则该命名实体标注无异常;如果句子中两个命名实体存在多种关系,则该命名实 体存在词对异常。
[0013] 其中较优地,通过过滤算法将有异常的命名实体全部去除掉,得到最终的文本标 注结果的过程包括如下步骤:
[0014] S31,对进行过粗标注的句子中的命名实体进行类别数量判断,根据类别数量将有 命名实体异常的命名实体进行过滤;
[0015] S32,当命名实体的类别数量和其他同名实体差异性相当时,通过命名实体出现的 频次对有命名实体异常的命名实体进行进一步的过滤;
[0016] S33,对于前两步中判定没有命名实体异常的命名实体,使用基于命名实体词性的 方法再过滤掉词性异常的命名实体,得到最终的文本标注结果。
[0017] 其中较优地,对进行过粗标注的句子中的命名实体进行类别数量判断包括如下步 骤:
[0018] S311,对于命名实体e,在知识库中找出所有与e同名的命名实体,当命名实体e的 类别数量多于其他同名实体时,则该命名实体e没有异常;
[0019] S312,当命名实体e的类别数量小于其他同名实体时,则命名实体e存在异常,此 时把命名实体e过滤掉。
[0020] 其中较优地,依据文本中命名实体出现的频次对异常的命名实体进行过滤包括如 下步骤:
[0021] S321,对于命名实体e,统计文本中出现e的句子数量sentencee;
[0022] S322,当命名实体e出现在关系的实例中时,统计所有包含命名实体e的关系实例 出现的句子数量sentence^ ;
[0023] S323,通过公式

【权利要求】
1. 一种基于异常处理的海量文本自动标注方法,其特征在于包括如下步骤: S1,从知识库中提取命名实体以及存在关系的命名实体对,分别进行存储; 52, 根据存储的命名实体,通过使用字符串匹配找出海量文本中每个句子的命名实体, 根据存储的命名实体对找出文本中所有命名实体对共现的句子,进行粗标注; 53, 对进行过粗标注的句子中的命名实体进行判断,当存在词对异常时,将其删除;当 存在命名实体异常时,通过过滤算法将有命名实体异常的命名实体全部去除掉,得到最终 的文本标注结果。
2. 如权利要求1所述的基于异常处理的海量文本自动标注方法,其特征在于: 在步骤S2中使用字符串匹配找出文本中每个句子的命名实体时,首先判断抽取的命 名实体在句子中有没有重叠,如果有重叠,则选用长度最长的命名实体,如果没有重叠,则 将句子中的所有命名实体全部提取。
3. 如权利要求1所述的基于异常处理的海量文本自动标注方法,其特征在于: 对进行过粗标注的句子进行判断时,如果句子中两个命名实体存在单一关系,则该命 名实体标注无异常;如果句子中两个命名实体存在多种关系,则该命名实体存在词对异常。
4. 如权利要求1所述的基于异常处理的海量文本自动标注方法,其特征在于通过过滤 算法将有异常的命名实体全部去除掉,得到最终的文本标注结果的过程包括如下步骤: S31,对进行过粗标注的句子中的命名实体进行类别数量判断,根据类别数量将有命名 实体异常的命名实体进行过滤; 532, 当命名实体的类别数量和其他同名实体差异性相当时,通过命名实体出现的频次 对有命名实体异常的命名实体进行进一步的过滤; 533, 对于前两步中判定没有命名实体异常的命名实体,使用基于命名实体词性的方法 再过滤掉词性异常的命名实体,得到最终的文本标注结果。
5. 如权利要求4所述的基于异常处理的海量文本自动标注方法,其特征在于对进行过 粗标注的句子中的命名实体进行类别数量判断包括如下步骤: S311,对于命名实体e,在知识库中找出所有与e同名的命名实体,当命名实体e的类别 数量多于其他同名实体时,则该命名实体e没有异常; S312,当命名实体e的类别数量小于其他同名实体时,则命名实体e存在异常,此时把 命名实体e过滤掉。
6. 如权利要求4所述的基于异常处理的海量文本自动标注方法,其特征在于依据文本 中命名实体出现的频次对异常的命名实体进行过滤包括如下步骤: S321,对于命名实体e,统计文本中出现e的句子数量sentence^ ; 5322, 当命名实体e出现在关系的实例中时,统计所有包含命名实体e的关系实例出现 的句子数量sentence。; 5323, 通过公式
计算偏差系数α ; 5324, 当偏差系数α小于特定值时,把命名实体e过滤掉。
7. 如权利要求3所述的基于异常处理的海量文本自动标注方法,其特征在于使用基于 命名实体词性的方法再过滤掉词性异常的命名实体的过程包括如下步骤: S331,对于命名实体e,判断其在文本中的常见词性POS,; 5332, 当命名实体e是关系r的实例中的第一个实体时,找出关系r所有实例中第一个 实体最常见的词性P0S,,否则找出关系r所有实例中第二个实体最常见的词性P0S,; 5333, 如果P0Se与P0S,不相等,则判定命名实体e有异常。
8.如权利要求7所述的基于异常处理的海量文本自动标注方法,其特征在于: 判断命名实体e在文本中的常见词性,首先找出文本中所有包含e的关系实例共现的 句子,然后根据命名实体的词性就是其包含多个词语的最后一个词语的词性,得到命名实 体e的所有词性,最后统计命名实体出现次数最多的词性,即为命名实体最常见的词性。
【文档编号】G06F17/30GK104298714SQ201410472856
【公开日】2015年1月21日 申请日期:2014年9月16日 优先权日:2014年9月16日
【发明者】刘瑞, 左源, 王德庆 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1