一种基于异常处理的海量文本自动标注方法

文档序号：6627238阅读：371来源：国知局

一种基于异常处理的海量文本自动标注方法
【专利摘要】本发明公开了一种基于异常处理的海量文本自动标注方法，包括如下步骤：S1，从知识库中提取命名实体以及存在关系的命名实体对，分别进行存储；S2，根据存储的命名实体，通过使用字符串匹配找出海量文本中每个句子的命名实体，根据存储的命名实体对找出文本中所有命名实体对共现的句子，进行粗标注；S3，对进行过粗标注的句子中的命名实体进行判断，当存在词对异常时，将其删除；当存在命名实体异常时，通过过滤算法将有命名实体异常的命名实体全部去除掉，得到最终的文本标注结果。本发明能够有效解决在标注过程中错误标注的问题，提高了文本标注的准确率。
【专利说明】一种基于异常处理的海量文本自动标注方法

【技术领域】
[0001]本发明涉及一种文本标注方法，尤其涉及一种基于异常处理的海量文本自动标注方法，属于自然语言处理【技术领域】。

【背景技术】
[0002]随着科学技术的飞速发展，各类信息层出不穷，甚至远远超出了人类阅读的能力。如何有效地使用海量数据，从中找出需要的信息越来越受到人们的重视。信息抽取 (Information Extraction)是帮助人们使用海量数据的一种技术。它的主要目的是从无结构的自然语言文本中抽取特定的事件、事实等信息，再转化为结构化或半结构化的信息，然后储存在数据库中，供查询以及进一步分析利用，为数据挖掘、问答系统、文本挖掘等应用系统提供重要基础。而实体关系抽取是信息抽取中的重要部分，其任务是从文本中抽取出两个或者多个实体之间预先定义好的语义关系。
[0003]远程监督式实体关系抽取是实体关系抽取领域的研究热点之一。远程监督式实体关系抽取首先要使用知识库从海量文本中抽取出训练数据，传统的做法就是使用命名实体解析器从海量文本中识别命名实体，如果一个句子包含两个命名实体并且这两个命名实体具有Freebase中的某个关系，认为这个句子是在描述这两个命名实体之间的关系，把这个句子标注出来，后续再抽取特征、训练分类器。其中，文本标注的准确度直接关系到实体关系抽取后形成的训练分类器的准确性，进而影响后续利用该实体关系进行的数据挖掘、问答系统、文本挖掘等应用的准确性。
[0004] 然而，远程监督式实体关系抽取方法存在着很多的局限，命名实体解析器根据训练时的情况，可以找出的命名实体类型是有限的，比如斯坦福的命名实体解析器只能识别出人物、组织和地点这三种命名实体类型，不足Freebase中命名实体类型数量的百分之一，召回率也不能很好地满足用户的需求。其次命名实体解析器并不能正确标注出所有的人物、组织和地点实体，会存在错误和遗漏的情况，不能有效地满足文本标注的需求。

【发明内容】

[0005] 本发明所要解决的技术问题在于提供一种基于异常处理的海量文本自动标注方法。
[0006] 为实现上述的发明目的，本发明采用下述的技术方案：
[0007] 一种基于异常处理的海量文本自动标注方法，包括如下步骤：
[0008] S1，从知识库中提取命名实体以及存在关系的命名实体对，分别进行存储；
[0009] S2,根据存储的命名实体，通过使用字符串匹配找出海量文本中每个句子的命名实体，根据存储的命名实体对找出文本中所有命名实体对共现的句子，进行粗标注；
[0010] S3,对进行过粗标注的句子中的命名实体进行判断，当存在词对异常时，将其删除；当存在命名实体异常时，通过过滤算法将有命名实体异常的命名实体全部去除掉，得到最终的文本标注结果。
[0011] 其中较优地，在S2中使用字符串匹配找出文本中每个句子的命名实体时，首先判断抽取的命名实体在句子中有没有重叠，如果有重叠，则选用长度最长的命名实体，如果没有重叠，则将句子中的所有命名实体全部提取。
[0012] 其中较优地，对进行过粗标注的句子进行判断时，如果句子中两个命名实体存在单一关系，则该命名实体标注无异常；如果句子中两个命名实体存在多种关系，则该命名实体存在词对异常。
[0013] 其中较优地，通过过滤算法将有异常的命名实体全部去除掉，得到最终的文本标注结果的过程包括如下步骤：
[0014] S31，对进行过粗标注的句子中的命名实体进行类别数量判断，根据类别数量将有命名实体异常的命名实体进行过滤；
[0015] S32,当命名实体的类别数量和其他同名实体差异性相当时，通过命名实体出现的频次对有命名实体异常的命名实体进行进一步的过滤；
[0016] S33,对于前两步中判定没有命名实体异常的命名实体，使用基于命名实体词性的方法再过滤掉词性异常的命名实体，得到最终的文本标注结果。
[0017] 其中较优地，对进行过粗标注的句子中的命名实体进行类别数量判断包括如下步骤：
[0018] S311，对于命名实体e，在知识库中找出所有与e同名的命名实体，当命名实体e的类别数量多于其他同名实体时，则该命名实体e没有异常；
[0019] S312,当命名实体e的类别数量小于其他同名实体时，则命名实体e存在异常，此时把命名实体e过滤掉。
[0020] 其中较优地，依据文本中命名实体出现的频次对异常的命名实体进行过滤包括如下步骤：
[0021] S321，对于命名实体e，统计文本中出现e的句子数量sentencee;
[0022] S322,当命名实体e出现在关系的实例中时，统计所有包含命名实体e的关系实例出现的句子数量sentence^ ;
[0023] S323,通过公式

【权利要求】
1. 一种基于异常处理的海量文本自动标注方法，其特征在于包括如下步骤： S1，从知识库中提取命名实体以及存在关系的命名实体对，分别进行存储； 52, 根据存储的命名实体，通过使用字符串匹配找出海量文本中每个句子的命名实体，根据存储的命名实体对找出文本中所有命名实体对共现的句子，进行粗标注； 53, 对进行过粗标注的句子中的命名实体进行判断，当存在词对异常时，将其删除；当存在命名实体异常时，通过过滤算法将有命名实体异常的命名实体全部去除掉，得到最终的文本标注结果。
2. 如权利要求1所述的基于异常处理的海量文本自动标注方法，其特征在于：在步骤S2中使用字符串匹配找出文本中每个句子的命名实体时，首先判断抽取的命名实体在句子中有没有重叠，如果有重叠，则选用长度最长的命名实体，如果没有重叠，则将句子中的所有命名实体全部提取。
3. 如权利要求1所述的基于异常处理的海量文本自动标注方法，其特征在于：对进行过粗标注的句子进行判断时，如果句子中两个命名实体存在单一关系，则该命名实体标注无异常；如果句子中两个命名实体存在多种关系，则该命名实体存在词对异常。
4. 如权利要求1所述的基于异常处理的海量文本自动标注方法，其特征在于通过过滤算法将有异常的命名实体全部去除掉，得到最终的文本标注结果的过程包括如下步骤： S31，对进行过粗标注的句子中的命名实体进行类别数量判断，根据类别数量将有命名实体异常的命名实体进行过滤； 532, 当命名实体的类别数量和其他同名实体差异性相当时，通过命名实体出现的频次对有命名实体异常的命名实体进行进一步的过滤； 533, 对于前两步中判定没有命名实体异常的命名实体，使用基于命名实体词性的方法再过滤掉词性异常的命名实体，得到最终的文本标注结果。
5. 如权利要求4所述的基于异常处理的海量文本自动标注方法，其特征在于对进行过粗标注的句子中的命名实体进行类别数量判断包括如下步骤： S311，对于命名实体e，在知识库中找出所有与e同名的命名实体，当命名实体e的类别数量多于其他同名实体时，则该命名实体e没有异常； S312,当命名实体e的类别数量小于其他同名实体时，则命名实体e存在异常，此时把命名实体e过滤掉。
6. 如权利要求4所述的基于异常处理的海量文本自动标注方法，其特征在于依据文本中命名实体出现的频次对异常的命名实体进行过滤包括如下步骤： S321，对于命名实体e，统计文本中出现e的句子数量sentence^ ; 5322, 当命名实体e出现在关系的实例中时，统计所有包含命名实体e的关系实例出现的句子数量sentence。； 5323, 通过公式
计算偏差系数α ; 5324, 当偏差系数α小于特定值时，把命名实体e过滤掉。
7. 如权利要求3所述的基于异常处理的海量文本自动标注方法，其特征在于使用基于命名实体词性的方法再过滤掉词性异常的命名实体的过程包括如下步骤： S331，对于命名实体e，判断其在文本中的常见词性POS,; 5332, 当命名实体e是关系r的实例中的第一个实体时，找出关系r所有实例中第一个实体最常见的词性P0S,，否则找出关系r所有实例中第二个实体最常见的词性P0S,; 5333, 如果P0Se与P0S,不相等，则判定命名实体e有异常。
8.如权利要求7所述的基于异常处理的海量文本自动标注方法，其特征在于：判断命名实体e在文本中的常见词性，首先找出文本中所有包含e的关系实例共现的句子，然后根据命名实体的词性就是其包含多个词语的最后一个词语的词性，得到命名实体e的所有词性，最后统计命名实体出现次数最多的词性，即为命名实体最常见的词性。
【文档编号】G06F17/30GK104298714SQ201410472856
【公开日】2015年1月21日申请日期:2014年9月16日优先权日:2014年9月16日
【发明者】刘瑞, 左源, 王德庆申请人:北京航空航天大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘瑞;左源;王德庆
技术所有人：北京航空航天大学
我是此专利的发明人

上一篇：一种基于截断幂的稀疏基因表达数据分析方法
上一篇：用于文字性客观题的智能阅卷方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。