一种实用有效的命名实体识别的计算方法与流程

文档序号:18620523发布日期:2019-09-06 22:26阅读:880来源:国知局

本发明涉及自然语言理解技术领域,具体为一种实用有效的命名实体识别的计算方法。



背景技术:

命名实体识别(namedentityrecognition,简称ner),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

名实体识别是信息提取、问答系统、句法分析、机器翻译、面向semanticweb的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

其过程通常包括两部分:(1)实体边界识别;(2)确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。

然而对于汉语,(1)汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界,即分词;(2)汉语分词和命名实体识别互相影响;(3)除了英语中定义的实体,外国人名译名和地名译名是存在于汉语中的两类特殊实体类型;(4)现代汉语文本,尤其是网络汉语文本,常出现中英文交替使用,这时汉语命名实体识别的任务还包括识别其中的英文命名实体;(5)不同的命名实体具有不同的内部特征,不可能用一个统一的模型来刻画所有的实体内部特征。

目前的很多论文都是关于使用模型进行识别的方法,比如条件随机场模型(crf),深度学习模型等,我们统称为基于模型的识别方法,但是只是这些模型的应用还不能解决所有的命名实体识别的问题,它的准确率都无法达到实际应用场景的要求。基于模型的方法是现在比较流行的命名实体识别方法,但是它受限于训练数据的覆盖率,受限于训练数据的准确性,是无法提供较高的识别准确率的。



技术实现要素:

本发明的目的在于提供一种实用有效的命名实体识别的计算方法,以解决上述背景技术中提出的问题。

命名实体识别是自然语言理解中比较重要的问题之一,在实际的应用中也是被用到较多的功能。

命名实体识别的方法包括:基于规则的方法,基于词表的方法,基于模型的方法;单单使用基于模型的方法无法达到实际应用场景的要求,为了更好的识别命名实体,我们需要使用所有的三种方法,在实际的应用中就可以提供较高的命名实体识别的准确率。

为实现上述目的,本发明提供如下技术方案:一种实用有效的命名实体识别的计算方法,其具体步骤如下:

第一步,向命名实体识别系统内输入一段文字,该文字包含多段句子,命名实体识别系统首先根据文字段落的符号,将文字切分成多个连续的单一句子,句子的数目计为m;

第二步,命名实体识别系统按顺序对单个的句子进行识别与判断;

第三步,使用基于词表的方法进行识别得到结果标记为k1;

第四步,使用基于规则的方法进行识别得到结果标记为k2;

第五步,使用基于模型的方法进行识别得到结果标记为k3;

第六步,一个句子识别完成后,循环对下一个句子进行第三步、第四步、第五步的识别,从而获得a个结果k1、b个结果k2、c个结果k3;

第七步,将上述获得的a个结果k1、b个结果k2、c个结果k3进行融合,得到最后的识别结果k。

优选的,所述的结果k的结算公式为:

k=a/m·k1·a%+b/m·k2·b%+c/m·k3·c%;

优选的,所述的a%、b%、c%为计算系数,针对不同的文体,计算系数不同;再将获得结果k与标准阀值k0进行比较,判断k与k0之间的大小,

优选的,所述的k大于等于k0时,则判断该段文字重复度高。

优选的,所述的k小于k0时,,则判断该段文字重复度低。

与现有技术相比,本发明的有益效果是:本发明提供了一种实用有效的命名实体识别的计算方法,在这个算法中会灵活使用基于规则的方法,基于词表的方法和基于模型的方法,并有一个逻辑来解决他们的冲突,从而达到较高的命名实体识别的准确率。

具体实施方式

下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供了一种实用有效的命名实体识别的计算方法,其具体步骤如下:

第一步,向命名实体识别系统内输入一段文字,该文字包含多段句子,命名实体识别系统首先根据文字段落的符号,将文字切分成多个连续的单一句子,句子的数目计为m;

第二步,命名实体识别系统按顺序对单个的句子进行识别与判断;

第三步,使用基于词表的方法进行识别得到结果标记为k1;

第四步,使用基于规则的方法进行识别得到结果标记为k2;

第五步,使用基于模型的方法进行识别得到结果标记为k3;

第六步,一个句子识别完成后,循环对下一个句子进行第三步、第四步、第五步的识别,从而获得a个结果k1、b个结果k2、c个结果k3;

第七步,将上述获得的a个结果k1、b个结果k2、c个结果k3进行融合,得到最后的识别结果k。

优选的,所述的结果k的结算公式为:

k=a/m·k1·a%+b/m·k2·b%+c/m·k3·c%;

优选的,所述的a%、b%、c%为计算系数,针对不同的文体,计算系数不同;再将获得结果k与标准阀值k0进行比较,判断k与k0之间的大小,

优选的,所述的k大于等于k0时,则判断该段文字重复度高。

优选的,所述的k小于k0时,,则判断该段文字重复度低。

实施例1

第一步,向命名实体识别系统内输入一段文字,该文字包含多段句子,命名实体识别系统首先根据文字段落的符号,将文字切分成多个连续的单一句子,句子的数目计为m;

第二步,命名实体识别系统按顺序对单个的句子进行识别与判断;

第三步,使用基于词表的方法进行识别得到结果标记为k1;

第四步,使用基于规则的方法进行识别得到结果标记为k2;

第五步,使用基于模型的方法进行识别得到结果标记为k3;

第六步,一个句子识别完成后,循环对下一个句子进行第三步、第四步、第五步的识别,从而获得a个结果k1、b个结果k2、c个结果k3;

第七步,将上述获得的a个结果k1、b个结果k2、c个结果k3进行融合,得到最后的识别结果k。

优选的,所述的结果k的结算公式为:

k=a/m·k1·a%+b/m·k2·b%+c/m·k3·c%;

k≥k0时,则判断该段文字重复度高。

k<k0时,则判断该段文字重复度低。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1