一种识别命名实体的方法及装置的制造方法

文档序号：9667413阅读：331来源：国知局

一种识别命名实体的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及自然语言处理领域，具体涉及一种识别命名实体的方法及装置。
【背景技术】
[0002] 命名实体是指如人名、地名、组织机构名称等具有特定意义的名称的词汇，命名实体识别是自然语言处理中的一项基本工作，它不仅是分词和标注过程中的一个重要环节，而且在句法分析、机器翻译、信息检索、自动问答系统等领域中也有直接的应用。由于部分命名实体是新词，如果对这类词的类别不能进行准确的分类，必然影响后续的工作。
[0003] -般来说，对于一篇待处理文本，识别命名实体的任务是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。由于时间、日期、货币和百分比的构成有比较明显的规律，识别起来相对容易，因此命名实体识别通常指的是人名、地名和机构名的识别。例如，当出现字符串"李白"时，能够通过识别工具准确的判断此词的所属类别为人名。
[0004]目前，不同领域内的命名实体识别需要人工专门进行特征提取，这一步往往需要领域专家的参与，这项工作加大了人工工作量，降低了模型的适用范围。

【发明内容】

[0005] 因此，本发明要解决的技术问题在于克服现有技术中识别命名实体需要人工量大、模型使用范围小的缺陷。
[0006] 本发明提供一种识别命名实体的方法，包括如下步骤：
[0007] 获取各个类别的训练样本；
[0008] 获取训练样本中每个字的字向量及该字在该训练样本的中的概率；
[0009] 获取目标字符串，并将目标字符串拆分成单个目标字；
[0010] 针对每个类别，根据每个目标字及其所在的位置计算每个目标字属于该类别的向量，计算该目标字符串属于该类别的似然函数；
[0011] 计算出所述目标字符串对应每个类别的似然函数，将似然函数最大的类别作为目标字符串所属的命名实体的类别。
[0012] 优选地，计算该目标字符串属于该类别的似然函数的步骤，通过以下公式计算：
[0013]
[0014] 其中，end是指目标字符串中字符的总数，PB(str(l)|类别λ)表示目标字符串中第一个字符属于类别λ的概率；
[0015] (PM(str(i)I类别λ)表示目标字符串中第i字符属于类别λ的概率；
[0016] (PE(str(end) |类别λ)表示目标字符串中最后一个字符属于类别λ的概率； [0017]PMaAciv(Str(i) |类别λ)表示在类别λ中，目标字符串中的第i个字符出现在第 i-Ι个字符之后的概率。
[0018] 优选地，计算目标字符串中第一个字符属于类别λ的概率的步骤，包括：
[001"? 3 cc t
[0020] 其中str(l)为目标字符串的首字符，cc'为类别λ的训练样本中的字，set指类别λ的训练样本，PB'（cc' |类别λ)指cc'属于类别λ的概率，ZB为概率归一化系数，
在类别λ中的向量， V类别指cc'在类别λ中的向量。
[0021] 优选地，计算目标字符串中第i字符属于类别λ的概率，通过如下公式计算：
[0022] ~M ac e>et
[0023] ，其中str(i)为目标字符串的一个中间字符，cc'为类别λ的训练样本中的字， set指类别λ的训练样本，PM'（cc' |类别λ)指cc'属于类别λ的概率，ΖΜ为概率归一化系数
在类别λ中的向量，％别λ#，指cc'在类别λ中的向量。
[0024] 优选地，目标字符串中最后一个字符属于类别λ的概率，通过如下公式计算：「00251
ΔEcc&Set^
[0026] ，其中str(end)为目标字符串的末字符，cc'为类别λ的训练样本中的字，set指类别λ的训练样本，PE'（cc' |类别λ)指cc'属于类别λ的概率，，ZE为概率归一化系数，
指str(end)在类别λ 中的向量，指cc'在类别λ中的向量。
[0027] 优选地，目标字符串中的第i个字符出现在第i-Ι个字符之后的概率，通过如下公式计算：
[0028]
Markov cc eSet
[0029] 其中，str⑴为目标字符串的第i个字，str(i-l)为str(i)的前一个字，cc'为类别 λ的训练样本中的字，set指类别λ的训练样5 CO' -t'Je-'t
表不.....
分别为概率归一化系数。
[0030] 优选地，所述类别包括人名、地名、机构名。
[0031] 此外，本发明还提供一种识别命名实体的装置，包括：
[0032] 训练样本获取单元，获取各个类别的训练样本；
[0033] 字向量及概率提取单元，获取训练样本中每个字的字向量及该字在该训练样本的中的概率；
[0034] 拆分单元，获取目标字符串，并将目标字符串拆分成单个目标字；
[0035] 似然函数计算单元，针对每个类别，根据每个目标字及其所在的位置计算每个目标字属于该类别的向量，计算该目标字符串属于该类别的似然函数；
[0036] 命名实体识别单元，计算出所述目标字符串对应每个类别的似然函数，将似然函数最大的类别作为目标字符串所属的命名实体的类别。
[0037] 优选地，似然函数计算单元包括以下公式计算：
[0038]
[0039] 其中，end是指目标字符串中字符的总数，PB(str(1) |类别λ)表示目标字符串中第一个字符属于类别λ的概率；
[0040] (PM(str⑴|类别λ)表示目标字符串中第i字符属于类别λ的概率；
[0041] (PE(Str(end)I类别λ)表示目标字符串中最后一个字符属于类别λ的概率； [0042] PMaAciv(Str(i) |类别λ)表示在类别λ中，目标字符串中的第i个字符出现在第 i-Ι个字符之后的概率。
[0043] 优选地，似然函数计算单元包括第一概率计算子单元，计算目标字符串中第一个字符属于类别λ的概率，包括：
[0044]
f
[0045] 其中str(l)为目标字符串的首字符，cc'为类别λ的训练样本中的字，set指类别λ的训练样本，PB'（cc' |类别λ)指cc'属于类别λ的概率，ZB为概率归一化系数，
指str(l)在类别λ中的向量， V类别指cc'在类别λ中的向量。
[0046] 本发明技术方案，具有如下优点：
[0047]本发明提供的识别命名实体的方法，首先，获取各个类别的训练样本以及目标字符串，然后将将目标字符串拆分成单个目标字；之后，针对每个类别，计算每个目标字与该类别的训练样本中的其他字的接近度；根据所述接近度计算该目标字符串属于该类别的似然函数；计算出该目标字符串对应每个类别的似然函数，将似然函数最大的类别作为目标字符串所属的命名实体的类别。该方案中，通过计算目标字符串属于每个类别的似然函数，将目标字符串与属于各个类别的程度进行了量化，从而客观表现出其所属程度，从而对命名实体进行分类，提高了分类效果和分类精度。
【附图说明】
[0048]为了更清楚地说明本发明【具体实施方式】或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0049]图1为本发明实施例1中识别命名实体的方法的一个具体示例的流程图；
[0050]图2为本发明实施例2中识别命名实体的装置的结构框图。
【具体实施方式】
[0051] 下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0052] 此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
[0053] 实施例1
[0054] 本实施例中提供一种识别命名实体的方法，用于识别命名实体，例如当出现字符串"李白"时，可以识别出其为人名，当出现"北京市"时，可识别其为地名。该识别命名实体的方法，如图1所示，包括以下步骤：
[0055]S1、获取各个类别的训练样本。首先，需要针对命名实体的类别选择合适的训练样本，如类别包括人名、地名、机构名，则需要分别针对每个类别选择合适的训练样本，即人名、地名、机构名列表。
[0056]S2、获取训练样本中每个字的字向量及该字在该训练样本中的概率。
[0057] 在每一个类别中，将单字看做语义基本单位，进行字向量训练，获得各个类别中单字的字向量。此处的字向量是指将汉字映射到高维空间，汉字映射结果称之为字向量，例如：
[0058]V地名，县"=[0·23,-0·15,0·33, 1. 23,-0·78,-0·28,-0·28,0·2]
[00

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卢菁;叶茂;马佳乐;汤帜;黄肖俊;徐剑波;
技术所有人：北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学;
我是此专利的发明人

上一篇：联机导出报表的方法及装置的制造方法
上一篇：一种视频文件的索引方法及服务器的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。