一种识别命名实体的方法及装置的制造方法

文档序号:9667413阅读:331来源:国知局
一种识别命名实体的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及自然语言处理领域,具体涉及一种识别命名实体的方法及装置。
【背景技术】
[0002] 命名实体是指如人名、地名、组织机构名称等具有特定意义的名称的词汇,命名实 体识别是自然语言处理中的一项基本工作,它不仅是分词和标注过程中的一个重要环节, 而且在句法分析、机器翻译、信息检索、自动问答系统等领域中也有直接的应用。由于部分 命名实体是新词,如果对这类词的类别不能进行准确的分类,必然影响后续的工作。
[0003] -般来说,对于一篇待处理文本,识别命名实体的任务是识别出待处理文本中三 大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比) 命名实体。由于时间、日期、货币和百分比的构成有比较明显的规律,识别起来相对容易,因 此命名实体识别通常指的是人名、地名和机构名的识别。例如,当出现字符串"李白"时,能 够通过识别工具准确的判断此词的所属类别为人名。
[0004]目前,不同领域内的命名实体识别需要人工专门进行特征提取,这一步往往需要 领域专家的参与,这项工作加大了人工工作量,降低了模型的适用范围。

【发明内容】

[0005] 因此,本发明要解决的技术问题在于克服现有技术中识别命名实体需要人工量 大、模型使用范围小的缺陷。
[0006] 本发明提供一种识别命名实体的方法,包括如下步骤:
[0007] 获取各个类别的训练样本;
[0008] 获取训练样本中每个字的字向量及该字在该训练样本的中的概率;
[0009] 获取目标字符串,并将目标字符串拆分成单个目标字;
[0010] 针对每个类别,根据每个目标字及其所在的位置计算每个目标字属于该类别的向 量,计算该目标字符串属于该类别的似然函数;
[0011] 计算出所述目标字符串对应每个类别的似然函数,将似然函数最大的类别作为目 标字符串所属的命名实体的类别。
[0012] 优选地,计算该目标字符串属于该类别的似然函数的步骤,通过以下公式计算:
[0013]
[0014] 其中,end是指目标字符串中字符的总数,PB(str(l)|类别λ)表示目标字符串中 第一个字符属于类别λ的概率;
[0015] (PM(str(i)I类别λ)表示目标字符串中第i字符属于类别λ的概率;
[0016] (PE(str(end) |类别λ)表示目标字符串中最后一个字符属于类别λ的概率; [0017]PMaAciv(Str(i) |类别λ)表示在类别λ中,目标字符串中的第i个字符出现在第 i-Ι个字符之后的概率。
[0018] 优选地,计算目标字符串中第一个字符属于类别λ的概率的步骤,包括:
[001"? 3 cc t
[0020] 其中str(l)为目标字符串的首字符,cc'为类别λ的训练样本中的字,set指类 别λ的训练样本,PB'(cc' |类别λ)指cc'属于类别λ的概率,ZB为概率归一化系数,
在类别λ中的向量, V类别指cc'在类别λ中的向量。
[0021] 优选地,计算目标字符串中第i字符属于类别λ的概率,通过如下公式计算:
[0022] ~M ac e>et
[0023] ,其中str(i)为目标字符串的一个中间字符,cc'为类别λ的训练样本中的字, set指类别λ的训练样本,PM'(cc' |类别λ)指cc'属于类别λ的概率,ΖΜ为概率归一化 系数
在类别λ中的向 量,%别λ#,指cc'在类别λ中的向量。
[0024] 优选地,目标字符串中最后一个字符属于类别λ的概率,通过如下公式计算: 「00251
ΔEcc&Set^
[0026] ,其中str(end)为目标字符串的末字符,cc'为类别λ的训练样本中的字,set指 类别λ的训练样本,PE'(cc' |类别λ)指cc'属于类别λ的概率,,ZE为概率归一化系数,
指str(end)在类别λ 中的向量,指cc'在类别λ中的向量。
[0027] 优选地,目标字符串中的第i个字符出现在第i-Ι个字符之后的概率,通过如下公 式计算:
[0028]
Markov cc eSet
[0029] 其中,str⑴为目标字符串的第i个字,str(i-l)为str(i)的前一个字,cc'为类别 λ的训练样本中的字,set指类别λ的训练样5 CO' -t'Je-'t
表不.....
分别为概率归一化系数。
[0030] 优选地,所述类别包括人名、地名、机构名。
[0031] 此外,本发明还提供一种识别命名实体的装置,包括:
[0032] 训练样本获取单元,获取各个类别的训练样本;
[0033] 字向量及概率提取单元,获取训练样本中每个字的字向量及该字在该训练样本的 中的概率;
[0034] 拆分单元,获取目标字符串,并将目标字符串拆分成单个目标字;
[0035] 似然函数计算单元,针对每个类别,根据每个目标字及其所在的位置计算每个目 标字属于该类别的向量,计算该目标字符串属于该类别的似然函数;
[0036] 命名实体识别单元,计算出所述目标字符串对应每个类别的似然函数,将似然函 数最大的类别作为目标字符串所属的命名实体的类别。
[0037] 优选地,似然函数计算单元包括以下公式计算:
[0038]
[0039] 其中,end是指目标字符串中字符的总数,PB(str(1) |类别λ)表示目标字符串中 第一个字符属于类别λ的概率;
[0040] (PM(str⑴|类别λ)表示目标字符串中第i字符属于类别λ的概率;
[0041] (PE(Str(end)I类别λ)表示目标字符串中最后一个字符属于类别λ的概率; [0042] PMaAciv(Str(i) |类别λ)表示在类别λ中,目标字符串中的第i个字符出现在第 i-Ι个字符之后的概率。
[0043] 优选地,似然函数计算单元包括第一概率计算子单元,计算目标字符串中第一个 字符属于类别λ的概率,包括:
[0044]
f
[0045] 其中str(l)为目标字符串的首字符,cc'为类别λ的训练样本中的字,set指类 别λ的训练样本,PB'(cc' |类别λ)指cc'属于类别λ的概率,ZB为概率归一化系数,
指str(l)在类别λ中的向量, V类别指cc'在类别λ中的向量。
[0046] 本发明技术方案,具有如下优点:
[0047]本发明提供的识别命名实体的方法,首先,获取各个类别的训练样本以及目标字 符串,然后将将目标字符串拆分成单个目标字;之后,针对每个类别,计算每个目标字与该 类别的训练样本中的其他字的接近度;根据所述接近度计算该目标字符串属于该类别的似 然函数;计算出该目标字符串对应每个类别的似然函数,将似然函数最大的类别作为目标 字符串所属的命名实体的类别。该方案中,通过计算目标字符串属于每个类别的似然函数, 将目标字符串与属于各个类别的程度进行了量化,从而客观表现出其所属程度,从而对命 名实体进行分类,提高了分类效果和分类精度。
【附图说明】
[0048]为了更清楚地说明本发明【具体实施方式】或现有技术中的技术方案,下面将对具体 实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的 附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前 提下,还可以根据这些附图获得其他的附图。
[0049]图1为本发明实施例1中识别命名实体的方法的一个具体示例的流程图;
[0050]图2为本发明实施例2中识别命名实体的装置的结构框图。
【具体实施方式】
[0051] 下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施 例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0052] 此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构 成冲突就可以相互结合。
[0053] 实施例1
[0054] 本实施例中提供一种识别命名实体的方法,用于识别命名实体,例如当出现字符 串"李白"时,可以识别出其为人名,当出现"北京市"时,可识别其为地名。该识别命名实 体的方法,如图1所示,包括以下步骤:
[0055]S1、获取各个类别的训练样本。首先,需要针对命名实体的类别选择合适的训练 样本,如类别包括人名、地名、机构名,则需要分别针对每个类别选择合适的训练样本,即人 名、地名、机构名列表。
[0056]S2、获取训练样本中每个字的字向量及该字在该训练样本中的概率。
[0057] 在每一个类别中,将单字看做语义基本单位,进行字向量训练,获得各个类别中单 字的字向量。此处的字向量是指将汉字映射到高维空间,汉字映射结果称之为字向量,例 如:
[0058]V地名,县"=[0·23,-0·15,0·33, 1. 23,-0·78,-0·28,-0·28,0·2]
[00
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1