一种命名实体识别方法及装置的制造方法

文档序号:9787434阅读:372来源:国知局
一种命名实体识别方法及装置的制造方法
【技术领域】
[0001]本发明属于命名实体技术领域,更具体的说,尤其涉及一种命名实体识别方法及 装置。
【背景技术】
[0002] 命名实体是指具有特定意义的实体,如人名李三,而命名实体识别则是识别文本 中具有特定意义的实体,主要包括人名、地名、机构名和专有名词等,这些识别出的实体作 为后续信息抽取任务的输入,如可以作为关系抽取、事件抽取、细粒度的情感分析等信息抽 取任务的输入,因此命名实体识别结果的好坏直接影响后续信息抽取任务的效果。
[0003] 目前命名实体识别方法已经有很多,如专利号为201310201310674046.7的识别方 法,其过程为:对待处理文本中的特殊词进行识别;对待处理文本中的型号实体进行识别, 并用预设的数字串将待处理文本中被识别出为型号实体的特殊词替换,然后在此基础上进 行商品实体、商品分类实体、品牌实体、商品属性名实体以及商品属性值实体等实体的识 另Ij,这种识别方法主要针对一般文本,而社交网络中的文本主要是短文本,如微博或者QQ这 种社交网络中,用户发布的文本多数是短文本,且社交网络中用户会彼此关注,但是目前的 命名实体识别方法并没有基于这一特征,因此急需一种适用于微博或者QQ这些社交网络的 命名实体识别方法。

【发明内容】

[0004] 有鉴于此,本发明的目的在于提供一种命名实体识别方法及装置,用于基于社交 网络信息进行命名实体的识别,以适用于社交网络。技术方案如下:
[0005] 本发明提供一种命名实体识别方法,所述方法包括:
[0006] 基于初始构建的第一序列标注模型,对训练文档和测试文档进行序列标注,得到 每个训练文档中每个第一词的第一实体概率分布和每个测试文档中每个第二词的第二实 体概率分布;
[0007] 获取每个第一词在各自对应的训练文档中的第一上下文相似度以及每个第一词 各自对应的训练文档所属目标对象之间的第一对象相似度;
[0008] 基于每个第一词的所述第一实体概率分布、每个第一词的所述第一上下文相似度 和每个第一词的所述第一对象相似度,得到相对应第一词的第三实体概率分布;
[0009] 获取每个第二词在各自对应的训练文档中的第二上下文相似度以及每个第二词 各自对应的训练文档所属目标对象之间的第二对象相似度;
[0010] 基于每个第二词的所述第二实体概率分布、每个第二词的所述第二上下文相似度 和每个第二词的所述第二对象相似度,得到相对应第二词的第四实体概率分布;
[0011] 基于每个第一词的第三实体概率分布,对所述第一序列标注模型进行重新训练, 得到第二序列标注模型;
[0012] 将每个测试文档中每个第二词的第四实体概率分布作为相对应测试文档的观测 变量,并基于所述第二序列标注模型和所述测试文档的观测变量,对所述测试文档进行序 列标注,得到所述测试文档中每个第二词的命名实体。
[0013] 优选地,所述获取每个第二词在各自对应的训练文档中的第二上下文相似度以及 每个第二词各自对应的训练文档所属目标对象之间的第二对象相似度,包括:
[0014] 获取词袋U和词袋V中共同具有的第二词的数量以及所述词袋U和词袋V中第二词 的总量,其中词袋U为一个第二词对应的训练文档的词集合,词袋V为另一个第二词对应的 训练文档的词集合;
[0015] 将所述第二词的数量与所述第二词的总量的比值作为所述第二上下文相似度;
[0016] 基于所述每个训练文档的第二上下文相似度,得到训练文档所属目标对象之间的 第二对象相似度。
[0017] 优选地,所述基于每个第二词的所述第二实体概率分布、每个第二词的所述第二 上下文相似度和每个第二词的所述第二对象相似度,得到相对应第二词的第四实体概率分 布,包括:
[0018] 基于第二词的第二实体概率分布和第二词的所述第二上下文相似度,获取第二词 的命名实体类型属于命名实体类标签c的概率,其中命名实体类标签c位于命名实体识别类 标签集合C中,且用于指示一种命名实体类型;
[0019] 基于所述第二词的命名实体类型属于命名实体类标签c的概率,得到所述第二词 的各个命名实体类型的概率之和;
[0020] 基于所述第二词的各个命名实类型的概率之和,得到所述第二词在所有测试文档 中的命名实体概率分布;
[0021] 基于所述命名实体概率分布和第二词的所述第二对象相似度,得到命名实体类标 签c的概率之和;
[0022] 基于所述命名实体类标签c的概率之和,得到第二词的命名实体类型属于命名实 体类标签c的概率分布;
[0023] 在得到第二词的命名实体类型属于命名实体识别类标签集合C中不同命名实体类 标签的概率分布的情况下,选取取值最大的概率分布为所述第四实体概率分布。
[0024] 优选地,基于第二词的第二实体概率分布和第二词的所述第二上下文相似度,获 取第二词的命名实体类型属于命名实体类标签c的概率,包括:
[0025]基于公式 [0026]
[0027] 得到所述第二词的命名实体类型属于命名实体类标签c的概率,其中w为第二词、s 为一条测试文档,u为测试文档s所属目标对象,u'为非目标对象、T为第二词的实体类别分 布集合,P(c |t)为第二实体概率分布,γ是一个0-1函数,用于判断第二词w是否出现在目标 对象u所关注的u'中,ω是第二上下文相似度,Θ是一平滑因子,Z表示命名实体识类标签集 合C中每一个命名实体类标签c在第二词w、目标对象u、非目标对象u'、测试文档s以及每一 个第二词w对实体类别分布集合T的情况下的概率之和;
[0028] 所述基于所述第二词的命名实体类型属于命名实体类标签c的概率,得到所述第 二词的各个命名实体类型的概率之和,包括:
[0029] 基于公式
[0030] Z(w,u,u7 ,S,T)= Z〇ecp(c I w,u,u7 ,S,T)= Σ Cec Σ Ses^(s ,u7 ) · p(c|w,u,u7 ,s,t)
[0031] 得到所述第二词的各个命名实体类型的概率之和,其中S为测试文档集合,β是一 个0-1函数,用于判断一条测试文档是否属于非目标对象u';
[0032] 所述基于所述第二词的各个命名实类型的概率之和,得到所述第二词在所有测试 文档中的命名实体概率分布,包括:
[0033]基于公式
[0034] p(c|w,u,u7 ,S,T)= ) · p(c|w,u,u7 ,s,T)/Z(w,u,u/ ,S,T)
[0035] 得到所述第二词在所有测试文档中的命名实体概率分布。
[0036] 优选地,所述基于所述命名实体概率分布和第二词的所述第二对象相似度,得到 命名实体类标签c的概率之和,包括:
[0037]基于公式
[0038]
[0039] 得到所述命名实体类标签c的概率之和,其中U是非目标对象u'的集合,α是一个Ο-? 函数, 判定目 标对象 U 和非目 标对象 U ' 之间是否是关注关系, 0 为第二对象相似度, Θ 是一 平滑因子;
[0040]
[0041] 所述基于所述命名实体类标签c的概率之和,得到第二词的命名实体类型属于命 名实体类标签c的概率分布,包括:
[0042] 基于公式
[0043] p(c|w)=p(c|w,U,U,S,T)= Σ u7 eu Σ Ses Σ teTandt=wP(c IwjUjU7jSjT) ?p(c|w,u, U7 ,s,T)
[0044] 得到所述二词的命名实体类型属于命名实体类标签c的概率分布;
[0045] 所述在得到第二词的命名实体类型属于命名实体识别类标签集合C中不同命名实 体类标签的概率分布的情况下,选取取值最大的概率分布为所述第四实体概率分布,包括:
[0046]
;得到所述第四实 体概率分布。
[0047] 本发明还提供一种命名实体识别装置,所述装置包括:
[0048] 第一获取单元,用于基于初始构建的第一序列标注模型,对训练文档和测试文档 进行序列标注,得到每个训练文档中每个第一词的第一实体概率分布和每个测试文档中每 个第二词的第二实体概率分布;
[0049] 第二获取单元,用于获取每个第一词在各自对应的训练文档中的第一上下文相似 度以及每个第一词各自对应的训练文档所属目标对象之间的第一对象相似度;
[0050]第三获取单元,用于基于每个第一词的所述第一实体概率分布、每个第一词的所 述第一上下文相似度和每个第一词的所述第一对象相似度,得到相对应第一词的第三实体 概率分布;
[0051 ]第四获取单元,用于获取每个第二词在各自对应的训练文档中的第二上下文相似 度以及每个第二词各自对应的训练文档所属目标对象之间的第二对象相似度;
[0052] 第五获取单元,用于基于每个第二词的所述第二实体概率分布、每个第二词的所 述第二上下文相似度和每个第二词的所述第二对象相似度,得到相对应第二词的第四实体 概率分布;
[0053] 训练单元,用于基于每个第一词的第三实体概率分布,对所述第一序列标注模型 进行重新训练,得到第二序列标注模型;
[0054] 测试单元,用于将每个测试文档中每个第二词的第四实体概率分布作为相对应测 试文档的观测变量,并基于所述第二序列标注模型和所述测试文档的观测变量,对所述测 试文档进行序列标注,得到所述测试文档中每个第二词的命名实体。
[0055] 优选地,所述第四获取单元包括:
[0056] 第一获取子单元,用于获取词袋u和词袋V中共同具有的第二词的数量以及所述词 袋u和词袋V中第二词的总量,其中词袋u为一个第二词对应的训练文档的词集合,词袋V为 另一个第二词对应的训练文档的词集合;
[0057] 第二获取子单元,用于将所述第二词的数量与所述第二词的总量的比值作为所述 第二上下文相似度;
[0058] 第三获取子单元,用于基于所述每个训练文档的第二上下文相似度,得到训练文 档所属目标对象之间的第二对象相似度。
[0059]优选地,所述第五获取单元包括:
[0060] 第一概率获取子单元,用于基于第二词的第二实体概率分布和第二词的所述第二 上下文相似度,获取第二词的命名实体类型属于命名实体类标签c的概率,其中命名实体类 标签c位于命名实体识别类标签集合C中,且用于指示一种命名实体类型;
[0061] 第一概率和获取子单元,用于基于所述第二词的命名实体类型属于命名实体类标 签c的概率,得到所述第二
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1