一种命名实体识别方法及装置的制造方法

文档序号：9787434阅读：372来源：国知局

一种命名实体识别方法及装置的制造方法
【技术领域】
[0001]本发明属于命名实体技术领域，更具体的说，尤其涉及一种命名实体识别方法及装置。
【背景技术】
[0002] 命名实体是指具有特定意义的实体，如人名李三，而命名实体识别则是识别文本中具有特定意义的实体，主要包括人名、地名、机构名和专有名词等，这些识别出的实体作为后续信息抽取任务的输入，如可以作为关系抽取、事件抽取、细粒度的情感分析等信息抽取任务的输入，因此命名实体识别结果的好坏直接影响后续信息抽取任务的效果。
[0003] 目前命名实体识别方法已经有很多，如专利号为201310201310674046.7的识别方法，其过程为:对待处理文本中的特殊词进行识别；对待处理文本中的型号实体进行识别，并用预设的数字串将待处理文本中被识别出为型号实体的特殊词替换，然后在此基础上进行商品实体、商品分类实体、品牌实体、商品属性名实体以及商品属性值实体等实体的识另Ij，这种识别方法主要针对一般文本，而社交网络中的文本主要是短文本，如微博或者QQ这种社交网络中，用户发布的文本多数是短文本，且社交网络中用户会彼此关注，但是目前的命名实体识别方法并没有基于这一特征，因此急需一种适用于微博或者QQ这些社交网络的命名实体识别方法。

【发明内容】

[0004] 有鉴于此，本发明的目的在于提供一种命名实体识别方法及装置，用于基于社交网络信息进行命名实体的识别，以适用于社交网络。技术方案如下：
[0005] 本发明提供一种命名实体识别方法，所述方法包括：
[0006] 基于初始构建的第一序列标注模型，对训练文档和测试文档进行序列标注，得到每个训练文档中每个第一词的第一实体概率分布和每个测试文档中每个第二词的第二实体概率分布；
[0007] 获取每个第一词在各自对应的训练文档中的第一上下文相似度以及每个第一词各自对应的训练文档所属目标对象之间的第一对象相似度；
[0008] 基于每个第一词的所述第一实体概率分布、每个第一词的所述第一上下文相似度和每个第一词的所述第一对象相似度，得到相对应第一词的第三实体概率分布；
[0009] 获取每个第二词在各自对应的训练文档中的第二上下文相似度以及每个第二词各自对应的训练文档所属目标对象之间的第二对象相似度；
[0010] 基于每个第二词的所述第二实体概率分布、每个第二词的所述第二上下文相似度和每个第二词的所述第二对象相似度，得到相对应第二词的第四实体概率分布；
[0011] 基于每个第一词的第三实体概率分布，对所述第一序列标注模型进行重新训练，得到第二序列标注模型；
[0012] 将每个测试文档中每个第二词的第四实体概率分布作为相对应测试文档的观测变量，并基于所述第二序列标注模型和所述测试文档的观测变量，对所述测试文档进行序列标注，得到所述测试文档中每个第二词的命名实体。
[0013] 优选地，所述获取每个第二词在各自对应的训练文档中的第二上下文相似度以及每个第二词各自对应的训练文档所属目标对象之间的第二对象相似度，包括：
[0014] 获取词袋U和词袋V中共同具有的第二词的数量以及所述词袋U和词袋V中第二词的总量，其中词袋U为一个第二词对应的训练文档的词集合，词袋V为另一个第二词对应的训练文档的词集合；
[0015] 将所述第二词的数量与所述第二词的总量的比值作为所述第二上下文相似度；
[0016] 基于所述每个训练文档的第二上下文相似度，得到训练文档所属目标对象之间的第二对象相似度。
[0017] 优选地，所述基于每个第二词的所述第二实体概率分布、每个第二词的所述第二上下文相似度和每个第二词的所述第二对象相似度，得到相对应第二词的第四实体概率分布，包括：
[0018] 基于第二词的第二实体概率分布和第二词的所述第二上下文相似度，获取第二词的命名实体类型属于命名实体类标签c的概率，其中命名实体类标签c位于命名实体识别类标签集合C中，且用于指示一种命名实体类型；
[0019] 基于所述第二词的命名实体类型属于命名实体类标签c的概率，得到所述第二词的各个命名实体类型的概率之和；
[0020] 基于所述第二词的各个命名实类型的概率之和，得到所述第二词在所有测试文档中的命名实体概率分布；
[0021] 基于所述命名实体概率分布和第二词的所述第二对象相似度，得到命名实体类标签c的概率之和；
[0022] 基于所述命名实体类标签c的概率之和，得到第二词的命名实体类型属于命名实体类标签c的概率分布；
[0023] 在得到第二词的命名实体类型属于命名实体识别类标签集合C中不同命名实体类标签的概率分布的情况下，选取取值最大的概率分布为所述第四实体概率分布。
[0024] 优选地，基于第二词的第二实体概率分布和第二词的所述第二上下文相似度，获取第二词的命名实体类型属于命名实体类标签c的概率，包括：
[0025]基于公式 [0026]
[0027] 得到所述第二词的命名实体类型属于命名实体类标签c的概率，其中w为第二词、s 为一条测试文档，u为测试文档s所属目标对象，u'为非目标对象、T为第二词的实体类别分布集合，P(c |t)为第二实体概率分布，γ是一个0-1函数，用于判断第二词w是否出现在目标对象u所关注的u'中，ω是第二上下文相似度，Θ是一平滑因子，Z表示命名实体识类标签集合C中每一个命名实体类标签c在第二词w、目标对象u、非目标对象u'、测试文档s以及每一个第二词w对实体类别分布集合T的情况下的概率之和；
[0028] 所述基于所述第二词的命名实体类型属于命名实体类标签c的概率，得到所述第二词的各个命名实体类型的概率之和，包括：
[0029] 基于公式
[0030] Z(w,u,u7 ,S,T)= Z〇ecp(c I w,u,u7 ,S,T)= Σ Cec Σ Ses^(s ,u7 ) · p(c|w,u,u7 ,s,t)
[0031] 得到所述第二词的各个命名实体类型的概率之和，其中S为测试文档集合，β是一个0-1函数，用于判断一条测试文档是否属于非目标对象u'；
[0032] 所述基于所述第二词的各个命名实类型的概率之和，得到所述第二词在所有测试文档中的命名实体概率分布，包括：
[0033]基于公式
[0034] p(c|w,u,u7 ,S,T)= ) · p(c|w,u,u7 ,s,T)/Z(w,u,u/ ,S,T)
[0035] 得到所述第二词在所有测试文档中的命名实体概率分布。
[0036] 优选地，所述基于所述命名实体概率分布和第二词的所述第二对象相似度，得到命名实体类标签c的概率之和，包括：
[0037]基于公式
[0038]
[0039] 得到所述命名实体类标签c的概率之和，其中U是非目标对象u'的集合，α是一个Ο-? 函数，判定目标对象 U 和非目标对象 U ' 之间是否是关注关系， 0 为第二对象相似度， Θ 是一平滑因子；
[0040]
[0041] 所述基于所述命名实体类标签c的概率之和，得到第二词的命名实体类型属于命名实体类标签c的概率分布，包括：
[0042] 基于公式
[0043] p(c|w)=p(c|w,U,U,S,T)= Σ u7 eu Σ Ses Σ teTandt=wP(c IwjUjU7jSjT) ?p(c|w,u, U7 ，s，T)
[0044] 得到所述二词的命名实体类型属于命名实体类标签c的概率分布；
[0045] 所述在得到第二词的命名实体类型属于命名实体识别类标签集合C中不同命名实体类标签的概率分布的情况下，选取取值最大的概率分布为所述第四实体概率分布，包括：
[0046]
;得到所述第四实体概率分布。
[0047] 本发明还提供一种命名实体识别装置，所述装置包括：
[0048] 第一获取单元，用于基于初始构建的第一序列标注模型，对训练文档和测试文档进行序列标注，得到每个训练文档中每个第一词的第一实体概率分布和每个测试文档中每个第二词的第二实体概率分布；
[0049] 第二获取单元，用于获取每个第一词在各自对应的训练文档中的第一上下文相似度以及每个第一词各自对应的训练文档所属目标对象之间的第一对象相似度；
[0050]第三获取单元，用于基于每个第一词的所述第一实体概率分布、每个第一词的所述第一上下文相似度和每个第一词的所述第一对象相似度，得到相对应第一词的第三实体概率分布；
[0051 ]第四获取单元，用于获取每个第二词在各自对应的训练文档中的第二上下文相似度以及每个第二词各自对应的训练文档所属目标对象之间的第二对象相似度；
[0052] 第五获取单元，用于基于每个第二词的所述第二实体概率分布、每个第二词的所述第二上下文相似度和每个第二词的所述第二对象相似度，得到相对应第二词的第四实体概率分布；
[0053] 训练单元，用于基于每个第一词的第三实体概率分布，对所述第一序列标注模型进行重新训练，得到第二序列标注模型；
[0054] 测试单元，用于将每个测试文档中每个第二词的第四实体概率分布作为相对应测试文档的观测变量，并基于所述第二序列标注模型和所述测试文档的观测变量，对所述测试文档进行序列标注，得到所述测试文档中每个第二词的命名实体。
[0055] 优选地，所述第四获取单元包括：
[0056] 第一获取子单元，用于获取词袋u和词袋V中共同具有的第二词的数量以及所述词袋u和词袋V中第二词的总量，其中词袋u为一个第二词对应的训练文档的词集合，词袋V为另一个第二词对应的训练文档的词集合；
[0057] 第二获取子单元，用于将所述第二词的数量与所述第二词的总量的比值作为所述第二上下文相似度；
[0058] 第三获取子单元，用于基于所述每个训练文档的第二上下文相似度，得到训练文档所属目标对象之间的第二对象相似度。
[0059]优选地，所述第五获取单元包括：
[0060] 第一概率获取子单元，用于基于第二词的第二实体概率分布和第二词的所述第二上下文相似度，获取第二词的命名实体类型属于命名实体类标签c的概率，其中命名实体类标签c位于命名实体识别类标签集合C中，且用于指示一种命名实体类型；
[0061] 第一概率和获取子单元，用于基于所述第二词的命名实体类型属于命名实体类标签c的概率，得到所述第二

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张晨;谢隆飞;尹泓钦;王全礼;
技术所有人：中国建设银行股份有限公司;
我是此专利的发明人

上一篇：智能储物装置及基于智能储物装置的存取识别方法、系统的制作方法
上一篇：一种基于知识库的查询分面生成方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。