命名实体的识别方法及装置的制造方法

文档序号:9506169阅读:356来源:国知局
命名实体的识别方法及装置的制造方法
【技术领域】
[0001]本公开涉及自然语言技术领域,尤其涉及一种命名实体的识别方法及装置。
【背景技术】
[0002]随着移动终端技术的快速发展,各种移动终端例如手机已非常普及,并且为人们提供了便利,例如,用户可以利用手机短信进行事件提醒,也可以利用手机进行导航。
[0003]自然语言处理和机器学习是人工智能的一个重要方向,而命名实体识别(NameEntity Recognit1n, NER)是这些研究中重要且不可缺少的一步。在语言文本中,命名实体是信息的主要载体,用来表达文本的主要内容。命名实体识别可以用于辅助进行事件提取,以进行事件提醒,也可以用于导航,因此,如何进行命名实体识别是一个急需解决的技术问题。
[0004]目前,可以对实体识别模型进行训练,以学习出实体识别模型的参数,然后利用具有该参数的实体识别模型识别出自然语言文本中的命名实体。但是,这种识别方法资源消耗大,无法对手机短信上的命名实体进行识别。

【发明内容】

[0005]为克服相关技术中存在的问题,本公开提供一种命名实体的识别方法及装置。
[0006]根据本公开实施例的第一方面,提供一种命名实体的识别方法,包括:
[0007]记录用户在输入信息时输入的词序列;
[0008]根据条件随机场CRF识别出所述信息中的候选命名实体;
[0009]根据记录的所述词序列对所述候选命名实体进行校正,以识别出所述信息中的命名实体。
[0010]在一实施例中,所述方法还包括:
[0011 ] 在所述识别出所述信息中的命名实体之后,采用预设的实体标签对所述信息中的命名实体进行标注;
[0012]发送标注后的信息,以便接收端对所述标注后的信息进行还原;所述信息包括短
?目息。
[0013]在一实施例中,所述方法还包括:
[0014]在所述识别出所述信息中的命名实体之后,根据所述命名实体生成提醒记录或进行预设的业务操作,所述预设的业务操作包括导航操作。
[0015]在一实施例中,所述根据记录的所述词序列对所述候选命名实体进行校正,以识别出所述信息中的命名实体,包括:
[0016]根据所述词序列确定每个候选命名实体的左边界和右边界;
[0017]根据所述每个候选命名实体的左边界和右边界确定所述信息中的命名实体。
[0018]在一实施例中,所述根据所述词序列确定每个候选命名实体的左边界和右边界,包括:
[0019]判断当前候选命名实体的第一个字符是否为对应词序列的第一个字符,若为对应词序列的第一个字符,则确定所述当前候选命名实体的第一个字符为左边界;
[0020]判断当前候选命名实体的最后一个字符是否为所述对应词序列的最后一个字符,若为所述对应词序列的最后一个字符,则确定所述当前候选命名实体的最后一个字符为右边界。
[0021 ] 在一实施例中,所述方法还包括:
[0022]若当前候选命名实体的第一个字符不是对应词序列的第一个字符,则将对应词序列中所述当前候选命名实体的第一个字符之前的词确定为第一对象,将所述第一对象之前的词确定为第二对象;
[0023]计算所述第一对象之后出现命名实体的概率,并将计算结果确定为第一概率;
[0024]计算所述第二对象之后出现命名实体的概率,并将计算结果确定为第二概率;
[0025]若所述第一概率大于所述第二概率,则确定所述当前候选命名实体的第一个字符为左边界,若所述第一概率小于所述第二概率,则确定所述第一对象的第一个字符为左边界。
[0026]在一实施例中,所述方法还包括:
[0027]若当前候选命名实体的最后一个字符不是所述对应词序列的最后一个字符,则将对应词序列中所述当前候选命名实体的最后一个字符之后的词确定为第三对象,将所述对应词序列的最后一个字符之后的词符确定为第四对象;
[0028]计算命名实体之后出现所述第三对象的概率,并将计算结果确定为第三概率;
[0029]计算命名实体之后出现所述第四对象的概率,并将计算结果确定为第四概率;
[0030]若所述第三概率大于所述第四概率,则将当前候选命名实体的最后一个字符确定为右边界,若所述第三概率小于所述第四概率,则将所述对应词序列的最后一个字符确定为右边界。
[0031]根据本公开实施例的第二方面,提供一种命名实体的识别装置,包括:
[0032]记录模块,被配置为记录用户在输入信息时输入的词序列;
[0033]识别模块,被配置为根据条件随机场CRF识别出所述信息中的候选命名实体;
[0034]校正模块,被配置为根据所述记录模块记录的所述词序列对所述识别模块识别出的所述候选命名实体进行校正,以识别出所述信息中的命名实体。
[0035]在一实施例中,所述装置还包括:
[0036]标注模块,被配置为在所述校正模块识别出所述信息中的命名实体之后,采用预设的实体标签对所述信息中的命名实体进行标注;
[0037]发送模块,被配置为发送所述标注模块标注后的信息,以便接收端对所述标注后的信息进行还原;所述信息包括短信息。
[0038]在一实施例中,所述装置还包括:
[0039]生成操作模块,被配置为在所述校正模块识别出所述信息中的命名实体之后,根据所述命名实体生成提醒记录或进行预设的业务操作,所述预设的业务操作包括导航操作。
[0040]在一实施例中,所述校正模块,包括:
[0041]第一确定子模块,被配置为根据所述词序列确定每个候选命名实体的左边界和右边界;
[0042]第二确定子模块,被配置为根据所述每个候选命名实体的左边界和右边界确定所述信息中的命名实体。
[0043]在一实施例中,所述第一确定子模块包括:
[0044]第一判断确定单元,被配置为判断当前候选命名实体的第一个字符是否为对应词序列的第一个字符,若为对应词序列的第一个字符,则确定所述当前候选命名实体的第一个字符为左边界;
[0045]第二判断确定单元,被配置为判断当前候选命名实体的最后一个字符是否为所述对应词序列的最后一个字符,若为所述对应词序列的最后一个字符,则确定所述当前候选命名实体的最后一个字符为右边界。
[0046]在一实施例中,所述第一确定子模块还包括:
[0047]第一对象确定单元,被配置为若所述第一判断确定单元确定当前候选命名实体的第一个字符不是对应词序列的第一个字符,则将对应词序列中所述当前候选命名实体的第一个字符之前的词确定为第一对象,将所述第一对象之前的词确定为第二对象;
[0048]第一计算单元,被配置为计算所述第一对象确定单元确定出的所述第一对象之后出现命名实体的概率,并将计算结果确定为第一概率;
[0049]第二计算单元,被配置为计算所述第一对象确定单元确定出的所述第二对象之后出现命名实体的概率,并将计算结果确定为第二概率;
[0050]左边界确定单元,被配置为若所述第一计算单元计算出的所述第一概率大于所述第二计算单元计算出的所述第二概率,则确定所述当前候选命名实体的第一个字符为左边界,若所述第一概率小于所述第二概率,则确定所述第一对象的第一个字符为左边界。
[0051]在一实施例中,所述第一确定子模块还包括:
[0052]第二对象确定单元,被配置为若所述第二判断确定单元确定当前候选命名实体的最后一个字符不是所述对应词序列的最后一个字符,则将对应词序列中所述当前候选命名实体的最后一个字符之后的词确定为第三对象,将所述对应词序列的最后一个字符之后的词符确定为第四对象;
[0053]第三计算单元,被配置为计算命名实体之后出现所述第二对象确定单元确定的所述第三对象的概率,并将计算结果确定为第三概率;
[0054]第四计算单元,被配置为计算命名实体之后出现所述第二对象确定单元确定的所述第四对象的概率,并将计算结果确定为第四概率;
[0055]右边界确定单元,被配置为若所述第三计算单元计算出的所述第三概率大于所述第四计算单元计算出的所述第四概率,则将当前候选命名实体的最后一个字符确定为右边界,若所述第三概率小于所述第四概率,则将所述对应词序列的最后一个字符确定为右边界。
[0056]根据本公开实施例的第三方面,提供一种命名实体的识别装置,包括:
[0057]处理器;
[0058]用于存储处理器可执行指令的存储器;
[0059]其中,处理器被配置为:
[0060]记录用户在输入信息时输入的词序列;
[0061]根据条件随机场CRF识别出所述信息中的候选命名实体;
[0062]根据记录的所述词序列对所述候选命名实体进行校正,以识别出所述信息中的命名实体。
[0063]本公开的实施例提供的技术方案可以包括以下有益效果:根据记录的词序列对候选命名实体进行校正,不仅能够从信息中自动识别出命名实体,而且识别的准确率高、消耗的资源少。
[0064]采用一种融合实体标签标注的短信发送格式,大大降低了短信中命名实体识别时的资源消耗。
[0065]可以根据命名实体生成提醒记录或进行预设的业务操作,为用户提供了便利。
[0066]通过提供一种根据输入的词序列确定当前候选命名实体的左边界和右边界的方式,为从信息中识别出命名实体提供了条件。
[0067]通过提供另一种根据输入的词序列确定当前候选命名实体的左边界的方式,从而为从信息中识别出命名实体提供了条件。
[0068]通过提供另一种根据输入的词序列确定当前候选命名实体的右边界的方式,从而为从信息中识别出命名实体提供了条件。
[0069]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
【附图说明】
[0070]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[007
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1