一种实体识别方法和装置与流程

文档序号:18465734发布日期:2019-08-17 02:26阅读:181来源:国知局
一种实体识别方法和装置与流程
本申请涉及文本处理领域,尤其涉及一种实体识别方法和装置。
背景技术
:命名实体识别(namedentityrecognition,简称ner),是指识别文本中具有特定意义的实体。ner是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术的基础,能否准确的识别出文本中的实体对自然语言处理技术的处理效果影响重大。由于实体数量大且可能不断的更新,待识别文本中所包括的实体可能是训练语料中未出现实体(outofvocabulary,简称oov),训练语料难以覆盖全部实体。为此,需要结合实体词典识别实体。目前,针对待识别文本识别实体时,根据实体词典查找实体,并生成标签向量,将标签向量与词向量进行拼接输入到识别网络模型中,从而得到待识别文本中各个分词词条分别对应各个标签的分值,进而根据分值识别出实体。由于这种方法是在词向量输入到识别网络模型前结合实体词典,与实体词典相关的特征处于识别网络模型的输入层,使得实体词典对于输出层输出的分值影响非常小,难以发挥实体词典对于计算分值的作用,进而使得计算得到的分值不够准确,从而影响实体识别对实体的召回。技术实现要素:为了解决现有技术问题,本申请提供了一种实体识别方法和装置,增强了实体词典对于计算每类标签分值的影响,充分发挥实体词典的作用,使得计算得到的分值更加准确,从而可以通过实体识别更多的召回实体。第一方面,本申请实施例提供一种命名实体识别方法,所述方法包括:获取待识别文本中分词词条的词向量;根据所述分词词条的词向量和实体识别模型确定所述分词词条对应每类标签的第一分值;分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分,所述分词词条的特征向量是通过实体识别模型对所述分词词条的词向量进行处理得到的;根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值;根据所述第二分值识别所述待识别文本中的实体。可选的,所述方法还包括:根据所述分词词条和实体词典中实体的匹配结果,生成所述分词词条的掩模向量;所述掩模向量用于确认所述分词词条所属的目标标签;所述根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值,包括:根据所述第一分值、所述第一匹配得分和所述掩模向量分别得到所述分词词条对应每类标签的第二分值。可选的,若所述待识别文本中包括多个分词词条,所述根据所述第二分值识别所述待识别文本中的实体,包括:针对所述多个分词词条中每个分词词条,将第二分值最高的标签确定为分词词条的标签,得到所述多个分词词条的标签;根据确定出的所述多个分词词条的标签,识别所述待识别文本中的实体。可选的,所述分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分,包括:分别根据所述分词词条的特征向量与每类标签的标签向量之间的内积确定所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分。可选的,所述根据所述分词词条和实体词典中实体的匹配结果,生成所述分词词条的掩模向量,包括:若根据所述匹配结果确定所述分词词条与所述实体词典中的多个实体相匹配,分别计算所述分词词条与每个实体的第二匹配得分;根据所述第二匹配得分生成所述分词词条的掩模向量。可选的,若根据所述匹配结果确定所述分词词条与所述实体词典中的目标实体相匹配,且所述目标实体包括多种语义,生成的所述掩模向量反映所述分词词条具有用于标识所述分词词条不构成目标实体的标签。可选的,所述根据第一分值、第一匹配得分和掩模向量分别得到所述分词词条对应每类标签的第二分值,包括:根据如下公式得到所述分词词条对应每类标签的第二分值:o'=o+s⊙m其中,o'表示所述分词词条对应每类标签的第二分值,o表示所述分词词条对应每类标签的第一分值,s=[s1,s2,……,sm],s为待识别文本中所述分词词条的特征向量与每类标签对应的标签向量的第一匹配得分,si表示待识别文本中所述分词词条的特征向量与第i类标签对应的标签向量的第一匹配得分,i=1,2,……m;其中,m为标签的类别数量;m表示所述分词词条的掩模向量,s⊙m表示s和m间的同或运算。可选的,所述实体识别模型为卷积神经网络模型,所述分词词条的特征向量为多层特征向量,每层特征向量来自于所述卷积神经网络模型的不同层,所述根据第一分值、第一匹配得分和掩模向量分别得到所述分词词条对应每类标签的第二分值,包括:根据如下公式得到所述分词词条对应每类标签的第二分值:其中,o'表示所述分词词条对应每类标签的第二分值,o表示所述分词词条对应每类标签的第一分值,sj=[s1,s2,……,sm],sj为根据第j层特征向量与每类标签对应的标签向量的第一匹配得分;aj为第j层特征向量对应的加权系数,j=1,2……k,k为特征向量的层数;m表示所述分词词条的掩模向量;ajsj⊙m表示ajsj和m间的同或运算。可选的,所述实体识别模型的训练方法包括:获取训练语料中分词词条的词向量;根据所述分词词条的词向量和实体识别模型确定所述分词词条对应每类标签的第一分值;分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分;根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值;根据所述词向量和所述第二分值对所述实体识别模型进行训练。第二方面,本申请实施例提供一种内容展示方法,所述方法包括:获取待识别文本;对所述待识别文本进行实体识别,所述实体识别的方式为根据第一方面任一项所述的命名实体识别方法确定的;根据实体识别结果,召回符合所述实体识别结果的内容,并展示所述内容。第三方面,本申请实施例提供一种命名实体识别装置,所述装置包括:获取单元,用于获取待识别文本中分词词条的词向量;第一确定单元,用于根据所述分词词条的词向量和实体识别模型确定所述分词词条对应每类标签的第一分值;计算单元,用于分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分,所述分词词条的特征向量是通过实体识别模型对所述分词词条的词向量进行处理得到的;第二确定单元,用于根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值;识别单元,用于根据所述第二分值识别所述待识别文本中的实体。可选的,所述装置还包括:生成单元,用于根据所述分词词条和实体词典中实体的匹配结果,生成所述分词词条的掩模向量;所述掩模向量用于确认所述分词词条所属的目标标签;所述第二确定单元,具体用于:根据所述第一分值、所述第一匹配得分和所述掩模向量分别得到所述分词词条对应每类标签的第二分值。可选的,若所述待识别文本中包括多个分词词条,所述识别单元,具体用于:针对所述多个分词词条中每个分词词条,将第二分值最高的标签确定为分词词条的标签,得到所述多个分词词条的标签;根据确定出的所述多个分词词条的标签,识别所述待识别文本中的实体。可选的,所述计算单元,具体用于:分别根据所述分词词条的特征向量与每类标签的标签向量之间的内积确定所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分。可选的,所述生成单元,具体用于:若根据所述匹配结果确定所述分词词条与所述实体词典中的多个实体相匹配,分别计算所述分词词条与每个实体的第二匹配得分;根据所述第二匹配得分生成所述分词词条的掩模向量。可选的,若根据所述匹配结果确定所述分词词条与所述实体词典中的目标实体相匹配,且所述目标实体包括多种语义,生成的所述掩模向量反映所述分词词条具有用于标识所述分词词条不构成目标实体的标签。可选的,所述第二确定单元,具体用于:根据如下公式得到所述分词词条对应每类标签的第二分值:o'=o+s⊙m其中,o'表示所述分词词条对应每类标签的第二分值,o表示所述分词词条对应每类标签的第一分值,s=[s1,s2,……,sm],s为待识别文本中所述分词词条的特征向量与每类标签对应的标签向量的第一匹配得分,si表示待识别文本中所述分词词条的特征向量与第i类标签对应的标签向量的第一匹配得分,i=1,2,……m;其中,m为标签的类别数量;m表示所述分词词条的掩模向量,s⊙m表示s和m间的同或运算。可选的,所述实体识别模型为卷积神经网络模型,所述分词词条的特征向量为多层特征向量,每层特征向量来自于所述卷积神经网络模型的不同层,所述第二确定单元,具体用于:根据如下公式得到所述分词词条对应每类标签的第二分值:其中,o'表示所述分词词条对应每类标签的第二分值,o表示所述分词词条对应每类标签的第一分值,sj=[s1,s2,……,sm],sj为根据第j层特征向量与每类标签对应的标签向量的第一匹配得分;aj为第j层特征向量对应的加权系数,j=1,2……k,k为特征向量的层数;m表示所述分词词条的掩模向量;ajsj⊙m表示ajsj和m间的同或运算。可选的,所述装置还包括:所述训练单元,用于获取训练语料中分词词条的词向量;根据所述分词词条的词向量和实体识别模型确定所述分词词条对应每类标签的第一分值;分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分;根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值;根据所述词向量和所述第二分值对所述实体识别模型进行训练。第四方面,本申请实施例提供一种内容展示装置,所述装置包括:获取单元,用于获取待识别文本;识别单元,用于对所述待识别文本进行实体识别,所述实体识别的方式为根据第一方面任一项所述的命名实体识别方法确定的;召回单元,用于根据实体识别结果,召回符合所述实体识别结果的内容,并展示所述内容。在本申请实施例中,在需要对待识别文本中的实体进行识别时,获取待识别文本中分词词条的词向量;根据分词词条的词向量和实体识别模型确定分词词条对应每类标签的第一分值。分别计算分词词条的特征向量与每类标签的标签向量之间的第一匹配得分,第一匹配得分反映分词词条具有每类标签的可能性。故,可以根据第一分值和第一匹配得分分别得到分词词条对应每类标签的第二分值,以在第一分值的基础上增加分词词条在实体词典中所具有的标签的分值。可见,通过在实体识别模型的输出层结合第一匹配得分,以在第一分值的基础上增加分词词条在实体词典中所具有的标签的分值,增强了实体词典对于计算每类标签分值的影响,充分发挥实体词典的作用,使得计算得到的分值更加准确,从而可以更多的召回实体。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本申请实施例提供的一种实体识别方法的流程图;图2为本申请实施例提供的一种实体识别方法的逻辑架构图;图3为本申请实施例提供的一种掩模向量的示例图;图4为本申请实施例提供的一种掩模向量的示例图;图5为本申请实施例提供的一种实体识别模型训练方法的流程图;图6为本申请实施例提供的一种内容展示方法的流程图;图7为本申请实施例提供的一种实体识别装置的结构图;图8为本申请实施例提供的一种内容展示装置的结构图。具体实施方式为了使本
技术领域
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。传统的实体识别方法由于是在词向量输入到识别网络模型前结合实体词典,与实体词典相关的特征处于识别网络模型的输入层,使得实体词典对于输出层输出的分值影响非常小,难以发挥实体词典对于计算分值的作用,进而使得计算得到的分值不够准确,导致影响实体识别的准确性。为此,本申请实施例提供一种实体识别方法,在需要对待识别文本中的实体进行识别时,获取待识别文本中分词词条的词向量;根据分词词条的词向量和实体识别模型确定分词词条对应每类标签的第一分值。分别计算分词词条的特征向量与每类标签的标签向量之间的第一匹配得分,第一匹配得分反映分词词条具有每类标签的可能性。故,可以根据第一分值、和第一匹配得分分别得到分词词条对应每类标签的第二分值,以在第一分值的基础上增加分词词条在实体词典中所具有的标签的分值。可见,通过在实体识别模型的输出层结合第一匹配得分,以在第一分值的基础上增加分词词条在实体词典中所具有的标签的分值,增强了实体词典对于计算每类标签分值的影响,充分发挥实体词典的作用,使得计算得到的分值更加准确,从而可以更多的召回实体。该方法可以应用到多种领域,例如,娱乐领域、医学领域、生物领域等等。其中,娱乐领域可能随着新电视剧、新电影、新音乐等的产生,从而产生一些新的实体,故娱乐领域中的实体的更新速率比较快。本申请实施例提供的方法在某些更新速率快的领域对于提高实体识别的准确性效果更为显著。接下来,本申请实施例将以娱乐领域为例,结合附图对本申请实施例提供的实体识别方法进行介绍。参见图1,该图为本申请实施例提供的一种实体识别方法的流程图,该方法包括如下步骤:s101、获取待识别文本中分词词条的词向量。参见图2所示,图2示出了一种利用实体识别模型进行实体识别的处理过程。图2中以实体识别模型是神经网络模型为例,该神经网络模型例如为卷积神经网络(convolutionalneuralnetworks,简称cnn)。当需要对文本中的实体进行识别时,可以将该文本作为待识别文本。对待识别文本进行分词,得到分词结果,并针对分词结果中的每个分词词条得到分词词条的词向量。例如,待识别文本为“可惜不是你吻戏cut4”,通过对待识别文本进行分词得到的分词词条是“可惜”、“不是”、“你”、“吻戏”、“cut”和“4”,进而得到各个分词词条的词向量。s102、根据所述分词词条的词向量和实体识别模型确定所述分词词条对应每类标签的第一分值。将分词词条的词向量输入到实体识别模型中可以得到分词词条对应每类标签的第一分值。如图2所示,得到第一分值o。在本实施例中,标签用于标识所述分词词条所构成实体的实体类型和所述分词词条在所构成实体中的位置;或者,所述标签用于标识所述分词词条不构成实体。在一种可能的实现方式中,标签采用实体类型+bieso标注体系的形式来表示。在bieso标注体系中,b表示其所标注的分词词条为实体开始词,i表示其所标注的分词词条为实体中间词,e表示其所标注的分词词条为实体结束词,s表示其所标注的分词词条单独成实体,o表示其所标注的分词词条不构成实体。实体类型可以包括多种,采用实体类型+bieso标注体系的形式构成标签的种类数可以为实体类型种类数与4的乘积,再加1。在本实施例中主要以三种实体类型为例进行介绍,包括专辑类(abum)、音乐类(music)、游戏类(game),实体类型+bieso标注体系的形式构成的标签表例如表示为b-abum,其体现出该标签所标注的分词词条为实体开始词,且该分词词条所构成实体的实体类型为专辑类。故,本实施例主要构成13类标签,接下来,都将以该13类标签为例进行介绍。13类标签分别如表1所示:表1ob-abumi-abume-abums-abumb-musici-musice-musics-musicb-gamei-gamee-games-game以上述确定出的分词词条是“可惜”、“不是”、“你”、“吻戏”、“cut”和“4”为例,本实施例将得到每个分词词条对应每类标签的第一分值,即得到分词词条“可惜”对应上述13类标签中每类标签的第一分值,分词词条“不是”对应上述13类标签中每类标签的第一分值等等,依次类推。s103、分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分。第一匹配得分可以反映出分词词条与标签之间的相关程度,二者之间的相关程度越高,第一匹配得分越高,利用第一匹配得分可以对s102得到的第一分值进行修正,得到更加准确的分词词条对应每类标签的分值。其中,针对每类标签,计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分,所述分词词条的特征向量是通过实体识别模型对所述分词词条的词向量进行处理得到的。在本实施中,若实体识别模型为cnn模型,所述实体识别模型可以包括多层处理结构,例如,输入层、隐含层、全连接层、输出层,其中,分词词条的词向量作为输入层的输入,经过隐含层处理后可以得到分词词条的特征向量。在一种可能的实现方式中,计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分,包括:根据所述分词词条的特征向量与所述每类标签的标签向量之间的内积确定所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分。需要说明的是,由于每类标签具有对应的标签向量,那么,13类标签对应13个标签向量,在s103中这13个标签向量可以构成一个标签矩阵lm×dl,以计算出分词词条的特征向量与每类标签的标签向量之间的第一匹配得分。其中,m为标签的类别数量,在本实施例中m可以为13,dl为每类标签的标签向量的维度,在标签矩阵lm×dl中每一行向量表示一类标签的标签向量。如图2所示,计算第一匹配得分s时,可以将标签向量构成一个标签矩阵l,根据实体识别模型得到特征向量h,从而利用标签矩阵l和特征向量h计算得到第一匹配得分s。故,可以采用如下公式确定所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分:sm×1=lm×dlwdl×dnhdn×1其中,wdl×dn为维度对齐矩阵,s=[s1,s2,……,sm],si表示待识别文本中所述分词词条的特征向量与第i类标签的标签向量之间的第一匹配得分,i=1,2,……m;其中,m为标签的类别数量;lm×dl为m类标签的标签向量构成的标签矩阵,dl为每类标签的标签向量的维度;hdn×1为所述分词词条的特征向量,dn为所述分词词条的特征向量维度。s104、根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值。s105、根据所述第二分值识别所述待识别文本中的实体。第一匹配得分反映分词词条具有每类标签的可能性,通过在实体识别模型的输出层结合第一匹配得分,以在第一分值的基础上增加分词词条在实体词典中所具有的标签的分值,增强了实体词典对于计算每类标签分值的影响,充分发挥实体词典的作用,使得计算得到的分值更加准确,从而可以更多的召回实体。在一种实现方式中,s104之前,还可以根据所述分词词条和实体词典中实体的匹配结果,生成所述分词词条的掩模向量;所述掩模向量用于确认所述分词词条所属的目标标签。参见图2,将所述分词词条和实体词典中实体进行匹配得到匹配结果,从而根据匹配结果生成所述分词词条的掩模向量m。其中,实体词典中包括实体和实体类型,例如表2所示:表2实体实体类型可惜不是你abum可惜不是你music延禧攻略abum英雄联盟game若将所述分词词条和实体词典中实体进行匹配时,分词词条与实体词典中的某个实体相匹配,则可以根据匹配到的实体确定分词词条对应的标签。以上述确定出的分词词条是“可惜”、“不是”、“你”、“吻戏”、“cut”和“4”为例,通过将分词词条与实体词典进行匹配可以匹配到实体词典中“可惜不是你”这个实体,该实体在实体词典中的实体类型为abum或music,并且“可惜”是实体“可惜不是你”的实体开始词,故其所属的标签为b-abum或b-music;“不是”是实体“可惜不是你”的实体中间词,故其所属的标签为i-abum或i-music;“你”是实体“可惜不是你”的实体结束词,故其所属的标签为e-abum或e-music;而分词词条“吻戏”、“cut”和“4”并未匹配到实体,故其对应的标签都是o。根据匹配结果生成的掩模向量可以参见图3所示。其中,每个分词词条所在行的数值构成的向量为该分词词条的掩模向量,所有分词词条的掩模向量构成掩模矩阵。图3中针对每个分词词条对应的掩模向量中,1表示根据匹配结果确定出该分词词条具有某个标签,0表示根据匹配结果确定出该分词词条不具有某个标签。例如,图3中分词词条“可惜”所对应的掩模向量为(0,1,0,0,0,1,0,0,0,0,0,0,0),表示“可惜”所具有的标签包括b-abum和b-music。需要说明的是,若根据所述匹配结果确定所述分词词条构成所述实体词典中的目标实体,且所述目标实体包括多种语义,为了避免过度召回存在歧义的目标实体,在生成掩模向量时可以确认所述分词词条还具有用于标识所述分词词条不构成目标实体的标签。例如在文本“可惜不是你和我一起去看电影”中,“可惜不是你”虽然出现在实体词典中,但是“可惜不是你”所要表达的并非一个实体,故在生成掩模向量时海需要确认所述分词词条还具有用于标识所述分词词条不构成实体的标签,此时生成的掩模向量参见图4所示。在这种情况下,s104的一种可能实现方式是根据第一分值、第一匹配得分和掩模向量分别得到所述分词词条对应每类标签的第二分值。利用第一匹配得分可以对s102得到的第一分值进行修正时,由于掩模向量可以准确的体现出实体词典中分词词条具有哪些向量,故如图2所示,根据第一分值、第一匹配得分和掩模向量分别得到所述分词词条对应每类标签的第二分值o’,在第一分值的基础上增加分词词条在实体词典中所具有的标签的分值,并抑制分词词条在实体词典中不具有的标签的分值,得到更加准确的分词词条对应每类标签的分值。据第一分值、第一匹配得分和掩模向量分别得到所述分词词条对应每类标签的第二分值,具体可以根据如下公式执行:o'=o+s⊙m其中,o'表示所述分词词条对应每类标签的第二分值,o表示所述分词词条对应每类标签的第一分值,s=[s1,s2,……,sm],s为待识别文本中所述分词词条的特征向量与每类标签对应的标签向量的第一匹配得分,si表示待识别文本中所述分词词条的特征向量与第i类标签对应的标签向量的第一匹配得分,i=1,2,……m;其中,m为标签的类别数量;m表示所述分词词条的掩模向量;s⊙m表示s和m间的同或运算。可以理解的是,通过s101-s104可以确定出待识别文本中分词词条对应的第二分值,根据第二分值可以确定出分词词条具有的标签,例如,针对多个分词词条中每个目标分词词条,可以将第二分值最高的标签确定为目标分词词条的标签,分别得到多个分词词条的标签。进而根据标签识别出待识别文本中的实体。因此,若所述待识别文本中包括多个分词词条,s104之后,所述方法还包括:针对所述多个分词词条中每个目标分词词条,将第二分值最高的标签确定为所述目标分词词条的标签,分别得到多个分词词条的标签;根据确定出的所述多个分词词条的标签,识别所述待识别文本中的实体。例如,待识别文本为“可惜不是你吻戏cut4”,得到的分词词条包括“可惜”、“不是”、“你”、“吻戏”、“cut”和“4”,若将第二分值最高的标签作为分词词条的标签,确定“可惜”的标签为b-abum,“不是”的标签为i-abum,“你”的标签为e-abum,“吻戏”、“cut”和“4”的标签为o,则根据标签可以确定出分词词条“可惜”、“不是”和“你”构成一个实体,从而识别出“可惜不是你吻戏cut4”中的实体为“可惜不是你”。在本申请实施例中,在需要对待识别文本中的实体进行识别时,获取待识别文本中分词词条的词向量;根据分词词条的词向量和实体识别模型确定分词词条对应每类标签的第一分值。分别计算分词词条的特征向量与每类标签的标签向量之间的第一匹配得分,第一匹配得分反映分词词条具有每类标签的可能性。故,可以根据第一分值和第一匹配得分分别得到分词词条对应每类标签的第二分值,以在第一分值的基础上增加分词词条在实体词典中所具有的标签的分值。可见,通过在实体识别模型的输出层结合第一匹配得分,以在第一分值的基础上增加分词词条在实体词典中所具有的标签的分值,增强了实体词典对于计算每类标签分值的影响,充分发挥实体词典的作用,使得计算得到的分值更加准确,从而可以更多的召回实体。在一些情况下,若所述实体识别模型为卷积神经网络模型,所述分词词条的特征向量为多层特征向量,每层特征向量来自于所述卷积神经网络模型的不同层,根据第一分值、第一匹配得分和掩模向量分别得到所述分词词条对应每类标签的第二分值,具体可以根据如下公式执行:其中,o'表示所述分词词条对应每类标签的第二分值,o表示所述分词词条对应每类标签的第一分值,sj=[s1,s2,……,sm],sj为根据第j层特征向量与每类标签对应的标签向量的第一匹配得分;aj为第j层特征向量对应的加权系数,j=1,2……k,k为特征向量的层数;m表示所述分词词条的掩模向量;ajsj⊙m表示ajsj和m间的同或运算。图1对应的实施例中,在确定第二分值过程采用实体识别模型,该实体识别模型与传统的实体识别模型有所不同,该实体识别模型保留了传统实体识别模型根据待识别文本中分词词条的词向量确定出第一分值的功能,并在此基础上改变了实体词典的结合方式,即将根据实体词典得到的相关特征应用到实体识别模型的输出层,而非与词向量共同作为实体识别模型输入层的输入,从而充分发挥实体词典的作用。需要说明的是,在一些情况下,待识别文本中可能包括多个分词词条,分词词条可能与多个实体相匹配,其中,可能包括单个分词词条单独成实体,还可能包括多个分次词条组合构成实体。例如“流浪地球”,对“流浪地球”进行分词后得到分词词条“流浪”和“地球”,实体词典中可能包括实体“地球”和实体“流浪地球”(影视)。将“流浪”和“地球”与实体词典进行匹配时,可以得到匹配结果“流浪”是实体“流浪地球”的实体开始词,“地球”是实体“流浪地球”的实体结束词;还可以得到匹配结果“流浪”不构成实体,“地球”单独成实体“地球”。在这种情况下,分别计算所述分词词条与每个实体的第二匹配得分,根据所述第二匹配得分生成所述分词词条的掩模向量。例如,将第二匹配得分高的实体作为分词词条构成的实体,从而生成分词词条的掩模向量。通常情况下,分词词条组合构成实体对应的第二匹配得分高于分词词条单独构成实体对应的第二匹配得分。也就是说,在上述例子中,“流浪”和“地球”与实体“流浪地球”的第二匹配得分高于“流浪”不构成实体,“地球”单独成实体“地球”的第二匹配得分,这样,“流浪”对应的标签为b-abum,“地球”对应的标签为e-abum,生成的掩模向量中b-abum和e-abum用1标识。接下来,将对实体识别模型的训练方法进行介绍。参见图5所示,所述实体识别模型的训练方法包括:s501、获取训练语料中分词词条的词向量。s502、根据所述分词词条的词向量和实体识别模型确定所述分词词条对应每类标签的第一分值。s503、分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分。s504、根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值。s505、根据所述词向量和所述第二分值对所述实体识别模型进行训练。通过该实体识别模型训练方法得到的实体识别模型,与传统实体识别模型相比,结构发生了明显变化,在训练实体识别模型时通过在实体识别模型的输出层结合实体词典得到掩模向量,以在第一分值的基础上增加分词词条在实体词典中所具有的标签的分值,增强了实体词典对于计算每类标签分值的影响,充分发挥实体词典的作用,使得利用该实体识别模型计算得到的分值更加准确,从而可以更多的召回实体。基于前述实施例提供的实体识别方法,本申请实施例还提供一种内容展示方法,接下来,将对内容展示方法进行介绍。参见图6所示,所述方法包括:s601、获取待识别文本。s602、对所述待识别文本进行实体识别。其中,所述实体识别的方式参见图1-图4对应的实施例所述的任意方法,此处不再赘述。s603、根据实体识别结果,召回符合所述实体识别结果的内容,并展示所述内容。基于前述实施例所述的命名实体识别方法,本申请实施例提供一种命名实体识别装置,参见图7,所述装置包括:获取单元701,用于获取待识别文本中分词词条的词向量;第一确定单元702,用于根据所述分词词条的词向量和实体识别模型确定所述分词词条对应每类标签的第一分值;计算单元703,用于分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分,所述分词词条的特征向量是通过实体识别模型对所述分词词条的词向量进行处理得到的;第二确定单元704,用于根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值;识别单元705,用于根据所述第二分值识别所述待识别文本中的实体。可选的,所述装置还包括:生成单元,用于根据所述分词词条和实体词典中实体的匹配结果,生成所述分词词条的掩模向量;所述掩模向量用于确认所述分词词条所属的目标标签;所述第二确定单元,具体用于:根据所述第一分值、所述第一匹配得分和所述掩模向量分别得到所述分词词条对应每类标签的第二分值。可选的,若所述待识别文本中包括多个分词词条,所述识别单元,具体用于:针对所述多个分词词条中每个分词词条,将第二分值最高的标签确定为分词词条的标签,得到所述多个分词词条的标签;根据确定出的所述多个分词词条的标签,识别所述待识别文本中的实体。可选的,所述计算单元,具体用于:分别根据所述分词词条的特征向量与每类标签的标签向量之间的内积确定所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分。可选的,所述生成单元,具体用于:若根据所述匹配结果确定所述分词词条与所述实体词典中的多个实体相匹配,分别计算所述分词词条与每个实体的第二匹配得分;根据所述第二匹配得分生成所述分词词条的掩模向量。可选的,若根据所述匹配结果确定所述分词词条与所述实体词典中的目标实体相匹配,且所述目标实体包括多种语义,生成的所述掩模向量反映所述分词词条具有用于标识所述分词词条不构成目标实体的标签。可选的,所述第二确定单元,具体用于:根据如下公式得到所述分词词条对应每类标签的第二分值:o'=o+s⊙m其中,o'表示所述分词词条对应每类标签的第二分值,o表示所述分词词条对应每类标签的第一分值,s=[s1,s2,……,sm],s为待识别文本中所述分词词条的特征向量与每类标签对应的标签向量的第一匹配得分,si表示待识别文本中所述分词词条的特征向量与第i类标签对应的标签向量的第一匹配得分,i=1,2,……m;其中,m为标签的类别数量;m表示所述分词词条的掩模向量,s⊙m表示s和m间的同或运算。可选的,所述实体识别模型为卷积神经网络模型,所述分词词条的特征向量为多层特征向量,每层特征向量来自于所述卷积神经网络模型的不同层,所述第二确定单元,具体用于:根据如下公式得到所述分词词条对应每类标签的第二分值:其中,o'表示所述分词词条对应每类标签的第二分值,o表示所述分词词条对应每类标签的第一分值,sj=[s1,s2,……,sm],sj为根据第j层特征向量与每类标签对应的标签向量的第一匹配得分;aj为第j层特征向量对应的加权系数,j=1,2……k,k为特征向量的层数;m表示所述分词词条的掩模向量;ajsj⊙m表示ajsj和m间的同或运算。可选的,所述装置还包括:所述训练单元,用于获取训练语料中分词词条的词向量;根据所述分词词条的词向量和实体识别模型确定所述分词词条对应每类标签的第一分值;分别计算所述分词词条的特征向量与每类标签的标签向量之间的第一匹配得分;根据第一分值和第一匹配得分分别得到所述分词词条对应每类标签的第二分值;根据所述词向量和所述第二分值对所述实体识别模型进行训练。基于前述实施例提供的内容展示装置,本申请实施例提供一种内容展示装置,参见图8,所述装置包括:获取单元801,用于获取待识别文本;识别单元802,用于对所述待识别文本进行实体识别,所述实体识别的方式为根据第一方面任一项所述的命名实体识别方法确定的;召回单元803,用于根据实体识别结果,召回符合所述实体识别结果的内容,并展示所述内容。当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。以上所述仅是本申请的具体实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1