实体识别方法、装置、设备及存储介质与流程

文档序号：30975244发布日期：2022-08-02 23:06阅读：132来源：国知局

1.本公开涉及信息技术领域，尤其涉及一种实体识别方法、装置、设备及存储介质。

背景技术：

2.实体是自然语言文本中重要的组成部分，例如命名实体，它对于信息抽取、实体链接、问答系统等下游任务非常重要，也因此引起了学术界和工业界的一致关注。
3.现有技术提出了多模态命名实体识别技术，即在给定多模态信息的情况下，识别出自然语言文本中的命名实体。
4.但是，本技术的发明人发现，现有技术中的多模态命名实体识别技术无法准确的识别出命名实体。

技术实现要素：

5.为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种实体识别方法、装置、设备及存储介质，以提高通过多模态识别命名实体的准确性。
6.第一方面，本公开实施例提供一种实体识别方法，包括：
7.获取第一模态和第二模态，所述第一模态和所述第二模态相关，所述第一模态包括多个第一单元，所述第二模态包括多个第二单元；
8.根据所述多个第一单元分别对应的特征信息和所述多个第二单元分别对应的特征信息，确定所述多个第一单元之间的关联关系、所述多个第二单元之间的关联关系、以及所述多个第一单元和所述多个第二单元之间的关联关系；
9.根据所述多个第一单元分别对应的重要性程度和所述多个第二单元分别对应的重要性程度，对所述多个第一单元和所述多个第二单元之间的关联关系进行校准；
10.根据所述多个第一单元之间的关联关系、所述多个第二单元之间的关联关系、以及校准后的所述多个第一单元和所述多个第二单元之间的关联关系，识别文本信息中的实体，所述文本信息是所述第一模态或所述第二模态。
11.第二方面，本公开实施例提供一种实体识别装置，包括：
12.获取模块，用于获取第一模态和第二模态，所述第一模态和所述第二模态相关，所述第一模态包括多个第一单元，所述第二模态包括多个第二单元；
13.确定模块，用于根据所述多个第一单元分别对应的特征信息和所述多个第二单元分别对应的特征信息，确定所述多个第一单元之间的关联关系、所述多个第二单元之间的关联关系、以及所述多个第一单元和所述多个第二单元之间的关联关系；
14.校准模块，用于根据所述多个第一单元分别对应的重要性程度和所述多个第二单元分别对应的重要性程度，对所述多个第一单元和所述多个第二单元之间的关联关系进行校准；
15.识别模块，用于根据所述多个第一单元之间的关联关系、所述多个第二单元之间的关联关系、以及校准后的所述多个第一单元和所述多个第二单元之间的关联关系，识别
文本信息中的实体，所述文本信息是所述第一模态或所述第二模态。
16.第三方面，本公开实施例提供一种电子设备，包括：
17.存储器；
18.处理器；以及
19.计算机程序；
20.其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。
21.第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。
22.本公开实施例提供的实体识别方法、装置、设备及存储介质，通过第一模态中多个第一单元分别对应的特征信息、以及与该第一模态相关的第二模态中多个第二单元分别对应的特征信息，确定该多个第一单元之间的关联关系、该多个第二单元之间的关联关系、以及该多个第一单元和该多个第二单元之间的关联关系。进一步，根据该多个第一单元分别对应的重要性程度和该多个第二单元分别对应的重要性程度，对该多个第一单元和该多个第二单元之间的关联关系进行校准，使得该多个第一单元和该多个第二单元之间的关联关系即不同模态之间的关联关系更加准确。从而根据该多个第一单元之间的关联关系、该多个第二单元之间的关联关系、以及校准后的该多个第一单元和该多个第二单元之间的关联关系，可以准确的识别出文本信息中的实体，即提高了通过多模态识别命名实体的准确性。
附图说明
23.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
24.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
25.图1为本公开实施例提供的实体识别方法流程图；
26.图2为本公开实施例提供的应用场景的示意图；
27.图3为本公开实施例提供的实体识别模型的结构示意图；
28.图4为本公开另一实施例提供的实体识别方法流程图；
29.图5为本公开另一实施例提供的多头校准注意力机制的流程图；
30.图6为本公开另一实施例提供的对t2i进行校准的示意图；
31.图7为本公开另一实施例提供的对i2t进行校准的示意图；
32.图8为本公开实施例提供的实体识别装置的结构示意图；
33.图9为本公开实施例提供的电子设备实施例的结构示意图。
具体实施方式
34.为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。
35.在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。
36.随着网络信息的不断丰富，对网络信息的分析、识别也变得越来越重要。例如，用户或商家可能会在网络中发布不同类型的信息，例如，文本信息、图像信息、视频信息、语音信息等。这些不同类型的信息通常称为多模态。从广义上讲，每一种信息的来源或者形式都是一种模态(modality)。在本公开实施例中，涉及文本信息和图像信息这两种模态。
37.在一些情况下，终端或服务器可以对用户或商家发布的信息进行处理，从而识别出该信息中的核心内容。例如，用户或商家可能会在网络中发布某商品的相关信息，终端或服务器可以从该相关信息中识别出该商品的核心属性(货)、用户的核心需求(人)、市场的供需情况(场)等。其中，核心内容通常会包括命名实体(named entity)，命名实体是用一个名称指代的、具体存在的事物，例如，人物的名字、地点的名称、组织的名称等。因此，从文本信息中识别出命名实体是一个较为重要的任务。在此背景下，多模态命名实体识别技术应运而生。其中，命名实体识别(named entity recognition)是指给定一段文本，进一步，识别出其中的命名实体，并预测每个命名实体的类别，该类别往往来自于一个预先定义的类别集合，例如，该类别集合包含人物、组织、地点等类别。多模态命名实体识别(multimodal named entity recognition)是指给定一段文本、以及与该文本相关的图片，进一步，识别出该文本中的命名实体，并预测每个命名实体的类别。另外，多模态命名实体识别是阅读理解、问答系统等文本理解任务、知识图谱构建等诸多领域的重要基础。
38.虽然当前的多模态命名实体识别技术能够识别出文本信息中的命名实体，例如，能够从复杂多样的用户原创内容(user generated content，ugc)中抽取出核心类型(例如，商品属性、人物、地点、卖点等)。但是，当前的多模态命名实体识别技术对命名实体的识别过程还不够准确。针对该问题，本公开实施例提供了一种实体识别方法，下面结合具体的实施例对该方法进行介绍。
39.图1为本公开实施例提供的实体识别方法流程图。该方法可以由实体识别装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如服务器或终端，其中，终端具体包括手机、电脑或平板电脑等。该方法可以应用于如图2所示的应用场景，在该应用场景中包括终端21和服务器22，终端21可以向服务器22发送文本信息、以及与所述文本信息相关的图像信息，从而使得服务器22可以根据文本信息和图像信息这两个模态对该文本信息中的命名实体进行识别。或者，终端21可以根据文本信息和图像信息这两个模态对该文本信息中的命名实体进行识别。也就是说，本公开实施例所述的实体识别方法可以由终端或服务器来执行，下面以服务器为例进行示意性说明。
40.如图1所示，该方法具体步骤如下：
41.s101、获取第一模态和第二模态，所述第一模态和所述第二模态相关，所述第一模态包括多个第一单元，所述第二模态包括多个第二单元。
42.如图2所示，服务器22可以获取第一模态和第二模态，第一模态和第二模态是相关的，并且第一模态包括多个第一单元，第二模态包括多个第二单元。
43.本公开实施例中，第一模态和第二模态可以是两种不同的模态，并且第一模态和第二模态中有一个模态是文本信息即可。例如，当第一模态是文本信息时，第二模态可以是
除文本信息之外的其他模态，例如，语音模态、视频模态等。当第二模态是文本信息时，第一模态可以是除文本信息之外的其他模态，例如，语音模态、视频模态等。
44.下面以第一模态是文本信息，第二模态是图像信息为例，相应的，所述第一单元是文本单元，所述第二单元是图像区域。
45.如图2所示，终端21可以向服务器22发送文本信息、以及与所述文本信息相关的图像信息，从而使得服务器22可以获取到文本信息和图像信息。可以理解的是，服务器22获取文本信息和图像信息的方式并不限于该方法，例如，服务器22还可以从其他网络设备中获取文本信息和图像信息，或者，服务器22可以从本地或该服务器22对应的数据库中获取文本信息和图像信息。可以理解的是，该文本信息可以是一段文本，该文本中包括多个文本单元，本公开实施例中并不对文本单元做具体限定，例如，一个文本单元可以是一个词组(例如，单词、词语、短语等)，或者，一个文本单元可以是一个字符(例如，一个汉字、一个字母等)。本实施例以一个文本单元是一个词组为例进行示意性说明，例如，服务器22可以识别出该文本信息中的多个文本单元。另外，服务器22还可以将该文本信息对应的图像信息分割为多个图像区域，每个图像区域是一个区块。此处并不限定分割后形成的图像区域的具体个数，例如，在本实施例中可以将该图像信息分割为3个图像区域。
46.s102、根据所述多个第一单元分别对应的特征信息和所述多个第二单元分别对应的特征信息，确定所述多个第一单元之间的关联关系、所述多个第二单元之间的关联关系、以及所述多个第一单元和所述多个第二单元之间的关联关系。
47.例如，服务器22在识别出该文本信息中的多个文本单元、以及将该图像信息分割为多个图像区域后，可以将该多个文本单元中的每个文本单元映射为一个表示向量(embedding)，该表示向量可以作为特征信息，也就是说，一个文本单元可以对应有一个表示向量即特征信息。将该文本信息中的每个文本单元映射为一个表示向量的过程可以是对该文本信息进行特征提取(feature extract)的过程，经过特征提取后得到该多个文本单元分别对应的表示向量。
48.另外，服务器22还可以对该图像信息进行特征提取，从而得到该图像信息中多个图像区域分别对应的表示向量，也就是说，一个图像区域可以对应有一个表示向量即特征信息。进一步，服务器22可以根据该多个文本单元分别对应的特征信息和该多个图像区域分别对应的特征信息，确定出该多个文本单元之间的关联关系、该多个图像区域之间的关联关系、以及该多个文本单元和该多个图像区域之间的关联关系。例如，服务器22可以通过注意力机制(attention)来确定这些关联关系。具体的，将该多个文本单元分别对应的特征信息和该多个图像区域分别对应的特征信息作为注意力机制的输入，注意力机制可以输出这些关联关系。在本实施例中，关联关系还可以记为相关性。
49.s103、根据所述多个第一单元分别对应的重要性程度和所述多个第二单元分别对应的重要性程度，对所述多个第一单元和所述多个第二单元之间的关联关系进行校准。
50.例如，服务器22可以预先通过知识谱图等途径对实体类别词(entity label words)进行扩展，得到扩展后的实体类别词(expanded entity label words)。进一步，根据扩展后的实体类别词可以确定出该多个文本单元分别对应的重要性程度和该多个图像区域分别对应的重要性程度。其中，该多个文本单元分别对应的重要性程度可以是该多个文本单元中的每个文本单元对于实体识别任务的重要性程度。该多个图像区域分别对应的
重要性程度可以是该多个图像区域中的每个图像区域对于实体识别任务的重要性程度。可以理解的是，用于确定该多个文本单元分别对应的重要性程度和该多个图像区域分别对应的重要性程度的方法，不限于本实施例所述的扩展后的实体类别词，在其他实施例中，还可以通过其他的方式来确定该多个文本单元分别对应的重要性程度和该多个图像区域分别对应的重要性程度。进一步，服务器22可以根据该多个文本单元分别对应的重要性程度和该多个图像区域分别对应的重要性程度，对该多个文本单元和该多个图像区域之间的关联关系进行校准。
51.s104、根据所述多个第一单元之间的关联关系、所述多个第二单元之间的关联关系、以及校准后的所述多个第一单元和所述多个第二单元之间的关联关系，识别文本信息中的实体，所述文本信息是所述第一模态或所述第二模态。
52.例如，服务器22对该多个文本单元和该多个图像区域之间的关联关系进行校准之后，可以根据该多个文本单元之间的关联关系、该多个图像区域之间的关联关系、以及校准后的该多个文本单元和该多个图像区域之间的关联关系，识别该文本信息中的实体，例如，识别该文本信息中的命名实体。
53.本公开实施例通过第一模态中多个第一单元分别对应的特征信息、以及与该第一模态相关的第二模态中多个第二单元分别对应的特征信息，确定该多个第一单元之间的关联关系、该多个第二单元之间的关联关系、以及该多个第一单元和该多个第二单元之间的关联关系。进一步，根据该多个第一单元分别对应的重要性程度和该多个第二单元分别对应的重要性程度，对该多个第一单元和该多个第二单元之间的关联关系进行校准，使得该多个第一单元和该多个第二单元之间的关联关系即不同模态之间的关联关系更加准确。从而根据该多个第一单元之间的关联关系、该多个第二单元之间的关联关系、以及校准后的该多个第一单元和该多个第二单元之间的关联关系，可以准确的识别出文本信息中的实体，即提高了通过多模态识别命名实体的准确性。
54.在上述实施例的基础上，服务器22中可以部署有实体识别模型，该实体识别模型可以执行如上所述的实体识别方法。可以理解的是，若终端执行该实体识别方法时，还可以将该实体识别模型部署在该终端上。图3所示为该实体识别模型的结构示意图，下面结合该实体识别模型的结构对如上所述的实体识别方法进行详细的介绍。
55.如图3所示，该实体识别模型包括第一转换器、第二转换器和实体预测模块(span-based prediction)，其中，第一转换器具体可以是c-transformer，第二转换器可以是r-transformer。c-transformer的作用是对外部知识进行处理，该外部知识可以是如上所述的扩展后的实体类别词。r-transformer用于对多个文本单元分别对应的特征信息和多个图像区域分别对应的特征信息进行处理。实体预测模块用于预测文本信息中的实体，例如命名实体。其中，c-transformer和r-transformer分别包括结构相同的n个部分，该n个部分顺序连接，每个部分包括如图4所示的4层。例如，c-transformer的每个部分包括多头前向反馈层(multi-head feed forward)、add&norm、前向反馈层(feed forward)、add&norm。其中，add&norm是先做残差(residua)再做层归一化(layer norm)的一层。r-transformer的每个部分包括多头校准注意力机制(multi-head refined attention)、add&norm、前向反馈层(feed forward)、add&norm。另外，r-transformer和c-transformer中层级相同且名称相同的层之间可以共享参数(share weights)。例如，r-transformer和c-transformer中层
级相同的add&norm之间可以共享参数，r-transformer和c-transformer中层级相同的前向反馈层之间可以共享参数。
56.如图3所示，r-transformer和c-transformer中层级相同的两个部分是通过如图3所示的加粗、加黑的这条线所连接的。同理，r-transformer和c-transformer中其他未显示的层级相同的两个部分也可以采用类似的方式连接。
57.如图3所示，服务器22在获取到文本信息、以及与该文本信息相关的图像信息之后，可以进一步对该文本信息和该图像信息进行特征提取。
58.具体的，当服务器22对该文本信息进行特征提取时，可以识别出该文本信息中的全部文本单元，例如，该文本信息中包括5个文本单元。服务器22可以采用预训练语言模型的嵌入层，将该文本信息中的5个文本单元映射成一系列连续的表示向量，例如，一个文本单元可以对应有一个表示向量。如图3所示的33表示5个文本单元分别对应的表示向量。
59.当服务器22对该图像信息进行特征提取时，可以将该图像信息分割为多个图像区域，例如，分割为3个图像区域。进一步，服务器22可以采用图像转换器(transformer)模型得到该图像信息中的3个图像区域分别对应的表示向量，例如，一个图像区域可以对应有一个表示向量。如图3所示的32表示3个图像区域分别对应的表示向量。
60.图4为本公开另一实施例提供的实体识别方法流程图。如图4所示，该方法包括如下几个步骤：
61.s401、获取第一模态和第二模态，所述第一模态和所述第二模态相关，所述第一模态包括多个第一单元，所述第二模态包括多个第二单元。
62.具体的，s401和s101的实现方式和具体原理一致，此处不再赘述。例如，第一模态是文本信息，第二模态是图像信息。所述第一单元是文本单元，所述第二单元是图像区域。
63.s402、根据所述多个第一单元分别对应的特征信息和所述多个第二单元分别对应的特征信息，确定所述多个第一单元之间的关联关系、所述多个第二单元之间的关联关系、以及所述多个第一单元和所述多个第二单元之间的关联关系。
64.如图3所示，30表示扩展后的实体类别词，扩展后的实体类别词可以有多个。进一步，可以得到扩展后的实体类别词中每个实体类别词的表示向量，即一个实体类别词可以对应有一个表示向量。以4个实体类别词为例，如图3所示的31表示该4个实体类别词分别对应的表示向量。
65.另外，如图3所示的多头校准注意力机制的输入包括该4个实体类别词分别对应的表示向量、3个图像区域分别对应的表示向量、5个文本单元分别对应的表示向量。进一步，多头校准注意力机制可以根据3个图像区域分别对应的表示向量和5个文本单元分别对应的表示向量，计算出5个文本单元之间的关联关系、3个图像区域之间的关联关系、以及5个文本单元和3个图像区域之间的关联关系。如图5所示为多头校准注意力机制的计算过程。
66.如图5所示，3个图像区域分别对应的表示向量(例如图5所示的32)和5个文本单元分别对应的表示向量(例如图5所示的33)可以作为注意力机制(attention)的输入，该注意力机制可以输出5个文本单元之间的关联关系、3个图像区域之间的关联关系、以及5个文本单元和3个图像区域之间的关联关系。其中，5个文本单元之间的关联关系可以是5个文本单元中任意两个文本单元之间的关联关系，该任意两个文本单元可以相同，可以不同。具体的，该任意两个文本单元之间的关联关系是根据该任意两个文本单元分别对应的表示向量
计算得到的。因此，该5个文本单元之间的关联关系可以是一个5*5的矩阵，例如图5所示的51，此外，该5个文本单元之间的关联关系可以记为t2t，其中，t表示文本信息(text)。
67.同理，该3个图像区域之间的关联关系可以是一个3*3的矩阵，例如图5所示的53。另外，该3个图像区域之间的关联关系可以记为i2i，其中，i表示图像信息(image)。
68.该5个文本单元和3个图像区域之间的关联关系包括该5个文本单元中每个文本单元分别与该3个图像区域中每个图像区域的关联关系t2i、以及该3个图像区域中每个图像区域分别与该5个文本单元中每个文本单元的关联关系i2t。其中，t2i可以是如图5所示的3*5的矩阵52。i2t可以是如图5所示的5*3的矩阵54。
69.可以理解的是，t2t和i2i分别是同一模态内部的关联关系，而t2i和i2t分别是不同模态之间的关联关系，而不同模态之间可能会存在间隙(gap)，因此，为了消除间隙，在本实施例中，可以根据扩展后的实体类别词中每个实体类别词的表示向量对t2i和i2t分别进行校准。如图5所示的55表示校准后的t2i，如图5所示的56表示校准后的i2t。其中，对t2i进行校准的过程如图6所示，对i2t进行校准的过程如图7所示。
70.s403、根据预设的一个或多个实体类别词分别对应的特征信息、以及所述多个第一单元分别对应的特征信息，确定所述一个或多个实体类别词和所述多个第一单元之间的关联关系。
71.例如，服务器22可以预先通过知识谱图等途径对实体类别词(entity label words)进行扩展，扩展后的实体类别词(expanded entity label words)可以作为本实施例所述的预设的一个或多个实体类别词。或者，服务器22可以从其他网络设备或终端获取该预设的一个或多个实体类别词，其中，每个实体类别词可以对应有一个表示向量，该表示向量可以作为特征信息，也就是说，一个实体类别词可以对应有一个表示向量即特征信息。以4个实体类别词为例，图6所示的31表示该4个实体类别词分别对应的表示向量，33表示5个文本单元分别对应的表示向量。如图6所示，该4个实体类别词分别对应的表示向量和该5个文本单元分别对应的表示向量可以作为注意力机制的输入，该注意力机制可以输出该4个实体类别词和该5个文本单元之间的关联关系，该关联关系可以是一个4*5的矩阵，如图6所示的61。在其他一些实施例中，多个文本单元的表示向量还可以记为多个文本特征(textual features)，多个实体类别词的表示向量还可以记为多个类别特征(label features)，该4个实体类别词和该5个文本单元之间的关联关系还可以记为多个实体类别词和多个文本特征的关联关系(correlation of label words and textual features)。
72.s404、根据所述一个或多个实体类别词和所述多个第一单元之间的关联关系，确定所述多个第一单元分别对应的重要性程度。
73.如图6所示，在计算出该4个实体类别词和该5个文本单元之间的关联关系之后，可以根据该关联关系确定该5个文本单元分别对应的重要性程度，该5个文本单元分别对应的重要性程度可以是该5个文本单元中每个文本单元对于实体识别任务(具体为命名实体识别任务)的重要性程度。该重要性程度可以理解为文本信息的贡献率得分(saliency score of t)，具体的，该5个文本单元分别对应的重要性程度可以记为s
t
。
74.可选的，根据所述一个或多个实体类别词和所述多个第一单元之间的关联关系，确定所述多个第一单元分别对应的重要性程度，包括：对所述一个或多个实体类别词和所述多个第一单元之间的关联关系进行池化操作，得到所述多个第一单元分别对应的重要性
程度。
75.如图6所示，可以将该4个实体类别词和该5个文本单元之间的关联关系输入到一个池化层(avg-pool)，该池化层可以对该4个实体类别词和该5个文本单元之间的关联关系进行池化操作，从而得到该5个文本单元分别对应的重要性程度，该5个文本单元分别对应的重要性程度可以是一个1*5的矩阵，例如图6所示的62。
76.s405、根据预设的一个或多个实体类别词分别对应的特征信息、以及所述多个第二单元分别对应的特征信息，确定所述一个或多个实体类别词和所述多个第二单元之间的关联关系。
77.图7所示的31表示该4个实体类别词分别对应的表示向量，32表示3个图像区域分别对应的表示向量。如图6所示，该4个实体类别词分别对应的表示向量和该3个图像区域分别对应的表示向量可以作为注意力机制的输入，该注意力机制可以输出该4个实体类别词和该3个图像区域之间的关联关系，该关联关系可以是一个4*3的矩阵，如图7所示的71。在其他一些实施例中，多个图像区域的表示向量还可以记为视觉特征(visual features),该4个实体类别词和该3个图像区域之间的关联关系可以记为多个实体类别词和多个视觉特征的关联关系(correlation of label words and visual features)。
78.s406、根据所述一个或多个实体类别词和所述多个第二单元之间的关联关系，确定所述多个第二单元分别对应的重要性程度。
79.如图7所示，在计算出该4个实体类别词和该3个图像区域之间的关联关系之后，可以根据该关联关系确定该3个图像区域分别对应的重要性程度，该3个图像区域分别对应的重要性程度可以是该3个图像区域中每个图像区域对于实体识别任务(具体为命名实体识别任务)的重要性程度。该重要性程度可以理解为图像信息的贡献率得分(saliency score of i)，具体的，该3个图像区域分别对应的重要性程度可以记为si。
80.可选的，根据所述一个或多个实体类别词和所述多个第二单元之间的关联关系，确定所述多个第二单元分别对应的重要性程度，包括：对所述一个或多个实体类别词和所述多个第二单元之间的关联关系进行池化操作，得到所述多个第二单元分别对应的重要性程度。
81.如图7所示，可以将该4个实体类别词和该3个图像区域之间的关联关系输入到一个池化层(avg-pool)，该池化层可以对该4个实体类别词和该3个图像区域之间的关联关系进行池化操作，从而得到该3个图像区域分别对应的重要性程度，该3个图像区域分别对应的重要性程度可以是一个1*3的矩阵，例如图7所示的72。
82.s407、根据所述多个第一单元分别对应的重要性程度和所述多个第二单元分别对应的重要性程度，对所述多个第一单元和所述多个第二单元之间的关联关系进行校准。
83.如图6和图7所示，可以根据该5个文本单元分别对应的重要性程度、以及该3个图像区域分别对应的重要性程度，对该5个文本单元和该3个图像区域之间的关联关系进行校准。
84.可选的，根据所述多个第一单元分别对应的重要性程度和所述多个第二单元分别对应的重要性程度，对所述多个第一单元和所述多个第二单元之间的关联关系进行校准，包括：根据所述多个第一单元分别对应的重要性程度，对所述多个第一单元中的每个第一单元分别与所述多个第二单元中的每个第二单元之间的关联关系进行校准；根据所述多个
第二单元分别对应的重要性程度，对所述多个第二单元中的每个第二单元分别与所述多个第一单元中的每个第一单元之间的关联关系进行校准。
85.如图6所示，可以根据该5个文本单元分别对应的重要性程度对t2i进行校准，在本实施例中，校准也可以称为修正。图6所示的52表示t2i，55表示校准后的t2i。此处的t2i的含义和上述实施例中出现的t2i的含义相同。
86.如图7所示，可以根据该3个图像区域分别对应的重要性程度对i2t进行校准，如图7所示的54表示i2t，56表示校准后的i2t。此处的i2t的含义和上述实施例中出现的i2t的含义相同。
87.可选的，根据所述多个第一单元分别对应的重要性程度，对所述多个第一单元中的每个第一单元分别与所述多个第二单元中的每个第二单元之间的关联关系进行校准，包括：根据所述多个第一单元分别对应的特征信息，确定第一权重系数；根据所述第一权重系数和所述多个第一单元分别对应的重要性程度，对所述多个第一单元中的每个第一单元分别与所述多个第二单元中的每个第二单元之间的关联关系进行校准，所述第一权重系数用于控制校准程度。
88.如图6所示，根据该5个文本单元分别对应的重要性程度对t2i进行校准的过程中，具体可以将该5个文本单元对应的表示向量输入到前向反馈网络(feed forward network，ffn)，然后再经过双曲正切(tanh)的处理得到第一权重系数，该第一权重系数记为g
t
。进一步，根据该第一权重系数g
t
和该5个文本单元分别对应的重要性程度，对t2i进行校准。在校准的过程中，可以通过一个门控机制(gate)将该5个文本单元分别对应的重要性程度施加到t2i中，施加的程度由第一权重系数g
t
决定。因此，第一权重系数g
t
用于控制校准程度。其中，如图6所示的52所示的这个3*5的矩阵在一些实施例中还可以称为原始t2i的注意力机制图(original t2i attention map)，该原始t2i的注意力机制图可以记为a
t2i
。如图6所示的55所示的这个3*5的矩阵在一些实施例中还可以称为校准后的t2i的注意力机制图(refined t2i attention map)。
89.可选的，根据所述多个第二单元分别对应的重要性程度，对所述多个第二单元中的每个第二单元分别与所述多个第一单元中的每个第一单元之间的关联关系进行校准，包括：根据所述多个第二单元分别对应的特征信息，确定第二权重系数；根据所述第二权重系数和所述多个第二单元分别对应的重要性程度，对所述多个第二单元中的每个第二单元分别与所述多个第一单元中的每个第一单元之间的关联关系进行校准，所述第二权重系数用于控制校准程度。
90.如图7所示，根据该3个图像区域分别对应的重要性程度对i2t进行校准的过程中，具体可以将该3个图像区域分别对应的表示向量输入到前向反馈网络(feed forward network，ffn)，然后再经过双曲正切(tanh)的处理得到第二权重系数，该第二权重系数可以记为gi。进一步，根据该第二权重系数gi和该3个图像区域分别对应的重要性程度，对i2t进行校准。在校准的过程中，可以通过一个门控机制(gate)将该3个图像区域分别对应的重要性程度施加到i2t中，施加的程度由该第二权重系数gi决定。因此，第二权重系数gi用于控制校准程度。其中，如图7所示的54所示的这个5*3的矩阵在一些实施例中还可以称为原始i2t的注意力机制图(original i2t attention map)，该原始i2t的注意力机制图可以记为a
i2t
。如图7所示的56所示的这个5*3的矩阵在一些实施例中还可以称为校准后的i2t的注意
力机制图(refined i2t attention map)。
91.s408、根据所述多个第一单元之间的关联关系、所述多个第二单元之间的关联关系、以及校准后的所述多个第一单元和所述多个第二单元之间的关联关系，识别文本信息中的实体，所述文本信息是所述第一模态或所述第二模态。
92.如图5所示的两个校准过程分别通过图6和图7进行了介绍，使得如图5所示的t2i(例如52所示的矩阵)可以被校准为55所示的矩阵，i2t(例如54所示的矩阵)可以被校准为56所示的矩阵。进一步，可以将t2t(例如51所示的矩阵)、校准后的t2i(例如55所示的矩阵)、i2i(例如53所示的矩阵)、以及校准后的i2t(例如56所示的矩阵)进行整合。整合后的结果可以通过图5所示的多头校准注意力机制中的输出层(output layer)传输给该多头校准注意力机制的上一层，例如，该上一层是add&norm。通过add&norm上面的层级逐层处理后，可以将处理结果传输到如图3所示的实体预测模块，该实体预测模块可以根据该处理结果识别出文本信息中的实体。
93.可选的，识别文本信息中的实体，包括：识别所述文本信息中的一个或多个字符串；预测每个字符串是否为实体；若所述字符串是实体，则识别所述实体的类型。
94.例如，实体预测模块可以预测该文本信息中包括的每个实体的开始位置和结束位置，并预测该实体的类型。例如，该实体预测模块可以枚举该文本信息中所有可能的字符串，然后按照每个字符串的开始位置和结束位置，从该文本信息中提取该开始位置上的字符、该开始位置和该结束位置之间的字符、以及该结束位置上的字符，并将该开始位置上的字符、该开始位置和该结束位置之间的字符、以及该结束位置上的字符进行拼接，得到该字符串。进一步，通过一个线性分类器预测该字符串是否为实体，如果该字符串是一个实体，则进一步预测该实体的类型，该实体的类型可以是从预设的几个类型中选取的，该预设的几个类型可以包括人类实体、组织实体、机构实体、其他实体等。可以理解的是，在其他一些实施例中，还可以将该字符串是不是实体作为该字符串的一种类型，在这种情况下，可以将该字符串输入到该线性分类器中，该线性分类器可以预测得到该字符串的类型，例如，是不是实体、人类实体、组织实体、机构实体、其他实体等。
95.本实施例通过外部知识对不同模态之间的关联关系进行了校准，使得不同模态之间的关联关系更加精准。由于跨模态的关联关系是复杂的、隐式的、不容易发现的，如果不对不同模态之间的关联关系进行校准的话，很可能会忽视掉或遗失掉一些重要的、但是隐式的不同模态之间的关联关系。因此，本实施例通过引入外部知识评估多模态中每种模态对于实体识别任务的重要性程度，从而可以在注意力机制中提高较为重要的模态的比重，修正不同模态之间的关联关系，避免重要的、但是隐式的不同模态之间的关联关系被忽视掉或遗失掉。最终提高了实体识别的准确性。
96.另外，本实施例所述的实体识别方法的另一种应用场景可以是当用户或商家在网络中发布商品的相关信息时，通过本实施例所述的实体识别方法从该相关信息中识别出实体，这些实体可以构成该商品的核心属性，从而在较为冗长的用户原创内容中识别出该商品的核心属性，并将该核心属性关联到发布的商品上。
97.图8为本公开实施例提供的实体识别装置的结构示意图。本公开实施例提供的实体识别装置可以执行实体识别方法实施例提供的处理流程，如图8所示，实体识别装置80包括：
98.获取模块81，用于获取第一模态和第二模态，所述第一模态和所述第二模态相关，所述第一模态包括多个第一单元，所述第二模态包括多个第二单元；
99.第一确定模块82，用于根据所述多个第一单元分别对应的特征信息和所述多个第二单元分别对应的特征信息，确定所述多个第一单元之间的关联关系、所述多个第二单元之间的关联关系、以及所述多个第一单元和所述多个第二单元之间的关联关系；
100.校准模块83，用于根据所述多个第一单元分别对应的重要性程度和所述多个第二单元分别对应的重要性程度，对所述多个第一单元和所述多个第二单元之间的关联关系进行校准；
101.识别模块84，用于根据所述多个第一单元之间的关联关系、所述多个第二单元之间的关联关系、以及校准后的所述多个第一单元和所述多个第二单元之间的关联关系，识别文本信息中的实体，所述文本信息是所述第一模态或所述第二模态。
102.可选的，实体识别装置80还包括第二确定模块85，第二确定模块85用于在校准模块83根据所述多个第一单元分别对应的重要性程度和所述多个第二单元分别对应的重要性程度，对所述多个第一单元和所述多个第二单元之间的关联关系进行校准之前，根据预设的一个或多个实体类别词分别对应的特征信息、以及所述多个第一单元分别对应的特征信息，确定所述一个或多个实体类别词和所述多个第一单元之间的关联关系；根据所述一个或多个实体类别词和所述多个第一单元之间的关联关系，确定所述多个第一单元分别对应的重要性程度；根据预设的一个或多个实体类别词分别对应的特征信息、以及所述多个第二单元分别对应的特征信息，确定所述一个或多个实体类别词和所述多个第二单元之间的关联关系；根据所述一个或多个实体类别词和所述多个第二单元之间的关联关系，确定所述多个第二单元分别对应的重要性程度。
103.可选的，校准模块83根据所述多个第一单元分别对应的重要性程度和所述多个第二单元分别对应的重要性程度，对所述多个第一单元和所述多个第二单元之间的关联关系进行校准时，具体用于：
104.根据所述多个第一单元分别对应的重要性程度，对所述多个第一单元中的每个第一单元分别与所述多个第二单元中的每个第二单元之间的关联关系进行校准；
105.根据所述多个第二单元分别对应的重要性程度，对所述多个第二单元中的每个第二单元分别与所述多个第一单元中的每个第一单元之间的关联关系进行校准。
106.可选的，校准模块83根据所述多个第一单元分别对应的重要性程度，对所述多个第一单元中的每个第一单元分别与所述多个第二单元中的每个第二单元之间的关联关系进行校准时，具体用于：
107.根据所述多个第一单元分别对应的特征信息，确定第一权重系数；
108.根据所述第一权重系数和所述多个第一单元分别对应的重要性程度，对所述多个第一单元中的每个第一单元分别与所述多个第二单元中的每个第二单元之间的关联关系进行校准，所述第一权重系数用于控制校准程度。
109.可选的，校准模块83根据所述多个第二单元分别对应的重要性程度，对所述多个第二单元中的每个第二单元分别与所述多个第一单元中的每个第一单元之间的关联关系进行校准时，具体用于：
110.根据所述多个第二单元分别对应的特征信息，确定第二权重系数；
111.根据所述第二权重系数和所述多个第二单元分别对应的重要性程度，对所述多个第二单元中的每个第二单元分别与所述多个第一单元中的每个第一单元之间的关联关系进行校准，所述第二权重系数用于控制校准程度。
112.可选的，第二确定模块85根据所述一个或多个实体类别词和所述多个第一单元之间的关联关系，确定所述多个第一单元分别对应的重要性程度时，具体用于：对所述一个或多个实体类别词和所述多个第一单元之间的关联关系进行池化操作，得到所述多个第一单元分别对应的重要性程度；第二确定模块85根据所述一个或多个实体类别词和所述多个第二单元之间的关联关系，确定所述多个第二单元分别对应的重要性程度时，具体用于：对所述一个或多个实体类别词和所述多个第二单元之间的关联关系进行池化操作，得到所述多个第二单元分别对应的重要性程度。
113.可选的，识别模块84识别文本信息中的实体时，具体用于：
114.识别所述文本信息中的一个或多个字符串；
115.预测每个字符串是否为实体；
116.若所述字符串是实体，则识别所述实体的类型。
117.可选的，所述第一模态是文本信息，所述第二模态是图像信息；所述第一单元是文本单元，所述第二单元是图像区域。
118.图8所示实施例的实体识别装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。
119.以上描述了实体识别装置的内部功能和结构，该装置可实现为一种电子设备。图9为本公开实施例提供的电子设备实施例的结构示意图。如图9所示，该电子设备包括存储器91和处理器92。
120.存储器91用于存储程序。除上述程序之外，存储器91还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。
121.存储器91可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
122.处理器92与存储器91耦合，执行存储器91所存储的程序，以用于：
123.获取第一模态和第二模态，所述第一模态和所述第二模态相关，所述第一模态包括多个第一单元，所述第二模态包括多个第二单元；
124.根据所述多个第一单元分别对应的特征信息和所述多个第二单元分别对应的特征信息，确定所述多个第一单元之间的关联关系、所述多个第二单元之间的关联关系、以及所述多个第一单元和所述多个第二单元之间的关联关系；
125.根据所述多个第一单元分别对应的重要性程度和所述多个第二单元分别对应的重要性程度，对所述多个第一单元和所述多个第二单元之间的关联关系进行校准；
126.根据所述多个第一单元之间的关联关系、所述多个第二单元之间的关联关系、以及校准后的所述多个第一单元和所述多个第二单元之间的关联关系，识别文本信息中的实体，所述文本信息是所述第一模态或所述第二模态。
127.进一步，如图9所示，电子设备还可以包括：通信组件93、电源组件94、音频组件95、显示器96等其它组件。图9中仅示意性给出部分组件，并不意味着电子设备只包括图9所示组件。
128.通信组件93被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件93经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件93还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
129.电源组件94，为电子设备的各种组件提供电力。电源组件94可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。
130.音频组件95被配置为输出和/或输入音频信号。例如，音频组件95包括一个麦克风(mic)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器91或经由通信组件93发送。在一些实施例中，音频组件95还包括一个扬声器，用于输出音频信号。
131.显示器96包括屏幕，其屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。
132.另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的实体识别方法。
133.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
134.以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王续武田俊峰叶加博严明
技术所有人：阿里巴巴（中国）有限公司
我是此专利的发明人

上一篇：信息输入页面的元素控制方法、装置、设备、介质与流程
上一篇：一种废弃聚氯乙烯塑料再生造粒装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。