一种图像识别方法及电子设备与流程

文档序号：15462851发布日期：2018-09-18 18:35阅读：173来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及图像识别技术，尤其涉及一种图像识别方法及电子设备。

背景技术：

现有技术在对图像进行识别的过程中，仅能对图像的构成做出简单的判断，或者由对图像操作的人员对所述图像做出判断，其识别效率较低，同时识别错误率较高。

技术实现要素：

本发明实施例提供一种图像识别方法及电子设备，在实现识别图像的同时，能够根据所述图像的视觉特征和所获取的文本信息进行编码和解码，得到描述融合所述视觉特征和所述文本信息的第二文本信息。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种图像识别方法，包括：

获取图像信息和第一文本信息；

基于所述图像信息和所述第一文本信息，生成第二文本信息，所述第二文本信息用于表征所述图像信息和所述文本信息内容。

上述方案中，所述获取图像信息和第一文本信息，包括：

从所述图像中提取视觉特征；

对所述图像的至少两种不同类型的文本信息进行编码，得到表征文本信息的语义的编码结果。

上述方案中，所述基于所述图像信息和所述第一文本信息，生成第二文本信息，包括：

基于所述视觉特征和所述编码结果进行解码，得到融合所述视觉特征和所述文本信息以描述所述图像的第二文本信息。

上述方案中，所述从图像中提取视觉特征，包括：

通过卷积神经网络模型的卷积层和最大值池化层对所述图像交叉进行处理，得到所述图像的降采样结果；

通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理，得到所述图像的视觉特征。

上述方案中，所述方法还包括：

通过所述卷积神经网络模型的平均池化层对所述图像视觉特征进行处理，得到所述表征所述图像的分类的标签。

上述方案中，所述对所述图像的至少两种不同类型的文本信息进行编码，包括：

通过与不同类型的文本信息对应的神经网络模型，将所述图片的至少两种类型的文本信息进行词级别的编码；

将词级别的编码结果进行语句级别的编码。

上述方案中，所述基于所述视觉特征和所述编码结果进行解码，包括：

通过第一解码器模型中，对所述编码结果进行语句级别的解码；

通过第二解码器模型语句级别的解码结果进行词级别的解码。

上述方案中，所述方法还包括：

通过注意力模型为所述视觉特征、所述编码结果分配对应的权重；

将所述第一权重矩阵、第二权重矩阵、编码结果和所述视觉特征输入所述第一解码器进行解码。

上述方案中，所述方法还包括：

基于图像样本、以及所述图像样本的分类标签，对用于从所述图像中提取视觉特征的卷积神经网络模型进行训练；

基于语句样本以及对应的解码结果训练第一解码器模型；

基于词样本以及对应的解码结果训练第二解码器模型。

上述方案中，

当所述图像为病患部位的医疗影像时，所述第一文本信息包括病患部位的指征和临床报告，所述第二文本信息包括所述病患部位的诊断结果。

本发明实施例还提供了一种电子设备，所述电子设备包括：

信息获取模块，用于获取图像和第一文本信息；

信息处理模块，用于基于所述图像信息和所述第一文本信息，生成第二文本信息，所述第二文本信息用于表征所述图像信息和所述文本信息内容。

上述方案中，

所述信息获取模块，用于从所述图像中提取视觉特征；

所述信息处理模块，用于对所述图像的至少两种不同类型的文本信息进行编码，得到表征文本信息的语义的编码结果。

上述方案中，

所述信息处理模块，用于基于所述视觉特征和所述编码结果进行解码，得到融合所述视觉特征和所述文本信息以描述所述图像的第二文本信息。

上述方案中，

所述信息获取模块，用于通过卷积神经网络模型的卷积层和最大值池化层对所述图像交叉进行处理，得到所述图像的降采样结果；

所述信息获取模块，用于通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理，得到所述图像的视觉特征。

上述方案中，

所述信息获取模块，用于通过所述卷积神经网络模型的平均池化层对所述图像视觉特征进行处理，得到所述表征所述图像的分类的标签。

上述方案中，

所述信息处理模块，用于通过与不同类型的文本信息对应的神经网络模型，将所述图片的至少两种类型的文本信息进行词级别的编码；

所述信息处理模块，用于将词级别的编码结果进行语句级别的编码。

上述方案中，

所述信息处理模块，用于通过第一解码器模型中，对所述编码结果进行语句级别的解码；

所述信息处理模块，用于通过第二解码器模型语句级别的解码结果进行词级别的解码。

上述方案中，

所述信息处理模块，还用于通过注意力模型为所述视觉特征、所述编码结果分配对应的权重；

所述信息处理模块，还用于将所述第一权重矩阵、第二权重矩阵、编码结果和所述视觉特征输入所述第一解码器进行解码。

上述方案中，所述电子设备还包括：

训练模块，用于基于图像样本、以及所述图像样本的分类标签，对用于从所述图像中提取视觉特征的卷积神经网络模型进行训练；

所述训练模块，用于基于语句样本以及对应的解码结果训练第一解码器模型；

所述训练模块，用于基于词样本以及对应的解码结果训练第二解码器模型。

上述方案中，

当所述图像为病患部位的医疗影像时，所述文本信息包括病患部位的指征和临床报告，所述第二文本信息包括所述病患部位的诊断结果。

本发明所述还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，执行：

获取图像信息和第一文本信息；

基于所述图像信息和所述第一文本信息，生成第二文本信息，所述第二文本信息用于表征所述图像信息和所述文本信息内容。

所述获取图像信息和第一文本信息，包括：

从所述图像中提取视觉特征；

对所述图像的至少两种不同类型的文本信息进行编码，得到表征文本信息的语义的编码结果。

所述基于所述图像信息和所述第一文本信息，生成第二文本信息，包括：

基于所述视觉特征和所述编码结果进行解码，得到融合所述视觉特征和所述文本信息以描述所述图像的第二文本信息。

所述从图像中提取视觉特征，包括：

通过卷积神经网络模型的卷积层和最大值池化层对所述图像交叉进行处理，得到所述图像的降采样结果；

通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理，得到所述图像的视觉特征。

所述方法还包括：

通过所述卷积神经网络模型的平均池化层对所述图像视觉特征进行处理，得到所述表征所述图像的分类的标签。

所述对所述图像的至少两种不同类型的文本信息进行编码，包括：

通过与不同类型的文本信息对应的神经网络模型，将所述图片的至少两种类型的文本信息进行词级别的编码；

将词级别的编码结果进行语句级别的编码。

所述基于所述视觉特征和所述编码结果进行解码，包括：

通过第一解码器模型中，对所述编码结果进行语句级别的解码；

通过第二解码器模型语句级别的解码结果进行词级别的解码。

所述方法还包括：

通过注意力模型为所述视觉特征、所述编码结果分配对应的权重；

将所述第一权重矩阵、第二权重矩阵、编码结果和所述视觉特征输入所述第一解码器进行解码。

所述方法还包括：

基于图像样本、以及所述图像样本的分类标签，对用于从所述图像中提取视觉特征的卷积神经网络模型进行训练；

基于语句样本以及对应的解码结果训练第一解码器模型；

基于词样本以及对应的解码结果训练第二解码器模型。

当所述图像为病患部位的医疗影像时，所述第一文本信息包括病患部位的指征和临床报告，所述第二文本信息包括所述病患部位的诊断结果。

本发明实施例中，通过所获取的图像信息和第一文本信息，生成能够表征所述图像信息和所述文本信息内容第二文本信息，实现了对图像进行自动识别，并且由于输出的第二文本信息表征所述图像的信息和所述文本信息内容，使得所述第二文本信息的阅读者更加清楚地了解图像和第一文本信息，并形成直观的视觉体验。

附图说明

图1是本发明实施例提供的图像识别方法的一个可选的流程示意图；

图2是本发明实施例提供的电子设备的一个可选的结构示意图；

图3是本发明实施例提供的电子设备的一个可选的结构示意图；

图4是本发明实施例提供的电子设备的一个可选的结构示意图；

图5为通过激活函数(Activation Function)在卷积层和池化层处理图像的示意图；

图6为本发明实施例提供的图像识别方法的一个可选的流程示意图；

图7是本发明实施例提供的电子设备的一个可选的结构示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为本发明实施例提供的图像识别方法的一个可选的流程示意图，如图1所示，本发明实施例提供的图像识别方法的一个可选的流程图，对示出的步骤进行说明。

步骤101：获取图像信息和第一文本信息。

步骤102：基于所述图像信息和所述第一文本信息，生成第二文本信息；

其中，所述第二文本信息用于表征所述图像信息和所述文本信息内容。

在本发明的一个实施例中，所述获取图像信息和第一文本信息，包括：从所述图像中提取视觉特征；对所述图像的至少两种不同类型的文本信息进行编码，得到表征文本信息的语义的编码结果。通过本实施例所示的技术方案，可以实现对图像信息和文本信息的准确提取，具体的，所述图像信息可以是照片或者医疗影像，所述第一文本信息可以是至少两种不同信息来源的文本信息。

在本发明的一个实施例中，所述基于所述图像信息和所述第一文本信息，生成第二文本信息，包括：基于所述视觉特征和所述编码结果进行解码，得到融合所述视觉特征和所述文本信息以描述所述图像的第二文本信息。通过本实施例所示的技术方案，对所述视觉特征和所述编码结果进行解码，并得到第二文本信息用于融合所述视觉特征和所述文本信息，实现了对所提取信息的融合，具体的，所述第二文本信息可以是用于通过自然语言描述待识别图像所归属的用户的体征或是通过自然语言描述待识别图像的图像特征。

在本发明的一个实施例中，所述从图像中提取视觉特征，包括：通过卷积神经网络模型的括卷积层(alternating convolutional layer)和池化层(pooling layer)对所述图像交叉进行处理，得到所述图像的降采样结果；通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理，得到所述图像的视觉特征。通过本实施例所示的技术方案，经过所述卷积神经网络模型的卷积层和最大值池化层的交叉处理，实现了卷积层将神经网络中的每一小块进行更加深入地分析从而得到抽象程度更高的特征同时又可以缩小矩阵的大小，进一步缩小最后全连接层中节点的个数，从而达到减少整个神经网络中参数的目的。

在本发明的一个实施例中，进一步地还可以通过所述卷积神经网络模型的平均池化层对所述图像视觉特征进行处理，得到所述表征所述图像的分类的标签。通过本实施例所示的技术方案，得到所述表征所述图像的分类的标签，以实现对多张图像分类处理或者对同一张图不同特征的分类。

在本发明的一个实施例中，所述对所述图像的至少两种不同类型的文本信息进行编码，包括：通过与不同类型的文本信息对应的神经网络模型，将所述图片的至少两种类型的文本信息进行词级别的编码；将词级别的编码结果进行语句级别的编码。通过本实施例所示的技术方案，可以通过双向长短时记忆循环神经网络(Bi-directional LSTM RNN)对所述图片的至少两种类型的文本信息分别进行词级别的编码和语句级别的编码，其中，所述图片的至少两种类型的文本信息的词级别编码或语句级别编码可以使用相同的编码器模型。

在本发明的一个实施例中，所述基于所述视觉特征和所述编码结果进行解码，包括：通过第一解码器模型中，对所述编码结果进行语句级别的解码；通过第二解码器模型语句级别的解码结果进行词级别的解码。通过本实施例所示的技术方案，当所述第一解码器模型是语句解码器时，所述第二解码器模型是长短期记忆(LSTM，Long Short-Term Memory)网络。

在本发明的一个实施例中，进一步的还可以通过注意力模型为所述视觉特征、所述编码结果分配对应的权重；将所述第一权重矩阵、第二权重矩阵、编码结果和所述视觉特征输入所述第一解码器进行解码。

在本发明的一个实施例中，基于图像样本、以及所述图像样本的分类标签，对用于从所述图像中提取视觉特征的卷积神经网络模型进行训练；基于语句样本以及对应的解码结果训练第一解码器模型；基于词样本以及对应的解码结果训练第二解码器模型。通过本实施例所示的技术方案，可以实现对神经网络模型和不同解码器的针对性训练。

在本发明的一个实施例中，当所述图像为病患部位的医疗影像时，所述文本信息包括病患部位的指征和临床报告，所述第二文本信息包括所述病患部位的诊断结果。通过本实施例所示的技术方案，可以实现以自然语言输出融合所述病患部位的医疗影像和所述患部位的指征和临床报告的所述病患部位的诊断结果。

图2是本发明实施例提供的电子设备的一个可选的结构示意图，如图2所示，本发明实施例提供的电子设备的一个可选的结构图，下面对图2所涉及的模块分别进行说明。

信息获取模块201，用于获取图像和第一文本信息；

信息处理模块202，用于基于所述图像信息和所述第一文本信息，生成第二文本信息，所述第二文本信息用于表征所述图像信息和所述文本信息内容。

在本发明的一个实施例中，所述信息获取模块201，用于从所述图像中提取视觉特征；所述信息处理模块202，用于对所述图像的至少两种不同类型的文本信息进行编码，得到表征文本信息的语义的编码结果。通过本实施例所示的技术方案，可以实现对图像信息和文本信息的准确提取，具体的，所述图像信息可以是照片或者医疗影像，所述第一文本信息可以是至少两种不同信息来源的文本信息。

在本发明的一个实施例中，所述信息处理模块202，用于基于所述视觉特征和所述编码结果进行解码，得到融合所述视觉特征和所述文本信息以描述所述图像的第二文本信息。通过本实施例所示的技术方案，对所述视觉特征和所述编码结果进行解码，并得到第二文本信息用于融合所述视觉特征和所述文本信息，实现了对所提取信息的融合，具体的，所述第二文本信息可以是用于通过自然语言描述待识别图像所归属的用户的体征或是通过自然语言描述待识别图像的图像特征。

在本发明的一个实施例中，所述信息获取模块201，用于通过卷积神经网络模型的卷积层和最大值池化层对所述图像交叉进行处理，得到所述图像的降采样结果；所述信息获取模块202，用于通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理，得到所述图像的视觉特征。通过本实施例所示的技术方案，经过所述卷积神经网络模型的卷积层和最大值池化层的交叉处理，实现了卷积层将神经网络中的每一小块进行更加深入地分析从而得到抽象程度更高的特征同时又可以缩小矩阵的大小，进一步缩小最后全连接层中节点的个数，从而达到减少整个神经网络中参数的目的。

在本发明的一个实施例中，所述信息获取模块201，用于通过所述卷积神经网络模型的平均池化层对所述图像视觉特征进行处理，得到所述表征所述图像的分类的标签。通过本实施例所示的技术方案，得到所述表征所述图像的分类的标签，以实现对多张图像分类处理或者对同一张图不同特征的分类。

在本发明的一个实施例中，所述信息处理模块202，用于通过与不同类型的文本信息对应的神经网络模型，将所述图片的至少两种类型的文本信息进行词级别的编码；所述信息处理模块202，用于将词级别的编码结果进行语句级别的编码。通过本实施例所示的技术方案，可以通过双向长短时记忆循环神经网络(Bi-directional LSTM RNN)对所述图片的至少两种类型的文本信息分别进行词级别的编码和语句级别的编码，其中，所述图片的至少两种类型的文本信息的词级别编码或语句级别编码可以使用相同的编码器模型。

在本发明的一个实施例中，所述信息处理模块202，用于通过第一解码器模型中，对所述编码结果进行语句级别的解码；所述信息处理模块202，用于通过第二解码器模型语句级别的解码结果进行词级别的解码。通过本实施例所示的技术方案，当所述第一解码器模型是语句解码器时，所述第二解码器模型是长短期记忆网络(LSTM Long Short-Term Memory)。

在本发明的一个实施例中，所述信息处理模块202，还用于通过注意力模型为所述视觉特征、所述编码结果分配对应的权重；所述信息处理模块202，还用于将所述第一权重矩阵、第二权重矩阵、编码结果和所述视觉特征输入所述第一解码器进行解码。

在本发明的一个实施例中，所述电子设备还包括：训练模块，用于基于图像样本、以及所述图像样本的分类标签，对用于从所述图像中提取视觉特征的卷积神经网络模型进行训练；所述训练模块，用于基于语句样本以及对应的解码结果训练第一解码器模型；所述训练模块，用于基于词样本以及对应的解码结果训练第二解码器模型。通过本实施例所示的技术方案，可以实现对神经网络模型和不同解码器的针对性训练。

图3是本发明实施例提供的电子设备的一个可选的结构示意图，如图3所示，本发明实施例提供的电子设备的一个可选的结构图，下面对图3所涉及的模块分别进行说明。

图像编码器301，用于通过卷积神经网络模型的卷积层和最大值池化层对所述图像交叉进行处理，得到所述图像的降采样结果；通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理，得到所述图像的视觉特征。

文本编码器302，用于获取第一文本信息，并对所获取的第一文本信息进行编码。

文本解码器303，用于基于所基于所述图像视觉特征和所述第一文本信息，生成第二文本信息，所述第二文本信息用于表征所述图像视觉特征和所述文本信息内容。其中所述图像编码器301、文本编码器302和文本解码器303的信息处理过程如图4所示。

图4是本发明实施例提供的电子设备的一个可选的结构示意图，如图4所示，本发明实施例提供的电子设备的一个可选的结构图，下面对图4所涉及的模块分别进行说明。

第一神经网络401，用于对第一文本信息中的第一类型文本信息进行编码，得到表征所述第一类型文本信息的语义的编码结果。

第一文本解码器402，用于对所述第一神经网络401的编码结果进行解码处理，以通过自然语言输出所述第一文本信息中的第一类型文本信息。

第二神经网络403，用于对第一文本信息中的第二类型文本信息进行编码，得到表征所述第二类型文本信息的语义的编码结果，具体的，所述第一文本信息中的第二类型文本信息包括至少两个语句。

第二文本解码器404，用于对所述第二神经网络403的编码结果进行解码处理，以通过自然语言输出所述第一文本信息中的第二类型文本信息。

第三神经网络405，用于对第一文本信息中的第二类型文本信息进行编码，得到表征所述第二类型文本信息的语义的编码结果，具体的，所述第一文本信息中的第二类型文本信息包括至少两个语句。

第三文本解码器406，用于对所述第二神经网络405的编码结果进行解码处理，以通过自然语言输出所述第一文本信息中的第二类型文本信息。

在本发明的一个实施例中，所述第一神经网络401、第二神经网络403、第三神经网络405均可以使用双向长短时记忆循环神经网络(Bi-directional LSTM RNN)，不同类型的文本信息对应的编码器模型可以相同，即所述第一文本解码器402、第二文本解码器404和第三文本解码器406可以是相同类型的解码器。

在本发明的一个实施例中，经过所述第一神经网络401、第二神经网络403、第三神经网络405的词级别编码和语句级别编码，可以获得融合至少两种不同来源的所述第一文本信息的语句级的编码结果。

卷积神经网络407，用于从所述图像中提取视觉特征。

在本发明的一个实施例中，所示的技术方案可以支持任一格式的图像，这些格式包括但不限于JPG、PNG、TIF、BMP等。当然，在实现时，为了保证图像处理的统一性和处理速率，也可以在接收到样本图像时，先将样本图像转换成系统所支持的统一的一种格式，然后再进行相应处理。当然，为了适应系统的处理性能，还可以针对不同大小的样本图像，先将其剪裁成系统支持的固定大小的图像，然后再对图像进行相应处理。

在本发明的一个实施例中，所述从图像中提取视觉特征，包括：通过卷积神经网络模型的卷积层和最大值池化层对所述图像交叉进行处理，得到所述图像的降采样结果；通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理，得到所述图像的视觉特征。在图4所示的电子设备的一个可选的结构中，所述卷积神经网络所识别的可以是病患部位的医疗影像时，所述第一文本信息包括病患部位的指征和临床报告，所述临床报告包括至少两个语句。

在本发明的一个实施例中，还可以进一步的通过所述卷积神经网络模型的平均池化层对所述图像视觉特征进行处理，得到所述表征所述图像的分类的标签，通过本实施例所示的技术方案，可以得到所述表征所述图像的分类的标签，以实现对多张图像分类处理或者对同一张图不同特征的分类。

在本发明的一个实施例中，通过卷积神经网络对所述图像的视觉处理过程如图5所示，经过激活函数(Activation Function)的处理，实现了对原始尺寸为256像素*256像素的图像的处理。

注意力模型408，用于为所述视觉特征、所述编码结果分配对应的权重，获得第一权重矩阵和第二权重矩阵，所述权重矩阵用于表征该权重表征目标特征的显著性。

第四文本解码器409，用于接收第一权重矩阵、第二权重矩阵、编码结果和所述视觉特征，并进行相应的解码。

信息生成器410，用于将所述第四文本解码器的处理结果发送至第二神经网络中。

第二神经网络包括：

第一解码器模型411，用于对所述编码结果进行语句级别的解码；

第二解码器模型412，用于对语句级别的解码结果进行词级别的解码，获得融合所述视觉特征和所述文本信息以描述所述图像的第二文本信息。

在本发明的一个实施例中，当判断出多次训练神经网络模型和不同解码器的精度趋于稳定，不再突变时，则说明此时训练的神经网络模型和不同解码器已经达到稳定状态，无需再继续训练，这种判断方式，既能够有效控制训练得到稳定的神经网络模型和不同解码器，又能够尽可能节省样本训练时间。

在本发明的一个实施例中，可以预先设置一个训练迭代次数2000次，那么，当模型训练的迭代次数达到2000次时，可以认定当前训练的神经网络模型和不同解码器已经达到稳定状态，可以停止训练。

图5为通过激活函数(Activation Function)在卷积层和池化层处理图像的示意图，如图5所示，通过激活函数在卷积层和池化层分别对原始尺寸为256像素*256像素的图像进行卷积处理和池化处理，得到所述图像的视觉特征。通过本实施例所示的技术方案，经过所述卷积神经网络模型的卷积层和最大值池化层的交叉处理，实现了卷积层将神经网络中的每一小块进行更加深入地分析从而得到抽象程度更高的特征同时又可以缩小矩阵的大小，进一步缩小最后全连接层中节点的个数，从而达到减少整个神经网络中参数的目的。

图6为本发明实施例提供的图像识别方法的一个可选的流程示意图，，如图6所示，本发明实施例提供的图像识别方法的一个可选的流程图，对示出的步骤进行说明。

步骤601：通过卷积神经网络模型的卷积层和最大值池化层对所述图像交叉进行处理，得到所述图像的降采样结果。

其中，所述图像为人的面部特征图像。

步骤602：通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理，得到所述图像的视觉特征。

由此，可实现对所述图像中人的面部特征的所对应的视觉特征的提取。通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理，得到所述图像的视觉特征。通过本实施例所示的技术方案，经过所述卷积神经网络模型的卷积层和最大值池化层的交叉处理，实现了卷积层将神经网络中的每一小块进行更加深入地分析从而得到抽象程度更高的特征同时又可以缩小矩阵的大小，进一步缩小最后全连接层中节点的个数，从而达到减少整个神经网络中参数的目的，以更加使用于所述面部图像数量较多的情况。

在本发明的一个实施例中，进一步地还可以通过所述卷积神经网络模型的平均池化层对所述面部特征的图像视觉特征进行处理，得到所述表征所述面部特征图像的分类的标签。通过本实施例所示的技术方案，得到所述表征所述面部图像的分类的标签，以实现对多张面部图像分类处理或者对同一张面部图像不同特征的分类。

步骤603：通过与不同类型的第一文本信息对应的神经网络模型，将所述图片的至少两种类型的文本信息进行词级别的编码，将词级别的编码结果进行语句级别的编码。

步骤604：通过注意力模型为所述视觉特征、所述编码结果分配对应的权重，将所述第一权重矩阵、第二权重矩阵、编码结果和所述视觉特征输入所述第一解码器进行解码。

在本发明的一个实施例中，所述对所述图像的至少两种不同类型的文本信息进行编码，包括：通过与不同类型的文本信息对应的神经网络模型，将所述图片的至少两种类型的文本信息进行词级别的编码；将词级别的编码结果进行语句级别的编码。通过本实施例所示的技术方案，可以通过双向长短时记忆循环神经网络((Bi-directional LSTM RNN)对所述图片的至少两种类型的文本信息分别进行词级别的编码和语句级别的编码，其中，所述图片的至少两种类型的文本信息的词级别编码或语句级别编码可以使用相同的编码器模型。

步骤605：通过第一解码器模型中，对所述编码结果进行语句级别的解码并通过第二解码器模型语句级别的解码结果进行词级别的解码，以形成得到融合所述视觉特征和所述文本信息以描述所述图像的第二文本信息。

图7是本发明实施例提供的电子设备的一个可选的结构示意图，如图7所示，电子设备700可以是带有包括带有图像识别功能的移动电话、计算机、数字广播终端、信息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。图7所示的电子设备700包括：至少一个处理器701、存储器702、至少一个网络接口704和用户接口703。电子设备700中的各个组件通过总线系统705耦合在一起。可理解，总线系统705用于实现这些组件之间的连接通信。总线系统705除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统705。

其中，用户接口703可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器702可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器702旨在包括这些和任意其它适合类型的存储器。

本发明实施例中的存储器702包括但不限于：三态内容寻址存储器、静态随机存储器能够存储图像数据，文本数据图像识别程序等多种类数据以支持电子设备700的操作。这些数据的示例包括：用于在电子设备700上操作的任何计算机程序，如操作系统7021和应用程序7022、图像数据、文本数据、图像识别程序等。其中，操作系统7021包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序7022可以包含各种应用程序，例如带有图像识别功能的客户端、或应用程序等，用于实现包括获取图像信息和第一文本信息，基于所述图像信息和所述第一文本信息，生成第二文本信息在内的各种应用业务。实现本发明实施例功率调整方法的程序可以包含在应用程序7022中。

上述本发明实施例揭示的方法可以应用于处理器701中，或者由处理器701实现。处理器701可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的操作完成。上述的处理器701可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器701可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器702，处理器701读取存储器702中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现，用于执行所述功率调整方法。

在示例性实施例中，本发明实施例还提供了一种计算机可读存储介质，例如包括计算机程序的存储器702，上述计算机程序可由电子设备700的处理器701执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器运行时，执行：

获取图像信息和第一文本信息。

基于所述图像信息和所述第一文本信息，生成第二文本信息，所述第二文本信息用于表征所述图像信息和所述文本信息内容。

本领域内的技术人员应明白，本发明实施例可提供为方法、系统、或计算机程序产品。因此，本发明实施例可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序操作实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序操作到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的操作产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序操作也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的操作产生包括操作装置的制造品，该操作装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序操作也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的操作提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田疆;李聪
技术所有人：联想（北京）有限公司
我是此专利的发明人

上一篇：一种Ni-Co-Fe镍基合金粉末的制备方法及应用与流程
上一篇：一种改进型有色金属预合金粉制造技术设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。