一种图像识别的方法、装置、设备、存储介质和程序产品与流程

文档序号:33141810发布日期:2023-02-03 20:27阅读:52来源:国知局
一种图像识别的方法、装置、设备、存储介质和程序产品与流程

1.本公开涉及神经网络技术领域,具体而言,涉及一种图像识别的方法、装置、设备、存储介质和程序产品。


背景技术:

2.为了能够自动实现对视频画面或图像的语音解读,现有技术是直接用人工为图像配置语音信息,但是人工配置语音信息将耗费大量的人力,不仅存在转换效率低下的问题,还增加了图像到语音的转换成本。
3.在进行图像的语音解读时,还可以通过对图像分类和物体检测等技术,对图像进行识别,确定一个与识别后的图像相匹配的文本,并通过转换工具将该文本转换成语音,但是从图像转换为文本,再从文本转换为语音的转换流程过长,且十分繁琐复杂,必须以文本作为图像到语音之间的转换桥梁,造成转换精度和效率均较低的缺陷。


技术实现要素:

4.本公开实施例至少提供一种图像识别的方法、装置、设备、存储介质和程序产品。
5.第一方面,本公开实施例提供了一种图像识别的方法,基于训练好的目标神经网络执行以下方法:
6.获取目标图像,并利用训练好的所述目标神经网络的图像编码器,提取所述目标图像的目标图像特征;
7.利用训练好的所述目标神经网络的多模态转换器,对所述目标图像特征进行模态转换,得到转换后的目标多模态特征;所述多模态转换器为基于样本图像、样本文本和样本语音训练得到;
8.利用训练好的所述目标神经网络的语音解码器,基于所述目标多模态特征生成与所述目标图像对应的目标语音。
9.一种可选的实施方式中,所述方法还包括根据以下步骤训练所述目标神经网络:
10.获取所述样本图像、与所述样本图像对应的标准文本、与所述标准文本相关联的多个样本文本、以及与所述多个样本文本分别对应的样本语音;其中,所述标准文本用于描述所述样本图像,每个所述样本文本中包含所述标准文本中的部分文本;每个样本文本对应的样本语音与该样本文本的描述内容相匹配;
11.利用待训练的目标神经网络,预测得到与所述样本图像对应的第一预测文本,与所述标准文本对应的预测图像,与多个所述样本文本对应的多个预测语音,以及,与所述多个样本语音对应的多个第二预测文本;
12.基于所述样本图像、所述预测图像、所述标准文本、所述第一预测文本、多个所述样本文本、多个所述第二预测文本、多个所述样本语音和多个所述预测语音,确定目标损失信息;
13.基于所述目标损失信息训练待训练的目标神经网络,确定训练好的目标神经网
络。
14.一种可选的实施方式中,所述预测得到与所述样本图像对应的第一预测文本,包括:
15.利用待训练的目标神经网络的图像编码器,提取所述样本图像的第一图像特征;
16.利用待训练的目标神经网络的多模态转换器,对所述第一图像特征进行模态转换,得到转换后的第一多模态特征;
17.利用待训练的目标神经网络的文本解码器,基于所述第一多模态特征生成与所述样本图像对应的第一预测文本。
18.一种可选的实施方式中,预测得到与所述标准文本对应的预测图像,包括:
19.利用待训练的目标神经网络的文本编码器,提取所述标准文本的第一文本特征;
20.利用待训练的目标神经网络的多模态转换器,对所述第一文本特征进行模态转换,得到转换后的第二多模态特征;
21.利用待训练的目标神经网络的图像解码器,基于所述第二多模态特征生成与所述标准文本对应的预测图像。
22.一种可选的实施方式中,针对预测得到的多个所述样本文本中的每个样本文本对应的预测语音,包括:
23.利用待训练的目标神经网络的文本编码器,提取所述样本文本的第二文本特征;
24.利用待训练的目标神经网络的多模态转换器,对所述第二文本特征进行模态转换,得到转换后的第三多模态特征;
25.利用待训练的目标神经网络的语音解码器,基于所述第三多模态特征,生成与所述样本文本对应的预测语音。
26.一种可选的实施方式中,针对预测得到与第一个所述样本语音中的每个样本语音对应的第二预测文本,包括:
27.利用待训练的目标神经网络的语音编码器,提取所述样本语音的第一频谱特征;
28.利用待训练的目标神经网络的多模态转换器,对所述第一频谱特征进行模态转换,得到转换后的第四多模态特征;
29.利用待训练的目标神经网络的文本解码器,基于所述第四多模态特征生成与所述样本语音对应的第二预测文本。
30.一种可选的实施方式中,所述基于所述样本图像、所述预测图像、所述标准文本、所述第一预测文本、多个所述样本文本、多个所述第二预测文本、多个所述样本语音和多个所述预测语音,确定目标损失信息,包括:
31.基于所述样本图像和所述预测图像,确定第一损失信息;
32.基于所述标准文本和所述第一预测文本,确定第二损失信息;
33.基于多个所述样本文本和多个所述第二预测文本,确定多个第三损失信息;
34.基于多个所述样本语音和多个所述预测语音,确定多个第四损失信息;
35.将所述第一损失信息、所述第二损失信息、多个所述第三损失信息和多个所述第四损失信息进行加权处理,确定所述目标损失信息。
36.一种可选的实施方式中,所述利用训练好的所述目标神经网络的语音解码器,基于所述目标多模态特征生成与所述目标图像对应的目标语音,包括:
37.利用训练好的所述目标神经网络的语音解码器,对所述目标多模态特征进行特征解码,得到第二频谱特征;
38.基于所述第二频谱特征生成与所述目标图像对应的目标语音。
39.第二方面,本公开实施例还提供一种图像识别的装置,包括:
40.特征提取模块,用于获取目标图像,并利用训练好的所述目标神经网络的图像编码器,提取所述目标图像的目标图像特征;
41.模态转换模块,用于利用训练好的所述目标神经网络的多模态转换器,对所述目标图像特征进行模态转换,得到转换后的目标多模态特征;所述多模态转换器为基于样本图像、样本文本和样本语音训练得到;
42.语音生成模块,用于利用训练好的所述目标神经网络的语音解码器,基于所述目标多模态特征生成与所述目标图像对应的目标语音。
43.一种可选的实施方式中,所述装置还包括网络训练模块,用于获取所述样本图像、与所述样本图像对应的标准文本、与所述标准文本相关联的多个样本文本、以及与所述多个样本文本分别对应的样本语音;其中,所述标准文本用于描述所述样本图像,每个所述样本文本中包含所述标准文本中的部分文本;每个样本文本对应的样本语音与该样本文本的描述内容相匹配;利用待训练的目标神经网络,预测得到与所述样本图像对应的第一预测文本,与所述标准文本对应的预测图像,与多个所述样本文本对应的多个预测语音,以及,与所述多个样本语音对应的多个第二预测文本;基于所述样本图像、所述预测图像、所述标准文本、所述第一预测文本、多个所述样本文本、多个所述第二预测文本、多个所述样本语音和多个所述预测语音,确定目标损失信息;基于所述目标损失信息训练待训练的目标神经网络,确定训练好的目标神经网络。
44.一种可选的实施方式中,所述网络训练模块,用于利用待训练的目标神经网络的图像编码器,提取所述样本图像的第一图像特征;利用待训练的目标神经网络的多模态转换器,对所述第一图像特征进行模态转换,得到转换后的第一多模态特征;利用待训练的目标神经网络的文本解码器,基于所述第一多模态特征生成与所述样本图像对应的第一预测文本。
45.一种可选的实施方式中,所述网络训练模块,用于利用待训练的目标神经网络的文本编码器,提取所述标准文本的第一文本特征;利用待训练的目标神经网络的多模态转换器,对所述第一文本特征进行模态转换,得到转换后的第二多模态特征;利用待训练的目标神经网络的图像解码器,基于所述第二多模态特征生成与所述标准文本对应的预测图像。
46.一种可选的实施方式中,所述网络训练模块,用于利用待训练的目标神经网络的文本编码器,提取所述样本文本的第二文本特征;利用待训练的目标神经网络的多模态转换器,对所述第二文本特征进行模态转换,得到转换后的第三多模态特征;利用待训练的目标神经网络的语音解码器,基于所述第三多模态特征,生成与所述样本文本对应的预测语音。
47.一种可选的实施方式中,所述网络训练模块,用于利用待训练的目标神经网络的语音编码器,提取所述样本语音的第一频谱特征;利用待训练的目标神经网络的多模态转换器,对所述第一频谱特征进行模态转换,得到转换后的第四多模态特征;利用待训练的目
标神经网络的文本解码器,基于所述第四多模态特征生成与所述样本语音对应的第二预测文本。
48.一种可选的实施方式中,所述网络训练模块,用于基于所述样本图像和所述预测图像,确定第一损失信息;基于所述标准文本和所述第一预测文本,确定第二损失信息;基于多个所述样本文本和多个所述第二预测文本,确定多个第三损失信息;基于多个所述样本语音和多个所述预测语音,确定多个第四损失信息;将所述第一损失信息、所述第二损失信息、多个所述第三损失信息和多个所述第四损失信息进行加权处理,确定所述目标损失信息。
49.一种可选的实施方式中,所述语音生成模块,用于利用训练好的所述目标神经网络的语音解码器,对所述目标多模态特征进行特征解码,得到第二频谱特征;基于所述第二频谱特征生成与所述目标图像对应的目标语音。
50.第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的图像识别的方法的步骤。
51.第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的图像识别的方法的步骤。
52.第五方面,本公开实施例提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述第一方面,或第一方面中任一种可能的图像识别的方法的步骤。
53.关于上述图像识别的装置、计算机设备、计算机可读存储介质和计算机程序产品的效果描述参见上述图像识别的方法的说明,这里不再赘述。
54.本公开实施例提供的图像识别的方法、装置、设备、存储介质和程序产品,是利用基于训练好的目标神经网络执行的。具体的,通过获取目标图像,并利用训练好的目标神经网络的图像编码器,提取目标图像的目标图像特征;利用训练好的目标神经网络的多模态转换器,对目标图像特征进行模态转换,得到转换后的目标多模态特征;多模态转换器为基于样本图像、样本文本和样本语音训练得到;利用训练好的目标神经网络的语音解码器,基于目标多模态特征生成与目标图像对应的目标语音。其中,由于训练多模态转换器的过程是不断融合多模态(图像、文本、语音)特征所建立的特征空间的过程,因此,多模态转换器输出的目标多模态特征能够表征多种模态信息的特征,之后,将其进行语音解码,实现了将图像信息直接转换为语音信息,即上述目标语音,与现有技术中的利用文本作为图像到语音之间的转换桥梁相比,本公开实施例在应用过程中不需要文本作为图像与语音之间的中间转换,能够实现跨模态转化,较少了转换步骤,能够提高对图像进行语音转换的效率和精度;同时,利用目标神经网络实现了图像自动识别自动转换为语音的过程,无需人工操作,在提高转换效率的同时,降低了人力损耗,进而降低图像到语音转换的成本。
55.进一步,本公开实施例提供的图像识别的方法,还可以根据以下步骤训练目标神经网络:获取样本图像、与样本图像对应的标准文本、与标准文本相关联的多个样本文本、以及与多个样本文本分别对应的样本语音;其中,标准文本用于描述所述样本图像,每个样
本文本中包含标准文本中的部分文本;每个样本文本对应的样本语音与该样本文本的描述内容相匹配;利用待训练的目标神经网络,预测得到与样本图像对应的第一预测文本,与标准文本对应的预测图像,与多个样本文本对应的多个预测语音,以及,与多个样本语音对应的多个第二预测文本;基于样本图像、预测图像、标准文本、第一预测文本、多个样本文本、多个第二预测文本、多个样本语音和多个预测语音,确定目标损失信息;基于目标损失信息训练待训练的目标神经网络,确定训练好的目标神经网络。其中,利用与样本图像对应的标准文本、与标准文本相关联的多个样本文本、以及与多个样本文本分别对应的样本语音训练待训练的目标神经网络,在已经训练一段时间,存在大量的样本文本和大量的样本语音的特征空间情况下,可以利用历史学习到的样本文本的特征空间和样本语音的特征空间,与新建立的样本图像的特征空间和标准文本的特征空间融合,能够降低训练样本的数量,即利用少量的样本训练就能够训练好目标神经网络,提高了目标神经网络训练的效率。
56.为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
57.为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
58.图1示出了本公开实施例所提供的一种图像识别的方法的流程图;
59.图2示出了本公开实施例所提供的多模态转换器的网络结构示意图;
60.图3示出了本公开实施例所提供的语音解码器的网络结构示意图;
61.图4示出了本公开实施例所提供的识别目标图像生成目标语音的流程示意图;
62.图5示出了本公开实施例所提供的一种训练目标神经网络的流程图;
63.图6示出了本公开实施例所提供的训练目标神经网络的网络结构示意图;
64.图7示出了本公开实施例所提供的文本解码器的网络结构示意图;
65.图8示出了本公开实施例所提供的文本编码器的网络结构示意图;
66.图9示出了本公开实施例所提供的图像解码器的网络结构示意图;
67.图10示出了本公开实施例所提供的语音编码器的网络结构示意图;
68.图11示出了本公开实施例所提供的另一种训练目标神经网络的流程图;
69.图12示出了本公开实施例所提供的一种图像识别的装置的示意图;
70.图13示出了本公开实施例所提供的一种计算机设备的结构示意图。
具体实施方式
71.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的
实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
72.另外,本公开实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
73.在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
74.经研究发现,为了能够自动实现对视频画面或图像的语音解读,现有技术是直接用人工为图像配置语音信息,但是人工配置语音信息将耗费大量的人力,不仅存在转换效率低下的问题,还增加了图像到语音的转换成本。在进行图像的语音解读时,还可以通过对图像分类和物体检测等技术,对图像进行识别,确定一个与识别后的图像相匹配的文本,并通过转换工具将该文本转换成语音,但是从图像转换为文本,再从文本转换为语音的转换流程过长,且十分繁琐复杂,必须以文本作为图像到语音之间的转换桥梁,造成转换精度和效率均较低的缺陷。
75.基于上述研究,本公开提供了一种图像识别的方法、装置、设备、存储介质和程序产品,由于训练多模态转换器的过程是不断融合多模态(图像、文本、语音)特征所建立的特征空间的过程,因此,多模态转换器输出的目标多模态特征能够表征多种模态信息的特征,之后,将其进行语音解码,实现了将图像信息直接转换为语音信息,即上述目标语音,与现有技术中的利用文本作为图像到语音之间的转换桥梁相比,本公开实施例在应用过程中不需要文本作为图像与语音之间的中间转换,能够实现跨模态转化,较少了转换步骤,能够提高对图像进行语音转换的效率和精度;同时,利用目标神经网络实现了图像自动识别自动转换为语音的过程,无需人工操作,在提高转换效率的同时,降低了人力损耗,进而降低图像到语音转换的成本。
76.针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
77.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
78.1、多模态:人的触觉,听觉,视觉,嗅觉;信息的媒介,包括语音、视频、文字等;多种多样的传感器,比如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。本公开实施例主要是指的机器学习领域的模态概念,比如图像、视频、音频、文本。机器学习的方法实现处理和理解多源模态信息的能力。
79.2、梅尔频谱(mel-spectrogram),是一种语音处理中的特征,可以从语音的梅尔频谱恢复出对应的语音波形。
80.3、griffin lim算法,是一种已知幅度谱,未知相位谱,通过迭代生成相位谱,并用已知的幅度谱和计算得出的相位谱,重建语音波形的方法。
81.4、cbhg模型,用于提取序列特征。
82.5、卷积神经网络(convolutional neural networks,cnn)是一类包含卷积计算且具有深度结构的前馈神经网络(feedforward neural networks),是深度学习(deep learning)的代表算法之一。
83.6、残差网络(resnet),一种卷积神经网络。resnet18表示卷积层数为18层。
84.7、conv卷积,向量卷积运算,conv 1d表示一维卷积运算;conv 2d表示二维卷积运算。
85.8、线性整流函数(rectified linear unit,relu),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function),通常指代以斜坡函数及其变种为代表的非线性函数。
86.9、atchnorm,是深度网络中经常用到的加速神经网络训练,加速收敛速度及稳定性的算法,用于数据批量规范化处理。
87.10、tanh,双曲正切函数。
88.11、循环神经网络(recurrent neural network,rnn)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。
89.12、注意力机制,attention机制,可以应用在循环神经网络rnn。
90.13、长短期记忆网络(long short-term memory,lstm)是一种时间循环神经网络,是为了解决一般的rnn(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的rnn都具有一种重复神经网络模块的链式形式。
91.14、word2vec,是一类神经网络模型,在给定无标签的语料库的情况下,为语料库的单词产生一个能表达语义的向量。word2vec是google开源的一款用于词向量计算的工具,可以很好的度量词与词之间的相似性。
92.15、pooling,卷积神经网络中的池化层,用于进行池化操作。
93.16、reshape操作是将指定的矩阵变换成特定维数矩阵一种函数,且矩阵中元素个数不变,函数可以重新调整矩阵的行数、列数、维数。函数语法为r=reshape(q,size)是指返回一个和q元素相同的n维数组,但是由向量size来决定重构数组维数的大小。
94.17、gru,gated recurrent unit,门控循环单元。能够加强rnn神经网络的记忆能力。
95.为便于对本实施例进行理解,首先对本公开实施例所公开的一种图像识别的方法进行详细介绍,本公开实施例所提供的图像识别的方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备。在一些可能的实现方式中,该图像识别的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
96.下面以执行主体为计算机设备为例对本公开实施例提供的图像识别的方法加以说明。
97.为进一步理解本公开实施例,下面对本公开实施例所公开的一种图像识别的方法的应用场景进行介绍,本发明实施例提供的图像识别的方法可以应用于一些互联网应用程序(application,app),比如短视频app,美图美颜app,其他图像视频编辑app等,示例性的,
用户可以从上述任意app中选择一张图像,开启图像识别功能后,通过图像自动生成语音,对图像内容进行介绍和解读。
98.基于上述应用场景,本公开实施例提供了一种图像识别的方法,参见图1所示,其为本公开实施例提供的一种图像识别的方法的流程图,所述方法包括步骤s101~s103,其中:
99.s101:获取目标图像,并利用训练好的目标神经网络的图像编码器,提取目标图像的目标图像特征。
100.本步骤中的目标图像中包括有意义的图像内容,不为空白图像或乱码图像。
101.对目标图像进行识别处理,具体的,将该目标图像输入到训练好的目标神经网络的图像编码器中,提取目标图像的目标图像特征并输出。之后,将输出的目标图像特征输入到下一层网络,即训练好的目标神经网络的多模态转换器。
102.示例性的,图像编码器可以为resnet18模型。在提取目标图像的目标图像特征之后,resnet18模型可以输出1
×
1024的特征向量(即目标图像特征)。
103.s102:利用训练好的目标神经网络的多模态转换器,对目标图像特征进行模态转换,得到转换后的目标多模态特征;多模态转换器为基于样本图像、样本文本和样本语音训练得到。
104.本步骤中,多模态转换器的网络结构如图2所示,其为多模态转换器的网络结构示意图,包括两个全连接层,即全连接层211和全连接层212;两个conv1d+relu+batchnorm模块,即conv1d+relu+batchnorm模块221和conv1d+relu+batchnorm模块222;以及,一个tanh激活函数231。tanh激活函数231,能够增加多模态转换器的非线性。
105.具体实施时,将目标图像特征输入到多模态转换器中,利用图2所示的网络结构对目标图像特征进行模态转换,即,目标图像特征依次经过全连接层211、全连接层212、conv1d+relu+batchnorm模块221、conv1d+relu+batchnorm模块222和tanh激活函数231处理,得到转换后的目标多模态特征。延续上例,可以将resnet18模型输出的1
×
1024的特征向量输入到多模态转换器中进行特征转换,可以输出1
×
128的特征向量(即目标多模态特征)。
106.s103:利用训练好的目标神经网络的语音解码器,基于目标多模态特征生成与目标图像对应的目标语音。
107.具体实施时,可以利用训练好的目标神经网络的语音解码器,对目标多模态特征进行特征解码,得到第二频谱特征;基于第二频谱特征生成与目标图像对应的目标语音。
108.本步骤中,语音解码器的网络结构如图3所示,其为语音解码器的网络结构示意图,包括多层rnn模型31(例如,可以是六层),其中,每层rnn模型31中包含attention机制;cbhg模型32;cbhg模型32输出第二频谱特征。
109.示例性的,将目标多模态特征输入到语音解码器中,利用图3所示的网络结构对目标多模态特征进行特征解码,即,目标多模态特征经过多层rnn模型31卷积处理,将卷积结果输入到cbhg模型32中,经过cbhg模型32处理,输出第二频谱特征。
110.之后,基于第二频谱特征生成与目标图像对应的目标语音。具体的,可以利用频谱恢复语音信号的算法,将第二频谱特征恢复为语音信号,即目标图像对应到目标语音。这里,目标语音为描述目标对象中的内容信息的语音。
111.这里,第二频谱特征可以为梅尔频谱。延续上例,可以将多模态转换器输出的1
×
128的特征向量(即目标多模态特征)输入到语音解码器中进行特征解码,可以输出用于表征目标语音的t
×
n的特征向量(即梅尔频谱)。其中,t
×
n可以为15
×
128。
112.基于上述s101~s103,参见图4所示,其为识别目标图像生成目标语音的流程示意图,包括:目标图像41,图像编码器42,多模态转换器43,语音解码器44,griffin lim算法模型45,目标语音46。示例性的,将目标图像41输入到图像编码器42中提取特征,图像编码器42输出目标图像特征;将目标图像特征输入到多模态转换器43中进行模态转换处理,多模态转换器43输出目标多模态特征;将目标多模态特征输入到语音解码器44中进行特征解码处理,语音解码器44输出梅尔频谱;将梅尔频谱输入到griffin lim算法模型45中恢复语音信号,griffin lim算法模型45输出目标语音46。
113.上述s101~s103,由于训练多模态转换器的过程是不断融合多模态(图像、文本、语音)特征所建立的特征空间的过程,因此,多模态转换器输出的目标多模态特征能够表征多种模态信息的特征,之后,将其进行语音解码,实现了将图像信息直接转换为语音信息,即上述目标语音,即在应用过程中不需要文本作为图像与语音之间的中间转换,能够实现跨模态转化,较少了转换步骤,能够提高对图像进行语音转换的效率和精度;同时,利用目标神经网络实现了图像自动识别自动转换为语音的过程,无需人工操作,在提高转换效率的同时,降低了人力损耗,进而降低图像到语音转换的成本。
114.由于本公开实施例提供的图像识别的方法是基于训练好的目标神经网络执行的,下面将具体介绍如何训练目标神经网络。
115.参见图5所示,其为一种训练目标神经网络的流程图,包括s501~s504,具体的:
116.s501:获取样本图像、与样本图像对应的标准文本、与标准文本相关联的多个样本文本、以及与多个样本文本分别对应的样本语音。
117.其中,标准文本用于描述样本图像,每个样本文本中包含标准文本中的部分文本;每个样本文本对应的样本语音与该样本文本的描述内容相匹配。
118.这里,由于样本文本与样本语音一一对应,因此,多个样本文本包括的样本文本的数量与样本语音的数量相同。
119.示例性的,样本图像为一张“打羽毛球”的图像,与样本图像对应的标准文本的描述内容为“打羽毛球”,与标准文本相关联的样本文本a的描述内容为“打篮球”,与标准文本相关联的样本文本b的描述内容为“羽毛”,与样本文本a对应的样本语音为“打篮球”,与样本文本b对应的样本语音为“羽毛”。这里,样本文本a包含标准文本中的部分文本,即“打”和“球”;样本文本b包含标准文本中的部分文本,即“羽毛”。
120.s502:利用待训练的目标神经网络,预测得到与样本图像对应的第一预测文本,与标准文本对应的预测图像,与多个样本文本对应的多个预测语音,以及,与多个样本语音对应的多个第二预测文本。
121.参见图6所示,其为训练目标神经网络的流程示意图,包括样本图像601,标准文本602,样本文本603,样本语音604,图像编码器605,文本编码器606,语音编码器607,多模态转换器608,图像解码器609,文本解码器610,语音解码器611。其中,

表示利用样本图像训练目标神经网络的流程,

表示利用标准文本训练目标神经网络的流程,

表示利用样本文本训练目标神经网络的流程,

表示利用样本语音训练目标神经网络的流程。
122.在一些实施例中,利用待训练的目标神经网络,预测得到与样本图像对应的第一预测文本,具体实施时,可以利用待训练的目标神经网络的图像编码器605,提取样本图像的第一图像特征;利用待训练的目标神经网络的多模态转换器608,对第一图像特征进行模态转换,得到转换后的第一多模态特征;利用待训练的目标神经网络的文本解码器610,基于第一多模态特征生成与样本图像对应的第一预测文本。
123.示例性的,图像编码器605可以为resnet18模型,提取样本图像的第一图像特征。之后,resnet18模型可以输出1
×
1024的特征向量(即第一图像特征)。之后,将resnet18模型输出的第一图像特征输入到多模态转换器608中进行特征转换,可以输出1
×
128的特征向量(即第一多模态特征)。之后,将多模态转换器608输出的第一多模态特征输入到文本解码器610进行特征解码,可以输出用于表征第一预测文本的1
×
512的特征向量p1。
124.这里,利用多模态转换器608进行特征转换处理的过程可以参照上述目标图像特征转换为目标多模态特征的转换过程,其特征转换处理流程相同,在此不再赘述。
125.这里,利用文本解码器610进行特征解码过程可以参见图7所示,其为文本解码器的网络结构示意图,包括多个lstm模块71(例如,可以是两个)。首先,将第一多模态特征输入到多个lstm模块71中,输出为表征第一预测文本的1
×
512的特征向量p1。
126.在一些实施例中,利用待训练的目标神经网络,预测得到与标准文本对应的预测图像,具体实施时,可以利用待训练的目标神经网络的文本编码器606,提取标准文本的第一文本特征;利用待训练的目标神经网络的多模态转换器608,对第一文本特征进行模态转换,得到转换后的第二多模态特征;利用待训练的目标神经网络的图像解码器609,基于第二多模态特征生成与标准文本对应的预测图像。
127.示例性的,利用文本编码器606提取标准文本的第一文本特征,之后,文本编码器606可以输出1
×
512的特征向量(即第一文本特征)。之后,将文本编码器606输出的第一文本特征输入到多模态转换器608中进行特征转换,可以输出1
×
128的特征向量(即第二多模态特征)。之后,将多模态转换器608输出的第二多模态特征输入到图像解码器609进行特征解码,可以输出用于表征预测图像的224
×
224的图像矩阵。
128.这里,利用文本编码器606提取标准文本的第一文本特征,具体的,可以参见图8所示,其为文本编码器的网络结构示意图,包括word2vec模块81,word2vec模块81输出的词向量82,全连接层83,全连接层84,pooling模块85,全连接层86。
129.示例性的,标准文本依次经过上述81~86模块的处理,最终提取出标准文本的第一文本特征。这里,词向量82可以为1
×
512的特征向量。
130.这里,利用图像解码器609进行特征解码过程可以参见图9所示,其为图像解码器的网络结构示意图,其中,包括全连接层91和多个conv2d+relu+batchnorm模块92(例如,可以是四个)。首先,将第二多模态特征输入到全连接层91中,经过卷积处理,将处理结果经过reshap运算,将运算结果输入到多个conv2d+relu+batchnorm模块92中进行处理,将规范化处理的结果再次经过reshap运算输出用于表征预测图像的224
×
224的图像矩阵。
131.在一些实施例中,利用待训练的目标神经网络,预测得到与多个样本文本对应的多个预测语音。下面针对预测得到的多个样本文本中的每个样本文本对应的预测语音进行详细说明。具体实施时,利用待训练的目标神经网络的文本编码器606,提取样本文本的第二文本特征;利用待训练的目标神经网络的多模态转换器608,对第二文本特征进行模态转
换,得到转换后的第三多模态特征;利用待训练的目标神经网络的语音解码器611,基于第三多模态特征,生成与样本文本对应的预测语音。
132.示例性的,利用文本编码器606提取样本文本的第二文本特征,之后,文本编码器606可以输出1
×
512的特征向量(即第二文本特征)。之后,将文本编码器606输出的第二文本特征输入到多模态转换器608中进行特征转换,可以输出1
×
128的特征向量(即第三多模态特征)。之后,将多模态转换器608输出的第三多模态特征输入到语音解码器611进行特征解码,可以输出用于表征预测语音的t
×
n的特征向量p2(即梅尔频谱p2)。之后,可以利用griffin lim算法将该梅尔频谱p2恢复为预测语音。
133.这里,利用文本编码器606提取样本文本的第二文本特征的过程,可以上述利用文本编码器606提取标准文本的第一文本特征的过程,其特征提取处理流程相同,在此不再赘述。
134.这里,利用语音解码器611进行特征解码过程可以参见图3所示,示例性的,将第三多模态特征输入到多层rnn模型31进行卷积处理,将卷积结果输入到cbhg模型32中,经过cbhg模型32处理,输出梅尔频谱p2。
135.上述预测多个样本文本中的每个样本文本对应的预测语音的过程相同,重复部分不再赘述。
136.在一些实施例中,利用待训练的目标神经网络,预测得到与样本语音对应的第二预测文本,下面针对预测得到的多个样本语音中的每个样本语音对应的第二预测文本进行详细说明。具体实施时,可以利用待训练的目标神经网络的语音编码器607,提取样本语音的第一频谱特征;利用待训练的目标神经网络的多模态转换器608,对第一频谱特征进行模态转换,得到转换后的第四多模态特征;利用待训练的目标神经网络的文本解码器610,基于第四多模态特征生成与样本语音对应的第二预测文本。
137.示例性的,利用语音编码器607提取样本语音的第一频谱特征,之后,语音编码器607可以输出1
×
128的特征向量(即第一频谱特征)。之后,将语音编码器607输出的第一频谱特征输入到多模态转换器608中进行特征转换,可以输出1
×
128的特征向量(即第四多模态特征)。之后,将多模态转换器608输出的第四多模态特征输入到文本解码器610进行特征解码,可以输出用于表征第二预测文本的1
×
512的特征向量p3。
138.这里,利用语音编码器607提取样本语音的第一频谱特征,具体的,可以参见图10所示,其为语音编码器的网络结构示意图,包括:特征提取器1001,特征提取器1001输出的梅尔频谱1002,多个conv2d+relu+batchnorm模块1003(例如,可以是两个)和gru模块1004。
139.示例性的,将样本语音输入到特征提取器1001中,提取梅尔频谱1002;之后,将梅尔频谱1002输入到多个conv2d+relu+batchnorm模块1003中进行处理,将规范化处理的结果输入到gru模块1004中进行处理,最终gru模块1004输出样本语音的第一频谱特征。
140.这里,利用文本解码器610进行特征解码的过程可以参照图7的处理流程,在此不再赘述。
141.上述预测多个样本语音中的每个样本语音对应的第二预测文本的过程相同,重复部分不再赘述。
142.s503:基于样本图像、预测图像、标准文本、第一预测文本、多个样本文本、多个第二预测文本、多个样本语音和多个预测语音,确定第一目标损失信息。
143.在一些实施例中,如图6所示,可以基于样本图像和预测图像,确定第一损失信息;基于标准文本和第一预测文本,确定第二损失信息;基于多个样本文本和多个第二预测文本,确定多个第三损失信息;基于多个样本语音和多个预测语音,确定多个第四损失信息;将第一损失信息、第二损失信息、多个第三损失信息和多个第四损失信息进行加权处理,确定第一目标损失信息。
144.具体实施时,可以将样本图像与待训练的目标神经网络输出的预测图像相关联,将标准文本对应的词向量82与样本图像对应的1
×
512的特征向量p1相关联,将多个样本文本对应的词向量与多个样本语音对应的1
×
512的特征向量p3相关联,将多个样本语音对应的梅尔频谱1002与多个样本文本对应的梅尔频谱p2相关联。之后,基于相关联的样本图像和预测图像,确定第一损失信息;基于相关联的词向量82和1
×
512的特征向量p1,确定第二损失信息;基于相关联的多个样本文本对应的词向量和多个1
×
512的特征向量p3,确定多个第三损失信息;基于相关联的多个梅尔频谱1002和多个梅尔频谱p2,确定多个第四损失信息。之后,将第一损失信息、第二损失信息、多个第三损失信息和多个第四损失信息进行加权处理,确定第一目标损失信息。
145.上述损失信息可以为损失函数,即第一损失信息为样本图像的损失函数a;第二损失信息为标准文本的损失函数b;第三损失信息为样本文本的损失函数c;第四损失信息为样本语音的损失函数d。
146.这里,利用将上述各个损失函数加权处理,可以确定第一目标损失信息,即第一目标损失函数e。例如,加权求和,第一目标损失函数e=a+b+c(多个)+d(多个)。
147.s504:基于第一目标损失信息训练待训练的目标神经网络,确定训练好的目标神经网络。
148.这里,可以利用s503中确定的第一目标损失函数e调整待训练的目标神经网络的参数,之后,再次训练目标神经网络,即不断改变样本图像、标准文本、样本文本和标准语音,循环执行上述的s501~s504,直到第一目标损失函数e低于预设阈值,确定待训练的目标神经网络训练完成。
149.上述s501~s504,利用与样本图像对应的标准文本、与标准文本相关联的多个样本文本、以及与多个样本文本分别对应的样本语音训练待训练的目标神经网络,在已经训练一段时间,存在大量的样本文本和大量的样本语音的特征空间情况下,可以利用历史学习到的样本文本的特征空间和样本语音的特征空间,与新建立的样本图像的特征空间和标准文本的特征空间融合,能够降低训练样本的数量,即利用少量的样本训练就能够训练好目标神经网络,提高了目标神经网络训练的效率。
150.参见图11所示,其为另一种训练目标神经网络的流程图,包括s1101~s1104,具体的:
151.s1101:获取样本图像、与样本图像对应的标准文本、以及与标准文本对应的标准语音。
152.其中,标准文本用于描述样本图像,标准语音与标准文本的描述内容相匹配。
153.示例性的,样本图像为一张“打羽毛球”的图像,与样本图像对应的标准文本的描述内容为“打羽毛球”,与标准文本对应的标准语音为“打羽毛球”。
154.s1102:利用待训练的目标神经网络,预测得到与样本图像对应的第三预测文本,
与标准文本对应的标准预测图像,与标准文本对应的标准预测语音,以及,与标准语音对应的第四预测文本。
155.具体实施时,针对本步骤中的利用待训练的目标神经网络,预测得到与样本图像对应的第三预测文本,以及,预测得到与标准文本对应的标准预测图像,可以参照图6的训练流程示意图和上述详细的说明,重复部分在此不再赘述。
156.另外,在一些实施例中,针对本步骤中的利用待训练的目标神经网络,预测得到与标准文本对应的标准预测语音,具体实施时,利用待训练的目标神经网络的文本编码器606,提取标准文本的第三文本特征;利用待训练的目标神经网络的多模态转换器608,对第三文本特征进行模态转换,得到转换后的第五多模态特征;利用待训练的目标神经网络的语音解码器611,基于第五多模态特征,生成与标准文本对应的标准预测语音。
157.示例性的,利用文本编码器606提取标准文本的第三文本特征,之后,文本编码器606可以输出1
×
512的特征向量(即第三文本特征)。之后,将文本编码器606输出的第三文本特征输入到多模态转换器608中进行特征转换,可以输出1
×
128的特征向量(即第五多模态特征)。之后,将多模态转换器608输出的第五多模态特征输入到语音解码器611进行特征解码,可以输出用于表征标准预测语音的t
×
n的特征向量p4(即梅尔频谱p4)。可以利用griffin lim算法将该梅尔频谱p4恢复为标准预测语音。
158.这里,利用文本编码器606提取标准文本的第三文本特征的过程,可以参照上述利用文本编码器606提取标准文本的第一文本特征的过程,其特征提取处理流程相同,在此不再赘述。
159.这里,利用语音解码器611对第五多模态特征进行特征解码的过程,可以参照上述利用语音解码器611对第三多模态特征进行特征解码的过程,其特征解码处理流程相同,在此不再赘述。
160.在一些实施例中,针对本步骤中的利用待训练的目标神经网络,预测得到与标准语音对应的第四预测文本,具体实施时,可以利用待训练的目标神经网络的语音编码器607,提取标准语音的第三频谱特征;利用待训练的目标神经网络的多模态转换器608,对第三频谱特征进行模态转换,得到转换后的第六多模态特征;利用待训练的目标神经网络的文本解码器610,基于第六多模态特征生成与标准语音对应的第四预测文本。
161.示例性的,利用语音编码器607提取标准语音的第三频谱特征,之后,语音编码器607可以输出1
×
128的特征向量(即第三频谱特征)。之后,将语音编码器607输出的第三频谱特征输入到多模态转换器608中进行特征转换,可以输出1
×
128的特征向量(即第六多模态特征)。之后,将多模态转换器608输出的第六多模态特征输入到文本解码器610进行特征解码,可以输出用于表征第四预测文本的1
×
512的特征向量p5。
162.这里,利用语音编码器607提取标准语音的第三频谱特征的过程,可以参照上述,利用语音编码器607提取样本语音的第一频谱特征的过程,其特征提取处理流程相同,在此不再赘述。这里,第三频谱特征为梅尔频谱。
163.这里,利用文本解码器610对第六多模态特征进行特征解码的过程,可以参照上述利用文本解码器610对第一多模态特征进行特征解码的过程,其特征解码处理流程相同,在此不再赘述。
164.s1103:基于样本图像、标准预测图像、标准文本、第三预测文本、第四预测文本、标
准语音和标准预测语音,确定第二目标损失信息。
165.在一些实施例中,可以参照s503中确定目标损失信息的处理过程,可以基于样本图像和标准预测图像,确定第五损失信息;基于标准文本和第三预测文本,确定第六损失信息;基于标准文本和第四预测文本,确定第七损失信息;基于标准语音和标准预测语音,确定第八损失信息。之后,将第五损失信息、第六损失信息、第七损失信息和第八损失信息进行加权处理,确定第二目标损失信息。
166.具体实施时,可以将样本图像与待训练的目标神经网络输出的标准预测图像相关联;将标准文本经过新训练的word2vec模块81输出的词向量a,与样本图像经过新训练的多个lstm模块71输出的1
×
512的特征向量p6相关联;将标准文本经过新训练的word2vec模块81输出的词向量a与标准语音对应的1
×
512的特征向量p5相关联,将标准语音对应的第三频谱特征与标准文本对应的梅尔频谱p4相关联。之后,基于相关联的样本图像和标准预测图像,确定第五损失信息;基于相关联的词向量a和1
×
512的特征向量p6,确定第六损失信息;基于相关联的标准文本对应的词向量a和标准语音对应的1
×
512的特征向量p5,确定第七损失信息;基于相关联的标准语音对应的第三频谱特征和标准文本对应的梅尔频谱p4,确定第八损失信息。之后,将第五损失信息、第六损失信息、第七损失信息和第八损失信息进行加权处理,确定第二目标损失信息。
167.这里,第五损失信息为样本图像的损失函数f;第六损失信息为标准文本的损失函数g;第七损失信息为样本文本的损失函数h;第八损失信息为样本语音的损失函数i。
168.之后,利用将上述各个损失函数加权处理,确定第二目标损失信息,即第二目标损失函数j。例如,加权求和,第二目标损失函数j=f+g+h+i。
169.s1104:基于第二目标损失信息训练待训练的目标神经网络,确定训练好的目标神经网络。
170.这里,可以利用s1103中确定的第二目标损失函数j调整待训练的目标神经网络的参数,之后,再次训练目标神经网络,即不断改变样本图像、标准文本和标准语音,循环执行上述的s1101~s1104,直到第二目标损失函数j低于预设阈值,确定待训练的目标神经网络训练完成。
171.本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
172.基于同一发明构思,本公开实施例中还提供了与图像识别的方法对应的图像识别的装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述图像识别的方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
173.参照图12所示,为本公开实施例提供的一种图像识别的装置的示意图,所述装置包括:特征提取模块1201、模态转换模块1202和语音生成模块1203;其中,
174.特征提取模块1201,用于获取目标图像,并利用训练好的所述目标神经网络的图像编码器,提取所述目标图像的目标图像特征;
175.模态转换模块1202,用于利用训练好的所述目标神经网络的多模态转换器,对所述目标图像特征进行模态转换,得到转换后的目标多模态特征;所述多模态转换器为基于样本图像、样本文本和样本语音训练得到;
176.语音生成模块1203,用于利用训练好的所述目标神经网络的语音解码器,基于所述目标多模态特征生成与所述目标图像对应的目标语音。
177.一种可选的实施方式中,所述装置还包括网络训练模块1204,用于获取所述样本图像、与所述样本图像对应的标准文本、与所述标准文本相关联的多个样本文本、以及与所述多个样本文本分别对应的样本语音;其中,所述标准文本用于描述所述样本图像,每个所述样本文本中包含所述标准文本中的部分文本;每个样本文本对应的样本语音与该样本文本的描述内容相匹配;利用待训练的目标神经网络,预测得到与所述样本图像对应的第一预测文本,与所述标准文本对应的预测图像,与多个所述样本文本对应的多个预测语音,以及,与所述多个样本语音对应的多个第二预测文本;基于所述样本图像、所述预测图像、所述标准文本、所述第一预测文本、多个所述样本文本、多个所述第二预测文本、多个所述样本语音和多个所述预测语音,确定目标损失信息;基于所述目标损失信息训练待训练的目标神经网络,确定训练好的目标神经网络。
178.一种可选的实施方式中,所述网络训练模块1204,用于利用待训练的目标神经网络的图像编码器,提取所述样本图像的第一图像特征;利用待训练的目标神经网络的多模态转换器,对所述第一图像特征进行模态转换,得到转换后的第一多模态特征;利用待训练的目标神经网络的文本解码器,基于所述第一多模态特征生成与所述样本图像对应的第一预测文本。
179.一种可选的实施方式中,所述网络训练模块1204,用于利用待训练的目标神经网络的文本编码器,提取所述标准文本的第一文本特征;利用待训练的目标神经网络的多模态转换器,对所述第一文本特征进行模态转换,得到转换后的第二多模态特征;利用待训练的目标神经网络的图像解码器,基于所述第二多模态特征生成与所述标准文本对应的预测图像。
180.一种可选的实施方式中,所述网络训练模块1204,用于利用待训练的目标神经网络的文本编码器,提取所述样本文本的第二文本特征;利用待训练的目标神经网络的多模态转换器,对所述第二文本特征进行模态转换,得到转换后的第三多模态特征;利用待训练的目标神经网络的语音解码器,基于所述第三多模态特征,生成与所述样本文本对应的预测语音。
181.一种可选的实施方式中,所述网络训练模块1204,用于利用待训练的目标神经网络的语音编码器,提取所述样本语音的第一频谱特征;利用待训练的目标神经网络的多模态转换器,对所述第一频谱特征进行模态转换,得到转换后的第四多模态特征;利用待训练的目标神经网络的文本解码器,基于所述第四多模态特征生成与所述样本语音对应的第二预测文本。
182.一种可选的实施方式中,所述网络训练模块1204,用于基于所述样本图像和所述预测图像,确定第一损失信息;基于所述标准文本和所述第一预测文本,确定第二损失信息;基于多个所述样本文本和多个所述第二预测文本,确定多个第三损失信息;基于多个所述样本语音和多个所述预测语音,确定多个第四损失信息;将所述第一损失信息、所述第二损失信息、多个所述第三损失信息和多个所述第四损失信息进行加权处理,确定所述目标损失信息。
183.一种可选的实施方式中,所述语音生成模块1203,用于利用训练好的所述目标神
经网络的语音解码器,对所述目标多模态特征进行特征解码,得到第二频谱特征;基于所述第二频谱特征生成与所述目标图像对应的目标语音。
184.关于图像识别的装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述图像识别的方法实施例中的相关说明,这里不再详述。
185.基于同一技术构思,本技术实施例还提供了一种计算机设备。参照图13所示,为本技术实施例提供的计算机设备的结构示意图,包括:
186.处理器131、存储器132和总线133。其中,存储器132存储有处理器131可执行的机器可读指令,处理器131用于执行存储器132中存储的机器可读指令,所述机器可读指令被处理器131执行时,处理器131执行下述步骤:s101:获取目标图像,并利用训练好的目标神经网络的图像编码器,提取目标图像的目标图像特征;s102:利用训练好的目标神经网络的多模态转换器,对目标图像特征进行模态转换,得到转换后的目标多模态特征;多模态转换器为基于样本图像、样本文本和样本语音训练得到;s103:利用训练好的目标神经网络的语音解码器,基于目标多模态特征生成与目标图像对应的目标语音。
187.上述存储器132包括内存1321和外部存储器1322;这里的内存1321也称内存储器,用于暂时存放处理器131中的运算数据,以及与硬盘等外部存储器1322交换的数据,处理器131通过内存1321与外部存储器1322进行数据交换,当计算机设备运行时,处理器131与存储器132之间通过总线133通信,使得处理器131在执行上述方法实施例中所提及的执行指令。
188.本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的图像识别的方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
189.本公开实施例还提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现上述的图像识别的方法的步骤。其中,计算机程序产品可以是任何能实现上述图像识别的方法的产品,该计算机程序产品中对现有技术做出贡献的部分或全部方案可以以软件产品(例如软件开发包(software development kit,sdk))的形式体现,该软件产品可以被存储在一个存储介质中,通过包含的计算机指令使得相关设备或处理器执行上述图像识别的方法的部分或全部步骤。
190.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
191.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
192.另外,在本公开各个实施例中的各功能模块可以集成在一个处理模块中,也可以
是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
193.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
194.最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
195.本公开实施例提供了一种图像识别的方法、装置、设备、存储介质和程序产品,具体如下:
196.ts1、一种图像识别的方法,其中,基于训练好的目标神经网络执行以下方法:
197.获取目标图像,并利用训练好的所述目标神经网络的图像编码器,提取所述目标图像的目标图像特征;
198.利用训练好的所述目标神经网络的多模态转换器,对所述目标图像特征进行模态转换,得到转换后的目标多模态特征;所述多模态转换器为基于样本图像、样本文本和样本语音训练得到;
199.利用训练好的所述目标神经网络的语音解码器,基于所述目标多模态特征生成与所述目标图像对应的目标语音。
200.ts2、根据ts1所述的方法,其中,所述方法还包括根据以下步骤训练所述目标神经网络:
201.获取所述样本图像、与所述样本图像对应的标准文本、与所述标准文本相关联的多个样本文本、以及与所述多个样本文本分别对应的样本语音;其中,所述标准文本用于描述所述样本图像,每个所述样本文本中包含所述标准文本中的部分文本;每个样本文本对应的样本语音与该样本文本的描述内容相匹配;
202.利用待训练的目标神经网络,预测得到与所述样本图像对应的第一预测文本,与所述标准文本对应的预测图像,与多个所述样本文本对应的多个预测语音,以及,与所述多个样本语音对应的多个第二预测文本;
203.基于所述样本图像、所述预测图像、所述标准文本、所述第一预测文本、多个所述样本文本、多个所述第二预测文本、多个所述样本语音和多个所述预测语音,确定目标损失信息;
204.基于所述目标损失信息训练待训练的目标神经网络,确定训练好的目标神经网
络。
205.ts3、根据ts2所述的方法,其中,所述预测得到与所述样本图像对应的第一预测文本,包括:
206.利用待训练的目标神经网络的图像编码器,提取所述样本图像的第一图像特征;
207.利用待训练的目标神经网络的多模态转换器,对所述第一图像特征进行模态转换,得到转换后的第一多模态特征;
208.利用待训练的目标神经网络的文本解码器,基于所述第一多模态特征生成与所述样本图像对应的第一预测文本。
209.ts4、根据ts2所述的方法,其中,预测得到与所述标准文本对应的预测图像,包括:
210.利用待训练的目标神经网络的文本编码器,提取所述标准文本的第一文本特征;
211.利用待训练的目标神经网络的多模态转换器,对所述第一文本特征进行模态转换,得到转换后的第二多模态特征;
212.利用待训练的目标神经网络的图像解码器,基于所述第二多模态特征生成与所述标准文本对应的预测图像。
213.ts5、根据ts2所述的方法,其中,针对预测得到的多个所述样本文本中的每个样本文本对应的预测语音,包括:
214.利用待训练的目标神经网络的文本编码器,提取所述样本文本的第二文本特征;
215.利用待训练的目标神经网络的多模态转换器,对所述第二文本特征进行模态转换,得到转换后的第三多模态特征;
216.利用待训练的目标神经网络的语音解码器,基于所述第三多模态特征,生成与所述样本文本对应的预测语音。
217.ts6、根据ts2所述的方法,其中,针对预测得到与第一个所述样本语音中的每个样本语音对应的第二预测文本,包括:
218.利用待训练的目标神经网络的语音编码器,提取所述样本语音的第一频谱特征;
219.利用待训练的目标神经网络的多模态转换器,对所述第一频谱特征进行模态转换,得到转换后的第四多模态特征;
220.利用待训练的目标神经网络的文本解码器,基于所述第四多模态特征生成与所述样本语音对应的第二预测文本。
221.ts7、根据ts2所述的方法,其中,所述基于所述样本图像、所述预测图像、所述标准文本、所述第一预测文本、多个所述样本文本、多个所述第二预测文本、多个所述样本语音和多个所述预测语音,确定目标损失信息,包括:
222.基于所述样本图像和所述预测图像,确定第一损失信息;
223.基于所述标准文本和所述第一预测文本,确定第二损失信息;
224.基于多个所述样本文本和多个所述第二预测文本,确定多个第三损失信息;
225.基于多个所述样本语音和多个所述预测语音,确定多个第四损失信息;
226.将所述第一损失信息、所述第二损失信息、多个所述第三损失信息和多个所述第四损失信息进行加权处理,确定所述目标损失信息。
227.ts8、根据ts1所述的方法,其中,所述利用训练好的所述目标神经网络的语音解码器,基于所述目标多模态特征生成与所述目标图像对应的目标语音,包括:
228.利用训练好的所述目标神经网络的语音解码器,对所述目标多模态特征进行特征解码,得到第二频谱特征;
229.基于所述第二频谱特征生成与所述目标图像对应的目标语音。
230.ts9、一种图像识别的装置,其中,包括:
231.特征提取模块,用于获取目标图像,并利用训练好的所述目标神经网络的图像编码器,提取所述目标图像的目标图像特征;
232.模态转换模块,用于利用训练好的所述目标神经网络的多模态转换器,对所述目标图像特征进行模态转换,得到转换后的目标多模态特征;所述多模态转换器为基于样本图像、样本文本和样本语音训练得到;
233.语音生成模块,用于利用训练好的所述目标神经网络的语音解码器,基于所述目标多模态特征生成与所述目标图像对应的目标语音。
234.ts10、一种计算机设备,其中,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如ts1至ts8任一项所述的图像识别的方法的步骤。
235.ts11、一种计算机可读存储介质,其中,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如ts1至ts8任一项所述的图像识别的方法的步骤。
236.ts12、一种计算机程序产品,包括计算机指令,其中,所述计算机指令被处理器执行时实现如ts1至ts8中任意一项所述的图像识别的方法的步骤。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1