图像分析方法、装置及电子设备

文档序号:31604889发布日期:2022-09-21 10:16阅读:58来源:国知局
图像分析方法、装置及电子设备

1.本发明涉及计算机视觉技术领域,尤其涉及一种图像分析方法、装置及电子设备。


背景技术:

2.计算机视觉是使用计算机模仿人类视觉系统的科学,能够使计算机拥有类似人类提取、处理、理解和分析图像及图像序列的能力,在安防、制造、政务、医疗等领域中发挥着越来越重要的作用。
3.在计算机视觉任务中,不同于自然语言可以被建模成序列至序列的特点,视觉任务的定义通常有着巨大的差异,不同的视觉任务需要设计不同的模型结构分别处理。虽然目前有提出用统一的视觉分析模型处理多个视觉任务,比如多任务学习,但这种方式主要是将多个任务的专用模型结构和一个共享的主干模型网络进行共同训练,只能处理有限且固定的任务组合,一旦有新的任务出现,又需要额外设计新的模型结构并重新训练,任务处理效率低且开发成本较高。


技术实现要素:

4.本发明提供一种图像分析方法、装置及电子设备,用以解决现有技术中不同的视觉任务需要使用不同结构的模型进行处理而导致处理效率低且开发成本高的缺陷,实现多种视觉任务输出结果的统一序列化表示。
5.本发明提供一种图像分析方法,包括:获取目标视觉任务的待分析图像;将所述待分析图像输入视觉分析模型,获得所述视觉分析模型输出的所述待分析图像中针对所述目标视觉任务的每一个目标物体特征的属性序列;其中,所述视觉分析模型用于基于所述目标视觉任务对所述待分析图像进行图像特征中目标物体特征的提取,并生成描述所述目标物体特征的属性序列;所述视觉分析模型是基于所述目标视觉任务对应的样本图像和所述样本图像对应的标签数据训练得到的。
6.根据本发明提供的一种图像分析方法,所述将所述待分析图像输入视觉分析模型,获得所述视觉分析模型输出的所述待分析图像中针对目标视觉任务的每一个目标物体特征的属性序列,包括:将所述待分析图像输入所述视觉分析模型的图像特征编码层,获得所述图像特征编码层输出的所述待分析图像的图像特征;将所述图像特征输入所述视觉分析模型的自注意力解码层,获得所述自注意力解码层输出的所述图像特征中针对所述目标视觉任务的目标物体特征;将所述目标物体特征输入所述视觉分析模型的序列生成层,获得所述序列生成层输出的所述目标物体特征的属性序列。
7.根据本发明提供的一种图像分析方法,所述序列生成层按照时序输出所述目标物
体特征的属性序列;所述序列生成层包括序列自注意力层、图像互注意力层和线性层;所述序列自注意力层,用于以当前时刻的输入特征为查询、当前时刻的输入特征及之前所有的输入特征为键值对进行自注意力计算;所述图像互注意力层,用于以所述图像特征为键值对所述序列自注意力层的输出进行互注意力计算;所述线性层,用于对所述图像互注意力层的输出进行数值化处理,得到所述属性序列。
8.根据本发明提供的一种图像分析方法,所述将所述目标物体特征输入所述视觉分析模型的序列生成层,获得所述序列生成层输出的所述目标物体特征的属性序列,包括:将所述图像互注意力层前一时刻的输出特征作为当前时刻的输入特征输入所述序列自注意力层,获得所述序列自注意力层输出的当前时刻的自注意力值,所述序列自注意力层初始时刻的输入特征为所述目标物体特征;将所述当前时刻的自注意力值输入所述图像互注意力层,获得所述图像互注意力层输出的当前时刻的输出特征;将所述当前时刻的输出特征输入所述线性层,获得所述线性层输出的当前时刻的属性元素,所述属性元素构成所述属性序列。
9.根据本发明提供的一种图像分析方法,所述将所述待分析图像输入所述视觉分析模型的图像特征编码层,获得所述图像特征编码层输出的所述待分析图像的图像特征,包括:将所述待分析图像输入所述视觉分析模型的图像特征编码层的残差网络层,获得所述残差网络层输出的所述待分析图像的初始图像特征,所述残差网络层用于将所述待分析图像映射至图像特征空间;将所述初始图像特征输入所述图像特征编码层的自注意力编码层,获得所述自注意力编码层输出的所述待分析图像的图像特征,所述自注意力编码层用于进行自注意力编码。
10.根据本发明提供的一种图像分析方法,所述属性序列的长度基于所述目标视觉任务确定。
11.本发明还提供一种图像分析装置,包括:获取模块,用于获取目标视觉任务的待分析图像;分析模块,用于将所述待分析图像输入视觉分析模型,获得所述视觉分析模型输出的所述待分析图像中针对所述目标视觉任务的每一个目标物体特征的属性序列;其中,所述视觉分析模型用于基于所述目标视觉任务对所述待分析图像进行图像特征中目标物体特征的提取,并生成描述所述目标物体特征的属性序列;所述视觉分析模型是基于所述目标视觉任务对应的样本图像和所述样本图像对应的标签数据训练得到的。
12.根据本发明提供的一种图像分析装置,所述分析模块包括:第一分析单元,用于将所述待分析图像输入所述视觉分析模型的图像特征编码层,获得所述图像特征编码层输出的所述待分析图像的图像特征;第二分析单元,用于将所述图像特征输入所述视觉分析模型的自注意力解码层,获得所述自注意力解码层输出的所述图像特征中针对所述目标视觉任务的目标物体特征;
第三分析单元,用于将所述目标物体特征输入所述视觉分析模型的序列生成层,获得所述序列生成层输出的所述目标物体特征的属性序列。
13.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述图像分析方法。
14.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像分析方法。
15.本发明提供的图像分析方法、装置及电子设备,通过获取待分析图像,并将待分析图像输入视觉分析模型,可以获得视觉分析模型输出的待分析图像中针对目标视觉任务的每一个目标物体特征的属性序列。其中的视觉分析模型是基于目标视觉任务对应的样本图像和样本图像对应的标签数据训练得到的,可以基于目标视觉任务对待分析图像进行图像特征中目标物体特征的提取,并生成描述该目标物体特征的属性序列,这样,对于任一目标视觉任务,都可以以待分析图像中该视觉任务对应的目标物体特征为基本单元,获得描述该目标物体特征的属性序列,该属性序列提供了一种通用的视觉任务目标的表现形式,能够将不同视觉任务统一成对待分析图像中物体的序列描述问题,可以使用同样结构的视觉分析模型实现多种不同视觉任务的处理,提高了视觉分析模型在多种视觉任务上的通用性,进而提高了视觉任务处理的效率,降低了开发成本。
附图说明
16.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1是本发明提供的图像分析方法的流程示意图之一;图2是本发明提供的视觉分析模型的结构示意图;图3是本发明提供的图像分析方法的流程示意图之二;图4是本发明提供的序列生成层的结构示意图;图5是本发明提供的图像分析方法的流程示意图之三;图6是本发明提供的序列生成层的工作原理示意图;图7是本发明提供的视觉分析模型的工作原理示意图;图8是本发明提供的序列生成层在执行目标检测任务时的运行逻辑示意图;图9是本发明提供的序列生成层在执行人体姿态估计任务时的运行逻辑示意图;图10是本发明提供的图像分析装置的结构示意图;图11是本发明提供的电子设备的实体结构示意图。
具体实施方式
18.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳
动前提下所获得的所有其他实施例,都属于本发明保护的范围。
19.在自然语言处理中,出现了许多大型通用语言模型,语言任务往往都可以被建模成为序列至序列(seq2seq)的生成问题,并可以用同样的自注意力变换器模型处理大量不同问题,比如transformer模型等。可以在少量训练数据下训练出许多大规模预训练语言模型,这些模型可以应用到大量语言任务上,满足大量语音任务的需求。
20.鉴于自然语言处理领域取得的这一重大成就,如果在视觉任务中也可以设计出类似的通用模型结构来处理多种视觉任务,将有助于提高视觉任务的处理效率,降低视觉任务处理的开发成本。
21.然而,在计算机视觉领域中,视觉任务的定义往往有着巨大的差异,不同于均由序列组成的自然语言,这些视觉任务很难被统一用同一种形式来表示,因而在面对不同的视觉任务时需要设计不同的模型结构分别处理。
22.相关技术中,视觉任务使用的统一视觉大模型大多是预训练的主干网络模型,这些主干网络模型可以用来提取图像特征,但针对每个视觉任务仍需要设计额外的独特结构。多任务学习是一种将多个任务的专用模型结构和一个共享的主干网络模型共同训练的方式,这种方式只能处理有限且固定的任务组合,一旦有新的任务出现,又需要额外设计新的模型结构并重新训练。
23.基于此,本发明实施例提供了一种图像分析方法,可以获取目标视觉任务的待分析图像,将该待分析图像输入视觉分析模型,由视觉分析模型基于目标视觉任务对待分析图像进行图像特征中目标物体特征的提取并生成描述该目标物体特征的属性序列,获得视觉分析模型输出的待分析图像中针对目标视觉任务的每一个目标物体特征的属性序列。其中的视觉分析模型是基于目标视觉任务对应的样本图像和样本图像对应的标签数据训练得到的。其中的属性序列提供了一种通用的视觉任务目标的表现形式,这样,可以将不同的视觉任务统一成对待分析图像中物体的序列描述任务,提高了视觉分析模型在多种视觉任务中的通用性。
24.下面结合图1-图9对本发明的图像分析方法进行描述。该图像分析方法可以应用于服务器、手机、电脑等电子设备,也可以应用于设置在服务器、手机、电脑等电子设备中的图像分析装置中,该图像分析装置可以通过软件或软件与硬件的结合来实现。
25.图1示例性示出了本发明实施例提供的图像分析方法的流程示意图之一,参照图1所示,该图像分析方法可以包括如下的步骤110~步骤120。
26.步骤110:获取目标视觉任务的待分析图像。
27.目标视觉任务比如可以包括目标检测、人体姿态估计或图像分类等任务。待分析图像可以是图片或者视频中的帧图像。电子设备可以从图像采集设备(如摄像头、照相机等)中实时获取目标视觉任务的待分析图像,或者从存储器中存储的图像中获取待分析图像。
28.步骤120:将待分析图像输入视觉分析模型,获得视觉分析模型输出的待分析图像中针对目标视觉任务的每一个目标物体特征的属性序列,其中,视觉分析模型可以用于基于目标视觉任务对待分析图像进行图像特征中目标物体特征的提取,并生成描述目标物体特征的属性序列。该属性序列提供了一种通用的视觉任务目标的表现形式,该属性序列中的元素可以根据不同的目标视觉任务赋予不同的含义。这样,可以将不同的视觉任务统一
成对待分析图像中物体的序列描述任务,统一了不同视觉任务在输出形式上的差异。
29.在此基础上,该视觉分析模型可以基于目标视觉任务对应的样本图像和样本图像对应的标签数据训练得到,也就是说,对于不同的目标视觉任务,只要利用该目标视觉任务对应的样本图像和样本图像对应的标签数据进行视觉分析模型的训练,即可获得用于处理该目标视觉任务的视觉分析模型,而不需要改变视觉分析模型的结构,能够方便地扩展到多种不同的目标视觉任务上,具有较强的通用性。
30.比如,目标视觉任务是目标检测,比如检测图像中的行人,则可以获取第一样本图像,并对该第一样本图像中的行人标注第一标签信息,然后将标注处理后的第一样本图像作为训练样本进行视觉分析模型的训练,训练好的视觉分析模型即可用于进行行人检测。
31.再比如,目标视觉任务更换为了人体姿态估计,则可以根据人体姿态估计任务重新训练视觉分析模型即可。具体的,可以获取第二样本图像,并将该第二样本图像中的人体骨骼点标注为第二标签信息,然后将标注处理后的第二样本图像作为训练样本进行视觉分析模型的训练,训练好的视觉分析模型即可用于人体姿态估计。
32.其中,属性序列的长度可以基于目标视觉任务进行确定。比如目标视觉任务是目标检测时,每个目标物体需要用类别得分score、位置坐标(x,y)以及检测框的长w和宽h来表示,则属性序列是一个长度为5的序列。再比如,目标视觉任务是人体姿态估计时,每个物体需要用置信度和17个关键点来表示,则属性序列是一个长度为35的序列。
33.本发明实施例提供的图像分析方法,通过获取目标视觉任务的待分析图像,并将该待分析图像输入视觉分析模型,可以获得视觉分析模型输出的待分析图像中针对目标视觉任务的每一个目标物体特征的属性序列。其中的视觉分析模型是基于目标视觉任务对应的样本图像和样本图像对应的标签数据训练得到的,可以基于目标视觉任务对待分析图像进行图像特征中目标物体特征的提取,并生成描述该目标物体特征的属性序列,这样,对于任一目标视觉任务,都可以以待分析图像中该视觉任务对应的目标物体特征为基本单元,获得描述该目标物体特征的属性序列,该属性序列提供了一种通用的视觉任务目标的表现形式,能够将不同视觉任务统一成对待分析图像中物体的序列描述问题,可以使用同样结构的视觉分析模型实现多种不同视觉任务的处理,提高了视觉分析模型在多种视觉任务上的通用性,进而提高了视觉任务处理的效率,降低了开发成本。
34.基于图1对应实施例的图像分析方法,图2示例性示出了视觉分析模型的结构示意图,参照图2所示,该视觉分析模型可以包括图像特征编码层、自注意力解码层和序列生成层,其中,图像特征编码层可以用于进行图像特征提取,自注意力解码层可以用于从图像特征中提取物体特征,序列生成层可以将物体特征转换为属性序列。
35.基于图2对应实施例的视觉分析模型的结构,在一种示例实施例中,图3示例性示出了本发明提供的图像分析方法的流程示意图之二,该示例实施例提供了上述步骤120的一种示例实施方式,参照图3所示,可以包括如下的步骤121~步骤123。
36.步骤121:将待分析图像输入视觉分析模型的图像特征编码层,获得图像特征编码层输出的待分析图像的图像特征。
37.例如,对于一张待分析图像i,对其进行目标视觉任务处理时,可以将其输入视觉分析模型的图像特征编码层,图像特征编码层可以采用自注意力机制对该待分析图像i进行图像特征的提取,输出该待分析图像i的图像特征。
38.示例性的,图像特征编码层可以包括残差网络层和自注意力编码层,残差网络层可以用于将待分析图像映射至图像特征空间,自注意力编码层可以用于进行自注意力编码,即可以对输入的数据采用自注意力机制进行编码。相应的,步骤121可以包括:将待分析图像输入视觉分析模型的图像特征编码层的残差网络层,获得残差网络层输出的待分析图像的初始图像特征;将初始图像特征输入图像特征编码层的自注意力编码层,获得自注意力编码层输出的待分析图像的图像特征。
39.步骤122:将图像特征输入视觉分析模型的自注意力解码层,获得自注意力解码层输出的图像特征中针对目标视觉任务的目标物体特征。
40.自注意力解码层可以用于处理目标物体特征,例如,目标视觉任务为目标检测,比如进行目标行人检测,将图像特征输入视觉分析模型的自注意力解码层后,自注意力解码层可以基于自注意力机制来丰富图像特征更高层的细节信息,从图像特征中提取出目标行人的特征。
41.步骤123:将目标物体特征输入视觉分析模型的序列生成层,获得序列生成层输出的目标物体特征的属性序列。
42.序列生成层可以用于对每一个目标物体特征进行序列化处理,生成一系列用于描述该目标物体的属性,即属性序列,该属性序列可以以标量数的形式呈现。
43.具体的,在获得目标物体特征之后,每一个目标物体特征被送入序列生成层,序列生成层会对输入的目标物体特征进行序列化处理,将目标物体特征从图像表征空间转换到标量数值空间,获得每一个目标物体特征的属性序列,以标量数的形式描述目标视觉任务中的目标物体。
44.一种示例实施例中,序列生成层可以按照时序输出目标物体特征的属性序列。图4示例性示出了序列生成层的结构示意图,参照图4所示,序列生成层可以包括序列自注意力层、图像互注意力层和线性层。其中,序列自注意力层可以用于以当前时刻的输入特征为查询query、当前时刻的输入特征及当前时刻之前的所有的输入特征为键值对(key-value),进行自注意力计算;图像互注意力层可以用于以图像特征为键值(key),对序列自注意力层的输出进行互注意力计算;线性层可以用于对图像互注意力层的输出进行数值化处理,得到属性序列。
45.基于图4对应实施例的序列生成层,本发明实施例提供的图像分析方法在使用视觉分析模型对待分析图像i进行分析以获得视觉分析模型输出的待分析图像中针对目标视觉任务的每一个目标物体特征的属性序列的过程中,图像特征编码层首先从待分析图像i中提取图像特征,然后利用自注意力解码层得到一系列目标物体特征 ,其中o表示视觉分析模型输出的目标物体集合,该集合中的每个元素是一个目标物体。接着,每一个目标物体特征被送入序列生成层中,生成一系列属性,其中的t表示属性序列中属性元素的个数。根据目标视觉任务的不同,这些属性元素即是目标视觉任务希望得到的、用于描述这个目标物体的视觉任务输出,也就是说,目标物体可以用一个与视觉任务相关的属性序列描述,根据目标视觉任务的不同,可以灵活改变属性序列中属性元素的定义以满足多样化的需求。基于此,本发明实施例提供的视觉
分析模型的结构充分考虑了图像内的层级结构信息,能够以“物体”为基本单元组织图像特征;同时,该结构使用了一种新的预测层,即序列生成层,可以将目标物体特征从图像表征空间转换到标量数值空间,从而能够方便地扩展到多种不同的视觉任务上。
46.基于图4对应实施例的序列生成层,图5示例性示出了本发明提供的图像分析方法的流程示意图之三,该示例实施例提供了上述步骤123的一种示例实施方式,参照图5所示,可以包括如下的步骤1231~步骤1233。
47.步骤1231:将图像互注意力层前一时刻的输出特征作为当前时刻的输入特征输入序列自注意力层,获得序列自注意力层输出的当前时刻的自注意力值。其中,序列自注意力层初始时刻的输入特征为目标物体特征。
48.步骤1232:将当前时刻的自注意力值输入图像互注意力层,获得图像互注意力层输出的当前时刻的输出特征。
49.步骤1233:将当前时刻的输出特征输入线性层,获得线性层输出的当前时刻的属性元素。该属性元素用于构成属性序列。
50.基于图4对应实施例的序列生成层的结构和图5对应实施例的方法,图6示例性示出了序列生成层的工作原理示意图,参照图6所示,序列生成层可以以目标物体的单个目标物体特征为输入,输出任意长度的属性序列来描述这个目标物体,该目标物体特征为一个1
×
d维的向量,其中的d为正整数,表示视觉分析模型的特征维度。根据目标视觉任务的不同,该属性序列的长度和定义也会不同。序列生成层中按时序进行属性序列的预测输出。具体的,将输入序列生成层后,序列生成层以作为初始时刻的输入,用以计算初始时刻的输出特征。对于之后的每一个时刻t,序列生成层都会将前一个时刻的输出特征作为新的输入特征,即。对于每一时刻的输入特征,都会先后经过序列自注意力层和图像互注意力层进行处理。具体的,序列自注意力层可以将t时刻的输入特征作为查询query,t时刻及以前所有时刻的输入特征作为键值对(key-value)进行自注意力计算,得到t时刻的自注意力值,然后将输入图像互注意力层,图像互注意力层则将待分析图像i的图像特征作为键值进行互注意力计算,得到t时刻的输出特征。每个时刻t的输出特征都可以经过线性层的数值化处理,得到每一时刻输出的属性元素,最终得到的属性序列。示例性的,线性层的数值化处理可以是对输入线性层的特征乘以一个权重矩阵,得到对应的属性元素。
51.假设目标视觉任务需要输出长度为t的属性序列,则每一时刻的输入特征、自注意力值和输出特征可以分别利用如下的公式一、公式二和公式三确定。
52.具体的,公式一为;公式二为;公式三为;其中,,t表示属性序列中属性元素的个数,每个时刻t输出一个属性元素,selfattn( )表示自注意力计算函数,crossattn( )表示互注意力计算函数,表示查询权重,表示键值对权重,表示将t时刻的输入特征及t时刻之前的所有时刻的输入特征的拼接矩阵。
53.基于上述工作原理,序列生成层输出的属性序列可以根据具体的视觉任务解释为任意需要的含义,不再需要与具体视觉任务相关的网络参数。也就是说,序列生成层输出了一种通用的目标表示形式,使用一个属性序列作为视觉任务的输出,可以将同样的视觉分析模型结构泛化应用到不同的视觉任务上,该视觉分析模型具有较强的多视觉任务扩展性。
54.下面以目标检测任务和人体姿态估计任务为例,对本发明实施例提供的图像分析方法在具体视觉任务上的应用进行描述。
55.图7示例性示出了视觉分析模型的工作原理示意图,参照图7所示,待分析图像i输入图像特征编码层,图像特征编码层的残差网络层和自注意力编码层首先从待分析图像i中提取图像特征,随后被输入自注意力解码层,获得自注意力解码层输出的一系列目标物体特征的集合f,接着,可以将f中的每一个目标物体特征输入序列生成层,序列生成层生成每一个目标物体特征的属性序列。根据目标视觉任务需要和视觉分析模型训练目标,属性序列中的每一个属性元素都可以看作任意需要的属性,以满足目标视觉任务的需求。对于目标检测任务而言,属性序列可以定义为类别得分和检测矩形框的位置与大小;对于人体姿态估计任务,属性序列可以定义为置信度和各关键点的坐标。
56.结合图7,图8示例性示出了序列生成层在执行目标检测任务时的运行逻辑示意图,参照图8所示,针对目标检测任务,每个目标物体需要用一个长度为5的属性序列来表示,属性元素分别是类别得分score、目标检测框的坐标值x和y以及宽w和高h。
57.在利用本发明实施例提供的视觉分析模型执行目标检测任务前,需要先基于目标检测任务对该视觉分析模型进行训练。在本发明的一种示例实施例中,可以基于二分匹配损失构建训练目标。具体的,可以对所有目标物体集合与视觉分析模型所有的输出物体的集合o进行二分匹配,使每一个目标物体与唯一的一个输出物体对应,匹配目标则是使所有训练样本的损失之和最小。可以假设输出物体匹配到的目标物体为,当为空集时代表没有匹配到目标物体,在视觉分析模型训练过程中优化和之间的最小损失。
58.示例性的,对于输出的类别得分score,可以使用焦点损失函数focal( )进行监督,对于坐标回归,可以同时使用损失函数和广义交并比(generalized intersection over union,giou)损失函数进行监督。其中的损失函数表示预测值和真实值之差的绝对值,用于最小化误差,也被称为最小绝对值偏差(lad)。
59.基于此,针对目标检测任务,视觉分析模型训练时的目标检测损失函数可以表示为:;其中,n表示执行目标检测任务时输出物体的个数,表示第i个输出物体的目标检测损失值,可以通过如下的公式四计算得到。
60.公式四可以表示为:;其中,表示训练样本中标注的第i个物体;代表指示函数,当条件成立时值为1,否则为0;表示和之间的焦点损失;表示和之间的误差;表示和之间的广义交并比损失。
61.在进行针对目标检测任务的视觉分析模型训练时,可以获取第一样本图像,并对该第一样本图像中的检测目标标注第一标签信息,然后将标注处理后的第一样本图像作为训练样本,利用损失函数进行视觉分析模型的训练,训练好的视觉分析模型即可用于进行检测目标的检测。
62.结合图7和图8,在进行目标检测时,可以将需要进行目标检测的待分析图像输入图像特征编码层进行图像特征提取,接着将提取的图像特征输入自注意力解码层处理,获得目标物体特征,然后将每一个目标物体特征输入序列生成层进行序列化处理以得到各目标物体特征的属性序列。比如对于目标物体特征,可以将作为序列生成层初始时刻的输入特征输入序列生成层,分别经序列自注意力层和图像互注意力层处理后得到输出特征,经线性层变换后可得到第一个属性元素,该属性元素可以被定义为分类得分score。同时,作为下一时刻的输入特征输入序列生成层,分别经序列自注意力层和图像互注意力层处理后得到输出特征,经线性层变换后可得到第二个属性元素,该属性元素可以被定义为目标检测框的位置横坐标x。以此类推,序列生成层可以依次输出目标检测框的位置纵坐标y以及目标检测框的宽w和高h。比如检测出的目标物体是图7中的物
体a,对应的属性序列为序列72。
63.结合图7,图9示例性示出了序列生成层在执行人体姿态估计任务时的运行逻辑示意图,参照图9所示,针对人体姿态估计任务,每个目标物体需要用一个长度为35的属性序列来表示,属性元素分别是置信度con和17个关键点的坐标,其中,k为关键点索引,代表第k个关键点的坐标。
64.在利用本发明实施例提供的视觉分析模型执行人体姿态估计任务前,需要先基于人体姿态估计任务对该视觉分析模型进行训练。在本发明的一种示例实施例中,可以使用二分匹配损失构建训练目标,其构建原理可参照上述执行目标检测任务时的描述,此处不再赘述。
65.示例性的,对于输出的置信度con,可以使用二值交叉熵(binary cross entropy,bce)损失函数进行监督;对于关键点坐标,可以使用损失函数和目标关键点相似度(oks)损失函数进行监督。
66.基于此,针对人体姿态估计任务,视觉分析模型训练时的姿态估计损失函数可以表示为:;其中,m表示执行人体姿态估计任务时输出物体的个数,表示第i个输出物体的姿态估计损失值,可以通过如下的公式五计算得到。
67.公式五可以表示为:;其中,代表指示函数,当条件成立时值为1,否则为0;表示和指示函数之间的二值交叉熵损失;表示和之间的误差;表示和之间的相似度损失。
68.在进行针对人体姿态估计任务的视觉分析模型训练时,可以获取第二样本图像,并对该第二样本图像中的人体关键点标注第二标签信息,然后将标注处理后的第二样本图像作为训练样本,利用损失函数进行视觉分析模型的训练,训练好的视觉分析模型即可用于进行人体关键点的检测。
69.结合图7和图9,在进行人体姿态估计时,可以将需要进行人体姿态估计的待分析图像输入图像特征编码层进行图像特征提取,接着将提取的图像特征输入自注意力解码层
处理,获得目标物体特征,然后将每一个目标物体特征输入序列生成层进行序列化处理以得到各目标物体特征的属性序列。比如对于目标物体特征,可以将作为序列生成层初始时刻的输入特征输入序列生成层,分别经序列自注意力层和图像互注意力层处理后得到输出特征,经线性层变换后可得到第一个属性元素,该属性元素可以被定义为置信度con。同时,作为下一时刻的输入特征输入序列生成层,分别经序列自注意力层和图像互注意力层处理后得到输出特征,经线性层变换后可得到第二个属性元素,该属性元素可以被定义为第一个人体关键点位置的横坐标。以此类推,序列生成层可以继续依次输出第一个人体关键点位置的纵坐标以及其他人体关键点位置的坐标。比如检测出的人体关键点是图7中的人体73中的关键点,对应的属性序列为序列74。
70.本发明实施例提供的图像分析方法,通过获取目标视觉任务的待分析图像,并将该待分析图像输入基于目标视觉任务对应的样本图像和样本图像对应的标签数据训练得到的视觉分析模型,可以获得该视觉分析模型输出的待分析图像中针对目标视觉任务的每一个目标物体特征的属性序列。一方面,可以将多种不同的视觉任务重新定义为描述每个目标物体的属性序列生成问题,统一了不同视觉任务的任务输出形式,而且,输出的属性序列可以根据目标视觉任务的不同,被灵活地定义为目标视觉任务所需的能够描述目标物体的含义,可以满足多样化的需求,因而可以使用同样结构的视觉分析模型实现多种不同视觉任务的处理,提高了视觉分析模型在多种视觉任务上的通用性,进而提高了视觉任务处理的效率,降低了开发成本。另一方面,充分考虑了待分析图像内的层级结构信息,能够以“物体”为基本单元组织图像特征,提高了图像特征提取的准确性。
71.下面对本发明提供的图像分析装置进行描述,下文描述的图像分析装置与上文描述的图像分析方法可相互对应参照。
72.图10示例性示出了本发明实施例提供的图像分析装置的结构示意图,参照图10所示,图像分析装置1000可以包括获取模块1010和分析模块1020。其中,获取模块1010可以用于获取目标视觉任务的待分析图像;分析模块1020可以用于将待分析图像输入视觉分析模型,获得视觉分析模型输出的待分析图像中针对目标视觉任务的每一个目标物体特征的属性序列;其中,视觉分析模型用于基于目标视觉任务对待分析图像进行图像特征中目标物体特征的提取,并生成描述目标物体特征的属性序列;视觉分析模型是基于目标视觉任务对应的样本图像和样本图像对应的标签数据训练得到的。
73.一种示例实施例中,分析模块1020可以包括:第一分析单元,用于将待分析图像输入视觉分析模型的图像特征编码层,获得图像特征编码层输出的待分析图像的图像特征;第二分析单元,用于将图像特征输入视觉分析模型的自注意力解码层,获得自注意力解码层输出的图像特征中针对目标视觉任务的目标物体特征;第三分析单元,用于将目标物体特征输入视觉分析模型的序列生成层,获得序列生成层输出的目标物体特征的属性序列。
74.一种示例实施例中,序列生成层可以按照时序输出目标物体特征的属性序列;序列生成层可以包括序列自注意力层、图像互注意力层和线性层。其中,序列自注意力层可以用于以当前时刻的输入特征为查询、当前时刻的输入特征及之前所有的输入特征为键值对进行自注意力计算;图像互注意力层可以用于以图像特征为键值对序列自注意力层的输出
进行互注意力计算;线性层可以用于对图像互注意力层的输出进行数值化处理,得到属性序列。
75.一种示例实施例中,第三分析单元可以包括:第一分析子单元,可以用于将图像互注意力层前一时刻的输出特征作为当前时刻的输入特征输入序列自注意力层,获得序列自注意力层输出的当前时刻的自注意力值,其中,序列自注意力层初始时刻的输入特征为目标物体特征;第二分析子单元,可以用于将当前时刻的自注意力值输入图像互注意力层,获得图像互注意力层输出的当前时刻的输出特征;第三分析子单元,可以用于将当前时刻的输出特征输入线性层,获得线性层输出的当前时刻的属性元素,属性元素构成属性序列。
76.在一种示例实施例中,第一分析单元可以包括:第四分析子单元,可以用于将待分析图像输入视觉分析模型的图像特征编码层的残差网络层,获得残差网络层输出的待分析图像的初始图像特征,其中的残差网络层可以用于将待分析图像映射至图像特征空间;第五分析子单元,可以用于将初始图像特征输入图像特征编码层的自注意力编码层,获得自注意力编码层输出的待分析图像的图像特征,其中的自注意力编码层可以用于进行自注意力编码。
77.在一种示例实施例中,视觉分析模型输出的属性序列的长度基于目标视觉任务确定。
78.图11示例了一种电子设备的实体结构示意图,如图11所示,该电子设备1100可以包括:处理器(processor)1110、通信接口(communication interface)1120、存储器(memory)1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令,以执行上述各方法实施例提供的图像分析方法,该方法可以包括:获取目标视觉任务的待分析图像;将待分析图像输入视觉分析模型,获得视觉分析模型输出的待分析图像中针对目标视觉任务的每一个目标物体特征的属性序列;其中,视觉分析模型用于基于目标视觉任务对待分析图像进行图像特征中目标物体特征的提取,并生成描述目标物体特征的属性序列;视觉分析模型是基于目标视觉任务对应的样本图像和样本图像对应的标签数据训练得到的。
79.此外,上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
80.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法实施例所提供的图像分析方法,该方法可以包括:获取目标视觉任务的待分析图像;将待分析图像输入视觉分析模型,获得视觉分析模型输出的待分析图像中针对目标视觉任务的每一个目标物体特征的属性序列;其中,视觉分析模型用于基于目标视觉任务对待分析图像进行图像特征中目标物体特征的提取,并生成描述目标物
体特征的属性序列;视觉分析模型是基于目标视觉任务对应的样本图像和样本图像对应的标签数据训练得到的。
81.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法实施例所提供的图像分析方法,该方法可以包括:获取目标视觉任务的待分析图像;将待分析图像输入视觉分析模型,获得视觉分析模型输出的待分析图像中针对目标视觉任务的每一个目标物体特征的属性序列;其中,视觉分析模型用于基于目标视觉任务对待分析图像进行图像特征中目标物体特征的提取,并生成描述目标物体特征的属性序列;视觉分析模型是基于目标视觉任务对应的样本图像和样本图像对应的标签数据训练得到的。
82.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
83.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
84.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1