对具有非RGB格式的图像客体进行探测学习的方法和装置与流程

文档序号:21785481发布日期:2020-08-07 20:29阅读:205来源:国知局
对具有非RGB格式的图像客体进行探测学习的方法和装置与流程

本发明涉及用于自动驾驶车辆的学习方法及学习装置,具体而言,涉及一种使用循环gan(cyclegenerativeadversarialnetwork,循环生成对抗网络)而将rgb训练图像集变换成non-rgb训练图像集而以便能够对具有非rgb格式的图像客体进行探测学习的学习方法及学习装置,以及利用其的测试方法及测试装置。



背景技术:

深层卷积神经网络(deepconvolutionalneuralnetwork:deepcnn)是在深度学习领域发生的耀眼的发展的核心。为了解决文字识别问题,cnn早在90年代就已经被使用了,但最近才在机器学习(machinelearning)领域广泛应用。例如,cnn在2012年图像识别大赛(imagenetlargescalevisualrecognitionchallenge)中战胜其他竞争者而赢得了冠军。之后,cnn成为了机器学习领域中非常有用的工具。

最近,cnn在自动驾驶汽车领域极为广泛地使用。当在自动驾驶汽车领域使用时,cnn执行从附着于汽车的照相机获得图像并利用其搜索车道线等的作用。为此,cnn利用训练图像执行学习,训练图像主要为rgb格式。

但是,根据情况,cnn要求处理具有非rgb格式的测试图像。不同于单纯投入事先准备的具有rgb格式的图像的学习流程,在测试流程中,具有非rgb格式的图像可以从行驶中的实际汽车的照相机或传感器获得。可是,cnn使用具有rgb格式的图像进行学习,因而无法适宜地处理具有非rgb格式的测试图像。这是因为学习的cnn的参数以rgb格式为基准。

因此,以往技术为了解决这种问题,实时变换在测试时获得的图像的格式,从而使得测试图像的格式与学习图像的格式相同。但是,在这种情况下,需在数学上实时变换所有像素的值,因而产生开销(overhead),这种开销在实时性极为重要的自动驾驶领域成为巨大的缺点。虽然如同将yuv格式变更为rgb格式的情形一样,在其变换式较简单的情况下,这种开销也可能会很小,但在变换式非常复杂或者不存在变换式的情况下,这种方法存在无法使用的缺点。

结果,要在测试时解决这种格式问题并不容易,因而利用与测试图像具有相同格式的新的训练图像来重新学习cnn参数更为简便。

但是,这种解决方案也有问题,为了使cnn发挥既定水平以上的性能,在学习过程中需要数万张以上的非常多的训练图像。除训练图像本身之外,cnn需要与其对应的gt(地面真值),gt需由人直接制作,因而需要数万张以上的训练图像即意味着要求很多钱和时间,这成为巨大的缺点。



技术实现要素:

本发明的目的在于解决上述问题。

本发明的目的在于,使用循环gan而将具有rgb格式的训练图像集变换成具有非rgb格式的训练图像集,从而消除另行确保具有非rgb格式的训练图像集的困难。

本发明的目的是通过以下技术方案实现的:

根据本发明的一个方面,提供一种学习方法,所述学习方法利用循环生成对抗网络gan而将标注有至少一个正确信息的rgb图像变换成标注有至少一个正确信息的非rgb图像,其特征在于,包括:(a)步骤,学习装置获得具有rgb格式的至少一个第一图像,并使第一转换器,将所述第一图像变换成具有非rgb格式的至少一个第二图像,使第一鉴别器,确认所述第二图像是否为具有初级非rgb格式的图像或具有二次非rgb格式的图像,从而生成第(1_1)结果,且其特征在于所述初级非rgb格式是未经过从所述rgb格式变换的非rgb格式,所述二次非rgb格式是经过从所述rgb格式变换的非rgb格式,并使第二转换器,将所述第二图像变换成具有所述rgb格式的至少一个第三图像;(b)步骤,所述学习装置获得具有所述非rgb格式的至少一个第四图像,并使所述第二转换器,将所述第四图像变换成具有所述rgb格式的至少一个第五图像,使第二鉴别器,确认所述第五图像是否为具有初级rgb格式的图像或具有二次rgb格式的图像,从而生成第(2_1)结果,且其特征在于所述初级rgb格式是未经过从所述非rgb格式变换的rgb格式,所述二次rgb格式是经过从所述非rgb格式变换的rgb格式,并使所述第一转换器,将所述第五图像变换成具有所述非rgb格式的至少一个第六图像;及(c)步骤,所述学习装置参照所述第一图像、所述第二图像、所述第三图像、所述第四图像、所述第五图像、所述第六图像、所述第(1_1)结果及所述第(2_1)结果中至少一部分,计算一个以上的损失,学习所述第一转换器、所述第二转换器、所述第一鉴别器及所述第二鉴别器的参数的至少一部分。

一个实施例,提供一种学习方法,其特征在于,所述(c)步骤为g*=argmin(log(1-dg(g(i)))+γ|i-f(g(i))|+log(1-df(f(x)))+β|x-g(f(x))|),一个以上的所述损失中包含的转换器用第一损失根据所述公式定义,i表示所述第一图像,g(i)表示所述第二图像,dg(g(i))表示所述第(1_1)结果,f(g(i))表示所述第三图像,x表示所述第四图像,f(x)表示所述第五图像,df(f(x))表示所述第(2_1)结果,g(f(x))表示所述第六图像,γ及β为用于分别调整各|i-f(g(i))|及|x-g(f(x))|的加权值的常数。

一个实施例,提供一种学习方法,其特征在于,所述(c)步骤为g*=argmin(log(1-dg(g(i)))+γ|i-f(g(i))|+log(1-df(f(x)))+βx-gfx+λ×od,一个以上的所述损失中包含的转换器用第一损失根据所述公式定义,i表示所述第一图像,g(i)表示所述第二图像,dg(g(i))表示所述第(1_1)结果,f(g(i))表示所述第三图像,x表示所述第四图像,f(x)表示所述第五图像,df(f(x))表示所述第(2_1)结果,g(f(x))表示所述第六图像,γ及β为用于分别调整各|i-f(g(i))|及|x-g(f(x))|的加权值的常数,od表示客体探测损失,λ为用于调整所述客体探测损失的加权值的常数,所述学习装置使已学习的rgb客体探测器,在所述第三图像中检测一个以上的客体,对在所述第三图像中检测的所述客体的预测位置、大小、种类相关信息的至少一部分和与所述第一图像对应的至少一个gt中包括的所述客体的实际位置、大小、种类相关信息的至少一部分进行比较,从而计算所述客体探测损失。

一个实施例,提供一种学习方法,其特征在于,所述(c)步骤为所述损失中包含的所述第一鉴别器用fd损失根据所述公式定义,nr表示具有所述非rgb格式的任意图像,dg(nr)表示从所述第一鉴别器输出的决定具有所述非rgb格式的所述任意图像的第(1_2)结果,g(i)表示所述第二图像,dg(g(i))表示所述第(1_1)结果。

一个实施例,提供一种学习方法,其特征在于,所述(c)步骤为所述损失中包含的所述第二鉴别器用sd损失根据所述公式定义,r表示具有所述rgb格式的任意图像,df(r)表示从所述第二鉴别器输出的决定具有所述rgb格式的所述任意图像的第(2_2)结果,f(x)表示所述第五图像,df(f(x))表示所述第(2_1)结果。

一个实施例,提供一种学习方法,其特征在于,所述第一转换器及所述第二转换器分别包括编码层及解码层的至少一部分。

根据本发明的另一个方面,提供一种测试方法,所述测试方法利用循环gan而将标注有至少一个正确信息的rgb图像变换成标注有至少一个正确信息的非rgb图像,其特征在于,包括:(a)步骤,在经过如下步骤完成学习的状态下,测试装置获得具有所述rgb格式的至少一个测试图像:(1)步骤,学习装置获得具有rgb格式的至少一个第一图像,并使第一转换器,将所述第一图像变换成具有非rgb格式的至少一个第二图像,使第一鉴别器,确认所述第二图像是否为具有初级非rgb格式的图像或具有二次非rgb格式的图像,从而生成训练用第(1_1)结果,且其特征在于所述初级非rgb格式是未经过从所述rgb格式变换的非rgb格式,所述二次非rgb格式是经过从所述rgb格式变换的非rgb格式,并使第二转换器,将所述第二图像变换成具有所述rgb格式的至少一个第三图像;(2)步骤,所述学习装置获得具有所述非rgb格式的至少一个第四图像,并使所述第二转换器,将所述第四图像变换成具有所述rgb格式的至少一个第五图像,使第二鉴别器,确认所述第五图像是否为具有初级rgb格式的图像或具有二次rgb格式的图像,从而生成训练用第(2_1)结果,且其特征在于所述初级rgb格式是未经过从所述非rgb格式变换的rgb格式,所述二次rgb格式是经过从所述非rgb格式变换的rgb格式,并使所述第一转换器,将所述第五图像变换成具有所述非rgb格式的至少一个第六图像;及(3)步骤,所述学习装置参照所述第一图像、所述第二图像、所述第三图像、所述第四图像、所述第五图像、所述第六图像、所述训练用第(1_1)结果及所述训练用第(2_1)结果中至少一部分,计算一个以上的损失,学习所述第一转换器、所述第二转换器、所述第一鉴别器及所述第二鉴别器的参数的至少一部分;及(b)步骤,所述测试装置使所述第一转换器,将所述测试图像变换成具有非rgb格式的至少一个结果图像。

一个实施例,提供一种测试方法,其特征在于,所述结果图像用于检测具有非rgb格式的所述测试图像中的一个以上客体所需的非rgb客体探测器的学习。

根据本发明的另一个方面,提供一种学习装置,所述学习装置用于利用循环gan而将标注有至少一个正确信息的rgb图像变换成标注有至少一个正确信息的非rgb图像,其特征在于,包括:存储指令的至少一个存储器;及至少一个处理器,所述至少一个处理器构成为运行用于执行如下流程的所述指令:(i)流程,使第一转换器,将具有rgb格式的至少一个第一图像变换成具有非rgb格式的至少一个第二图像,使第一鉴别器,确认所述第二图像是否为具有初级非rgb格式的图像或具有二次非rgb格式的图像,从而生成第(1_1)结果,且其特征在于所述初级非rgb格式是未经过从所述rgb格式变换的非rgb格式,所述二次非rgb格式是经过从所述rgb格式变换的非rgb格式,并使第二转换器,将所述第二图像变换成具有所述rgb格式的至少一个第三图像;(ii)流程,使所述第二转换器,将具有所述非rgb格式的至少一个第四图像变换成具有所述rgb格式的至少一个第五图像,使第二鉴别器,确认所述第五图像是否为具有初级rgb格式的图像或具有二次rgb格式的图像,从而生成第(2_1)结果,且其特征在于所述初级rgb格式是未经过从所述非rgb格式变换的rgb格式,所述二次rgb格式是经过从所述非rgb格式变换的rgb格式,并使所述第一转换器,将所述第五图像变换成具有所述非rgb格式的至少一个第六图像;及(iii)流程,参照所述第一图像、所述第二图像、所述第三图像、所述第四图像、所述第五图像、所述第六图像、所述第(1_1)结果及所述第(2_1)结果中至少一部分,计算一个以上的损失,学习所述第一转换器、所述第二转换器、所述第一鉴别器及所述第二鉴别器的参数的至少一部分。

一个实施例,提供一种学习装置,其特征在于,所述(iii)流程为g*=argmin(log(1-dg(g(i)))+γ|i-f(g(i))|+log(1-df(f(x)))+β|x-g(f(x))|),一个以上的所述损失中包含的转换器用第一损失根据所述公式定义,i表示所述第一图像,g(i)表示所述第二图像,dg(g(i))表示所述第(1_1)结果,f(h(i))表示所述第三图像,x表示所述第四图像,f(x)表示所述第五图像,df(f(x))表示所述第(2_1)结果,g(f(x))表示所述第六图像,γ及β为用于分别调整各|i-f(g(i))|及|x-g(f(x))|的加权值的常数。

一个实施例,提供一种学习装置,其特征在于,所述(iii)流程为g*=argmin(log(1-dg(g(i)))+γ|i-f(g(i))|+log(1-df(f(x)))+β|x-g(f(x))|)+λ×od,一个以上的所述损失中包含的转换器用第一损失根据所述公式定义,i表示所述第一图像,g(i)表示所述第二图像,dg(g(i))表示所述第(1_1)结果,f(g(i))表示所述第三图像,x表示所述第四图像,f(x)表示所述第五图像,df(f(x))表示所述第(2_1)结果,g(f(x))表示所述第六图像,γ及β为用于分别调整各|i-f(g(i))|及|x-g(f(x))|的加权值的常数,od表示客体探测损失,λ为用于调整所述客体探测损失的加权值的常数,所述处理器使已学习的rgb客体探测器,在所述第三图像中检测一个以上的客体,对在所述第三图像中检测的所述客体的预测位置、大小、种类相关信息的至少一部分和与所述第一图像对应的至少一个gt中包括的所述客体的实际位置、大小、种类相关信息的至少一部分进行比较,从而计算所述客体探测损失。

一个实施例,提供一种学习装置,其特征在于,所述(iii)流程为所述损失中包含的所述第一鉴别器用fd损失根据所述公式定义,nr表示具有所述非rgb格式的任意图像,dg(nr)表示从所述第一鉴别器输出的决定具有所述非rgb格式的所述任意图像的第(1_2)结果,g(i)表示所述第二图像,d(g(i))表示所述第(1_1)结果。

一个实施例,提供一种学习装置,其特征在于,所述(iii)流程为所述损失中包含的所述第二鉴别器用sd损失根据所述公式定义,r表示具有所述rgb格式的任意图像,df(r)表示从所述第二鉴别器输出的决定具有所述rgb格式的所述任意图像的第(2_2)结果,f(x)表示所述第五图像,df(f(x))表示所述第(2_1)结果。

一个实施例,提供一种学习装置,其特征在于,所述第一转换器及所述第二转换器分别包括编码层及解码层的至少一部分。

根据本发明又一个方面,提供一种测试装置,所述测试装置利用循环gan而将标注有至少一个正确信息的rgb图像变换成标注有至少一个正确信息的非rgb图像,其特征在于,包括:存储指令的至少一个存储器;及至少一个处理器,所述至少一个处理器构成为运行用于在经过了学习的状态下执行使所述第一转换器将具有rgb格式的至少一个测试图像变换成具有非rgb格式的至少一个结果图像的流程,所述学习是指:(1)使第一转换器,将具有rgb格式的至少一个第一训练图像变换成具有非rgb格式的至少一个第二训练图像,使第一鉴别器,确认所述第二训练图像是否为具有初级非rgb格式的图像或具有二次非rgb格式的图像,从而生成训练用第(1_1)结果,且其特征在于所述初级非rgb格式是未经过从所述rgb格式变换的非rgb格式,所述二次非rgb格式是经过从所述rgb格式变换的非rgb格式,并使第二转换器,将所述第二训练图像变换成具有所述rgb格式的至少一个第三训练图像;(2)使所述第二转换器,将具有所述非rgb格式的至少一个所述第四训练图像变换具有所述rgb格式的至少一个第五训练图像,使第二鉴别器,确认所述第五训练图像是否为具有初级rgb格式的图像或具有二次rgb格式的图像,从而生成训练用第(2_1)结果,且其特征在于所述初级rgb格式是未经过从所述非rgb格式变换的rgb格式,所述二次rgb格式是经过从所述非rgb格式变换的rgb格式,并使所述第一转换器,将所述第五训练图像变换成具有所述非rgb格式的至少一个第六训练图像;(3)参照所述第一训练图像、所述第二训练图像、所述第三训练图像、所述第四训练图像、所述第五训练图像、所述第六训练图像、所述训练用第(1_1)结果及所述训练用第(2_1)结果中至少一部分,计算一个以上的损失,学习所述第一转换器、所述第二转换器、所述第一鉴别器及所述第二鉴别器的参数的至少一部分。

一个实施例,提供一种测试装置,其特征在于,所述结果图像用于检测具有非rgb格式的所述测试图像中的一个以上客体所需的非rgb客体探测器的学习。

与现有技术相比,本发明的优点在于:

本发明使用循环gan而将具有rgb格式的训练图像集变换成具有非rgb格式的训练图像集,从而具有的效果是消除另行确保具有非rgb格式的训练图像集的困难。

附图说明

为了用于说明本发明实施例而附带的下面的图,只是本发明实施例中的一部分,本发明所属技术领域的普通技术人员(以下称为“普通技术人员”)可以不进行发明性作业,基于这些图获得其他图。

图1是根据本发明一个实施例显示执行用于将rgb格式的训练图像集变换成非rgb格式的训练图像集所需的学习方法的学习装置的构成的图。

图2是根据本发明一个实施例概略地显示用于将rgb格式的训练图像集变换成非rgb格式的训练图像集所需的第一转换器及第二转换器的图。

图3是根据本发明一个实施例概略地显示用于将rgb格式的训练图像集变换成非rgb格式的训练图像集所需的学习装置的图。

图4是根据本发明一个实施例显示计算用于将rgb格式的训练图像集变换成非rgb格式的训练图像集所需的客体探测损失的过程的图。

具体实施方式

后述有关本发明的详细说明,参照作为示例而图示本发明可实施的特定实施例的附图。对这些实施例进行了详细说明,以便从业人员足以实施本发明。本发明的多样实施例虽然互不相同,但应理解为不需要相互排他。例如,在此记载的特定形状、结构及特性,可以与一个实施例相关联,在不超出本发明的精神及范围的前提下体现为其他实施例。另外,各个公开的实施例内的个别构成要素的位置及配置,应理解为在不超出本发明的精神及范围的前提下可以进行变更。因此,后述的详细说明并非出于限定之意,本发明的范围,如能适当说明,则仅由与其权利要求所主张的内容等同的所有范围和所附权利要求所限定。在附图中,类似的附图标记指称在多个方面相同或类似的功能。

另外,在本发明的详细说明及权利要求中,“包括”字样的术语及其变形,并非要将其他技术特征、附加物、构成要素或步骤排除在外。对于普通技术人员而言,本发明的其他目的、优点及特性,一部分从本说明书,而一部分则从本发明的实施中显现出来。以下的示例及附图是作为实例而提供的,并非意图限定本发明。

本发明中提及的各种图像可以包括铺装或非铺装道路相关图像,是可以假定此时会在道路环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像,但并非必须限定于此,本发明中提及的各种图像也可以是与道路无关的图像(例如与非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内相关的图像),是可以推断此时会在非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像,但并非必须限定于此。

下面为了让本发明所属技术领域的普通技术人员能够容易地实施本发明,参照附图,就本发明优选实施例进行详细说明。

图1是根据本发明一个实施例显示执行用于将rgb格式的训练图像集变换成非rgb格式的训练图像集所需的学习方法的学习装置的构成的图。

参照图1,学习装置100包括作为稍后将详细说明的构成要素的第一转换器(transformer)130、第一鉴别器(discriminator)140、第二转换器150、第二鉴别器160、rgb客体探测器170及非rgb客体探测器180。第一转换器130、第一鉴别器140、第二转换器150、第二鉴别器160、rgb客体探测器170及非rgb客体探测器180的输入输出及运算过程可以分别借助于通信部110及处理器120而实现。但在图1中,省略了通信部110及处理器120的具体连接关系。此时,至少一个存储器115可以为预先存储了后述多种指令的状态,处理器120设置成执行存储器115中存储的指令,且处理器120可以执行稍后将说明的流程,从而执行本发明。如上所述描述了学习装置100,并非排除学习装置100包括由实施本发明所需的介质、处理器及存储器统合而成的形态的统合处理器的情形。

其中,第一转换器130及第二转换器150可以变换各自输入的图像的格式。具体而言,第一转换器130可以将rgb格式的至少一个输入图像变换成非rgb格式的图像,第二转换器150可以将非rgb格式的输入图像变换成rgb格式的图像。所谓非rgb格式,可以意味着并非rgb格式的、为了显示图像而使用的所有格式。例如,可以与yuv、ir、ir-rgb、灰度(grayscale)相应,但并非限定于此。另外,第一转换器130及第二转换器150可以由一个以上的cnn构成,但并非限定于此。

图2是根据本发明一个实施例概略地显示用于将rgb格式的训练图像集变换成非rgb格式的训练图像集所需的第一转换器及第二转换器的图。

第一转换器130及第二转换器150可以包括编码层及解码层中至少一部分。编码层对输入的图像应用至少一个卷积运算,从而可以生成至少一个特征图,解码层对特征图应用至少一个反卷积运算,从而可以生成格式变换后的图像。因此,转换器可以将rgb格式的图像变换成非rgb格式或将非rgb格式的图像变换成rgb格式的图像。

第一鉴别器140及第二鉴别器160可以判断各自输入的图像是否为其格式已变换的格式的图像或未变换的格式的图像。具体而言,其特征在于,第一鉴别器140可以决定输入的图像是否为具有初级(primary)非rgb格式的图像或具有二次(secondary)非rgb格式的图像,所述初级非rgb格式为未经过从所述rgb格式变换的非rgb格式,所述二次非rgb格式为经过从所述rgb格式变换的非rgb格式,当为前者时可以输出1,当为后者时可以输出0。另外,其特征在于,第二鉴别器160可以决定输入的图像是否为具有初级rgb格式的图像或具有二次rgb格式的图像,所述初级rgb格式为未经过从所述非rgb格式变换的rgb格式,所述二次rgb格式为经过从所述非rgb格式变换的rgb格式,当为前者时可以输出1,当为后者时可以输出0。第一鉴别器140及第二鉴别器160可以由cnn构成,但并非限定于此。

另外,rgb客体探测器170可以由一个以上的cnn构成,具体而言,可以包括卷积层及fc层。卷积层对输入的图像应用至少一个卷积运算,从而可以生成特征图,fc层对特征图应用边界框回归,从而可以检测一个以上的客体。当然,rgb客体探测器170不限定于如上所述的构成。在一个实施例中,rgb客体探测器170可以是已使用具有rgb格式的训练图像集完成了学习的状态。

非rgb客体探测器180可以包括与rgb客体探测器170相同或类似的构成,因而省略具体说明。不过,在一个实施例中,不同于rgb客体探测器170,非rgb客体探测器180可以为未学习的状态。

以上根据本发明一个实施例,了解了执行用于将rgb格式的训练图像集变换成非rgb格式的训练图像集所需的学习方法的学习装置100的构成,以图3为参照,对本发明的学习方法进行具体考查。

图3是根据本发明一个实施例概略地显示用于将rgb格式的训练图像集变换成非rgb格式的训练图像集所需的学习装置的图。

参照图3,可以确认到第一转换器130、第一鉴别器140、第二转换器150、第二鉴别器160及rgb客体探测器170运转的概括性方式。大致存在两个流程,将其定义为正向流程101及逆向流程102。

正向流程101是如下流程:将具有rgb格式的至少一个第一图像,借助于第一转换器130而变换成具有非rgb格式的至少一个第二图像,借助于获得第二图像的第一鉴别器140,生成作为对第二图像判断结果的第(1_1)判断结果,第二图像借助于第二转换器150而变换成具有rgb格式的至少一个第三图像。生成第(1_1)判断结果的部分与将第二图像变换成第三图像的部分并列执行,或某一个先执行均无妨。

逆向流程102是如下流程:将具有非rgb格式的至少一个第四图像,借助于第二转换器150变换成具有rgb格式的至少一个第五图像,借助于获得第五图像的第二鉴别器160,生成作为对第五图像判断结果的第(2_1)判断结果,第五图像借助于第一转换器130而变换成具有非rgb格式的至少一个第六图像。生成第(2_1)判断结果的部分与将第五图像变换成第六图像的部分并列执行,或某一个先执行均无妨。此外,正向流程101及逆向流程102中某一个先执行均无妨,也可以并列执行。

之所以经过这种流程,是为了计算更好地学习第一转换器130、第一鉴别器140、第二转换器150及第二鉴别器160所需的一个以上的损失,为了具体对此进行说明,考查计算用于学习学习装置100各个构成要素所需的损失的过程。

首先,对将应用于第一转换器130及第二转换器150的至少一个转换器用第一损失进行考查。

g*=argmin(log(1-dg(g(i)))+γ|i-f(g(i))|+log(1-df(f(x)))+β|x-g(f(x))|)

一个以上的所述损失中包含的转换器用第一损失根据所述公式而定义,i意味着所述第一图像,g(i)意味着所述第二图像,dg(g(i))意味着所述第

(1_1)结果,f(g(i))意味着所述第三图像,x意味着所述第四图像,f(x)意味着所述第五图像,df(f(x))意味着所述第(2_1)结果,g(f(x))意味着所述第六图像,γ及β可以为用于分别调整各|i-f(g(i))|及|x-g(f(x))|的加权值所需的常数。

在所述转换器用第一损失中,在用作argmin函数的因数的项(term)中,log(1-dg(g(i)))是用于向欺骗第一鉴别器140的方向学习第一转换器130所需的项。即,argmin函数诱导全体值减小,因而log(1-dg(g(i)))项也减小,log函数为增加函数,因而诱导log内部的1-dg(g(i))减小,结果,dg(g(i))增大。第一鉴别器140针对格式未变换的图像输出1,因而本项用于使第一转换器130向欺骗第一鉴别器140的方向学习。

就作为第二项的γ|i-f(g(i))|而言,可以使变换的图像与原来图像类似,即,将第二图像形成得与第一图像类似。如果第一转换器130只单纯向欺骗第一鉴别器140的方向学习,则图像中包含的特征会无法保存,因而设置了使得与原本的差异减小的项。换言之,使得i-f(g(i)),即第一图像与第三图像的差异减小,其中,所谓差异,可以意味着第一图像内的各个值与第三图像内对应的各个值之间的不一致。由于第二项,在正向流程101中存在将第二图像变换成第三图像的部分。

第三项和第四项分别与第一项和第二项存在的理由相同,不同之处在于,第三项与第四项为了第二转换器150而使用。只有第二转换器150学习好,第一转换器130才能根据第二项学习好。第三项和第四项中使用的值,可以借助于逆向流程102获得。此外的第三项和第四项的具体事项与第一项及第二项大同小异,因而通过上述段落给出的内容,普通技术人员可以轻松类推,因而在此省略其说明。

其中,公式中包含的γ和β是用于分别调整各|i-f(g(i))|及|x-gfx的加权值的常数,如果过多反映第二项和第四项,则变换后的图像导出模糊,如果过少反映,则变换后的图像无法如实反映原本图像的内容。因此,程序员可以确认|i-f(g(i))|及|x-g(f(x))|的影响并适当地设置。

转换器用第一损失可以追加地包括客体探测损失。如果将其用公式表达,则如下。

g*=argmin(log(1-dg(g(i)))+γ|i-f(g(i))|+log(1-df(f(x)))+β|x-g(f(x))|)+λ×od

od表示客体探测损失,λ表示用于调整客体探测损失的加权值所需的常数。

图4是根据本发明一个实施例显示计算用于将rgb格式的训练图像集变换成非rgb格式的训练图像集所需的客体探测损失的过程的图。

参照图4,客体探测损失可以借助于前述rgb客体探测器170而计算。具体而言,学习装置100使已学习的rgb客体探测器170,在所述第三图像中检测一个以上的客体,对在所述第三图像中检测到的所述客体的预测位置、大小、种类相关信息的至少一部分和与所述第一图像对应的至少一个gt所包含的所述客体的实际位置、大小、种类相关信息的至少一部分进行比较,从而计算所述客体探测损失。为了在图像格式变换之后也依然保持其包含的客体细节,这种客体探测损失可以包含于损失。前述的第二项也执行类似的作用,但这只是使得图像概括地类似,无法像客体探测损失那样可以选择性/优先地保存各个客体细节。因此,通过追加这种客体探测损失,可以极大提高第一转换器130的性能。关于作为用于调整客体探测损失加权值所需的常数λ,也可以由程序员以变换了格式的结果图像为参照而适当地调节。

以上对转换器用第一损失进行了考查,下面对计算鉴别器用损失的方式进行考查。

作为第一鉴别器140用损失的fd损失可以根据所述公式定义。此时,nr表示具有所述非rgb格式的任意图像,dg(nr)表示从所述第一鉴别器输出的决定具有所述非rgb格式的所述任意图像的第(1_2)结果,g(i)表示所述第二图像,dg(g(i))表示所述第(1_1)结果。argmax诱导所述公式的值增大,使得dg(nr)输出1,dg(g(i))输出0。因此,第一鉴别器140可以准确判断输入图像的格式是否在之前经过了变换。在图4中,图示了只输入第二图像的情形,但并非只获得像第二图像一样变换了格式的图像,也可以获得具有非rgb格式的任意图像,区分变换了格式的图像与未变换的图像并学习。

作为第二鉴别器160用损失的sd损失可以根据所述公式定义。此时,r表示具有所述rgb格式的任意图像,df(r)表示从所述第二鉴别器输出的决定所述任意图像的第(2_2)结果,f(x)表示所述第五图像,df(f(x))表示所述第(2_1)结果。与第一鉴别器用fd损失一样,第二鉴别器160可以根据所述公式,准确判断输入的格式是否在之前经过了变换。第二鉴别器160也未在图4中图示,但可以获得具有rgb格式的任意图像并用于学习。

当计算了包括所述说明的转换器用第一损失、第一鉴别器用fd损失及第二鉴别器用sd损失的一个以上的损失,则学习装置100可以学习第一转换器130、第一鉴别器140、第二转换器150、第二鉴别器160的参数的至少一部分。

通过如上所述进行学习,第一转换器130可以在变换图像格式的同时,使其内部的内容保持与原本相同或类似。

学习过程如上所示,下面对学习完成后的测试过程进行考查。

作为参考,在后述说明中为了防止混同,在与训练流程相关的术语中添加了“训练用”字样的语句,在与测试流程相关的术语中添加了“测试用”字样的语句。

在如下状态下,测试装置可以获得具有rgb格式的至少一个测试图像:(1)学习装置100使第一转换器130,将具有rgb格式的至少一个第一训练图像变换成具有非rgb格式的至少一个第二训练图像,使第一鉴别器140,确认所述第二训练图像是否为具有初级(primary)非rgb格式的图像或具有二次(secondary)非rgb格式的图像,从而生成训练用第(1_1)结果,且其特征在于所述初级非rgb格式为未经过从所述rgb格式变换的非rgb格式,所述二次非rgb格式为经过从所述rgb格式变换的非rgb格式,并使第二转换器150,将所述第二训练图像变换成具有所述rgb格式的至少一个第三训练图像,(2)学习装置100使所述第二转换器150,将具有所述非rgb格式的至少一个所述第四训练图像变换成具有所述rgb格式的至少一个第五训练图像,使第二鉴别器160,确认所述第五训练图像是否为具有初级rgb格式的图像或具有二次rgb格式的图像,从而生成训练用第(2_1)结果,且其特征在于所述初级rgb格式为未经过从所述非rgb格式变换的rgb格式,所述二次rgb格式为经过从所述非rgb格式变换的rgb格式,并使所述第一转换器130,将所述第五训练图像变换成具有所述非rgb格式的至少一个第六训练图像,(3)学习装置100参照所述第一训练图像、所述第二训练图像、所述第三训练图像、所述第四训练图像、所述第五训练图像、所述第六训练图像、所述训练用第(1_1)结果及所述训练用第(2_1)结果中至少一部分,计算一个以上的损失,学习所述第一转换器130、所述第二转换器150、所述第一鉴别器140及所述第二鉴别器160的参数的至少一部分。

然后,测试装置可以使第一转换器130,变换成具有非rgb格式的至少一个结果图像。

如上所述经过测试过程,如果测试用图像变换成具有非rgb格式的结果图像,则所述结果图像可以用于检测具有非rgb格式的所述测试图像中的一个以上客体所需的非rgb客体探测器的学习。

本发明技术领域的普通技术人员可以理解,上面说明的图像,例如,诸如原本图像、原本标签及追加标签的图像数据的接收发送可以借助于学习装置及测试装置的通信部而实现,特征图和执行运算所需的数据可以借助于学习装置及测试装置的处理器(及/或存储器)而保有/保持,卷积运算、反卷积运算、损失值运算过程可以主要借助于学习装置及测试装置的处理器而执行,但并非本发明限定于此。

以上说明的本发明的实施例可以体现为可通过多样计算机构成要素而执行的程序命令的形态,记录于计算机可读记录介质。所述计算机可读记录介质可以单独或组合包括程序命令、数据文件、数据结构等。所述计算机可读记录介质中记录的程序命令可以是为本发明而特别设计、构成的,或者也可以是计算机软件领域从业人员公知并可使用的。在计算机可读记录介质的示例中,包括诸如硬盘、软盘及磁带的磁介质,诸如cd-rom(只读光盘驱动器)、dvd(数字化视频光盘)的光记录介质,诸如软式光盘(flopticaldisk)的磁-光介质(magneto-opticalmedia),及诸如只读存储器(rom)、随机存储器(ram)、快闪存储器等的为了存储及执行程序命令而特殊构成的硬件装置。在程序命令的示例中,不仅有借助于编译程序而制成的机器语言代码,还包括使用解释器等而能够借助于计算机运行的高级语言代码。所述硬件装置为了执行本发明的处理,可以构成为一个以上的软件模块而运转,反之亦然。

以上根据诸如具体构成要素等的特定事项和限定的实施例及附图,对本发明进行了说明,但这只是为了帮助更全面理解本发明而提供的,并非本发明限定于所述实施例,只要是本发明所属技术领域的技术人员,便可以从这种记载导出多样的修订及变形。

因此,本发明的思想不局限于所述说明的实施例而确定,后述权利要求书以及与该权利要求书等同地或等效地变形的所有内容均属于本发明的思想范畴。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1