用特征上采样网络提高CNN性能的学习方法和装置及用特征上采样网络的测试方法和装置与流程

文档序号:17465924发布日期:2019-04-20 05:30阅读:364来源:国知局
用特征上采样网络提高CNN性能的学习方法和装置及用特征上采样网络的测试方法和装置与流程

本发明涉及一种通过使用特征上采样网络(fun)提高cnn的性能的学习方法和学习装置,以及使用特征上采样网络的测试方法和测试装置,并且更具体地,涉及包括以下步骤的学习方法以及使用上述学习方法的学习装置、测试方法和测试装置:(a)如果获得输入图像,则所述学习装置允许下采样块通过对所述输入图像应用预定操作以减小其尺寸来获取下采样图像;(b)如果获得所述下采样图像,则所述学习装置允许第(1-1)至第(1-k)过滤块中的每一个通过对所述下采样图像应用一个或多个卷积运算来分别获取第(1-1)至第(1-k)特征映射中的每一个;(c)所述学习装置(i)允许所述第(2-1)上采样块(i)从所述下采样块接收所述下采样图像,(ii)从第(2-2)上采样块接收第(2-2)特征映射,然后将所述第(2-2)特征映射的尺寸重新调节为与所述下采样图像的尺寸相同,并且(iii)对所述下采样图像和所述第(2-2)重新调节后的特征映射应用特定操作,从而获取第(2-1)特征映射,并且所述学习装置(ii)允许第(2-(m+1))上采样块(i)从第(1-m)过滤块接收第(1-m)特征映射,(ii)从第(2-(m+2))上采样块接收第(2-(m+2))特征映射,然后将所述第(2-(m+2))特征映射的尺寸重新调节为与所述第(1-m)特征映射的尺寸相同,并且(iii)对所述第(1-m)特征映射和所述第(2-(m+2))重新调节后的特征映射应用特定操作,以便生成所述第(2-(m+1))特征映射,从而获取第(2-k)至第(2-2)特征映射,其中m是大于或等于1的整数;并且(d)所述学习装置(i)允许应用块通过对所述(2-k)至(2-1)特征映射的至少一部分应用应用专用操作来获取应用专用输出,并且(ii)允许应用专用损失块通过将所述应用专用输出与gt进行比较来获取损失;并从而在第一反向传播处理的过程中通过使用所述损失来调节所述应用块、所述第(2-k)至第(2-1)上采样块和所述第(1-1)至第(1-k)过滤块的至少一部分的参数。



背景技术:

深度卷积神经网络,或深度cnn,是深度学习领域显著发展的核心。尽管cnn20世纪90年代已被用于解决字符识别问题,但直到最近cnn才在机器学习中得到广泛应用。由于最近的研究,cnn已经成为机器学习领域非常有用且强大的工具。例如,在2012年,cnn在年度软件竞赛“imagenet大规模视觉识别挑战赛”中的表现明显优于其竞争对手,并赢得了比赛。

图1是根据现有技术的采用cnn的装置的框图。

参考图1,装置100包括特征计算块101、应用块102和应用专用损失块103。

在接收到输入图像时,包括一个或多个卷积块和特征金字塔网络(fpn)块的特征计算块101可以从输入图像生成特征映射。作为参考,每个卷积块可以包括各种层,比如卷积层、池化层(poolinglayer)、完全连接层和激活层,例如relu层。

应用块102可以利用所生成的特征映射的至少一部分来获取应用专用输出。例如,如果应用块102执行图像分割的功能,则应用块102确定输入图像中的每个像素的类型,例如,人、汽车、前景或背景,并且使同种类型的像素聚类(cluster)以生成标签图像。或者,如果应用块102执行对象检测的功能,则可以输出关于输入图像中的对象的类型、位置和尺寸的信息。

此外,应用损失块103可以在从应用块102获得的应用专用输出与其对应的地面真值(gt)之间进行比较以计算损失。然后,装置100可以通过在第一反向传播处理的过程中使用计算的损失来获得最佳参数。此后,装置100可以去除应用损失块103以进行实际测试。

图2a是示出根据输入图像的尺寸变化的计算量的图,而图2b是示出根据输入图像的尺寸而变化的应用(例如,对象检测)的结果精度的图。

如图2a和2b所示,适用于该装置的cnn的计算量与输入图像的尺寸成比例。对象检测精度也是如此。

如果输入图像中的像素数量减少,则计算量也减少。然而,如图2b所示,由于输入图像的尺寸减小,会牺牲检测精度。

图3是示意性地示出根据现有技术的通过使用具有包括fpn块的配置的常规cnn来生成特征映射的处理的框图。

参考图3,特征计算块101可以包括用于执行卷积运算的多个卷积块,即,第(1-1)至第(1-k)过滤块。如图3所示,每个卷积块由多个层组成。详细地说,第(1-1)至第(1-k)过滤块中的每一个交替地包括任意数量的卷积层和激活层,例如整流线性函数(relu)。这种迭代配置重复执行卷积运算与非线性运算。

第(1-1)过滤块从输入图像生成第(1-1)特征映射,第(1-2)过滤块从第(1-1)特征映射生成第(1-2)特征映射,并依此类推。每个过滤块顺序地生成每个相应的特征映射。

由于输入图像的通道数增加而其尺寸通过第(1-1)至第(1-k)过滤块中的每一个减小的事实,如果具有wxhx3的尺寸和通道的输入图像被传送至第(1-1)过滤块,则可以生成w/2xh/2xc的尺寸和通道的第(1-1)特征映射以及w/4xh/4x2c的尺寸和通道的第(1-2)特征映射,并依此类推。在本文中,每个第一因子,例如w、w/2、w/4,代表输入图像的宽度,每个第二因子,例如h、h/2、h/4,表示图像的高度,并且每个第三因子,例如3、c、2c,代表图像的通道数。因此,卷积块,即第(1-1)至第(1-k)过滤块,可以分别生成具有各种尺寸和数量的通道的特征映射。

再次参考图3,多个fpn块,即第1至第(k-1)fpn块,分别连接到相应的各第(1-1)至第(1-k)过滤块中。每个fpn块包括:1×1卷积过滤器,用于调整从其相应过滤块接收的特征映射的通道数;上采样块,用于增加从之前的fpn块接收的特征映射的尺寸;以及计算单元,用于对1×1卷积过滤器的输出和上采样块的输出进行求和,然后允许将求和的输出提供给下一个fpn块。在本文中,上采样块可以使从之前的fpn块接收的特征映射的尺寸翻倍,使得从之前的fpn块接收的特征映射的尺寸可以与从对应过滤块接收的特征映射的尺寸相当。

如图3所示,第4个fpn块从第(1-4)过滤块接收具有w/16×h/16×8c的尺寸和通道的第(1-4)特征映射,将第(1-4)特征映射的通道数从8c调整为d而不修改其尺寸。此外,第4个fpn块从第5个fpn块接收具有w/32xh/32xd的尺寸和通道的第(p-5)特征映射,并且将第(p-5)特征映射的尺寸重新调节为w/16xh/16。然后,生成具有w/16xh/16xd的尺寸和通道的第(p-4)特征映射并将其传送至第3个fpn块,并依此类推。其余fpn块中的每一个遵循上述相同的处理,以最终输出具有w/2xh/2xd的尺寸和通道的第(p-1)特征映射。然而,包括fpn块的特征计算块101需要大量的计算。

因此,本发明的申请人旨在公开一种用于在减少计算时间的同时生成具有高精度的应用结果的特征映射的新方法。



技术实现要素:

本发明的目的是提供一种具有减少的计算时间的通过使用采用cnn的装置来生成特征映射的方法。

本发明的另一目的是提供一种用于在减少计算时间的同时以高精度生成特征映射的方法。

根据本发明的一个方面,提供了一种学习方法,通过使用学习装置中包括的特征上采样网络(fun)来提高cnn的性能,其中,所述学习装置包括(i)下采样块,用于减小输入图像的尺寸;(ii)第(1-1)至第(1-k)过滤块中的每一个,通过执行一个或多个卷积运算从所述第(1-1)至第(1-k)过滤块中的每一个获取第(1-1)至第(1-k)特征映射中的每一个;(iii)第(2-k)上采样块至第(2-1)上采样块,所述第(2-k)上采样块至所述第(2-1)上采样块中的每一个与所述第(1-1)至第(1-k)过滤块中的每一个对应地相互作用,并由此生成第(2-k)至第(2-1)特征映射:(iv)应用块,用于通过使用所述第(2-k)至第(2-1)特征映射的至少一部分来生成应用专用输出;以及(v)应用专用损失块,用于通过对由所述应用块生成的应用专用输出与地面真值(gt)进行比较来计算损失,所述学习方法包括以下步骤:(a)如果获得所述输入图像,则所述学习装置允许所述下采样块通过对所述输入图像应用预定操作以用于减小其尺寸来获取下采样图像;(b)如果获得所述下采样图像,则所述学习装置允许所述第(1-1)过滤块至所述第(1-k)过滤块中的每一个通过对所述下采样图像应用所述一个或多个卷积运算来分别获取所述第(1-1)特征映射至所述第(1-k)特征映射中的每一个;(c)所述学习装置:(i)允许所述第(2-1)上采样块,(i)从所述下采样块接收所述下采样图像,(ii)从第(2-2)上采样块接收第(2-2)特征映射,然后将所述第(2-2)特征映射的尺寸重新调节为与所述下采样图像的尺寸相同,并且(iii)对所述下采样图像和第(2-2)重新调节后的特征映射应用特定特定操作,从而获取所述第(2-1)特征映射,并且所述学习装置(ii)允许第(2-(m+1))上采样块,(i)从第(1-m)过滤块接收第(1-m)特征映射,并且(ii)从第(2-(m+2))上采样块接收第(2-(m+2))特征映射,然后将所述第(2-(m+2))特征映射的尺寸重新调节为与所述第(1-m)特征映射的尺寸相同,并且(iii)对所述第(1-m)特征映射和第(2-(m+2))重新调节后的特征映射应用特定特定操作,从而生成第(2-(m+1))特征映射,由此获取第(2-k)特征映射至第(2-2)特征映射,其中m是大于或等于1的整数;并且(d)所述学习装置:(i)允许所述应用块通过对所述第(2-k)特征映射至所述第(2-1)特征映射的至少一部分应用应用专用操作来获取应用专用输出,并且所述学习装置:(ii)允许所述应用专用损失块通过将所述应用专用输出与gt进行比较来获取损失;并由此在第一反向传播处理的过程中通过使用损失来调节所述应用块、所述第(2-k)上采样块至所述第(2-1)上采样块和所述第(1-1)过滤块至第(1-k)过滤块中的至少一部分的参数。

根据本发明的另一方面,提供一种通过使用测试装置中包括的具有特征上采样网络(fun)的cnn对作为输入图像的测试图像应用操作来获取应用专用输出的测试方法,包括以下步骤:(a)所述测试装置在使用下述学习装置执行下述处理的条件下获取所述测试图像,该学习装置包括:(i)下采样块,用于减小训练图像的尺寸;(ii)第(1-1)至第(1-k)过滤块,通过对所述第(1-1)至第(1-k)过滤块中的每一个执行一个或多个卷积运算而从所述第(1-1)至第(1-k)过滤块中的每一个获取第(1-1)至第(1-k)特征映射中的每一个;(iii)第(2-k)至第(2-1)上采样块,所述第(2-k)至第(2-1)上采样块中每一个与所述第(1-1)至第(1-k)过滤块中的每一个对应地相互作用;(iv)应用块,用于通过使用所述第(2-k)至第(2-1)特征映射中的至少一部分来生成应用专用输出;以及(v)应用专用损失块,用于通过在所述应用块生成的应用专用输出与地面真值(gt)之间进行比较来计算损失,该处理:(1)如果获得所述训练图像,则允许所述下采样块通过对所述训练图像应用预定操作以减小其尺寸来获取用于训练的下采样图像;(2)如果获得用于训练的所述下采样图像,则允许所述第(1-1)至第(1-k)过滤块中的每一个通过对用于训练的所述下采样图像应用所述一个或多个卷积运算来分别获取用于训练的所述第(1-1)至第(1-k)特征映射中的每一个;(3)(i)允许所述第(2-1)上采样块(i)从所述下采样块接收所述下采样图像,(ii)从第(2-2)上采样块接收第(2-2)特征映射,然后将所述第(2-2)特征映射的尺寸重新调节为与所述下采样图像的尺寸相同,并且(iii)对所述下采样图像和第(2-2)重新调节后的特征映射应用特定操作,从而获取所述第(2-1)特征映射,并且(ii)允许所述第(2-(m+1))上采样块(i)从第(1-m)过滤块接收第(1-m)特征映射,(ii)从所述第(2-(m+2))上采样块接收所述第(2-(m+2))特征映射,然后将所述第(2-(m+2))特征映射的尺寸重新调节为与所述第(1-m)特征映射的尺寸相同,并且(iii)对所述第(1-m)特征映射和第(2-(m+2))重新调节后的特征映射应用特定操作,以便生成第(2-(m+1))特征映射,从而获取所述第(2-k)至第(2-2)特征映射,其中m是大于或等于1的整数;并且(4)(i)允许所述应用块通过对用于训练的第(2-k)至第(2-1)特征映射中的至少一部分应用应用专用操作来获取所述应用专用输出,并且(ii)允许所述应用专用损失块通过将所述应用专用输出与gt进行比较来获取所述损失;并且从而在第一反向传播处理的过程中通过使用所述损失来调节所述应用块、所述第(2-k)至第(2-1)上采样块和所述第(1-1)至第(1-k)过滤块中的至少一部分的参数;并且(b)如果获得所述测试图像,则所述测试装置允许所述下采样块通过对所述测试图像应用预定操作以减小其尺寸来获取用于测试的下采样图像;(c)如果获得用于测试的所述下采样图像,则所述测试装置允许所述第(1-1)至第(1-k)过滤块中的每一个通过对用于测试的所述下采样图像应用所述一个或多个卷积运算来分别获取用于测试的所述第(1-1)至第(1-k)特征映射中的每一个;(d)所述测试装置(i)允许所述第(2-1)上采样块(i)从所述下采样块接收用于测试的所述下采样图像,(ii)从第(2-2)上采样块接收用于测试的第(2-2)特征映射,然后将用于测试的所述第(2-2)特征映射的尺寸重新调节为与用于测试的所述下采样图像的尺寸相同,并且(iii)对用于测试的所述下采样图像和用于测试的第(2-2)重新调节后的特征映射应用特定操作,从而获取用于测试的第(2-1)特征映射,并且(ii)允许第(2-(m+1))上采样块(i)从第(1-m)过滤块接收用于测试的第(1-m)特征映射,(ii)从第(2-(m+2))上采样块接收用于测试的第(2-(m+2))特征映射,然后将用于测试的所述第(2-(m+2))特征映射的尺寸重新调节为与用于测试的所述第(1-m)特征映射的尺寸相同,并且(iii)对用于测试的所述第(1-m)特征映射和用于测试的第(2-(m+2))重新调节后的特征映射应用特定操作,以便生成用于测试的所述第(2-(m+1))特征映射,从而获取用于测试的所述第(2-k)至第(2-2)特征映射,其中m是大于或等于1的整数;并且(e)所述测试装置允许所述应用块通过对用于测试的第(2-k)至第(2-1)特征映射的至少一部分应用应用专用操作来获取所述应用专用输出。

根据本发明的又一方面,提供了一种通过使用特征上采样网络(fun)来提高cnn的性能的学习装置,其中,所述学习装置包括(i)下采样块,用于减小作为输入图像的训练图像的尺寸;(ii)第(1-1)至第(1-k)过滤块,通过执行一个或多个卷积运算从所述第(1-1)至第(1-k)过滤块中的每一个获取第(1-1)至第(1-k)特征映射中的每一个;(iii)第(2-k)至第(2-1)上采样块,所述第(2-k)至第(2-1)上采样块中的每一个与所述第(1-1)至第(1-k)过滤块中的每一个对应地相互作用,从而生成第(2-k)至第(2-1)特征映射:(iv)应用块,用于通过使用所述第(2-k)至第(2-1)特征映射的至少一部分来生成应用专用输出;以及(v)应用专用损失块,用于通过将所述应用块生成的应用专用输出与地面真值(gt)进行比较来计算损失,所述学习装置包括:用于接收所述训练图像的通信部;以及处理器,所述处理器用于执行以下处理:(1)如果获得所述输入图像,则允许所述下采样块通过对所述输入图像应用预定操作以减小其尺寸来获取下采样图像;(2)如果获得所述下采样图像,则允许所述第(1-1)至第(1-k)过滤块中的每一个通过对所述下采样图像应用所述一个或多个卷积运算来分别获取所述第(1-1)至第(1-k)特征映射中的每一个;(3)(i)允许所述第(2-1)上采样块(i)从所述下采样块接收所述下采样图像,(ii)从第(2-2)上采样块接收第(2-2)特征映射,然后将所述第(2-2)特征映射的尺寸重新调节为与所述下采样图像的尺寸相同,并且(iii)对所述下采样图像和第(2-2)重新调节后的特征映射应用特定操作,从而获取第(2-1)特征映射,并且(ii)允许所述第(2-(m+1))上采样块(i)从第(1-m)过滤块接收第(1-m)特征映射,(ii)从所述第(2-(m+2))上采样块接收所述第(2-(m+2))特征映射,然后将所述第(2-(m+2))特征映射的尺寸重新调节为与所述第(1-m)特征映射的尺寸相同,并且(iii)对所述第(1-m)特征映射和第(2-(m+2))重新调节后的特征映射应用特定操作以便生成第(2-(m+1))特征映射,从而获取第(2-k)至第(2-2)特征映射,其中m是大于或等于1的整数;并且(4)(i)允许所述应用块通过对所述第(2-k)至第(2-1)特征映射的至少一部分应用应用专用操作来获取所述应用专用输出,并且(ii)允许所述应用专用损失块通过将所述应用专用输出与所述gt进行比较来获取所述损失;并且从而在第一反向传播处理的过程中通过使用所述损失来调节所述应用块、所述第(2-k)至第(2-1)上采样块和所述第(1-1)至第(1-k)过滤块中的至少一部分的参数。

根据本发明的又一方面,提供了一种通过使用具有特征上采样网络(fun)的cnn对作为输入图像的测试图像应用操作以获取应用专用输出的测试装置,所述测试装置包括通信部以及处理器,所述通信部用于在使用学习装置执行下述处理的条件下接收所述测试图像,所述学习装置包括:(i)下采样块,用于减小训练图像的尺寸;(ii)第(1-1)至第(1-k)过滤块,通过对所述第(1-1)至第(1-k)过滤块中的每一个执行一个或多个卷积运算而从所述第(1-1)至第(1-k)过滤块中的每一个获取第(1-1)至第(1-k)特征映射中的每一个;(iii)第(2-k)至第(2-1)上采样块,所述第(2-k)至第(2-1)上采样块中的每一个与所述第(1-1)至第(1-k)过滤块中的每一个对应地相互作用;(iv)应用块,用于通过使用第(2-k)至第(2-1)特征映射的至少一部分来生成应用专用输出;以及(v)应用专用损失块,用于通过在所述应用块生成的应用专用输出与地面真值(gt)之间进行比较来计算损失,该处理:(1)如果获得所述训练图像,则允许所述下采样块通过对所述训练图像应用预定操作以减小其尺寸来获取用于训练的下采样图像;(2)如果获得用于训练的所述下采样图像,则允许所述第(1-1)至第(1-k)过滤块中的每一个通过对用于训练的所述下采样图像应用所述一个或多个卷积运算来分别获取用于训练的所述第(1-1)至第(1-k)特征映射中的每一个;(3)(i)允许所述第(2-1)上采样块(i)从所述下采样块接收所述下采样图像,(ii)从第(2-2)上采样块接收第(2-2)特征映射,然后将所述第(2-2)特征映射的尺寸重新调节为与所述下采样图像的尺寸相同,并且(iii)对所述下采样图像和第(2-2)重新调节后的特征映射应用特定操作,从而获取所述第(2-1)特征映射,并且(ii)允许所述第(2-(m+1))上采样块(i)从第(1-m)过滤块接收第(1-m)特征映射,(ii)从第(2-(m+2))上采样块接收第(2-(m+2))特征映射,然后将所述第(2-(m+2))特征映射的尺寸重新调节为与所述第(1-m)特征映射的尺寸相同,并且(iii)对所述第(1-m)特征映射和第(2-(m+2))重新调节后的特征映射应用特定操作,以便生成第(2-(m+1))特征映射,从而获取第(2-k)至第(2-2)特征映射,其中m是大于或等于1的整数;并且(4)(i)允许所述应用块通过对用于训练的第(2-k)至第(2-1)特征映射的至少一部分应用应用专用操作来获取所述应用专用输出,并且并且(ii)允许所述应用专用损失块通过将所述应用专用输出与所述gt进行比较来获取所述损失;并且从而在第一反向传播处理的过程中通过使用所述损失来调节所述应用块、所述第(2-k)至第(2-1)上采样块和所述第(1-1)至第(1-k)过滤块中的至少一部分的参数;所述处理器用于执行以下处理:(1)如果获得所述测试图像,则允许所述下采样块通过对所述测试图像应用预定操作以减小其尺寸来获取用于测试的下采样图像;(2)如果获得用于测试的所述下采样图像,则允许所述第(1-1)至第(1-k)过滤块中的每一个通过对用于测试的所述下采样图像应用所述一个或多个卷积运算来分别获取用于测试的所述第(1-1)至第(1-k)特征映射中的每一个;(3)(i)允许所述第(2-1)上采样块(i)从所述下采样块接收用于测试的所述下采样图像,(ii)从第(2-2)上采样块接收用于测试的第(2-2)特征映射,然后将用于测试的所述第(2-2)特征映射的尺寸重新调节为与用于测试的所述下采样图像的尺寸相同,并且(iii)对用于测试的所述下采样图像和用于测试的第(2-2)重新调节后的特征映射应用特定操作,从而获取用于测试的所述第(2-1)特征映射,并且(ii)允许第(2-(m+1))上采样块(i)从第(1-m)过滤块接收用于测试的第(1-m)特征映射,(ii)从第(2-(m+2))上采样块接收用于测试的第(2-(m+2))特征映射,然后将用于测试的所述第(2-(m+2))特征映射的尺寸重新调节为与用于测试的所述第(1-m)特征映射的尺寸相同,并且(iii)对用于测试的所述第(1-m)特征映射和用于测试的第(2-(m+2))重新调节后的特征映射应用特定操作,以便生成用于测试的第(2-(m+1))特征映射,从而获取用于测试的第(2-k)至第(2-2)特征映射;并且(4)允许所述应用块通过对用于测试的所述第(2-k)至第(2-1)特征映射中的至少一部分应用应用专用操作来获取所述应用专用输出。

附图说明

结合附图从以下给出的优选实施例的描述中,本发明的上述和其他目的和特征将变得明显,其中:

图1是根据现有技术的采用cnn的装置的框图;

图2a是示出根据输入图像的尺寸变化的计算量的图;

图2b是示出根据输入图像的尺寸而变化的应用(例如,对象检测)的结果精度的图;

图3是示意性地示出根据现有技术的通过使用具有包括特征金字塔网络(fpn)块的配置的常规cnn来生成特征映射的处理的框图;

图4是示出根据本发明的一个示例性实施例的通过使用具有包括特征上采样网络(fun)块的配置的cnn来生成特征映射的处理的框图;

图5是示出根据本发明的一个示例性实施例的上采样块及其计算的图;

图6a和6b是根据本发明的一个示例性实施例的采用具有包括特征上采样网络(fun)块的配置的学习装置的框图;

图7是根据本发明的一个示例性实施例的用于检测对象的装置的框图。

具体实施方式

参考附图是为了使本发明的目的、技术方案和优点清楚,附图通过图示的方式示出了可以实施本发明的更详细的示例性实施例。足够详细地描述了这些优选实施例,以使本领域技术人员能够实施本发明。

应该认识到,本发明的各种实施例虽然不同,但不一定是相互排斥的。例如,在不脱离本发明的精神和范围的情况下,可以在其他实施例中实施在本文中结合一个实施例描述的特定特征、结构或特性。另外,应该认识到,在不脱离本发明的精神和范围的情况下,可以修改每个公开的实施例中的各个元件的位置或布置。因此,以下详细描述不应被视为具有限制意义,并且本发明的范围仅由所附权利要求限定,并连同权利要求所赋予的等同形式的全部范围进行适当地解释。在附图中,在数个视图中相同的数字表示相同或相似的功能。

在下文中,将参考附图详细描述本发明的优选实施例,使得本领域技术人员可以容易地实现本发明。

图4是示出根据本发明的一个示例性实施例的通过使用具有包括特征上采样网络(fun)块的配置的cnn来生成特征映射的处理的框图。

与图3中描绘的具有包括特征金字塔网络(fpn)块的配置的常规cnn不同,具有包括特征上采样网络(fun)块的配置的特征计算块400可以包括下采样块401,以在输入图像被馈送到多个过滤块(即卷积过滤器)之前减小输入图像的尺寸。

下采样块401可以执行减小输入图像的尺寸从而生成缩小尺寸的图像(即,下采样图像)的处理。如果输入图像的尺寸和通道是wxhx3,则下采样图像(即d_image)的尺寸和通道可以是w/2×h/2×3。作为示例,下采样块401可以将输入图像的尺寸减小1/2,但是不限于此。

同时,特征计算块400可以包括一个接一个层叠的多个卷积块,即,第(1-1)过滤块410_1、第(1-2)过滤块410_2、第(1-3)过滤块410_3,...和第(1-k)过滤块410_k。

详细地说,第(1-1)至第(1-k)过滤块中的每一个迭代且交替地包括任意数量的卷积层和激活层(activationlayer),例如整流线性函数(relu)。这种配置可以迭代且交替地执行卷积运算以及非线性运算。

参考图4,通过对输入图像应用卷积运算,第(1-1)过滤块410_1可以生成第(1-1)特征映射,即,图4中的(1-1)feat,并且通过对第(1-1)特征映射应用卷积运算,第(1-2)过滤块410_2可以生成第(1-2)特征映射,即,(1-2)feat,并以此类推。上述这样的处理继续到最后的过滤块,即第(1-k)过滤块410_k,并生成从卷积块输出并在图4中表示为(1-k)feat的最终特征映射。

详细地,第(1-1)过滤块410_1接收具有w/2×h/2×3的尺寸和通道的下采样图像,并且输出具有w/4xh/4xc的尺寸和通道的第(1-1)特征映射。第(1-2)过滤块410_2接收具有w/4×h/4×c的尺寸和通道的第(1-1)特征映射,并且输出具有w/8xh/8x2c的尺寸和通道的第(1-2)特征映射。这样的处理在剩余的过滤块中的每一个中继续,以便生成所有特征映射中的具有最小尺寸和最大通道数的最终特征映射。

与图3中所示的特征计算块101相比,图4中所示的特征计算块400可以对尺寸减小的特征映射执行运算,因此,可以减少由特征计算块400执行的计算量。也就是说,与图3所示的情况相比,由于每个过滤块,即第(1-1)至第(1-k)过滤块可以对半尺寸的特征映射应用卷积运算,因此减少了整个卷积块所需的计算量,并改善了整个卷积块的性能。

再次参考图4,特征计算块400可以通过fun块(以下称为上采样块)重新调节各个特征映射的尺寸。

具体地,第1fun块420_1(即第(2-1)上采样块)至第kfun块420_k(即,第(2-k)上采样块)中的每一个与其对应的过滤块单独地并相应地相互作用,并且在从第kfun块420_k至第1fun块420_1的方向上执行操作。

此外,每个上采样块,即第(2-1)上采样块420_1至第(2-k)上采样块420_k中的每一个,可以包括:第一过滤器420_1_a,例如,1x1卷积过滤器,用于调整第一特征映射的通道数;第二过滤器420_1_b,例如,1x1卷积过滤器,用于调整第二特征映射的通道数;以及放大块420_1_c,用于对第二过滤器的输出应用上采样操作,从而扩大输出的尺寸。每个上采样块可以进一步包括聚集块(aggregationblock)420_1_d,用于对第一过滤器420_1_a和放大块420_1_c的输出应用特定操作(例如,求和操作)。

详细地,第(2-1)上采样块420_1中的第一过滤器420_1_a可以对下采样图像d_image应用卷积运算,以获取通道数被修改的调整后的特征映射d_image_a。第(2-1)上采样块420_1中的第二过滤器420_1_b可以对从第(2-2)上采样块420_2中继的第(2-2)特征映射(2-2)feat应用卷积运算,以便获取第(2-2)调整后的特征映射(2-2)feat_a。并且第(2-1)上采样块420_1中的放大块420_1_c可以对第(2-2)调整后的特征映射(2-2)feat_a应用上采样操作,用于放大第(2-2)调整后的特征映射的尺寸,从而获取第(2-2)缩放的特征映射(2-2)feat_b。此外,第(2-1)上采样块420_1中的聚集块420_1_d可以对下采样图像的调整后的特征映射d_iamge_a以及第(2-2)重新调节后的特征映射(2-2)feat_b应用特定操作(例如,求和操作),以用于生成第(2-1)特征映射(2-1)feat。

作为参考,第(2-1)上采样块中的放大块420_1_c可以通过参考下采样块401的下采样率来确定第(2-2)调整后的特征映射(2-2)feat_a的上采样率。然后,根据确定的上采样率生成第(2-2)缩放的特征映射(2-2)feat_b。

此外,在m是大于或等于1且小于或等于k-2的整数的情况下,第(2-(m+1))上采样块420_(m+1)中的第一过滤器420_(m+1)_a可以对从第(1-m)过滤块接收的第(1-m)特征映射(1-m)feat应用卷积运算,以获得通过第一过滤器420_(m+1)_a调整了通道数的第(1-m)调整后的特征映射(1-m)feat_a。第(2-(m+1))上采样块420_(m+1)中的第二过滤器420_(m+1)_b可以对从第(2-(m+2))上采样块420_(m+2)接收的第(2-(m+2))特征映射(2-(m+2))feat应用卷积运算,以获得第(2-(m+2))调整后的特征映射(2-(m+2))feat_a。接着,第(2-(m+1))上采样块420_(m+1)中的放大块420_(m+1)_c可以将第(2-(m+2))调整后的特征映射(2-(m+2))feat_a的尺寸重新调节为与第(1-m)调整后的特征映射(1-m)feat_a的尺寸相同,并且因此获得第(2-(m+2))重新调节后的特征映射(2-(m+2))feat_b。然后,第(2-(m+1))上采样块内的聚集块420_(m+1)_d对第(1-m)调整后的特征映射(1-m)feat_a和第(2-(m+2))重新调节后的特征映射(2-(m+2))feat_b应用特定操作(例如,求和操作),以便生成第(2-(m+1))特征映射(2-(m+1))feat,从而获得第(2-k)至第(2-2)中特征映射中的每一个。

作为上述边界条件之一,第(2-1)上采样块420_1可以从下采样块401接收下采样图像d_image,并且从第(2-2)上采样块420_2接收第(2-2)特征映射(2-2)feat,然后将第(2-2)调整后的特征映射(2-2)feat_a的尺寸重新调节为与下采样图像d_iamge_a的调整后的特征映射的尺寸相同,然后对两个特征映射(即,(2-2)feat_a和d_iamge_a)应用特定操作,从而输出第(2-1)特征映射(2-1)feat。

作为其他边界条件,第(2-k)上采样块420_k中的第一过滤器420_k_a可以对第(1-(k-1))特征映射(1-(k-1))feat应用卷积运算,以获得通过第一过滤器420_k_a调整了通道数的第(1-(k-1))调整后的特征映射(1-(k-1))feat_a。第(2-k)上采样块420_k内的第二过滤器420_k_b可以对从第(1-k)过滤块410_k中继的第(1-k)特征映射(1-k)feat应用卷积运算,以便获取第(1-k)调整后的特征映射(1-k)feat_a。并且,第(2-k)上采样块420_k中的放大块420_k_c可以对第(1-k)调整后的特征映射(1-k)feat_a应用上采样操作,用于放大第(1-k)调整后的特征映射的尺寸,以便获取第(1-k)重新调节后的特征映射(1-k)feat_b。此外,第(2-k)上采样块420_k中的聚集块420_1_d可以对第(1-(k-1))调整后的特征映射(1-(k-1))feat_a和第(1-k)重新调节后的特征映射(1-k)feat_b应用特定操作,以用于生成第(2-k)特征映射(2-k)feat。

然而,如果在第(1-k)特征映射(1-k)feat的通道数是第(1-(k-1))特征映射(1-(k-1))feat的通道数的两倍的情况下,可以跳过第(2-k)上采样块420_k内的第二过滤器420_k_b的操作。在这种情况下,第(2-k)上采样块420_k可以不包括用于调整第(1-k)特征映射(1-k)feat的通道数的第二过滤器420_k_b,并且第(2-k)上采样块420_k内的放大块420_k_c可以对第(1-k)特征映射(1-k)feat直接应用上采样操作,从而获得第(1-k)重新调节后的特征映射(1-k)feat_b。此外,第(2-k)上采样块420_k内的聚集块420_k_d可以对第(1-(k-1))调整后的特征映射(1-(k-1))feat_a和第(1-k)重新调节后的特征映射(1-k)feat_b应用特定操作(例如,求和操作),以用于生成第(2-k)特征映射(2-k)feat。

图5是示出根据本发明的一个示例性实施例的上采样块及其计算的图。参考图5,如果第(1-m)特征映射(1-m)feat通过第(2-(m+1))上采样块420_(m+1)的第一过滤器420_(m+1)_a,那么作为示例,通过使第(1-m)特征映射(1-m)feat的通道数翻倍并同时维持其尺寸与第(1-m)特征映射的尺寸相同来生成第(1-m)调整后的特征映射(1-m)feat_a。

此外,如果第(2-(m+2))特征映射(2-(m+2))feat通过第(2-(m+1))上采样块420_(m+1)的第二过滤器420_(m+1)_b,那么作为示例,通过使第(2-(m+2))特征映射(2-(m+2))feat的通道数减少到一半并同时保留第(2-(m+2))调整后的特征映射的尺寸与第(2-(m+2))特征映射(2-(m+2))feat的尺寸相同来生成第(2-(m+2))调整后的特征映射(2-(m+2))feat_a。

此外,在第(2-(m+2))调整后的特征映射(2-(m+2))feat_a通过第(2-(m+1))上采样块420_(m+1)的放大块420_(m+1)_c的情况下,作为示例,通过使第(2-(m+2))调整后的特征映射(2-(m+2))feat_a的尺寸翻倍并同时保留其通道数与第(2-(m+2))调整后的特征映射(2-(m+2))feat_a的通道数相同来生成第(2-(m+2))重新调节后的特征映射(2-(m+2))feat_b。

此外,由于第(1-m)调整后的特征映射(1-m)feat_a和第(2-(m+2))重新调节后的特征映射(2-(m+2))feat_b两者具有相同的通道数和相同的尺寸,第(2-(m+1))上采样块420_(m+1)的聚集块420_(m+1)_d可以对两个特征映射应用特定操作,例如,求和操作。由聚集块420_(m+1)_d执行的操作结果是第(2-(m+1))特征映射(2-(m+1))feat。

也就是说,由第(2-(m+1))上采样块的第一过滤器420_(m+1)_a和第二过滤器420_(m+1)_b执行的卷积运算是将第(1-m)特征映射(1-m)feat和第2-(m+2)特征映射(2-(m+2))feat的通道数调整为彼此相同。例如,图5中图示的第(2-(m+1))上采样块420_(m+1)中的第一过滤器420_(m+1)_a使第(1-m)特征映射(1-m)feat的通道数翻倍,并且图5中所示的第(2-(m+1))上采样块420_(m+1)中的第二过滤器420_(m+1)_b使第(1-m)特征映射(1-m)feat的通道数减少1/2的比率,从而使通道数彼此相等。

此外,第(2-(m+1))上采样块420_(m+1)中的放大块420_(m+1)_c用于将第(2-(m+2))特征映射(2-(m+2))feat_a的尺寸改变为与第(1-m)调整后的特征映射(1-m)feat_a的尺寸相同。作为示例,放大块可以使第(2-(m+2))调整后的特征映射(2-(m+2))feat_a的尺寸翻倍以与第(1-m)特征映射(1-m)feat的尺寸相同,但是增量的比率不限于此。相同的处理适用于接收下采样图像d_image的第(2-1)上采样块420_1以及接收第(1-k)特征映射(1-k)feat的第(2-k)上采样块420_k两者。

再次参照图4,如图4所示,第(2-4)上采样块420_4(即fun4)可以接收具有w/16xh/16x4c的尺寸和通道的第(1-3)特征映射,并且可以将通道数从4c调整到8c,并保持第(1-3)特征映射的尺寸,例如w/16xh/16。此外,fun4可以接收具有w/32xh/32x16c的尺寸和通道的第(2-5)特征映射(2-5)feat,并且可以将其尺寸和通道数改变为w/16xh/16x8c,然后可以对第(2-5)重新调节后的特征映射和第(1-3)调整后的特征映射执行操作,从而生成并输出具有w/16xh/16x8c的尺寸和通道的第(2-4)特征映射(2-4)feat。同样,第(2-3)上采样块420_3(即fun3)和第(2-2)上采样块420_2(即,fun2)可以遵循与上述相同的处理,从而可以生成第(2-2)特征映射并且可以将其中继至第(2-1)上采样块420_1(即fun1)。fun1可以接收具有w/2xh/2x3的尺寸和通道的下采样图像d_image,并且可以将下采样图像的通道数从3调整到c并保持其尺寸,例如w/2×h/2。

另外,fun1可以接收具有w/4xh/4x2c的尺寸和通道的第(2-2)特征映射(2-2)feat,并且可以将其通道数调整为c并将其尺寸重新调节为w/2xh/2。然后,fun1可以对下采样图像的第(2-2)重新调节后的特征映射和调整后的特征映射执行特定操作(例如,求和操作),以生成具有w/2xh/2xc的尺寸和通道的第(2-1)特征映射(2-1)feat。

同时,采用如图3所示的具有包括fpn块的配置的常规cnn的装置允许fpn块将由各个fpn块生成的每个特征映射的通道数保持为与最终特征映射(未示出)的通道数相同。

与上述装置相比,采用如图4所示的具有包括fun块的配置的cnn的装置允许fun块迭代地将由各fun块输出的每个特征映射的通道数减少到其每个相应的输入特征映射的通道数的一半。至于尺寸,由各fpn块生成的每个特征映射与由各个fun块生成的每个特征映射具有相同的尺寸。

因此,根据本发明的一个示例性实施例实施的cnn的性能得到提高的原因是由于计算中涉及的特征映射的通道数减少导致cnn的计算量减少。此外,尽管采用具有包括fun块的配置的cnn的装置可以减少由cnn执行的计算量,但是通过fun块生成的每个特征映射的大小与从fpn块输出的每个特征映射的大小相同。因此,关于由比如对象检测或其他应用的应用产生的结果的正确性,具有fun块的配置的cnn与具有fpn块的配置的常规cnn之间几乎没有差异。

图6a和6b是根据本发明的一个示例性实施例的采用具有包括特征上采样网络(fun)块的配置的cnn的学习装置的框图。

参考图6a,装置600可以包括学生特征计算块601、应用块602、应用损失块603、教师特征计算块604和回归损失块605。

在本文中,学生特征计算块601可以具有仅包括下采样块401和fun块(即,第(2-1)上采样块420_1至第(2-k)上采样块420_k)的配置,从而减少所需的计算量。当学生特征计算块601接收输入图像时,下采样块、卷积块和fun块的组合可以基于输入图像生成特征映射。应用块602和应用损失块603的功能类似于图1中所示的应用块和应用损失块的功能,例如应用块102的功能和应用损失块103的功能,可以省略对重复组件的功能的描述。

此外,教师特征计算块604或教师编码层,可以执行分别生成第(t-1)至第(t-k)特征映射的处理,这些特征映射各自的尺寸与第(2-1)至第(2-k)特征映射各自的尺寸对应,并且这些特征映射是通过对输入图像应用一个或多个卷积运算且不通过下采样块而获得的。这里,学生特征计算块601接收与教师特征计算块604相同的输入图像。

回归损失块605可以通过将由学生特征计算块601生成的第(2-1)至第(2-k)特征映射中的每一个与由教师特征计算块604生成的第(t-1)至第(t-k)特征映射中的每一个进行比较来生成回归损失,然后可以通过使用归回损失允许在第二反向传播处理的处理中调整第(1-1)至第(1-k)过滤块和第(2-1)至第(2-k)上采样块中的至少一部分的参数。

具体地,装置600可以在第一和第二反向传播处理的处理中执行减少应用专用损失以及回归损失的学习处理。通过应用损失块603获取应用专用损失,并且通过回归损失块605获得回归损失。学习处理试图使由学生特征计算块601的fun块生成的特征映射尽可能与由教师特征计算块604生成的特征映射相似。因此,也减少了回归损失。

换句话说,由应用损失块603触发的第一反向传播处理可以调整学生特征计算块601和应用块602的参数,而由回归损失块605调用的第二反向传播处理可以调整学生特征计算块601的参数。因此,可以通过使用应用专用损失和附加回归损失经应用损失块603和回归损失块605来调整学生特征计算块601中的每个过滤块(即,第(1-1)过滤块至第(1-k)过滤块)的参数以及其中的每个fun块(即,第(2-1)上采样块至第(2-k)上采样块)的参数。因此,装置600的学习性能可以更高效。

图6b具体示出了学生特征计算块601、教师特征计算块604和回归损失块605的细节。还针对学生特征计算块601例证了用于生成如图4所示的特征映射的处理。

参考图6b,教师特征计算块604可以包括多个过滤块610_1,610_2,610_3,......和610_k。如上所述并在图6b中示出,教师特征计算块604和学生特征计算块601可以接收相同的输入图像并且可以对其执行一个或多个卷积操作,但是与学生特征计算块601不同,教师特征计算块604可以不包括下采样块,因此可以在不通过下采样块的情况下执行卷积操作。

具体地,第(t-1)过滤块610_1接收具有wxhx3的尺寸和通道的输入图像,并且对其执行卷积运算,从而输出具有w/2×h/2×c的尺寸和通道的第(t-1)特征映射(t-1)feat。然后,第(t-2)过滤块610_2接收第(t-1)特征映射(t-1)feat并且对其执行卷积运算,从而输出具有w/4xh/4x2c的尺寸和通道的第(t-2)特征映射(t-2)feat。同样,第(t-3)过滤块610_3接收第(t-2)特征映射(t-2)feat并且对其执行卷积运算,从而生成具有w/8×h/8×4c的尺寸的第(t-3)特征映射(t-3)feat。因此,依次生成第(t-1)至第(t-k)特征映射。

如图6b所示,回归损失块605可以通过将第(2-1)特征映射(2-1)feat与第(t-1)特征映射(t-1)feat进行比较来产生第一回归损失,两者具有相同通道数和尺寸,例如w/2xh/2xc。同样地,回归损失块605可以通过将第(2-2)特征映射(2-2)feat与第(t-2)特征映射(t-2)feat进行比较来生成第二回归损失,两者具有相同的通道数和尺寸,例如w/4xh/4x2c,并以此类推。也就是说,由回归损失块605计算与第(2-1)至第(2-k)特征映射中的每一个对应的各个回归损失。并且装置600可以通过使用回归损失在第二反向传播处理的过程中调整第(1-1)至第(1-k)过滤块和第(2-1)至第(2-k)上采样块中的至少一部分的参数。然而,教师特征计算块604的第(t-1)过滤块610_1至第(t-k)过滤块610_k可以使用在预训练处理(pre-trainingprocess)的过程中获取的固定参数。如果完成了参数的调整,则如图6a所示的装置600可以仅利用学生特征计算块601和应用块602执行测试处理。

图7是根据本发明的一个示例性实施例的用于检测对象的装置的框图。如图7所示,提供对象检测块700作为应用块602的示例。参考图7,由特征计算块400生成的特征映射(例如(2-1)feat、(2-2)feat,......和(2-k)feat)被传送到对象检测块700。对象检测块700可以从特征计算块400接收至少部分特征映射。详细地,对象检测块700内的fc层可以对接收的特征映射执行特定操作(例如,回归操作或分类操作)以获取中间结果,并且可以将中间结果转发到合并层,从而生成应用专用输出。这里,应用专用输出是对象的检测结果。

再次参考图7,根据本发明的特征计算块400的计算量减少,同时保留了检测结果的准确性。在本文中,应用块602的实例可以是语义的分段块或如图7所示的对象检测块700。

由于本领域技术人员可以理解本发明,所以如上所述的输入图像(例如,训练图像或测试图像)可以由学习设备的通信部和测试设备的通信部接收和传送,用于利用特征映射执行计算的数据可以由其处理器(和/或存储器)保持/维持。卷积运算、去卷积运算和损失计算主要由学习设备和测试设备的处理器执行,但不限于此。

本发明具有通过经应用下采样操作来减小输入图像的尺寸而减少cnn的计算时间的效果。

另外,本发明具有减少cnn的计算时间而不牺牲应用专用输出的准确性的另一效果。

另外,本发明具有另一效果:与常规的cnn相比,通过减少cnn的计算时间来提高cnn的计算速度。

此外,本发明还具有另一效果:根据本发明显著减少由上采样块生成的特征映射的通道数。

此外,本发明还具有又一效果:通过使用从应用损失块获得的损失和从回归损失块获得的附加回归损失来提高学习处理的性能。

如上所述的本发明的实施例可以通过可记录到计算机可读介质的各种计算机装置而实施为可执行的程序命令的形式。计算机可读介质可以单独地或组合地包括程序命令、数据文件和数据结构。记录到介质的程序命令可以是为本发明专门设计的组件,或者可以对计算机软件领域的技术人员有用。计算机可读记录介质包括:磁介质,比如硬盘、软盘和磁带;光介质,比如cd-rom和dvd;磁光介质,比如光磁软盘;以及被专门设计成存储并执行程序的硬件装置,比如rom、ram和闪存。程序命令不仅包括由编译器生成的机器语言代码,还包括可由解释器等使用的高级代码,该高级代码由计算机执行。上述硬件设备可以不仅仅用作执行本发明的动作的软件模块,并且在相反的情况下它们可以同样如此做。

如上所述,已经通过具体事项(比如详细的部件、有限的实施例和附图)解释了本发明。虽然已经参照优选实施例示出并描述了本发明,但是本领域技术人员将理解,在不脱离由所附权利要求限定的本发明的精神和范围的情况下,可以进行各种改变和修改。

因此,本发明的思想不应局限于所解释的实施例,并且以下专利权利要求以及包括与专利权利要求相同或等同的变型的所有内容都属于本发明的思想范畴。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1