关键点检测方法、系统、设备及存储介质与流程

文档序号：21272923发布日期：2020-06-26 23:03阅读：232来源：国知局

本发明涉及图像处理技术领域，尤其涉及一种关键点检测方法、系统、设备及存储介质。

背景技术：

关键点检测是计算机视觉中的常见任务之一，通过对图像进行识别判断图像中是否存在关键点以及关键点的位置，例如：人体关键点检测，车辆关键点检测，服饰关键点检测等等。服饰关键点是服饰中标定的一些特殊位置，例如袖口，领口，裤脚等等。对服饰中的关键点进行检测，可以在后续对服饰的理解中起到作用，例如帮助对服饰属性和类别的预测等等。

现存的关键点检测主要有两大类方法，第一类是通过卷积神经网络直接将图像作为输入，同时直接对关键点坐标进行回归；第二类则是当下更为主流的方法，是将关键点转化为热力图(heatmap)，然后通过卷积神经网络对热力图进行回归。

网络结构上的方案，关键点heatmap回归的网络结构常见的有hourglass结构，通过对hourglass网络进行输入得到热力图，进而得到关键点。除了直接对热力图进行回归的思路，还有对回归后的关键点进行优化的思路。然而，现有技术中的方法对关键点的检测仍有一些缺陷，其准确率仍有进一步提升的空间，同时利用循环神经网络的速度过慢，效率较低。

技术实现要素：

针对现有技术中的问题，本发明的目的在于提供一种关键点检测方法、系统、设备及存储介质，基于空间注意力机制实现快速准确地检测关键点。

本发明实施例提供一种关键点检测方法，所述方法包括如下步骤：

将待检测图像输入训练好的激活图生成模型，所述激活图生成模型包括至少一个阶段的激活图生成模块，得到至少一个阶段的梯度类别激活图；

将待检测图像和梯度类别激活图输入训练好的关键点检测模型，所述关键点检测模型包括与所述激活图生成模块一一对应的非局部模块，所述梯度类别激活图分别输入对应的非局部模块，得到关键点预测图；

分析所述关键点预测图中所有连通区域，计算面积最大的连通区域的中心，作为对应关键点的位置。

可选地，所述将待检测图像输入训练好的第一识别模型之前，还包括如下步骤：

将待检测图像输入训练好的分类模型，得到待检测图像的分类结果；

将待检测图像和分类结果一起输入训练好的激活图生成模型。

可选地，所述激活图生成模型中，第一个激活图生成模块之前以及每两个激活图生成模块之间分别设置有一卷积单元。

可选地，所述关键点检测模型中，第一非局部模块之前以及每两个非局部模块之间分别设置有一卷积单元。

可选地，所述关键点检测模型采用特征金字塔结构。

可选地，所述得到关键点预测图之后，还包括如下步骤：

将关键点检测模型输出的关键点预测图输入优化识别模型，所述优化识别模型包括至少一个卷积单元；

分析所述优化识别模型输出的关键点预测图中所有连通区域，计算面积最大的连通区域的中心，作为对应关键点的位置。

可选地，所述方法还包括如下步骤：

采集训练用图像，获取训练用图像的关键点位置标签，将训练用图像和关键点位置标签加入激活图生成模型的训练集；

采用所述激活图生成模型的训练集训练所述激活图生成模型，得到训练好的激活图生成模型和训练用图像的梯度类别激活图；

将待检测图像、梯度类别激活图和关键点位置标签加入关键点检测模型的训练集；

采用所述关键点检测模型的训练集训练所述关键点检测模型，得到训练好的关键点检测模型。

可选地，所述采用所述激活图生成模型的训练集训练所述激活图生成模型之前，还包括如下步骤：

获取训练用图像的类别标签，将训练用图像和类别标签加入分类模型的训练集；

采用分类模型的训练集训练所述分类模型，得到训练好的分类模型。

可选地，所述得到训练好的关键点检测模型之后，还包括如下步骤：

得到关键点检测模型输出的训练用图像的关键点预测图，将关键点预测图和关键点位置标签加入优化识别模型的训练集，所述优化识别模型包括至少一个卷积单元，得到训练好的优化识别模型。

本发明实施例还提供一种关键点检测系统，应用于所述的关键点检测方法，所述关键点检测系统包括：

激活图生成模型执行模块，用于将待检测图像输入训练好的激活图生成模型，所述激活图生成模型包括至少一个阶段的激活图生成模块，得到至少一个阶段的梯度类别激活图；

关键点检测模型执行模块，用于将待检测图像和梯度类别激活图输入训练好的关键点检测模型，所述关键点检测模型包括与所述激活图生成模块一一对应的非局部模块，所述梯度类别激活图分别输入对应的非局部模块，得到关键点预测图；

关键点位置确定模块，用于分析所述关键点预测图中所有连通区域，计算面积最大的连通区域的中心，作为对应关键点的位置。

本发明实施例还提供一种关键点检测设备，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行所述的关键点检测方法的步骤。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现所述的关键点检测方法的步骤。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

本发明所提供的关键点检测方法、系统、设备及存储介质具有下列优点：

本发明提出了一种易于训练、运行相对高效且高精度的关键点检测方法，由于本发明提出的模型为可以端到端的结构，直接从图像以及关键点位置生成的激活图进行训练，因此可以一次完成整个训练步骤，不需要分步训练，另外在预测阶段，整个模型的计算量主要集中在深层神经网络部分，可以在高性能gpu中高效完成，因此整个模型十分高效，可以达到实时性的检测，将该方法应用在现有的大规模时尚图像预测数据集上可以达到目前最好的识别效果；此外，本发明不仅限于应用于服饰关键点检测，还可以应用于其他领域其他类别图像的关键点检测。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明一实施例的关键点检测方法的流程图；

图2是本发明一实施例的关键点检测方法所采用模型的框架图；

图3是本发明一实施例的非局部模块的原理示意图；

图4是本发明一具体实例的关键点检测系统的结构框图；

图5是本发明一实施例的关键点检测设备的结构示意图；

图6是本发明一实施例的计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件单元或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

如图1所示，本发明实施例提供一种关键点检测方法，所述方法包括如下步骤：

s100：将待检测图像输入训练好的激活图生成模型，所述激活图生成模型包括至少一个阶段的激活图生成模块，得到至少一个阶段的梯度类别激活图；

s200：将待检测图像和梯度类别激活图输入训练好的关键点检测模型，所述关键点检测模型包括与所述激活图生成模块一一对应的非局部模块，所述梯度类别激活图分别输入对应的非局部模块，得到关键点预测图；

s300：分析所述关键点预测图中所有连通区域，计算面积最大的连通区域的中心，作为对应关键点的位置。

因此，本发明提出的模型为可以端到端的结构，直接从图像以及关键点位置生成的激活图进行训练，因此可以一次完成整个训练步骤，不需要分步训练，另外在预测阶段，整个模型的计算量主要集中在深层神经网络部分，可以在高性能gpu中高效完成，因此整个模型十分高效，可以达到实时性的检测。

在该实施例中，所述将待检测图像输入训练好的第一识别模型之前，还包括如下步骤：

将待检测图像输入训练好的分类模型，得到待检测图像的分类结果；

将待检测图像和分类结果一起输入训练好的激活图生成模型，激活图生成模型将基于分类结果处理待检测图像，得到激活图。

梯度类别激活(gradient-weightedclassactivationmapping,gcam)为深度神经网络中的一种有效的可视化方法，该方法的特点为不需要修改网络的结构，也不需要重新训练网络，并且可以计算网络中任意特征图上的可视化结果。具体的计算方法为：在网络的任意特征图上，计算特征图对指定类别输出的梯度，在空间上平均作为通道上的权重，使用该权重对特征图进行加权求和得到激活图。

在本发明提出的模型中，在激活图生成模型的不同阶段上通过激活图生成模块计算得到的激活图，作为空间注意力机制，传递给了上方分支中的关键点检测模型中的非局部模块，让上方分支网络的学习可以更好的集中在重要的位置上。当将该方法应用在服饰关键点的检测时，在激活图生成模块得到的低阶激活图中，激活区域主要集中在一些低阶特征比较丰富的部位(例如边缘轮廓)，高阶激活图中则编码了与类别有关的高阶语义信息(即为衣服的位置)，在之间的激活图会体现低阶图像特征与高阶语义特征之间影响分类的信息。因此激活图生成模块的激活图可以作为注意力图，给上方分支中的非局部模块提供空间上的信息。

在该实施例中，所述激活图生成模型中，第一个激活图生成模块之前以及每两个激活图生成模块之间分别设置有一卷积单元。所述关键点检测模型中，第一非局部模块之前以及每两个非局部模块之间分别设置有一卷积单元。

在该实施例中，所述关键点检测模型采用特征金字塔结构(featurepyramidnetwork)，但本发明不限于此，采用深度学习模型的其他结构也是可以的，均属于本发明的保护范围之内。

在该实施例中，关键点检测模型作为粗检测模型，进一步还增加了细检测模型，起到优化边界的作用，因此，所述得到关键点预测图之后，还包括如下步骤：

将关键点检测模型输出的关键点预测图输入优化识别模型，所述优化识别模型包括至少一个卷积单元；

分析所述优化识别模型输出的关键点预测图中所有连通区域，计算面积最大的连通区域的中心，作为对应关键点的位置。

在该实施例中，所述关键点检测方法还包括如下步骤：

采集训练用图像，获取训练用图像的关键点位置标签，将训练用图像和关键点位置标签加入激活图生成模型的训练集；

采用所述激活图生成模型的训练集训练所述激活图生成模型，得到训练好的激活图生成模型和训练用图像的梯度类别激活图；

将待检测图像、梯度类别激活图和关键点位置标签加入关键点检测模型的训练集；

采用所述关键点检测模型的训练集训练所述关键点检测模型，得到训练好的关键点检测模型。

在该实施例中，所述采用所述激活图生成模型的训练集训练所述激活图生成模型之前，还包括如下步骤：

获取训练用图像的类别标签，将训练用图像和类别标签加入分类模型的训练集；

采用分类模型的训练集训练所述分类模型，得到训练好的分类模型。

在该实施例中，所述得到训练好的关键点检测模型之后，还包括如下步骤：

如图2所示，为本发明一实施例的关键点检测方法所采用模型的框架图。在图2中，convs表示卷积模块，gcam表示激活图生成模块，sanl表示添加了激活图之后的空间感知非局部(spatial-awarenon-local,sanl)模块，fc表示全连接层。下方分支即为激活图生成模型的结构，上方分支即为关键点检测模型的分支。下方的激活图生成模块生成的激活图作为注意力图，给上方分支中的非局部模块提供空间上的信息。

下方的分类结果例如可以是：衬衫0.395，夹克0.1/9，外套0.039等等。分类可以包括预先设定的分类类别。在将本发明的关键点检测方法应用到其他领域中时，分类的类别可以根据需要进行设定。

传统非局部(non-local)模块学习全图位置的加权平均，具体方式为：对输入的特征图x通过矩阵相乘的方式学习其任意两个位置之间的相似性矩阵，再与输入特征图x的响应通过矩阵相乘结合，最后通过一个1*1的卷积输出。整个模块学习输入到输出的一个残差的形式，可以插入在一个堆叠很深的神经网络中的任意位置，并且可以进行端到端的训练。但一些高阶的语义信息需要从模型顶端通过梯度传回，造成信息损失，使得该模块的学习速度较慢，学习能力不足。

本发明通过由外部向非局部模块提供空间信息的方式，使模块能学习到更有效的特征表示。如图3所示，本发明提出的空间感知非局部模块在原始非局部模块的基础上，在计算相似性矩阵时加入了空间注意力机制。通过将空间注意力图m(即激活图生成模块生成的激活图)传入非局部模块，使得该非局部模块更加专注在有意义的区域中，可以学习到更加有效的特征表示。

在该实施例中，上方分支的模型使用特征金字塔结构，融合多尺度特征，进行多尺度预测。层级结构使得网络可以先学习一个相对简单的任务(coarsenet)，得到一个相对粗糙的预测图，再通过一个优化模块(finenet)从相对粗糙的预测结果中得到一个更加精细的预测结果。其中优化模块(finenet)为一个全卷积结构，起到优化边界的作用。最终的关键点位置由连通性分析获得，具体为计算优化模块得到的每个通道热图中的所有连通区域，计算面积最大的连通区域的中心，作为对应关键点的位置。

如图4所示，本发明实施例还提供一种关键点检测系统，应用于所述的关键点检测方法，所述关键点检测系统包括：

激活图生成模型执行模块m100，用于将待检测图像输入训练好的激活图生成模型，所述激活图生成模型包括至少一个阶段的激活图生成模块，得到至少一个阶段的梯度类别激活图；

关键点检测模型执行模块m200，用于将待检测图像和梯度类别激活图输入训练好的关键点检测模型，所述关键点检测模型包括与所述激活图生成模块一一对应的非局部模块，所述梯度类别激活图分别输入对应的非局部模块，得到关键点预测图；

关键点位置确定模块m300，用于分析所述关键点预测图中所有连通区域，计算面积最大的连通区域的中心，作为对应关键点的位置。

本发明实施例还提供一种关键点检测设备，包括处理器；存储器，其中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行所述的关键点检测方法的步骤。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“单元”或“平台”。

下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的步骤。

因此，该实施例的关键点检测设备的处理器执行存储单元中的程序代码时，可以通过应用发起网络请求的同时保存网络请求函数的名称、网络请求参数、网络返回参数和回调函数等相关信息方便抓包调试应用，方便用户操作，提高抓包效率，并降低抓包成本。

所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(rom)6203。

所述存储单元620还可以包括具有一组(至少一个)程序单元6205的程序/实用工具6204，这样的程序单元6205包括但不限于：操作系统、一个或者多个应用程序、其它程序单元以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它单元通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件单元，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现所述的关键点检测方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

参考图6所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

因此，该实施例的计算机存储介质中的程序代码被执行时，可以通过应用发起网络请求的同时保存网络请求函数的名称、网络请求参数、网络返回参数和回调函数等相关信息方便抓包调试应用，方便用户操作，提高抓包效率，并降低抓包成本。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统、设备和计算机存储介质的实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本发明所提供的关键点检测方法、系统、设备及存储介质具有下列优点：

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李翌昕;叶韵
技术所有人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
我是此专利的发明人

上一篇：一种急诊科颈部固定装置的制作方法
上一篇：一种用于污泥的资源化处理系统及方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。