识别图像中人物位置方法、装置、计算机设备和存储介质与流程

文档序号：19252039发布日期：2019-11-27 20:22阅读：532来源：国知局

本申请涉及计算机技术领域，特别是涉及一种识别图像中人物位置的方法、装置、计算机设备和存储介质。

背景技术：

随着社会经济和安全生产的需要，视频监控设备在平安城市、智慧交通、安防工程等领域得到了越来越广泛的部署。并且，近年来视频监控朝着高清化、网络化和智能化的方向发展。但是，由于监控视频的广泛引用，海量摄像头所产生的大量视频数据也越来越多，为查看目标物，需从海量视频数据中查询，现有的查询方式主要依赖于人力查看和手动检索，导致视频内容监控自动化程度不高，查询效率慢等问题。

技术实现要素：

基于此，有必要针对上述技术问题，提供一种能够提高效率的识别图像中人物位置的方法、装置、计算机设备和存储介质。

一种识别图像中人物位置的方法，所述方法包括：

获取待识别监控视频文件，并对所述待识别监控视频文件进行预处理，获得待识别视频图像；

确定所述待识别视频图像的图像类型；

在所述图像类型为彩色图像时，通过训练获得的人体姿态模型识别所述待识别图像中的人体关键点，并基于识别出的人体关键点确定所述待识别视频图像中的人物位置信息；

在所述图像类型为夜视图像时，通过训练获得的轻量级目标检测模型，识别出所述待识别视频图像中的人物位置信息。

在其中一个实施例中，所述确定所述待识别视频图像的图像类型的步骤，包括：

获取所述待识别视频图像中各像素的三通道像素值；

基于所述三通道像素值进行差值计算，选择差值最大的值作为像素差值；

根据预设值和所述像素差值确定所述待识别视频图像的图像类型。

在其中一个实施例中，

所述确定所述待识别视频图像的图像类型，包括：

获取所述待识别监控视频文件对应监控设备的采集模式调节时间，以及获取所述待识别视频图像对应的拍摄时间；

根据所述采集模式调节时间确定所述待识别视频图像的图像类型。

在其中一个实施例中，在所述图像类型为彩色图像时，通过训练获得的人体姿态模型识别所述待识别图像中的人体关键点，并基于识别出的人体关键点确定所述待识别视频图像中的人物位置信息，包括：

利用所述人体姿态模型的前置网络层对所述待识别视频图像进行特征提取，得到所述待识别视频图像对应的特征图；

利用所述人体姿态模型的置信度网络层从所述特征图中提取所述待识别视频图像中人体的人体关键点，得到所述待识别视频图像中人体关键点对应的关键点置信图；

利用所述人体姿态模型的关联度向量网络层从所述特征图中提取所述待识别视频图像中各所述人体关键点的关联度；

根据所述关键点置信图和所述人体关键点的关联度确定所述待识别视频图像的人物位置信息。

在其中一个实施例中，所述根据所述关键点置信图和所述人体关键点的关联度确定所述待识别视频图像的人物位置信息，包括：

根据所述人体关键点的关联度，将所述关键点置信图上的人体关键点进行连接，并计算得到关键点轮廓；

根据所述关键点轮廓获取外接最小矩形，所述外接最小矩形为包括所述关键点轮廓的面积最小的矩形；

根据所述外接最小矩形确定所述待识别视频图像中的人物位置信息。

在其中一个实施例中，所述得到所述待识别人物位置信息之后，之后，还包括：

生成与所述人物位置信息对应的视频信息；

将所述视频信息写入对应的日志中。

在其中一个实施例中，

在所述获取待识别监控视频文件之前，还包括训练所述人体姿态模型和所述轻量级目标检测模型的步骤；所述训练所述人体姿态模型和所述轻量级目标检测模型的步骤包括：

获取监控设备的历史监控视频；

从所述历史监控视频中提取彩色图像样本和夜视图像样本，并对所述彩色图像样本中的人体进行人体关键点的标注，以及对所述夜视图像样本中的人体进行位置坐标的标注，得到标注彩色图像和标注夜视图像；

分别对所述标注彩色图像和标注夜视图像进行尺寸调整，得到训练彩色图像和训练夜视图像；

将所述训练彩色图像中的人体关键点与所述标注彩色图像中标注的人体关键点进行映射，利用映射后的训练彩色图像对所述人体姿态模型进行训练；

将所述训练夜视图像中的位置坐标与所述标注夜视图像中标注的位置坐标进行映射，利用映射后的训练夜视图像对所述轻量级目标检测模型进行训练。

一种识别图像中人物位置的装置，所述装置包括：

预处理模块，用于获取待识别监控视频文件，并对所述待识别监控视频文件进行预处理，获得待识别视频图像；

确定模块，用于确定所述待识别视频图像的图像类型；

识别模块，用于在所述图像类型为彩色图像时，通过训练获得的人体姿态模型识别所述待识别视频图像中的人体关键点，并基于识别出的人体关键点确定所述待识别视频图像中的人物位置信息；

所述识别模块还用于在所述图像类型为夜视图像时，通过训练获得的轻量级目标检测模型，识别出所述待识别视频图像中的人物位置信息。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述识别图像中人物位置的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述识别图像中人物位置的方法。

上述识别图像中人物位置的方法、装置、计算机设备和存储介质，当获取到待识别监控视频文件后，对待识别监控视频文件进行预处理得到待识别视频图像，从而便于后续对视频内容识别的处理。确定待识别视频图像的图像类型后，根据图像类型调用对应的识别模型，即在图像类型为彩色图像时，通过训练获得的人体姿态模型识别待识别图像中的人体关键点，并基于识别出的人体关键点确定待识别视频图像中的人物位置信息。而在图像类型为夜视图像时，通过训练获得的轻量级目标检测模型，识别出所述待识别视频图像中的人物位置信息。从而保证不同类型的待识别视频图像能够有最匹配的识别模型进行识别，提高识别的准确性。并且根据不同的识别模型检测视频图像中人物的位置，能够摆脱旧式的人工识别查看方法，实现自动化快速识别监控视频内容。提高工作效率。

附图说明

图1为一个实施例中识别图像中人物位置的方法的应用场景图；

图2为一个实施例中识别图像中人物位置的方法的流程示意图；

图3为一个实施例中确定视频图像的类型步骤的流程示意图；

图4为另一个实施例中识别图像中人物位置的方法的流程示意图；

图5为一个实施例中识别图像中人物位置的装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的识别图像中人物位置的方法，可以应用于如图1所示的应用环境中。其中，监控设备102通过网络与服务器104进行通信。服务器104获取监控设备102发送的待识别监控视频文件，服务器104对监控视频文件进行预处理得到待识别视频图像。服务器104确定待识别视频图像的图像类型。服务器104在图像类型为彩色图像时，通过训练获得的人体姿态模型识别待识别图像中的人体关键点，并基于识别出的人体关键点确定待识别视频图像中的人物位置信息。服务器104在图像类型为夜视图像时，通过训练获得的轻量级目标检测模型，识别出待识别视频图像中的人物位置信息。其中，监控设备102可以但不限于是各种摄像头、携带有摄像头的个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种识别图像中人物位置的方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤s202，获取待识别监控视频文件，对待识别监控视频文件进行预处理得到待识别视频图像。

其中，待识别监控视频文件是指包括监控设备所采集的监控视频的文件，可以理解为，待识别监控视频文件包括但不限于是监控设备采集监控视频传送给服务器，也可以是具备传输功能且与服务器进行通信的其他终端设备。即服务器获取的待识别监控视频文件可以来自监控设备，也可以来自其他终端设备发送的视频文件。预处理是指对待识别监控视频文件进行解码获取到对应的待识别监控视频，并且对待识别监控视频进行分割得到待识别监控视频中的待识别视频图像，并对待识别视频图像进行灰度调整、去燥以及锐化等技术处理，即通过调整改善图像画质和噪音保证图像的清晰度和质量。

具体地，用户可以通过监控设备下发人物位置识别指令，并且选定需要进行识别的待识别监控视频。当监控设备接收到用户下发的人物位置识别指令后，获取用户所选定的待识别监控视频进行压缩封装成对应的待识别监控视频文件，并将待识别监控视频文件发送至对应的服务器，以及向对应的服务器发送人物位置识别的请求。服务器接收到人物位置识别请求后，将该人物位置识别请求对应的待识别监控视频文件进行解码还原得到待识别监控视频，然后对该待识别监控视频进行预处理得到待识别监控视频中的待识别视频图像。

步骤s204，确定待识别视频图像的图像类型。

具体地，当服务器对待识别监控视频文件进行预处理得到对应的待识别视频图像后，通过获取该待识别视频图像中的像素值确定该待识别视频图像属于夜视图像还是彩色图像。

步骤s206，在图像类型为彩色图像时，通过训练获得的人体姿态模型识别待识别图像中的人体关键点，并基于识别出的人体关键点确定待识别视频图像中的人物位置信息。

其中，人体姿态模型为openpose模型，openpose模型是一种姿势检测框架，用于检测人体的关节，例如颈部、肩部和肘部等关键点，将关键点联系起来得到人体姿态。openpose模型包括前置网络层和双分支多层次的cnn网络(convolutionalneuralnetworks，卷积神经网络)。前置网络是在vgg网络(visualgeometrygroupnetwork，超分辨率测试网络)的基础上修改而来的vgg-19网络，包括十个二维卷积层和修正线性单元层依次串联，其间插入3个池化层。即vgg-19模块包括4个block，其中，block1、block2和block4中分别两个卷积层和两个修正线性单元，block3中四个卷积核和四个修正线性单元，3个池化层介于每个block之间。双分支多层次的cnn网络包括置信度网络和关联度向量场网络。

具体地，当服务器基于确定待识别视频图像的类型后，若该待识别视频图像的类型为彩色图像，则调用openpose模型作为该待识别视频图像的识别模型。将待识别视频图像输入至openpose模型中，利用openpose模型对该待识别视频图像进行识别，得到待识别视频图像中人体的人体关键点，从而根据人体关键点得到人物位置。

步骤s208，在图像类型为夜视图像时，通过训练获得的轻量级目标检测模型，识别出待识别视频图像中的人物位置信息。

其中，轻量级目标检测模型为ssdlite(singleshotdetector-lite，轻量级单次检测器)模型，ssdlite模型是一种目标检测框架，用于识别是否存在目标物的模型。在本实施例中，为了提高模型的精度，将ssdlite模型原有的loss(损失函数)改为focalloss。并且，由于夜视图像很难检测人体姿态的各个关键点，因此在本实施例中，openpose模型用于检测彩色图像，ssdlite模型用于检测夜视图像。

具体地，当服务器基于确定待识别视频图像的类型后，而若该待识别视频图像的类型为夜视图像，则调用ssdlite模型作为该待识别视频图像的识别模型，后续使用ssdlite模型对该待识别视频图像进行人物位置的识别。

上述识别图像中人物位置的方法，当获取到待识别监控视频文件后，对待识别监控视频文件进行预处理得到待识别视频图像，从而便于后续对视频内容识别的处理。确定待识别视频图像的图像类型后，根据图像类型调用对应的识别模型，即在图像类型为彩色图像时，通过训练获得的人体姿态模型识别待识别图像中的人体关键点，并基于识别出的人体关键点确定待识别视频图像中的人物位置信息。而在图像类型为夜视图像时，通过训练获得的轻量级目标检测模型，识别出所述待识别视频图像中的人物位置信息。从而保证不同类型的待识别视频图像能够有最匹配的识别模型进行识别，提高识别的准确性。并且根据不同的识别模型检测视频图像中人物的位置，能够摆脱旧式的人工识别查看方法，实现自动化快速识别监控视频内容。提高工作效率。

在一个实施例中，如图3所示，步骤s204，确定待识别视频图像的图像类型包括以下步骤：

步骤s302，获取待识别视频图像中各像素的三通道像素值。

其中，像素是指组成图像的小方格，即图像中的最小单位。并且该小方格都有明确的位置和被分配的色彩数值，小方格颜色和位置就决定该图像呈现出来的样子。像素值即为该像素对应的色彩数值，通过像素值可以确定图像的类型。图像类型包括夜视图像和彩色图像。三通道像素值为rgb像素值，rgb像素值即为决定图像所呈现显颜色的色彩数值。rgb分别为红色red、绿色green和蓝色blue。具体地，当服务器根据像图像像素值确定该视频图像是夜视图像还是彩色图像时，首先获取图像中所有像素对应的rgb像素值。

步骤s304，基于三通道像素值进行差值计算，选择差值最大的值作为像素差值。

具体地，获取各像素的三通道像素值后，即获取到rgb像素值后，对rgb进行差值计算。差值计算即是将rgb中任意两个进行减法运算，所得到多个差值中选择差值最大的值作为这个像素对应的像素差值。例如，以像素1为例，获取像素1对应的rgb值，每个rgb都有对应的分量值，分量值具体是多少依具体图像而定，一般rgb对应的分量值在0-255之间。即分别获取r对应的分量值，g对应的分量值以及b对应的分量值，然后将三个分量值互相进行差值运算。相当于分别计算r-g的绝对值，r-b的绝对值，g-b的绝对值，由于r-b或者b-r的值是相同的，但是符号相反，而符号相反在数学上虽有不同，但对于像素没有。因此通过取绝对值可以减少计算步骤，从而快速完成计算。也就是说，取差值最大的值作为像素1的像素差值即从r-g的绝对值，r-b的绝对值，g-b的绝对值中选取一个最大值作为像素1的像素差值。

步骤s306，根据预设值和像素差值确定待识别视频图像的图像类型。

其中，预设值为预设用于判断视频图像是彩色图像或者夜视图像的参考像素值。在本实施例中，预设值为10。具体地，当获取到像素对应的像素差值后，将该像素差值与预设值10进行比较。若该像素差值大于预设值10，则确定该待识别视频图像为彩色图像，而若该像素差值小于等于预设值10，则确定该待识别视频图像为夜视图像。在本实施例中，通过待识别视频图像的像素值确定待识别视频图像的图像类型，保证后续可根据待识别视频图像的图像类型调用与该待识别视频图像最为匹配的识别模型进行识别，提高识别准确率。

在另一个实施例中，步骤s204，确定待识别视频图像的图像类型包括：获取待识别监控视频文件对应监控设备的采集模式调节时间，以及获取待识别视频图像对应的拍摄时间；根据采集模式调节时间确定待识别视频图像的图像类型。

具体地，监控设备具有两种模式，包括彩色采集模式和夜视黑白采集模式。在监控设备采集监控视频时，由于光线较低的情况下采集到的彩色视频质量有所损失。而为了保证监控视频的质量，在光线较低的时候，监控设备能够自动将彩色采集模式调节为夜视黑白模式，从而采集夜视黑白的监控视频。因此，当确定待识别视频图像内容时，通过获取待识别视频图像内容对应的待识别监控视频文件的监控设备的采集模式调节时间，即获取从彩色采集模式调节到夜视黑白模式的时间，从而确定该监控设备调节模式的时间。然后，进一步获取待识别视频图像的拍摄时间，待识别视频图像的拍摄时间从视频信息中即能获取。通过将采集模式调节时间和拍摄时间进行比对，当拍摄时间在采集模式调节时间之前，即可确定待识别视频图像为彩色图像，而当拍摄时间在采集模式调节时间之后，即可确定待识别视频图像为夜视图像。在一个实施例中，在图像类型为彩色图像时，通过训练获得的人体姿态模型识别待识别图像中的人体关键点，并基于识别出的人体关键点确定待识别视频图像中的人物位置信息，具体包括：利用人体姿态模型的前置网络层对待识别视频图像进行特征提取，得到待识别视频图像对应的特征图；利用人体姿态模型的置信度网络层从特征图中提取所述待识别视频图像中人体的人体关键点，得到待识别视频图像中人体关键点对应的关键点置信图；利用人体姿态模型的关联度向量网络层从特征图中提取待识别视频图像中各所述人体关键点的关联度；根据关键点置信图和人体关键点的关联度确定待识别视频图像的人物位置信息。

具体地，当待识别视频图像为彩色图像时，首先将待识别视频图像输入人体字条模型的前置网络，经过前置网络层对待识别视频图像进行卷积池化等特征提取的操作，转换得到待识别视频图像对应的特征图。然后将特征图输入至双分支多层次的cnn网络，即经过双分支网络中的置信度网络得到每个人体关键点以及对应的关键点置信图，经过双分支网络中的关联度向量场网络得到每个人体关键点的关联度，即根据关键点置信图和人体关键点的关联度确定待识别视频图像的人物位置信息。通过关键点置信图可以找到待识别视频图像中人物的人体关键点，根据关联度可获取各人体关键点之间的有效连接，即通过关键点置信图和关联度可以确定人物位置。

在一个实施例中，根据关键点置信图和人体关键点的关联度确定待识别视频图像的人物位置信息，包括：根据人体关键点的关联度，将关键点置信图上的人体关键点进行连接，并计算得到关键点轮廓；根据关键点轮廓获取外接最小矩形，外接最小矩形为包括所述关键点轮廓的面积最小的矩形；根据外接最小矩形确定待识别视频图像中的人物位置信息。

其中，关键点轮廓是指将人体关键点框起来的不规则形状，最小外接矩形即是指将所有关键点轮廓框起来的最小矩形。具体地，利用opencv工具根据关键点置信图和关联度进行计算，首先根据关联度将关键点置信图上的人体关键点进行连接，得到人体对应的姿态。并且，同时利用opencv工具计算得到关键点轮廓，在根据关键点轮廓得到最小外接矩形，外接最小矩形内区域的即是人物的所在位置，外接最小矩形的位置坐标即是人物位置信息。其中，若得到的外接最小矩形为相比规则的矩形有所偏差，也就是得到的外接最小矩形是不规则的矩形，则将其矫正为规则的矩形，最终得到的外接最小矩形为规则的矩形。

在一个实施例中，如图4所示，提供另一种识别图像中人物位置的方法，即当得到待识别人物位置信息之后，还包括以下步骤：

步骤s210，生成与人物位置信息对应的视频信息。

步骤s212，将视频信息写入对应的日志中。

其中，预设目标包括但不限于人体，还可以是其他物体，根据实际需求进行预设。日志是指用于记录视频信息的文档。具体地，在本实施例中以监控视频为例，对监控视频进行识别的需求是为了识别得到监控视频中出现的人体。因此，本实施例中将人体作为预设目标。而当识别检测得到视频内容时，基于检测出来的人物位置信息生成对应的视频信息。其中，视频信息包括该视频图像是否包括预设目标，该视频图像来源于哪个监控视频文件、以及预设目标在视频图像中的坐标位置等。可以理解为，获取该视频图像来的来源、视频图像中人物的坐标位置之后，从而打包成一个文件，得到生成的视频信息。当生成视频信息后，将该视频信息写入对应的日志中，后续需要了解监控视频内容时可直接调用该日志文件，通过日志文件中记载的视频信息可以得知所有监控视频文件中的视频内容。

在一个实施例中，识别模型为预先训练好的网络模型，即人体姿态模型和轻量级目标检测模型为预先训练好，用于人物位置识别的模型。训练人体姿态模型和轻量级目标检测模型具体包括：获取监控设备的历史监控视频；从历史监控视频中提取彩色图像样本和夜视图像样本，并对彩色图像样本中的人体进行人体关键点的标注，以及对夜视图像样本中的人体进行位置坐标的标注，得到标注彩色图像和标注夜视图像；分别将标注彩色图像和标注夜视图像进行尺寸调整，得到训练彩色图像和训练夜视图像；将训练彩色图像中的人体关键点与标注彩色图像中标注的人体关键点进行映射，利用映射后的训练彩色图像对所述人体姿态模型进行训练；将训练夜视图像中的位置坐标与标注夜视图像中标注的位置坐标进行映射，利用映射后的训练夜视图像对轻量级目标检测模型进行训练。

具体地，基于历史监控视频得到的训练图像训练识别模型，使得识别模型对监控这一场景进行充分学习，后续识别监控视频内容时更加准确。由于识别模型包括openpose和ssdlite两个模型，两个模型对不同类型的图像进行识别，因此获取到的历史监控视频应当包括彩色视频和夜视视频。

当获取到历史监控视频后，利用ffmpeg从历史视频中提取满足训练要求的视频图像，即提取包括人体的彩色图像样本和夜视图像样本。。获取到包括人体的彩色图像样本和夜视图像样本后，使用标注软件将彩色图像中的人物的人体关键点进行坐标标注，得到标注彩色图像。其中，标注软件包括但不限于labelme标准软件。以及彩色图像是标注人体关键点，人体关键点一般可以有9、14、16、17、18等不同个数数量，为了实现更精确的识别，本实施例优选标注18个关键点的坐标，18个关键点包括鼻子，脖子，右肩，右肘，右腕，左肩，左肘，左腕，右髋，右膝，右踝，左髋，左膝，左踝，左眼，右眼，左耳，右耳。夜视图像则直接标注人物位置坐标，得到标注夜视图像。其中，坐标可以表示为(x坐标最小值，y坐标最小值，x坐标最大值，y坐标最大值)，即表示为(xmin，ymin，xmax，ymax)。

由于openpose和ssdlite两个模型对图像进行不同处理，因此能够接受的输入图像的尺寸有所不同。因此，彩色图像进行人体关键点标注后需要将对应的标注彩色图像缩放成432*368大小，而标注夜视图像缩放成300*300大小，缩放后的标注彩色图像和标注夜视图像作为训练彩色图像和训练夜视图像。而由于缩放后的标注彩色图像和标注夜视图像中所标注的坐标位置会有所变化，因此将缩放后的标注坐标与缩放前目标标注进行映射，即将训练彩色图像和训练夜视图像与对应的标注彩色图像和标注夜视图像进行映射后再将训练彩色图像和训练夜视图像输入至对应的模型中训练，通过建立映射关系后训练，使得模型训练过程中能够学习正确的坐标。其中，彩色图像输入至openpose模型训练，夜视图像输入到ssdlite模型中进行训练。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种识别图像中人物位置的装置，包括：预处理模块502、确定模块504和识别模块506，其中：

预处理模块502，用于获取待识别监控视频文件，并对待识别监控视频文件进行预处理，获得待识别视频图像。

确定模块504，用于确定待识别视频图像的图像类型。

识别模块506，用于在图像类型为彩色图像时，通过训练获得的人体姿态模型识别待识别视频图像中的人体关键点，并基于识别出的人体关键点确定待识别视频图像中的人物位置信息。

识别模块506还用于在图像类型为夜视图像时，通过训练获得的轻量级目标检测模型，识别出待识别视频图像中的人物位置信息。

在一个实施例中，确定模块504还用于获取待识别视频图像中各像素的三通道像素值；基于三通道像素值进行差值计算，选择差值最大的值作为像素差值；根据预设值和像素差值确定待识别视频图像的图像类型。

在一个实施例中，确定模块504还用于获取待识别监控视频文件对应监控设备的采集模式调节时间，以及获取待识别视频图像对应的拍摄时间；根据采集模式调节时间确定待识别视频图像的图像类型。

在一个实施例中，识别模块506还用于利用人体姿态模型的前置网络层对待识别视频图像进行特征提取，得到待识别视频图像对应的特征图；利用人体姿态模型的置信度网络层从特征图中提取所述待识别视频图像中人体的人体关键点，得到待识别视频图像中人体关键点对应的关键点置信图；利用人体姿态模型的关联度向量网络层从特征图中提取待识别视频图像中各所述人体关键点的关联度；根据关键点置信图和人体关键点的关联度确定待识别视频图像的人物位置信息。

在一个实施例中，识别模块506还用于根据人体关键点的关联度，将关键点置信图上的人体关键点进行连接，并计算得到关键点轮廓；根据关键点轮廓获取外接最小矩形，外接最小矩形为包括所述关键点轮廓的面积最小的矩形；根据外接最小矩形确定待识别视频图像中的人物位置信息。

在一个实施例中，识别图像中人物位置的装置还包括生成模块，用于生成与人物位置信息对应的视频信息；将视频信息写入对应的日志中。

在一个实施例中，识别图像中人物位置的装置还包括训练模块，用于获取监控设备的历史监控视频；从历史监控视频中提取彩色图像样本和夜视图像样本，并对彩色图像样本中的人体进行人体关键点的标注，以及对夜视图像样本中的人体进行位置坐标的标注，得到标注彩色图像和标注夜视图像；分别将标注彩色图像和标注夜视图像进行尺寸调整，得到训练彩色图像和训练夜视图像；将训练彩色图像中的人体关键点与标注彩色图像中标注的人体关键点进行映射，利用映射后的训练彩色图像对所述人体姿态模型进行训练；将训练夜视图像中的位置坐标与标注夜视图像中标注的位置坐标进行映射，利用映射后的训练夜视图像对轻量级目标检测模型进行训练。

关于识别图像中人物位置的装置的具体限定可以参见上文中对于识别图像中人物位置的方法的限定，在此不再赘述。上述监控视频内容识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种识别图像中人物位置的方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待识别监控视频文件，并对待识别监控视频文件进行预处理，获得待识别视频图像；

确定待识别视频图像的图像类型；

在图像类型为彩色图像时，通过训练获得的人体姿态模型识别待识别视频图像中的人体关键点，并基于识别出的人体关键点确定待识别视频图像中的人物位置信息；

在图像类型为夜视图像时，通过训练获得的轻量级目标检测模型，识别出待识别视频图像中的人物位置信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取待识别视频图像中各像素的三通道像素值；基于三通道像素值进行差值计算，选择差值最大的值作为像素差值；根据预设值和像素差值确定待识别视频图像的图像类型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取待识别监控视频文件对应监控设备的采集模式调节时间，以及获取待识别视频图像对应的拍摄时间；根据采集模式调节时间确定待识别视频图像的图像类型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

利用人体姿态模型的前置网络层对待识别视频图像进行特征提取，得到待识别视频图像对应的特征图；利用人体姿态模型的置信度网络层从特征图中提取所述待识别视频图像中人体的人体关键点，得到待识别视频图像中人体关键点对应的关键点置信图；利用人体姿态模型的关联度向量网络层从特征图中提取待识别视频图像中各所述人体关键点的关联度；根据关键点置信图和人体关键点的关联度确定待识别视频图像的人物位置信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据人体关键点的关联度，将关键点置信图上的人体关键点进行连接，并计算得到关键点轮廓；根据关键点轮廓获取外接最小矩形，外接最小矩形为包括所述关键点轮廓的面积最小的矩形；根据外接最小矩形确定待识别视频图像中的人物位置信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

生成与人物位置信息对应的视频信息；将视频信息写入对应的日志中。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取监控设备的历史监控视频；从历史监控视频中提取彩色图像样本和夜视图像样本，并对彩色图像样本中的人体进行人体关键点的标注，以及对夜视图像样本中的人体进行位置坐标的标注，得到标注彩色图像和标注夜视图像；分别将标注彩色图像和标注夜视图像进行尺寸调整，得到训练彩色图像和训练夜视图像；将训练彩色图像中的人体关键点与标注彩色图像中标注的人体关键点进行映射，利用映射后的训练彩色图像对所述人体姿态模型进行训练；将训练夜视图像中的位置坐标与标注夜视图像中标注的位置坐标进行映射，利用映射后的训练夜视图像对轻量级目标检测模型进行训练。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待识别监控视频文件，并对待识别监控视频文件进行预处理，获得待识别视频图像；

确定待识别视频图像的图像类型；

在图像类型为夜视图像时，通过训练获得的轻量级目标检测模型，识别出待识别视频图像中的人物位置信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

生成与人物位置信息对应的视频信息；将视频信息写入对应的日志中。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：石磊;王健宗
技术所有人：平安科技(深圳)有限公司
我是此专利的发明人

上一篇：一种基于深度学习的植物病虫害识别方法及系统与流程
上一篇：一种充电唤醒系统及其控制方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。