人群视频图像中行人图像属性的精确标注方法及系统与流程

文档序号：17624288发布日期：2019-05-10 23:29阅读：556来源：国知局

本发明涉及图像处理技术，具体为人群视频图像中行人图像属性的精确标注方法及系统。

背景技术：

行人图像属性主要包括性别、年龄、是否戴眼镜、随身携带物品(比如背包、挎包、手提包、行李箱、打伞等)类型和颜色、衣着颜色和样式等。随着大数据、云计算技术的发展，行人图像属性识别技术广泛应用于视频图像结构化检索、大数据分析、视频治安防控、图侦破案等。因此，对行人图像属性的资源和结构化描述信息的需求是海量的。目前，对视频图像的行人图像属性的识别多采用机器学习的方法，需要先进行大量的、精确的行人图像属性标注，生成训练样本数据用于模型的训练和优化。

随着大数据、深度学习技术的发展，多目标行人图像属性识别的技术也逐渐转向深度学习。深度学习的网络模型训练需要大量、高质量的行人图像属性标注数据，而这些属性标注数据目前大多采用人工手动标注。人工手动标注数据存在以下的缺点：

1)标注工作量大、效率低，特别是针对视频的行人图像属性标注，如果每一帧图像都采用人工手动标注，需要标注的数据更是海量；

2)采用人工标注的行人图像属性存在一定的主观性、不一致性，特别是标注出的行人位置框、特征点位置信息存在较大的偏差；

3)针对视频图像中的人群，由于行人间存在相互遮挡、相互重叠，人工标注行人位置框、特征点位置的精度更是存在不足。

技术实现要素：

为解决现有技术所存在的技术问题，本发明提供人群视频图像中行人图像属性的精确标注方法，该方法先粗略确定行人的位置信息，再采用基于深度学习的图像语义分割算法分割出行人目标，完成行人目标位置的精确标注，再进行目标的跟踪处理得到行人目标的id号，根据id号对行人目标进行图像属性的标注，有效地解决了视频图像中人群的行人图像属性标注精度不足、逐帧视频标注工作量大的问题。

本发明还提供人群视频图像中行人图像属性的精确标注系统。

本发明的精确标注方法采用以下技术方案来实现：人群视频图像中行人图像属性的精确标注方法，包括以下步骤：

s1、对视频数据的每一帧图像进行行人目标定位，得到行人粗略位置和相应的置信度信息，利用行人目标的位置信息、行人目标位置结果置信度和行人目标的唯一性标识号表示行人目标的检测位置信息；

s2、根据行人目标位置结果置信度，进行行人位置的向外扩展，得到行人目标的扩大位置信息；

s3、利用基于深度学习的语义分割模型，对向外扩展后得到的行人位置区域进行图像分割，得到行人目标与背景的各分割目标图像层；

s4、根据行人目标的位置信息，以行人目标的扩大位置的最大值为中心位置，行人位置宽高的λ倍为宽高确定行人目标区域搜索窗口，并统计搜索窗口内各分割目标图像层的像素个数总和，则像素个数总和最大的分割目标图像层确定为行人目标图像层；

s5、根据行人目标图像层，确定行人目标区域的最小矩形框，完成行人位置框的精确定位，得到行人目标的精确位置。

优选地，步骤s2进行行人位置的向外扩展时，行人位置的扩大数值根据行人目标位置结果置信度进行计算；行人目标位置结果置信度越大，行人位置的扩大数值就越小。行人位置的扩大数值δx、δy的取值范围分别在和δx、δy的计算公式如下：

其中行人目标位置结果置信度confi∈(0.5,1)。

优选地，步骤s3采用racsis语义分割方法，把行人位置扩展后的图片区域作为输入，通过改进空间维度上的金字塔空洞池化结构的方法，得到行人目标与背景的各分割目标图像层。

本发明精确标注系统采用如下技术方案实现：人群视频图像中行人图像属性的精确标注系统，包括：

行人目标的位置信息检测模块，对视频数据的每一帧图像进行行人目标定位，得到行人粗略位置和相应的置信度信息，利用行人目标的位置信息、行人目标位置结果置信度和行人目标的唯一性标识号表示行人目标的检测位置信息；

行人位置扩展模块，根据行人目标位置结果置信度，进行行人位置的向外扩展，得到行人目标的扩大位置信息；

行人目标与背景的图像层分割模块，利用基于深度学习的语义分割模型，对向外扩展后得到的行人位置区域进行图像分割，得到行人目标与背景的各分割目标图像层；

行人目标图像层的确定模块，根据行人目标的位置信息，以行人目标的扩大位置的最大值为中心位置，行人位置宽高的λ倍为宽高确定行人目标区域搜索窗口，并统计搜索窗口内各分割目标图像层的像素个数总和，则像素个数总和最大的分割目标图像层确定为行人目标图像层；

行人目标的精确位置定位模块，根据行人目标图像层，确定行人目标区域的最小矩形框，完成行人位置框的精确定位，得到行人目标的精确位置。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明通过基于深度学习的目标检测算法先粗略确定行人的位置信息，再采用基于深度学习的图像语义分割算法分割出行人目标，从而完成行人目标位置的精确标注，然后再进行目标的跟踪处理，得到行人目标的id号，最后通过对同一id号的行人目标进行图像属性的标注，即可完成同一行人目标的所有视频帧图像属性标注，从而提高人工手动标注视频图像的效率和质量，有效地解决视频图像中人群的行人图像属性标注精度不足、逐帧视频标注工作量大的问题。

2、本发明在视频标注前，采用深度学习目标检测算法对每一帧图像进行行人目标定位，得到行人粗略位置和相应的置信度信息，并对该帧图像的每个行人目标采用唯一性id标识进行标示，准确度高。

3、根据行人位置结果的置信度，通过区域扩展算法将行人位置向外扩展，以确保行人位置框所在图像区域包含人体的所有部位，从而使后续利用语义分割模型进行行人位置区域的图像分割时，具有较高的准确性。

附图说明

图1是本发明的流程图；

图2是分割图层及搜索窗口的确定示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1，本发明提出了人群视频图像中行人图像属性的精确标注方法，主要包括以下步骤：

步骤1：开发一款图形界面的辅助标注软件工具，导入视频数据，获取视频帧序列，准备进行标注。

步骤2：采用深度学习目标检测算法对视频数据的每一帧图像进行行人目标定位，得到行人粗略位置和相应的置信度信息，并对该帧图像的每个行人目标采用唯一性id标识进行标示，利用行人目标的位置信息、行人目标位置结果置信度和行人目标的唯一性标识号对行人目标的检测位置信息表示为：

pi＝(xi,yi,wi,hi,confi,idi)

其中xi、yi、wi、hi为行人目标的位置信息，confi为行人目标位置结果的置信度，idi为行人目标的唯一性标识号，i为视频帧序号。

步骤3：为确保行人位置框包含行人身体各部位，根据步骤2得到的行人目标位置结果置信度，进行行人位置的向外扩展，得到行人目标的扩大位置信息为：

p'i＝(xi-δx,yi-δy,wi+2*δx,hi+2*δy,confi,idi)

其中δx、δy为行人位置的扩大数值，可根据置信度confi进行计算，扩大数值的取值范围分别在和一般地，置信度confi的值越大，需要扩大的行人位置值δx、δy则越小，为了反映δx、δy与置信度confi的上述映射关系，特设计δx、δy的计算公式如下：

其中confi∈(0.5,1)。

步骤4：利用基于深度学习的语义分割模型，对向外扩展后得到的行人位置(xi-δx,yi-δy,wi+2*δx,hi+2*δy)区域进行图像分割，具体为采用racsis(rethinkingatrousconvolutionforsemanticimagesegmentation)等语义分割方法，把行人位置扩展后的图片区域作为输入，通过改进空间维度上的金字塔空洞池化(atrousspatialpyramidpooling，aspp)结构的方法，得到行人目标与背景的各分割目标图像层。

racsis(rethinkingatrousconvolutionforsemanticimagesegmentation)语义分割是一种深度卷积神经网络(cnn)的方法，该方法通过设计一种深度神经网络模型，首先采用残差网络resnet-50或残差网络resnet-101模型进行特征映射(featuremapping)，然后通过金字塔空洞池化(atrousspatialpyramidpooling，aspp)和图像池化(imageprooling)来改善残差网络resne模型，最后通过1x1的卷积完成图像重构与分割映射(segmentationmapping)，得到行人目标与其他背景的分割目标图像层，如图2所示。

步骤5：根据步骤2得到行人目标的pi＝(xi,yi,wi,hi,confi,idi)位置信息，以扩大位置的最大值为中心位置、行人位置宽高的λ倍为宽高(即和)确定行人目标区域搜索窗口0.2﹤λ﹤0.6，一般取λ＝0.3，并统计搜索窗口内各分割目标图像层的像素个数总和，则像素个数总和最大的分割目标图像层确定为行人目标图像层。

搜索窗口的确定示意如图2所示，其中21为检测位置(xi，yi，wi，hi)，22为扩大位置(xi-δx，yi-δy，wi+2*δx，hi+2*δy)，23为搜索窗口24为行人精确位置(x0i,y0i,w0i,h0i)。

行人目标图像层的确定及各分割目标图像层的像素个数统计方法如下：

1)以中心位置为起始点，标记该起始点所在的图像层为第一图层，并记录起始点的像素值为(r1,g1,b1)，像素和为1，记为sum(ri,gi,bi)＝1(i＝1)，i为图层标记号；

2)采用回字形的搜索路径，分别取右、右下、下、左下、左、左上、上、右上各8个邻域点的像素值与起始点的像素值进行比较，相同则跟随起始点，并标记相应的邻域点所在的图像层为第一图层，像素和sum(ri,gi,bi)(i＝1)加1，否则标记相应的邻域点所在的图像层为新的图层，图层标记号为i+1，像素和sum(ri+1,gi+1,bi+1)加1；

3)继续按上述步骤2)在确定好的搜索窗口进行搜索，分别统计得到各图层的像素和sum(ri,gi,bi)，i＝1，2,...,n,直到遍历完搜索窗口的所有像素点；

4)根据统计步骤3)得到的各图层的像素和sum(ri,gi,bi)，取像素和summax(ri',gi',bi')值最大的图层标记为i',并判断为行人目标图像层，像素值置为255，其他的图层则判断为背景图像层，像素值置0。

步骤6：根据上述步骤5确定的行人目标图像层，则可确定包含像素值为255行人目标区域的最小矩形框，完成行人位置框的精确定位，得到行人目标的精确位置(x0i,y0i,w0i,h0i)为：

p0'i＝(x0i,y0i,w0i,h0i,confi,idi)

行人目标区域的最小矩形框的确定方法如下：

1)在上述步骤5确定的行人目标图像层区域窗口，以(0，0)为位置(x,y)的起始点，按宽、高分别递增的方法进行遍历搜索；

2)最小矩形框的位置记为(xmin,ymin,xmax,ymax)，当遍历搜索像素值为255的位置(x,y)时，分别记录矩形框上、下、左、右4边框的最小、最大值，直到完成图像的遍历搜索，得到的最小矩形框位置(xmin,ymin,xmax,ymax)即为行人目标的精确位置(x0i,y0i,w0i,h0i),其中x0i＝xmin,y0i＝ymin,w0i＝xmin-xmin,h0i＝ymax-ymin。

步骤7：对于第i+1帧图像，重复步骤2-6得到行人目标的精确位置信息，并对第i帧图像得到的行人目标进行跟踪处理，以确定第i+1帧图像的行人目标精确位置和唯一性标识号信息：

p0'i+1＝(x0i+1,y0i+1,w0i+1,h0i+1,confi+1,idi+1)

其中xi+1、yi+1、wi+1、hi+1为行人目标的位置信息，confi+1为行人目标位置结果的置信度，idi+1为行人目标的唯一性标识号，i+1为视频帧序号。

行人目标跟踪处理的详细步骤如下：

1)对第i+1检测出的每一个行人目标框(xi+1,yi+1,wi+1,hi+1)j，计算与上一帧i检测出的每一个行人目标框(xi,yi,wi,hi)j'的交叠率ioujj'(intersection-over-union)：

并记录其最大的ioumax和相应的行人目标id号idi。

2)当ioumax大于一定的阈值时，则当前帧i+1检测出行人目标的id号跟随上一帧i行人目标的idi号，ioujj'匹配成功，否则对该行人目标的id号赋予新的值。

3)对上一帧i未ioujj'匹配成功的行人目标进行基于特征的跟踪处理，若跟踪成功，则得到跟踪结果目标框和对应的行人目标id号；若跟踪失败，则直接转到步骤9。

步骤8：对每个id号的行人目标进行图像属性标注，根据视频帧之间的关联性和行人图像属性在视频时间段内的不变性，即可完成同一行人目标的所有视频帧图像属性标注。

步骤9：对上述步骤标注的行人位置和行人目标id号信息进行人工确认和修正，并对漏标注的行人目标进行位置粗标注，再重复步骤3-8，完成行人图像属性的视频标注。

在本实施例中，人群视频图像中行人图像属性的精确标注系统用于实现上述精确标注方法，所包括的各主要模块分别如下：

行人位置扩展模块，根据行人目标位置结果置信度，进行行人位置的向外扩展，得到行人目标的扩大位置信息；

行人目标的精确位置定位模块，根据行人目标图像层，确定行人目标区域的最小矩形框，完成行人位置框的精确定位，得到行人目标的精确位置。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘新生;梁添才;金晓峰;赵清利;徐天适
技术所有人：广州广电银通金融电子科技有限公司;广州广电运通金融电子股份有限公司
我是此专利的发明人

上一篇：一种半枫荷采穗圃的营建方法与流程
上一篇：一种冷棚反季节枸杞苗木培育方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。