训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序的制作方法

文档序号：9818436阅读：235来源：国知局

训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序的制作方法
【技术领域】
[0001]本发明涉及用于生成训练数据的训练数据生成设备、训练数据生成方法和训练数据生成程序以及用于识别图像中的人群的状态的人群状态识别设备、人群状态识别方法和人群状态识别程序。
【背景技术】
[0002]提出了用于识别图像中的人群的状态(其在下面将被表示为人群状态)的各种技术(见PTL I至PTL 3)0
[0003]在PTLI中描述的人行为确定设备从视频提取改变的区域，并且根据该改变的区域来计算特征量，在改变的区域中由于背景差分等而造成差异。人行为确定设备然后通过使用对特征量进行机器学习的人鉴别器来确定改变的区域是否是人区域，从而检测人区域。另外，人行为确定设备考虑到距离或者颜色直方图而在帧之间关联检测到的人区域，并且在预定数目的帧上跟踪人区域。人行为确定设备然后根据通过跟踪获取的人轨迹来计算诸如平均速度、跟踪时间和运动方向之类的人轨迹的特征量，并且基于人轨迹的特征量来确定人行为。
[0004]在PTL2中描述的人头数计数设备根据拍摄视频中的人群的视频对人的数目进行计数。人头数计数设备基于头部模型来提取图像中包括的人的头部。人头数计数设备然后通过使用诸如位置信息或颜色分布之类的特征量在帧之间将被确定为同一人的头部位置链接，并且根据链接结果(人跟踪结果)对人的数目进行计数。
[0005]在PTL3中描述的系统检测诸如稳定(例如，人的主流)/不稳定(例如，与主流相对)之类的状态。系统聚集作为确定单元的确定块的光流属性，并且计算用于评估光流的稳定程度的评估值。系统然后根据评估值来确定确定块的状态。
[0006]引用列表
[0007]专利文献
[0008]PTL 1:日本专利申请特开第2011-100175号(0028至0030段)
[0009]PTL 2:日本专利申请特开第2010-198566号(0046至0051段)
[0010]PTL 3:日本专利申请特开第2012-22370号(0009段)

【发明内容】

[0011]技术问题
[0012]对于在PTLI至PTL 3中描述的技术，确定性能对于低帧速率的视频降低。特别地，对于在PTL I至PTL3中描述的技术，针对静止图像无法确定图像中的人群状态。
[0013]这是因为在PTLI至PTL 3中描述的技术使用视频中的每个帧并且状态确定性能依赖于帧之间的间隔。例如，利用在PTL I中描述的技术，人区域在帧之间被关联从而获取人轨迹。另外，利用在PTL 2中描述的技术，头部位置在帧之间被链接并且其结果被假定为人跟踪结果。当这种轨迹或者跟踪结果被获取时，人区域或者头部位置需要在帧之间关联。此时，人的运动量在低帧速率处更大，并且因此人区域或头部位置的变化或者形状(姿势)的变化增大。另外，由于照明的干扰等产生的影响也增大。因此，人区域或头部位置难以在帧之间关联。结果，人轨迹等的精度降低并且确定图像中的人群状态的精度降低。另外，同样利用在PTL 3中描述的技术，难以正确地找到低帧速率的光流，并且结果聚集的属性的精度降低并且状态确定性能降低。
[0014]例如，假定一种使用具有学习的字典的鉴别器以便识别图像中的人群状态的方法。字典通过诸如指示人群状态的图像之类的训练数据而被学习。然而，用于学习字典的大量训练数据(学习数据)需要被收集。例如，人的布置(人之间的重叠或者人位置的偏差)、人的方向和密度(每单位区域的人)在各种状态下需要被定义，并且其中拍摄人的角度、背景、照明、衣服或姿势等在每一种状态下被不同地改变的大量图像需要被收集。机器学习通过使用图像而被执行以使得鉴别器的字典被获取。然而，用于收集训练数据的工作负荷在收集大量此类训练数据时增大。
[0015]因此，本发明的一个目的是提供一种能够容易地生成用于对用于识别人群状态的鉴别器的字典进行机器学习的大量训练数据的训练数据生成设备、训练数据生成方法和训练数据生成程序。
[0016]本发明的另一目的是提供一种无论帧速率如何都能够优选地识别图像中的人群状态的人群状态识别设备、人群状态识别方法和人群状态识别程序。
[0017]对问题的解决方案
[0018]根据本发明的一种训练数据生成设备包括:背景提取装置，用于从多个预先准备的背景图像选择背景图像，提取该背景图像中的区域，并且将对应于提取的区域的图像放大或者缩小为预定尺寸的图像;人状态确定装置，用于根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态；以及人群状态图像合成装置，用于生成人群状态图像、指定用于该人群状态图像的训练标签以及输出人群状态图像和训练标签的配对，人群状态图像是其中与由人状态确定装置所确定的人状态相对应的人图像被与由背景提取装置获取的预定尺寸的图像合成的图像。
[0019]另外，根据本发明的一种人群状态识别设备包括:矩形区域组存储装置，用于存储指示图像上将针对人群状态而被识别的部分的一组矩形区域;人群状态识别字典存储装置，用于存储通过利用人群状态图像和用于人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典，人群状态图像是以预定尺寸表达人群状态并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像;以及人群状态识别装置，用于从给定图像提取在矩形区域组存储装置中存储的该一组矩形区域中指示的区域，并且基于字典来识别在提取的图像中拍摄的人群的状态。
[0020]另外，根据本发明的一种训练数据生成方法包括:背景提取步骤，从多个预先准备的背景图像选择背景图像、提取该背景图像中的区域并且将对应于提取的区域的图像放大或者缩小为预定尺寸的图像;人状态确定步骤，根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态；以及人群状态图像合成步骤，生成人群状态图像、指定用于该人群状态图像的训练标签以及输出人群状态图像和训练标签的配对，人群状态图像是其中与在人状态确定步骤中确定的人状态对应的人图像被与在背景提取步骤中获取的预定尺寸的图像合成的图像。
[0021]另外，在根据本发明的一种人群状态识别方法中，矩形区域组存储装置存储指示图像上将针对人群状态而被识别的部分的一组矩形区域，并且人群状态识别字典存储装置存储通过利用人群状态图像和用于人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典，人群状态图像是以预定尺寸表达人群状态并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像，该方法包括人群状态识别步骤，从给定图像提取在矩形区域组存储装置中存储的该一组矩形区域中指示的区域并且基于字典来识别在提取的图像中拍摄的人群的状态。
[0022]另外，根据本发明的一种训练数据生成程序使得计算机执行:背景提取处理，从多个预先准备的背景图像选择背景图像、提取该背景图像中的区域并且将对应于提取的区域的图像放大或者缩小为预定尺寸的图像;人状态确定处理，根据作为关于多人的人状态的指明信息的多人状态控制指明和作为关于多人中的个别人的状态的指明信息的个别人状态控制指明来确定人群的人状态；以及人群状态图像合成处理，生成人群状态图像、指定用于该人群状态图像的训练标签以及输出人群状态图像和训练标签的配对，人群状态图像是其中与在人状态确定处理中确定的人状态对应的人图像被与在背景提取处理中获取的预定尺寸的图像合成的图像。
[0023]另外，根据本发明的一种人群状态识别程序使得包括矩形区域组存储装置和人群状态识别字典存储装置的计算机执行:人群状态识别处理，从给定图像提取在矩形区域组存储装置中存储的该一组矩形区域中指示的区域并且基于字典来识别在提取的图像中拍摄的人群的状态，矩形区域组存储装置用于存储指示图像上将针对人群状态而被识别的部分的一组矩形区域，并且人群状态识别字典存储装置用于存储通过利用人群状态图像和用于人群状态图像的训练标签的多个配对进行机器学习而获取的鉴别器的字典，人群状态图像是以预定尺寸表达人群状态并且包括其基准部位被表达为与针对预定尺寸定义的人的基准部位的尺寸一样大的人的图像。
[0024]发明的有利效果
[0025]利用根据本发明的训练数据生成设备、训练数据生成方法和训练数据生成程序，可以容易地生成用对用于识别人群状态的鉴别器的字典进行于机器学习的大量训练数据。
[0026]利用根据本发明的人群状态识别设备、人群状态识别方法和人群状态识别程序，可以无论帧速率如何都优选地识别图像中的人群状态。
【附图说明】
[0027][图1]其描绘了图示了根据本发明的训练数据生成设备的示例性结构的框图。
[0028][图2]其描绘了图示了在人群状态控制指明存储装置中存储的示例性信息的示意图。
[0029][图3]其描绘了图示了在人状态控制指明存储装置中存储的示例性信息的示意图。
[0030][图4]其描绘了通过示例图示了在人图像存储装置中存储的人图像和对应于人图像的人区域图像的示图。
[0031][图5]其描绘了图示了满足背景人状态的条件的示例的示意图。
[0032][图6]其描绘了图示了满足前景人状态的条件的示例的示意图。
[0033][图7]其描绘了图示了根据本发明的人群状态识别设备的示例性结构的框图。
[0034][图8]其描绘了通过示例图示了如何识别拥挤程度(人的数目)的示意图。
[0035][图9]其描绘了通过示例图示了如何识别人群的方向的示意图。
[0036][图10]其描绘了通过示例图示了如何识别非异常人群或异常人群的示意图。
[0037][图11]其描绘了通过示例图示了如何识别无序状态或有序状态的示意图。
[0038][图12]其描绘了图示了训练数据生成设备的示例性处理进展的流程图。
[0039][图13]其描绘了图示了步骤SI的示例性处理进展的流程图。
[0040][图14]其描绘了图示了步骤S2的示例性处理进展的流程图。
[0041][图15]其描绘了图示了步骤S3的示例性处理进展的流程图。
[0042][图16]其描绘了图示了步骤S4的示例性处理进展的流程图。
[0043][图17]其描绘了图示了人群状态识别设备的示例性处理进展的流程图。
[0044][图18]其描绘了通过示例图示了根据本发明的训练数据生成设备的具体结构的框图。
[0045][图19]其描绘了通过示例图示了根据本发明的人群状态识别设备的具体结构的框图。
[0046][图20]其描绘了图示了根据本发明的训练数据生成设备中的主要部分的框图。
[0047][图21]其描绘了图示了根据本发明的人群状态识别设备中的主要部分的框图。
【具体实施方式】
[0048]下面将参考附图来描述根据本发明的示例性实施例。
[0049]图1是图示了根据本发明的训练数据生成设备的示例性结构的框图。根据本发明的训练数据生成设备10生成用于对图像中的人群状态进行机器学习的训练数据。具体而言，训练数据生成设备10创建多对人群状态的局部图像和对应于局部图像的训练标签。在这里，“局部”指示比针对人群状态将被识别出的图像(通过下面描述的图像获取设备3(参见图7)获取的图像)的区域更小。然后，人群状态的局部图像表示在这种区域中配置人群的人的基本部位(其在下面将被表示为基准部位)的集合。根据本示例性实施例，将在假定头部被用作基准部位的情况下进行描述，但是除头部之外的其他部分可以被用作基准部位。人群状态的局部图像将被表示为人群补丁。人群补丁可以在其中指示除基准部位(本示例中的头部)之外的人的部位。
[0050]训练数据生成设备10包括在程序控制下工作的数据处理设备I，以及用于将信息存储在其中的存储设备2。
[0051]存储设备2包括背景图像存储装置21、学习局部图像信息存储装置22、人群状态控制指明存储装置23、人状态控制指明存储装置24、人图像存储装置25和人区域图像存储装置26。
[0052]背景图像存储装置21存储被用作人群补丁中的背景的多个背景图像(一组背景图像)。背景图像不包括人。将针对人群状态而被识别的图像被拍摄处的实际地方的图像可以被用作背景图像。通过使用CG(计算机图形学)等生成的背景图像可以被使用。
[0053]学习局部图像信息存储装置22存储人群补丁(用于机器学习的人群状态的局部图像)的尺寸，以及用于人群补丁的人的基准部位的尺寸。例如，人群补丁的尺寸被假定为高度是h个像素并且宽度是w个像素。构成人群补丁中的人群镜头的人的基准部位(本示例中的头部)的高度尺寸被假定为人群补丁的高度尺寸的l/α或是h/α个像素。在这种情况下，高度h个像素和宽度w个像素在学习局部图像信息存储装置22中被存储为人群补丁的尺寸。高度h/α个像素在学习局部图像信息存储装置22中被存储为人的基准部位的尺寸。在这里假定其中高度尺寸被存储为基准部位的尺寸的示例，但是将被存储的基准部位的尺寸不限于高度尺寸。例如，假定人的基准部位的宽度尺寸被定义为人群补丁的宽度尺寸的l/α倍或是个w/α像素。在这种情况下，高度h个像素和宽度w个像素在学习局部图像信息存储装置22中被存储为人群补丁的尺寸，并且宽度w/α个像素在学习局部图像信息存储装置22中可以被存储为人的基准部位的尺寸。在实际使用中，人的基准部位的尺寸可以运用高度尺寸或是宽度尺寸。在人群补丁的尺寸与人的基准部位的尺寸之间的关系是仅需已知的，并且对角线尺寸等可以被使用。
[0054]在这里，人的基准部位的尺寸是用来将其基准部位被拍摄为与人群补丁中的尺寸一样大的人识别为人类的尺寸。例如，当人的基准部位被拍摄为在人群补丁中显著大或者被拍摄为显著小时，该人构成人群但是只是被看作背景。
[0055]人群状态控制指明存储装置23存储在合成人群补丁中的多个人图像时关于用于多人的人状态(其在下面将被表示为多人状态控制指明)的指明信息。多人状态控制指明先前由训练数据生成设备10的操作者定义并且被存储在人群状态控制指明存储装置23中。多人状态控制指明按照项目而被定义，这些项目诸如是针对在合成多个人图像时诸如重叠的人或者位置偏差之类的多人布置关系的项目“人的布置”、关于人的朝向的项目“人的方向”或是针对人的数目或者说密度的项目“人的数目”。具有定义的多人状态控制指明的项目不限于此。图2是图示了在人群状态控制指明存储装置23中存储的示例性信息的示意图。图2图示了针对“人的布置”、“人的方向”和“人的数目”定义的多人状态控制指明。
[0056]多人状态控制指明的形式包括“预定状态”、“随机”和“预定规则”。
[0057]“预定状态”是用来指明对应项目的特定状态的指明形式。在图2中示出的示例中，针对项目“人的数目”定义的“三个人”对应于“预定状态” ο在该示例中，“人的数目”被具体指明为“三个人”。作为“预定状态”的其他示例，例如，可以针对项目“人的方向”指明“所有人在右方向上”。
[0058]“随机”表明可以针对对应项目任意定义状态。在图2中示出的示例中，针对“人的布置”和“人的方向”定义了多人状态控制指明“随机”。
[0059]“预定规则”是表明可以在满足操作者指定的规则的范围内定义对应项目的状态的指定形式。例如，当针对项目“人的布置”定义了规则“人按照50 %重叠被布置”时，人的布置被指明为至少定义满足该规则的人的状态。例如，当针对“人的方向”定义了规则“相对于人群补丁的中心布置在右侧的人面朝右并且相对于中心布置在左侧的人面朝左”时，人的方向被指明为至少定义满足规则的人的状态。
[0060]人群状态控制指明存储装置23按照项目来存储指定训练标签的存在。在图2中示出的示例中，“〇”指示关于指明训练标签的存在的信息并且“X”指示关于指明训练标签的空缺的信息。这一点在稍后描述的图3中是相同的。
[0061]操作者利用从具有定义的多人状态控制指明的项目之中选择具有指明的训练标签的一个或多个项目。另外，操作者无论项目是否将被指明以训练标签都定义每一个项目的多人状态控制指明。在图2中示出的示例中，针对没有指明的训练标签的项目“人的布置”和“人的方向”定义了多人状态控制指明(在这一示例中是随机的指示)。操作者将一种形式的多人状态控制指明假定为具有指明的训练标签的项目的“预定状态”。在图2中示出的示例中，针对具有指明的训练标签的项目“人的数目”指明了 “三个人”的特定状态。人群状态控制指明存储装置23在其中存储多人状态控制指明和由操作者按照项目定义的指明的训练标签的存在。
[0062]图2通过示例图示了项目“人的布置”、“人的方向”和“人的数目”，但是操作者为其定义了多人状态控制指明和指明的训练标签的存在的项目不限于此。根据本示例性实施例，将在假定人群状态控制指明存储装置23在其中存储多人状态控制指明和操作者至少为项目“人的布置”、“人的方向”和“人的数目”定义的指明的训练标签的存在的情况下进行描述。
[0063]

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：池田浩雄;
技术所有人：日本电气株式会社;
我是此专利的发明人

上一篇：用于自动可变形配准的方法和系统的制作方法
上一篇：牙本质小管的图像处理的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。