一种基于循环生成式对抗网络的行人图像生成方法及系统与流程

文档序号：14871844发布日期：2018-07-07 00:41阅读：177来源：国知局

本发明涉及图像识别技术领域，尤其是涉及一种基于生成式对抗网络的行人图像生成方法及系统。

背景技术：

近年来，随着人们对社会的公共安全越来越关注，视频监控系统大量普及。诸如机场、火车站、校园和办公大楼等公众场所，都亟需监控，为安防保驾护航。面对海量的监控视频数据，大量的人力需要投入到视频信息的监控与检索中去，这种方式的效率不仅低，还造成了额外资源浪费。如果能够利用计算机视觉分析技术，自动化监控及分析视频信息，必然可以极大地加快“平安城市”的建设。

行人再识别是计算机视觉的研究中关键的任务。一般来说，给定关于行人的一张图片或者一段视频，行人再识别就是在其它不重合拍摄场景下的图片或者视频中，将同一个人识别出来的过程。尽管相关的研究越来越受到重视，行人再识别的准确率也已经提高了不少，但仍有许多困难需要解决。由于待识别的行人图片与原图片拍摄于不同的相机，设备的差异会给成像条件带来误差；不同的场景下的环境不一，对采集的数据也会产生不同的偏差；且光照的改变会使得同一种颜色的表现不同；更重要的是，行人在摄像头下的姿态变化以及遮挡问题，都使得对同一个人的辨别难度相当大。

行人再识别中，背景、光照、摄像机参数等因素变化往往导致可用的标注数据集与目标应用场景数据之间存在较大差异。直接使用此类标注数据训练得到的模型在不同类型的应用场景中性能较差。

技术实现要素：

为解决以上问题，本发明显式地利用生成式模型对已标注的行人图像数据进行迁移，使得迁移后的数据符合目标应用场景中的数据特点，从而使迁移后的数据可以更有效的应用于目标场景中的模型训练任务。

根据本发明的一个方面，提供了一种基于循环生成式对抗网络的行人图像生成方法，包括如下步骤：

迁移函数学习，生成人物迁移生成式对抗网络；

基于所述人物迁移生成式对抗网络，完成所述行人图像中的人物迁移，将一个数据库中的行人图像迁移到另一个数据库中，生成新的行人图像。

优选的，所述迁移函数包括风格损失和身份损失。

优选的，所述人物迁移生成式对抗网络的目标函数为：

其中，表示风格损失，表示身份损失，λ1表示两种损失之间的交换系数。

优选的，所述风格损失为：

其中，表示标准对抗损失，表示循环一致性损失，g表示从数据集a到b的风格映射函数，而表示从数据集b到a的风格映射函数，da和db分别表示a和b的风格鉴别器，λ2表示交换系数。

优选的，所述风格鉴别器da、db分别由数据集a、b内的未标签人物图像训练得到。

优选的，所述身份损失为：

其中，g(a)表示从图像a中迁移到数据集b的人物图像，表示从图像b中迁移到数据集a的人物图像，m(a)表示图像a的前景模板，m(b)表示图像b的前景模板，表示从数据集a中采样出的图像a的数学期望，表示从数据集b中采样出的图像b的数学期望。

优选的，采用金字塔场景解析网络提取所述前景模板。

根据本发明的另一个方面，还提供了一种基于循环生成式对抗网络的行人图像生成系统，包括顺序连接的如下模块：

网络生成模块，用于学习迁移函数，生成人物迁移生成式对抗网络；

迁移模块，基于所述人物迁移生成式对抗网络，完成所述行人图像中的人物迁移，将一个数据库中的行人图像迁移到另一个数据库中，生成新的行人图像。

与传统方法相比，本发明在众多行人再识别公共数据集上取得了很好的迁移效果，可以在无需额外数据标注的前提下，在目标应用场景中训练鲁棒的行人再识别模型，并获得较高的准确性。基于本发明构造的行人再识别系统能够有效地降低在新场景下的标注工作量，同时有较高的识别准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明基于循环生成式对抗网络的行人图像生成方法的流程图；

图2-4为本发明的方法应用于cuhk03、market、duke三种图片数据库时的准确率，下标c，ma和d表示迁移目标数据库是cuhk03、market、duke；

图5为本发明基于循环生成式对抗网络的行人图像生成系统的结构图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施方式。虽然附图中显示了本发明的示例性实施方式，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明提出了一种全新的生成式对抗网络模型用于行人图像迁移，使得迁移后图像在背景、光照和成像等特点上更接近于在目标场景中拍摄的行人图像，同时可以保证迁移后的行人图像前景信息稳定。

为了更好地将数据库a中的训练模型应用到数据库b中以完成行人再识别，本发明提出通过将a中的人物图像迁移到b中以弥合两者的差别。原因是，不同的数据库图像具有明显的不同区别特性，例如其背景、光照和成像等。因此，如果数据库a中的人物被数据库b对应的摄像头捕捉到，那么该人物的图像风格将会与b的风格保持一致。本发明的人物迁移模拟了上述过程，学习了迁移功能，以确保迁移的人物图像与目标数据库具有相同风格，并且在迁移过程中保持了人物的形状和身份属性不变。

迁移人物图像的任务看似简单，例如可以通过将a的前景中的人物切割并粘贴在b的背景上。但是，处理基于规则的算法中的区域差别还是较为困难的。再者，b中的风格变化可能会非常复杂，例如b中的两个摄像头可能会具有不同的背景、光照。

本发明基于普适性的生成式对抗网络模型(generativeadversarialnetworks，gan)，该模型已经被证明在产生预期图像采样中很有效。因此本发明设计了一种人物迁移生成式对抗网络(persontransfergan，ptgan)来将人物从a迁移到b。本发明的ptgan满足两个约束条件，即风格迁移和人物身份保持。风格迁移的目标是学习不同人物数据库之间的风格映射函数。人物身份保持的目标是确保一个人物的身份在风格迁移后保持不变。由于一个人物的不同迁移样本被视为具有相同的人物身份，所以对于人物身份的约束在人物再识别训练中非常重要。

作为本发明的重点发明构思之一，本发明中，ptgan的损失函数如下：

其中，表示风格损失，表示身份损失，λ1表示两种损失之间的交换系数。

人物再识别数据库不包含成对的人物图像，例如来自不同数据库的同一人物的图像。因此，风格迁移可以被当作不成对的图像对图像转化任务。由于循环生成式对抗网络在不成对的图像对图像转化任务中具有良好的性能，本发明使用循环生成式对抗网络来学习数据库a和b之间的风格映射函数。假设g表示从a到b的风格映射函数，而表示从b到a的风格映射函数。da和d13分别表示a和b的风格鉴别器。则风格迁移学习的目标函数(风格损失)可以用以下公式(2)来表示：

其中，表示标准对抗损失，表示循环一致性损失，λ2表示交换系数。

仅考虑风格迁移会导致人物图像迁移过程中的人物身份标签模糊，因此本发明还通过计算身份损失来确保迁移数据过程中保持人物身份标签的准确性。人物身份损失的计算过程为：首先获得人物的前景模板，然后计算人物迁移前后的人物前景变化。假设a的数据分布为a～pdata(a)，b的数据分布为b～pdata(b)。则身份损失的目标函数可以用以下公式(3)来表示：

由于在图像分割中的良好性能，本发明采用金字塔场景解析网络(pspnet)来提取人物图像中的前景模板。对于具有移动前景和固定背景的视频监控数据，可以采用更为准确和有效的前景提取算法。由此可以看出，本发明的ptgan方法不需要获得目标数据库b上的人物身份标签。风格鉴别器db可以由b内的未标签人物图像训练。因此，ptgan非常适合现实场景运用，因为新测试区域具有有限或者未标签训练数据。

实施例1

图1为本发明基于循环生成式对抗网络的行人图像生成方法的流程图，包括如下步骤：

s1、迁移函数学习，生成人物迁移生成式对抗网络；所述迁移函数包括风格损失和身份损失。

其中，人物迁移生成式对抗网络的目标函数为：

其中，表示风格损失，表示身份损失，λ1表示两种损失之间的交换系数。

假设g表示从a到b的风格映射函数，而表示从b到a的风格映射函数。da和db分别表示a和b的风格鉴别器。则风格损失可以用以下公式(2)来表示：

其中，表示标准对抗损失，表示循环一致性损失，λ2表示交换系数。

假设a的数据分布为a～pdata(a)，b的数据分布为b～pdata(b)。则身份损失可以用以下公式(3)来表示：

由于在图像分割中的良好性能，本发明采用金字塔场景解析网络(pspnet)来提取人物图像中的模板。风格鉴别器db可以由b内的未标签人物图像训练。风格鉴别器da可以由a内的未标签人物图像训练。

s2、基于所述人物迁移生成式对抗网络，完成所述行人图像中的人物迁移，将一个数据库中的行人图像迁移到另一个数据库中，生成新的行人图像。

表1为用googlenet网络模型在不同训练集上训练，在prid数据集上测试的效果。其中caml/cam2表示prid数据集上摄像机1拍摄的图片作为查询图片，摄像机2拍摄的图片作为数据库待检索图片。cam2/caml反之。＊表示迁移的数据集，例如表示把cuhk03数据集迁移到prid数据集中摄像机1场景下。可以看到，googlenet网络模型在迁移后的数据集上训练得到的性能要远远高于在原始数据集上训练的模型。其中r-1表示返回第一张图片是正确图片的平均准确率，r-10表示返回前十张图片包含正确图片的平均准确率。

表1

表2用googlenet网络模型在不同训练集上训练，在不同数据集上测试的效果。其中下标c，ma和d表示迁移目标数据库是cuhk03、market、duke。可以看到，googlenet网络模型在迁移后的数据集上训练得到的性能要远远高于在原始数据集训练的模型。其中r-1表示返回第一张图片是正确图片的平均准确率，r-10表示返回前十张图片包含正确图片的平均准确率。map表示平均准确率。

表2

表3用googlenet网络模型在不同训练集上训练，在msmt17数据集上测试的效果。其中下标ms表示迁移目标数据库是msmt17。其中1％表示只取msmt17训练集上的百分之一进行训练。可以看到，googlenet网络模型在迁移后的数据与少量标注数据的联合训练集上训练得到的性能要高于在原始数据集与少量标注数据的联合训练集上训练的模型。其中r-1表示返回第一张图片是正确图片的平均准确率，r-10表示返回前十张图片包含正确图片的平均准确率。map表示平均准确率。

表3

如图2-4所示，为本发明的方法应用于cuhk03、market、duke三种图片数据库时的准确率(r-1以及r-10)与现有技术的对比，下标c，ma和d表示迁移目标数据库是cuhk03、market、duke。从这三个图可以看出，本发明在众多行人再识别公共数据集上取得了很好的迁移效果，可以在无需额外数据标注的前提下，在目标应用场景中训练鲁棒的行人再识别模型，并获得较高的准确性。基于本发明构造的行人再识别系统能够有效地降低在新场景下的标注工作量，同时有较高的识别准确率。

如图5所示，根据本发明的另一个方面，还提供了一种基于循环生成式对抗网络的行人图像生成系统100，包括顺序连接的如下模块：

网络生成模块110，用于学习迁移函数，生成人物迁移生成式对抗网络；

迁移模块120，基于所述人物迁移生成式对抗网络，完成所述行人图像中的人物迁移，将一个数据库中的行人图像迁移到另一个数据库中，生成新的行人图像。

本发明可以有效地降低实际系统中行人图像身份标注的工作量，降低系统部署成本、提升效率。该发明能够广泛应用于行人搜索，跨摄像头行人检测等实际系统中，服务于视频监控、安保等领域，提升监控视频数据处理与使用的效率。可用于大型公共场所或者智慧城市的目标人追踪应用，例如寻找丢失儿童、犯罪嫌疑人等。例如，给定一张特定行人的图片，该方法可以在海量监控视频数据中自动寻找和匹配该行人，进而推断出该行人的出行路线和规律等信息。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张史梁;田奇;高文;魏龙辉
技术所有人：北京大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。