多视图目标跟踪方法、装置、系统、电子终端、及存储介质与流程

文档序号：22616723发布日期：2020-10-23 19:17阅读：121来源：国知局

本申请涉及计算机视觉、目标跟踪领域，特别是涉及多视图目标跟踪方法、装置、系统、电子终端、及存储介质。

背景技术：

一般的视觉对象跟踪是大规模计算机视觉任务中的基本问题之一，在这个问题集中，跟踪器用一个边界框跟踪对象，该边界框在初始帧中给出，并在接下来的连续帧中使用。视觉对象跟踪在各种应用场景中起着重要作用，例如自动驾驶系统，光场相机阵列监控、以及体育赛事中的运动员跟踪。而跟踪的关键挑战是如何在遮挡、光照变化、变形、运动模糊等不同情况下准确有效地定位目标。

根据跟踪器和目标的数量，跟踪任务通常分为四类，即单视图单对象跟踪(single-viewsingle-object，svso)、多视图单对象跟踪(multi-viewsingle-object，mvso)、单视图多对象跟踪(single-viewmulti-object，svmo)和多视图多对象跟踪(multi-viewmulti-object，mvmo)。

单视图跟踪通常有一个直观的管道，但容易受到遮挡的影响。大多数现有的多对象跟踪器通常只跟踪一类特定的对象，比如行人、车辆，这些对象还没有扩展到通用对象，没法实现反遮挡的稳健的对象跟踪。

申请内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供多视图目标跟踪方法、装置、系统、电子终端、及存储介质，用于解决现有技术中的问题。

为实现上述目的及其他相关目的，本申请的第一方面提供一种多视图目标跟踪方法，其包括：根据被跟踪目标在历史帧图像中的位置信息和边界框信息，提取当前帧图像的特征图像；对所述特征图像进行滤波处理以获取相应的得分图；根据所述得分图判断当前帧图像是否存在遮挡；其中，在判断所述当前帧图像不存在遮挡的情况下，利用网格搜索法和多尺寸搜索法确定所述被跟踪目标在当前帧图像中的位置信息；在判断所述连续特征图像存在遮挡的情况下，基于轨迹预测网络预测所述被跟踪目标在当前帧图像中的位置信息。

于本申请的第一方面的一些实施例中，所述根据被跟踪目标在历史帧图像中的位置信息和边界框信息，提取当前帧图像的特征图像，其步骤包括：根据被跟踪目标在上一帧图像中的位置信息和边界框信息，对当前帧图像基于多种裁剪尺寸进行裁剪，并利用fhog描述子和深度网络生成不同分辨率的离散的特征图像；利用插值模型将所述离散的特征图像映射至连续空间，以获得经插值模型统一和变换后的连续的特征图像。

于本申请的第一方面的一些实施例中，所述得分图通过利用卷积分解算子在所述当前帧图像的特征图像上进行滤波所获得；所述得分图的最大值用于判断当前帧图像是否存在遮挡；在判断所述当前帧图像不存在遮挡的情况下，将当前帧图像加入用于训练所述相关滤波器的训练样本集。

于本申请的第一方面的一些实施例中，所述方法包括：通过建立训练样本图像与目标图像之间的最小化目标函数来训练所述相关滤波器。

于本申请的第一方面的一些实施例中，所述方法包括：从所述训练样本集中选取多对训练对，以形成用于训练所述相关滤波器的第一训练对集合和第二训练对集合，其步骤包括：利用所述第一训练对集合并根据目标函数训练所述相关滤波器；利用所述第二训练对集合并根据通过高斯-牛顿迭代法和共轭梯度法优化后的所述目标函数训练所述相关滤波器。

于本申请的第一方面的一些实施例中，所述轨迹预测网络包括rnn网络和posenet网络；其中，所述rnn网络以图像的轨迹差异作为输入信号，以分析被跟踪对象的运动趋势信息及轨迹的位置信息；所述posenet网络以所述rnn网络的输出信号以及一用于解码图像采集设备的内参和外参的隐藏特征向量作为其输入信号，以输出预测的被跟踪对象的位置信息。

为实现上述目的及其他相关目的，本申请的第二方面提供一种多视图目标跟踪装置，所述装置包括：特征提取模块，用于根据被跟踪目标在历史帧图像中的位置信息和边界框信息，提取当前帧图像的特征图像；滤波处理模块，用于对所述特征图像进行滤波处理以获取相应的得分图；目标定位模块，用于根据所述得分图判断当前帧图像是否存在遮挡；其中，在判断所述当前帧图像不存在遮挡的情况下，利用网格搜索法和多尺寸搜索法确定所述被跟踪目标在当前帧图像中的位置信息；在判断所述连续特征图像存在遮挡的情况下，基于轨迹预测网络预测所述被跟踪目标在当前帧图像中的位置信息。

为实现上述目的及其他相关目的，本申请的第三方面提供一种多视图目标跟踪系统，其包括：图像采集单元，其包括多个按预设顺序排列的图像采集设备，以获取多个相互之间有被跟踪目标的视图重叠的图；处理单元，其通信连接所述图像采集单元，以获取并按如权利要求1所述的方法处理所述图像。

为实现上述目的及其他相关目的，本申请的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述多视图目标跟踪方法。

为实现上述目的及其他相关目的，本申请的第五方面提供一种多视图目标跟踪终端，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述多视图目标跟踪方法。

如上所述，本申请的多视图目标跟踪方法、装置、系统、电子终端、及存储介质，具有以下有益效果：申请通过建立端对端的特征提取网络，提取图像特征，并训练相关滤波器，还利用轨迹预测网络解决图像遮挡问题，从而形成不限于一类特定对象的可适用于多对象的反遮挡的稳健型目标跟踪解决方案。

附图说明

图1显示为本申请一实施例中多视图目标跟踪系统的示意图。

图2显示为本申请一实施例中多视图目标跟踪系统的示意图。

图3显示为本申请一实施例中多视图目标跟踪终端的结构示意图。

图4显示为本申请一实施例中多视图目标跟踪方法的流程示意图。

图5显示为本申请一实施例中多视图目标跟踪方法的总体流程示意图。

图6显示为本申请一实施例中特征提取模块和相关滤波模块的示意图。

图7显示为本申请一实施例中tpn网络的结构示意图。

图8显示为本申请一实施例中多视图目标跟踪装置的示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本申请的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本申请。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在本申请中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“a、b或c”或者“a、b和/或c”意味着“以下任一个：a；b；c；a和b；a和c；b和c；a、b和c”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

目标跟踪是指在图像序列中，先检测到系统感兴趣的目标，对目标进行准确的定位，然后在目标移动的过程中不断更新目标的运行信息，从而实现对目标的持续跟踪。根据跟踪器和目标的数量，目标跟踪通常可分为四类，即单视图单对象跟踪(single-viewsingle-object，svso)、多视图单对象跟踪(multi-viewsingle-object，mvso)、单视图多对象跟踪(single-viewmulti-object，svmo)和多视图多对象跟踪(multi-viewmulti-object，mvmo)。

目前，单视图跟踪通常有一个直观的管道，但容易受到遮挡的影响。大多数现有的多对象跟踪器通常只跟踪一类特定的对象，比如行人、车辆，这些对象还没有扩展到通用对象，没法实现反遮挡的稳健的对象跟踪。

鉴于现有技术中的不足，本申请提供多视图目标跟踪方法、装置、系统、电子终端、及存储介质，来有效解决这些技术问题。本申请技术方案应用于光场相机系统；光场相机系统包含一或多个相机阵列，每个相机阵列所包含的多个相机按照一定的角度和间隔距离进行排列；其中，相机的数量，角度以及间隔距离可以根据场景的大小与复杂程度进行调整。只要像光场相机阵列那样能获得多视图数据的技术皆可纳入本申请的范围中。

如图1所示，展示本申请一实施例中多视图目标跟踪系统的示意图。于本实施例中，所述多视图目标跟踪系统包括：图像采集单元以及处理单元。

于本实施例中，所述图像采集单元包括多个按照预设的距离间隔排成一行的图像采集设备11，该些图像采集设备11所采集的图像之间有被跟踪目标的视图重叠的图像；所述处理单元包括至少一处理装置12，所述处理装置12用于处理所述被跟踪目标的跟踪定位，其跟踪定位的原理及过程将于下文中予以解释与说明。

需要说明的是，所述图像采集设备11包括但不限于：光场照相机、视频摄像机、集成有光学系统或ccd芯片的摄像模块、集成有光学系统和cmos芯片的摄像模块等等。所述处理装置12包括但不限于：arm控制器、fpga控制器、soc控制器、dsp控制器、或者mcu控制器等控制器，台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(personaldigitalassistant，简称pda)等个人电脑，服务器或者服务器集群等等。

如图2所示，展示本申请另一实施例中多视图目标跟踪系统的示意图。所述多视图目标跟踪系统包括：图像采集单元以及处理单元。

于本实施例中，所述图像采集单元包括多个按照预设的距离间隔排成一圆形且向内采集图像的图像采集设备21，该些图像采集设备11所采集的图像之间有被跟踪目标的视图重叠的图像；所述处理单元包括至少一处理装置12，所述处理装置12用于处理所述被跟踪目标的跟踪定位。

本领域技术人员应理解的是，出于说明性目的而提供以上示例，并且以上示例不应被理解成是限制性的。具体来说，所述多视图目标跟踪系统中的图像采集单元和处理单元的数量和外形均不以图1和图2所展示的为限，图像采集设备的排列形状和个数亦不以图1和图2所展示的为限，所述图像采集设备的排序方式除了行、列排序和圆形排序外，在其它的实施例中还可排列为例如方形、椭圆形、或者三角形等等，本申请对此不作限定。

如图3所示，展示本申请一实施例中多视图目标跟踪终端的结构示意图。于本实施例中，所述多视图跟踪终端包括：处理器31、存储器32、收发器33、通信接口34和系统总线35；存储器32和通信接口34通过系统总线35与处理器31和收发器33连接并完成相互间的通信，存储器32用于存储计算机程序，通信接口34和收发器33用于和其他设备进行通信，处理器31用于运行计算机程序，使电子终端执行多视图目标跟踪方法的各个步骤。所述多视图目标跟踪方法的流程及各个步骤将于下文中予以说明。

需要说明的是，上述提到的系统总线可以是外设部件互连标准(peripheralcomponentinterconnect，简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，简称eisa)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(randomaccessmemory，简称ram)，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(centralprocessingunit，简称cpu)、网络处理器(networkprocessor，简称np)等；还可以是数字信号处理器(digitalsignalprocessing，简称dsp)、专用集成电路(applicationspecificintegratedcircuit，简称asic)、现场可编程门阵列(field-programmablegatearray，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

如图4所示，展示本申请一实施例中多视图目标跟踪方法的流程示意图。在一些实施方式中，所述方法可应用于控制器，例如：arm控制器、fpga控制器、soc控制器、dsp控制器、或者mcu控制器等等。在一些实施方式中，所述方法也可应用于包括存储器、存储控制器、一个或多个处理单元(cpu)、外设接口、rf电路、音频电路、扬声器、麦克风、输入/输出(i/o)子系统、显示屏、其他输出或控制设备，以及外部端口等组件的计算机；所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(personaldigitalassistant，简称pda)等个人电脑。在另一些实施方式中，所述方法还可应用于服务器，所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上，也可以由分布的或集中的服务器集群构成。

为便于本领域技术人员理解本申请提供更的多视图目标跟踪方法的总体流程，现结合图5对本该方法流程在一实施例中的应用做总览性的解释与说明。

图5中虚线左侧(demonstrationscene)是一个说明性的场景示意，于本实施例中包括三个摄像头/视图，即视图1(view1)、视图2(view2)和视图3(view3)，用于跟踪目标a(targeta)和障碍物b(obstacleb)。基于视图1(view1)所获得的图像中，目标a(targeta)在前障碍物b(obstacleb)在后；基于视图2(view2)所获得的图像中，目标a(targeta)和障碍物b(obstacleb)接近横向排列且互不遮挡；基于视图3(view3)所获得的图像中，目标a(targeta)在后而障碍物b(obstacleb)在前。图5中虚线右侧(multi-viewtrackingframework)是来自三个视图的帧图像，遮挡情况发生于视图3(view3)中，故作为本申请的多视图目标跟踪方法的输入。

多视图目标跟踪方法的主要流程步骤包括：利用特征提取器(featureextractor)在每个视图上执行共享特征提取，以提取跨尺度的空间感知的特征图像(featuremaps)；所有视图共享一组在线更新的协作相关滤波器(collaborativecorrelationfilters)，用于跟踪推测；对于置信度较低的视图，例如发生遮挡情况的视图3(view3)，利用轨迹预测网络(tpn)根据其它置信度较高的视图来进行轨迹预测估计该跟踪目标的位置。

具体而言，本实施例中所述多视图目标跟踪方法包括步骤s41、步骤s42、以及步骤s43。

在步骤s41中，根据被跟踪目标在历史帧图像中的位置信息和边界框信息，提取当前帧图像的特征图像。

在一实施例中，特征提取的步骤具体包括：根据被跟踪目标在上一帧图像中的位置信息和边界框信息，对当前帧图像基于多种裁剪尺寸进行裁剪，并利用fhog描述子和深度网络生成不同分辨率的离散的特征图像；利用插值模型将所述离散的特征图像映射至连续空间，以获得经插值模型统一和变换后的连续的特征图像。

具体的，首先根据被跟踪目标在上一帧图像中的位置信息和边界框信息，基于多种不同的裁剪尺寸对当前帧图像进行裁剪，例如基于5种不同的裁剪尺寸对当前帧图像进行裁剪。然后利用fhog描述子和深度网络生成不同分辨率的离散的特征图像。其次使用插值模型jd统一和变换这些特性映射到连续空间domaint∈[0，t]，插值模型jd可采用下文中的公式1)表示：

其中，jd{xd}(t)表示第d个经插值模型统一和变换的特征映射，bd表示周期t＞0的插值核。需要说明的是，本实施例中的插值模型公式是一维公式，但可扩展到更高维度的公式，并应用于其他的实施例中。

在步骤s42中，对所述特征图像进行滤波处理以获取相应的得分图。

在一实施例中，使用卷积分解算子在特征映射上利用经训练的基础滤波器f＝(f¹，f²，...，f^c)进行滤波，以此来获得用于推断目标物体的位置和边界框尺寸的得分图s_pf{x}，得分图spf{x}可采用下文中的公式2)表示：

其中，d表示特征映射的通道数，c表示滤波器数量，运算符*表示卷积运算，p是d×c系数矩阵的卷积分解算子。为了更有效地进行卷积运算，优选在频域下应用离散傅立叶变换(dft)进行所有这些运算的。因此，spf{x}的傅里叶系数由公式获得，同时，spf{x}可由逆离散傅立叶变换(idft)计算获得。

在一实施例中，考虑到目标对象在不同的角度视图中具有不同的外观，因此本实施例旨在实现能够基于不同视角获取特征共性的更通用的相关滤波器。为此，需改进eco中原有的相关滤波训练方法，具体如下文所示。

在相关滤波器的训练过程中，可使用多视图样本集中的样本来训练多视图共享相关滤波器。需要说明的是，在相关滤波器的训练中，每个摄像机视图共享一个共同的相关滤波器，该滤波器在所有摄像机视图的样本集之间联合训练。滤波器fc通过最小化函数来训练，所述最小化函数采用公式3)表示：

其中，表示第c个相机的第j个样本的得分图；表示第c个相机的第j个样本；运算符*表示卷积运算；权重表示第c个相机的第j个训练样本的重要程度。另外，于本实施例中，来自于所有视图的训练样本对滤波器的更新都做了相应的贡献，由此增强了滤波器对视角变换的鲁棒性。

值得注意的是，现有技术中基于相关滤波器的方法通常是将直接在imagenet数据集上训练的从深度网络中提取的特征作为特征图像的一部分。但是，这并不能保证这些特征图像适用于该相关滤波器或该任务。

因此，本申请提供一种端到端的特征提取网络，其采用eco方法，基于概率生成模型生成的样本集学习卷积滤波器，实现多视图跟踪任务，并在此基础上提出了一种新的目标跟踪方式。本申请中端到端的特征提取网络由两部分组成，分别为特征提取模块φ(·)和相关滤波模块对于特征提取模块φ(·)，可使用沙漏网络结构，在层与层之间跳跃连接，为了给输出的特征映射带来更多的空间属性而将空间信息转发给最后输出的特征映射。生成的特征映射具有与输入的图像补丁相同的分辨率，但由不同数量的通道组成。

为便于本领域技术人员理解，现结合图6对于基于特征提取模块(featureextractormoduleφ(·))和相关滤波模块(correlationfiltermodule)做相应的解释说明。共分为2个阶段，第一阶段是相关滤波模块的训练阶段，在该阶段中特征提取模块(featureextractormoduleφ(·))保持不变；第二阶段是特征提取模块的训练阶段，在该阶段中保持相关滤波模块(correlationfiltermodule)不变。需要说明的是，特征提取模块(featureextractormoduleφ(·))和相关滤波模块(correlationfiltermodule)所参与的计算方式将于下文中予以详述。

在特征提取模块(featureextractormoduleφ(·))中，对输入图像(inputimage)进行特征提取，以获取相应的特征图像(featuremaps)。利用余弦窗口函数(cosinewindow)对所获取的特征图像(featuremaps)进行余弦计算。在相关滤波模块(correlationfiltermodule)中，对滤波器和输入经余弦计算后的特征图进行离散傅里叶变换，然后在傅里叶域中进行相关运算。然后，对结果进行傅里叶反变换运算后得到最终的得分图(scoremap)，推导出特征图与滤波器的相关性。需注意的是，该模块中的运算都是线性运算，梯度可以反向传播到特征提取模块，这也就意味着特征提取模块和相关滤波器可以进行端到端的训练。

在一实施例中，采用vot2017、otb100、lasot等预设的目标跟踪数据集对特征提取网络进行训练。这些数据集包含每个对象的视频，该些对象在每一帧都有地面真值目标边界框。在训练网络时，首先根据地面真值目标边界框的位置对帧图像进行裁剪，这些经裁剪后的图像尺寸是原始边界框尺寸的4倍，这也就意味着裁剪后的图像包含更多的背景内容且目标物体位于裁剪后的图像的中心位置。另外，还将这些图像调整到相同的分辨率。其次，使用这些经裁剪的图像为每批生成训练对。在每个训练对中，经裁剪和尺寸调整后的图像作为神经网络的输入图像。每个训练对的目标图像是一个周期重复的高斯函数，高斯函数的中心是目标物体的位置。通过对裁剪后的图像及其目标图像的平移，来对二维空间中微湍流物体的位置进行数据增强处理。

在一实施例中，在训练阶段从同一批训练对象中随机选取16对训练对，这些训练样本可分为2个训练对集合，第一训练对集合包括10对样本，第二训练对集合包括6对样本。每批训练分为2个阶段，在第一阶段中，第一训练对集合的训练对用于根据目标函数训练相关滤波器ftrain，利用所述第二训练对集合并根据通过高斯-牛顿迭代法和共轭梯度法优化后的所述目标函数训练所述相关滤波器。

目标函数由下文的公式4)和公式5)表示：

其中，y^*表示目标得分图，θf表示特征提取器参数，η表示补偿参数，ψcos(·)表示hann窗口函数。

经过第一阶段的训练后可得到基于当前跟踪目标的最优滤波器然后可使用第二训练对集合来训练特征提取模型φ(·)。但是，输出响应图像可能会有一些模糊噪音，所以本实施例还使用梯度算法来解决噪音问题。

使用高斯-牛顿迭代法以及共轭梯度法来优化目标函数，其可用公式6)和公式7)表示：

其中，grad(·)表示sobel算子，梯度项的引入得到稀疏的网络输出。

在步骤s43中，根据所述得分图判断当前帧图像是否存在遮挡；在判断所述当前帧图像不存在遮挡的情况下，利用网格搜索法和多尺寸搜索法确定所述被跟踪目标在当前帧图像中的位置信息；在判断所述连续特征图像存在遮挡的情况下，基于轨迹预测网络预测所述被跟踪目标在当前帧图像中的位置信息。

具体而言，可根据所述得分图的最大值来判断当前帧图像是否存在遮挡。在每个图像采集设备获得被跟踪目标的位置和视图尺寸后，可引入阈值t来确定当前帧图像是否存在遮挡。若当前帧图的得分图中的最大值超过阈值t，则可认为当前帧图像不存在遮挡，该图像可作为积极样本加入用于训练滤波器的训练样本集中；若当前帧图的得分图中的最大值不超过阈值t，则可认为当前帧图像存在遮挡，不加入训练样本集中。

在一实施例中，在判断所述当前帧图像不存在遮挡的情况下，利用网格搜索法和多尺寸搜索法确定所述被跟踪目标在当前帧图像中的位置信息。所述网格搜索法是指定参数值的一种穷举搜索方法，将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。所述多尺寸搜索方法例如为基于多尺寸lbp的搜索方法。

在一实施例中，在判断所述连续特征图像存在遮挡的情况下，基于轨迹预测网络预测所述被跟踪目标在当前帧图像中的位置信息。

为了解决遮挡问题，可在遮挡视图中加入多视图约束来修正跟踪轨迹。在相机间对相机co进行轨迹预测，其中相机co在得分图中的最大值fo低于阈值t，或者在没有可信赖的其他手段的情况下，可使用基于其他可信赖的预测位置来校正最终结果。更具体的，可令tiⁿ的轨迹包含相机ci中第n帧的位置ti，校正后的目标位置相机co中的目标位置to′由下文的公式8)表示：

其中，tpn(·)表示轨迹预测网络，其用于预测相机co中第n帧的目标位置；k表示相机指数集合，其中k＝{k|fk≥τ}；w表示归一化系数，其中w＝∑k∈kfk。

具体的，利用轨迹预测网络求出每个相机的两条轨迹之间的关系。考虑到这种关系取决于相机的相对姿态、相机参数、以及被跟踪对象的位置(深度)，也即轨迹之间的映射是非线性的，除非该对象物体在三维空间的平面内运动。此外，物体的运行方向和速度映射也是非线性的。为此，提出轨迹预测网络来解决这些问题。

理想情况是直观的：在两个摄像机视图中找到两个轨迹之间的非线性映射或关系，而两个轨迹之间的映射差别比直接找二维位置的映射要容易的多。因此，本申请提出的网络考虑将两个轨迹之间的差异作为输入，即速度和它的方向，并期望输出相应的速度和另一个视图上的方向。

如图7所示，展示本申请一实施例中tpn网络的结构示意图。于本实施例中，tpn网络使用基于rnn网络的结构来建模这种映射，主要由rnn模块和posenet模块组成。rnn模块以一个视图的轨迹差作为输入，然后是三个全连接层，连接到rnn模块，有3个层叠的rnn层。该rnn模块用于分析轨迹(或物体)的时间运动趋势和位置。

rnn层的初始隐藏向量由两个向量组成。一个是初始为0的传统隐藏向量，另一个是描述对象初始状态的可学习隐藏向量。posenet是一个深度全连通网络，它的输入不仅是rnn模块的输出，而且还有一个隐藏的特征向量。这个隐藏的特征向量被期望编码摄像机的内部和外部参数。因此，轨迹预测网络可以看作是一个解码器，它将隐藏的矢量解析成一个映射函数，这个映射函数将输入数据映射到另一个视图的空间中。

具体的，基于rnn网络的tpn模型可使用如下公式表示：

rt^b＝θpos(θrnn(θenc(rt^a)，pt)，hp)；公式9)

其中，rt^a表示t时刻源视角a的轨迹；rt^b表示t时刻目标视角b的轨迹；θenc表示编码器网络；θrnn(·，·)表示堆叠的rnn网络，用于模拟非线性变化并积累时间信息；pt表示rnn网络在t时刻的隐藏状态，用于编码最初的相机矩阵tt^c以及源视角a的初始轨迹位置hp用于编码目标视角b的初始轨迹位置θpos用于解码所有特征后输出最终结果。

现结合图7进行进一步的解释说明，基于源视角a的轨迹(trajectoryinsourceview)被分解为方向向量(direction)和速度向量(velocity)。θenc编码器(eccoderθenc)将方向向量(direction)和速度向量(velocity)映射为128维的表示方式，接着由rnn网络θrnn(·，·)处理。本实施例中的rnn网络θrnn(·，·)由多个rnn堆叠层以及多个隐藏状态(hiddenstates)组成。所述隐藏状态(hiddenstates)表示第k个rnn层的隐藏状态，由零向量(zeros)和可学习的隐藏参数向量hrk组成。因此，隐藏状态可被表示为：

rnn网络θrnn(·，·)的输出结果连接隐藏向量hp，共同作为解码网络θpos(posenet)的输入参数。解码网络θpos将输入参数经解码处理后分解出目标轨迹的方向向量和速度向量，从而生成最终预测的目标视角b的轨迹(trajectoryintargetview)。

在一实施例中，考虑到实践运用中，基于源视角预测的轨迹经常会包含噪声，这些噪声会导致轨迹预测不稳定。因此，本实施例提出在将基于源视角的轨迹在送入tpn网络前先进行平滑处理。

在一实施例中，用表示用于做平滑处理的平滑运动向量，采用如下公式表示

其中，表示视角c在(t-j)时刻的轨迹；示视角c在(t-j-1)时刻的轨迹。

上文，就tpn网络的结构及原理做了详细的解释与说明。下文，将对tpn网络的训练过程做相应的阐释。

为了更好的训练tpn网络，需可靠的训练数据集。为此，本实施例通过不同类别相机组以及通过物体运动来进行数据采集。具体的，可将25个场景用作训练数据集的采集，将8个场景用作测试数据集的采集。每个场景的数据由两个具有不同相对位姿约束的摄像机捕获。对象物体被放置于相机前，在自由空间中随机移动物体或相机，以在不同的视图中形成不被遮挡的轨迹。于本实施例中，共采集有30,000帧图像，且每个序列至少有900帧图像。

在一实施例中，从每批25个场景中选取nb个样本轨迹对，例如nb＝100。第i个轨迹对是从90个连续帧图像中选取的，被表示为利用上面的公式10可以得到一个运动对即令第i个隐藏参数向量且令θ为网络的其它参数，本实施例的目的在于找到最优的θ^*，其可用下文的公式11)表示：

其中，nt表示训练对的数量，ψ(·，·)表示tpn网络，和表示运动向量，θint(·，·)表示根据初始点将速度和方向积分为二维位置的函数。

需要说明的是，hi最初也是未知的，因此训练可分为两个阶段。

首先，在执行网络训练的过程中，仅优化每个训练样本的hi和固定当前θ，其中，h^i*用下文的公式12)表示：

其中，是中的最初40帧图像，也即t1-t0＝39。

其次，使用h^i*作为初始参数，并通过批量训练样本来训练网络参数θ，其由下文的公式13)表示：

其中，h^i**是h^i*的优化参数。

于本实施例中，利用rprop算法来优化网络参数，并在轨道数据集上进行了20个阶段的训练后，可获得优化的参数θ^*并完成tpn网络的训练。

在一实施例中，考虑到tpn网络在通用型的多视图跟踪过程中的应用会比较复杂，通常会有超过一种的不可靠视角和可靠视角。对于t时刻的不可靠视角b，可利用tpn网络来预测其轨迹，同时也将滤波器的输出结果也予以考虑。校正后的基于视角b的被跟踪目标的位置可用来表示，其可用公式14表示：

其中，是归一化系数，θtp(·，·)是轨迹预测函数。和是轨迹预测函数的输入参数，用于根据上文中的公式12训练隐藏参数h*。由此可获得并将作为θtp(·，·)的输出结果。t1是指视角b可靠时段的最后时刻，若选取40帧图像来训练隐藏参数h*，则t0＝t1-39。公式14建立了多个相机之间的关联关系，并在发生障碍时指导轨迹修正。

在一实施例中，考虑到实际情况中甚至没有可靠的视角，在这种情况下，可保持被跟踪目标在每个视角中的最后一个动量。具体的，令为基于视角c的可靠时段的最后时刻t1时的运动向量，则

在一实施例中，为验证本中请提供的多视图目标跟踪方法的优越性，将本中请中的多视图跟踪方法与现有技术中的目标跟踪方法做了跟踪性能方面的比较。具体的，将现有技术中的eco跟踪模式与本申请提供的gmt跟踪模式，基于现有的pets2009数据集，在精准性和鲁棒性方面做了全面的比较，比较结果如下表1所示：

其中，ρeco表示传统的eco模式下的跟踪精准性评价，σeco表示传统的eco模式下的跟踪鲁棒性评价，ρgmt表示本申请的gmt模式下的跟踪精准性评价，σgmt表示本申请的gmt模式下的跟踪鲁棒性评价。clip1～clip5是指从某市中心的场景中剪辑得到的5个视频片段。由表1可知，在跟踪精准性评价方面，传统的eco跟踪算法和本申请的gmt跟踪算法非常接近，而在跟踪的鲁棒性方面，本申请的gmt跟踪算法的表现性能大大优于统的eco跟踪算法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

如图8所示，展示本申请一实施例中多视图目标跟踪装置的示意图。所述装置包括：特征提取模块81、滤波处理模块82、目标定位模块83。

所述特征提取模块81用于根据被跟踪目标在历史帧图像中的位置信息和边界框信息，提取当前帧图像的特征图像。所述滤波处理模块82用于对所述特征图像进行滤波处理以获取相应的得分图。所述目标定位模块83用于根据所述得分图判断当前帧图像是否存在遮挡；其中，在判断所述当前帧图像不存在遮挡的情况下，利用网格搜索法和多尺寸搜索法确定所述被跟踪目标在当前帧图像中的位置信息；在判断所述连续特征图像存在遮挡的情况下，基于轨迹预测网络预测所述被跟踪目标在当前帧图像中的位置信息。

需要说明的是，本实施例提供的多视图目标跟踪装置的实施方式，与上文中多视图目标跟踪方法的实施方式类似，故不再赘述。另外需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，滤波处理模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上滤波处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(applicationspecificintegratedcircuit，简称asic)，或，一个或多个微处理器(digitalsignalprocessor，简称dsp)，或，一个或者多个现场可编程门阵列(fieldprogrammablegatearray，简称fpga)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessingunit，简称cpu)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称soc)的形式实现。

综上所述，本申请提供多视图目标跟踪方法、装置、系统、电子终端、及存储介质，本申请通过建立端对端的特征提取网络，提取图像特征，并训练相关滤波器，还利用轨迹预测网络解决图像遮挡问题，从而形成不限于一类特定对象的可适用于多对象的反遮挡的稳健型目标跟踪解决方案。所以，本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴旻烨;毕凝
技术所有人：曜科智能科技(上海)有限公司
我是此专利的发明人

上一篇：一种降低抗浮设防水位的排水系统的制作方法
上一篇：一种拼接式烟道自动排水装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。