一种被动式非视域目标实时定位跟踪方法和系统与流程

文档序号:33378726发布日期:2023-03-08 04:57阅读:44来源:国知局
一种被动式非视域目标实时定位跟踪方法和系统与流程

1.本发明涉及一种电子技术领域,尤其涉及一种被动式非视域目标实时定位跟踪方法和系统。


背景技术:

2.非视域成像领域关注于对不可见区域进行成像、感知和探测。在一般的设定下,不可见区域指的是与探测器相隔一墙的区域,这个区域里的光学信号无法直接传播到探测器所在位置,但可以借助中继墙的反射达到,因此也可称作直接视线以外的区域。过去主流的非视域成像技术聚焦于利用主动发射信号(例如超快脉冲激光、声波等)并根据返回信号的飞行时间等信息,对不可见区域进行三维场景重建。
3.对于非视域追踪任务,现有大多数技术都使用主动式方案,但其较高的成本和苛刻的实验条件限制了这类技术的部署和应用;极少数技术使用被动式方案,并借助深度神经网络将跟踪任务转换为对位置的回归任务,但效果往往不尽如人意。此外,现有方法中大多没有利用物体运动产生的信息和物体的运动连续性先验知识,导致追踪精度不理想、平稳性差。


技术实现要素:

4.本发明旨在解决上述问题之一。
5.本发明的主要目的在于提供一种被动式非视域目标实时定位跟踪方法。
6.本发明的另一目的在于提供一种被动式非视域目标实时定位跟踪系统。
7.为达到上述目的,本发明的技术方案具体是这样实现的:
8.本发明一方面提供了一种被动式非视域目标实时定位跟踪方法,包括:利用摄像单元实时地获取中继介质反射的包含非视域目标行动轨迹的实时视频流;对位置编码向量进行初始化,将所述位置编码向量置为全零向量;将所述实时视频流中的帧实时地逐帧输入至追踪单元执行追踪操作,逐个获得每个所述帧包含的图像特征向量,在每获取到所述帧包含的图像特征向量后,利用所述图像特征向量更新所述位置编码向量,并在每次更新后将所述位置编码向量输入至解码器;所述解码器在每接收到一个所述位置编码向量后,将接收到的所述位置编码向量进行解码,得到每个所述位置编码向量对应的实时坐标信息。
9.本发明另一方面提供一种被动式非视域目标实时定位跟踪系统,包括:摄像单元,用于实时地获取中继介质反射的包含非视域目标行动轨迹的实时视频流;初始化单元,用于对位置编码向量进行初始化,将所述位置编码向量置为全零向量;追踪单元,用于接收实时逐帧输入的所述实时视频流中的帧并执行追踪操作,逐个获得每个所述帧包含的图像特征向量,在每获取到所述帧包含的图像特征向量后,利用所述图像特征向量更新所述位置编码向量,并在每次更新后将所述位置编码向量输入至解码器;解码器,用于在每接收到一个所述位置编码向量后,将接收到的所述位置编码向量进行解码,得到每个所述位置编码
向量对应的实时坐标信息。
10.由上述本发明提供的技术方案可以看出,本发明提供了一种被动式非视域目标实时定位跟踪方法和系统,该被动式非视域目标实时定位跟踪方法仅利用摄像单元实时拍摄实时视频,通过追踪操作实时更新视频中每帧图像包含的位置编码向量,然后使用解码器将位置编码向量实时地解码为该帧对应的位置坐标,从而达到实时追踪的目的。本发明的被动式非视域目标实时定位跟踪方法通过采用纯被动式方案,降低了布局成本,解决了非视域追踪问题中主动式方法成本高、实验条件苛刻导致的难以部署和应用的问题。此外,还通过引入差分帧和专门设计的传播与校准网络,解决了非视域实时追踪问题中忽略运动信息和运动连续性先验导致的追踪精度不理想、平稳性差的问题,提升了追踪精度和轨迹平稳度。
附图说明
11.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
12.图1为本发明实施例1提供的被动式非视域目标实时定位跟踪方法的流程图;
13.图2为本发明实施例1提供的一个场景设定示意图;
14.图3为本发明实施例1提供的追踪以及解码的流程图;
15.图4为本发明实施例1提供的使用传播与校准网络执行预热和追踪的流程图;
16.图5为本发明实施例1提供的预热阶段、追踪阶段以及解码的流程图;
17.图6为本发明实施例1提供的被动式非视域目标实时定位跟踪系统的结构示意图。
具体实施方式
18.下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
19.在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或数量或位置。
20.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
21.下面将结合附图对本发明实施例作进一步地详细描述。
22.实施例1
23.本实施例提供一种被动式非视域目标实时定位跟踪方法,如图1所示,该方法包括:
24.步骤s101,利用摄像单元实时地获取中继介质反射的包含非视域目标行动轨迹的实时视频流;具体来说,非视域目标一般是指可以自由行动的生物体(例如人、动物等)或者非生物体(例如交通工具等),也是本实施例需要追踪其行动轨迹的目标。中继介质可以是中继墙、金属板、塑料板等可以对光线进行反射的平面物体或非平面物体,只要能对光线进行反射即可。摄像单元可以是普通的消费级的rgb相机即可,摄像单元应当能实时地拍摄视频。如图2所示为本实施例一种场景设定示意图,该场景包括行走的人物、普通相机、中继墙和障碍物。当人物在房间内走动时,由于障碍物的存在隔绝了人物的光线直接被相机获取,因此,普通相机只能通过拍摄人物在行走过程中反射到中继墙上的光线来捕捉人物的走动轨迹。
25.步骤s102,对位置编码向量进行初始化,将位置编码向量置为全零向量;具体来说,位置编码向量是指一个隐含位置语义信息的高维向量,可被解码器解码为实际位置坐标。在进入追踪阶段之前,需要将位置编码向量归零,以防止不归零影响到后面的计算。将位置编码向量进行初始化赋值,可以提供初步的信息,让位置编码向量变成一个真正的具有位置信息的向量。步骤s102可以在步骤s101之前完成,也可以在步骤s101之后完成,只要其在步骤s103之前完成即可。
26.步骤s103,将实时视频流中的帧实时地逐帧输入至追踪单元执行追踪操作,逐个获得每个帧包含的图像特征向量,在每获取到帧包含的图像特征向量后,利用图像特征向量更新位置编码向量,并在每次更新后将位置编码向量输入至解码器;具体来说,在追踪阶段需要对收到的实时帧进行位置转换,将每个帧包含的实时位置编码向量输入至解码器进行解码以获得真实的位置坐标。
27.在一个具体的实施方式中,将实时视频流中的帧实时地逐帧输入至追踪单元执行追踪操作,逐个获得每个帧包含的图像特征向量,在每获取到帧包含的图像特征向量后,利用图像特征向量更新位置编码向量包括:获取当前帧,其中,当前帧是指当前输入的实时视频流的帧;若当前帧不是首帧,则根据当前帧与上一帧计算出差分帧;从差分帧中提取差分帧图像特征向量,并从当前帧中提取当前帧图像特征向量,其中,差分帧图像特征向量包含动态信息,当前帧图像特征向量包含静态信息;利用传播单元根据差分帧图像特征向量运算并更新位置编码向量;利用校准单元根据当前帧图像特征向量运算并再次更新位置编码向量。
28.具体来说,在追踪阶段利用当前帧、差分帧和传播与校准网络来更新位置编码向量。追踪阶段的帧可以是实时获取的,即摄像单元获得一个帧就执行一次单步追踪。由于追踪阶段获取的帧图像都是需要后期进行解码的帧图像,因此需要对获取的每一帧进行处理。当然,如果接收到的是首帧,则无法进行差分运算,因此从第二帧开始运算。当然,如果在追踪阶段前面还包含其他阶段(例如后面的预热阶段),则此时对追踪阶段的首帧进行处理时,可以将之前收到的帧当做上一帧。差分帧(difference frame)是指实时视频流中每一帧与前一帧作差得到的“差异图像”。差分帧与当前帧(raw frame)的数据尺寸相同,但前
者反映的是此时此刻的运动信息,而当前帧反映的是此时此刻的静态信息。当然,如果接收到的是首帧,则无法进行差分运算,因此一般来说从第二帧开始运算。但是如果在追踪阶段前面还包含其他阶段(例如后面的预热阶段),则此时对追踪阶段的首帧进行处理时可以将之前收到的帧当做前一帧。如图3所示,在追踪阶段,利用第t帧f
t
(当前帧)与第t-1帧f
t-1
(前一帧)进行差分运算获得差分帧d
t-1
,分别根据差分帧和当前帧的图像特征向量进行传播和校准,并更新位置编码。图像特征向量是指一个隐含图像语义信息的高维向量,可以使用特征提取器从帧图像中提取,当前帧图像特征向量和差分帧图像特征向量是分别从当前帧和差分帧中提取的。传播和校准单元是传播与校准网络(pac-net)的基本组件,其中包括两套结构相同但不共享权重的子模块,称为传播单元(propagate-cell)和校准单元(calibrate-cell),分别用于传播和校准位置编码向量。这里“不共享权重”是指子模块之间相互独立,具有不同的内部参数,因而可以发挥不同的作用。使用传播单元,可以借助从差分帧中提取的蕴含动态信息的特征向量更新位置编码向量;使用校准单元可以借助从当前帧中提取的蕴含静态信息的特征向量更新位置编码向量的过程。追踪阶段的传播和校准单元不共享权重,相互独立且具有不同的内部参数,可以发挥不同的作用。追踪阶段中利用传播和校准网络执行的流程图如图4所示。
29.在一个可选的实施方式中,在追踪操作中,从差分帧中提取差分帧图像特征向量,并从当前帧中提取当前帧图像特征向量包括:采用第一残差神经网络从差分帧中提取差分帧图像特征向量,采用第二残差神经网络从当前帧中提取当前帧图像特征向量,其中第一残差神经网络与第二残差神经网络不共享权重;利用传播单元根据差分帧图像特征向量运算并更新位置编码向量包括:传播单元利用第一递归神经网络根据差分帧图像运算包含的动态信息以及当前的位置编码向量进行运算,利用运算的结果更新位置编码向量;利用校准单元根据当前帧图像特征向量运算并再次更新位置编码向量包括:校准单元利用第二递归神经网络根据当前帧图像运算包含的静态信息以及当前的位置编码向量进行运算,利用运算的结果更新位置编码向量,其中,第一递归神经网络和第二递归神经网络不共享权重。具体来说,如图4所示的传播与校准网络执行的流程图中,本实施方式在追踪阶段提取特征的步骤中使用了两个不共享权重的残差神经网络(resnet-18)的骨干部分作为特征提取器,分别用于提取差分帧和当前帧的特征向量;在传播和校准的步骤中也使用了两个不共享权重的门控递归单元gru对位置编码向量进行传播和校准操作。resnet-18是一种卷积神经网络cnn,gru是一种递归神经网络rnn的单元,它们的运作方式分别可以被形式化地描述如下:
30.f=cnn(i)
31.h
t+1
=rnn(h
t
,f)
32.其中,i表示被提取特征的帧图像,f表示帧图像i的图像特征向量,h
t
表示每次更新前的位置编码向量,h
t+1
表示每次更新后的的位置编码向量。
33.在本实施例的追踪操作中,通过引入差分帧和专门设计的传播与校准网络,将差分帧作为运动信息的载体来补充对追踪任务至关重要的运动信息,显式地补充了运动信息。而传播与校准网络交替地从差分帧中提取信息用于传播和从当前帧中提取信息进行校准,利用递归神经网络显式地建模连续运动,解决了非视域实时追踪问题中忽略运动信息和运动连续性先验导致的追踪精度不理想、平稳性差的问题,提升了追踪精度和轨迹平稳
度。
34.步骤s104,解码器在每接收到一个位置编码向量后,将接收到的位置编码向量进行解码,得到每个位置编码向量对应的实时坐标信息。具体来说,在解码的步骤中使用多层感知机(multilayer perceptron,mlp)作为解码器,将位置编码向量解码为位置坐标。在一个可选的实施方式中,当解码器完成解码后,还根据每个位置编码向量对应的实时坐标信息动态还原出非视域目标的行动轨迹。通过将每一帧对应的位置坐标依次相连,从而形成一条实时追踪轨迹,实时重建非视域目标的轨迹。
35.本实施例提供的被动式非视域目标实时定位跟踪方法,仅利用摄像单元实时拍摄实时视频,通过追踪操作实时更新视频中每帧图像包含的位置编码向量,然后使用解码器将位置编码向量实时地解码为该帧对应的位置坐标,从而达到实时追踪的目的。本实施例的被动式非视域目标实时定位跟踪方法通过采用纯被动式方案,降低了布局成本,解决了非视域追踪问题中主动式方法成本高、实验条件苛刻导致的难以部署和应用的问题。在具体的实施方式中,还可以通过引入差分帧和专门设计的传播与校准网络,解决非视域实时追踪问题中忽略运动信息和运动连续性先验导致的追踪精度不理想、平稳性差的问题,提升追踪精度和轨迹平稳度。
36.本发明设计的针对以时序密集的高维特征作为输入、以实时低维重建为任务目标的技术框架,其不仅可以应用在本发明的非视域实时追踪问题上,还可以应用于其他任务上。在解决本发明的被动式非视域实时追踪问题时,以差分帧作为运动信息的载体,以残差神经网络(resnet-18)的骨干部分作为特征提取器,以门控递归单元gru作为递归神经网络的基本单元,以多层感知机mlp作为解码器;在解决其他具体任务时,可以选择不同的运动信息载体、不同的特征提取器、不同的递归神经网络基本单元和不同的解码器来解决。因此,以本发明的技术框架能实现的方案均应在本发明的保护范围之内。
37.在一个可选的实施方式中,在进行追踪之前,还可以执行预热操作,通过预热操作为追踪操作提供一个精准的当前位置编码向量。具体来说,在将实时视频流中的帧实时地逐帧输入至追踪单元之前,方法还包括:执行预热操作;执行预热操作包括:将实时视频流中的前w个帧逐帧输入至预热单元,逐个获得前w个帧中的每个帧包含的图像特征向量,利用前w个帧中的每个帧包含的图像特征向量更新位置编码向量,获取预热完成后的位置编码向量,其中,预热完成后的位置编码向量是指在预热操作中最后一次被更新的位置编码向量,w≥1且为正整数。具体来说,预热操作其运算方式与追踪操作中类似,但是预热操作的目的在于在开始追踪前提供精准的位置编码向量。图5示出了当采用本实施方式中的预热和追踪两段式处理执行方法。如图5所示,预热阶段和追踪阶段分别对实时视频流中的每一帧进行一次单步追踪,在单步追踪中更新位置编码向量。预热阶段和追踪阶段可以采用相同的运算方式,但两个阶段相互独立,且不共享权重。要执行预热操作的帧可以是一次性逐个获取的,也可以是实时获取的。实时视频流中的1~w帧用于预热,其不参与后续追踪操作的解码,这是因为位置编码向量所代表的位置信息一开始可能并不准确,在预热阶段对位置编码向量进行进一步校准,在预热的过程中使得位置编码向量逐步精准,最终使其能够基本接近真实的位置信息。预热阶段所需要的帧的数量即w的数值受到追踪场景的复杂程度、房间环境复杂程度等因素的影响,因此w的值根据不同的追踪环境取值不同。在实际的操作中,可以预先通过训练找到合适的w值,等到正式应用场景中,要预先设定到w值。一
般来说,w值可以取32或者48,即取32帧或者48帧作为预热阶段的帧。通过预热操作,可以为后续的追踪阶段提供一个较为精准的位置编码向量,提高了追踪的准确性。
38.在一个具体的实施方式中,将实时视频流中的前w个帧逐帧输入至预热单元,逐个获得前w个帧中的每个帧包含的图像特征向量,利用前w个帧中的每个帧包含的图像特征向量更新位置编码向量,获取预热完成后的位置编码向量包括:获取当前帧,其中,当前帧是指当前输入的实时视频流中的前w个帧的帧;若当前帧不是前w个帧的首帧,则根据当前帧与上一帧计算出差分帧;从差分帧中提取差分帧图像特征向量,并从当前帧中提取当前帧图像特征向量,其中,差分帧图像特征向量包含动态信息,当前帧图像特征向量包含静态信息;利用传播单元根据差分帧图像特征向量运算并更新位置编码向量;利用校准单元根据当前帧图像特征向量运算并再次更新位置编码向量;若当前帧是前w个帧的尾帧,则在利用校准单元根据当前帧图像特征向量运算并再次更新位置编码向量之后,输出预热完成后的位置编码向量。具体来说,预热阶段对于获取的第一帧不进行处理,从第二帧开始处理,一直处理至获取到第w帧后输出预热完成的位置编码向量。其中,差分帧(difference frame)是指实时视频流中每一帧与前一帧作差得到的“差异图像”。差分帧与当前帧(raw frame)的数据尺寸相同,但前者反映的是此时此刻的运动信息,而当前帧反映的是此时此刻的静态信息。如图5所示,利用第2帧f2(当前帧)与第1帧f1(前一帧)进行差分运算获得差分帧d1。图像特征向量是指一个隐含图像语义信息的高维向量,可以使用特征提取器从帧图像中提取,当前帧图像特征向量和差分帧图像特征向量是分别从当前帧和差分帧中提取的。传播和校准单元是传播与校准网络(pac-net)的基本组件,其中包括两套结构相同但不共享权重的子模块,称为传播单元(propagate-cell)和校准单元(calibrate-cell),分别用于传播和校准位置编码向量。这里“不共享权重”是指子模块之间相互独立,具有不同的内部参数,因而可以发挥不同的作用。使用传播单元,可以借助从差分帧中提取的蕴含动态信息的特征向量更新位置编码向量;使用校准单元可以借助从当前帧中提取的蕴含静态信息的特征向量更新位置编码向量的过程。预热阶段采用的传播与校准网络执行的流程图也如图4所示。
39.在一个可选的实施方式中,在预热操作中,从差分帧中提取差分帧图像特征向量,并从当前帧中提取当前帧图像特征向量包括:采用第一残差神经网络从差分帧中提取差分帧图像特征向量,采用第二残差神经网络从当前帧中提取当前帧图像特征向量,其中第一残差神经网络与第二残差神经网络不共享权重;利用传播单元根据差分帧图像特征向量运算并更新位置编码向量包括:传播单元利用第一递归神经网络根据差分帧图像运算包含的动态信息以及当前的位置编码向量进行运算,利用运算的结果更新位置编码向量;利用校准单元根据当前帧图像特征向量运算并再次更新位置编码向量包括:校准单元利用第二递归神经网络根据当前帧图像运算包含的静态信息以及当前的位置编码向量进行运算,利用运算的结果更新位置编码向量,其中,第一递归神经网络和第二递归神经网络不共享权重。具体来说,如图4所示的传播与校准网络执行的流程图中,本实施方式在提取特征的步骤中使用了两个不共享权重的残差神经网络(resnet-18)的骨干部分作为特征提取器,分别用于提取差分帧和当前帧的特征向量;在传播和校准的步骤中使用了两个不共享权重的门控递归单元(gated recurrent units,gru)对位置编码向量进行传播和校准操作。resnet-18是一种卷积神经网络(convolutional neural network,cnn),gru是一种递归神经网络
(recurrent neural network,rnn)的单元,它们的运作方式分别可以被形式化地描述如下:
40.f=cnn(i)
41.h
t+1
=rnn(h
t
,f)
42.其中,i表示被提取特征的帧图像,f表示帧图像i的图像特征向量,h
t
表示每次更新前的位置编码向量,h
t+1
表示每次更新后的的位置编码向量。
43.本实施例还提供一种被动式非视域目标实时定位跟踪系统,如图6所示,该被动式非视域目标实时定位跟踪系统包括:摄像单元601、初始化单元602、追踪单元603以及解码器604。
44.摄像单元601,用于实时地获取中继介质反射的包含非视域目标行动轨迹的实时视频流;具体来说,摄像单元601可以是普通的消费级的rgb相机即可,摄像单元601应当能实时地拍摄视频。非视域目标一般是指可以自由行动的生物体(例如人、动物等)或者非生物体(例如交通工具等),也是本实施例需要追踪其行动轨迹的目标。中继介质可以是中继墙、金属板、塑料板等可以对光线进行反射的平面物体或非平面物体,只要能对光线进行反射即可。如图2所示为本实施例一种场景设定示意图,该场景包括行走的人物、普通相机、中继墙和障碍物。当人物在房间内走动时,由于障碍物的存在隔绝了人物的光线直接被相机获取,因此,普通相机只能通过拍摄人物在行走过程中反射到中继墙上的光线来捕捉人物的走动轨迹。
45.初始化单元602,用于对位置编码向量进行初始化,将位置编码向量置为全零向量;具体来说,初始化单元602将位置编码向量进行初始化赋值,可以提供初步的信息,让位置编码向量变成一个真正的具有位置信息的向量。位置编码向量是指一个隐含位置语义信息的高维向量,可被解码器解码为实际位置坐标。在进入追踪阶段之前,需要将位置编码向量归零,以防止不归零影响到后面的计算。初始化单元602可以在摄像单元601开始摄像之前完成初始化,也可以在摄像单元601开始摄像之后完成初始化,只要在追踪单元603操作之前完成即可。
46.追踪单元603,用于接收实时逐帧输入的实时视频流中的帧并执行追踪操作,逐个获得每个帧包含的图像特征向量,在每获取到帧包含的图像特征向量后,利用图像特征向量更新位置编码向量,并在每次更新后将位置编码向量输入至解码器;具体来说,在追踪单元603中需要对收到的实时帧进行位置转换,将每个帧包含的实时位置编码向量输入至解码器604进行解码以获得真实的位置坐标。
47.在一个具体的实施方式中,追踪单元接收实时逐帧输入的实时视频流中的帧并执行追踪操作,逐个获得每个帧包含的图像特征向量,在每获取到帧包含的图像特征向量后,利用图像特征向量更新位置编码向量的操作具体包括:获取当前帧,其中,当前帧是指当前输入的实时视频流中的帧;若当前帧不是首帧,则根据当前帧与上一帧计算出差分帧;从差分帧中提取差分帧图像特征向量,并从当前帧中提取当前帧图像特征向量,其中,差分帧图像特征向量包含动态信息,当前帧图像特征向量包含静态信息;利用传播单元根据差分帧图像特征向量运算并更新位置编码向量;利用校准单元根据当前帧图像特征向量运算并再次更新位置编码向量。
48.具体来说,在追踪阶段利用当前帧、差分帧和传播与校准网络来更新位置编码向
量。追踪阶段的帧可以是实时获取的,即摄像单元获得一个帧就执行一次单步追踪。由于追踪阶段获取的帧图像都是需要后期进行解码的帧图像,因此需要对获取的每一帧进行处理。其中,差分帧(difference frame)是指实时视频流中每一帧与前一帧作差得到的“差异图像”。差分帧与当前帧(raw frame)的数据尺寸相同,但前者反映的是此时此刻的运动信息,而当前帧反映的是此时此刻的静态信息。当然,如果接收到的是首帧,则无法进行差分运算,因此一般来说从第二帧开始运算。但是如果在追踪阶段前面还包含其他阶段(例如后面的预热阶段),则此时对追踪阶段的首帧进行处理时可以将之前收到的帧当做前一帧。如图3所示,在追踪阶段,利用第t帧f
t
(当前帧)与第t-1帧f
t-1
(前一帧)进行差分运算获得差分帧d
t-1
,分别根据差分帧和当前帧的图像特征向量进行传播和校准,并更新位置编码。图像特征向量是指一个隐含图像语义信息的高维向量,可以使用特征提取器从帧图像中提取,当前帧图像特征向量和差分帧图像特征向量是分别从当前帧和差分帧中提取的。传播和校准单元是传播与校准网络(pac-net)的基本组件,其中包括两套结构相同但不共享权重的子模块,称为传播单元(propagate-cell)和校准单元(calibrate-cell),分别用于传播和校准位置编码向量。这里“不共享权重”是指子模块之间相互独立,具有不同的内部参数,因而可以发挥不同的作用。使用传播单元,可以借助从差分帧中提取的蕴含动态信息的特征向量更新位置编码向量;使用校准单元可以借助从当前帧中提取的蕴含静态信息的特征向量更新位置编码向量的过程。追踪阶段的传播和校准单元不共享权重,相互独立且具有不同的内部参数,可以发挥不同的作用。追踪阶段中利用传播和校准网络执行的流程图如图4所示。
49.在一个可选的实施方式中,在追踪操作中,从差分帧中提取差分帧图像特征向量,并从当前帧中提取当前帧图像特征向量包括:采用第一残差神经网络从差分帧中提取差分帧图像特征向量,采用第二残差神经网络从当前帧中提取当前帧图像特征向量,其中第一残差神经网络与第二残差神经网络不共享权重;利用传播单元根据差分帧图像特征向量运算并更新位置编码向量包括:传播单元利用第一递归神经网络根据差分帧图像运算包含的动态信息以及当前的位置编码向量进行运算,利用运算的结果更新位置编码向量;利用校准单元根据当前帧图像特征向量运算并再次更新位置编码向量包括:校准单元利用第二递归神经网络根据当前帧图像运算包含的静态信息以及当前的位置编码向量进行运算,利用运算的结果更新位置编码向量,其中,第一递归神经网络和第二递归神经网络不共享权重。具体来说,如图4所示的传播与校准网络执行的流程图中,本实施方式在追踪阶段提取特征的步骤中也使用了两个不共享权重的残差神经网络(resnet-18)的骨干部分作为特征提取器,分别用于提取差分帧和当前帧的特征向量;在传播和校准的步骤中也使用了两个不共享权重的门控递归单元gru对位置编码向量进行传播和校准操作。resnet-18是一种卷积神经网络cnn,gru是一种递归神经网络rnn的单元,它们的运作方式分别可以被形式化地描述如下:
50.f=cnn(i)
51.h
t+1
=rnn(h
t
,f)
52.其中,i表示被提取特征的帧图像,f表示帧图像i的图像特征向量,h
t
表示每次更新前的位置编码向量,h
t+1
表示每次更新后的的位置编码向量。
53.在本实施例的追踪单元603中,通过引入差分帧和专门设计的传播与校准网络,将
差分帧作为运动信息的载体来补充对追踪任务至关重要的运动信息,显式地补充了运动信息。而传播与校准网络交替地从差分帧中提取信息用于传播和从当前帧中提取信息进行校准,利用递归神经网络显式地建模连续运动,解决了非视域实时追踪问题中忽略运动信息和运动连续性先验导致的追踪精度不理想、平稳性差的问题,提升了追踪精度和轨迹平稳度。
54.解码器604,用于在每接收到一个位置编码向量后,对将接收到的位置编码向量进行解码,得到每个位置编码向量对应的实时坐标信息。具体来说,解码器604可以使用多层感知机mlp,将位置编码向量解码为位置坐标。在一个可选的实施方式中,当解码器604完成解码后,还根据每个位置编码向量对应的实时坐标信息动态还原出非视域目标的行动轨迹。通过将每一帧对应的位置坐标依次相连,从而形成一条实时追踪轨迹,实时重建非视域目标的轨迹。
55.本实施例提供的被动式非视域目标实时定位跟踪系统,仅利用摄像单元601实时拍摄实时视频,通过追踪单元603实时更新视频中每帧图像包含的位置编码向量,然后使用解码器604将位置编码向量实时地解码为该帧对应的位置坐标,从而达到实时追踪的目的。本实施例的被动式非视域目标实时定位跟踪系统通过采用纯被动式方案,降低了布局成本,解决了非视域追踪问题中主动式方法成本高、实验条件苛刻导致的难以部署和应用的问题。在具体的实施方式中,还可以在追踪单元603中引入差分帧和专门设计的传播与校准网络,解决非视域实时追踪问题中忽略运动信息和运动连续性先验导致的追踪精度不理想、平稳性差的问题,提升追踪精度和轨迹平稳度。
56.在一个可选的实施方式中,本实施例的被动式非视域目标实时定位跟踪系统还可以包括预热单元用于执行预热操作,通过预热操作为追踪单元603提供一个精准的当前位置编码向量。具体来说,预热单元执行预热操作具体包括:接收逐帧输入的实时视频流中的前w个帧,逐个获得前w个帧中的每个帧包含的图像特征向量,利用前w个帧中的每个帧包含的图像特征向量更新位置编码向量,获取预热完成后的位置编码向量,其中,预热完成后的位置编码向量是指在预热操作中最后一次被更新的位置编码向量,w≥1且为正整数。
57.具体来说,预热操作其运算方式与追踪操作中类似,但是预热操作的目的在于在开始追踪前提供精准的位置编码向量。图5示出了当采用本实施方式中的预热和追踪两段式处理执行方法。如图5所示,预热阶段和追踪阶段分别对实时视频流中的每一帧进行一次单步追踪,在单步追踪中更新位置编码向量。预热阶段和追踪阶段可以采用相同的运算方式,但两个阶段相互独立,且不共享权重。要执行预热操作的帧可以是一次性逐个获取的,也可以是实时获取的。实时视频流中的1~w帧用于预热,其不参与后续追踪操作的解码,这是因为位置编码向量所代表的位置信息一开始可能并不准确,在预热阶段对位置编码向量进行进一步校准,在预热的过程中使得位置编码向量逐步精准,最终使其能够基本接近真实的位置信息。预热阶段所需要的帧的数量即w的数值受到追踪场景的复杂程度、房间环境复杂程度等因素的影响,因此w的值根据不同的追踪环境取值不同。在实际的操作中,可以预先通过训练找到合适的w值,等到正式应用场景中,要预先设定到w值。一般来说,w值可以取32或者48,即取32帧或者48帧作为预热阶段的帧。通过预热操作,可以为后续的追踪阶段提供一个较为精准的位置编码向量,提高了追踪的准确性。
58.在一个具体的实施方式中,接收逐帧输入的实时视频流中的前w个帧,逐个获得前
w个帧中的每个帧包含的图像特征向量,利用前w个帧中的每个帧包含的图像特征向量更新位置编码向量,获取预热完成后的位置编码向量具体包括:获取当前帧,其中,当前帧是指当前输入的实时视频流中前w个帧中的帧;若当前帧不是前w个帧的首帧,则根据当前帧与上一帧计算出差分帧;从差分帧中提取差分帧图像特征向量,并从当前帧中提取当前帧图像特征向量,其中,差分帧图像特征向量包含动态信息,当前帧图像特征向量包含静态信息;利用传播单元根据差分帧图像特征向量运算并更新位置编码向量;利用校准单元根据当前帧图像特征向量运算并再次更新位置编码向量;若当前帧是前w个帧的尾帧,则在利用校准单元根据当前帧图像特征向量运算并再次更新位置编码向量之后,输出预热完成后的位置编码向量。
59.具体来说,预热阶段对于获取的第一帧不进行处理,从第二帧开始处理,一直处理至获取到第w帧后输出预热完成的位置编码向量。其中,差分帧(difference frame)是指实时视频流中每一帧与前一帧作差得到的“差异图像”。差分帧与当前帧(raw frame)的数据尺寸相同,但前者反映的是此时此刻的运动信息,而当前帧反映的是此时此刻的静态信息。如图5所示,利用第2帧f2(当前帧)与第1帧f1(前一帧)进行差分运算获得差分帧d1。图像特征向量是指一个隐含图像语义信息的高维向量,可以使用特征提取器从帧图像中提取,当前帧图像特征向量和差分帧图像特征向量是分别从当前帧和差分帧中提取的。传播和校准单元是传播与校准网络(pac-net)的基本组件,其中包括两套结构相同但不共享权重的子模块,称为传播单元(propagate-cell)和校准单元(calibrate-cell),分别用于传播和校准位置编码向量。这里“不共享权重”是指子模块之间相互独立,具有不同的内部参数,因而可以发挥不同的作用。使用传播单元,可以借助从差分帧中提取的蕴含动态信息的特征向量更新位置编码向量;使用校准单元可以借助从当前帧中提取的蕴含静态信息的特征向量更新位置编码向量的过程。预热阶段采用的传播与校准网络执行的流程图也如图4所示。
60.在一个可选的实施方式中,在预热操作中,从差分帧中提取差分帧图像特征向量,并从当前帧中提取当前帧图像特征向量包括:采用第一残差神经网络从差分帧中提取差分帧图像特征向量,采用第二残差神经网络从当前帧中提取当前帧图像特征向量,其中第一残差神经网络与第二残差神经网络不共享权重;利用传播单元根据差分帧图像特征向量运算并更新位置编码向量包括:传播单元利用第一递归神经网络根据差分帧图像运算包含的动态信息以及当前的位置编码向量进行运算,利用运算的结果更新位置编码向量;利用校准单元根据当前帧图像特征向量运算并再次更新位置编码向量包括:校准单元利用第二递归神经网络根据当前帧图像运算包含的静态信息以及当前的位置编码向量进行运算,利用运算的结果更新位置编码向量,其中,第一递归神经网络和第二递归神经网络不共享权重。具体来说,如图4所示的传播与校准网络执行的流程图中,本实施方式在提取特征的步骤中使用了两个不共享权重的残差神经网络(resnet-18)的骨干部分作为特征提取器,分别用于提取差分帧和当前帧的特征向量;在传播和校准的步骤中使用了两个不共享权重的门控递归单元(gated recurrent units,gru)对位置编码向量进行传播和校准操作。resnet-18是一种卷积神经网络(convolutional neural network,cnn),gru是一种递归神经网络(recurrent neural network,rnn)的单元,它们的运作方式分别可以被形式化地描述如下:
61.f=cnn(i)
62.h
t+1
=rnn(h
t
,f)
63.其中,i表示被提取特征的帧图像,f表示帧图像i的图像特征向量,h
t
表示每次更新前的位置编码向量,h
t+1
表示每次更新后的的位置编码向量。
64.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
65.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
66.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
67.此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
68.上述提到的存储介质可以是只读存储器,磁盘或光盘等。
69.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
70.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1