本发明涉及动作预测领域,尤其是涉及了一种利用动态场景内交互作用介质的未来预测方法。
背景技术:
根据过往行为轨迹进行来预测未来该场景对此轨迹的响应,即未来事件预测,是近年来吸引极大关注的议题。在大数据日益流行的背景下,人机交互、机器人导航等会遇见许多前所未有的场景,运用未来预测方法,可极大程度训练智能设备进行当前场景与任务的实时分配与实施,同时对于任务量巨大的领域,如人群监控、资源勘探等具备硬件设施的场景将会有极高的应用潜力,此外,在多任务指挥系统分布协调、多种交通工具防撞应急措施、自然灾害逃生线路预警管理等方面也有不可估量的人文及市场价值。
未来预测仍然是一个很高难度的挑战性问题。由于任务中涉及的场景既包含视觉上的维度,也包含了逻辑上的考量,同时还赋予这个任务智能识别的功能,需要极高数据量的训练测试过程。一方面,时空不恒定性给视觉接收造成了模糊影响,同时数据量的负责程度导致的计算量增大会导致实时效果的降低,另一方面,太多相互作用的介质产生相互影响,无法一一剥离进行定量分析,因此对动作的预测判断造成了难度。
本发明提出了一种基于逆向最优控制的长期有利决策新框架。首先使用条件变分自编码器来生成假设预测的多样本,接着利用基于逆向最优控制框架的长期有利决策方法进行样本的评分排序及完善处理,引入循环神经网络对图像环境、活动的介质进行场景融合,得到的结果再反馈到解码器中进行迭代。本发明可以处理动态或者静态的场景中某一介质的未来事件预测活动,提供一个循环神经网络集合来生成、排序和改善样本,显著地取得预测的精确效果。
技术实现要素:
针对解决在复杂场景多相互作用介质中预测未来动作的问题,本发明的目的在于提供一种利用动态场景内交互作用介质的未来预测方法,提出了一种基于逆向最优控制的长期有利决策新框架。
为解决上述问题,本发明提供一种利用动态场景内交互作用介质的未来预测方法,其主要内容包括:
(一)多样本生成;
(二)样本排序与完善;
(三)场景融合。
其中,所述的多样本生成,包括一般模型构造和条件变分自编码器。
进一步地,所述的一般模型构造,对于某场景内在发生事件中起交互作用的物体,不管静止或者运动,称之为介质,如果给定n个介质,它们的过往行动轨迹x=<x1,x2,…,xn>,计算出它们的未来行为轨迹y=<y1,y2,…,yn>的各自概率则为p<y|x,i>,特别地,i为该场景下一刻的输入,依照输入得到的最大概率输出作为预测轨迹。
进一步地,所述的条件变分自编码器,利用深度生成模型来学习一个决策函数f,该函数将过往行动轨迹x和输入i映射到未来行为轨迹y上,具体地:
(1)引入随机潜变量zi,在输入xi的条件下,学习到输出yi的概率分布为p(yi|xi),此过程搭建相应的神经网络分别为识别网络qφ(zi|yi,xi)、条件先验网络pv(zi|xi)以及生成网络pθ(yi|xi,zi);
(2)在训练阶段:①分别用两个循环神经网络对介质i、xi和yi进行编码,得到两个结果
(3)在测试阶段:①由于未来预测轨迹
进一步地,所述的样本排序与完善,包括样本评价完善和迭代反馈两部分。
进一步地,所述的样本评价完善,对于未来事件预测,采用增强学习框架中的决策制定方法,一个介质在训练后会选择了一个长期奖励最大化的动作去实施作为未来的事件,此时设计一个循环神经网络模型去对每个训练中做出的预测
(1)对介质i评分,有k个预测样本
其中,
(2)对介质i完善,在评分过程中,循环神经网络模型同时估计出一个回归向量
其中,回归函数η会积累所有过往的场景环境及所有交互作用介质的动态,同时在整个时间维度上估计出最佳的
进一步地,所述的迭代反馈,使用公式(2)得到最佳回归替换向量
(1)每次迭代,
(2)在逆向最优控制训练内的排序及完善模块,它们有两种损失项,分别为:交叉熵损失项lce=h(p,q),其中q由激活函数得到,即
(3)对神经网络中的一个训练批次,其全部多任务损失项为:
其中,n为该批次介质的个数。
进一步地,所述的场景融合,包括上下文嵌入和交互特征。
进一步地,所述的上下文嵌入,使用循环神经网络,在每一个时间戳t上接受以下输入xt:
其中,
进一步地,所述的交互特征,使用利用池化层操作的空域网格操作,使不同介质不同样本之间的相互作用不至消失,具体为:在时刻t的介质i,其样本k的空域网格单元以
附图说明
图1是本发明一种利用动态场景内交互作用介质的未来预测方法的系统流程图。
图2是本发明一种利用动态场景内交互作用介质的未来预测方法的例子。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种利用动态场景内交互作用介质的未来预测方法的系统流程图。主要包括数据输入;多样本生成;样本排序与完善;场景融合。
其中,多样本生成,包括一般模型构造和条件变分自编码器。
一般模型构造,对于某场景内在发生事件中起交互作用的物体,不管静止或者运动,称之为介质,如果给定n个介质,它们的过往行动轨迹x=<x1,x2,…,xn>,计算出它们的未来行为轨迹y=<y1,y2,…,yn>的各自概率则为p<y|x,i>,特别地,i为该场景下一刻的输入,依照输入得到的最大概率输出作为预测轨迹。
所述的条件变分自编码器,利用深度生成模型来学习一个决策函数f,该函数将过往行动轨迹x和输入i映射到未来行为轨迹y上,具体地:
(1)引入随机潜变量zi,在输入xi的条件下,学习到输出yi的概率分布为p(yi|xi),此过程搭建相应的神经网络分别为识别网络qφ(zi|yi,xi)、条件先验网络pv(zi|xi)以及生成网络pθ(yi|xi,zi);
(2)在训练阶段:①分别用两个循环神经网络对介质i、xi和yi进行编码,得到两个结果
(3)在测试阶段:①由于未来预测轨迹
样本排序与完善,包括样本评价完善和迭代反馈两部分。
样本评价完善,对于未来事件预测,采用增强学习框架中的决策制定方法,一个介质在训练后会选择了一个长期奖励最大化的动作去实施作为未来的事件,此时设计一个循环神经网络模型去对每个训练中做出的预测
(1)对介质i评分,有k个预测样本
其中,
(2)对介质i完善,在评分过程中,循环神经网络模型同时估计出一个回归向量
其中,回归函数η会积累所有过往的场景环境及所有交互作用介质的动态,同时在整个时间维度上估计出最佳的
迭代反馈,使用公式(2)得到最佳回归替换向量
(1)每次迭代,
(2)在逆向最优控制训练内的排序及完善模块,它们有两种损失项,分别为:交叉熵损失项lce=h(p,q),其中q由激活函数得到,即
(3)对神经网络中的一个训练批次,其全部多任务损失项为:
其中,n为该批次介质的个数。
场景融合,包括上下文嵌入和交互特征。
上下文嵌入,使用循环神经网络,在每一个时间戳t上接受以下输入xt:
其中,
交互特征,使用利用池化层操作的空域网格操作,使不同介质不同样本之间的相互作用不至消失,具体为:在时刻t的介质i,其样本k的空域网格单元以
图2是本发明一种利用动态场景内交互作用介质的未来预测方法的例子。如图所示,可以观察到通过不同的迭代次数,模型学习到的反馈逐渐加强,预测的路线也越来越靠近真实的路线,即加点粗线。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。