一种利用动态场景内交互作用介质的未来预测方法与流程

文档序号：11775435阅读：214来源：国知局

本发明涉及动作预测领域，尤其是涉及了一种利用动态场景内交互作用介质的未来预测方法。

背景技术：

根据过往行为轨迹进行来预测未来该场景对此轨迹的响应，即未来事件预测，是近年来吸引极大关注的议题。在大数据日益流行的背景下，人机交互、机器人导航等会遇见许多前所未有的场景，运用未来预测方法，可极大程度训练智能设备进行当前场景与任务的实时分配与实施，同时对于任务量巨大的领域，如人群监控、资源勘探等具备硬件设施的场景将会有极高的应用潜力，此外，在多任务指挥系统分布协调、多种交通工具防撞应急措施、自然灾害逃生线路预警管理等方面也有不可估量的人文及市场价值。

未来预测仍然是一个很高难度的挑战性问题。由于任务中涉及的场景既包含视觉上的维度，也包含了逻辑上的考量，同时还赋予这个任务智能识别的功能，需要极高数据量的训练测试过程。一方面，时空不恒定性给视觉接收造成了模糊影响，同时数据量的负责程度导致的计算量增大会导致实时效果的降低，另一方面，太多相互作用的介质产生相互影响，无法一一剥离进行定量分析，因此对动作的预测判断造成了难度。

本发明提出了一种基于逆向最优控制的长期有利决策新框架。首先使用条件变分自编码器来生成假设预测的多样本，接着利用基于逆向最优控制框架的长期有利决策方法进行样本的评分排序及完善处理，引入循环神经网络对图像环境、活动的介质进行场景融合，得到的结果再反馈到解码器中进行迭代。本发明可以处理动态或者静态的场景中某一介质的未来事件预测活动，提供一个循环神经网络集合来生成、排序和改善样本，显著地取得预测的精确效果。

技术实现要素：

针对解决在复杂场景多相互作用介质中预测未来动作的问题，本发明的目的在于提供一种利用动态场景内交互作用介质的未来预测方法，提出了一种基于逆向最优控制的长期有利决策新框架。

为解决上述问题，本发明提供一种利用动态场景内交互作用介质的未来预测方法，其主要内容包括：

(一)多样本生成；

(二)样本排序与完善；

(三)场景融合。

其中，所述的多样本生成，包括一般模型构造和条件变分自编码器。

进一步地，所述的一般模型构造，对于某场景内在发生事件中起交互作用的物体，不管静止或者运动，称之为介质，如果给定n个介质，它们的过往行动轨迹x＝<x1,x2,…,xn>，计算出它们的未来行为轨迹y＝<y1,y2,…,yn>的各自概率则为p<y|x,i>，特别地，i为该场景下一刻的输入，依照输入得到的最大概率输出作为预测轨迹。

进一步地，所述的条件变分自编码器，利用深度生成模型来学习一个决策函数f，该函数将过往行动轨迹x和输入i映射到未来行为轨迹y上，具体地：

(1)引入随机潜变量zi，在输入xi的条件下，学习到输出yi的概率分布为p(yi|xi)，此过程搭建相应的神经网络分别为识别网络qφ(zi|yi,xi)、条件先验网络pv(zi|xi)以及生成网络pθ(yi|xi,zi)；

(2)在训练阶段：①分别用两个循环神经网络对介质i、xi和yi进行编码，得到两个结果②将这两个结果合并再传递到一层使用非线性激活函数的全连接网络；③再用并行的两个全连接网络生成关于zi的均值和标准差依其建模成高斯分布模型，并且用kl散度进行归一化处理；④提出两个损失函数对自编码器调整，分别为重建损失函数和kl散度损失函数lkld＝dkl(qφ(zi|yi，xi)||pv(zi))；

(3)在测试阶段：①由于未来预测轨迹不适用而被舍弃，因此利用过往轨迹和多个潜变量zi^(k)样本合并；②与训练阶段相对，此时和β(zi^(k))输入到循环神经网络解码器中产生多个预测的假设集合。

进一步地，所述的样本排序与完善，包括样本评价完善和迭代反馈两部分。

进一步地，所述的样本评价完善，对于未来事件预测，采用增强学习框架中的决策制定方法，一个介质在训练后会选择了一个长期奖励最大化的动作去实施作为未来的事件，此时设计一个循环神经网络模型去对每个训练中做出的预测进行长期积累奖励的测量，具体为：

(1)对介质i评分，有k个预测样本则每个样本的评价分数s可有：

其中，是指除i以外其他所有介质的预测样本，是介质i在时间t的预测样本，是知道时间戳t之前所有的预测样本，ψ是分配给每一个时间步骤t的奖励函数，该函数是用连接到循环神经网络的全连接网络层实现的；

(2)对介质i完善，在评分过程中，循环神经网络模型同时估计出一个回归向量该估计过程使用的回归函数η为：

其中，回归函数η会积累所有过往的场景环境及所有交互作用介质的动态，同时在整个时间维度上估计出最佳的

进一步地，所述的迭代反馈，使用公式(2)得到最佳回归替换向量去逐渐完善预测的假设集合具体为：

(1)每次迭代，都被更新为然后输送到逆向最优控制模块；

(2)在逆向最优控制训练内的排序及完善模块，它们有两种损失项，分别为：交叉熵损失项lce＝h(p,q)，其中q由激活函数得到，即回归损失项

(3)对神经网络中的一个训练批次，其全部多任务损失项为：

其中，n为该批次介质的个数。

进一步地，所述的场景融合，包括上下文嵌入和交互特征。

进一步地，所述的上下文嵌入，使用循环神经网络，在每一个时间戳t上接受以下输入xt：

其中，是在t时刻的速度，γ是一层带有非线性激活函数的全连接层，它把速度映射到高维表征空间，将位于的卷积神经网络特征ρ(i)进行池化操作，r通过一个融合层，将其他介质空域上的隐藏向量聚集起来，自嵌入向量作为循环神经网络的初始化隐藏状态向量。

进一步地，所述的交互特征，使用利用池化层操作的空域网格操作，使不同介质不同样本之间的相互作用不至消失，具体为：在时刻t的介质i，其样本k的空域网格单元以为中心，则对每一个网格单元g，其内全部隐藏的特征都将进行平均池化操作。

附图说明

图1是本发明一种利用动态场景内交互作用介质的未来预测方法的系统流程图。

图2是本发明一种利用动态场景内交互作用介质的未来预测方法的例子。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种利用动态场景内交互作用介质的未来预测方法的系统流程图。主要包括数据输入；多样本生成；样本排序与完善；场景融合。

其中，多样本生成，包括一般模型构造和条件变分自编码器。

一般模型构造，对于某场景内在发生事件中起交互作用的物体，不管静止或者运动，称之为介质，如果给定n个介质，它们的过往行动轨迹x＝<x1,x2,…,xn>，计算出它们的未来行为轨迹y＝<y1,y2,…,yn>的各自概率则为p<y|x,i>，特别地，i为该场景下一刻的输入，依照输入得到的最大概率输出作为预测轨迹。

所述的条件变分自编码器，利用深度生成模型来学习一个决策函数f，该函数将过往行动轨迹x和输入i映射到未来行为轨迹y上，具体地：

样本排序与完善，包括样本评价完善和迭代反馈两部分。

样本评价完善，对于未来事件预测，采用增强学习框架中的决策制定方法，一个介质在训练后会选择了一个长期奖励最大化的动作去实施作为未来的事件，此时设计一个循环神经网络模型去对每个训练中做出的预测进行长期积累奖励的测量，具体为：

(1)对介质i评分，有k个预测样本则每个样本的评价分数s可有：

(2)对介质i完善，在评分过程中，循环神经网络模型同时估计出一个回归向量该估计过程使用的回归函数η为：

其中，回归函数η会积累所有过往的场景环境及所有交互作用介质的动态，同时在整个时间维度上估计出最佳的

迭代反馈，使用公式(2)得到最佳回归替换向量去逐渐完善预测的假设集合具体为：

(1)每次迭代，都被更新为然后输送到逆向最优控制模块；

(2)在逆向最优控制训练内的排序及完善模块，它们有两种损失项，分别为：交叉熵损失项lce＝h(p,q)，其中q由激活函数得到，即回归损失项

(3)对神经网络中的一个训练批次，其全部多任务损失项为：

其中，n为该批次介质的个数。

场景融合，包括上下文嵌入和交互特征。

上下文嵌入，使用循环神经网络，在每一个时间戳t上接受以下输入xt：

交互特征，使用利用池化层操作的空域网格操作，使不同介质不同样本之间的相互作用不至消失，具体为：在时刻t的介质i，其样本k的空域网格单元以为中心，则对每一个网格单元g，其内全部隐藏的特征都将进行平均池化操作。

图2是本发明一种利用动态场景内交互作用介质的未来预测方法的例子。如图所示，可以观察到通过不同的迭代次数，模型学习到的反馈逐渐加强，预测的路线也越来越靠近真实的路线，即加点粗线。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：夏春秋
技术所有人：深圳市唯特视科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。