用于运动预测的增强混合注意的系统和方法与流程

文档序号:30081501发布日期:2022-05-18 04:29阅读:79来源:国知局
用于运动预测的增强混合注意的系统和方法与流程
用于运动预测的增强混合注意的系统和方法
1.相关申请
2.本技术要求于2020年11月13日提交的申请序列号为63/113668(代理人案卷号为49258)、名称为“用于运动预测的增强混合注意的系统和方法(systems and methods for reinforced hybrid attention for motion forecasting)”的美国临时专利申请的优先权,上述申请的全文通过引用并入本文。


背景技术:

3.近年来,运动预测在诸如物理系统、人类骨骼和多代理交互系统(如交通参与者、体育运动员等)的各个领域得到了广泛的研究。过去,运动预测是基于观测进行的。然而,观测通常被视为在所有情况下都具有相同的重要性。例如,当在高速公路上改变车道时,宿主车辆可以收集关于在高速公路上与宿主车辆在相同纵向方向上行驶的邻近车辆的观测。宿主车辆还可以收集关于与宿主车辆相比在相反的纵向方向上移动并且通过屏障与宿主车辆分开的附加车辆的信息。尽管如此,所收集的关于邻近车辆和附加车辆的观测可以用于预测影响宿主车辆的运动,因为即使这些观测与宿主车辆的运动无关,所有的观测也都被视为同等重要。
4.为了解决被视为与相关观测同等重要的不相关观测,现有系统预先定义将包括固定数量的元素,从而不顾背景而任意地限制系统。


技术实现要素:

5.根据一个实施方案,提供了一种用于运动预测的增强混合注意的系统。提供了用于运动预测的增强混合注意的系统。该系统包括传感器模块、硬注意模块、软注意模块和运动模块。传感器模块接收与环境中的至少一个元素相关联的时空历史观测。硬注意模块基于强化学习模型从与至少一个元素相关联的时空历史观测中选择信息。软注意通过对选定信息应用注意权重来生成分级信息。运动模块基于分级信息生成运动预测。
6.根据另一实施方案,提供了一种用于运动预测的增强混合注意的方法。该方法包括接收与环境中的至少一个元素相关联的时空历史观测。该方法还包括基于强化学习模型从与至少一个元素相关联的时空历史观测中选择信息。该方法还包括通过对选定信息应用注意权重来生成分级信息。该方法还包括基于分级信息生成运动预测。
7.根据又一实施方案,一种存储指令的非暂态计算机可读存储介质,当由具有处理器的计算机执行指令时,使得计算机执行用于运动预测的增强混合注意的方法。该方法包括接收与环境中的至少一个元素相关联的时空历史观测。该方法还包括基于强化学习模型从与至少一个元素相关联的时空历史观测中选择信息。该方法还包括通过对选定信息应用注意权重来生成分级信息。该方法还包括基于分级信息生成运动预测。
附图说明
8.图1是根据一个方面的用于运动预测的增强混合注意的系统的示例性操作环境。
9.图2是根据一个方面的用于运动预测的增强混合注意的系统的示例性车辆实施方案。
10.图3是根据一个方面的用于运动预测的增强混合注意的方法的示例性处理流程。
11.图4是根据一个方面的用于运动预测的增强混合注意的系统的框架的示例性图形表示。
12.图5是根据一个方面的用于运动预测的增强混合注意的方法的另一示例性处理流程。
13.图6是根据一个方面的示例计算机可读介质或计算机可读装置的图示,该计算机可读介质或计算机可读装置包括被配置为体现本文阐述的规定中的一个或更多个的处理器可执行指令。
具体实施方式
14.如上所述,基于历史时空观测来预测未来状态序列由于历史时空观测的重要性水平不同而变得复杂。此外,历史时空观测的关键信息可能会随着形势的发展而变化。本文提供的系统和方法基于空间关系或时间依赖性从历史时空观测中选择信息。
15.在高速公路场景中,宿主车辆可以收集关于在高速公路上与宿主车辆在相同纵向方向上行驶的邻近车辆的历史时空观测。宿主车辆还可以收集关于与宿主车辆相比在相反的纵向方向上移动并且通过屏障与宿主车辆分开的附加车辆的历史时空观测。因此,宿主车辆接收关于邻近车辆和附加车辆的历史时空观测。
16.转到人类运动实施方案,可以观测到一个或多个人类的运动。例如,历史时空观测可以包括人类的运动以及诸如关节位置和肢体相对角度的其他元素。
17.为了从历史时空观测中选择信息,本文的系统和方法采用了混合注意机制。具体地,软注意和硬注意均可以使用。可以通过以下来执行软注意:将分数函数应用于输入特征,随后应用软最大值(softmax)函数以获得在[0,1]范围内的注意权重。这些操作是完全可微分的,可以利用典型的基于梯度的优化器通过基于梯度的反向传播来训练。可以执行硬注意以排除不相关或不重要的元素。例如,假设软最大值函数将非零注意权重分配给不相关或不重要的元素,这会稀释给予真正重要的信息的注意。硬注意机制可能导致预测模型丢弃不相关或不重要的元素并且减少冗余。
[0018]
与预先定义固定数量的元素来建模的现有方法相反,使用多种注意机制允许使用具有不同数量的元素的一整套历史时空观测。继续上面的示例,宿主车辆在道路上的运动可能在不同时间受到不同数量的邻近车辆的影响。因此,固定数量的选定元素可能是多余的或不足的。因此,强化学习(rl)可以在严格注意的情况下应用,以便不对用于预测的元素数量施加任何约束。因为选定信息可能仍然处于不同的重要性或影响水平,软注意充当排序机制来进一步区分相对重要性。
[0019]
此外,分级信息可用于生成运动预测,运动预测进而提供基于信息性和稳定奖励的性能度量。在训练阶段,诸如硬注意模块和软注意模块的模型组件交替优化。交替训练策略涉及强化学习和基于梯度的反向传播两者,以交替改进模块。
[0020]
定义
[0021]
以下包括本文采用的选定术语的定义。定义包括落入某个术语的范围内的并且可
用于实施方式的部件的各种示例和/或形式。这些示例并非旨在进行限制。此外,本文讨论的组件可以与其他组件组合、省略或组织成不同的架构。
[0022]
本文使用的“代理”可以是移动穿过或调控环境的生物或生物推进式机器。示例性代理可以包括但不限于人类、由人类驾驶的车辆或至少部分由人类操作的其他机器。可选地,该代理可以是移动穿过或调控环境的自推进式机器。示例性代理可以包括但不限于诸如自动或半自动车辆的机器人、车辆或其他自推进式机器。
[0023]
如本文使用的,“总线”指的是可操作地连接到计算机内部或计算机之间的其他计算机组件的互连架构。总线可以在计算机部件之间传输数据。总线可以是存储器总线、存储器处理器、外围总线、外部总线、纵横开关和/或本地总线等。总线也可以是车辆总线,该车辆总线使用诸如面向媒体的系统传输(most)、控制器局域网(can)、本地互连网络(lin)等协议来使车辆内部的组件互连。
[0024]
如本文使用的,“组件”指的是计算机相关的实体(例如,硬件、固件、执行中的指令及它们的组合)。计算机部件可包括例如在处理器上运行的进程、处理器、对象、可执行件、执行线程和计算机。计算机组件可以驻留在进程和/或线程中。计算机组件可以位于一台计算机上和/或可以分布在多台计算机之间。
[0025]
本文使用的“计算机通信”指的是两个或多个通信装置(例如,计算机、个人数字助理、蜂窝电话、网络装置、车辆、车辆计算装置、基础设施装置、路旁装备)之间的通信,并且可以是例如网络传输、数据传输、文件传输、小程序传输、电子邮件、超文本传输协议(http)传输等。计算机通信可以发生在具有任何类型配置的任何类型的有线或无线系统和/或网络上,例如,局域网(lan)、个人局域网(pan)、无线个人局域网(wpan)、无线网络(wan)、广域网(wan)、城域网(man)、虚拟专用网络(vpn)、蜂窝网络、令牌环网、点对点网络、自组织网络、移动自组织网络、车辆自组织网络(vanet)、车辆对车辆(v2v)网络、车辆对万物(v2x)网络、车辆对基础设施(v2i)网络等。计算机通信可以利用任何类型的有线、无线或网络通信协议,包括但不限于以太网(例如,ieee 802.3)、wifi(例如,ieee 802.11)、陆地移动通讯用通信接入(calm)、wimax、蓝牙、zigbee、超宽带(uwab)、多输入多输出(mimo)、电信和/或蜂窝网络通信(例如,sms、mms、3g、4g、lte、5g、gsm、cdma、wave)、卫星、专用短程通信(dsrc)等。
[0026]
本文使用的“通信接口”可以包括用于接收输入的输入和/或输出装置和/或用于输出数据的装置。输入和/或输出可以用于控制不同的车辆特征,包括各种车辆组件、系统和子系统。具体地,术语“输入装置”包括但不限于:键盘、麦克风、指向和选择装置、相机、成像装置、视频卡、显示器、按钮、旋钮等。术语“输入装置”另外包括发生在用户界面内的图形输入控制,其可以由各种类型的机制显示,该机制诸如基于软件和硬件的控件、接口、触摸屏、触摸板或即插即用装置。“输出装置”包括但不限于显示装置以及用于输出信息和功能的其他装置。
[0027]
本文使用的“计算机可读介质”指的是存储指令和/或数据的非暂态介质。计算机可读介质可以采取多种形式,包括但不限于非易失性介质和易失性介质。非易失性介质可以包括例如光盘、磁盘等。易失性介质可以包括例如半导体存储器、动态存储器等。计算机可读介质的常见形式可以包括但不限于软盘、柔性磁盘、硬盘、磁带、其他磁介质、asic、cd、其他光学介质、ram、rom、存储器芯片或卡、记忆棒以及计算机、处理器或其他电子装置可以
从中读取的其他介质。
[0028]
如本文使用的,“数据库”用于指代表。在其他示例中,“数据库”可以用于指代一组表。在其他示例中,“数据库”可以指代一组数据存储库和用于访问和/或调控那些数据存储库的方法。在一个实施方案中,数据库可以存储在例如磁盘、数据存储库和/或存储器中。数据库可以本地存储,或者远程存储并经由网络访问。
[0029]
本文使用的“数据存储库”可以是例如磁盘驱动器、固态硬盘驱动器、软盘驱动器、磁带驱动器、zip驱动器、闪存卡和/或记忆棒。此外,盘可以是cd-rom(压缩盘rom)、cd可记录驱动器(cd-r驱动器)、cd可重写驱动器(cd-rw驱动器)和/或数字视频rom驱动器(dvd-rom)。盘可以存储控制或分配计算装置的资源的操作系统。
[0030]
如本文使用的,“显示器”可以包括但不限于经常显示信息的led显示面板、lcd显示面板、crt显示器、触摸屏显示器等。显示器可以接收来自用户的输入(例如,触摸输入、键盘输入、来自各种其他输入装置的输入等)。显示器可以通过各种装置访问,例如,通过远程系统访问。显示器也可以物理地位于便携式装置、移动装置或主机上。
[0031]
如本文所用,“逻辑电路”包括但不限于硬件、固件、存储指令的非暂态计算机可读介质、在机器上执行的指令,和/或用于引起(例如,执行)来自另一个逻辑电路、模块、方法和/或系统的动作的指令。逻辑电路可以包括和/或作为由算法控制的处理器、离散逻辑(例如,asic)、模拟电路、数字电路、编程逻辑装置、包含指令的存储器装置等的一部分。逻辑可以包括一个或多个门、门的组合或其他电路组件。当描述多个逻辑时,可以将多个逻辑合并到一个物理逻辑中。类似地,在描述单个逻辑的情况下,可以在多个物理逻辑之间分配单个逻辑。
[0032]
如本文使用的,“存储器”可以包括易失性存储器和/或非易失性存储器。非易失性存储器可以包括例如rom(只读存储器)、prom(可编程只读存储器)、eprom(可擦除prom)和eeprom(电可擦除prom)。易失性存储器可以包括例如ram(随机存取存储器)、同步ram(sram)、动态ram(dram)、同步dram(sdram)、双倍数据速率sdram(ddrsdram)和直接ram总线ram(drram)。存储器可以存储控制或分配计算装置的资源的操作系统。
[0033]
如本文使用的,“模块”包括但不限于存储指令的非暂态计算机可读介质、在机器上执行的指令、在机器上执行的硬件、固件、软件和/或它们的组合,以执行功能或动作,和/或引起来自另一模块、方法和/或系统的功能或动作。模块还可包括逻辑、软件控制微处理器、离散逻辑电路、模拟电路、数字电路、编程逻辑装置、包含执行指令的存储器装置、逻辑门、门组合,和/或其他电路部件。多个模块可组合成一个模块,并且单个模块可分布在多个模块之间。
[0034]“可操作连接”或使实体“可操作地连接”的连接是可以发送和/或接收信号、物理通信和/或逻辑通信的连接。可操作的连接可以包括无线接口、固件接口、物理接口、数据接口和/或电气接口。
[0035]
如本文使用的,“便携式装置”是通常具有带有用户输入(例如,触摸、键盘)的显示屏和用于计算的处理器的计算装置。便携式装置包括但不限于手持装置、移动装置、智能手机、笔记本电脑、平板电脑、电子阅读器、智能扬声器。在一些实施方案中,“便携式装置”可以指包括用于计算的处理器和/或用于远程接收和传输数据的通信接口的远程装置。
[0036]
如本文使用的,“处理器”处理信号并执行一般的计算和算术功能。由处理器处理
的信号可以包括可以被接收、传输和/或检测的数字信号、数据信号、计算机指令、处理器指令、消息、比特、比特流。一般来讲,处理器可以是多种处理器,包括多个单核和多核处理器和协处理器以及其他多个单核和多核处理器和协处理器架构。处理器可以包括执动作作和/或算法的逻辑电路。处理器还可以包括用于执行指令、任务或可执行文件的任意数量的模块。
[0037]
如本文使用的,“车辆”指的是能够搭载一个或多个用户并由任何形式的能量驱动的任何移动车辆。术语“车辆”包括但不限于汽车、卡车、货车、小型货车、suv、摩托车、踏板车、船只、卡丁车、游乐车、铁路运输、个人船只和飞机。在一些情况中,机动车辆包括一个或多个发动机。此外,术语“车辆”可以指的是能够搭载一个或多个用户并且完全地或部分地由电池供电的一个或多个马达供电的电动车辆(ev)。ev可包括电池动力电动车辆(bev)和插电式混合动力电动车辆(phev)。另外,术语“车辆”可还是指由任何形式的能量提供动力的自主车辆和/或自行驾驶车辆。自动驾驶车辆可以搭载一个或多个用户。此外,术语“车辆”可包括具有预定路径的自动化或非自动的车辆或自由移动的车辆。
[0038]
如本文使用的,“车辆系统”可包括但不限于可用于增强车辆、驾驶和/或安全性的任何自动或手动系统。示例性车辆系统包括但不限于:电子稳定性控制系统、防抱死制动系统、制动辅助系统、自动制动预填充系统、低速跟随系统、巡航控制系统、碰撞警告系统、碰撞缓解制动系统、自动巡航控制系统、车道偏离警告系统、盲点指示器系统、车道保持辅助系统、导航系统、转向系统、传动系统、制动踏板系统,电子动力转向系统、视觉装置(例如,相机系统、接近传感器系统)、气候控制系统、监测系统、乘客检测系统、车辆悬架系统、车辆座椅配置系统、车辆车厢照明系统、音频系统、感觉系统、内部或外部相机系统等。
[0039]
i.系统概述
[0040]
现在参考附图,附图是为了说明一个或多个示例性实施方案,而不是为了限制这些实施方案。图1是根据一个方面的用于运动预测的增强混合注意的操作环境100的示例性组件图。操作环境100包括由总线108互连的传感器模块102、计算装置104和操作系统106。对于各种实施方案,操作环境100的组件以及本文讨论的其他系统、硬件架构和软件架构的组件可以被组合、省略或组织成不同的架构。
[0041]
计算装置104可以利用装置实施或者被远程存储。例如,相对于车辆实施方案,计算装置104可以被实施为图2所示道路200中的宿主车辆202的远程信息处理单元、头部单元、导航单元、信息娱乐单元、电子控制单元的一部分。
[0042]
在其他实施方案中,计算装置104的组件和功能可以例如利用经由网络(例如,网络130)连接的其他装置(例如,便携式装置)或另一装置来实施。计算装置104能够利用各种协议提供有线或无线计算机通信,以在内部向/从操作环境100的组件发送/接收电子信号。可选地,计算装置104可以经由总线108(例如,控制器局域网(can)或本地互连网络(lin)协议总线)可操作地连接用于内部计算机通信,以便于计算装置104与操作环境100的组件之间的数据输入和输出。
[0043]
计算装置104包括处理器112、存储器114、数据存储库116和通信接口118,它们各自经由总线108和/或其他有线和无线技术可操作地连接用于计算机通信。通信接口118提供软件和硬件以促进计算装置104的组件与其他组件、网络和数据源之间的数据输入和输出,这将在本文中描述。
[0044]
另外,计算装置104包括用于由操作环境100的组件促进的增强混合注意的硬注意模块120、软注意模块122和运动模块124。计算装置104还可以包括用于生成奖励的奖励模块126。在一个实施方案中,处理器112可以包括硬注意模块120、软注意模块122、运动模块124和奖励模块126。硬注意模块120、软注意模块122、运动模块124和奖励模块126可以是或包括作为机器学习的框架的人工神经网络,该机器学习包括深度学习、强化学习等。在一些实施方案中,一个或多个模块可以包括lstm网络(例如,e-lstm、g-lstm等)。
[0045]
计算装置104还可操作地连接到一个或多个操作系统106,用于计算机通信(例如,经由总线108和/或通信接口118)。操作系统106可包括但不限于可用于增强系统和方法的任何自动或手动系统。操作系统106包括路径规划模块128。路径规划模块128在某种程度上监测、分析和/或操作该装置。例如,路径规划模块128可以存储、计算和提供方向信息,并且促进诸如矢量化和避障等特征。操作系统106可以取决于实施方式。
[0046]
传感器模块102提供和/或感测与装置、操作环境100、操作系统106、物理环境、生物实体、代理等相关联的信息。传感器模块102可包括但不限于环境传感器、车辆速度传感器、加速器踏板传感器、制动传感器、车轮传感器等。在一些实施方案中,传感器模块102与操作系统106结合。
[0047]
因此,传感器模块102可操作来感测与装置、操作环境100、装置环境和/或操作系统106相关联的传感器数据110的测量,并且生成指示传感器数据110的测量结果的数据信号。这些数据信号可以被转换成其他数据格式(例如,数字格式)和/或被传感器模块102、计算装置104和/或操作系统106用来生成其他数据度量和参数。应当理解,传感器可以是任何类型的传感器,例如声学、电学、环境、光学、成像、光、压力、力、热、温度、接近度等。传感器数据110可以包括时空历史观测。
[0048]
传感器模块102、计算装置104和/或操作系统106也可操作地连接到网络130用于计算机通信。网络130例如是数据网络、互联网、广域网(wan)或局域网(lan)。网络130用作各种远程装置(例如,数据库、网络服务器、远程服务器、应用服务器、中间服务器、客户机、其他便携式装置)的通信介质。
[0049]
ii.不确定环境中的好奇代理(curious agent)的方法
[0050]
现在参考图3,现在将根据示例性实施方案描述用于运动预测的增强混合注意的方法300。将参考图1和图2描述图3。为了简单起见,方法300将被描述为一系列框,但是应当理解,方法300的元素可以被组织成不同的架构、元素、阶段和/或过程。
[0051]
在方法300的框302处,传感器模块102接收与环境中的至少一个元素相关联的时空历史观测。元素的类型可以基于实施方案的上下文。例如,在道路场景中,元素可以包括宿主车辆以及道路上的其他车辆、道路基础设施(例如,交通信号灯、交通标志、路面标记等)、屏障等。在骨骼场景中,元素可以包括肢体、关节等。
[0052]
转向车辆实施方案,宿主车辆202可以在道路200上行驶。道路200可以是道路、高速公路、快速公路或旅行路线中的任何类型。在图2中,道路200包括高速公路,该高速公路具有用于在第一纵向方向j1上行驶的两条车道和用于在第二纵向方向j2上行驶的两条车道。用于在第二纵向方向j2上行驶的两条车道还包括用于在第二纵向方向j2上行驶的相邻出口匝道。然而,应当理解,道路200可以具有图2中未示出的各种配置,并且可以具有任意数量的车道。
212的代理可以共享时空历史观测。例如,与宿主车辆202处于通信范围内的车辆204-212可以对时空历史观测进行通信。传感器模块102可以经由总线108、通信接口118和网络130等从宿主车辆202和其他车辆204-212接收时空历史观测。
[0061]
例如,车辆可以经由收发器(未示出)进行通信。收发器可以是射频(rf)收发器,可以用于将信息传输到传感器模块102和从传感器模块102接收信息。在一些实施方案中,计算装置104可以从传感器模块102接收信息和将信息传输到传感器模块102,该信息包括但不限于车辆数据、交通数据、道路数据、路缘数据、车辆位置和航向数据、高交通量事件时间表、天气数据或其他运输相关数据。在一些实施方案中,传感器模块102可以通过诸如网络130、路旁装备和/或其他网络连接的网络连接链接到多个车辆、其他实体、交通基础设施和/或装置。作为另一示例,车辆可以通过互联网云与传感器模块102通信,并且能够利用gsm、gprs、wi-fi、wimax或lte无线连接来直接通过云发送和接收传感器数据110、信号、数据等中的一者或多者。
[0062]
因为系统内的不同关系可能导致相似的观测,多个代理可以有助于时空历史观测分组402,如图4所示。例如,来自车辆202-212中的每个车辆的所有时空历史观测可以被包括在时空历史观测分组402中。在一个实施方案中,可以执行一轮消息传递,以收集也在图4中示出的跨fc图g的时空历史观测。跨fc图g传递的信息可以通过下式给出:
[0063][0064][0065]
其中fv是社交属性更新函数并且||表示级联操作。ni表示节点i的一个跳过邻居的集合。mlp指的是多层感知器。完整的节点属性为
[0066][0067]
回到图3,在框304处,方法300包括硬注意模块120基于强化学习模型从与至少一个元素相关联的时空历史观测中选择信息。硬注意模块120用作关键信息选择器,将完整的时空历史观测作为输入,并且从该时空历史观测中识别相关的观测。另外,硬注意模块120可以丢弃剩余的时空历史观测。以这种方式,硬注意模块120可以从时空历史观测中选择信息的子集。
[0068]
在多代理系统的上下文中,当预测某个代理的运动时,硬注意模块120识别影响因素。假设正在预测宿主车辆202的运动。硬注意模块120可以识别冲突区域216内的车辆204和车辆206是邻近的车辆,因此影响宿主车辆的运动。
[0069]
作为一个示例,可以基于时空历史观测来断言fc图中每个边的存在性,从而在预测中丢弃冗余信息。因此,边沿代表基于强化学习模型从与至少一个元素相关联的时空历史观测中选定信息。
[0070]
边沿的选择馈入到强化学习框架中。rl代理在rl步骤η(≤t
rl
)的观测o包括一对节点属性vi和vj以及当前边沿选择状态s
ij
(0:保留,或者1:丢弃)。t
rl
是rl步骤的上限。观测o
η
通过o
η
=[vi,vj,s
ij,η
]获得。o
η
的维数可能只取决于节点属性的维数,这使得它能够适用于具有不同数量的实体的系统。rl代理的策略网络以观测值o
η
为输入,并且决定当前rl步骤
的动作。
[0071]
对于rl代理存在两种可能的操作:“保持不变”(动作:0)和“变得相反”(动作:1)。在每个rl步骤中,rl代理针对fc图中的每条边沿做出决策。策略可以写成a=π(o)。对边沿的选择不强制约束,因此至少一个元素的元素数量是无界限的,因此对选定边沿的数量没有下限或上限。rl代理的动作可以在每个rl步骤之后改变推断图g

的拓扑,这进一步影响软注意模块122。因此,硬注意模块120从时空历史观测分组402中选择信息,而不是选择来自时空历史观测中的每一个的所有信息。该选择可以基于强化学习模型。特别地,强化学习模型可以被训练来辨别时空历史观测分组402的信息。
[0072]
强化学习模型可以被训练成基于奖励来确定时空历史观测的信息的相关性。一般来讲,奖励表明rl代理采取的动作相对于当前情况有多好。此处,奖励可以被设计成指示运动预测在各个方面的性能。对较高奖励的获得依赖于框架中所有模块的协作。
[0073]
在一些实施方案中,奖励包括三个部分:常规奖励r
reg
、改进奖励r
imp
和刺激/惩罚r
sti
/r
pun
。更具体地,常规奖励可以是通过以下方式计算的未来预测的负均方误差:
[0074][0075]
改进奖励经由对连续rl步骤之间的误差变化应用sin函数来帮助预测误差的降低,这是通过以下方式获得的:
[0076]rimp,η
=sin(r
reg,η
—r
reg,η-1
)。
[0077]
应用sin函数而不是直接使用原始改进的原因在于避免当改进向收敛方向变小时奖励消失。当某项度量有较大的改善或恶化时,采取激励/惩罚措施,该度量由下式给出:
[0078]rsti,η
=ωs,r
pun,η
=-ω
p
[0079]
其中ωs和ω
p
是手动定义的正常数。这些奖励取决于特定领域的度量。然后,整个奖励由下式计算:
[0080][0081]
其中β
imp
、β
sti
和β
pun
是超参数,并且是指示发生较大改善或恶化的指示函数。
[0082]
在方法300的框306处,软注意模块122通过将注意权重应用于选定信息来生成分级信息。例如,在硬注意模块120选择信息(在图4的图形表示400中被示为边沿)之后,软注意模块122被应用于推断的图g

,以进一步确定在每个时间步长的选定信息的相对重要性。相对重要性由注意权重给出。
[0083]
以时间步长t为例来示出软注意模块122。为了避免在符号上与硬注意模块120混淆,此处在时间t处的第i节点属性被表示为:
[0084][0085]
其中上下文属性如上所述,并且社会属性由图软注意机制计算如下:
[0086]
[0087]
其中是可学习的注意权重,并且mlp是多层感知器(mlp)。在一些实施方案中,多头注意也可以用于稳定训练,使得硬注意模块120和软注意模块并行操作若干次。因此,本文描述的系统和方法针对混合模型,该混合模型使用硬注意和软注意两者来识别作为与物理环境相关联的相关对象和特征的元素。
[0088]
在方法300的框308处,运动模块124基于分级信息生成运动预测。因此,运动模块124可以基于分级信息来预测运动。在一些实施方案中,运动模块124包括两个lstm网络(e-lstm/g-lstm),其间为软图注意。e-lstm在每个时间步长处获取代理状态信息和输出而g-lstm在当前时间t处获取完整节点属性和输出状态的预测变化该预测变化用于利用系统模型(例如,离散时间线性动力学)来计算状态更具体地,在时间t,
[0089]
嵌入:
[0090][0091]
生成:
[0092][0093]
其中和分别为e-lstm和g-lstm的隐藏状态。在一些实施方案中,该生成过程可以分为两个阶段:老化阶段(从t-th+1到t)和预测阶段(从t+1到t+tf)。在老化阶段,真实状态被馈入到e-lstm,而在预测阶段,所馈入的是最后的预测。如果推断图g

的拓扑被假设为随着时间保持静态,则可以使用单次生成来获得完整的未来轨迹作为运动预测。否则,可以首先生成某个未来水平τ《tf内的轨迹段,并且将预测段推入观测。这个过程可以迭代传播,以生成未来水平上的整个轨迹。因此,可以执行运动预测,以基于分级信息生成诸如宿主车辆202的元素的运动预测。运动预测可用于促进运动规划。例如,路径规划模块128可以使用运动预测来规划宿主车辆202的路径。
[0094]
转向图4,示出了示例性图形表示400。图形表示400包括图形消息传递(gmp)模块404、基于rl的硬注意(rl-ha)模块406和基于软图形注意的运动发生器(sga-mg)模块408,它们对应于关于操作环境100描述的模块。例如,传感器模块102可以包括gmp模块404,以收集时空历史观测分组402。硬注意模块120可以包括rl-ha模块406。同样,软注意模块122可包括sga-mg模块408。gmp模块404、rl-ha模块406和sgamg模块408紧密配合以改善运动模块124的最终预测性能。
[0095]
现在参考图5,现在将根据另一示例性实施方案描述用于运动预测的增强混合注意的方法500。还将参考图3和图4来描述图5。为简单起见,方法500将被描述为一系列框。与方法300的框相对应的方法500的框以类似于参考图3描述的方式操作。然而,将通过图4的示例性图形表示400的视角及其组件来描述图5的框。
[0096]
在此类实施方案中,对于特定目标实体的预测,在方法500的框302处,gmp模块404跨图g从其他实体接收时空历史观测。在方法500的框304处,从时空历史观测中选择信息。例如,rl-ha 406从完整的时空历史观测中辨别关键的相关元素。在方法500的框306处,对
选定关键信息进行分级。例如,选定信息被提供给sga-mg模块408,其中推断的关系图g

具有选定边沿,这自然结合了关系归纳偏差。sga-mg 408使用软注意权重对选定信息的相对重要性进行分级。在方法500的框308处,运动模块124生成未来轨迹。
[0097]
在方法500的框502处,奖励模块126基于性能度量针对未来运动假设生成奖励。奖励指示基于结果的预测有多好。例如,在训练阶段,预测和地面事实一起为rl-ha 406提供奖励,以指导rl边沿选择器的改进。gmp模块404被预先训练以收集整个图的上下文信息。sga-mg模块408利用全连接拓扑进行预训练,以提高训练效率和稳定性,以及实现信息性初始奖励。
[0098]
gmp模块404、rl-ha模块406和sga-mg模块408可以单独训练或以交替策略训练。例如,为了实现rl-ha模块的信息性初始奖励,sga-mg模块408可以利用完全连接拓扑进行训练。模型架构可以与图4中所示的相同,其中将gat应用于完全连通图。损失函数可以是均方误差损失,计算如下:
[0099][0100]
在收敛之后,因为在随后的正式训练阶段可能仅使用gmp模块404,所以保存gmp模块404的参数并丢弃解码器的参数。为了实现rl-ha模块406的信息性初始奖励,sga-mg模块408可以利用完全连接的拓扑进行预训练。损失函数是标准均方误差损失,计算如下:
[0101][0102]
在正式训练阶段,rl-ha模块406和微调sga-mg模块408。完整的历史运动可表示为未来运动可表示为可以假设th》ts+tf,其中ts是用于计算注意权重的运动段的长度。
[0103]
自动编码器结构可用于训练编码函数,该编码函数可以从完整的历史运动序列中提取上下文信息。更正式地,可以将自动编码器写成:
[0104][0105][0106]
其中编码和解码函数是神经网络,如上所述。训练自动编码器的损失函数可以是标准均方误差重构损失,计算如下:
[0107][0108]
此处,j可以是在人类代理实施方案中骨骼中关节之间的相对角度的数量。
[0109]
在正式训练阶段,可以交替训练rl-ha模块406和sga-mg模块408。更具体地,运动历史可被划分成t
h-t
s-tf+1个段每个段包括人类姿势的ts+tf个连续帧。sga-mg模块408利用过去的ts个帧来预测未来的tf个帧。每个段的前ts个帧被用作关键字,然后整个段是相应的值。将查询定义为最新的段
[0110]
例如,在预测人类骨骼运动的领域中,期望rl-ha模块406基于最新的观测段为当
前预测选择关键历史运动段。然后,sga-mg模块408还将对选定关键段的相对重要性进行分级,运动模块124使用该分级来生成未来预测。
[0111]
rl步骤η(≤t
rl
)的rl代理的观测o包括密匙、查询、上下文信息z的元组以及当前段选择状态si(0:“保留”;或1:“丢弃”)。t
rl
是rl步骤的上限。观测o
η
由下式获得:
[0112][0113]
其中fk和fq是由神经网络建模的映射函数。o
η
的维度可能仅取决于密匙、查询和上下文信息的维度,这使得能够适用于具有不同数量的历史运动段的场景。rl代理的策略网络以观测o
η
为输入,并且决定每个rl步骤处的动作。
[0114]
对于rl代理存在两种可能的操作:“保持不变”(动作0)和“变得相反”(动作1)。在每个rl步骤处,rl代理针对每个历史运动段做出决策。该策略可以被写成a=π(o),如上所述,对运动段的选择不强制约束,即对所选段的数量没有下限/上限。rl代理的动作可以在每个rl步骤之后改变关键运动段,这进一步影响sga-mg模块408。
[0115]
奖励:奖励由两部分组成:常规奖励r
reg
和改进奖励r
imp
。更具体地,常规奖励是通过以下方式计算的未来预测的负均方误差:
[0116][0117]
改进奖励经由对连续rl步骤之间的误差变化应用sin函数来帮助预测误差的降低,这是通过以下方式获得的:
[0118]rimp,η
=sign(r
reg,η
—r
reg,η-1
)。
[0119]
整个奖励可以通过r
η
=r
reg,η

imprreg,η
获得,其中β
imp
为超参数。因此,rl-ha模块406和sga-mg模块408可以使用交替策略进行优化。因此,具有交替训练策略的双阶段训练流水线可用于改进框架中的不同模块,诸如操作环境100和/或示例性图形表示400。通用框架为多代理轨迹预测提供了基于图的模型,该模型可用于各种领域,诸如骨骼实施方案或车辆实施方案。
[0120]
又一方面涉及计算机可读介质,该计算机可读介质包括处理器可执行指令,该处理器可执行指令被配置为实现本文呈现的技术的一个方面。图6中示出了以这些方式设计的计算机可读介质或计算机可读装置的一方面,其中实施方式600包括计算机可读介质608,诸如cd-r、dvd-r、闪存驱动器、硬盘驱动器盘片等,计算机可读数据606在该计算机可读介质上进行编码。该编码的计算机可读数据606(诸如包括如606所示的多个零和一的二进制数据)又包括一组处理器可执行计算机指令604,该组指令被配置为根据本文阐述的原理中的一个或更多个操作。在该实施方式600中,处理器可执行计算机指令604可以被配置为执行方法602,诸如图3的方法300和/或图5的方法500。在另一方面,处理器可执行计算机指令604可以被配置为实现诸如图1的操作环境100和/或图4的图形表示400中所示的框架的系统。许多此类计算机可读介质可以由本领域的普通技术人员设计,其被配置为根据本文呈现的技术进行操作。
[0121]
如本技术中所用,术语“组件”、“模块”、“系统”、“接口”等一般旨在是指计算机相关实体、硬件、硬件和软件的组合、软件或执行中的软件。例如,组件可以是但不限于是在处理器上运行的进程、处理单元、对象、可执行程序、执行线程、程序或计算机。作为说明,在控制器上运行的应用程序和控制器两者都可以是组件。驻留在进程或执行线程和组件内的一
个或多个组件可以位于一台计算机上或分布在两台或更多台计算机之间。
[0122]
此外,所要求保护的主题被实现为使用标准编程或工程技术以产生软件、固件、硬件或它们的任何组合来控制计算机实现所公开的主题的方法、设备或制品。如本文所用的术语“制品”旨在涵盖可从任何计算机可读装置、载体或介质访问的计算机程序。当然,在不脱离所要求保护的主题的范围或精神的情况下,可以对该配置做出许多修改。
[0123]
一般来说,在“计算机可读指令”可由一个或多个计算装置执行的一般上下文中描述各方面。计算机可读指令可以经由计算机可读介质分发,如下面将讨论。计算机可读指令可以被实现为执行一个或多个任务或实现一个或多个抽象数据类型的程序模块,诸如函数、对象、应用程序编程接口(api)、数据结构等。通常,计算机可读指令的功能性根据需要在各种环境中组合或分布。
[0124]
如本文所用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括在用于存储信息(诸如计算机可读指令或其他数据)的任何方法或技术中实现的易失性和非易失性、可移动和不可移动介质。存储器114和数据存储库116是计算机存储介质的示例。计算机存储介质包括但不限于ram、rom、eeprom、闪存存储器或其他存储技术、cd-rom、数字通用盘(dvd)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储装置、或可用于存储所需信息并可由传感器模块102、计算装置104和/或操作系统访问的任何其他介质。
[0125]
术语“计算机可读介质”包括通信介质。通信介质通常以“经调制的数据信号”(诸如载波或其他传输机制)来体现计算机可读指令或其他数据并且包括任何信息传递介质。术语“经调制的数据信号”包括以对信号中的信息进行编码的方式设置或改变其特性中的一个或多个的信号。
[0126]
尽管用特定于结构特征或方法动作的语言描述了本主题,但是应当理解,所附权利要求书的主题不一定限于上述具体特征或动作。相反,上述具体特征和动作是作为示例性方面被公开。在本文提供了各方面的各种操作。描述操作中的一个或多个或全部的次序不应被解释为暗示这些操作必须是按次序的。将会基于该描述而知道替代排序。此外,并非所有操作都必须要存在于本文提供的每个方面中。
[0127]
如本技术中所用,“或”旨在表示包括性“或”而非排他性“或”。此外,包含性“或”可以包括它们的任何组合(例如,a、b或它们的任何组合)。另外,除非另外指明或从上下文清楚指向单数形式,否则如本技术中所用的“一个”和“一种”一般被解释为表示“一个或多个”。另外,a和b中的至少一个和/或相似的表达一般表示a或b或a和b两者。此外,就“包括(includes)”、“具有(having)”、“具有(has)”、“带有”或它们的变体在详细描述或权利要求书中使用来说,此类术语旨在以与术语“包括(comprising)”类似的方式是包括性的。
[0128]
此外,除非另有说明,否则“第一”、“第二”等并不表示暗示时间方面、空间方面、排序等。相反,此类术语仅用作特征、要素、项等的标识符、名称等。例如,第一信道和第二信道一般对应于信道a和信道b或两个不同或两个相同的信道、或同一信道。另外,“包括(comprising)”、“包括(comprises)”、“包括(including)”、“包括(includes)”等一般表示包括(comprising)或包括(including)但不限于。
[0129]
应当理解,上述公开的和其他的特征和功能中的若干特征和功能或者它们的替代物或变体可以理想地组合到许多其他不同的系统或应用中。此外,本领域的技术人员可以之后做出本文的各种目前无法预料或无法预期的替代、修改、变化或改进,这些也旨在涵盖
在所附权利要求书中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1