多模态信息的处理方法、装置、设备及存储介质与流程

文档序号：36798277发布日期：2024-01-23 12:22阅读：26来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本技术涉及计算机，具体涉及智能交通和自动驾驶等，特别涉及一种多模态信息的处理方法、装置、设备及存储介质。

背景技术：

1、在自动驾驶过程中，自动驾驶车辆需要执行多种类型的任务，例如，目标检测、跟踪、推理和预测，以实现控制车辆正常行驶。

2、目前，针对自动驾驶多任务处理的技术方案一般是利用端到端的模型对多任务进行相应的分析处理，得到用于控制车辆行驶的信息，以实现了自动驾驶任务处理的整合。但是，相关技术中的技术方案仍仅能处理的部分任务且得到车辆行驶控制信息全面性欠佳。

技术实现思路

1、本技术提供了一种多模态信息的处理方法、装置、设备及存储介质，所述技术方案如下：

2、第一方面，提供了一种多模态信息的处理方法，所述方法包括：

3、获取待处理的车辆的行驶环境的多模态信息；

4、将所述多模态信息输入预设的多模态生成式语言模型，以根据所述预设的多模态生成式语言模型的特征提取网络和所述多模态信息，获得多模态特征信息；

5、根据所述预设的多模态生成式语言模型的语言生成网络和所述多模态特征信息，获得所述多模态信息对应的语言特征信息和自然语言描述信息；

6、根据所述预设的多模态生成式语言模型的目标规划网络、所述多模态特征信息和所述语言特征信息，获得所述多模态信息对应的目标规划信息；

7、根据所述目标规划信息和所述自然语言描述信息，获得所述预设的多模态生成式语言模型的输出结果，以根据所述输出结果，确定所述车辆的行驶控制信息。

8、在一种可能的实现方式中，所述根据所述预设的多模态生成式语言模型的特征提取网络和所述多模态信息，获得多模态特征信息，包括：

9、根据所述多模态信息，分别获取每个模态信息对应的特征提取网络；

10、利用每个模态信息对应的特征提取网络，并行对每个模态信息进行特征提取处理，以获得每个模态信息对应的特征信息；

11、根据每个模态信息对应的特征信息，获得多模态特征信息。

12、在一种可能的实现方式中，所述多模态信息包括车辆行驶环境的图像信息以及与所述图像信息对应的点云信息、高精地图图像信息和行驶轨迹信息，所述特征提取网络包括图像特征提取网络、点云特征提取网络、和地图特征提取网络，所述利用每个模态信息对应的特征提取网络，并行对每个模态信息进行特征提取处理，以获得每个模态信息对应的特征信息，包括：

13、利用所述图像特征提取网络对所述图像信息和行驶轨迹信息进行特征提取处理，以获得图像特征信息；

14、利用所述点云特征提取网络对所述点云信息和行驶轨迹信息进行特征提取处理，以获得点云特征信息；

15、利用所述地图特征提取网络对所述高精地图图像信息进行特征提取处理，以获得地图图像特征信息。

16、在一种可能的实现方式中，所述根据所述预设的多模态生成式语言模型的语言生成网络和所述多模态特征信息，获得所述多模态信息对应的语言特征信息和自然语言描述信息，包括：

17、对所述多模态特征信息进行融合处理，以获得多模态融合特征信息；

18、根据所述预设的多模态生成式语言模型的语言生成网络和所述多模态融合特征信息，获得语言特征信息和自然语言描述信息。

19、在一种可能的实现方式中，所述预设的多模态生成式语言模型还包括特征融合网络，对所述多模态特征信息进行融合处理，以获得多模态融合特征信息，包括：

20、利用所述特征融合网络，对所述多模态特征信息进行特征对齐处理；

21、根据所述特征对齐处理的结果，获得所述多模态融合特征信息。

22、在一种可能的实现方式中，所述目标规划网络包括轨迹规划网络，所述目标规划信息包括规划轨迹信息，根据所述预设的多模态生成式语言模型的目标规划网络、所述多模态特征信息和所述语言特征信息，获得所述多模态信息对应的目标规划信息，包括：

23、将所述行驶轨迹信息和所述语言特征信息输入所述轨迹规划网络，以输出预测结果；

24、根据所述预测结果，获得所述多模态信息对应的规划轨迹信息。

25、在一种可能的实现方式中，所述目标规划网络还包括目标检测网络，所述目标规划信息还包括目标检测信息，根据所述预设的多模态生成式语言模型的目标规划网络、所述多模态特征信息和所述语言特征信息，获得所述多模态信息对应的目标规划信息，还包括：

26、获取所述多模态特征信息对应的多模态融合特征信息；

27、将所述多模态融合特征信息和所述语言特征信息输入所述目标检测网络，以输出目标检测结果；

28、根据所述目标检测结果，获得所述多模态信息对应的目标检测信息。

29、第二方面，提供了一种模型训练的方法，待训练的多模态生成式语言模型包括特征提取网络、语言生成网络、和目标规划网络，所述方法包括：

30、获取样本多模态信息；

31、将所述样本多模态信息输入待训练的多模态生成式语言模型，以根据所述特征提取网络和所述样本多模态信息，获得所述样本多模态信息对应的多模态特征信息；

32、根据所述语言生成网络和所述多模态特征信息，获得所述样本多模态信息对应的语言特征信息和自然语言描述信息；

33、根据所述目标规划网络、所述多模态特征信息和所述语言特征信息，获得所述样本多模态信息对应的目标规划信息；

34、根据所述目标规划信息和所述自然语言描述信息，获得输出结果；

35、根据所述输出结果和所述样本多模态信息，对所述待训练的多模态生成式语言模型的进行更新训练，以获得训练完成的多模态生成式语言模型。

36、第三方面，提供了一种多模态信息的处理装置，所述装置包括：

37、第一获取单元，用于获取待处理的车辆的行驶环境的多模态信息；

38、第一获得单元，用于将所述多模态信息输入预设的多模态生成式语言模型，以根据所述预设的多模态生成式语言模型的特征提取网络和所述多模态信息，获得多模态特征信息；

39、第二获得单元，用于根据所述预设的多模态生成式语言模型的语言生成网络和所述多模态特征信息，获得所述多模态信息对应的语言特征信息和自然语言描述信息；

40、第三获得单元，用于根据所述预设的多模态生成式语言模型的目标规划网络、所述多模态特征信息和所述语言特征信息，获得所述多模态信息对应的目标规划信息；

41、第一确定单元，用于根据所述目标规划信息和所述自然语言描述信息，获得所述预设的多模态生成式语言模型的输出结果，以根据所述输出结果，确定所述车辆的行驶控制信息。

42、第四方面，提供了一种模型训练的装置，待训练的多模态生成式语言模型包括特征提取网络、语言生成网络、和目标规划网络，所述装置包括：

43、第一获取单元，用于获取样本多模态信息；

44、第一获得单元，用于将所述样本多模态信息输入待训练的多模态生成式语言模型，以根据所述特征提取网络和所述样本多模态信息，获得所述样本多模态信息对应的多模态特征信息；

45、第二获得单元，用于根据所述语言生成网络和所述多模态特征信息，获得所述样本多模态信息对应的语言特征信息和自然语言描述信息；

46、第三获得单元，用于根据所述目标规划网络、所述多模态特征信息和所述语言特征信息，获得所述样本多模态信息对应的目标规划信息；

47、第四获得单元，用于根据所述目标规划信息和所述自然语言描述信息，获得输出结果；

48、第一训练单元，用于根据所述输出结果和所述样本多模态信息，对所述待训练的多模态生成式语言模型的进行更新训练，以获得训练完成的多模态生成式语言模型。

49、第五方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上所述的方面和任一可能的实现方式的方法。

50、第六方面，提供了一种电子设备，包括：

51、至少一个处理器；以及

52、与所述至少一个处理器通信连接的存储器；其中，

53、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。

54、第七方面，提供了一种自动驾驶车辆，包括如上所述的电子设备。

55、本技术提供的技术方案的有益效果至少包括：

56、由上述技术方案可知，一方面，本技术实施例可以通过获取待处理的车辆的行驶环境的多模态信息，进而可以将所述多模态信息输入预设的多模态生成式语言模型，以根据所述预设的多模态生成式语言模型的特征提取网络和所述多模态信息，获得多模态特征信息，根据所述预设的多模态生成式语言模型的语言生成网络和所述多模态特征信息，获得所述多模态信息对应的语言特征信息和自然语言描述信息，根据所述预设的多模态生成式语言模型的目标规划网络、所述多模态特征信息和所述语言特征信息，获得所述多模态信息对应的目标规划信息，使得能够根据所述目标规划信息和所述自然语言描述信息，获得所述预设的多模态生成式语言模型的输出结果，以根据所述输出结果，确定所述车辆的行驶控制信息，由于可以利用预设的多模态生成式语言模型对车辆的行驶环境的多模态信息进行处理，得到对应的目标规划信息和自然语言描述信息，完成多种自动驾驶任务的同时，还可以获得针对任务执行结果的语言描述信息，丰富了模型输出信息，并可以利用模型所输出的信息控制车辆行驶，即丰富了控制车辆行驶的信息，从而保证了自动驾驶车辆行驶的可靠性和安全性。

57、由上述技术方案可知，另一方面，本技术实施例可以通过获取样本多模态信息，进而可以将所述样本多模态信息输入待训练的多模态生成式语言模型，以根据待训练的多模态生成式语言模型的特征提取网络和所述样本多模态信息，获得所述样本多模态信息对应的多模态特征信息，根据待训练的多模态生成式语言模型的语言生成网络和所述多模态特征信息，获得所述样本多模态信息对应的语言特征信息和自然语言描述信息，根据待训练的多模态生成式语言模型的目标规划网络、所述多模态特征信息和所述语言特征信息，获得所述样本多模态信息对应的目标规划信息，根据所述目标规划信息和所述自然语言描述信息，获得输出结果，使得能够根据所述输出结果和所述样本多模态信息，对所述待训练的多模态生成式语言模型的进行更新训练，以获得训练完成的多模态生成式语言模型，由于可以基于样本多模态信息，以及模型输出的目标规划信息和自然语言描述信息，对待训练的多模态生成式语言模型进行更新训练，提升了模型的学习信息和输出信息的全面性，从而提升了多模态生成式语言模型的学习性能和可靠性。

58、应当理解，本部分所描述的内容并非旨在标识本技术的实施例的关键或重要特征，也不用于限制本技术的范围。本技术的其它特征将通过以下的说明书而变得容易理解。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董博,林金表,许舒恒,张金凤
技术所有人：九识（苏州）智能科技有限公司
我是此专利的发明人

上一篇：基于双反馈超图建模的推荐方法及装置
上一篇：一种数据导入的方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。