本发明涉及人机交互,特别涉及一种基于大模型的多模态交互系统、方法、设备及存储介质。
背景技术:
1、在人机交互技术领域中,有着各种各样的语音、图像、文本、视频等多模态信息需要进行人与计算机之间的信息交换。在生理心理评估、办公教育、军事仿真和医疗康复等领域有着较大的使用需求。而目前常用的技术是针对单一或者少数模态的数据进行信息交互,并且交互方式也存在单一性,并不能根据用户的意愿自由切换交互方式。
2、由此可见,如何利用语音、图像、文本、视频等多模态信息进行人机信息交互,并根据预设的交互方式自由进行信息交互是本领域要解决的问题。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种基于大模型的多模态交互系统、方法、设备及存储介质,能够进行多模态的数据交互,有着广阔的应用场景。其具体方案如下:
2、第一方面,本申请提供了一种基于大模型的多模态交互系统,包括:
3、数据获取模块,用于获取待交互数据,并通过预设多模态编码器对所述待交互数据进行特征提取处理,得到处理后数据特征;
4、意图确定模块,用于根据所述待交互数据的初始模态和所述处理后数据特征确定所述待交互数据的目标意图内容;
5、意图处理模块,用于基于预设大模型基座针对所述目标意图内容进行任务分配处理,以得到相应的意图处理结果;
6、结果转换模块,用于根据预设多模态类型对所述意图处理结果进行转换,得到相应模态类型的交互响应结果;
7、数据响应模块,用于基于预设交互方式利用所述交互响应结果完成针对所述待交互数据的交互过程。
8、可选的,所述数据获取模块,包括:
9、数据获取单元,用于获取待交互数据;
10、模态标注单元,用于标注所述待交互数据的初始模态;
11、特征提取单元,用于通过预设多模态编码器对所述待交互数据进行特征提取处理,得到处理后数据特征。
12、可选的,所述意图确定模块,包括:
13、意图理解子模块,用于根据预设内容理解模型对所述处理后数据特征进行处理,得到与预设多模态类型对应的若干初始意图内容;
14、意图确定单元,用于基于预设意图概率计算函数从所述若干初始意图内容中确定出概率最大的目标意图内容。
15、可选的,所述意图理解子模块,包括:
16、模态关系构建单元,用于基于预设多模态类型和所述初始模态,并通过多头点积注意力机制计算各模态类型对应的所述处理后数据特征之间的相似度;
17、特征融合单元,用于基于所述相似度对所述处理后数据特征进行融合,得到若干初始意图内容。
18、可选的,所述意图处理模块,包括:
19、任务生成单元,用于根据所述目标意图内容生成相应的交互任务;
20、任务处理单元,用于基于预设大模型基座对所述交互任务进行分配,以得到相应的意图处理结果。
21、可选的,所述结果转换模块,包括:
22、第一结果转换单元,用于根据所述待交互数据的所述初始模态对所述意图处理结果进行转换,得到第一交互响应结果;
23、第二结果转换单元,用于根据预设多模态类型中的交互模态类型对所述意图处理结果进行转换,得到相应模态类型的第二交互响应结果。
24、可选的,所述数据响应模块,包括:
25、第一数据响应单元,用于根据所述待交互数据对应的交互方式,并利用所述第一交互响应结果完成针对所述待交互数据的交互过程;
26、第二数据响应单元,用于基于预设交互方式,并利用所述第二交互响应结果完成针对所述待交互数据的交互过程。
27、第二方面,本申请提供了一种基于大模型的多模态交互方法,包括:
28、获取待交互数据,并通过预设多模态编码器对所述待交互数据进行特征提取处理,得到处理后数据特征;
29、根据所述待交互数据的初始模态和所述处理后数据特征确定所述待交互数据的目标意图内容;
30、基于预设交互算法对所述目标意图内容进行处理,得到相应的意图处理结果;
31、根据预设多模态类型对所述意图处理结果进行转换,得到相应模态类型的交互响应结果;
32、基于预设交互方式利用所述交互响应结果完成针对所述待交互数据的交互过程。
33、第三方面,本申请提供了一种电子设备,包括:
34、存储器,用于保存计算机程序;
35、处理器,用于执行所述计算机程序以实现如上述的基于大模型的多模态交互方法。
36、第四方面,本申请提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现如上述的基于大模型的多模态交互方法。
37、由此可见,本申请通过数据获取模块获取待交互数据,并通过预设多模态编码器对所述待交互数据进行特征提取处理,得到处理后数据特征;意图确定模块用于根据所述待交互数据的初始模态和所述处理后数据特征确定所述待交互数据的目标意图内容;意图处理模块用于基于预设大模型基座针对所述目标意图内容进行任务分配处理,以得到相应的意图处理结果;结果转换模块用于根据预设多模态类型对所述意图处理结果进行转换,得到相应模态类型的交互响应结果;数据响应模块用于基于预设交互方式利用所述交互响应结果完成针对所述待交互数据的交互过程。这样一来,本申请可以对待交互数据进行模态转换,并根据待交互数据的意图进行相应处理,得到交互响应结果,然后进行相应的交互过程;可以灵活处理各种模态的交互数据,有广阔的应用场景。
1.一种基于大模型的多模态交互系统,其特征在于,包括:
2.根据权利要求1所述的基于大模型的多模态交互系统,其特征在于,所述数据获取模块,包括:
3.根据权利要求1所述的基于大模型的多模态交互系统,其特征在于,所述意图确定模块,包括:
4.根据权利要求3所述的基于大模型的多模态交互系统,其特征在于,所述意图理解子模块,包括:
5.根据权利要求1所述的基于大模型的多模态交互系统,其特征在于,所述意图处理模块,包括:
6.根据权利要求1至5任一项所述的基于大模型的多模态交互系统,其特征在于,所述结果转换模块,包括:
7.根据权利要求6所述的基于大模型的多模态交互系统,其特征在于,所述数据响应模块,包括:
8.一种基于大模型的多模态交互方法,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求8所述的基于大模型的多模态交互方法。