任务处理、自动问答以及多媒体数据识别模型训练方法与流程

文档序号：36278020发布日期：2023-12-06 22:05阅读：29来源：国知局

本说明书实施例涉及计算机，特别涉及一种任务处理方法。

背景技术：

1、随着计算机技术的发展，文字沟通逐渐不能满足用户的实际需求，用户在自然对话中主要使用多媒体数据表达用户的情绪、语气、身处的环境等信息，因此，记录丰富知识的多媒体信号逐渐成为普遍且重要的沟通手段。

2、目前，通常将对话机器人和多媒体数据处理模型的输入/输出接口相结合，以支持多媒体对话和多媒体数据处理任务。然而，上述方案依赖于调用外部软件接口，效果受限于外部软件的能力，并且，各任务通过独立的外部模型实现，无法处理复杂的多媒体理解任务，因此，亟需一种普适性高的通用多媒体数据处理的方案。

技术实现思路

1、有鉴于此，本说明书实施例提供了一种任务处理方法。本说明书一个或者多个实施例同时涉及一种自动问答方法，一种多媒体数据识别模型训练方法，一种任务处理装置，一种自动问答装置，一种多媒体数据识别模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面，提供了一种任务处理方法，包括：

3、获取目标多媒体数据和针对目标多媒体数据的任务处理数据；

4、将目标多媒体数据输入多媒体数据识别模型，获得目标多媒体数据对应的多媒体特征，其中，多媒体数据识别模型基于多组样本多媒体文本对和样本多媒体文本对对应的样本任务训练得到，样本多媒体文本对包括样本多媒体数据和样本多媒体数据对应的样本文本数据；

5、将多媒体特征和任务处理数据输入用于自然语言处理的神经网络模型，获得任务处理数据对应的处理结果。

6、根据本说明书实施例的第二方面，提供了一种自动问答方法，包括：

7、接收用户通过客户端发送的目标多媒体数据和针对目标多媒体数据的问题数据；

8、将目标多媒体数据输入多媒体数据识别模型，获得目标多媒体数据对应的多媒体特征，其中，多媒体数据识别模型基于多组样本多媒体文本对和样本多媒体文本对对应的样本任务训练得到，样本多媒体文本对包括样本多媒体数据和样本多媒体数据对应的样本文本数据；

9、将多媒体特征和问题数据输入用于自然语言处理的神经网络模型，获得问题数据对应的答复结果。

10、根据本说明书实施例的第三方面，提供了一种多媒体数据识别模型训练方法，应用于云侧设备，包括：

11、获取多组样本多媒体文本对，其中，样本多媒体文本对携带样本任务；

12、根据目标样本任务，从多组样本多媒体文本对中提取第一样本多媒体文本对，其中，第一样本多媒体文本对为目标样本任务对应的多组样本多媒体文本对中的任一个；

13、将第一样本多媒体数据输入多媒体数据识别模型，获得第一样本多媒体数据对应的第一样本多媒体特征；

14、将第一样本多媒体特征和第一样本文本数据输入用于自然语言处理的神经网络模型，获得第一预测结果；

15、根据第一样本文本数据和第一预测结果，训练多媒体数据识别模型，获得训练完成的多媒体数据识别模型的模型参数；

16、向端侧设备发送训练完成的多媒体数据识别模型的模型参数。

17、根据本说明书实施例的第四方面，提供了一种任务处理装置，包括：

18、第一获取模块，被配置为获取目标多媒体数据和针对目标多媒体数据的任务处理数据；

19、第一输入模块，被配置为将目标多媒体数据输入多媒体数据识别模型，获得目标多媒体数据对应的多媒体特征，其中，多媒体数据识别模型基于多组样本多媒体文本对和样本多媒体文本对对应的样本任务训练得到，样本多媒体文本对包括样本多媒体数据和样本多媒体数据对应的样本文本数据；

20、第二输入模块，被配置为将多媒体特征和任务处理数据输入用于自然语言处理的神经网络模型，获得任务处理数据对应的处理结果。

21、根据本说明书实施例的第五方面，提供了一种自动问答装置，包括：

22、接收模块，被配置为接收用户通过客户端发送的目标多媒体数据和针对目标多媒体数据的问题数据；

23、第三输入模块，被配置为将目标多媒体数据输入多媒体数据识别模型，获得目标多媒体数据对应的多媒体特征，其中，多媒体数据识别模型基于多组样本多媒体文本对和样本多媒体文本对对应的样本任务训练得到，样本多媒体文本对包括样本多媒体数据和样本多媒体数据对应的样本文本数据；

24、第四输入模块，被配置为将多媒体特征和问题数据输入用于自然语言处理的神经网络模型，获得问题数据对应的答复结果。

25、根据本说明书实施例的第六方面，提供了一种多媒体数据识别模型训练装置，应用于云侧设备，包括：

26、第二获取模块，被配置为获取多组样本多媒体文本对，其中，样本多媒体文本对携带样本任务；

27、提取模块，被配置根据目标样本任务，从多组样本多媒体文本对中提取第一样本多媒体文本对，其中，第一样本多媒体文本对为目标样本任务对应的多组样本多媒体文本对中的任一个；

28、第五输入模块，被配置为将第一样本多媒体数据输入多媒体数据识别模型，获得第一样本多媒体数据对应的第一样本多媒体特征；

29、第六输入模块，被配置为将第一样本多媒体特征和第一样本文本数据输入用于自然语言处理的神经网络模型，获得第一预测结果；

30、第一训练模块，被配置为根据第一样本文本数据和第一预测结果，训练多媒体数据识别模型，获得训练完成的多媒体数据识别模型的模型参数；

31、发送模块，被配置为向端侧设备发送训练完成的多媒体数据识别模型的模型参数。

32、根据本说明书实施例的第七方面，提供了一种计算设备，包括：

33、存储器和处理器；

34、所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述第一方面或者第二方面或者第三方面所提供方法的步骤。

35、根据本说明书实施例的第八方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述第一方面或者第二方面或者第三方面所提供方法的步骤。

36、根据本说明书实施例的第九方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述第一方面或者第二方面或者第三方面所提供方法的步骤。

37、本说明书一个实施例提供的任务处理方法，获取目标多媒体数据和针对目标多媒体数据的任务处理数据；将目标多媒体数据输入多媒体数据识别模型，获得目标多媒体数据对应的多媒体特征，其中，多媒体数据识别模型基于多组样本多媒体文本对和样本多媒体文本对对应的样本任务训练得到，样本多媒体文本对包括样本多媒体数据和样本多媒体数据对应的样本文本数据；将多媒体特征和任务处理数据输入用于自然语言处理的神经网络模型，获得任务处理数据对应的处理结果。通过利用多组样本多媒体文本对和其对应的样本任务训练得到了可以进行复杂多媒体理解的多媒体数据识别模型，从而将多媒体数据识别模型和用于自然语言处理的神经网络模型相结合，实现对复杂多媒体任务的处理，提高了多媒体任务处理的普适性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：楚云霏周晓欢白金泽周靖人周畅
技术所有人：阿里巴巴（中国）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。