多模态交互方法、装置、设备及介质与流程

文档序号：45322187发布日期：2026-04-24 20:32阅读：2来源：国知局

本发明涉及人工智能，尤其涉及一种多模态交互方法、装置、设备及介质。

背景技术：

1、目前，金融客服系统主要采用语音通话为主的交互模式，即客户通过拨打客服热线进行语音交流，客服人员或语音机器人依据关键词识别和语义理解进行应答。

2、然而，现有的纯语音交互方法存在以下突出问题：（1）交互效率低：客户在复杂业务（如多保单查询、理赔进度核查）中需反复口述信息，语音误识率及重复确认导致交互耗时较长；（2）可视化缺失：当前语音客服多依赖听觉通道，缺乏辅助视觉信息展示，不便于客户理解复杂业务内容；（3）多渠道割裂：语音、短信、app等渠道间存在延迟与信息孤岛，难以形成连续一致的服务体验；（4）交互不可操作化：客户在语音通话中无法直接操作或反馈，导致任务需跳转至其他渠道完成，用户体验割裂。

3、因此，现有的交互技术中存在可视化缺失、多渠道割裂以及交互不可操作化，从而导致交互效率较低的问题。

技术实现思路

1、本发明实施例提供了一种多模态交互方法、装置、设备及介质，旨在解决现有的交互技术中存在可视化缺失、多渠道割裂以及交互不可操作化，从而导致交互效率较低的问题。

2、为了解决上述问题，第一方面，本发明实施例提供了一种多模态交互方法，所述多模态交互方法包括：

3、响应于多模态交互指令，实时获取客户的语音数据；

4、基于提取策略对所述语音数据进行意图提取处理得到意图数据；

5、对所述意图数据进行整合处理得到可视化界面数据；

6、基于生成策略对所述可视化界面数据进行生成处理得到操作界面；

7、将所述操作界面发送至所述客户，在所述客户对所述操作界面进行操作时，生成同步语音，并将所述同步语音反馈至所述客户。

8、第二方面，本申请实施例提供了一种多模态交互装置，所述多模态交互装置包括：

9、获取单元，用于响应于多模态交互指令，实时获取客户的语音数据；

10、提取单元，用于基于提取策略对所述语音数据进行意图提取处理得到意图数据；

11、整合单元，用于对所述意图数据进行整合处理得到可视化界面数据；

12、生成单元，用于基于生成策略对所述可视化界面数据进行生成处理得到操作界面；

13、操作单元，用于将所述操作界面发送至所述客户，在所述客户对所述操作界面进行操作时，生成同步语音，并将所述同步语音反馈至所述客户。

14、第三方面，本申请实施例提供了一种计算机设备，所述计算机设备包括存储器，以及与所述存储器相连的处理器；所述存储器用于存储计算机程序，所述处理器用于运行所述存储器中存储的计算机程序，以执行上述第一方面所述的方法。

15、第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，实现上述第一方面所述的方法。

16、本发明实施例提供了一种多模态交互方法、装置、设备及介质，所述方法包括：响应于多模态交互指令，实时获取客户的语音数据；基于提取策略对所述语音数据进行意图提取处理得到意图数据；对所述意图数据进行整合处理得到可视化界面数据；基于生成策略对所述可视化界面数据进行生成处理得到操作界面；将所述操作界面发送至所述客户，在所述客户对所述操作界面进行操作时，生成同步语音，并将所述同步语音反馈至所述客户。因此，本发明实施例通过对语音数据进行提取、整合和生成处理得到操作界面，以将所述操作界面发送至所述客户，在所述客户对所述操作界面进行操作时，生成同步语音，并将所述同步语音反馈至所述客户，实现融合语音识别、视觉呈现与实时操作的多模态交互，达到“可听、可说、可看、可操作”的统一交互体验，从而提高交互效率。

技术特征：

1.一种多模态交互方法，其特征在于，所述多模态交互方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于提取策略对所述语音数据进行意图提取处理得到意图数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预设意图选取策略对所述语义数据进行选取处理得到意图标签，包括：

4.根据权利要求2所述的方法，其特征在于，所述利用槽位标注策略对所述语义数据进行标注处理得到槽位数据，包括：

5.根据权利要求2所述的方法，其特征在于，所述对所述意图数据进行整合处理得到可视化界面数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于生成策略对所述可视化界面数据进行生成处理得到操作界面，包括：

7.根据权利要求1所述的方法，其特征在于，所述响应于多模态交互指令，实时获取客户的语音数据之前，还包括：

8.一种多模态交互装置，其特征在于，所述多模态交互装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现如权利要求1-7中任一项所述的方法。

技术总结
本发明涉及人工智能技术领域，提供一种多模态交互方法、装置、设备及介质，应用于医疗、金融等领域，其方法包括：响应于多模态交互指令，实时获取客户的语音数据；基于提取策略对语音数据进行提取得到意图数据；对意图数据进行整合得到可视化界面数据；基于生成策略对可视化界面数据进行生成得到操作界面；将操作界面发送至客户，在客户对操作界面进行操作时，生成同步语音，并将同步语音反馈至客户。通过实施本发明实施例实现了对语音数据进行提取、整合和生成得到操作界面，以将操作界面发送至客户，在客户对操作界面进行操作时，生成同步语音，并将同步语音反馈至客户，实现融合语音识别、视觉呈现与实时操作的多模态交互，从而提高交互效率。

技术研发人员：张楠
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：
技术公布日：2026/4/23

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张楠
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：太阳能电池片分选装置的制作方法
下一篇：市政管网沟槽施工的路面沉降防治装置的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！