数字人实时交互和驱动系统、方法、介质和电子设备与流程

文档序号：43557279发布日期：2025-10-28 19:51阅读：25来源：国知局

本发明涉及人工智能数字人，尤其涉及一种数字人实时交互和驱动系统、方法、介质和电子设备。

背景技术：

1、人工智能数字人交互技术的快速发展，正推动人机交互模式迈向虚实融合的新纪元。作为人工智能与多模态感知技术深度结合的产物，数字人通过整合深度学习、自然语言处理、计算机视觉等核心技术，实现了从静态虚拟形象到动态智能体的跃迁。

2、现有的数字人交互系统通常采用传统的批处理方式，导致系统在处理用户请求时存在较高的延迟，尤其是在多用户并发场景下，系统的响应速度显著下降。此外，现有的系统在处理语音识别、文本生成、语音合成等模块时，往往采用串行处理方式，进一步增加了整体流程的延迟。因此，亟需一种能够实现低延迟、高并发的数字人实时交互和驱动系统。

技术实现思路

1、本发明旨在至少在一定程度上解决相关技术中的技术问题。为此，本发明的第一个目的在于提供一种数字人实时交互和驱动系统，通过流式处理和消息队列技术，可实现系统整体流程的低延迟，提升系统的实时性和并发处理能力。

2、本发明的第二个目的在于提供一种数字人实时交互和驱动方法。

3、本发明的第三个目的在于提供一种计算机可读存储介质。

4、本发明的第四个目的在于提供一种电子设备。

5、为达到上述目的，本发明通过以下技术方案实现：

6、一种数字人实时交互和驱动系统，包括：

7、前端与控制模块，用于输出控制指令，所述控制指令用于触发进入数字人与用户实时交互驱动步骤；

8、核心处理模块，用于在接收到控制指令后，对通过至少一种方式获取的问题回复文本进行文本转语音，以语音合成得到对应语音内容，并对所述语音内容进行数字人推理得到数字人图像帧，以及对所述数字人图像帧进行音视频合成得到数字人音视频图像；

9、音视频服务模块，设置于至少一个虚拟房间中，所述音视频服务模块用于实现数字人音视频图像的实时传输，以便实现数字人与对应虚拟房间的用户之间的实时交互。

10、优选的，所述前端与控制模块包括：

11、前端，用于实现用户与系统的实时交互；

12、反向代理单元，作为中间服务器，用于接收前端请求，进入反向代理；其中，反向代理用于实现负载均衡、安全防护和不同类型请求转发。

13、优选的，至少一种方式获取的问题回复文本包括第一种问题回复文本和第二种问题回复文本，所述核心处理模块包括：

14、语音识别单元，用于将用户语音识别转换为文本；

15、文本输入单元，用于输入用户直接输入的文本；

16、语言模型对话生成单元，用于调用语言大模型，对语音识别单元和/或文本输入单元输入的文本内容，分别进行处理得到所述第一种问题回复文本和/或所述第二种问题回复文本。

17、优选的，至少一种方式获取的问题回复文本还包括第三种问题回复文本，所述核心处理模块还包括：

18、预置问题处理单元，用于通过设定的问题模板或者场景模板，直接输出得到用户提问问题所对应的第三种问题回复文本；

19、语音合成单元，用于对所述第一种问题回复文本和/或第二种问题回复文本和/或第三种问题回复文本进行文本转语音，以语音合成得到对应语音内容。

20、优选的，所述核心处理模块还包括：

21、数字人推理单元，用于根据语音合成单元输出的语音内容和语义，推理得到数字人图像帧；所述数字人图像帧包括数字人的口型和表情帧；

22、数字人合成单元，用于将所述数字人图像帧和视频帧、音频帧，以及背景图像进行合成，得到所述数字人音视频图像；

23、音视频输出单元和rtc单元，音视频输出单元用于将数字人音视频图像进行协议封装，并通过rtc单元将协议封装后的数字人音视频图像实时传输至音视频服务模块。

24、优选的，所述核心处理模块中的任意子单元采用流式处理方式实时处理数据。

25、优选的，所述核心处理模块中相互连接的子单元之间通过消息队列方式处理数据。

26、为达到上述目的，本发明第二方面提供了一种数字人实时交互和驱动方法，包括：

27、接收用于触发进入数字人与用户实时交互驱动步骤的控制指令；

28、在接收到控制指令后，对通过至少一种方式获取的问题回复文本进行文本转语音，以语音合成得到对应语音内容，并对所述语音内容进行数字人推理得到数字人图像帧，以及对所述数字人图像帧进行音视频合成得到数字人音视频图像；

29、实时传输数字人音视频图像至设置于至少一个虚拟房间中的音视频服务模块，以便通过音视频服务模块实现数字人与对应虚拟房间的用户之间的实时交互。

30、为达到上述目的，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述所述的方法。

31、为达到上述目的，本发明第四方面提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述所述的方法。

32、本发明至少具有以下技术效果：

33、(1)流式处理：本发明在语音识别、文本生成即语言模型对话生成、语音合成、数字人推理和合成等单元模块中，采用流式处理技术，可确保每个单元模块能够实时处理输入数据，并将处理结果即时传递给下一个模块，从而便于减少等待时间。

34、(2)消息队列：本发明在系统的各个单元模块之间引入消息队列，可确保单元模块之间的数据传输高效且有序，另外消息队列能够缓冲数据流，避免因单元模块处理速度不一致导致的阻塞问题，从而可进一步提升系统的并发处理能力。

35、(3)实时通信：本发明通过rtc服务，可确保用户与数字人之间的交互数据能够实时传输，从而能够减少网络延迟对系统响应速度的影响。

36、(4)并行处理：本发明的数字人推理与合成单元采用并行处理方式，确保数字人的图像生成与语音合成能够同步进行，从而可进一步提升系统的实时性。

37、本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

技术特征：

1.一种数字人实时交互和驱动系统，其特征在于，包括：

2.如权利要求1所述的系统，其特征在于，所述前端与控制模块包括：

3.如权利要求1所述的系统，其特征在于，至少一种方式获取的问题回复文本包括第一种问题回复文本和第二种问题回复文本，所述核心处理模块包括：

4.如权利要求3所述的系统，其特征在于，至少一种方式获取的问题回复文本还包括第三种问题回复文本，所述核心处理模块还包括：

5.如权利要求4所述的系统，其特征在于，所述核心处理模块还包括：

6.如权利要求1-5中任一项所述的系统，其特征在于，所述核心处理模块中的任意子单元采用流式处理方式实时处理数据。

7.如权利要求1-5中任一项所述的系统，其特征在于，所述核心处理模块中相互连接的子单元之间通过消息队列方式处理数据。

8.一种数字人实时交互和驱动方法，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求8中所述的方法。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求8中所述的方法。

技术总结
本发明公开了一种数字人实时交互和驱动系统、方法、介质和电子设备，该系统包括前端与控制模块、核心处理模块和音视频服务模块，前端与控制模块用于输出控制指令；核心处理模块用于在接收到控制指令后，对通过至少一种方式获取的问题回复文本进行文本转语音，以语音合成得到对应语音内容，并对语音内容进行数字人推理得到数字人图像帧，对数字人图像帧进行音视频合成得到数字人音视频图像；音视频服务模块用于实现数字人音视频图像的实时传输，以便实现数字人与对应虚拟房间的用户之间的实时交互。本发明通过流式处理和消息队列技术，可实现系统整体流程的低延迟，提升系统的实时性和并发处理能力。

技术研发人员：赛万明
受保护的技术使用者：北京零一万物信息技术有限公司
技术研发日：
技术公布日：2025/10/27

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赛万明
技术所有人：北京零一万物信息技术有限公司
我是此专利的发明人

上一篇：SQL请求处理方法、装置及基于KPU架构的DPU与流程
下一篇：基于双目鸟瞰图和改进YOLOv8的路面裂缝识别方法与流程

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！