本发明涉及数字人对话处理,具体涉及一种基于wasm、webgpu和webav的数字人系统。
背景技术:
1、随着人工智能技术的飞速发展,数字人(digitalhuman)作为人机交互的重要载体,在虚拟客服、在线教育、娱乐游戏等领域展现出巨大的潜力。然而,当前主流的数字人系统大多依赖于云端服务器进行复杂的计算和渲染,存在以下问题:
2、网络依赖性强,实时交互需要稳定的网络连接,网络延迟和带宽限制会严重影响用户体验;隐私安全风险,用户语音、文本等敏感数据需要上传至云端服务器进行处理,存在数据泄露和滥用的风险;运营成本高昂,服务器租赁、带宽消耗以及gpu算力成本高昂,限制了数字人技术的普及和大规模应用;离线场景受限,在无网络或弱网络环境下,数字人系统无法正常工作,限制了其应用场景。
3、对此,业界开始探索将数字人系统边缘化、本地化部署。然而,现有 web 技术(如webgl)对 gpu 的底层访问能力有限,导致浏览器端难以实现满足高性能需求的离线数字人系统。
技术实现思路
1、为了解决现有技术的不足技术问题,本发明的目的在于提供一种基于wasm、webgpu和webav的数字人系统,实现在本地浏览器中运行高性能、隐私保护以及高实时性的ai虚拟人,所采用的技术方案具体如下:
2、第一方面,本发明提供了一种基于wasm、webgpu和webav的数字人系统,该系统包括:
3、用户交互模块,用于接收用户的语音输入,并将视频帧展示于用户;
4、语音识别模块,用于将用户的所述语音输入转换为语音文本;
5、文本理解模块,用于对所述语音文本进行语义分析,生成数字人的回复文本;
6、语音合成模块,用于将所述数字人的回复文本转换为合成语音;
7、嘴型同步模块,用于基于所述合成语音生成数字人的嘴型动画数据;
8、视频渲染模块,用于将数字人模型、所述嘴型动画数据和背景合成为视频帧;
9、其中,所述语音识别模块、所述文本理解模块、所述语音合成模块和所述嘴型同步模块通过webassembly技术编译为wasm模块,在浏览器中运行;所述视频渲染模块利用webgpu技术结合webav技术进行处理。
10、优选地,所述系统还包括核心调度模块,用于协调和管理所有业务功能模块的工作流程,所述业务功能模块为语音识别模块、文本理解模块、语音合成模块、嘴型同步模块、视频渲染模块和用户交互模块。
11、优选地,所述系统系统包含的技术架构层为:前端浏览器层,webassembly层,webgpu层,webav层,数据存储层。
12、优选地,用户交互模块依赖前端浏览器层和数据存储层实现功能;
13、语音识别模块依赖webassembly层、前端浏览器层、数据存储层实现功能;
14、文本理解模块依赖webassembly层和数据存储层实现功能;
15、嘴型同步模块依赖webassembly层、webgpu层、数据存储层实现功能;
16、视频渲染模块依赖webgpu层、webav层、数据存储层实现功能;
17、核心调度模块协同前端浏览器层、webassembly层、webgpu层、webav层、数据存储层对所有业务功能模块的管理。
18、本发明实施例至少具有如下有益效果:
19、本发明核心功能模块全部在本地浏览器中运行,无需网络连接,适用于各种离线场景。用户数据在本地处理,不上传至云端,有效避免数据泄露风险。结合webassembly的高性能计算、webgpu的并行渲染和webav的高效音视频处理,实现毫秒级的响应速度,提供流畅自然的实时对话体验。摆脱对云服务器的依赖,大幅降低运营和维护成本。作为一个web应用,用户只需通过浏览器即可访问和使用,无需安装额外软件,降低了用户的使用门槛。有效利用用户设备的cpu和gpu资源,发挥边缘计算的优势。本发明提供了实现在本地浏览器中运行高性能、隐私保护、高实时性的ai虚拟人。
1.一种基于wasm、webgpu和webav的数字人系统,其特征在于,该系统包括:
2.根据权利要求1所述的一种基于wasm、webgpu和webav的数字人系统,其特征在于,所述系统还包括核心调度模块,用于协调和管理所有业务功能模块的工作流程,所述业务功能模块为语音识别模块、文本理解模块、语音合成模块、嘴型同步模块、视频渲染模块和用户交互模块。
3.根据权利要求1所述的一种基于wasm、webgpu和webav的数字人系统,其特征在于,所述系统包含的技术架构层为:前端浏览器层,webassembly层,webgpu层,webav层,数据存储层。
4.根据权利要求3所述的一种基于wasm、webgpu和webav的数字人系统,其特征在于,用户交互模块依赖前端浏览器层和数据存储层实现功能;