一种个性化的三维数字人全息互动形成系统及方法

文档序号:37009987发布日期:2024-02-09 12:58阅读:20来源:国知局
一种个性化的三维数字人全息互动形成系统及方法

本发明属于计算机,更进一步涉及计算机视觉中的一种个性化的三维数字人全息互动形成系统及方法。本发明可用于实现个性化三维虚拟化形象全息投影系统与用户进行实时语音对话互动,实现对用户的陪伴。


背景技术:

1、随着元宇宙的发展,人们将全息投影技术与ai数字人技术结合,实现三维虚拟化形象全息投影系统与用户进行实时语音对话互动,打破虚拟世界与现实世界的壁垒,增强数字人的交互和呈现能力,让现实世界的用户能够沉浸式享受虚实交互带来的真实感,实现虚拟陪伴。

2、捷开通讯(深圳)有限公司在其申请的专利文献“一种基于混合现实技术实现陪伴的方法及装置”(专利申请号:cn 201611036528.x,申请公布号:cn 106775198 a)中提出了一种基于混合现实技术实现陪伴的方法及装置。该装置包括模型建立模块、数据库模块、接收模块、处理模块和呈现模块共五个模块。该装置的模型建立模块用于生成所述人物的虚拟模型。该装置的数据库模块,用于建立所述行为、反应数据进而得到所述虚拟化对象对应行为反应的所述数据库。该装置的接收模块用于接收用户召唤人物的召唤指令及交互指令。该装置的处理模块用于当接收到所述召唤指令后,去匹配所述召唤人物对应的虚拟模型,以及当接收到所述用户的交互指令后,去匹配所述交互指令对应的所述人物的对应行为数据。该装置的呈现模块用于采用激光全息投影技术以所述行为数据更新所述人物的呈现,并以所述行为、反应数据更新所述人物的呈现。该方法使用混合现实技术,通过现实人和虚拟世界的交互,虽然有效提高交互的效率和效果,但是,该装置存在的不足之处是:由于该装置中的模型建立模块仅仅采用了用户提供的所述人物即现实人的虚拟化对象的外形数据和行为、反应数据,因此,所述虚拟化对象的数据采集并不完整,所述虚拟化对象的语言对话数据、面部表情数据等都并未采集,一定程度上影响了现实用户沉浸式享受虚实交互带来的真实感,减弱了虚拟陪伴的效果。

3、北京松果电子有限公司在其申请的专利文献“语音交互方法及装置、电子设备”(专利申请号:cn 202110760477.x,申请公布号:cn 113452853 a)中提出了于一种语音交互方法及装置、电子设备。该方法首先获取用户的生理特征信息,并根据所述用户生理特征信息确定三维虚拟人物,通过形象决策模型确定与所述用户生理特征信息对应的三维虚拟人物,再由接收模块接收用户的语音信息,然后通过姿态决策模型确定与所述用户语音信息对应的预测信息,该所述预测信息用于确定与用户进行交互的三维虚拟人物的姿态,最后通过呈现模块的所述终端设备的显示装置呈现三维虚拟人物的姿态。该方法对用户形象进行建模得到三维虚拟人物和现实用户进行语言交互,并可在显示装置上呈现三维虚拟人物及其动作,丰富了用户与终端设备之间交互的内容,更加生动形象。但是,该方法仍然存在的不足之处是:该方法所确定的三维虚拟人物是基于用户的生理特征信息,无法实现个性化的三维虚拟人物建模,无法满足用户的多样化需求。该方法所使用的语音合成使得所述虚拟化对象对话机械、木讷,并与真实人声相似度较低,降低了用户沉浸式享受虚实交互带来的真实感。


技术实现思路

1、本发明的目的在于针对上述现有技术的不足,提出一种个性化的三维数字人全息互动形成系统方法。用于解决模型建立采集数据不完整、无法实现个性化三维虚拟化物建模和语音交互中真实人声相似度较低的问题

2、实现本发明目的的技术思路是:本发明为采集目标对象的照片、视频和对话音频等特征信息数据,提取所述虚拟化对象的外形数据、口唇运动数据、面部表情数据、动作行为数据和对话音色及对话特征数据等数据,然后根据用户请求信息中的建模要求和实际特征信息数据,对目标人物进行三维虚拟化形象个性化建模,满足用户的多样化需求。再根据用户请求信息中的语音交互信息,对用户进行情绪识别,将语音交互信息转变为相应的文本。随后根据用户情绪和文本内容涵义模拟虚拟化形象与用户的对话场景,生成虚拟化形象的对话交互文本。再根据虚拟化形象的对话音色及对话特征数据和对话交互文本,合成带有目标人物独特音色和说话风格的语音回复对话音频。再根据语音回复对话音频生成唇行音高度同步的三维虚拟化形象姿态模型,将唇行音高度同步的三维虚拟化形象姿态模型发送给呈现交互模块,进一步丰富和深化虚拟化对象的形象和特征,更准确、生动地反映虚拟化对象的特性和行为习惯。最后通过终端设备呈现唇行音高度同步的三维虚拟化形象姿态,与用户语音交互。

3、本发明的系统,包括模型生成模块、语音识别模块、对话生成模块、语音生成模块、动作生成模块、呈现交互模块;其中:

4、所述的模型生成模块,用于根据用户请求信息中的建模要求,对目标人物进行三维虚拟化形象个性化建模;

5、所述的语音识别模块,用于根据用户请求信息中的语音交互信息,对用户进行情绪识别,将语音交互信息转变为相应的文本,将文本发送给对话生成模块;

6、所述的对话生成模块,用于根据用户情绪和文本内容涵义模拟虚拟化形象与用户的对话场景,生成虚拟化形象的对话交互文本,将对话交互文本发送给语音合成模块;

7、所述的语音合成模块,用于根据虚拟化形象的对话音色及对话特征数据和对话交互文本,合成带有目标人物独特音色和说话风格的语音回复对话音频,将语音回复对话音频发送给动作生成模块;

8、所述的动作生成模块,用于根据语音回复对话音频生成唇行音高度同步的三维虚拟化形象姿态模型,将唇行音高度同步的三维虚拟化形象姿态模型发送给呈现交互模块;

9、所述的呈现交互模块,用于接收用户对目标人物的请求信息,通过终端设备呈现唇行音高度同步的三维虚拟化形象姿态,与用户语音交互。

10、本发明互动形成方法的具体步骤包括如下:

11、步骤1,接收用户对目标人物的请求信息;

12、步骤2,模型生成模块根据用户请求信息中的建模要求,对目标人物进行三维虚拟化形象个性化建模;

13、步骤3,语音识别模块根据用户请求信息中的语音交互信息,对用户进行情绪识别,将语音交互信息转变为相应的文本;

14、步骤4,对话生成模块根据用户情绪和文本内容涵义模拟虚拟化形象与用户的对话场景,生成虚拟化形象的对话交互文本;

15、步骤5,语音合成模块根据虚拟化形象的对话音色及对话特征数据和对话交互文本,合成带有目标人物独特音色和说话风格的语音回复对话音频;

16、步骤6,动作生成模块根据语音回复对话音频生成唇行音高度同步的三维虚拟化形象姿态模型;

17、步骤7,呈现交互模块通过终端设备呈现唇行音高度同步的三维虚拟化形象姿态,与用户语音交互;

18、本发明与现有技术相比,具有如下优点:

19、第一,由于本发明的系统使用的模型生成模块,通过所述虚拟化对象的照片、视频和对话音频等实际特征信息数据,采集了所述虚拟化对象的外形数据、口唇运动数据、面部表情数据、动作行为数据、语音对话音色和对话特征数据等数据,克服了现有技术中单独采集所述虚拟化对象的数据不完整现象的缺陷,使得本发明进一步丰富和深化虚拟化对象的形象和特征,更准确、生动地反映虚拟化对象的特性和行为习惯,让用户能够得到一个逼真虚拟化对象的形象,增加亲切感。

20、第二,由于本发明的方法使用的三维虚拟化对象建模,针对用户提供的虚拟化对象的照片、视频和音频等特征信息数据进行个性化模型建立。克服了现有技术中所述虚拟化对象形象单一,姿态简单的缺点,在外形上满足和适应用户个性化需求,使得虚拟数字人成为一个更加个性化和亲近的伙伴,提高了用户与虚拟化对象的交互体验,增强了用户的参与感和投入感。

21、第三,由于本发明的方法使用的语音合成技术,通过从目标人物的对话音频中提取对话音色和对话特征数据,从而模拟目标人物的独特音色和说话习惯,再通过分析用户对话内容的情感和情绪模拟所述虚拟化对象的情绪,结合虚拟化对象的对话交互文本,合成带有目标人物独特音色和说话风格的语音回复对话音频进行语音对话。克服了现有技术中所述虚拟化对象对话机械、木讷缺点,使得本发明虚拟化对象的语音更加真实和富有个性,且与真实人声相似度极高,增强虚拟化对象的交互和呈现能力,产生严密细致的交互效果,让现实世界的用户能够沉浸式享受虚实交互带来的真实感。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1