本申请涉及ai,具体而言,涉及一种基于视频来确定数字人的嘴型的方法及装置。
背景技术:
1、数字人应用中,语音信息驱动视频生成是实现更逼真、交互性更强的关键。传统方法通常使用原始图片和图片上半部分,通过这些信息来生成与语音内容相匹配的面部表情和嘴部动作。但随着技术发展,新方法如基于深度学习和生成对抗网络的技术崭露头角。
2、最新的方法利用深度学习和gans,训练神经网络学会从语音到面部表情的映射,使生成的视频更自然。使用更大规模的数据集和先进的神经网络架构,如transformer模型,进一步提高了图像质量和语音同步性。同时,引入三维技术也是当前研究的热点,通过结合三维图形和深度学习,使得数字人的表现更为生动。
3、但是,现有技术中,数字人生成嘴型过程中还是存在嘴部以及牙齿变形、不清晰问题。
4、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本发明实施例提供了一种基于视频来确定数字人的嘴型的方法及装置,以至少解决数字人生成嘴型过程中存在嘴部以及牙齿变形、不清晰的技术问题。
2、根据本发明实施例的一个方面,提供了一种基于视频来确定数字人的嘴型的方法,包括:获取用于确定数字人的嘴型的语音序列,从所述语音序列中提取多个语音向量;基于所述多个语音向量,根据嘴型生成模型中目标人物的嘴型和目标人物的音频向量之间的关联关系以及所述目标人物的不同状态下的多张不同类型的嘴部信息,确定与所述多个语音向量相对应的嘴型序列。
3、根据本发明实施例的另一方面,还提供了一种基于视频来确定数字人的嘴型的装置,包括:获取模块,被配置为获取用于确定数字人的嘴型的语音序列,从所述语音序列中提取多个语音向量;确定模块,被配置为基于所述多个语音向量,根据嘴型生成模型中目标人物的嘴型和目标人物的音频向量之间的关联关系以及所述目标人物的不同状态下的多张不同类型的嘴部信息,确定与所述多个语音向量相对应的嘴型序列。
4、在本发明实施例中,获取用于确定数字人的嘴型的语音序列,从所述语音序列中提取多个语音向量;基于所述多个语音向量,根据嘴型生成模型中目标人物的嘴型和目标人物的音频向量之间的关联关系以及所述目标人物的不同状态下的多张不同类型的嘴部信息,确定与所述多个语音向量相对应的嘴型序列。通过上述方案,解决了数字人生成嘴型过程中存在嘴部以及牙齿变形、不清晰的技术问题。
1.一种基于视频来确定数字人的嘴型的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,从所述语音序列中提取多个语音向量,包括:
3.根据权利要求1所述的方法,其特征在于,基于所述多个语音向量,根据嘴型生成模型中目标人物的嘴型和目标人物的音频向量之间的关联关系以及所述目标人物的不同状态下的多张不同类型的嘴部信息,确定与所述多个语音向量相对应的嘴型序列,包括:
4.根据权利要求3所述的方法,其特征在于,在根据嘴型生成模型中目标人物的嘴型和目标人物的音频向量之间的关联关系,确定与所述多个语音向量相对应的初始嘴型序列之前,所述方法还包括:
5.根据权利要求3所述的方法,其特征在于,基于所述目标人物的不同状态下的多张不同类型的嘴部信息,对所述初始嘴型序列进行调整,得到所述嘴型序列,包括:
6.根据权利要求5所述的方法,其特征在于,基于所述调整机制,来调整初始嘴型序列,得到所述嘴型序列,包括:
7.根据权利要求6所述的方法,其特征在于,所述嘴型序列中的关键点用于描述所述目标人物的嘴型的轮廓。
8.一种基于视频来确定数字人的嘴型的装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有程序,其特征在于,在所述程序运行时,使得计算机执行如权利要求1至7中任一项所述的方法。