1.一种虚拟人脸动画的生成方法,其特征在于,包括:
将输入文本转化为语音信号;
根据所述语音信号中静音帧的出现位置,对所述输入文本进行分句处理,得到多个短句;
对于每个所述短句,生成虚拟人脸动画中的一个头部摆动动作;
将每个所述短句映射成至少一个唇形;
将每个所述短句对应的所述头部摆动动作与所述唇形融合,以生成每个所述短句对应的虚拟人脸动画。
2.如权利要求1所述的方法,其特征在于,所述根据所述语音信号中静音帧的出现位置,对所述输入文本进行分句处理,得到多个短句,包括:
将所述语音信号分解成多个语音帧,所述多个语音帧包括所述静音帧以及音素帧;
对所述输入文本进行分词处理,并获取每个分词对应的多个所述音素帧;
若相邻的两个分词分别对应的多个所述音素帧之间存在一个或多个静音帧,则获取所述一个或多个静音帧的总时长;
当所述总时长大于第一预设阈值时,将相邻的两个分词分别划分至相邻的两个短句中;
若划分得到的任意一个所述短句的字符总数大于第二预设阈值,则令所述第一预设阈值减少一个固定值,并重新对该短句进行分句处理,直至得到的每个短句的所述字符总数不大于所述第二预设阈值。
3.如权利要求2所述的方法,其特征在于,在对所述输入文本进行分词处理,并获取每个分词对应的多个所述音素帧之前,所述方法还包括:
获取每个所述语音帧中各音素的出现概率;
获取所述语音信号对应的音素序列,所述音素序列包含按先后顺序依次排列的多个音素;
根据所述音素序列中各个音素的排列顺序以及所述语音帧中各音素的出现概率,在所述多个语音帧中确定所述静音帧以及确定所述音素序列中各音素分别对应的音素帧。
4.如权利要求3所述的方法,其特征在于,所述获取每个所述语音帧中各音素的出现概率包括:
获取包含多条合成语音的语料库;
基于所述语料库中的多条所述合成语音,构建并训练语音识别模型;
将每个所述语音帧输入所述语音识别模型,以输出每个所述语音帧中各音素的出现概率。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
通过情感分析算法对所述输入文本进行处理,以得到所述输入文本的情感类型;
获取所述情感类型对应的骨架系数,所述骨架系数表示虚拟人脸动画中预存储的一种表情姿态;
根据所述骨架系数为所述虚拟人脸动画渲染人脸表情。
6.一种虚拟人脸动画的生成装置,其特征在于,包括:
第一获取单元,用于将输入文本转化为语音信号;
分句单元,用于根据所述语音信号中静音帧的出现位置,对所述输入文本进行分句处理,得到多个短句;
生成单元,用于对于每个所述短句,生成虚拟人脸动画中的一个头部摆动动作;
映射单元,用于将每个所述短句映射成至少一个唇形;
融合单元,用于将每个所述短句对应的所述头部摆动动作与所述唇形融合,以生成每个所述短句对应的虚拟人脸动画。
7.如权利要求6所述的装置,其特征在于,所述分句单元包括:
分帧子单元,用于将所述语音信号分解成多个语音帧,所述多个语音帧包括所述静音帧以及音素帧;
第一获取子单元,用于对所述输入文本进行分词处理,并获取每个分词对应的多个所述音素帧;
第二获取子单元,用于若相邻的两个分词分别对应的多个所述音素帧之间存在一个或多个静音帧,则获取所述一个或多个静音帧的总时长;
划分子单元,用于当所述总时长大于第一预设阈值时,将相邻的两个分词分别划分至相邻的两个短句中;
分句子单元,用于若划分得到的任意一个所述短句的字符总数大于第二预设阈值,则令所述第一预设阈值减少一个固定值,并重新对该短句进行分句处理,直至得到的每个短句的所述字符总数不大于所述第二预设阈值。
8.如权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于获取每个所述语音帧中各音素的出现概率;
第三获取单元,用于获取所述语音信号对应的音素序列,所述音素序列包含按先后顺序依次排列的多个音素;
确定单元,用于根据所述音素序列中各个音素的排列顺序以及所述语音帧中各音素的出现概率,在所述多个语音帧中确定所述静音帧以及确定所述音素序列中各音素分别对应的音素帧。
9.如权利要求8所述的装置,其特征在于,所述第二获取单元包括:
第三获取子单元,用于获取包含多条合成语音的语料库;
训练子单元,用于基于所述语料库中的多条所述合成语音,构建并训练语音识别模型;
输出子单元,用于将每个所述语音帧输入所述语音识别模型,以输出每个所述语音帧中各音素的出现概率。
10.如权利要求6所述的装置,其特征在于,所述装置还包括:
情感分析单元,用于通过情感分析算法对所述输入文本进行处理,以得到所述输入文本的情感类型;
第四获取单元,用于获取所述情感类型对应的骨架系数,所述骨架系数表示虚拟人脸动画中预存储的一种表情姿态;
渲染单元,用于根据所述骨架系数为所述虚拟人脸动画渲染人脸表情。