一种虚拟人口型中英文混合对齐的方法与流程

文档序号：36827518发布日期：2024-01-26 16:39阅读：30来源：国知局

本发明涉及人工智能，具体为一种虚拟人口型中英文混合对齐的方法。

背景技术：

1、智能虚拟人是指通过计算机技术生成的具有人类外形或特征的虚拟人物角色，它们可以在不同的场景和领域以可视化的方式向人类传达各种信息，或与人类进行智能语音交互以及更为复杂的多模态交互。这项技术已经被广泛应用于文字播报、智能客服、短视频生成、电商直播、元宇宙等各类应用场景，具有广阔的应用前景。在驱动智能虚拟人的过程中，除了语音识别、自然语言理解、语音合成、行为情绪推理等人工智能相关技术，还有一项非常重要的技术就是在给虚拟人输入tts语音合成结果或者真人录音等音频数据后，如何让虚拟人说话时的口型与真实人类说话时的口型尽可能一致。目前已经有一些相关的研究成果或实践方法，在一定程度上实现了口型对齐的任务，但在不同程度上存在着一些问题，例如：

2、无法对中英文混合的句子进行对齐，而这种情况又在日常生活中的很多场景下比较常见，从而限制了这类口型对齐算法的应用范围；由于声学模型对局部特征和全局特征进行融合的问题，现有的口型对齐方法也经常出现虚拟人口型与音频数据不完全匹配的问题，导致口型相似度较低；

3、现有的口型对齐算法往往只能针对一段满足一定时间长度要求的语音进行对齐，而不能实现流式的口型对齐。当音频文件较短时，这个问题并不明显；但当音频文件较长时，算法则需要较长的时间来完成对齐，用户就需要等待较长的时间才能收到虚拟人的语言反馈，从而大大降低了用户体验的及时性和流畅度。

4、检索发现，公开号为：cn107944542a的发明专利，公开了一种基于虚拟人的多模态交互输出方法及系统，通过对获取到的多模态数据进行语义数据和情感数据解析，使虚拟人的面部可以根据解析结果进行面部动作和面部情感的模仿，增强用户视觉感觉的粘度，呈现逼真、流畅的模拟交互效果，提升了交互体验。但是该方法中的口型对齐是以切词长度为单位进行匹配的，没有在音素级别进行匹配对齐，从而导致匹配结果存在较大的误差，例如，当音频数据还在播放时，虚拟人的嘴型可能已经结束了变动。

5、公开号为：cn110136698b的发明专利，公开了用于确定基于语音确定嘴型的方法、装置、设备和计算机存储介质，嘴型序列中的嘴型与多个语音片段中的语音片段的向量化表示相关联，以及嘴型生成模型是基于卷积神经网络获得的。采用上述实现方式，可以以更为有效的方式确定虚拟人物的嘴型，使得虚拟人物的嘴部动作更为自然；但是没有考虑到音频中每个音素的持续时间以及嘴型序列中每个嘴型对应的持续时间，同样会导致对齐结果存在较大的偏差。

技术实现思路

1、本发明的目的在于提供一种虚拟人口型中英文混合对齐的方法，以解决上述背景技术中提出的问题。

2、为实现上述目的，本发明提供如下技术方案：一种虚拟人口型中英文混合对齐的方法，包括如下步骤：

3、步骤一、训练单元选择：从语音中分析出音素序列，并将其映射为对应的视素序列，预先制作好一批标准视素，并根据语音分析得到的音素序列动态地激活并混合一系列的视素，最终生成连续的虚拟人口型动画，为了实现中英文混合对齐，构建统一的音素集，使得声学模型能够对两种语言的语音进行建模；

4、步骤二、改进的模型结构：为了更好的平衡音频序列中的局部特征和全局特征，提高对齐的精度，采用了branchformer编码器结构，branchformer具有并行的双分支结构，可以将全局和局部特征并行提取，其中分支一利用多头自注意力机制提取输入序列中的全局特征；分支二则引入了cgmlp结构，意在捕获音频序列中的局部特征，这两种特征最后可以通过不同方式进行结合；

5、步骤三、流式输出：在对中英文混合的音频进行口型对齐时，采用流式推理技术实现以接近于零延迟的速度完成处理过程。

6、与现有技术相比，本发明的有益效果是：本发明在分析视素映射的基础上，采用了聚类分析音素集融合的方法来确定中英文混合音素集，音素融合可以利用不同语言之间的共享音素，减少模型的参数量和复杂度，提高模型的泛化能力和鲁棒性，音素融合可以降低模型的存储和计算需求，提高模型的效率。同时通过共享不同语言的音素信息，可以减少模型训练所需的数据量和时间，音素融合还可以提高模型的识别准确率和鲁棒性，通过使用一个统一的音素集，可以避免不同语言之间的音素冲突和混淆，提高模型对多种语言的区分能力。

技术特征：

1.一种虚拟人口型中英文混合对齐的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种虚拟人口型中英文混合对齐的方法，其特征在于：步骤一中采用了聚类分析音素集融合的方法来确定中英混合音素集。

3.根据权利要求1所述的一种虚拟人口型中英文混合对齐的方法，其特征在于：步骤三中流式推理的流程如下：

4.根据权利要求3所述的一种虚拟人口型中英文混合对齐的方法，其特征在于：所述流式推理时，音频被划分为一定大小的区块输入到branchformer编码器，在branchformer架构下实现流式推理时，需要记录attention的k和v作为下一个chunk模型推理的缓存。

技术总结
本发明公开了一种虚拟人口型中英文混合对齐的方法，包括如下步骤：步骤一、训练单元选择：从语音中分析出音素序列，并将其映射为对应的视素序列，预先制作好一批标准视素，并根据语音分析得到的音素序列动态地激活并混合一系列的视素，最终生成连续的虚拟人口型动画，为了实现中英文混合对齐，构建统一的音素集；步骤二、改进的模型结构：为了更好的平衡音频序列中的局部特征和全局特征，提高对齐的精度，采用了Branchformer编码器结构，Branchformer具有并行的双分支结构，可以将全局和局部特征并行提取；步骤三、流式输出：在对中英文混合的音频进行口型对齐时，采用流式推理技术实现以接近于零延迟的速度完成处理过程。

技术研发人员：刘钢,陈勇
受保护的技术使用者：拟贤智能科技（上海）有限公司
技术研发日：
技术公布日：2024/1/25

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘钢,陈勇
技术所有人：拟贤智能科技（上海）有限公司
我是此专利的发明人