并行神经文本到语音转换的制作方法

文档序号：24689733发布日期：2021-04-16 10:17阅读：来源：国知局

技术总结
本文提供了将文本转换为音频表示的非自回归序列到序列模型的实施例。实施例是完全卷积的，并且测试的实施例在合成时相比于现有模型获得大约46.7倍的加速，同时使用WaveNet声码器保持相当的语音质量。有趣的是，测试的实施例在挑战性测试句子上也具有比自回归模型更少的注意力误差。在一个或多个实施例中，通过应用逆自回归流(IAF)作为并行神经声码器来构建第一个全并行神经文本到语音系统。系统实施例可以通过单个前馈通路从文本合成语音。本文还公开了用于从头开始训练IAF作为原始波形的生成模型的新颖方法的实施例，其避免了对来自单独训练的WaveNet的蒸馏的需要。自单独训练的WaveNet的蒸馏的需要。自单独训练的WaveNet的蒸馏的需要。

技术研发人员：彭开南平伟宋钊赵可心
受保护的技术使用者：百度（美国）有限责任公司
技术研发日：2020.06.09
技术公布日：2021/4/17

完整全部详细技术资料下载

当前第3页1 2 3