语音合成方法、装置和系统与流程

文档序号：23793953发布日期：2021-01-30 09:08阅读：188来源：国知局

[0001]
本申请涉及语音处理领域，具体而言，涉及一种语音合成方法、装置和系统。

背景技术：

[0002]
语音合成是通过机械的、电子的方法生成人造语音的技术，其中，tts(text to speech，文语转换)技术是语音合成中的一种，其可将计算机生成的，或者外部输入的文字信息转换为声音信号进行输出。
[0003]
传统的neuraltts系统中，通常仅采用一个历史语音帧指导当前语音帧的生成，但对于低频语音(例如，低频男声)，一个历史语音帧是不足以提供足够的信息来指导当前语音帧的生成的，从而导致文本转语音得到的合成语音的效果差。
[0004]
针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

[0005]
本申请实施例提供了一种语音合成方法、装置和系统，以至少解决现有技术采用一个历史语音帧生成当前语音帧导致语音合成效果差的技术问题。
[0006]
根据本申请实施例的一个方面，提供了一种语音合成方法，包括：基于待处理文本和第一声学特征集，得到第二声学特征集，其中，第一声学特征集包括：基于至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括：在当前语音帧的合成过程中解码得到的声学特征；至少基于第二声学特征集进行语音合成处理，得到当前语音帧。
[0007]
根据本申请实施例的另一方面，还提供了一种语音合成装置，包括：获取模块，用于基于待处理文本和第一声学特征集，得到第二声学特征集，其中，第一声学特征集包括：基于至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括：在当前语音帧的合成过程中解码得到的声学特征；合成模块，用于至少基于第二声学特征集进行语音合成处理，得到当前语音帧。
[0008]
根据本申请实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的语音合成方法。
[0009]
根据本申请实施例的另一方面，还提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行上述的语音合成方法。
[0010]
根据本申请实施例的另一方面，还提供了一种音箱，该音箱用于执行以下处理步骤：基于待处理文本和第一声学特征集，得到第二声学特征集，其中，第一声学特征集包括：基于至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括：在当前语音帧的合成过程中解码得到的声学特征；至少基于第二声学特征集进行语音合成处理，得到当前语音帧。
[0011]
根据本申请实施例的另一方面，还提供了一种语音合成系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：基于待处理文本和第一声学特征集，得到第二声学特征集，其中，第一声学特征集包括：基于至少一历史语音帧
的合成过程中解码得到的声学特征，第二声学特征集包括：在当前语音帧的合成过程中解码得到的声学特征；至少基于第二声学特征集进行语音合成处理，得到当前语音帧。
[0012]
根据本申请实施例的另一方面，还提供了一种语音合成系统，包括：预处理模块，用于对待处理文本进行预处理，得到预处理后文本；编码模块，用于对预处理后文本进行编码处理，并通过注意力机制将编码结果输入至解码模块；解码模块，用于对编码结果进行解码处理，得到与待处理文本对应的多个声学特征，其中，多个声学特征包括：基于至少一个历史语音帧的合成过程中解码得到的第一声学特征集，以及在当前语音帧的合成过程中解码得到的第二声学特征集；后处理模块，用于至少基于第二声学特征集进行语音合成处理，得到当前语音帧。
[0013]
在本申请实施例中，采用通过多个声学特征进行语音合成的方式，通过基于待处理文本和第一声学特征集得到第二声学特征集，然后至少基于第二声学特征集进行语音合成处理，得到当前语音帧，其中，第一声学特征集包括基于至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括在当前语音帧的合成过程中解码得到的声学特征。
[0014]
在上述过程中，使用至少一个历史语音帧对当前语音帧的生成进行指导，可以提高低频发音人合成语音的音质和自然度。由此可见，本申请所提供的方案达到了合成语音的目的，从而实现了提高语音合成效果的技术效果，进而解决了现有技术采用一个历史语音帧生成当前语音帧导致语音合成效果差的技术问题。
附图说明
[0015]
此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：
[0016]
图1是根据本申请实施例的一种计算机终端的硬件结构框图；
[0017]
图2是根据本申请实施例的一种语音合成方法的流程图；
[0018]
图3是根据本申请实施例的一种可选的语音合成方法的流程图；
[0019]
图4是根据本申请实施例的一种语音合成装置的示意图；
[0020]
图5是根据本申请实施例的一种计算机终端的结构框图；以及
[0021]
图6是根据本申请实施例的一种语音合成系统的示意图。
具体实施方式
[0022]
为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。
[0023]
需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆
盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0024]
首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：
[0025]
neural tts，是一种在声学建模模块采用端到端模型进行文字到语音谱转换的语音合成方法。
[0026]
实施例1
[0027]
根据本申请实施例，还提供了一种语音合成方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
[0028]
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现语音合成方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，
……
，102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
[0029]
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
[0030]
存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的语音合成方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音合成方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0031]
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
[0032]
显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
[0033]
此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
[0034]
在上述运行环境下，本申请提供了如图2所示的语音合成方法，该方法可应用于发音人的音频处于低频段的语音合成场景。图2是根据本申请实施例一的语音合成方法的流程图，由图2可知，该方法包括如下步骤：
[0035]
步骤s202，基于待处理文本和第一声学特征集，得到第二声学特征集，其中，第一声学特征集包括：基于至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括：在当前语音帧的合成过程中解码得到的声学特征。
[0036]
在步骤s202中，待处理文本为需要转换为语音的文本，其中，语音合成系统可获取待处理文本。可选的，语音工作人员可以重复听语音，然后将语音中的内容写出来，得到待处理文本，并将待处理文本存储在预设存储位置中，语音合成系统从预设存储位置处获取待处理文本。可选的，语音合成系统还可对自动待处理文本对应的待处理语音进行文本转换处理，得到待处理文本，并将待处理文本存储在预设存储位置中，语音合成系统可以从预设存储位置处获取待处理文本。
[0037]
在一种可选的实施例中，图3示出了本申请所提供的语音合成方法的流程图，由图3可知，语音合成系统首先将待处理文本输入至预处理网络中进行预处理，并将经过预处理后的待处理文本输入至编码器进行编码，并通过注意力机制输入至解码器中进行解码从而得到待处理文本对应的声学特征。语音合成系统对声学特征进行处理得到第一声学特征集，可选的，预处理网络可以使用自然语言处理方法对待处理文本进行预处理。另外，预处理网络在对待处理文本进行预处理之前，可以首先检测待处理文本对应的语言类型，然后采用与语言类型对应的预处理方法对待处理文本进行预处理，从而可以使得解码器能够输出更准确的声学特征，进而提高语音合成效果。
[0038]
需要说明的是，在步骤s202中，第二声学特征集包括：第一组成部分和第二组成部分，其中，第一组成部分包括：梅尔频谱声学特征，第二组成部分包括以下至少之一：梅尔倒谱声学特征、基频声学特征、清浊声学特征。其中，第二组成部分与第一组成部分形成互补，可以更好的指导线性谱的生成。此处，梅尔倒谱声学特征可以表现为梅尔广义倒谱系数。而梅尔广义倒谱系数又可以替换为线谱对参数(line spectral pair)或者线性预测系数(linear prediction coefficient)。容易注意到的是，本申请在传统的neural tts方案的基础上，通过引入梅尔倒谱声学特征、基频声学特征、清浊声学特征等声学参数，可以提高合成语音的稳定性。
[0039]
步骤s204，至少基于第二声学特征集进行语音合成处理，得到当前语音帧。
[0040]
可选的，在得到第二声学特征集之后，语音合成系统通过后处理网络对第二声学特征集进行处理，得到线性谱，然后再通过griffin-lim重建算法，从线性谱中得到当前语音帧，如图3所示。其中，后处理网络是指对声学特征集进行后处理的神经网络，后处理与预处理相对应，在语音合成领域，后处理可以为对语音进行语言建模、解码以及错误处理等处
理方法。
[0041]
基于上述步骤s202至步骤s204所限定的方案，可以获知，采用通过多个声学特征进行语音合成的方式，通过基于待处理文本和第一声学特征集得到第二声学特征集，然后至少基于第二声学特征集进行语音合成处理，得到当前语音帧，其中，第一声学特征集包括基于至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括在当前语音帧的合成过程中解码得到的声学特征。
[0042]
容易注意到的是，使用至少一个历史语音帧对当前语音帧的生成进行指导，可以提高低频发音人合成语音的音质和自然度。由此可见，本申请所提供的方案达到了合成语音的目的，从而实现了提高语音合成效果的技术效果，进而解决了现有技术采用一个历史语音帧生成当前语音帧导致语音合成效果差的技术问题。
[0043]
在一种可选的实施例中，在基于待处理文本和第一声学特征集，得到第二声学特征集之前，语音合成系统通过第一神经网络获取第一声学特征集，其中，第一神经网络用于对第一声学特征集进行延时处理，以使第一声学特征集成为当前语音帧的合成过程的参考因素。
[0044]
可选的，如图3所示，第一神经网络可以为图3中的时延网络。语音合成系统将第一声学特征集输入至时延网络进行时延，然后再将经过时延的第一声学特征集输入至预处理网络进行预处理，最后再将经过预处理后的第一声学特征输入至解码器中进行解码。通过对第一声学特征集进行延时处理，可以使语音合成系统更好的预测下一个语音帧合成过程中的参数。
[0045]
进一步地，在基于待处理文本和第一声学特征集，得到第二声学特征集之后，语音合成系统将第二声学特征集输入至第一神经网络，以使第二声学特征集成为下一个语音帧的合成过程的参考因素。其中，该过程与对第一声学特征集的处理方法相同，在此不再赘述。
[0046]
需要说明的是，通过时延网络对声学特征集(包括第一声学特征集和第二声学特征集)进行时延处理，从而引入了多个时刻的历史语音帧信息，相较于现有技术中仅引入一帧历史信息，本申请所提供的方案可以使得mos(mean opinion score，平均意见值)值达到0.5的提升，有效提高了语音的合成效果。
[0047]
更进一步的，在得到第二声学特征集之后，语音合成系统采用第二声学特征集进行语音合成处理，得到当前语音帧。具体的，语音合成系统通过对第二声学特征集中包含的声学特征进行多任务学习，得到第二神经网络的输入参数，并通过第二神经网络输出线性谱，最后，对线性谱进行重建处理，得到当前语音帧。
[0048]
在另一种可选的实施例中，语音合成系统还可通过对第一声学特征集和第二声学特征集中包含的声学特征进行多任务学习，得到第二神经网络的输入参数，并通过第二神经网络输出线性谱，最后对线性谱进行重建处理，得到当前语音帧。
[0049]
可选的，上述第二神经网络可以为后处理网络。如图3所示，语音合成系统将第二声学特征集输入至后处理网络中，经过后处理网络的后处理之后，得到线性谱，然后再通过gr iffin-lim重建算法对线性谱进行重建，最后从线性谱中得到当前语音帧。
[0050]
由上述内容可知，本申请所提供的方案在neural tts的解码器输出上进行改进，加入了梅尔倒谱、基频、清浊等声学特征，与传统的梅尔频谱形成互补，能够更好的指导线
性谱的生成。另外，本申请所提供的方案将解码器的输出通过时延网络之后作为解码器的输入，从而可以更好的利用历史信息，更准确地预测当前语音帧，提高了低频发音人合成语音的音质和自然度。最后，本申请所提供的方案，在传统neural tts方案的基础上，通过引入梅尔倒谱、基频、清浊等声学特征，采用多任务学习的方法还可以进一步提高合成语音的稳定性。
[0051]
需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。
[0052]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的语音合成方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。
[0053]
实施例2
[0054]
根据本申请实施例，还提供了一种用于实施上述语音合成方法的语音合成装置，如图4所示，该装置40包括：获取模块401以及合成模块403。
[0055]
其中，获取模块401，用于基于待处理文本和第一声学特征集，得到第二声学特征集，其中，第一声学特征集包括：基于至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括：在当前语音帧的合成过程中解码得到的声学特征；合成模块403，用于至少基于第二声学特征集进行语音合成处理，得到当前语音帧。
[0056]
此处需要说明的是，上述获取模块401以及合成模块403对应于实施例1中的步骤s202至步骤s204，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
[0057]
可选的，第二声学特征集包括：第一组成部分和第二组成部分，其中，第一组成部分包括：梅尔频谱声学特征，第二组成部分包括以下至少之一：梅尔倒谱声学特征、基频声学特征、清浊声学特征。
[0058]
在一种可选的实施例中，语音合成装置还包括：第一获取模块。其中，第一获取模块，用于在基于待处理文本和第一声学特征集，得到第二声学特征集之前，通过第一神经网络获取第一声学特征集，其中，第一神经网络用于对第一声学特征集进行延时处理，以使第一声学特征集成为当前语音帧的合成过程的参考因素。
[0059]
在一种可选的实施例中，语音合成装置还包括：输入模块。其中，输入模块，用于在基于待处理文本和第一声学特征集，得到第二声学特征集之后，将第二声学特征集输入至第一神经网络，以使第二声学特征集成为下一个语音帧的合成过程的参考因素。
[0060]
在一种可选的实施例中，合成模块包括：第一处理模块以及第二处理模块。其中，第一处理模块，用于通过对第二声学特征集中包含的声学特征进行多任务学习，得到第二
神经网络的输入参数，并通过第二神经网络输出线性谱；第二处理模块，用于对线性谱进行重建处理，得到当前语音帧。
[0061]
在一种可选的实施例中，合成模块包括：第三处理模块以及第四处理模块。其中，第三处理模块，用于通过对第一声学特征集和第二声学特征集中包含的声学特征进行多任务学习，得到第二神经网络的输入参数，并通过第二神经网络输出线性谱；第四处理模块，用于对线性谱进行重建处理，得到当前语音帧。
[0062]
可选的，语音合成系统应用于发音人的音频处于低频段的语音合成场景。
[0063]
实施例3
[0064]
根据本申请实施例，还提供了一种用于实施上述语音合成方法的语音合成系统，该系统包括：处理器以及存储器。
[0065]
其中，存储器与处理器连接，用于为处理器提供处理以下处理步骤的指令：基于待处理文本和第一声学特征集，得到第二声学特征集，其中，第一声学特征集包括：基于至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括：在当前语音帧的合成过程中解码得到的声学特征；至少基于第二声学特征集进行语音合成处理，得到当前语音帧。
[0066]
由此可见，采用通过多个声学特征进行语音合成的方式，通过基于待处理文本和第一声学特征集得到第二声学特征集，然后至少基于第二声学特征集进行语音合成处理，得到当前语音帧，其中，第一声学特征集包括基于至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括在当前语音帧的合成过程中解码得到的声学特征。
[0067]
容易注意到的是，使用多个历史语音帧对当前语音帧的生成进行指导，可以提高低频发音人合成语音的音质和自然度。由此可见，本申请所提供的方案达到了合成语音的目的，从而实现了提高语音合成效果的技术效果，进而解决了现有技术采用一个历史语音帧生成当前语音帧导致语音合成效果差的技术问题。
[0068]
实施例4
[0069]
本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。
[0070]
可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
[0071]
在本实施例中，上述计算机终端可以执行语音合成方法中以下步骤的程序代码：基于待处理文本和第一声学特征集，得到第二声学特征集，其中，第一声学特征集包括：基于至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括：在当前语音帧的合成过程中解码得到的声学特征；至少基于第二声学特征集进行语音合成处理，得到当前语音帧。
[0072]
可选地，图5是根据本申请实施例的一种计算机终端的结构框图。如图5所示，该计算机终端10可以包括：一个或多个(图中仅示出一个)处理器502、存储器504以及外设接口506。
[0073]
其中，存储器可用于存储软件程序以及模块，如本申请实施例中的语音合成方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而
执行各种功能应用以及数据处理，即实现上述的语音合成方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0074]
处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：基于待处理文本和第一声学特征集，得到第二声学特征集，其中，第一声学特征集包括：基于至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括：在当前语音帧的合成过程中解码得到的声学特征；至少基于第二声学特征集进行语音合成处理，得到当前语音帧。
[0075]
可选的，上述处理器还可以执行如下步骤的程序代码：在基于待处理文本和第一声学特征集，得到第二声学特征集之前，通过第一神经网络获取第一声学特征集，其中，第一神经网络用于对第一声学特征集进行延时处理，以使第一声学特征集成为当前语音帧的合成过程的参考因素。
[0076]
可选的，上述处理器还可以执行如下步骤的程序代码：在基于待处理文本和第一声学特征集，得到第二声学特征集之后，将第二声学特征集输入至第一神经网络，以使第二声学特征集成为下一个语音帧的合成过程的参考因素。
[0077]
可选的，上述处理器还可以执行如下步骤的程序代码：通过对第二声学特征集中包含的声学特征进行多任务学习，得到第二神经网络的输入参数，并通过第二神经网络输出线性谱；对线性谱进行重建处理，得到当前语音帧。
[0078]
可选的，上述处理器还可以执行如下步骤的程序代码：通过对第一声学特征集和第二声学特征集中包含的声学特征进行多任务学习，得到第二神经网络的输入参数，并通过第二神经网络输出线性谱；对线性谱进行重建处理，得到当前语音帧。
[0079]
本领域普通技术人员可以理解，图5所示的结构仅为示意，计算机终端也可以是智能手机(如android手机、ios手机等)、平板电脑、掌声电脑以及移动互联网设备(mobile internet devices，mid)、pad等终端设备。图5其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图5所示不同的配置。
[0080]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
[0081]
实施例5
[0082]
本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的语音合成方法所执行的程序代码。
[0083]
可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。
[0084]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于待处理文本和第一声学特征集，得到第二声学特征集，其中，第一声学特征集包括：基于
至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括：在当前语音帧的合成过程中解码得到的声学特征；至少基于第二声学特征集进行语音合成处理，得到当前语音帧。
[0085]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在基于待处理文本和第一声学特征集，得到第二声学特征集之前，通过第一神经网络获取第一声学特征集，其中，第一神经网络用于对第一声学特征集进行延时处理，以使第一声学特征集成为当前语音帧的合成过程的参考因素。
[0086]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在基于待处理文本和第一声学特征集，得到第二声学特征集之后，将第二声学特征集输入至第一神经网络，以使第二声学特征集成为下一个语音帧的合成过程的参考因素。
[0087]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过对第二声学特征集中包含的声学特征进行多任务学习，得到第二神经网络的输入参数，并通过第二神经网络输出线性谱；对线性谱进行重建处理，得到当前语音帧。
[0088]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过对第一声学特征集和第二声学特征集中包含的声学特征进行多任务学习，得到第二神经网络的输入参数，并通过第二神经网络输出线性谱；对线性谱进行重建处理，得到当前语音帧。
[0089]
实施例6
[0090]
根据本申请实施例，还提供了一种用于实施上述语音合成方法的音箱，该音箱用于执行以下处理步骤：
[0091]
基于待处理文本和第一声学特征集，得到第二声学特征集，其中，第一声学特征集包括：基于至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括：在当前语音帧的合成过程中解码得到的声学特征；
[0092]
至少基于第二声学特征集进行语音合成处理，得到当前语音帧。
[0093]
可选的，第二声学特征集包括：第一组成部分和第二组成部分，其中，第一组成部分包括：梅尔频谱声学特征，第二组成部分包括以下至少之一：梅尔倒谱声学特征、基频声学特征、清浊声学特征。
[0094]
由此可见，采用通过多个声学特征进行语音合成的方式，通过基于待处理文本和第一声学特征集得到第二声学特征集，然后至少基于第二声学特征集进行语音合成处理，得到当前语音帧，其中，第一声学特征集包括基于至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括在当前语音帧的合成过程中解码得到的声学特征。
[0095]
容易注意到的是，使用多个历史语音帧对当前语音帧的生成进行指导，可以提高低频发音人合成语音的音质和自然度。由此可见，本申请所提供的方案达到了合成语音的目的，从而实现了提高语音合成效果的技术效果，进而解决了现有技术采用一个历史语音帧生成当前语音帧导致语音合成效果差的技术问题。
[0096]
在一种可选的实施例中，音箱还通过第一神经网络获取第一声学特征集，其中，第一神经网络用于对第一声学特征集进行延时处理，以使第一声学特征集成为当前语音帧的合成过程的参考因素。
[0097]
另外，在基于待处理文本和第一声学特征集，得到第二声学特征集之后，音箱将第
二声学特征集输入至第一神经网络，以使第二声学特征集成为下一个语音帧的合成过程的参考因素。
[0098]
在一种可选的实施例中，音箱可以通过对第二声学特征集中包含的声学特征进行多任务学习，得到第二神经网络的输入参数，并通过第二神经网络输出线性谱，最后对线性谱进行重建处理，得到当前语音帧。
[0099]
在另一种可选的实施例中，音箱还可以通过对第一声学特征集和第二声学特征集中包含的声学特征进行多任务学习，得到第二神经网络的输入参数，并通过第二神经网络输出线性谱，最后对线性谱进行重建处理，得到当前语音帧。
[0100]
实施例7
[0101]
根据本申请实施例，还提供了一种用于实施上述语音合成方法的语音合成系统，如图6所示，该系统包括：预处理模块601、编码模块603、解码模块605以及后处理模块607。
[0102]
其中，预处理模块601，用于对待处理文本进行预处理，得到预处理后文本；编码模块603，用于对预处理后文本进行编码处理，并通过注意力机制将编码结果输入至解码模块；解码模块605，用于对编码结果进行解码处理，得到与待处理文本对应的多个声学特征，其中，多个声学特征包括：基于至少一个历史语音帧的合成过程中解码得到的第一声学特征集，以及在当前语音帧的合成过程中解码得到的第二声学特征集；后处理模块607，用于至少基于第二声学特征集进行语音合成处理，得到当前语音帧。
[0103]
可选的，第二声学特征集包括：第一组成部分和第二组成部分，其中，第一组成部分包括：梅尔频谱声学特征，第二组成部分包括以下至少之一：梅尔倒谱声学特征、基频声学特征、清浊声学特征。其中，第二组成部分与第一组成部分形成互补，可以更好的指导线性谱的生成。容易注意到的是，本申请在传统的neural tts方案的基础上，通过引入梅尔倒谱声学特征、基频声学特征、清浊声学特征等声学参数，可以提高合成语音的稳定性。
[0104]
在一种可选的实施例中，结合图3所示的流程图进行说明。语音合成系统首先将待处理文本输入至预处理网络(即上述预处理模块)中进行预处理，并将经过预处理后的待处理文本输入至编码器(即上述编码模块)进行编码，并通过注意力机制输入至解码器(即上述解码器)中进行解码从而得到待处理文本对应的声学特征。语音合成系统对声学特征进行处理得到第一声学特征集，可选的，预处理网络可以使用自然语言处理方法对待处理文本进行预处理。另外，预处理网络在对待处理文本进行预处理之前，可以首先检测待处理文本对应的语言类型，然后采用与语言类型对应的预处理方法对待处理文本进行预处理，从而可以使得解码器能够输出更准确的声学特征，进而提高语音合成效果。
[0105]
在得到第二声学特征集之后，语音合成系统通过后处理网络(即上述后处理模块)对第二声学特征集进行处理，得到线性谱，然后再通过griffin-lim重建算法，从线性谱中得到当前语音帧，如图3所示。其中，后处理网络是指对声学特征集进行后处理的神经网络，后处理与预处理相对应，在语音合成领域，后处理可以为对语音进行语言建模、解码以及错误处理等处理方法。
[0106]
在一种可选的实施例中，在基于待处理文本和第一声学特征集，得到第二声学特征集之前，语音合成系统通过第一神经网络获取第一声学特征集，其中，第一神经网络用于对第一声学特征集进行延时处理，以使第一声学特征集成为当前语音帧的合成过程的参考因素。可选的，第一神经网络可以为图3中的时延网络。
[0107]
进一步地，在基于待处理文本和第一声学特征集，得到第二声学特征集之后，语音合成系统将第二声学特征集输入至第一神经网络，以使第二声学特征集成为下一个语音帧的合成过程的参考因素。在得到第二声学特征集之后，语音合成系统通过对第二声学特征集中包含的声学特征进行多任务学习，或者通过对第一声学特征集和第二声学特征集中包含的声学特征进行多任务学习，得到第二神经网络的输入参数，并通过第二神经网络输出线性谱，最后，对线性谱进行重建处理，得到当前语音帧。
[0108]
可选的，上述第二神经网络可以为后处理网络。如图3所示，语音合成系统将第二声学特征集输入至后处理网络中，经过后处理网络的后处理之后，得到线性谱，然后再通过griffin-lim重建算法对线性谱进行重建，最后从线性谱中得到当前语音帧。
[0109]
由上可知，采用通过多个声学特征进行语音合成的方式，通过基于待处理文本和第一声学特征集得到第二声学特征集，然后至少基于第二声学特征集进行语音合成处理，得到当前语音帧，其中，第一声学特征集包括基于至少一个历史语音帧的合成过程中解码得到的声学特征，第二声学特征集包括在当前语音帧的合成过程中解码得到的声学特征。
[0110]
容易注意到的是，使用至少一个历史语音帧对当前语音帧的生成进行指导，可以提高低频发音人合成语音的音质和自然度。由此可见，本申请所提供的方案达到了合成语音的目的，从而实现了提高语音合成效果的技术效果，进而解决了现有技术采用一个历史语音帧生成当前语音帧导致语音合成效果差的技术问题。
[0111]
上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。
[0112]
在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0113]
在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0114]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0115]
另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0116]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存
储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0117]
以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨辰雨;雷鸣
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：异常监控方法、装置和系统与流程
上一篇：开关磁阻电机和智能烹饪设备的制作方法