语音处理系统的制作方法

文档序号：2826091阅读：200来源：国知局

语音处理系统的制作方法
【专利摘要】一种文语转换方法，该方法包括：接收输入文本；将所述输入文本分割为声单元序列；利用声学模型将所述声单元序列转换为语音矢量序列，其中所述模型具有多个模型参数，模型参数描述将声单元与语音矢量相关联的概率分布；以及将所述语音矢量序列输出为音频，该方法还包括通过如下步骤确定所述模型参数的至少部分：从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量；以及将所述表达语言特征矢量映射到在第二空间中构建的表达合成特征矢量。
【专利说明】语音处理系统
[0001]相关申请的交叉引用
[0002]本申请基于在2012年7月18日提交的英国专利申请N0.1212783.3，并要求其优先权，其整体内容在此引入作为参考。
【技术领域】
[0003]本文所述实施例总体涉及语音处理系统和方法。
【背景技术】
[0004]语音处理系统通常落入两个主要组:文语转换系统；和语音识别系统。
[0005]文语转换系统是这样的系统，其中响应于接收到文本文件而输出音频语音或音频语音文件。文语转换系统用于多个应用中，诸如电子游戏、电子书阅读器、电子邮件阅读器、卫星导航、自动电话系统、自动警告系统。

【发明内容】

[0006]为了解决对能够输出具有一定表达程度的语音的系统的持续需要这一问题，本发明实施例提供一种语音处理系统。
[0007]在一实施例中，提供文语转换方法，该方法包括:
[0008]接收输入文本；
[0009]将所述输入文本分割为声单元序列；
[0010]利用声学模型将所述声单元序列转换为语音矢量序列，其中所述模型具有多个模型参数，所述模型参数用于描述将声单元与语音矢量相关联的概率分布；以及
[0011]将所述语音矢量序列输出为音频，
[0012]该方法还包括通过如下步骤确定所述模型参数的至少部分:
[0013]从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量；以及
[0014]将所述表达语言特征矢量映射到在第二空间中构建的表达合成特征矢量。
[0015]在实施例中，将表达语言特征矢量映射到表达合成特征矢量包括，使用机器学习算法,例如,神经网络。
[0016]第二空间可以是多维连续空间。这允许平滑改变输出音频中的表达。
[0017]在一实施例中，从所述输入文本提取表达特征包括多个提取过程，所述多个提取过程在所述文本的不同信息级别执行。例如，不同信息级别可选自基于单词的语言特征提取级别以生成基于单词的语言特征、选自基于全情境音素的语言特征提取级别以生成基于全情境音素的语言特征、选自基于部分语音(POS)的语言特征提取级别以生成基于POS的特征、以及选自基于叙事风格的语言特征提取级别以生成叙事风格的信息。
[0018]在一个实施例中，当从多个信息级别提取表达特征时，多个提取过程中的每个生成特征矢量，该方法还包括连接从不同信息级别生成的语言特征矢量，以生成与第二空间映射的语言特征矢量。
[0019]在另一个实施例中，当从多个信息级别提取表达特征时，将表达语言特征矢量映射到表达合成特征矢量包括对应于不同信息级别的每个的多个分级阶段。
[0020]在一个实施例中，从第一空间映射到第二空间使用全情境信息。在另一个实施例中，声学模型从输入文本接收全情境信息，并且将该信息与从声学模型中的表达合成特征矢量导出的模型参数组合。在另一个实施例中，在映射步骤中使用全情境信息，并且还与映射步骤分离地接收全情境信息作为声学模型的输入。
[0021]在一些实施例中，所述声学模型的模型参数被表达为相同类型的模型参数的加权和，并且权重在第二空间中表示。例如，将所述模型参数表示为高斯平均值的加权和。在另一个实施例中，将参数聚为群集，并且合成特征矢量包括用于每个群集的权重。
[0022]每个群集可包括至少一个决策树，所述决策树基于与语言、语音或韵律差异中至少一个相关的问题。另外，在群集的决策树之间可能存在结构差异。
[0023]在一些实施例中，提供一种训练文语转换系统的方法，该方法包括:
[0024]接收训练数据，所述训练数据包括文本数据和对应于所述文本数据的语音数据；
[0025]从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量；
[0026]从所述语音数据提取表达特征并形成在第二空间中构建的表达特征合成矢量；
[0027]训练机器学习算法，该机器学习算法的训练输入为表达语言特征矢量，并且训练输出为对应于训练输入的表达合成特征矢量。
[0028]在一实施例中，机器学习算法为神经网络。
[0029]该方法还包括将表达合成特征矢量输出到语音合成器，所述语音合成器包括声学模型，其中所述模型具有多个模型参数，所述模型参数描述用于将声单元与语音矢量相关联的概率分布。在该配置中，联合训练声学模型的参数和诸如神经网络的机器学习算法。例如，所述声学模型的模型参数可以被表达为相同类型的模型参数的加权和，并且权重在第二空间中表示。在该配置中，可以联合训练在第二空间表示的权重和神经网络。
[0030]在一些实施例中，提供文语转换设备，该设备包括:
[0031 ] 接收器，用于接收输入文本；
[0032]处理器，适于:
[0033]将所述输入文本分割为声单元序列；以及
[0034]利用声学模型将所述声单元序列转换为语音矢量序列，其中所述模型具有多个模型参数，所述模型参数描述声单元与语音矢量相关联的概率分布；以及
[0035]音频输出，其适于将所述语音矢量序列输出为音频，
[0036]所述处理器还适于通过如下步骤确定所述模型参数的至少部分:
[0037]从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量；以及
[0038]将所述表达语言特征矢量映射到在第二空间中构建的表达合成特征矢量。
[0039]由于根据实施例的一些方法可通过软件实现，一些实施例包括在任何合适的载体介质上提供到通用计算机的计算机代码。该载体介质可以包括任意存储介质，诸如软盘、CDROM、磁盘或可编程存储装置，或者任意瞬态介质，诸如，例如电、光或微波信号的任意信号。【专利附图】

【附图说明】
[0040]下文将参考附图描述根据非限制性实施例的系统和方法，其中:
[0041]图1为文语转换系统的示意图；
[0042]图2的流程图示出通过已知语音处理系统执行的步骤；
[0043]图3为高斯概率函数的示意图；
[0044]图4为根据一实施例的合成方法的示意图；
[0045]图5为根据一实施例的训练方法的示意图；
[0046]图6示出用于从多个信息级别提取表达特征矢量的并行系统；
[0047]图7示出用于从多个信息级别提取表达特征矢量的分级系统；
[0048]图8为用于CAT方法中的求和的示意图；
[0049]图9为用于提取合成矢量的基于CAT的系统的示意图；
[0050]图10为根据一实施例的合成方法的示意图；
[0051]图11示出用于根据实施例的方法的变换块和输入矢量；
[0052]图12的流程图示出用于训练基于CAT的系统的训练过程；以及
[0053]图13示出如何建立决策树以将参数聚为群集用于基于CAT的方法。
【具体实施方式】
[0054]首先，将说明关于文语转换系统的根据实施例的系统。
[0055]图1示出文语转换系统I。文语转换系统I包括执行程序5的处理器3。文语转换系统I还包括存储装置7。存储装置7存储程序5使用的数据，以将文本转换为语音。文语转换系统I还包括输入模块11和输出模块13。输入模块11被连接到文本输入15。文本输入15接收文本。文本输入15可以例如为键盘。可选地，文本输入15可以为用于从外部存储介质或网络接收文本数据的装置。
[0056]音频的输出17连接到输出模块13。音频输出17用于输出从输入到文本输入15中的文本转换的语音信号。音频输出17可以例如为直接音频输出，例如扬声器，或者是可以被发送到存储介质、网络等的音频数据文件输出。
[0057]在使用中，文语转换系统I通过文本输入15接收文本。在处理器3上执行的程序5利用存储在存储装置7中的数据将文本转换为语音数据。语音经输出模块13被输出到音频输出17。
[0058]现在将参考图2描述简化的过程。在第一步骤，S101，输入文本。可通过键盘、触摸屏、文本预测器等输入文本。然后将该文本转换为声单元序列。这些声单元可以为音素或字素。这些单元可以是情境相关的，例如三音素，其不仅考虑已经选择的音素，还考虑之前和之后的音素。利用现有技术中熟知的技术(下文将不再对其进行说明)将所述文本转换为声单元序列。
[0059]在步骤S105，查找用于将声单元与语音参数相关联的概率分布。在该实施例中，概率分布为通过均值和方差定义的高斯分布。不过可以使用其它分布，诸如Poisson、Student-t、Laplacian或Gamma分布,其中的一些通过除均值和方差之外的变量定义。
[0060]不可能每个声单元都具有与语音矢量或“观察值”的确定一对一关系，以使用本领域的术语。很多声单元发声方式类似，受到周围声单元、其在单词或语句中的位置的影响，或者通过不同的发声者或表达而被不同地发声。从而，每个声单元仅具有与语音矢量相关联的概率，文语转换系统计算多个概率并在给定声单元序列下选择最可能的观察值序列。
[0061]图3中示出高斯分布。可以将图3看作声单元与语音矢量相关联的概率分布。例如，示出为X的语音矢量具有对应于音素或其它声单元的概率P1，其具有图3所示的分布。
[0062]高斯分布的形状和位置通过其均值和方差定义。这些参数在系统训练期间确定。
[0063]然后在步骤S107在声学模型中使用这些参数。在该说明书中，声学模型为隐藏Markov模型(Hidden Markov Model) (HMM)。然而，还可以使用其它模型。
[0064]语音系统的文本将存储用于将声单元(即音素、字素、单词或其部分)与语音参数相关联的多个概率密度函数。由于通常使用高斯分布，其通常被称为高斯分布或分量。
[0065]在Hidden Markov Model或其它类型的声学模型中，必须考虑与特定声单元相关联的全部潜在语音矢量的概率。然后，考虑与声单元序列最有可能对应的语音矢量序列。这意味着通过考虑两个单元相互影响的方式在整个声单元序列上进行整体优化。从而，当考虑声单元序列时，用于特定声单元的最可能的语音矢量可能不是最佳语音矢量。
[0066]一旦确定语音矢量序列，在步骤S109输出语音。
[0067]图4为根据实施例的文语转换系统的示意图。
[0068]在文本输入201处输入文本。然后，在部分203，从输入文本提取表达特征。例如，文本的人类阅读者将从文本自身获知是否应该以焦急的声音、快乐的声音等阅读文本。所述系统在不要求人交互以指示应如何输出文本的情况下从文本自身也导出该信息。
[0069]下文将更详细描述如何自动采集该信息。然而，输出为位于第一多维空间中的具有数值的特征矢量。该输出然后被映射到第二连续多维表达合成空间205。可以直接使用第二连续多维空间中的值以在合成器207中修改声学模型。合成器207还接收文本作为输入。
[0070]在根据实施例的方法中，将表达TTS视为将文本数据映射到多维连续空间中的点的过程。在该多维连续空间中，每个点表示直接与合成处理相关联的特定表达信息。
[0071]多维连续空间包含无限数目的点；从而提出的方法潜在地可以处理无限数目的不同类型的情绪，并以更加丰富的表达信息合成语音。
[0072]首先，将描述根据实施例对方法和系统的训练。
[0073]将参考图5描述所述训练。训练数据251提供有文本和对应于该文本输入的语音。
[0074]假设训练数据251中的每个发声包含唯一的表达信息。该唯一的表达信息可以从语音数据中确定，并且可以从语音的标音(transcription)(即，也为文本数据)读取。在训练数据中，如图5所示同步化语音语句和文本语句。
[0075]提供“表达语言特征提取”块253，其将训练数据中的每个文本语句转换为将称为
表达语言特征矢量的矢量。
[0076]可以通过表达语言特征提取块253将任何文本语句转换为语言特征，并且全部可能的表达语言特征构成将称为表达语言空间的第一空间255。训练语句的每个标音可视为该表达语言空间中的点。表达语言特征矢量应捕捉文本语句中的情绪信息。
[0077]在训练期间，除了从文本提取表达语言特征，还提供“表达合成特征提取”块257，其将每个语音语句转换为将称为表达合成特征矢量的矢量。
[0078]通过“表达合成特征提取”块257可将任何语音语句转换为表达合成特征，并且全部可能的表达合成特征构成表达合成空间259。对该表达合成特征的要求为，其应捕捉原始语音语句的唯一表达信息；同时，该表达信息可以在合成过程中再生成。
[0079]给定来自训练数据的标音的语言特征和来自训练语音语句的合成特征，根据实施例的方法和系统训练转换块261以将语言特征空间255中的语言特征矢量转换为合成特征空间259中的合成特征矢量。
[0080]在合成阶段，“表达语言特征提取”块253将有待合成的文本转换为语言特征空间255中的语言特征矢量，然后通过转换块261，将语言特征映射到表达合成空间259中的合成特征。该合成特征矢量包含原始文本数据中的情绪信息，并且可以由合成器207 (图4)直接使用，以合成表达语音。
[0081]在一实施例中，使用机器学习方法，例如神经网络(NN)，来提供变换块261，并训练从表达语言空间255到表达合成空间259的转换。对于训练数据251中的每个语句，使用语音数据以生成合成特征空间259中的表达合成特征矢量，并且使用语音数据的标音以生成语言特征空间255中的表达语言特征。使用训练数据的语言特征作为NN的输入，并使用训练数据的合成特征作为目标输出，可以更新NN的参数以学习从语言特征空间到合成特征空间的映射。
[0082]“语言特征提取”±夹253将文本数据转换为语言特征矢量。该特征矢量应包含差别信息，即，如果两个文本数据包含不同情绪，其语言特征在语言特征空间中应是可区分的。
[0083]在一个实施例中，使用单词包(BoW)技术以生成语言特征。BoW方法将文本数据表示为单词频率的矢量。矢量的维度等于词汇表的大小，每个元素包含词汇表中特定单词的频率。可以应用不同的成熟开发的BoW技术，例如潜在语义分析(LSA)、概率潜在语义分析(pLSA)、潜在Dirichlet分配(LDA)等。通过这些技术,可以在非常低的维度中压缩维度等于词汇表大小的原始单词频率矢量。
[0084]在另一个实施例中，为了更精确地在文本数据中建模情绪信息，使用来自文本数据的不同级别的知识以生成语言特征。
[0085]在一个实施例中，不仅使用单词级别信息，还使用更低级别信息(诸如全情境音素序列)和更高级别信息(诸如部分语音(P0S)、叙述风格)以生成语言特征。
[0086]为了将来自不同级别的信息组合到一起，在一个实施例中，如图6所示使用并行结构。在并行结构中，分离地提取不同级别的特征，然后将不同级别的特征连接成一个大矢量，以作为转换块的输入。
[0087]图6示出可用于根据实施例的系统中的用于提取语言特征的并行结构。在步骤S301中将文本数据转换为单词频率矢量。然后，在步骤S305使用将单词作为单元的LDA模型303以将单词频率矢量转换为单词级别特征矢量。在步骤S305，通过推断过程估计变分后狄利克雷参数。
[0088]同时，在步骤S307将文本数据转换为全情境音素的序列。在S311利用将全情境音素作为单元的LDA模型309将该全情境音素序列转换为全情境音素级别特征矢量。
[0089]然后，在S313中将单词级别特征矢量和全情境音素级别特征矢量连接为语言特征以形成语言特征矢量。
[0090]图6用于示出如何提取语言特征的实例。在另一个实施例中，可以将更高级别知识，诸如P0S、叙事风格以及来自文本数据的任何其它有用信息集成到语言特征中。[0091]另外，还可以使用除LDA以外的BoW方法来提取语言特征。
[0092]还可以利用分级结构组合从不同信息级别确定的语言特征。在这样的分级结构的一个实施例中，如图?所示，将具有不同知识级别的语言特征组合到具有NN的级连的系统中。
[0093]在图11中，语言特征I和语言特征2表示从不同知识级别确定的语言特征，例如，单词级别特征、全情境音素级别特征等。
[0094]特征I用作NNl的输入351。然后，将NNl的输出353与作为NN2的输入355的特征2组合以在输出357生成声特征。
[0095]返回到图5，使用表达合成特征提取块257以表示语音数据的表达信息。表达合成特征空间259中的每个点表示语音中的唯一表达信息。
[0096]在根据实施例的方法和系统中，表达合成特征满足两个要求:
[0097]要求1-给定语音数据，相关联的合成特征必须获取该语音数据的表达信息。
[0098]要求2-必须在合成阶段使用在表达合成特征中记录的表达信息，以生成具有相同表达性的语音，即，合成特征确定合成参数。
[0099]可以构建与合成参数相关联的基。然后，可以将用于每个特定表达性程度的合成参数投影到该基上。这通过其在该投影中的坐标定义了表达合成参数的表示。
[0100]在一个实施例中，使用群集适应性训练(CAT)。这里，将群集HMM模型定义为基，并且将与表达性相关的HMM参数投影到该基上(请参考附录)。
[0101]这使得可以将与表达性相关的HMM参数表示为对群集模型的线性内插，并且使用每个群集HMM模型的内插权重来表不表达信息。
[0102]如图8所示，CAT模型包含偏置群集HMM模型和P_1非偏置群集HMM模型。对于特定高斯分量，假设方差和在先值(prior)在全部群集中相同，而通过对全部群集均值的线性内插确定均值参数。
[0103]给定观察矢量，分量m的概率密度函数可以表示为:
[0104]
【权利要求】
1.一种文语转换方法，该方法包括: 接收输入文本；将所述输入文本分割为声单元序列；利用声学模型将所述声单元序列转换为语音矢量序列，其中所述模型具有多个模型参数，所述模型参数描述将声单元与语音矢量相关联的概率分布；以及将所述语音矢量序列输出为音频，该方法还包括通过如下步骤确定至少部分所述模型参数: 从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量；以及将所述表达语言特征矢量映射到在第二空间中构建的表达合成特征矢量。
2.根据权利要求1所述的方法，其中将所述表达语言特征矢量映射到表达合成特征矢量包括使用机器学习算法。
3.根据权利要求1所述的方法，其中所述第二空间为多维连续空间。
4.根据权利要求1所述的方法，其中从所述输入文本提取表达特征包括多个提取过程，所述多个提取过程在所述文本的不同信息级别执行。
5.根据权利要求4所述的方法，其中所述不同信息级别选自:基于单词的语言特征提取级别以生成基于单词的语言特征矢量、基于全情境音素的语言特征提取级别以生成基于全情境音素的语言特征、基于部分语音(POS)的语言特征提取级别以生成基于POS的特征、以及基于叙事风格的语言特征提取级别以生成叙事风格信息。
6.根据权利要求4所述的·方法，多个提取过程中的每个生成特征矢量，该方法还包括连接从不同信息级别生成的语言特征矢量，以生成与第二空间映射的语言特征矢量。
7.根据权利要求4所述的方法，其中，将表达语言特征矢量映射到表达合成特征矢量包括对应于不同信息级别的每个的多个分级阶段。
8.根据权利要求1所述的方法，其中所述映射使用全情境信息。
9.根据权利要求1所述的方法，其中所述声学模型从输入文本接收全情境信息，并且将该信息与从声学模型中的表达合成特征矢量导出的模型参数组合。
10.根据权利要求1所述的方法，其中所述声学模型的模型参数被表示为相同类型的模型参数的加权和，并且在第二空间中表示所述权重。
11.根据权利要求10所述的方法，其中被表示为相同类型的模型参数的加权和的所述模型参数为高斯均值。
12.根据权利要求10所述的方法，其中将相同类型的参数聚为群集，并且所述合成特征矢量包括用于每个群集的权重。
13.根据权利要求12所述的方法，其中每个群集包括至少一个决策树，所述决策树基于与语言、语音或韵律差异中的至少一个相关联的问题。
14.根据权利要求13所述的方法，其中群集的决策树之间存在结构上的差异。
15.一种训练文语转换系统的方法，该方法包括: 接收训练数据，所述训练数据包括文本数据和对应于所述文本数据的语音数据；从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量；从所述语音数据提取表达特征并形成在第二空间中构建的表达特征合成矢量；训练机器学习算法，该机器学习算法的训练输入为表达语言特征矢量，并且其训练输出为对应于训练输入的表达特征合成矢量。
16.根据权利要求15的方法，还包括将表达合成特征矢量输出到语音合成器，所述语音合成器包括声学模型，其中所述模型具有多个模型参数，所述模型参数描述将声单元与语音矢量相关联的概率分布。
17.根据权利要求16所述的方法，其中联合训练声学模型的参数和机器学习算法。
18.根据权利要求16所述的方法,其中所述声学模型的模型参数被表不为相同类型的模型参数的加权和，权重在第二空间中表示，并且其中联合训练在第二空间中表示的权重和机器学习算法。
19.一种文语转换设备，该设备包括: 接收器，用于接收输入文本；处理器，适于: 将所述输入文本分割为声单元序列；以及利用声学模型将所述声单元序列转换为语音矢量序列，其中所述模型具有多个模型参数，所述模型参数描述将声单元与语音矢量相关联的概率分布；以及音频输出，其适于将所述语音矢量序列输出为音频，所述处理器还适于通过如下步骤确定至少部分所述模型参数: 从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量；以及将所述表达语言特征矢量映射到在第二空间中构建的表达合成特征矢量。
【文档编号】G10L13/08GK103578462SQ201310301682
【公开日】2014年2月12日申请日期:2013年7月18日优先权日:2012年7月18日
【发明者】赤岭政巳, 陈浪舟, M·J·F·盖尔斯, K·M·尼尔申请人:株式会社东芝

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赤岭政巳;陈浪舟;M·J·F·盖尔斯;K·M·尼尔
技术所有人：株式会社东芝
我是此专利的发明人

上一篇：鼓面皮的制作方法
上一篇：一种基于分流扬声器和微穿孔板的复合吸声结构的制作方法