语音处理系统和方法

文档序号:2827735阅读:114来源:国知局
语音处理系统和方法
【专利摘要】一种训练用于文本转语音系统的声学模型的方法,所述方法包括:接收语音数据,所述语音数据包括对应于第一语音因素的不同值的数据,并且其中所述语音数据未标记,从而对于给定的语音数据项,所述第一语音因素的值未知;根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集;以及估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语音;其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执行。
【专利说明】语音处理系统和方法

【技术领域】
[0001] 此处一般描述的本发明实施例涉及文本转语音系统和方法。

【背景技术】
[0002] 文本转语音系统是响应于接收到文本文件而输出音频语音或音频语音文件的系 统。
[0003] 文本转语音系统广泛用于多种应用,例如电子游戏、电子图书阅读器、电子邮件阅 读器、卫星导航、自动电话系统、自动报警系统。
[0004] 不断需要使系统被听起来更像人类声音。

【专利附图】

【附图说明】
[0005] 现在将参考附图描述根据非限制性实施例的系统和方法,其中:
[0006] 图1是根据实施例用于训练声学模型的框架;
[0007] 图2是示出根据实施例用于训练语音处理系统的方法的流程图;
[0008] 图3是示出参考图2描述的一个步骤的流程图;
[0009] 图4是示出参考图2描述的另一步骤的流程图;
[0010] 图5是示出根据实施例训练语音处理系统的方法的流程图;
[0011] 图6是示出根据实施例训练语音处理系统的方法的流程图;
[0012] 图7是示出根据实施例训练语音处理系统的方法的流程图;
[0013] 图8是示出参考图7描述的一个步骤的流程图;
[0014] 图9是根据实施例的语音处理方法的流程图;
[0015] 图10是示出如何选择声音特性的系统的示意图;
[0016] 图11是图10中的系统上的变形;
[0017] 图12是示出根据实施例的系统自适应的流程图;
[0018] 图13是示出根据进一步的实施例的系统自适应的流程图;
[0019] 图14是示出适合于系统自适应的各种数据类型的收集的示意图;
[0020] 图15是示出如何在不同说话者之间移植表达的绘图;
[0021] 图16是不出表达语音移植的声学空间图;
[0022] 图17是示出使用自适应数据的表达移植的方法的示意图;
[0023] 图18是用于提取表达合成向量的系统的示意图,是系统中的表达导出部分的示 意图;
[0024] 图19是用于使用不同级别的知识信息提取表达特征的系统的示意图;
[0025] 图20是用于使用级联神经网络提取表达特征以建立不同知识级别模型的系统的 示意图;
[0026] 图21是系统中表达导出部分的示意图;
[0027] 图22是文本转语音系统的示意图;
[0028] 图23是示出语音处理系统执行的步骤的流程图;
[0029] 图24是1?斯概率函数的不意图;
[0030] 图25是可被训练的文本转语音系统的示意图;以及
[0031] 图26是特定实施例使用的决策树的示意图。

【具体实施方式】
[0032] 在一个实施例中,提供一种训练用于文本转语音系统的声学模型的方法,所述方 法包括:接收语音数据;所述语音数据包括对应于第一语音因素的不同值的数据,并且其 中所述语音数据未标记,从而对于给定的语音数据项,所述第一语音因素的值未知;根据 所述第一语音因素的值,将所述语音数据聚簇为第一聚类集;以及估计第一参数集以使得 所述声学模型能够针对所述第一语音因素的不同值适应语音,其中所述聚簇和所述第一 参数估计根据共同的最大似然性准则联合执行。所述第一语音因素可包括说话者;表达 (expression);噪声;诸如"the king"、"the wolf"之类的角色声音;或其它任何语音因 素。表达包括独立于说话者的语音属性。表达的实例包括情绪,例如高兴、悲伤等;强调和 说话风格。表达也可对应于上述一者以上的组合。中性语音是没有任何表达的语音,例如, 没有情绪或强调的语音。未被标记语音数据是这样一种数据:例如,对于该数据,如果第一 语音因素为表达,则不知道哪种表达对应于语音数据的给定部分。
[0033] 在一个实施例中,第一聚类集包括至少一个子聚类。第一参数集可以是被应用的 权重,其中使得每个子聚类有一个权重,并且其中所述权重依赖于所述第一语音因素。这些 权重可以是聚类自适应训练(CAT)权重。每个子聚类可包括至少一个决策树,所述决策树 基于与语言、语音或音韵差别中的至少一者相关的问题。聚类决策树之间和子聚类中的决 策树之间可能存在结构差别。
[0034] 在一个实施例中,第一参数集是依赖于所述第一语音因素的约束似然性线性回归 变换。
[0035] 在一个实施例中,第一语音因素是说话者,并且所述语音数据进一步包括来自以 中性语音说话的一个或多个说话者的语音数据。
[0036] 在一个实施例中,语音数据进一步包括对应于第二语音因素的不同值的数据。第 二语音因素可包括说话者、表达、噪声、口音或其它任何语音因素。第二语音因素的值可以 未知。
[0037] 在一个实施例中,所述方法进一步包括接收对应于所述已接收的语音数据的文本 数据;从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征向量;从语 音数据提取表达特征并形成在第二空间中构建的表达特征合成向量;训练机器学习算法, 所述机器学习算法的训练输入是表达语言特征向量,其训练输出是对应于语音数据和文本 数据的表达特征合成向量。文本数据对应于语音数据,使得语音数据对应于包括文本数据 的文本的说话。
[0038] 在一个实施例中,第二空间是第一说话者的声学空间,并且所述方法被配置为将 表达合成特征向量移植到第二说话者的声学空间。这表不,语音与第二说话者的声音合成, 但是表达预测对应于第一说话者。
[0039] 在一个实施例中,所述方法包括根据所述第二语音因素的值将所述语音数据聚簇 为第二聚类集;以及估计第二参数集以使得所述声学模型能够针对所述第二语音因素的不 同值适应语音,其中所述聚簇和所述第二参数估计根据所述第二参数估计和所述聚簇为第 二聚类集所共同遵循的单个最大似然性准则联合执行。
[0040] 所述第二聚类集可包括至少一个子聚类。所述第二参数集可以是被应用的权重, 其中使得每个子聚类有一个权重,所述权重可依赖于所述第二语音因素。这些权重可以是 聚类自适应训练(CAT)权重。
[0041] 所述第二参数集可以是依赖于所述第二语音因素的约束似然性线性回归变换。
[0042] 在一个实施例中,训练所述声学模型进一步包括:使用从以中性语音说话的说话 者处接收的语音数据训练第一声学子模型;并且使用对应于所述第二语音因素的不同值的 语音数据训练第二声学子模型。
[0043] 在一个实施例中,所述声学模型包括,将声学单兀与语音向量序列相关联的概率 分布函数。所述概率分布可从高斯分布、泊松分布、伽玛分布、学生t分布或拉普拉斯分布 中选择。
[0044] 在一个实施例中,提供一种被配置为输出具有语音因素目标值的语音的文本转语 音方法,所述方法包括:输入具有所述语音因素目标值的自适应数据;使声学模型适应所 述语音因素目标值;输入文本;将所述输入文本分为声学单元序列;使用所述声学模型将 所述声学单元序列转换为语音向量序列;以及将所述语音向量序列输出为具有所述语音因 素目标值的音频,其中所述声学模型包括与所述语音因素相关的语音因素参数集,以及与 所述语音因素相关的语音因素聚类集,并且其中与所述语音因素相关的所述语音因素参数 集和所述语音因素聚类集未被标记,从而对于给定的一个或多个聚类以及给定的一个或多 个参数,与其相关的所述语音因素的值未知。在所述声学模型的自适应之前,所述第一聚类 集和所述第一参数集未被标记。所述自适应数据可包括音频。在一个实施例中,所述语音因 素为表达,并且所述声学模型进一步包括与说话者相关的参数集以及与说话者相关的聚类 集;所述表达参数集和所述说话者参数集与所述表达聚类集和所述说话者聚类集不重叠。 在进一步的实施例中,所述方法被配置为通过结合使用从第一说话者的语音获取的表达参 数以及从第二说话者的语音获取的表达参数,将表达从第一说话者移植到第二说话者。 [0045] 在一个实施例中,提供一种被配置为输出具有语音因素目标值的语音的文本转语 音方法,所述方法包括:输入具有所述语音因素目标值的自适应数据;使声学模型适应所 述语音因素目标值;输入文本;将所述输入文本分为声学单元序列;使用声学模型将所述 声学单元序列转换为语音向量序列;并且将所述语音向量序列输出为具有所述语音因素目 标值的音频,其中所述声学模型包括与所述语音因素相关的语音因素参数集,以及与所述 语音因素相关的语音因素聚类集,并且其中所述声学模型使用这样一种方法训练,此方法 包括:接收语音数据;所述语音数据包括对应于语音因素的不同值的数据,并且其中所述 语音数据未被标记,从而对于给定的语音数据项,所述语音因素的值未知;根据所述语音因 素的值将所述语音数据聚簇为第一聚类集;以及估计第一参数集以使得所述声学模型能够 针对所述语音因素的不同值适应语音,其中所述聚簇和所述第一参数估计根据共同的最大 似然性准则联合执行。
[0046] 在所述声学模型的自适应之前,所述第一聚类集和所述第一参数集未标记。所述 自适应数据可包括音频。在一个实施例中,所述语音因素为表达,并且所述声学模型进一步 包括与说话者相关的参数集以及与说话者相关的聚类集;并且所述表达参数集和所述说话 者参数集与所述表达聚类集和所述说话者聚类集不重叠。在进一步的实施例中,所述方法 被配置为通过结合使用从第一说话者的语音获取的表达参数以及从第二说话者的语音获 取的表达参数,将表达从第一说话者移植到第二说话者。这表示,所述自适应数据可包括来 自以表达说话的第一说话者的数据。由此,合成以同一表达说话的不同说话者的声音。 [0047] 在一个实施例中,提供一种文本转语音方法,所述方法包括:接收输入文本;将所 述输入文本分为声学单元序列;使用声学模型将所述声学单元序列转换为语音向量序列, 其中所述声学模型包括与说话者声音相关的第一参数集和与表达相关的第二参数集,并且 其中所述第一和第二参数集不重叠;以及将所述语音向量序列输出为音频,所述方法进一 步包括通过以下方式确定与表达相关的所述参数中的至少某些:从所述输入文本提取表达 特征以形成在第一空间中构建的表达语言特征向量;以及将所述表达语言特征向量映射为 在第二空间中构建的表达合成特征向量。所述第一和第二参数可以未标记,从而对于给定 的第二参数,其对应的表达未知,并且对于给定的第一参数,其对应的说话者声音未知。第 一和第二参数集的一者或两者可以未被标记。在一个实施例中,第二空间是第一说话者的 声学空间,并且所述方法被配置为将表达合成特征向量移植到第二说话者的声学空间。 [0048] 在一个实施例中,所述声学模型被训练为使得第一聚类集和第一参数集根据共同 的最大似然性准则进行估计。在另一个实施例中,所述声学模型被训练为使得第二聚类集 和第二参数集根据共同的最大似然性准则进行估计。
[0049] 在一个实施例中,提供一种训练用于文本转语音系统的声学模型的系统,所述系 统包括:输入端,其用于接收对应于第一语音因素的不同值的语音数据,其中所述语音数据 未标记,从而对于给定的数据项,所述第一语音因素的值未知;处理器,其被配置为:根据 所述第一语音因素的值将所述语音数据聚簇为第一聚类集;以及估计第一参数集以使得所 述声学模型能够针对所述第一语音因素的不同值适应语音,其中所述聚簇和所述第一参数 估计根据所述第一参数估计和所述聚簇为第一聚类集所共同遵循的单个最大似然性准则 联合执行。
[0050] 在一个实施例中,提供一种被配置为输出具有语音因素目标值的语音的系统,所 述系统包括:用于接收具有所述语音因素目标值的自适应数据的输入端;用于接收文本的 输入端;以及处理器,其被配置为使声学模型适应所述语音因素目标值;将所述输入文本 划分为声学单元序列;使用所述声学模型将所述声学单元序列转换为语音向量序列;以及 将所述语音向量序列输出为具有所述语音因素目标值的音频,其中所述声学模型包括与所 述语音因素相关的第一参数集,以及与所述语音因素相关的第一聚类集,并且其中与所述 语音因素相关的所述第一参数集和所述第一聚类集未标记,从而对于给定的一个或多个聚 类以及给定的一个或多个参数,所述第一语音因素的值未知。
[0051] 在一个实施例中,提供一种文本转语音系统,所述系统包括用于接收输入文本的 文本输入端;处理器,其被配置为将所述输入文本划分为声学单元序列;使用声学模型将 所述声学单元序列转换为语音向量序列,其中所述声学模型包括与说话者声音相关的第一 参数集,以及与表达相关的第二参数集,并且其中所述第一和第二参数集不重叠;并且将所 述语音向量序列输出为音频;通过以下方式确定与表达相关的所述参数中的至少某些:从 所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征向量;以及将所述表 达语言特征向量映射为在第二空间中构建的表达合成特征向量。所述第一和第二参数可以 未标记,从而对于给定的第二参数,其对应的表达未知,并且对于给定的第一参数,其对应 的说话者声音未知。第一和第二参数集的一者或两者可以未标记。在一个实施例中,第二 空间是第一说话者的声学空间,并且所述方法被配置为将表达合成特征向量移植到第二说 话者的声学空间。
[0052] 在一个实施例中,提供一种语音合成训练方法以基于训练数据同时建立表达和说 话者的模型,在所述训练数据中,表达或说话者或者表达信息和说话者信息未标记。在一个 实施例中,从混合表达信息和说话者信息的未标记数据中提取独立的表达信息和说话者信 息。在一个实施例中,表达聚簇过程和参数估计被整合为单一过程。表达聚簇过程和参数 估计过程可通过共同的最大似然性(ML)准则同时执行。所述方法的输出可包括,针对每个 表达聚类的与说话者无关的表达CAT权重向量,和针对每个说话者的与表达无关的说话者 CAT权重向量。所述方法的输出可包括,针对每个表达聚类的与说话者无关的CAT权重向 量,和针对每个说话者的与表达无关的说话者约束最大似然性线性回归(CMLLR)变换。所 述方法的输出可包括,针对每个表达聚类的与说话者无关的表达CMLLR变换,和针对每个 说话者的与表达无关的CAT权重向量。所述方法的输出可包括,针对每个表达聚类的与说 话者无关的表达CMLLR变换,和针对每个说话者的与表达无关的说话者CMLLR变换。
[0053] 在一个实施例中,提供一种文本转语音系统,所述系统包括:
[0054] 输入端,其用于接收输入文本;以及
[0055] 处理器,其被配置为
[0056] 将所述输入文本划分为声学单元序列;
[0057] 使用声学模型将所述声学单元序列转换为语音向量序列,其中所述声学模型包括 与说话者声音相关的第一参数集和第一聚类集,以及与表达相关的第二参数集和第二聚类 集,并且其中所述第一和第二参数集与所述第一和第二聚类集不重叠,并且
[0058] 将所述语音向量序列输出为音频,
[0059] 通过以下方式确定与表达相关的所述参数中的至少某些:
[0060] 从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征向量;以 及
[0061] 将所述表达语言特征向量映射为在第二空间中构建的表达合成特征向量。
[0062] 根据实施例的方法可在通用计算机的硬件中或在软件上实现。根据本发明实施例 的进一步的方法可在硬件和软件的组合中实现。根据实施例的方法也可由单个处理装置或 分布式处理装置网络实现。
[0063] 由于根据实施例的某些方法可通过软件实现,因此某些实施例包含在任何适当的 载体介质上被提供给通用计算机的计算机代码。载体介质可包括任何存储介质,例如软盘、 CD ROM、磁器件或可编程存储器件,或者任何临时介质,例如任何信号,如电信号、光信号或 微波信号。
[0064] 附录中讨论了用于训练文本转语音系统声学模型的聚类自适应训练(CAT)方法 和约束最大似然性线性回归(CMLLR)方法的细节。其中也描述使用CAT和CMLLR方法的说 话者和表达因素分解(SEF)。这些方法可用于建立语音数据因素(例如,说话者和表达)的 模型。
[0065] 图1示出根据实施例的训练框架。在该实施例中,未标记数据的表达和/或说话 者聚类在单个过程中与SEF整合。
[0066] SEF可通过手动标记不同说话者和表达的训练数据来实现。但是很遗憾,对于某些 复杂且极为多样化的训练数据(例如,有声读物数据),将表达或说话者标签手动添加到数 据的成本非常大,并且由于数据非常多样,经常存在较差的注释间协定。例如,合成一个电 子图书可能需要TTS系统通过不同说话者的声音带表达地阅读故事。直接建模每个说话者 和表达的组合通常不切实际,因为表达训练数据并非总是对于每个说话者可用。在这些情 况下,根据说话者或表达标记或聚簇训练数据必须作为训练模型的一部分被执行。
[0067] 在图1的实施例中,使用说话者信息而非表达信息标记训练数据。在该实施例中, 表达聚簇和表达相关参数估计根据最大似然性准则同时执行,即:

【权利要求】
1. 一种训练用于文本转语音系统的声学模型的方法, 所述方法包括: 接收语音数据, 所述语音数据包括对应于第一语音因素的不同值的数据, 并且其中所述语音数据未标记,从而对于语音数据的给定项,所述第一语音因素的值 未知; 根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集;以及 估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语 音; 其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执行。
2. 根据权利要求1的方法,其中所述第一聚类集中的每一者包括至少一个子聚类,并 且其中所述第一参数集是待应用的权重,使得每个子聚类有一个权重,并且其中所述权重 依赖于所述第一语音因素。
3. 根据权利要求1的方法,其中所述第一参数集为依赖于所述第一语音因素的约束似 然性线性回归变换。
4. 根据权利要求1的方法,其中所述第一语音因素是说话者,并且所述语音数据进一 步包括来自以中性语音说话的一个或多个说话者的语音数据。
5. 根据权利要求1的方法,其中所述第一语音因素为表达。
6. 根据权利要求5的方法,进一步包括: 接收对应于所述已接收语音数据的文本数据; 从所述输入文本提取表达特征,以形成在第一空间中构建的表达语言特征向量; 从所述语音数据提取表达特征并形成在第二空间中构建的表达特征合成向量;以及 训练机器学习算法,所述机器学习算法的训练输入是表达语言特征向量,其训练输出 是对应于所述语音数据和所述文本数据的表达特征合成向量。
7. 根据权利要求1的方法,其中所述语音数据进一步包括对应于第二语音因素的不同 值的数据。
8. 根据权利要求7的方法,其中第二语音因素的值未知; 并且,其中所述方法进一步包括: 根据所述第二语音因素的值将所述语音数据聚簇为第二聚类集;以及 估计第二参数集以使得所述声学模型能够针对所述第二语音因素的不同值适应语 音; 其中所述第一和第二参数集与所述第一和第二聚类集不重叠,并且 其中所述聚簇和所述第二参数估计根据所述第二参数估计和所述聚簇为第二聚类集 两者所共同遵循的单个最大似然性准则联合执行。
9. 根据权利要求8的方法,其中所述第二聚类集中的每一者包括至少一个子聚类,并 且其中所述第二参数集是待应用的权重,使得每个子聚类有一个权重,并且其中所述权重 依赖于所述第二语音因素。
10. 根据权利要求8的方法,其中所述第二参数集为依赖于所述第二语音因素的约束 似然性线性回归变换。
11. 根据权利要求4的方法,其中所述语音数据进一步包括对应于第二语音因素的不 同值的数据,并且其中训练所述声学模型进一步包括: 根据所述第二语音因素的值将所述语音数据聚簇为第二聚类集;以及 估计第二参数集以使得所述声学模型能够针对所述第二语音因素的不同值适应语 音; 其中所述聚簇和所述第二参数估计根据所述第二参数估计和所述聚簇为第二聚类集 两者所共同遵循的单个最大似然性准则联合执行, 并且其中所述第一和第二参数集与所述第一和第二聚类集不重叠。
12. 根据权利要求11的方法,其中所述第二语音因素为表达。
13. 根据权利要求1的方法,其中所述声学模型包括将声学单兀与语音向量序列相关 联的概率分布函数。
14. 一种文本转语音方法,其被配置为输出具有语音因素目标值的语音, 所述方法包括: 输入具有所述语音因素目标值的音频数据; 使声学模型适应所述语音因素目标值; 输入文本; 将所述输入文本划分为声学单元序列; 使用所述声学模型将所述声学单元序列转换为语音向量序列;以及 将所述语音向量序列输出为具有所述语音因素目标值的音频, 其中所述声学模型包括与所述语音因素相关的语音因素参数集,以及与所述语音因素 相关的语音因素聚类集, 并且其中与所述语音因素相关的所述语音因素参数集和所述语音因素聚类集未标记, 从而对于给定的一个或多个聚类以及给定的一个或多个参数,与其相关的所述语音因素的 值未知。
15. 根据权利要求14的文本转语音方法, 其中所述语音因素为表达, 所述声学模型进一步包括与说话者相关的参数集以及与说话者相关的聚类集; 并且其中所述表达参数集和所述说话者参数集与所述表达聚类集和所述说话者聚类 集不重叠, 并且其中所述方法被配置为通过结合使用从第一说话者的语音获取的表达参数以及 从第二说话者的语音获取的表达参数,将表达从第一说话者移植到第二说话者。
16. -种文本转语音方法,所述方法包括: 接收输入文本; 将所述输入文本划分为声学单元序列; 使用声学模型将所述声学单元序列转换为语音向量序列,其中所述声学模型包括与说 话者声音相关的说话者参数集和说话者聚类集以及与表达相关的表达参数集和表达聚类 集,并且其中说话者参数集和表达参数集与说话者聚类集和表达聚类集不重叠;以及 将所述语音向量序列输出为音频, 所述方法进一步包括通过以下方式确定与表达相关的所述参数中的至少某些: 从所述输入文本提取表达特征,以形成在第一空间中构建的表达语言特征向量;以及 将所述表达语言特征向量映射为在第二空间中构建的表达合成特征向量。
17. 根据权利要求16的方法,其中所述第二空间是第一说话者的声学空间,并且所述 方法被配置为将所述表达合成特征向量移植到第二说话者的声学空间。
18. -种文本转语音方法,所述方法包括: 接收输入文本; 将所述输入文本划分为声学单元序列; 使用声学模型将所述声学单元序列转换为语音向量序列,其中所述声学模型使用根据 权利要求12的方法训练;以及 将所述语音向量序列输出为音频, 所述方法进一步包括通过以下方式确定所述第二参数集中的至少某些: 从所述输入文本提取表达特征,以形成在第一空间中构建的表达语言特征向量;以及 将所述表达语言特征向量映射为在第二空间中构建的表达合成特征向量。
19. 一种训练用于文本转语音系统的声学模型的系统,所述系统包括: 输入端,其用于接收对应于第一语音因素的不同值的语音数据, 其中所述语音数据未标记,从而对于给定的数据项,所述第一语音因素的值未知; 处理器,其被配置为: 根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集;以及 估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语 音; 其中所述聚簇和所述第一参数估计根据所述第一参数估计和所述聚簇为第一聚类集 两者所共同遵循的单个最大似然性准则联合执行。
20. -种系统,其被配置为输出具有语音因素目标值的语音, 所述系统包括: 用于接收具有所述语音因素目标值的自适应数据的输入端; 用于接收文本的输入端;以及 处理器,其被配置为使声学模型适应所述语音因素目标值; 将所述输入文本划分为声学单元序列; 使用所述声学模型将所述声学单元序列转换为语音向量序列;以及 将所述语音向量序列输出为具有所述语音因素目标值的音频, 其中所述声学模型包括与所述语音因素相关的第一参数集,以及与所述语音因素相关 的第一聚类集, 并且其中与所述语音因素相关的所述第一参数集和所述第一聚类集未标记,从而对于 给定的一个或多个聚类以及给定的一个或多个参数,所述第一语音因素的值未知。
21. -种文本转语音系统,所述系统包括: 用于接收输入文本的输入端;以及 处理器,其被配置为 将所述输入文本划分为声学单元序列; 使用声学模型将所述声学单元序列转换为语音向量序列,其中所述声学模型包括与说 话者声音相关的第一参数集和第一聚类集,以及与表达相关的第二参数集和第二聚类集, 并且其中所述第一和第二参数集与所述第一和第二聚类集不重叠,并且 将所述语音向量序列输出为音频, 通过以下方式确定与表达相关的所述参数中的至少某些: 从所述输入文本提取表达特征,以形成在第一空间中构建的表达语言特征向量;以及 将所述表达语言特征向量映射为在第二空间中构建的表达合成特征向量。
22. -种载体介质,包括被配置为使计算机执行根据权利要求1的方法的计算机可读 代码。
23. -种载体介质,包括被配置为使计算机执行根据权利要求14的方法的计算机可读 代码。
24. -种载体介质,包括被配置为使计算机执行根据权利要求16的方法的计算机可读 代码。
【文档编号】G10L15/14GK104424943SQ201410419320
【公开日】2015年3月18日 申请日期:2014年8月22日 优先权日:2013年8月23日
【发明者】陈浪舟 申请人:株式会社 东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1