语音合成字典生成装置和语音合成字典生成方法

文档序号：8513336阅读：561来源：国知局

语音合成字典生成装置和语音合成字典生成方法
【专利说明】
[0001] 相关申请的交叉参考
[0002] 本申请基于并要求2014年2月10提交的日本专利申请No. 2014-023617的优先权权益，其整个内容在此通过引用并入本文。
技术领域
[0003] 在此描述的实施例一般涉及语音合成字典生成装置和语音合成字典生成方法。
【背景技术】
[0004] 在语音合成中，存在不断增长的需求，即，不仅声音从在先准备以用于阅读的少量候选中选择，而且新生成了诸如公认的人和熟悉的人的特定说话人的声音的语音合成字典以用于阅读各种文本内容。为了满足这种需求，已经提出了根据作为字典生成的对象的对象说话人的语音数据来自动生成语音合成字典的技术。同样，作为从对象说话人的少量语音数据中生成语音合成字典的技术，存在说话人自适应技术，其中，在先准备的表示多个说话人的平均特性的模型被转换，以便变得更接近对象说话人的特性，从而生成对象说话人的模型。
[0005] 自动生成语音合成字典的传统技术的主要目的是尽可能多地与对象说话人的声音和说话方式相似。然而，成为字典生成的对象的对象说话人不仅包括专业解说员和配音演员，而且包括从未接收过声音训练的一般说话人。为此，当对象说话人的话语技巧低时，低的技巧会被如实地再现，导致语音合成字典难以在某些应用中使用。
[0006] 此外，也存在对用对象说话人的声音不仅生成对象说话人的母语而且生成外语的语音合成字典的需求。为了满足该需求，如果可以记录读外语的对象说话人的语音，则该语言的语音合成字典可根据该记录的语音生成。然而，当语音合成字典根据包括不正确的发音作为语言的发音或者包括具有重音的不自然的发音的所记录的语音而生成时，发音的特征被反映到语音合成字典上。因此，当母语说话人听到用语音合成字典合成的语音时，他们不能理解。

【发明内容】

[0007] 实施例的目的是提供一种能够生成语音合成字典的语音合成字典生成装置，其中，说话人特性的相似性根据成为目标的话语技巧和母语程度来控制。
[0008] 根据一个实施例，语音合成字典生成装置用于基于对象说话人的语音数据来生成包含对象说话人的模型的语音合成字典。该装置包括语音分析器、说话人自适应器、目标说话人水平指定单元和确定单元。该语音分析器被配置为分析语音数据，并生成包含表示对象说话人的话语特征的数据的语音数据库。说话人自适应器被配置为通过执行说话人自适应，即基于语音数据库而将预定的基本模型转换成更接近对象说话人的特征，生成对象说话人的模型。目标说话人水平指定单元被配置为接受目标说话人水平的指定，其中目标说话人水平是成为目标的说话人水平。说话人水平表示说话人的话语技巧和说话人在语音合成字典的语言方面的母语水平中的至少一个。确定单元被配置为根据所指定的目标说话人水平与对象说话人水平之间的关系，确定与在说话人自适应中的说话人特性再现的保真度有关的参数的值，其中对象说话人水平是对象说话人的说话人水平。确定单元被配置为确定参数的值，以使得当所指定的目标说话人水平高于对象说话人水平时，与当所指定的目标说话人水平不高于对象说话人水平时相比，保真度降低。说话人自适应器被配置为根据由确定单元确定的参数的值来执行说话人自适应。
[0009] 根据上述的语音合成字典生成装置，可根据成为目标的话语技巧和母语程度来生成说话人特性的相似性受到控制的语音合成字典。
【附图说明】
[0010] 图1是说明根据第一实施例的语音合成字典生成装置的配置示例的框图；
[0011] 图2是说明语音合成装置的示意性配置的框图；
[0012] 图3是在基于HMM方法的说话人自适应中使用的分段线性回归的概念图；
[0013] 图4是说明确定单元的参数确定方法的示例的图；
[0014] 图5是说明根据第二实施例的语音合成字典生成装置的配置示例的框图；
[0015] 图6是说明根据第三实施例的语音合成字典生成装置的配置示例的框图；
[0016] 图7A和7B是说明用于指定目标说话人水平的GUI的显示示例的示图；
[0017] 图8是使用在聚类自适应训练中训练的模型的说话人自适应的概念图；
[0018] 图9是说明等式⑵中的内插比r与目标权重向量之间的关系的概念图；
[0019] 图10是说明根据第六实施例的语音合成字典生成装置的配置示例的框图。
【具体实施方式】
[0020] 第一实施例
[0021] 图1是说明根据本实施例的语音合成字典生成装置100的配置示例的框图。如在图1中所示，根据本实施例的语音合成字典生成装置100包括语音分析器101、说话人自适应器102、对象说话人水平指定单元103、目标说话人水平指定单元104和确定单元105。响应于作为字典生成的对象的可选的对象说话人的所记录的语音10和与所记录的语音10 的阅读内容对应的文本20 (在下文称为"所记录的文本"）的输入，语音合成字典生成装置 100生成包含通过对对象说话人的声音质量和说话方式建模而获得的对象说话人的模型的语音合成字典30。
[0022] 在上述的配置中，对象说话人水平指定单元103、目标说话人水平指定单元104和确定单元105是本实施例独特的构成部分，但是，除了这些构成部分之外的其它构成部分在使用说话人自适应技术的语音合成字典生成装置中是通常的配置。
[0023] 由根据本实施例的语音合成字典生成装置100生成的语音合成字典30是在语音合成装置中所需的数据，包含通过对声音质量建模而获得的声学模型、通过对诸如语调和节奏的韵律建模而获得的韵律模型、以及语音合成所需的其它各种信息。如图2所示，语音合成装置通常由语言处理器40和语音合成器50构成，并响应于文本的输入而生成与文本对应的语音波形。语言处理器40分析输入文本以获得每个词的发音和重音（强调）位置、停顿位置和诸如词边界和词性的其它各种语言信息，并向语音合成器50传送所获得的信息。基于所传送的信息，语音合成器50使用在语音合成字典30中包含的韵律模型生成诸如语调和节奏的韵律模式，并进一步使用在语音合成字典30中包含的声学模型生成语音波形。
[0024] 在如在JP-A 2002-244689 (公开）中公开的基于HMM (隐马尔可夫模型）的方法的情况下，在语音合成字典30中包含的韵律模型和声学模型通过对通过在语言上分析文本而获得的音韵和语言信息与韵律、声音等的参数序列之间的对应关系建模而获得。具体地，合成字典包括决策树和被分配给决策树的各个叶节点的每个参数的概率分布，其中，采用该决策树对每个状态的每个参数的概率分布在音韵和语言环境中聚类。韵律参数的例子包括表示语音的语调的音高参数和表示语音的各个语音状态的长度的语音持续时间。声学参数的例子包括表示声道的特征的频谱参数和表示声源信号的非周期程度的非周期指数。状态表示当每个参数的时间变化通过HMM建模时的内部状态。通常，每个音素部分通过具有三至五个状态的HMM来建模，转移在这些状态之中从左到右没有反向地完成，因此，每个音素部分包含三至五个状态。因此，例如，在音素部分内的头部中的音高值的概率分布在音韵和语言环境中聚类的情况下，根据关于对象音素部分的音韵和语言信息，跟踪用于音高参数的第一状态的决策树，以使得可获得音素内的头部中的音高参数的概率分布。正态分布通常用于参数的概率分布。在这种情况下，概率分布用表示分布的中心的平均向量和表不分布的展形的协方差矩阵表不。
[0025] 语音合成器50使用上述的决策树选择每个参数的每个状态的概率分布，基于这些概率分布来生成具有最高概率的参数序列，并基于这些参数序列而生成语音波形。在基于普通HMM的方法中，声源波形基于所生成的音高参数和非周期指数来生成，用所生成的声源波形对滤波器特性根据所生成的频谱参数而随时间变化的声道滤波器进行卷积，从而生成语音波形。
[0026] 语音分析器101分析在语音合成字典生成装置100中输入的所记录的语音10和所记录的文本20,以生成语音数据库（在下文称为语音DB) 110。语音DB 110包含在说话人自适应中所需的各种声学和韵律数据，即，表示对象说话人的话语特征的数据。具体地，语音DB 110包含每个参数的时间序列（例如，对于每一帧），诸如表示频谱包络的特征的频谱参数、表示每个频带中非周期分量的比率的非周期指数、表示基本频率（FO)的音高参数；音素标签序列，以及关于每个标签的时间信息（诸如每个音素的开始时间和结束时间）和语言信息（包含该音素的词的重音（强调）位置、正字法、词性、与前一个和下一个单词的连接强度）；关于每个停顿的位置和长度的信息；等等。语音DB 110包含上述信息的至少一部分，但可包含除了在此所述的信息以外的信息。另外，虽然在许多情况下梅尔频率倒谱（mel-cepstrum)和梅尔频率线谱对（mel-LSP) -般用作频谱参数，但可以使用任何参数，只要该参数表示频谱包络的特征即可。
[0027] 在语音分析器101中，为了生成在语音DB 110中包含的上述信息，自动执行诸如音素标记、基本频率提取、频谱包络提取、非周期指数提取和语言信息提取的过程。对于这些过程的每一个存在已知的方法。可使用其任何方法，或者可使用另一种新方法。例如，使用HMM的方法一般用于音素标记。对于基本频率提取，存在许多方法，包括使用

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：森田真弘;
技术所有人：株式会社东芝;
我是此专利的发明人

上一篇：显示装置和用于使用该显示装置控制电子装置的方法
上一篇：一种电子喉擦音重建方法