语音合成字典创建装置、语音合成器、以及语音合成字典创建方法

文档序号：9525203阅读：654来源：国知局

语音合成字典创建装置、语音合成器、以及语音合成字典创建方法
【专利说明】语音合成字典创建装置、语音合成器、从及语音合成字典创建方法
[0001] 相关申请的交叉引用
[0002] 本申请基于并要求于2014年7月14日提交的日本专利申请No. 2014-144378的优先权的权益，通过引用将该日本专利申请的全部内容并入本文中。
技术领域
[0003] 本文所描述的实施例总体上设及语音合成字典创建装置、语音合成器、W及语音合成字典创建方法。
【背景技术】
[0004] 用于将某一文本转换成合成波形的语音合成技术是已知的。为了通过使用语音合成技术来重现某一用户的声音的质量，需要根据用户的所记录的语音来创建语音合成字典。近年来，已经越来越多地开展对基于隐马尔可夫模型（HMM)的语音合成技术的研究与开发，并且该技术的质量也被提高。此外，已经对用于根据采用第一语言的某一说话人的语音来创建采用第二语言的某一说话人的语音合成字典的技术进行了研究。因此，典型的技术为跨语言说话人自适应。
[0005]然而，在相关技术领域中，需要为执行跨语言说话人自适应提供大量的数据。此夕F，不利的是，需要高质量的双语数据来提高合成语音的质量。

【发明内容】

[0006] 实施例的目的在于：提供能够抑制所需语音数据、并且根据采用第一语言的目标说话人语音来容易地创建采用第二语言的目标说话人的语音合成字典的语音合成字典创建装置。
[0007] 根据实施例，语音合成字典创建装置包括映射表创建器、估计器、W及字典创建器。映射表创建器被配置为基于采用第一语言的特定说话人的语音合成字典的节点分布与采用第二语言的特定说话人的语音合成字典的节点分布之间的相似性来创建映射表，在所述映射表中，采用第一语言的特定说话人的语音合成字典的节点分布与采用第二语言的特定说话人的语音合成字典的节点分布相关联。估计器被配置基于采用第一语言的目标说话人的语音和所记录的文本W及采用第一语言的特定说话人的语音合成字典来估计变换矩阵，W将采用第一语言的特定说话人的语音合成字典变换为采用第一语言的目标说话人的语音合成字典。字典创建器被配置为基于映射表、变换矩阵、W及采用第二语言的特定说话人的语音合成字典来创建采用第二语言的目标说话人的语音合成字典。
[0008] 根据上述语音合成字典创建装置，可能抑制所需语音数据并且容易地根据采用第一语言的目标说话人语音来创建采用第二语言的目标说话人的语音合成字典。
【附图说明】
[0009] 图1是示出根据第一实施例的语音合成字典创建装置的构造的框图；
[0010] 图2是示出由语音合成字典创建装置执行的处理的流程图；
[0011] 图3A和图3B是示出相互比较的使用语音合成字典的语音合成的操作和比较示例的操作的概念图；
[0012] 图4是示出根据第二实施例的语音合成字典创建装置的构造的框图；
[001引图5是示出根据实施例的语音合成器的构造的框图；W及
[0014] 图6是示出根据实施例的语音合成字典创建装置的硬件构造的示图。
【具体实施方式】
[0015] 首先，将对带来本发明的背景进行描述。上述HMM是源-滤波器语音合成系统。该语音合成系统接收声源信号（激励源）作为输入，声源信号由脉冲声源或噪声源等产生，其中脉冲声源表示由声带振动产生的声源分量，并且噪声源表示由空气端流产生的声源，并且该语音合成系统使用表示声道特性等的频谱包络的参数来执行过滤W产生语音波形。
[0016] 使用频谱包络的参数的滤波器的示例包括全极点滤波器、用于PARC0R系数的网格滤波器、LSP合成滤波器、对数振幅近似滤波器、梅尔全极点滤波器、梅尔对数频谱近似滤波器、W及梅尔广义对数频谱近似滤波器。
[0017] 此外，基于HMM的语音合成技术的一个特性是能够多方面地改变所产生的合成声音。根据基于HMM的语音合成技术，还可W容易地改变例如除了音高（基频；F。）和语音速率之外的声音的质量和声音的音调。
[0018] 此外，基于HMM的语音合成技术能够通过使用说话人自适应技术来甚至从少量的语音产生听起来与某一说话人相似的合成语音。说话人自适应技术是用于执行W使某一语音合成字典被自适应为更接近某一说话人，从而产生再现某一说话人的说话人个人特征的语音合成字典的技术。
[0019] 要按需要进行自适应的语音合成字典包含尽可能少的个体说话人习惯。因此，通过使用多个说话人的语音数据来训练要进行自适应的语音合成字典，创建了独立于说话人的语音合成字典。该语音合成字典被称为"平均声音"。
[0020] 针对诸如F。、带非周期性、W及频谱等的特征，语音合成字典构成了基于决策树的状态聚类。频谱将语音的频谱信息表达为参数。带非周期性是表示在每一帖的频谱中的预定频率带中的噪声分量的强度与带的整个频谱之比的信息。另外，决策树的每个叶节点保持高斯分布。
[0021] 为了执行语音合成，首先根据通过转换输入文本而获得的语境信息通过跟随决策树来创建分布序列，并且根据由此产生的分布序列来产生语音参数序列。然后由已产生的参数序列（带非周期性、F。、频谱）来产生语音波形。
[0022] 此外，多语言化的技术开发作为语音合成的多样性的其中之一也正在进行中。其典型的技术是上面提到的跨语言说话人自适应技术，其是在保持其说话人个人特征的同时将单语说话人的语音合成字典转换成特定语言的语音字典的技术。例如，在双语说话人的语音合成字典中，表用于将输入文本的语言映射到输出语言中的最接近的节点。当输出语言的文本为输入时，从输出语言侧开始跟随节点，并且使用输入语言侧中的节点的分布来执行语音合成。
[0023] 接下来，将对根据第一实施例的语音合成字典创建装置进行描述。图1是示出根据第一实施例的语音合成字典创建装置10的构造的框图。如图1中所示，语音合成字典创建装置10包括例如第一储存器101、第一适配器102、第二储存器103、映射表创建器104、第四储存器105、第二适配器106、第Ξ储存器107、估计器108、字典创建器109、W及第五储存器110,并且语音合成字典创建装置10根据采用第一语言的目标说话人语音来创建采用第二语言的目标说话人的语音合成字典。例如，在本实施例中，目标说话人指的是能够说第一语言而不能说第二语言的说话人（例如，单语说话人），而特定说话人指的是说第一语言和第二语言的说话人（例如，双语说话人）。
[0024] 例如，第一储存器101、第二储存器103、第Ξ储存器107、第四储存器105、W及第五储存器110由单个或多个硬盘驱动器（皿D)等构成。第一适配器102、映射表创建器104、第二适配器106、估计器108、W及字典创建器109可W是硬件电路或由CPU执行的软件， CPU并未被示出。
[00巧]第一储存器101对采用第一语言的平均声音的语音合成字典进行存储。第一适配器102通过使用输入语音（例如，采用第一语言的双语说话人语音）和存储在第一储存器 101中的采用第一语言的平均声音的语音合成字典来执行说话人自适应，W产生采用第一语言的双语说话人（特定说话人）的语音合成字典。第二储存器103对作为由第一适配器 102执行的说话人自适应的结果而产生的采用第一语言的双语说话人（特定说话人）的语音合成字典进行存储。
[00%] 第Ξ储存器107对采用第二语言的平均声音的语音合成字典进行存储。第二适配器106通过使用输入语音（例如，采用第二语言的双语说话人语音）和由第Ξ储存器107存储的采用第二语言的平均声音的语音合成字典来执行说话人自适应，W产生采用第二语言的双语说话人（特定说话人）的语音合成字典。第四储存器105对作为由第二适配器106 执行的说话人自适应的结果而产生的采用第二语言的双语说话人（特定说话人）的语音合成字典进行存储。
[0027] 映射表创建器104通过使用存储在第二储存器103中的采用第一语言的双语说话人（特定说话人）的语音合成字典和存储在第四储存器105中的采用第二语言的双语说话人（特定说话人）的语

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：桥健太郎;田村正统;大谷大和;
技术所有人：株式会社东芝;
我是此专利的发明人

上一篇：声音信号处理装置及其声音信号处理方法
上一篇：用于生产具有芯的声学结构的设备及声学结构的生产方法