语音合成字典创建装置、语音合成器、以及语音合成字典创建方法_2

文档序号:9525203阅读:来源:国知局
音合成字典来创建映射表。更具体地,映射表创建器104基于采用 第一语言与采用第二语言的特定说话人的相应语音合成字典的节点之间的相似性来创建 将采用第二语言的特定说话人的语音合成字典的节点分布与采用第一语言的特定说话人 的语音合成字典的节点分布相关联的映射表。
[0028] 估计器108基于存储在第二储存器103中的采用第一语言的双语说话人的语音合 成字典,使用作为输入的采用第一语言的目标说话人的语音及其所记录的文本来从语音和 文本中提取声学特征和语境,并且对用于把要进行说话人自适应的采用第一语言的特定说 话人的语音合成字典变换为采用第一语言的目标说话人的语音合成字典的变换矩阵进行 估计。
[0029] 字典创建器109通过使用由估计器108估计的变换矩阵、由映射表创建器104创 建的映射表、W及存储在第四储存器105中的采用第二语言的双语说话人的语音合成字典 来创建采用第二语言的目标说话人的语音合成字典。字典创建器109可W被配置为使用存 储在第二储存器103中的采用第一语言的双语说话人的语音合成字典。
[0030] 第五储存器110对由字典创建器109创建的采用第二语言的目标说话人的语音合 成字典进行存储。
[0031] 接下来,将对包括在语音合成字典创建装置中的相应部件的详细操作进行描述。 存储在第一储存器101和第Ξ储存器107中的采用相应语言的平均声音的语音合成字典是 适于说话人自适应的语音合成字典并且是通过使用说话人自适应训练而从多个说话人的 语音数据产生的。
[0032] 第一适配器102从采用第一语言的输入语音数据(采用第一语言的双语说话人语 音)提取声学特征和语境。第二适配器106从采用第二语言的输入语音数据(采用第二语 言的双语说话人语音)提取声学特征和语境。
[0033] 注意,输入至第一适配器102和第二适配器106的语音的说话人是同一双语说话 人,其说第一语言和第二语言。声学特征的示例包括F。、频谱、音素持续时间、和带非周期 性序列。频谱将语音的频谱信息表达为如上所述的参数。语境表示W音素为单位的语言 属性信息。音素的单位可W是单音素、Ξ音素、和五音素。属性信息的示例包括{先前的, 当前的,随后的}音素、在一个词中的当前音素的音节位置、语音的{先前的,当前的,随后 的}部分、在{先前的,当前的,随后的}的词中的音节数量、来自重读音节的音节数量、句 子中的词的位置、存在或不存在先前或随后的姿态、在{先前的,当前的,随后的}换气单位 化reathgroup)中的音节数量、当前换气单位的位置、W及句子中的音节数量。在下文中, 运些条属性信息将被称为语境。
[0034] 随后,第一适配器102和第二适配器106基于最大似然线性回归(MLLR)和最大后 验(MA巧根据已提取的声学特征和语境来执行说话人自适应训练。将把使用最频繁的MLLR 作为示例进行描述。
[0035] MLLR是用于通过将线性变换应用于高斯分布或协方差矩阵的平均向量来进行自 适应的方法。在MLLR中,线性参数是由根据最大似然准则的EM算法导出的。EM算法的Q 函数被表达为下面的等式(1)。
[0036]
[0037] 势">和公'"嗦示通过将变换矩阵应用于分量m而得到的平均值和方差。
[0038] 在表达式中,上标(m)表示模型参数的分量。Μ表示与变换有关的模型参数的总 数。Κ表示与转移概率有关的常数。k?表示与高斯分布的分量m有关的归一化常数。此 夕F,在下面的等式(2)中,Qm(T)表示高斯分布在时刻τ的分量。〇τ表示观测向量。 阳039] 丫m(Τ) =P(Qm(Τ)|Μ,〇τ) 似
[0040] 线性变换在下文中被表达为等式(3)到等式巧)。此处,μ表示平均向量,A表示 矩阵,b表示向量,并且W表示变换矩阵。估计器108对变换矩阵W进行估计。
[0045] 由于使用协方差矩阵的说话人自适应的效果小于使用平均向量的效果,因此通常 执行使用协方差矩阵的说话人自适应。平均的变换由下面的等式(6)来表达。注意,krone 表示由0所包围的表达式的克罗内克积,并且vecO表示变换成具有被布置成行单元的矩 阵的向量。
[0046]
(6)
[0047] 另外,yW、Z和D分别由下面的等式(7)到等式(9)来表达。
[0051] Wi的逆矩阵由下面的等式(10)和等式(11)来表示。
[0054] 此外,等式(1)关于进行偏微分产生下面的等式(。)。因此,W。由下面的等 式(13)来表达。
[0057] 第二储存器103对由第一适配器102产生的采用第一语言的说话人自适应语音合 成字典进行存储。第四储存器105对由第二适配器106产生的采用第二语言的说话人自适 应语音合成字典进行存储。
[0058] 映射表创建器104对采用第一语言的说话人自适应语音合成字典与采用第二语 言的说话人自适应语音合成字典的子节点的分布之间的相似性进行测量,并且将被确定为 最接近的分布之间的关联转换成映射表(转换为表)。要注意,使用例如库尔贝克-莱布勒 散度化LD)、密度比、或L2范数来测量相似性。映射表创建器104例如使用由下面的表达式 (14)到(16)所表达的KLD。
[0059]
W60] 高斯分布
[oow] 巧!:高斯分布
[0062] Ω;:在指数k下的源语言的状态
[006引吗:巧指数j下的目标语言的状态
[0064]
W65] K:在指数k下的源语言的平均值
[0066] i:在指数k下的源语言的子节点的方差 k
[0067]
(16)
[0068] 要注意,k表示子节点的指数,S表示源语言,并且t表示目标语言。此外,通过语 境聚类对语音合成字典创建装置10处的语音合成字典的决策树进行训练。因此,期望的是 通过从音素的语境中选择第一语言的每个子节点中的最具代表性的音素、并且通过使用国 际音标(IPA)从具有与其相同的代表性音素或具有采用第二语言的相同类型的代表性音 素的唯一分布中选择分布,来进一步减小由映射引起的失真。此处所提及的相同类型指的 是音素类型相一致,例如元音/辅音、浊音/清音、W及爆破音/鼻音/颤音。
[0069] 估计器108基于采用第一语言的目标说话人的语音和所记录的文本来估计用于 从双语说话人(特定说话人)到采用第一语言的目标说话人的说话人自适应的变换矩阵。 诸如MLLR、MAP、或受约束的MLLR(CMLLR)等的算法用于说话人自适应。
[0070] 字典创建器109通过使用指示第二语言的说话人自适应字典的状态的映射表、 并且将由估计器108所估计的变换矩阵应用到第二语言的双语说话人自适应字典来创建 采用第二语言的目标说话人的语音合成字典,如下面的等式(17)所表达的,在所述映射表 中,KLD最小。
[0071]
(巧
[0072] 要注意,变换矩阵Wi,由上述等式(13)来计算,但是因此需要等式(13)右侧的参 数。运些取决于高斯分量μ和σ。当字典创建器109通过使用映射表来执行变换时,应用 到第二语言的叶节点的变换矩阵可能在很大程度上发生变化,运可能导致语音质量下降。 因此,字典创建器109可W被配置为通过使用要进行自适应的叶节点G和Ζ来重新产生用 于较高级节点的变换矩阵。
[0073] 第五储存器110对由字典创建器109创建的采用第二语言的目标说话人的语音合 成字典进行存储。
[0074] 图2是示出由语音字典创建装置10执行的处理的流程图。如图2中所示,在语音 合成字典创建装置10中,第一适配器102和第二适配器106首先产生分别适于采用第一语 言和第二语言的双语说话人的语音合成字典(步骤S101)。
[00巧]随后,映射表创建器104通过使用分别由第一适配器102和第二适配器106产生 的双语说话人的语音合成字典(说话人自适应字典)来在第二语言的叶节点处对第一语言 的说话人自适应字典执行映射(步骤S102)。
[0076]估计器108从采用第一语言的目标说话人的语音数据和所记录的文本中提取语 境和声学特征,并且基于由第二储存器103存储的采用第一语
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1