基于高斯混合模型的变换中的软校准的制作方法

文档序号:2830463阅读:250来源:国知局
专利名称:基于高斯混合模型的变换中的软校准的制作方法
基于高斯混合模型的变换中的软校准
背景技术
本公开涉及例如使用基于高斯混合模型(GMM)技术的标量变换 或矢量变换,以用于生成声音转换函数。声音转换是源说话者的声音(例 如,音调、发音)到目标说话者的声音的自适应特性。近年来,对高效 地生成其它相关转换模型的声音转换系统和应用的兴趣显著提高。这种 系统的一个应用涉及个性化文本转语音(TTS)系统中的声音转换的用 户。如果没有声音转换技术和对来自不同说话者的语音矢量的有效变 换,则只能通过耗时、昂贵的过程(诸如,大量的录音和人工注解)来 创建新的声音。
公知的基于GMM的矢量变换可以用在声音转换和其它变换应用 中,这是通过根据源说话者和目标说话者的特征矢量来生成联合特征 矢量,接着通过使用该联合矢量来训练GMM参数,并且最终创建源声 音和目标声音之间的转换函数。典型的声音转换系统包括三个主要步 骤特征提取、源说话者和目标说话者的已提取特征之间的校准、以及 对经校准的源矢量和目标矢量的GMM训练。在典型的系统中,源矢量 序列和目标矢量序列之间的矢量校准必须在训练GMM参数之前或创建 转换函数之前执行。例如,如果录制了来自两个不同说话者的一组相同 的讲话,则在试图建立转换函数之前,必须在两个录音中识别相应的讲 话。这个概念被称为源矢量和目标矢量的校准。
传统的矢量校准技术通常是例如通过专家来人工执行,或者通过动 态时间弯曲(DTW)过程来自动地执行。然而,人工和DTW二者都具 有明显的缺点,这些缺点对矢量变换的整体质量和效率可能具有负面影 响。例如,这两种方案都依赖于"硬校准"的概念。也即,对于每个目 标矢量,将每个源矢量确定为精确地与一个目标矢量完全校准,或者确定为根本没有被校准,反之亦然。
参考图1,在源矢量序列110和目标矢量序列120之间示出了传统 硬校准方案的例子。矢量序列110和120分别包含特征矢量集合Xi - x16
和y广y16,其中每个特征矢量(语音矢量)可以表示例如较大声音片段
中的基本语音声音。这些矢量序列IIO和120可以是等价的(也即,包
含许多相同语音特征),例如对说着相同单词或短语两个不同的人进行 录音所形成的矢量序列。如图1中所示,即使是等价的矢量序列也常常 包含不同数量的矢量,并且也可能在序列中的不同位置具有等价的语音
特征(例如xw和y12)。例如,源说话者对某些声音发音可能比目标说 话者要慢,或者在声音之间停顿的比目标说话者稍长,等等。因此,在 源矢量和目标矢量之间的一对一的硬校准常常结果导致丟弃某些特征 矢量(例如,x4、 x5、 x1()...),或者导致对特征矢量的复制或插值以为校 准匹配创建额外配对。其结果是,小的校准错误可能被放大成更大的错 误,并且整个校准过程可能变得更加复杂和高代价。最后,在许多情况 下硬校准可能是完全不可能的。即使是最好的专家或任何DTW自动装 置常常也不能将从话音中提取的特征矢量完全校准。因此,硬校准意味 着即使其被完美无缺地执行也仍然存在某种程度的错误。
作为由硬校准方案引起的校准错误放大的例子,图2示出将要为了 矢量变换而进行;欧准的源序列210和目标序列220的框图。在这个例子 中,序列210和220虽然是相同的,但是在不同的奇偶位上被两取一地 抽取。因此,就像在许多现实世界情景中一样,完美的一对一的特征矢 量匹配是不可能的,因为被完美地校准的源矢量-目标矢量配对是不可 获得的。使用硬校准方案,每个目标矢量与其最近的源矢量配对,并且 在此后将该配对假设为完全、完美地校准。因此,可能无法检测到或者 考虑校准错误,因为在校准过程中没有考虑其它附近的矢量。结果,硬 校准方案可以生成引入噪声到数据模型中,增加校准误差,并且导致校 准过程的更大的复杂性。
因此,需要一种对数据序列进行校准以用于矢量变换(诸如用于声 音转换的、基于GMM的变换)的方法和系统。

发明内容
根据前述背景知识,下面给出本发明的简化概要,目的是提供对本 发明的某些方面的基本理解。该概要不是对本发明的详尽的纵览,并非 意在标识本发明的关键和重要元素或者描绘本发明的范围。以下概要仅 仅以筒化形式提供本发明的某些概念,以作为下文^是供的更详细描述的前序。
根据本发明的一个方面,源矢量和目标矢量之间的校准可以在变换 过程期间执行,所述变换例如是在源说话者和目标说话者之间的基于高
斯混合模型(GMM)的语音矢量变换。在生成变换模型和转换函数之 前,通过使用软校准方案对源矢量和目标矢量进行校准,使每个源矢量 -目标矢量配对无需一对一地完全校准。反之,可以标识包括单个源矢 量或目标矢量的多个矢量配对以及针对每个配对的校准概率。可以基于 该矢量配对和相关联的概率来生成联合特征矢量的序列。
根据本发明的另 一方面,诸如GMM模型和矢量转换函数之类的变 换模型可以基于源矢量和目标矢量以及所估计的校准概率来计算。变换 模型参数可以通过估计算法(例如,最大期望算法)来确定。根据这些 参数,可以生成模型训练和转换特征,以及用于变换后续源矢量和目标 矢量的转换函数。
因此,根据本发明公开的一些方面,例如,在声音转换中使用的基 于GMM的变换中,可通过使用软校准来改进自动矢量校准。所公开的 软校准技术可以降低校准误差,并且在执行矢量变换时可以提高效率和 质量。


在总体上概括描述了本发明之后,现在将参考附图(附图未必是按 比例绘制的),其中
图1是说明用于在矢量变换中使用的传统硬校准方案的线框图; 图2是说明用于在矢量变换中使用的传统硬校准方案的方框图;图2说明了跟踪设备的方框图3是根据本发明的方面说明计算设备的方框图4是根据本发明的方面示出用于在源矢量序列和目标矢量序列之
间执行软校准的说明性步骤的流程图5是根据本发明的方面说明用于在矢量变换中使用的软校准方案
的线框图;以及
图6是根据本发明的方面说明用于在矢量变换中使用的软校准方案 的方框图。
具体实施例方式
在对各种实施例的以下描述中,对附图进行了参考,这些附图构成 了描述的 一部分,并且在附图中通过说明的方式示出了可以实践本发明 的各种实施例。应当理解,可以使用其它实施例,并且在不偏离本发明 的范围和精神的情况下,可以做出结构上和功能上的修改。
图3说明了根据本发明说明性实施例的、可以使用的通用计算设备 301的方框图。设备301可具有处理器303,用于控制计算设备及其关 联部件(包括RAM305、 ROM 307、输入/输出模块309和存储器315 ) 的整体操作。
I/O 309可包括设备301的用户可用来提供输入的麦克风、键盘、 触摸屏、以及/或者触笔,并且还可包括用于提供音频输出的一个或多个 扬声器,以及用于提供文本、音频视频和/或图形输出的视频显示设备。
存储器315可存储由设备301使用的软件,诸如操作系统317、应 用程序319以及相关联的数据321。例如,根据本发明的说明性实施例, 由设备301使用的一个应用程序321可包括计算机可执行指令,该指令 用于执行此处所描述的矢量校准方案和声音转换算法。
参考图4,示出了描述生成在例如GMM矢量变换中所使用的转换 函数的流程图。在这个例子中,函数可以与声音转换/语音转换相关,并 且可涉及表示源说话者和目标说话者语音特性的矢量变换。然而,本公 开不限于这种使用。例如,任何基于高斯混合模型(GMM)的变换,或者需要标量校准或矢量校准的其它数据变换均可与本公开结合使用。
除了基于GMM的技术之外,本公开还可涉及使用其它技术的矢量变换
和数据转换,例如基于码本的矢量变换和/或声音转换。
在步骤401中,接收源特征矢量和目标特征矢量。在这个例子中, 特征矢量可对应于由源说话者和目标说话者所产生的相同讲话,该讲话 被录音并被划分为数字化表示的数据矢量。更具体地,源矢量和目标矢 量每个都可以基于说话者声音的某个特性,诸如音调或线性频谱(LSF )。 在这个例子中,与源说话者相关联的特征矢量可以由变量
X呵XhX2,X3.,.Xt…XnJ来表示,而与目标说话者相关联的特征矢量可由变
量y呵yi,y2,y3…yt…yn]来表示,其中xt和》是时刻t处的语音矢量。
在步骤402中,例如通过计算设备301来估计不同源矢量-目标矢
量配对的校准概率。在这个例子中,可以通过使用与隐式马尔可夫模型
(HMM)相关的技术来估计校准概率,其中,隐式马尔可夫模型是一
种统计模型,涉及从数据分布模型中的可观察参数中提取未知的或者隐 式的参数。例如,源矢量序列和目标矢量序列中的每个不同的矢量都可 以由从左到右的有限状态机来生成,该状态机每个时间单元改变一次状 态。这种有限状态机可称为马尔可夫模型。另外,校准概率还可以是训
练权重,例如表示用以生成用于基于GMM的变换的训练参数的值。因 此,校准概率无需表示成某概率范围(例如,0到1,或者O到100)内 的值,而可以是对应于在转换中使用的训练权重方案中的某个权重的值。
在源矢量序列和目标矢量序列中较小的矢量集合可以表示或属于 音素(phoneme)或语音的基本单位。音素可以对应于实现单词意思的 最小声音单位。例如,与单词"took"中的音素't,或者单词"hook" 中的音素'h,相对,单词"book"中的音素'b,实现所说单词的意思。 因此来自源矢量序列和目标矢量序列的短矢量序列或者甚至是单个矢 量(也称为"特征矢量")可对应于这些'b,、 't,和'h,声音,或者对 应于其它的基本语音声音。特征矢量甚至可表示诸如音帧之类的比音素 更小的声音单元,从而使在变换中所捕获的时间和发音信息甚至可以更为精确。在一个例子中,单个特征矢量可表示短的语音段,例如10毫 秒的语音段。接着,类似大小的特征矢量结合可以一起表示一个音素。 特征矢量还可表示语音的边界段,诸如在较大语音段中的两个音素之间 的过渡。
每个HMM子单词可以由一个或多个状态来表示,并且HMM子单 词模型的整个集合可以级联以形成复合HMM模型,其包括联合特征矢 量的状态序列M或多个状态。例如,可以通过级联一组用于语内
(intra-lingual)语言语音转换的、基于独立于说话者的音素的HMM来 生成复合HMM模型。作为另一例子,甚至可以通过级联用于进行语间
(cross-lingual)语言声音转换的、基于一组独立于语言的音素的HMM 来生成复合HMM模型。在状态序列M的每个状态j中,源在时刻t处 的第j个状态占用的概率可以标记为LSj (t),而在相同时刻t处相同状 态j的目标占用概率可以标记为LTj(t)。这些值中的每个都可以例如由计 算设备301通过使用前后(forward-backward)算法来计算,该算法对 于本领域的普通技术人员来说是公知的,其用于计算被观察事件序列的 概率(特别是在HMM模型的上下文中)。在这个例子中,可通过以下 公式来计算源的第j个状态占用的前向概率
aj(t"P(Xi,.."xt,x(t)"!M) = n i(")* a" * bj(x。(公式工)
并且可通过以下公式来计算源的第j个状态占用的反向概率
pj(t) -P (xw, .," xn I x(t) =v.,M) = WS,2 ay * bj (xw) * Pi(t + !)(公式2 )
因此,源在时刻t处的第j个状态占用的总概率可以用以下公式来
计算
LSj(Xt),(tPPj(t))/P(xlM)(公式3)
可以类似地计算源序列和目标序列中的各个时刻和状态处的占用 概率。也即,可将对应于上面公式l-公式3的公式应用于目标说话者的 特征矢量。另外,可以使用这些值来计算源矢量-目标矢量配对被校准的概率。在这个例子中,对于被潜在地校准了的源矢量-目标矢量配对
(例如,x/和yqT,其中Xp是时刻p处来自源说话者的特征矢量,而yq 是时刻q处来自目标说话者的特征矢量),可以通过使用以下公式来计 算校准概率(PApq ),其表示特征矢量xp和yq被校准的概率
PA (Xp, yq)
=PA(Xp, yq I x(p) = /, y(q) - /)
=(P A(xp I x(p) = /) * PA(yq i y(q) = /))
=L2/=1 LS; (Xp) * LT/ (yq) (公式4 )
在步骤403中,基于源矢量-目标矢量以及基于源矢量和目标矢量 配对的校准概率来生成联合特征矢量。在这个例子中,联合矢量可定义 为zk = Zpq = [xpT, yqT, PApjT。因为在本发明中所描述的联合特征矢量可
以被软校准,所以联合概率PApq不需要像在其它校准方案中那样只能是
0或1。相反,在软校准方案中,校准概率PApq可以是任何值,而不仅 仅是表示非校准或校准的布尔值(例如O或1)。因此,可以使用非布尔 概率值(例如在0到1之间连续范围中的非整数值)以及布尔值来表示 源矢量和目标矢量配对之间的校准似然性。另外,如上所述,校准概率 还可表示诸如训练权重之类的权重,而不是映射为特定概率。
在步骤404中,基于在步骤403中所确定的联合特征矢量,例如由 计算设备301来计算转换模型参数。在混合模型的上下文中,确定模型 函数或转换函数的恰当参数常常被称为"估计"或者类似的"缺失数据" 问题。也即,可将在该模型中所观察到的数据点(也即,源矢量序列和 目标矢量序列)假设为具有用于对数据进行建^f莫的分布的成员身份。虽 然这种成员身份开始是未知的,但是结合被表示为所选转换函数在各个 模型分布中的成员身份的数据点,可以通过选择该所选转换函数的合适 参数来进行计算。这些参数可以是例如用于基于GMM变换的训练参数。
在这个例子中,可以使用最大期望算法来计算GMM训练参数。在 这个两步算法中,可以用以下公式在期望步骤中估量先验概率T/,w = PA (Xp, yq) * P/,pg (公式5 )
在这个例子中,可通过以下公式来计算最大化步骤 Ap(/) = (1 /m * n) * %m %=i 'P/,w
= n2p=i mS『i APj^ */ "12^4 Pf,w
、- %^ %^ AP,'W * (- 、) * (- 、)T /
^"1 "^一 (公式6 )
注意,在某些实施例中,在步骤404中,可以生成用于GMM训练 和转换的不同特征集合。也即,软校准特征矢量无需与GMM训练和转 换特征相同。
最后,在步骤405中,生成转换模型(例如转换函数),其可以将 特征从源模型x转换到标模型y。在这个例子中的转换函数可以通过以 下/>式来表示
F(x) = E (y I x) = P/(x) * (W + T严(2严)4 (x -、。)(公式7 )
现在,可以使用该转换函数或建模函数来将其它的源矢量(例如, 来自说话者的语音信号)变换成目标矢量。在应用于声音转换时,基于 软校准GMM的矢量变换可以用来将语音矢量变换到相应的个性化目标 说话者,例如作为文本转语音(TTS)应用的一部分。参考图5,所示 框图示出了与生成源矢量序列和目标矢量序列的校准概率估计相关的 本公开的方面。源特征矢量序列510包括五个语音矢量511-515,而目 标特征矢量序列520只包括三个语音矢量521-523。如上所述,这个例 子可说明源和目标具有不同数量的特征矢量的其它常见矢量变换情形。 在这种情况下,许多传统方法在矢量校准期间可能需要对特征矢量进行丢弃、复制或插值,从而使两个序列都包含相同数量的矢量并且可以一 对一地配对。
然而,如上所述,本发明的方面描述了源矢量和目标矢量的软校准,
而不是需要硬性的一对一的匹配。在这个例子中,状态矢量530包含三 个状态531-533。将源序列矢量511-515连接到状态序列531的每个线 可以表示在时刻t处源矢量511-515对状态531的占用概率。当根据隐 式马尔可夫模型(HMM)或类似的建模系统来生成状态序列时,状态 序列530可具有对应于每个时间单位t的状态531-533。如图5所示, 源特征矢量511-515以及目标特征矢量521-523 二者中的一个或多个可 以某个校准概率占用状态531。在这个例子中,可通过级联状态序列530 中的所有状态来生成复合HMM模型。
因此,如上面参考图4所描述的,虽然可以在单个已校准配对上来 形成状态序列530中的状态,诸如[XpT, yqT, PAqjT,但是本公开不限于单 个已校准配对以及状态的概率估计。例如,状态序列530中的状态531 形成自5个源序列511-515、 3个目标矢量521-523、以及每个潜在校准 的源矢量-目标矢量配对的概率估计。
参考图6,示出的方框图描述与源矢量序列和目标矢量序列相关的 本公开的方面。在这个例子中,选择了简化的源矢量序列610和目标矢 量序列620来说明本公开相比于传统硬校准方法(诸如图2所示方法) 的潜在优点。在这个例子中,源矢量序列610和目标矢量序列620是相 同的,不同之处在于已经对不同序列610和620上的不同奇偶位应用 了两取一抽取。例如可以这样来进行这种抽取减少来自源和目标的语 音信号的输出采样率,从而使采样值需要较少的存储空间。
回想参考图2所描述的传统硬校准。在该传统一对一映射中,每个 目标特征矢量仅与其最近的源特征矢量进行校准。该传统系统假设完 全且完美地对附近的配对进行了校准,因此,可能无法检测到或者考虑 较小的校准误差,因为没有考虑其它附近的矢量。结果,硬校准最终可 能不太准确并且更易受校准误差的影响。
返回图6,在这个简单的例子中,以相等的概率(0.5)将每个目标数量采样与源矢量序列中距其最近的两个特征矢量进行配对。并非总是 对通过软校准生成的转换特征进行一对一配对,而且还可考虑其它相关 的特征矢量。因此,使用软校准的转换可以更为准确并且更不易受初始 校准误差的影响。
根据本公开的另一方面,可使用诸如图2和图6中的并行测试数据
来比较经过硬校准/软校准的GMM性能。例如,可以使用均方误差 (MSE)计算来相对于目标特征对并行数据的硬校准和软校准之后的转 换特征进行基准测试(benchmark)或求值。作为公知的误差计算方法, MSE是标准误差平方和偏差平方的和的平方根。MSE提供了对于采样 估计的所有所期望误差的测量。例如,在声音转换的上下文中,可以计 算诸如音素或线频谱(LSF)之类的不同语音特性的MSE,并且可对其 进行比较,以便相对于基于软校准的GMM变换来确定硬校准的整体 GMM性能。通过针对音素特性而单独地对每个语音段执行十取一抽取 和配对过程从而避免段间配对,可以使比较更为鲁棒。。相反,LSF比 较可能仅需要针对整个数据集应用一次十取一抽取和配对过程,因为 LSF在数据集中的语音和非语音段上是连续的。
除了在这个例子中通过使用软校准所获得的潜在优点之外,在更为 复杂的现实世界特征矢量变换中,还可以实现其它优点。当使用较为复 杂的矢量数据时(例如,具有较大初始校准误差以及不同数量的源特征 矢量和目标特征矢量),硬校准技术常常需要在校准期间对矢量进行丢 弃、复制或插值。这种操作可以增加变换的复杂度和成本,并且还有可 能放大初始校准误差从而对变换质量产生负面影响。相反,软校准技术 在校准期间可以不需要对矢量进行丟弃、复制或插值,其可以提高变换 质量和效率。
尽管示出了具体化本发明各种方面的、在此描述的说明性系统和方 法,本领域的普通技术人员应当理解,本发明不限于这些实施例。本领 域的普通技术人员可以进行修改,特别是按照上述教导进行修改。例如, 上述实施例中的组件中的每个可以单独地或结合起来或者与其它实施 例中的组件进行子结合来进行使用。还应当意识到并理解,在不偏离本发明的真正精神和范围的情况下,可以进行修改。因此,本描述被认为 对本发明是说明性而不是限制性的。
权利要求
1. 一种用于将第一序列的特征矢量与第二序列的特征矢量进行时间校准的方法,其包括步骤接收与源相关联的第一序列的特征矢量;接收与目标相关联的第二序列的特征矢量;以及生成第三序列的联合特征矢量,其中每个联合特征矢量的生成是基于来自所述第一序列的第一矢量;来自所述第二序列的第一矢量;以及第一概率值,所述第一概率值表示来自所述第一序列的所述第一矢量与来自所述第二序列的所述第一矢量被校准到其各自序列中的相同特征的概率。
2. 根据权利要求1所述的方法,其中所述第一序列与所述第二序 列包含不同数量的特征矢量。
3. 根据权利要求1所述的方法,其中所述第一序列对应于由第一 说话者产生的多个讲话,而所述第二序列对应于由第二说话者产生的相 同的多个讲话。
4. 根据权利要求1所述的方法,其中所述第三序列的联合矢量包 括隐式马尔可夫模型。
5. 根据权利要求1所述的方法,其中所述概率是非布尔值。
6. 根据权利要求1所述的方法,其中为了生成所述第三序列的联 合特征矢量,对于所述第三序列中的每个联合特征矢量而言,来自所述 第一序列的所述矢量和来自所述第二序列的所述矢量是不同的矢量。
7. 根据权利要求1所述的方法,其中至少一个所述联合特征矢量 的生成还基于来自所述第一序列的第二矢量; 来自所述第二序列的第二矢量;以及第二概率值,所述第二概率值表示来自所述第 一序列的所述第二矢 量和来自所述第二序列的所述第二矢量被校准到其各自序列中的相同 特征的概率。
8. 存储有计算机可执行指令的一个或多个计算机可读介质,当所 述指令在计算机系统上被执行时,其执行一种方法,所述方法包括接收与源相关联的第 一序列的特征矢量; 接收与目标相关联的第二序列的特征矢量;以及 生成第三序列的联合特征矢量,其中每个联合特征矢量是基于来自所述第一序列的第一矢量;来自所述第二序列的第二矢量;以及概率值,所述概率值表示所述第一矢量和所述第二矢量被 校准到其各自序列中的相同特征的概率。
9. 根据权利要求8所述的计算机可读介质,其中所述第一序列与 所述第二序列包含不同数量的特征矢量。
10. 根据权利要求8所述的计算机可读介质,其中所述第一序列对 应于由第一说话者产生的多个讲话,而所述第二序列对应于由第二说话 者产生的相同的多个讲话。
11. 根据权利要求8所述的计算机可读介质,其中所述第三序列的 联合矢量包括隐式马尔可夫模型。
12. 根据权利要求8所述的计算机可读介质,其中所述概率是非布 尔值。
13. 根据权利要求8所述的计算机可读介质,其中为了生成所述第 三序列的联合特征矢量,对于所述第三序列中的每个联合特征矢量而 言,来自所述第一序列的所述矢量和来自所述第二序列的所述矢量是不 同的矢量。
14. 根据权利要求8所述的计算机可读介质,其中至少一个所述联 合特征矢量的生成还基于来自所述第一序列的第二矢量; 来自所述第二序列的第二矢量;以及第二概率值,所述第二概率值表示来自所述第一序列的所述第二矢 量和来自所述第二序列的所述第二矢量被校准到其各自序列中的相同 特征的概率。
15. —种数据变换方法,其包括 接收与第 一 源相关联的第 一数据序列; 接收与第二源相关联的第二数据序列;识别多个数据配对,每个数据配对包括来自所述第一数据序列的项 和来自所述第二数据序列的项;确定多个校准概率,每个校准概率与所述多个数据配对中的一个配 对相关联;以及基于所述多个数据配对和所述相关联的多个校准概率来确定数据 变换函数。
16. 根据权利要求15所述的方法,其中确定所述数据变换函数包 括根据高斯混合模型(GMM)和基于码本的技术之一来计算参数,所 述参数与所述数据变换相关联。
17. 根据权利要求16所述的方法,其中对所述参数的估计包括执 行最大期望算法。
18. 根据权利要求15所述的方法,其中所述多个校准概率中的至 少一个是非布尔值。
19. 根据权利要求15所述的方法,其中所述第一数据序列对应于 由第 一源说话者产生的多个讲话,所述第二数据序列对应于由第二源说 话者产生的多个讲话,并且数据变换函数包括声音转换函数。
20. 根据权利要求19所述的方法,还包括接收与所述第一源相关联的第三数据序列,所述第三数据序列对应 于由所述第一源说话者产生的语音矢量;以及将所述声音转换函数应用于所述第三数据序列。
全文摘要
提供了用于在基于高斯混合模型(GMM)的矢量变换以及其它矢量变换中执行软校准的系统和方法。软校准可以针对源特征矢量和目标特征矢量配对来指派校准概率。继而使用矢量配对以及相关联的概率来计算转换函数,这例如是通过根据联合矢量和校准概率来计算GMM训练参数,以创建用于将语音从源说话者转换到目标说话者的声音转换函数。
文档编号G10L17/00GK101432799SQ200780014971
公开日2009年5月13日 申请日期2007年4月4日 优先权日2006年4月26日
发明者J·尼尔米南, J·蒂安, V·博帕 申请人:诺基亚公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1