用于语者调适的基频移动量学习装置、基频生成装置、移动量学习方法、基频生成方法及...的制作方法

文档序号:2824741阅读:221来源:国知局
专利名称:用于语者调适的基频移动量学习装置、基频生成装置、移动量学习方法、基频生成方法及 ...的制作方法
技术领域
本发明涉及一种合成语音的语者调适技术,尤其涉及一种基于基频的语者调适技术。
背景技术
以往,公知有一种将语音合成成与系统的基准语音不同、听起来与目标语者的说话声相似的合成语音的语者调适技术(例如参照专利文献1、2)。还公知有一种当将所输入的文本变换成语音信号时,生成具有指定说话风格的合成语音的语话风格调适 (speaking-style adaptation)的技术(例如参照专利文献3及4)。在这样的语者调适及话语风格调适中,再现语音的音高、即再现基频(FO)对于再现该语音的效果尤为重要。作为再现基频的以往方法包括线性变换基频的简单方法(例如参照非专利文献1);该简单方法的变型(例如参照非专利文献2);采用高斯(Gaussian) 混合模型(GMM)来模型化频谱及频率的连结特征矢量的方法(例如参照非专利文献3)。在先技术文献专利文献专利文献1 日本特开11_5四87号公报专利文献2 日本特开2003-337592号公报专利文献3 日本特开7-92986号公报专利文献4 日本特开10-11083号公报非专利文献非专利文献 1 :Z. Shuang> R. Bakis、S. Shechtman> D. Chazan> Y. Qin、"Frequency warping based on mapping format parameters", Proc. ICSLP,2006 ^9^, Pittsburg PA, USA。非专利文献2 :B. Gillet, S. King,"Transforming F0、Contours”,in Proc. EUR0SPEECH 2003。非专利文献3 :宇藤陽介、南角吉彦、李晃伸、德田惠一、「声質変換O 办乃K 夕卜卟· FO O 同時> 夕.'」、信学技報 NLC2007-50、SP2007-117 Q007-12)

发明内容
然而,在非专利文献1的技术中,仅移动表示基频的时间变化的基频图形的曲线, 而该基频图形的形状没有变化,因此表现于形状起伏中的语者的特征无法表现。另一方面, 非专利文献3的技术与非专利文献1、2的技术相比精度高。然而,由于需要结合频谱学习基频的模型,非专利文献3的技术存在需要大量学习数据的问题。非专利文献3的技术还具有不能够考虑诸如重音类型及音拍位置(mora position)等的重要背景信息(context information)的问题及不能够表现如重音核(accent nucleus)的提前出现或延迟上升这样的在时间轴方向上的偏差(移动)的问题。上述专利文献1至4中公开了通过使用表示目标语者或指定说话风格的特征的频率图形的差别数据来校正作为基准的语音的频率图形的技术。然而,上述文献中的任一者中均未说明用以校正该作为基准的语音频率图形的差别数据自身的具体计算方法。本发明是为解决上述问题点而做出的,其目的在于提供一种能够基于仅少量的学习数据来高精度地再现目标语者语音的基频的特征的技术。另外,本发明的另一目的在于提供一种能够在再现目标语者语音的基频的特征时,考虑重音类型、音拍位置等重要背景信息的技术。此外,本发明的又一目的在于提供一种对于如重音核的提前出现或延迟上升那样的在时间轴方向上的偏差(移动),也能再现目标语者语音的基频的特征的技术。为了解决上述问题,本发明的第一方案提供一种学习装置,学习目标语者语音的基频图形相对于作为基准的语音的基频图形的移动量,上述基频图形表示基频的时间变化,该学习装置包括关联部,将与学习文本对应的作为基准的语音的基频图形与同上述学习文本对应的目标语者语音的基频图形,以波峰与波峰对应及波谷与波谷对应的方式相关联;移动量计算部,其对上述目标语者语音的基频图形上的各点,参照关联结果,计算上述各点相对于上述作为基准的语音的基频图形上的对应点在时间轴方向上的移动量及在频率轴方向上的移动量;学习部,使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用计算出的上述移动量作为输出特征量,学习决策树。在此,作为基准的语音的基频图形可为由作为基准的特定语者(以下称为源语者)的统计模型而得的合成语音的基频图形。由移动量计算部计算出的在该频率轴方向上的该移动量可为频率的对数的移动量。优选是,上述关联部包括仿射变换计算部,其计算如下这样的仿射变换集合,该仿射变换集合对上述作为基准的语音的基频图形进行变换以使上述作为基准的语音的基频图形与上述目标语者语音的基频图形之差最小;仿射变换部,其用于在将基频图形的时间轴方向没为X轴、将频率轴方向设为Y轴的情况下,将上述作为基准的语音的基频图形上的各点与上述目标语者语音的基频图形上的点相关联,上述目标语者语音的基频图形上的点的X坐标值为使用对应的上述仿射变换对该作为基准的语音的基频图形上的点的X坐标值进行变换而得的值。更优选是,上述仿射变换计算部在用于求出上述仿射变换的处理单位的初始值设定语调片段(intonation phrase),并递归地等分上述处理单位直至求出将上述作为基准的语音的基频图形变换成与上述目标语者语音的基频图形之差最小的图形的仿射变换为止。优选是,由上述关联部进行的关联及由移动量计算部进行的移动量计算基于帧单位或音声单元单位来执行。优选是,该学习装置还包括变化量计算部,该变化量计算部用于对计算出的上述移动量中的每一者的相邻点之间的变化量进行计算,上述学习部将作为静态特征量的上述移动量及作为动态特征量的上述移动量的变化量作为输出特征量来学习决策树。更优选是,上述移动量的变化量包括作为上述移动量的斜率的一次动态特征量和作为上述移动量的曲率的二次动态特征量。上述变化量计算部进一步计算上述目标语者语音的基频图形上的各点中相邻点之间的在时间轴方向上及在频率轴方向上的变化量,上述学习部将上述目标语者语音的基频图形上的各点的在时间轴方向及在该频率轴方向上的值与上述静态特征量相加、将在上述时间轴方向上及在频率轴方向上的变化量与上述动态特征量相加,学习上述决策树,针对所学习的上述决策树的各叶节点,求得分配给该叶节点的各输出特征量及上述输出特征量的组合的分布。在上述频率轴方向上的值及在上述频率轴方向上的变化量可分别为频率的对数或频率的对数的变化量。更优选是,上述学习部针对上述决策树的各叶节点使用多维单一或高斯混合模型 (GMM)来将分配给该叶节点的输出特征量的分布模型化。更优选是,针对上述目标语者语音的基频图形上的各点计算出的上述移动量是基于帧单位或音声单元单位来计算出的移动量。上述语言信息包括与重音类型、词性(part of speech)、音素(phoneme)及音拍 (mora)位置中的至少一者相关的信息。为解决上述问题,本发明的第二方案提供一种基频图形生成装置,其基于作为基准的语音的基频图形来生成目标语者语音的基频图形,上述基频图形表示基频的时间变化,该基频图形生成装置包括关联部,将与学习文本对应的作为基准的语音的基频图形与同上述学习文本对应的目标语者语音的基频图形,以波峰与波峰对应及波谷与波谷对应的方式相关联;移动量计算部,其对构成上述目标语者语音的基频图形的各时间序列点,参照关联结果,计算相对于构成成为上述基准的语音的基频图形的各时间序列点中对应的点在时间轴方向上的移动量及在频率轴方向上的移动量;变化量计算部,其对计算出的上述移动量分别计算相邻时间序列点之间的变化量;学习部,使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用作为静态特征量的上述移动量和作为动态特征量的上述移动量的变化量作为输出特征量,学习决策树,对于所学习的上述决策树的各叶节点,求出分配给该叶节点的输出特征量的分布;分布序列预测部,其将作为合成文本的解析结果的语言信息输入至上述决策树,预测上述各时间序列点处的上述输出特征量的分布;最优化处理部,其通过求出使根据所预测的上述输出特征量的分布序列计算出的似然度最大的移动量的序列来最优化上述移动量;目标语者基频图形生成部,其通过将上述移动量的序列与同合成文本对应的作为基准的语音的该基频图形相加来生成与上述合成文本对应的上述目标语者语音的基频图形。由移动量计算部计算出的在该频率轴方向上的移动量可为频率的对数的移动量。为解决上述问题,本发明的第三方案提供一种基频图形生成装置,基于作为基准的语音的基频图形来生成目标语者语音的基频图形,上述基频图形表示基频的时间变化, 该基频图形生成装置包括关联部,将与学习文本对应的作为基准的语音的基频图形与同上述学习文本对应的目标语者语音的基频图形,以波峰与波峰对应及波谷与波谷对应的方式相关联;移动量计算部,其对构成上述目标语者语音的基频图形的各时间序列点,参照关联结果,计算相对于构成上述作为基准的语音的基频图形的各时间序列点中对应的点在时间轴方向上的移动量及在频率轴方向上的移动量;变化量计算部,其对计算出的上述移动量和上述目标语者语音的基频图形的各点分别计算相邻时间序列点之间的变化量;学习部,使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用作为静态特征量的上述移动量和上述目标语者语音的基频图形上的各点的值及作为动态特征量的上述移动量的变化量和上述目标语者语音的基频图形上的各点的变化量作为输出特征量,学习决策树,对于所学习的上述决策树的各叶节点,求出分配给该叶节点的各输出特征量及上述输出特征量的组合的分布;分布序列预测部,其将作为合成文本的解析结果的语言信息输入至上述决策树,预测上述各时间序列点处的上述各输出特征量及上述输出特征量的组合的分布;最优化处理部,其通过求出使根据所预测的上述输出特征量及该输出特征量的组合的分布序列计算出的似然度最大的、上述目标语者语音的基频图形上的各点在时间轴方向上及频率轴方向上的值,进行最优化处理;目标语者基频图形生成部,其通过按时间排序由上述最优化处理求出的时间轴方向上的值与对应的在频率轴方向上的值的组合,来生成上述目标语者语音的基频图形。同样,在频率轴方向上的值及在该频率轴方向上的变化量可分别为频率的对数及频率的对数的变化量。上文基于学习目标语者语音的基频图形相对于作为基准的语音的基频图形的移动量或该移动量与目标语者语音的基频图形的组合的学习装置、及利用这样的学习装置的学习结果的目标语者语音的基频图形生成装置,说明了本发明,但亦可将本发明理解为用于使计算机执行的、一种学习目标语者语音的基频图形的移动量或上述移动量与该目标语者语音的基频图形的组合的学习方法、生成目标语者语音的基频图形的生成方法、及一种学习目标语者语音的基频图形的移动量或上述移动量与目标语者语音的基频图形的组合的学习程序。在本发明中,为了通过校正作为基准的语音的频率图形而获得目标语者语音的频率图形,学习目标语者语音的基频图形相对于作为基准的语音的基频图形的移动量,或者学习该移动量与目标语者语音的基频图形的组合,在进行上述学习时,通过将作为基准的语音的基频图形与目标语者语音的基频图形以它们的波峰与波峰对应及波谷与波谷对应的方式而相关联,以获得移动量。因此,使用上述所学习的移动量而生成的目标语者语音的基频图形能够再现表现为形状起伏的语者的特征,从而能够高精度地再现目标语者的基频特征。对于本发明的其他效果,能够根据各实施方式而理解。


图1表示本实施方式的学习装置50及基频图形生成装置100的功能构成。图2为表示利用本发明的实施方式的学习装置50进行的移动量的学习处理的流程的实例的流程图。图3为表示计算图2中所示的流程图的步骤225中FO图形的关联的前半部分即仿射变换集合的处理流程的实例的流程图。图4为表示在图3中所示的流程图的步骤305及345中执行的仿射变换最优化的处理细节的流程图。图5为表示图2中所示的流程图的步骤225中FO图形的关联的后半部分处理即使用仿射变换集合的FO图形的关联处理流程的实例的流程图。图6的(a)为表示与学习文本对应的作为基准的语音的FO图形及与同一学习文本对应的目标语者语音的FO图形的一个实例的图。图6的(b)为表示对各处理单位的仿射变换的实例的图。图7的(a)为表示通过使用图6的(b)所示的仿射变换集合来变换后的、图6的(a)所示的作为基准的语音的FO图形的图。图7的(b)为表示自图6的(a)所示的作为基准的语音的FO图形至图6的(a)所示的目标语者语音的FO图形的移动量的图。图8为表示利用本发明实施方式的基频图形生成装置100进行的基频图形生成处理的流程的实例的流程图。图9的(a)表示应用本发明而获得的目标语者的FO图形。图9的(b)表示应用本发明而获得的目标语者的其他FO图形。图10为表示用于实现本发明实施方式的学习装置50及基频图形生成装置100的优选信息处理装置的硬件构成的实例的图。
具体实施例方式以下,基于附图详细说明用于实施本发明的实施方式。以下的实施方式不是限定保护范围,上述实施方式中所说明的特征组合并非全部为本发明的解决方案所必需。在对实施方式的所有说明中,对于相同要素标注相同附图标记。图1表示本实施方式的学习装置50及基频图形生成装置100的功能构成。根据本实施方式的学习装置50为一种学习目标语者语音的基频图形相对于作为基准的语音的基频图形的移动量或是学习该目标语者语音的基频图形与其移动量的组合的学习装置,上述基频图形表示基频的时间变化(以下称为FO图形)。本实施方式的基频图形生成装置 100为一种包括该学习装置50且使用学习结果基于作为基准的语音的FO图形来生成目标语者的语音的FO图形(以下称为目标FO图形)的基频图形生成装置。在本实施例中,作为成为基准的语音的FO图形采用源语者的语音的FO图形(以下称为源FO图形)。关于源 FO图形,利用已知技术而基于源语者的大量语音数据预先获得源FO图形的统计模型。如图1所示,本实施例的学习装置50包括文本解析部105、语言信息存储部110、 FO图形分析部115、源语者模型信息存储部120、FO图形预测部122、关联部130、移动量计算部140、变化量计算部145、移动量/变化量学习部150及决策树信息存储部155。本实施例的关联部130包括仿射变换集合计算部134及仿射变换部136。此外,如图1所示,本实施方式的基频图形生成装置100包括学习装置50,以及分布序列预测部160、最优化部165及目标FO图形生成部170。以下,作为第一实施方式说明学习目标语者的语音的FO图形的移动量的学习装置50,其后,作为第二实施方式说明使用第一实施方式的学习装置50的学习结果的基频图形生成装置100。第二实施方式的基频图形生成装置100,通过在学习处理中生成“移动量”的模型,在生成处理首先预测“移动量” 且接着将上述“移动量”与“源FO图形”相加,从而生成“目标FO图形”。最后,作为第二实施方式,说明学习目标语者语音的FO图形与其移动量的组合的学习装置50及利用其学习结果的基频图形生成装置100。第三实施方式的基频图形生成装置100,在学习处理将“移动量”与“目标FO图形”组合而模型化,在生成处理通过最优化而参照“源FO图形”直接生成“目标FO图形”。(第一实施方式)文本解析部105对所输入的文本执行构词分析、语法分析等,生成语言信息。语言信息包括重音类型、词性、音素及音拍位置等背景信息。第一实施方式的输入至文本解析部 105的文本为用于学习目标FO图形相对于源FO图形的移动量的学习文本。
语言信息存储部110存储由文本解析部105生成的语言信息。如上所述,语言信息包括含有重音类型、词性、音素及音拍位置中的至少一者的背景信息。FO图形分析部115接收读取学习文本的目标语者的语音信息作为输入,且分析目标语者语音的FO图形。由于可使用公知技术进行FO图形分析,因此省略其详细说明。例如可使用praat等自相关的、基于小波等技术的工具。其后,作为分析结果的FO图形从FO 图形分析部115传递至后述的关联部130。源语者模型信息存储部120存储使用并学习源语者的大量语音数据而获得的源语者的源FO图形的统计模型。可使用决策树、数量化理论I (quantification theory I) 等来获得FO图形统计模型。由于这样的FO图形统计模型的学习是公知技术,因此在本文记载的是预先准备了该模型,例如可使用C4.5、weka等工具。FO图形预测部122通过使用存储于源语者模型信息存储部120中的源语者的FO 图形的统计模型来预测与学习文本对应的源语者的FO图形。具体而言,FO图形预测部122 自语言信息存储部110读取与学习文本对应的语言信息,将该语言信息输入至源语者的FO 图形的统计模型中。并且,FO图形预测部122从源语者的FO图形的统计模型取得源语者的FO图形作为输出。其后,将所预测的源FO图形从FO图形预测部122传递至后述的关联部 130。关联部130将与学习文本对应的源FO图形及对应于同一学习文本的目标FO图形以波峰与波峰对应及波谷与波谷对应的方式相关联。作为将两个不同FO图形相关联的方法有称为动态时间扭曲(Dynamic Time Warping)的方法。在该方法中,将一语音的各帧与另一语音的相应帧基于其倒频谱(cepstrum)及FO相似度而相关联。根据相似度的定义, 可以是将FO图形的波峰、波谷的形状相关联,也可以是着重于其倒频谱、FO图形的绝对值而相关联。本申请的发明人为达成更准确的关联而进行努力研究,结果提出与上述方法不同的新方法,其使用将源FO图形变换成近似于目标FO图形的图形仿射变换。由于动态时间扭曲自身为公知方法,因此本实施例中采用使用仿射变换的关联。下文说明使用仿射变换的关联。使用仿射变换的本实施方式的关联部130包括仿射变换集合计算部134及仿射变换部136。仿射变换集合计算部134计算用于将源FO图形变换成与目标FO图形之差最小的图形的仿射变换集合。具体而言,该仿射变换集合计算部134将语调片段(出气段)设定为用以获得仿射变换的处理FO图形的处理单位的初始值。接着,仿射变换集合计算部134 递归地等分该处理单位,直至求出将源FO图形变换成具有与目标FO图形之差为最小的图形的仿射变换,并对新的处理单位求出仿射变换。最终,仿射变换集合计算部134针对每一语调片段获得1个以上的仿真变换。所求得的仿射变换分别连同在求得该仿射变换时使用的处理单位和其源FO图形上的处理范围的起始信息临时地存储于存储区域中。稍后将说明用于计算仿射变换集合的详细程序。在此,参照图6及图7,说明由仿射变换集合计算部134计算出的仿射变换集合。 首先,图6的(a)所示的曲线图表示与同一学习文本对应的源FO图形(参照附图标记A) 及目标FO图形(参照附图标记B)的一例。在图6的(a)中,曲线图的横轴表示时间,其单位为音素。曲线图的纵轴表示频率,其单位为赫兹(Hz)。如图6所示,横轴可使用音素数目或音节数目而代替秒。图6的(b)表示用于将由附图标记A表示的源FO图形变换成近似于由附图标记B表示的目标FO图形的形状的仿射变换集合。如图6的(b)所示,各仿射变换所对应的处理单位在以语调片段为最大值的每一处理范围彼此不同。图7的(a)表示使用图6的(b)所示的仿射变换集合来实际变换后的源FO图形 (参照附图标记C)。如自图7的(a)清楚地看到,变换后源FO图形的形状近似于目标FO 图形(参照附图标记B)的形状。在将FO图形的时间轴及频率轴分别视作X轴及Y轴的情况下,仿射变换部136将源FO图形上的各点与目标FO图形上的相应点相关联,目标FO图形上的该点的X坐标值是通过使用相应的仿射变换来变换源FO图形上的该点的X坐标值而获得的点。即,针对源FO 图形上的各点(Xs,Ys)的X坐标fe,仿射变换部136通过使用关于其范围获得的仿射变换进行变换来求得X坐标Xt。接着,仿射变换部136求得X坐标为Xt的目标FO图形上的点 (Xt, Yt),将该点(Xt,Yt)与源FO图形上的点(Xs,Ys)相关联。关联结果临时存储于存储区域。可基于帧单位或基于音声单元单位进行关联。针对目标FO图形上的各点(Xt,Yt),移动量计算部140参照由关联部130进行的关联的结果,计算出相对于源FO图形上的点(Xs,Ys)在时间轴方向上及在频率轴方向上的移动量(Xd,yd) = (xt, Yt)-(xs, Ys)。在此,在频率轴方向上的移动量可为从目标FO图形上的频率对数减去源FO图形上的对应点的频率对数而获得的值。基于帧单位或音声单元单位计算出的各移动量在其后被从移动量计算部140传递至后述的变化量计算部145和移动量/变化量学习部150。图7的(b)中的箭头(参照附图标记D)表示参照由关联部130进行的关联的结果而求得的、目标FO图形(参照附图标记B)上的每一点相对于源FO图形(参照附图标记 A)的移动量。图7的(b)中所示的关联结果是通过使用图6的(b)及图7的(a)所示的仿射变换集合而获得的。针对由移动量计算部140计算出的在时间轴方向上及在频率轴方向上的移动量中的每一个,变化量计算部145计算上述移动量与相邻点的移动量之间的变化量。如上所述,频率轴方向上的移动量的变化量可以是通过频率对数的移动量的变化量。在本实施例中,移动量的变化量包括作为移动量的斜率的一次动态特征量及作为移动量的曲率的二次动态特征量。在此,在完成三个帧的近似且第i个帧或音素的值为V[i]的情况下,通常可如下这样表达某值V的一次动态特征量及二次动态特征量AV[i] = 0. 5*(V[i+l]-V[i-l])Δ2ν[ ] = 0. 5*(-V[i+l]+2V[i]-V[i-l])。变化量计算部145将计算出的一次及二次动态特征量分布传递至后述的移动量/ 变化量学习部150。移动量/变化量学习部150使用自语言信息存储部110读取的与学习文本对应的语言信息作为输入特征量及使用计算出的在时间轴方向上及在频率轴方向上的移动量作为输出特征量来学习决策树。在决策树的学习中,优选是输出特征量不仅包括作为静态特征量的移动量,还包括作为动态特征量的移动量的变化量。此时,在其后的生成目标FO图形的阶段,可能预测整个片语的最优移动量序列。针对决策树的各叶节点,移动量/变化量学习部150使用多维单一或高斯混合模型来将分配给该叶节点的输出特征量中的分布模型化。模型化的结果是可获得每一输出特征量的平均值、方差及协方差。由于如上所述决策树的学习方法是公知技术,因此省略其详细说明,例如可使用C4. 5、Weka等工具用于该学习。决策树信息存储部155存储由移动量/变化量学习部150学习到的该决策树的信息及该决策树的每一叶节点的输出特征量的分布信息(平均值、方差及协方差)。如上所述,本实施例中的输出特征量包括在时间轴方向上的移动量及在频率轴方向上的移动量, 以及该移动量的变化量(一次及二次动态特征量)。接着,参照图2,说明第一实施方式的通过学习装置50来学习目标FO图形的移动量的学习处理的流程。下文说明中所述的“在频率轴方向上的移动量”及“移动量的变化量”分别包括频率的对数的移动量及频率对数的移动量的变化量。图2为表示由作为学习装置50的计算机执行的、学习目标FO图形相对于源FO图形的移动量的处理的整体流程的实例的流程图。处理开始于步骤200,学习装置50读取由使用者提供的学习文本。使用者可经由例如键盘等输入装置、记录介质读取装置或通信接口而将该学习文本提供至学习装置50。接着,读取学习文本的学习装置50对其进行解析,获得包括重音类型、音素、词性、音拍位置等背景信息的语言信息(步骤205)。接着,学习装置50自源语者模型信息存储部120读取源语者的统计模型的信息,并输入所获得的语言信息,作为输出获取与学习文本对应的源FO图形(步骤210)。学习装置50还获取读取同一学习文本的目标语者的语音信息(步骤21 。使用者可经由例如麦克风等输入装置、记录介质读取装置或通信接口而将目标语者语音的信息提供至学习装置50。然后,学习装置50分析所获得的目标语者的语音信息,获得目标语者的FO图形,即目标FO图形(步骤220)。接着,学习装置50通过将与学习文本对应的源FO图形及与同一学习文本对应的目标FO图形以波峰与波峰对应及波谷与波谷对应的方式相关联,将对应关系存储于存储区域中(步骤225)。稍后将参照图3及图4说明关联的处理程序的详细说明。随后,针对构成目标FO图形的时间序列点,学习装置50参照所存储的对应关系,求出构成目标FO图形的时间序列点相对于构成源FO图形的时间序列点中的对应时间序列点在时间轴方向上及在频率轴方向上的移动量,即对应时间序列点之间的在时间轴方向上及在频率轴方向上的差,并将所获得的移动量存储于存储区域中(步骤230)。学习装置50自存储区域读取所获得的在时间轴方向上及在频率轴方向上的移动量,针对时间序列点中的每一点,计算移动量的一次动态特征量及二次动态特征量作为在时间轴方向上及在频率轴方向上的变化量,并将其存储于存储区域(步骤235)。最后,学习装置50使用作为学习文本的解析结果的语言信息作为输入特征量、使用包括在时间轴方向上及在频率轴方向上的移动量的静态特征量及与该静态特征量对应的一次及二次动态特征量作为输出特征量来学习决策树(步骤对0)。并且,针对学习的决策树的各叶节点,学习装置50求得分配给该叶节点的输出特征量的分布,且所学习的决策树的信息及各叶节点中的分布信息存储于决策树信息存储部155中(步骤M5)。接着,该处理结束。在此,说明本申请的发明人最新提出的一种方法,其用于递归地求得用于将源FO图形变换成近似于目标FO图形的形式的仿射变换集合。在该方法中,分别以语调片段来划分对应于同一学习文本的源FO图形及目标FO 图形中的两FO图形,且针对通过该划分而获得的两FO图形的处理范围,分别独立地求得最优的1个以上仿射变换。在此,最优仿射变换是指使该仿射变换后的源FO图形与目标FO 图形在处理范围中的误差最小的仿射变换。针对每一处理单位求得一个这样的仿射变换。S卩,例如在等分处理单位以生成两个较小处理单位时,分别针对两个新处理单位重新求得一个最优仿射变换。因此,为了判定哪一仿射变换为最优仿射变换,在等分处理单位之前与之后比较仿射变换后源FO图形与目标FO图形的误差平方和(等分处理单位时的误差平方和是指对等分之前部分和等分之后部分分别求得的误差平方和之和)。但是,在可等分源FO图形的点与可等分目标FO图形的点的所有组合中,仅对可使误差平方和最小的两个点的组合作出比较,以避免做无用功。若在等分之后的误差平方和未被判定为足够小,则针对等分之前的处理单位求得的仿射变换为最优仿射变换。因此,递归地执行上述一系列处理,直至判定在等分之后的误差平方和不足够小或在等分之后的处理单位不足够大为止。接着,参照图3至图5详细说明将分别对应于同一学习文本的源FO图形与目标FO 图形相关联的处理。图3为表示由仿射变换集合计算部134执行的、仿射变换集合的计算处理的流程的实例的流程图。图3所示的仿射变换集合的计算处理是对基于语调片段划分的两个FO图形的每一处理单位来执行。图4为表示由仿射变换集合计算部134执行的、仿射变换的最优化处理的流程的实例的流程图。图4表示在图3中所示的流程图中的步骤305 及;345中执行的处理的细节。图5为表示由仿射变换部136执行的、仿射变换及关联处理的流程的实例的流程图。图5所示的处理是在对所有处理范围执行图3所示的处理之后加以执行。图3至图5 表示图2所示的流程图的步骤225中所执行的处理的细节。在图3中,处理开始于步骤300,仿射变换集合计算部134在源FO图形的处理单位Us(O)的初始值及目标FO图形的处理单位队(0)的初始值分别设定语调片段。接着,仿射变换集合计算部134针对当前的处理单位求得最优仿射变换(步骤30 。稍后将参照图4说明仿射变换最优化处理的细节。在获得仿射变换之后,仿射变换集合计算部134使用计算出的仿射变换来变换源FO图形,获得变换后源FO图形与目标FO图形的误差平方和 e(0)(步骤 310)。接着,仿射变换集合计算部134判定当前处理单位是否足够大(步骤31 ,当判定当前处理单位并不足够大(步骤315:否)时,该处理结束。另一方面,当判定当前处理单位足够大(步骤315 是)时,仿射变换集合计算部134将各源FO图形上的可等分当前处理单位内的FO图形的所有点作为临时点,并分别存储于Ps(j)、Pt(k)(步骤320)。在此,变量j取整数1至N,变量k取整数1至M。接着,仿射变换集合计算部134将变量j及变量k的初始值设定为1 (步骤325,步骤330),将在等分Ut(O)中的目标FO图形的点Pt(I)之前的处理范围设定为Ut(I),将在等分Ut(O)中的目标FO图形的点Pt(I)之后的处理范围设定Ut O)(步骤335)。同样,仿射变换集合计算部Π4将在等分Us (0)中的源FO图形的点Ps⑴之前的处理范围设定为Us(I), 将在等分Us(O)中的源FO图形的点&(1)之后的处理范围设定UsO)(步骤340)。并且,仿射变换集合计算部134针对队(1)与队(1)的组合及队(幻^Us(2)的组合分别求出最优仿射变换(步骤3妨)。稍后将参照图4说明仿射变换最优化处理的细节。在针对各组合求出仿射变换后,仿射变换集合计算部134使用计算出的仿射变换来变换各组合的源FO图形,分别求出各组合中的变换后源FO图形与目标FO图形之间的误差平方和e (1)及e (2)(步骤350)。在此,e (1)为针对等分之前部分的组合而求得的误差平方和,e(2)为针对等分之后部分的组合而求得的误差平方和。仿射变换集合计算部134 将计算出的误差平方和e(l)与e(2)的总和存储于E(l,l)。重复上述的一系列处理,即自步骤325至355的处理,直至变量j的最终值为N且变量k的最终值为M为止,变量j及k 的初始值及增量各为1。变量j及k的增量彼此独立地进行。在满足结束该环的条件时,该处理继续进行至步骤360,仿射变换集合计算部134 特定E(j,k)的值为最小的组合(l,m)。并且,仿射变换集合计算部134判定E(l,m)是否足够小于在等分处理单位之前求得的误差平方和e(0)(步骤36 。当E(l,m)并不足够小(步骤365:否)时,该处理结束。另一方面,当E(l,m)足够小于误差平方和e (0)(步骤 365 是)时,该处理分别进行至两个不同步骤,即,步骤370及375。在步骤370中,仿射变换集合计算部134将在等分Ut(O)中的目标FO图形的点 Ps(I)之前的处理范围设定为目标FO图形的处理范围的新初始值Ut(0),将在等分Us(O)中的源FO图形的APs(m)之前的处理范围设定为源FO图形的处理范围的新初始值Us(O)。同样,在步骤375中,仿射变换集合计算部134将在等分队(0)中的目标FO图形的点&(1)之后的处理范围设定为目标FO图形的处理范围的新初始值Ut(0),将在等分Us(O)中的源FO 图形的APs(m)之后的处理范围设定为源FO图形的处理范围的新初始值Us(O)。该处理自步骤370及375独立地返回至步骤305,以递归地执行上述一系列处理。接着,参照图4说明用于仿射变换的最优化处理。在图4中,该处理开始于步骤 400,仿射变换集合计算部134重新取样一个FO图形,以使得对于处理单位使上述FO图形数目一致。并且,仿射变换集合计算部134计算变换源FO图形以使得源FO图形与目标FO 图形之间的误差最小的仿射变换(步骤40幻。下文说明这样的仿射变换的计算方法。设X轴表示时间、Y轴表示频率,在时间轴上的刻度标记对应于一帧或音素。在此, 将取得关联的范围中构成源FO图形的时间序列点的(X,Y)坐标设为(Uxi,Ii),将构成目标 FO图形的时间序列点的(Χ,Υ)坐标设为(Vxi,Vyi)。其中,变量i取整数1至N。由于已完成重新取样,因此源FO图形及目标FO图形的时间序列点的数目相同,或各点在X轴方向上等间隔并列。在此成为问题的是是否能使用下文给定的表达式1来求得用于将(UxiWyi)变
换成近似于(Vxi,Vyi)的(1
[表达式1] /
Wyi)的变换参数(a,b,c,d)。
权利要求
1.一种学习装置,学习目标语者语音的基频图形相对于作为基准的语音的基频图形的移动量,上述基频图形表示基频的时间变化,该学习装置包括关联部,将与学习文本对应的作为基准的语音的基频图形与同上述学习文本对应的目标语者语音的基频图形,以波峰与波峰对应及波谷与波谷对应的方式相关联;移动量计算部,其对上述目标语者语音的基频图形上的各点,参照关联结果,计算上述各点相对于上述作为基准的语音的基频图形上的对应点在时间轴方向上的移动量及在频率轴方向上的移动量;学习部,其使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用计算出的上述移动量作为输出特征量来学习决策树。
2.根据权利要求1所述的学习装置,其中上述关联部包括仿射变换计算部,其计算如下这样的仿射变换集合,该仿射变换集合对上述作为基准的语音的基频图形进行变换以使上述作为基准的语音的基频图形与上述目标语者语音的基频图形之差最小;仿射变换部,其用于在将基频图形的时间轴方向设为X轴、将频率轴方向设为Y轴的情况下,将上述作为基准的语音的基频图形上的各点与上述目标语者语音的基频图形上的点相关联,该目标语者语音的基频图形上的点的X坐标值为使用对应的上述仿射变换对该作为基准的语音的基频图形上的点的X坐标值进行变换而得的值。
3.根据权利要求2所述的学习装置,其中上述仿射变换计算部将语调片段设定为用于求出上述仿射变换的处理单位的初始值, 并递归地等分上述处理单位直至求出对上述作为基准的语音的基频图形进行变换以使得与上述目标语者语音的基频图形之差最小的仿射变换为止。
4.根据权利要求1所述的学习装置,其中由上述关联部进行的关联及由移动量计算部进行的移动量计算基于帧单位或音声单元单位来执行。
5.根据权利要求1所述的学习装置,其中,还包括变化量计算部,该变化量计算部用于对计算出的上述移动量中的每一者的相邻点之间的变化量进行计算,上述学习部将作为静态特征量的上述移动量及作为动态特征量的上述移动量的变化量作为输出特征量来学习决策树。
6.根据权利要求5所述的学习装置,其中上述移动量的变化量包括作为上述移动量的斜率的一次动态特征量和作为上述移动量的曲率的二次动态特征量。
7.根据权利要求5所述的学习装置,其中上述变化量计算部进一步计算上述目标语者语音的基频图形上的各点中相邻点之间的在时间轴方向上及在频率轴方向上的变化量,上述学习部将上述目标语者语音的基频图形上的各点的在时间轴方向及在该频率轴方向上的值与上述静态特征量相加、将在上述时间轴方向上及在频率轴方向上的变化量与上述动态特征量相加,学习上述决策树,针对所学习的上述决策树的各叶节点,求得分配给该叶节点的各输出特征量及上述输出特征量的组合的分布。
8.根据权利要求5所述的学习装置,其中上述学习部针对上述决策树的各叶节点使用多维单一或高斯混合模型来将分配给该叶节点的输出特征量的分布模型化。
9.根据权利要求5所述的学习装置,其中针对上述目标语者语音的基频图形上的各点计算出的上述移动量是基于帧单位或音声单元单位来计算出的移动量。
10.根据权利要求1所述的学习装置,其中上述语言信息包括与重音类型、词性、音素及音拍位置中的至少一者相关的信息。
11.一种基频图形生成装置,其基于作为基准的语音的基频图形来生成目标语者语音的基频图形,上述基频图形表示基频的时间变化,该基频图形生成装置包括关联部,将与学习文本对应的作为基准的语音的基频图形与同上述学习文本对应的目标语者语音的基频图形,以波峰与波峰对应及波谷与波谷对应的方式相关联;移动量计算部,其对构成上述目标语者语音的基频图形的各时间序列点,参照关联结果,计算相对于构成成为上述基准的语音的基频图形的各时间序列点中对应的点在时间轴方向上的移动量及在频率轴方向上的移动量;变化量计算部,其对计算出的上述移动量分别计算相邻时间序列点之间的变化量; 学习部,使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用作为静态特征量的上述移动量和作为动态特征量的上述移动量的变化量作为输出特征量,学习决策树,对于所学习的上述决策树的各叶节点,求出分配给该叶节点的输出特征量的分布;分布序列预测部,其将作为合成文本的解析结果的语言信息输入至上述决策树,预测上述各时间序列点处的上述输出特征量的分布;最优化处理部,其通过求出使根据所预测的上述输出特征量的分布序列计算出的似然度最大的移动量的序列来最优化上述移动量;目标语者基频图形生成部,其通过将上述移动量的序列与同合成文本对应的作为基准的语音的该基频图形相加来生成与上述合成文本对应的上述目标语者语音的基频图形。
12.根据权利要求11所述的基频图形生成装置,其中上述关联部包括仿射变换计算部,其计算如下这样的仿射变换集合,该仿射变换集合对上述作为基准的语音的基频图形进行变换以使上述作为基准的语音的基频图形与上述目标语者语音的基频图形之差最小;仿射变换部,其用于在将基频图形的时间轴方向设为X轴、将频率轴方向设为Y轴的情况下,将上述作为基准的语音的基频图形上的上述各时间序列点与上述目标语者语音的基频图形上的上述各时间序列点相关联,上述目标语者语音的基频图形上的各时间序列点的 X坐标值为使用对应的上述仿射变换对该作为基准的语音的基频图形上的时间序列点的X 坐标值进行变换而得的值。
13.根据权利要求11所述的基频图形生成装置,其中上述学习部求得分配给上述叶节点的输出特征量的平均值、方差及协方差。
14.一种基频图形生成装置,基于作为基准的语音的基频图形来生成目标语者语音的基频图形,上述基频图形表示基频的时间变化,该基频图形生成装置包括关联部,将与学习文本对应的作为基准的语音的基频图形与同上述学习文本对应的目标语者语音的基频图形,以波峰与波峰对应及波谷与波谷对应的方式相关联;移动量计算部,其对构成上述目标语者语音的基频图形的各时间序列点,参照关联结果,计算相对于构成上述作为基准的语音的基频图形的各时间序列点中对应的点在时间轴方向上的移动量及在频率轴方向上的移动量;变化量计算部,其对计算出的上述移动量和上述目标语者语音的基频图形的各点分别计算相邻时间序列点之间的变化量;学习部,使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用作为静态特征量的上述移动量和上述目标语者语音的基频图形上的各点的值及作为动态特征量的上述移动量的变化量和上述目标语者语音的基频图形上的各点的变化量作为输出特征量,学习决策树,对于所学习的上述决策树的各叶节点,求出分配给该叶节点的各输出特征量及上述输出特征量的组合的分布;分布序列预测部,其将作为合成文本的解析结果的语言信息输入至上述决策树,预测上述各时间序列点处的上述各输出特征量及上述输出特征量的组合的分布;最优化处理部,其通过求出使根据所预测的上述输出特征量及该输出特征量的组合的分布序列计算出的似然度最大的、上述目标语者语音的基频图形上的各点在时间轴方向上及频率轴方向上的值,进行最优化处理;目标语者基频图形生成部,其通过按时间排序由上述最优化处理求出的时间轴方向上的值与对应的在频率轴方向上的值的各组合,来生成上述目标语者语音的基频图形。
15.根据权利要求14所述的基频图形生成装置,其中上述关联部包括仿射变换计算部,其计算如下这样的仿射变换集合,该仿射变换集合对上述作为基准的语音的基频图形进行变换以使上述作为基准的语音的基频图形与上述目标语者语音的基频图形之差最小;仿射变换部,其用于在将基频图形的时间轴方向设为X轴、将频率轴方向设为Y轴的情况下,将上述作为基准的语音的基频图形上的上述各时间序列点与上述目标语者语音的基频图形上的上述各时间序列点相关联,上述目标语者语音的基频图形上的各时间序列点的 X坐标值为使用对应的上述仿射变换对该作为基准的语音的基频图形上的时间序列点的X 坐标值进行变换而得的值。
16.一种学习方法,通过计算机的计算处理,学习目标语者语音的基频图形相对于作为基准的语音的基频图形之间的移动量,上述基频图形表示基频的时间变化,该学习方法包括以下步骤将与学习文本对应的作为基准的语音的基频图形与同上述学习文本对应的目标语者语音的基频图形,以波峰与波峰对应及波谷与波谷对应的方式相关联,并将关联关系存储于上述计算机的存储区域;从上述存储区域读出上述关联关系,对上述目标语者语音的基频图形上的各点,求出上述各点相对于上述作为基准的语音的基频图形上的对应点在时间轴方向上的移动量及在频率轴方向上的移动量,并将该移动量存储于上述存储区域;从上述存储区域读出上述移动量,使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用上述移动量作为输出特征量,学习决策树。
17.根据权利要求16所述的学习方法,其中上述关联包括以下子步骤第一子步骤,其计算如下这样的仿射变换集合,该仿射变换集合对上述作为基准的语音的基频图形进行变换以使上述作为基准的语音的基频图形与上述目标语者语音的基频图形之差最小;第二子步骤,其在将基频图形的时间轴方向设为X轴、将频率轴方向设为Y轴的情况下,将上述基准的基频图形上的各点与上述目标语者语音的基频图形上的点相关联,该目标语者语音的基频图形上的点的X坐标值为使用对应的上述仿射变换对上述基准的基频图形上的各点的X坐标值进行变换而得的值。
18.一种学习程序,学习目标语者语音的基频图形相对于作为基准的语音的基频图形之间的移动量,上述基频图形表示基频的时间变化,上述学习程序使包括处理器及存储部的计算机执行以下步骤将与学习文本对应的作为基准的语音的基频图形与同上述学习文本对应的目标语者语音的基频图形,以波峰与波峰对应及波谷与波谷对应的方式相关联,并将关联关系存储于上述计算机的存储区域;从上述存储区域读出上述关联关系,对上述目标语者语音的基频图形上的各点,求出上述各点相对于上述作为基准的语音的基频图形上的对应点在时间轴方向上的移动量及在频率轴方向上的移动量,并将该移动量存储于上述存储区域;从上述存储区域读出上述移动量,使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用上述移动量作为输出特征量,学习决策树。
19.根据权利要求18所述的学习程序,为使上述计算机将上述作为基准的语音的基频图形上的点与上述目标语者语音的基频图形上的点相关联,上述学习程序使上述计算机执行如下子步骤第一子步骤,其计算如下这样的仿射变换集合,该仿射变换集合对上述作为基准的语音的基频图形进行变换以使上述作为基准的语音的基频图形与上述目标语者语音的基频图形之差最小;第二子步骤,其在将基频图形的时间轴方向设为X轴、将频率轴方向设为Y轴的情况下,将上述基准的基频图形上的各点与上述目标语者语音的基频图形上的点相关联,上述目标语者语音的基频图形上的点的X坐标值为使用对应的上述仿射变换对上述基准的基频图形上的各点的X坐标值进行变换而得的值。
全文摘要
本发明提供一种能够基于仅少量学习(learning)数据高精度地再现目标语者语音(voice)的基频的特征的技术。学习装置学习目标语者的目标基频图形(F pattern)相对于作为基准的源基频图形(F0 pattern)的移动量。该学习装置通过将与学习文本(text)对应的源基频图形及与同一学习文本对应的目标基频图形,以其波峰与波峰及波谷与波谷相对应的方式相关联,针对目标基频图形上的各点,该学习装置参照该关联的结果而求出相对于源基频图形上的相应点的在时间轴方向上及在频率轴方向上的移动量,且使用作为学习文本的解析结果的语言信息作为输入特征量、使用计算出的移动量作为输出特征量而学习决策树。
文档编号G10L13/08GK102341842SQ201080010199
公开日2012年2月1日 申请日期2010年3月16日 优先权日2009年5月28日
发明者立花隆辉, 西村雅史 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1