定量的f0轮廓生成装置及方法、以及用于生成f0轮廓的模型学习装置及方法

文档序号:9713660阅读:444来源:国知局
定量的f0轮廓生成装置及方法、以及用于生成f0轮廓的模型学习装置及方法
【技术领域】
[000?]本发明涉及声音合成技术,特别是涉及声音合成时的基频轮廓(fundamental frequency contours)的合成技术。
【背景技术】
[0002] 声音的基频的时间变化轮廓(以下称为"F0轮廓")有助于使句子的划分明确、表现 音调(accent)位置、或者区分单词。F0轮廓还在传递伴随于发声的感情等非语言的信息方 面发挥着很大作用。进而,F0轮廓对于发声的自然度也会产生较大影响。特别是,为了使发 声中的焦点所在的位置明了,从而使句子的构造明确,需要使句子以适当的语调来发声。若 F0轮廓不适当,则有损于合成声音的可理解性。因此,在声音合成中,如何合成期望的F0轮 廓成为大的问题。
[0003] 作为F0轮廓的合成方法,存在后述的非专利文献1中公开的被称为藤崎模型的方 法。
[0004] 藤崎模型是通过少量的参数来定量地描述F0轮廓的F0轮廓生成过程模型。参照图 1,该F0轮廓生成过程模型30是将F0轮廓作为短语成分、音调成分与基底成分F b之和来表现 的模型。
[0005] 所谓短语成分是指在发声之中按照下述方式变化的成分,即,该成分具有在一个 短语开始之后立即上升到顶峰,然后直至短语结束为止缓慢下降。所谓音调成分是指由与 词对应的局部凹凸来表征的成分。
[0006] 参照图1的左侧,在藤崎模型中,由短语控制机构42针对在短语的起始处产生的脉 冲型的短语指令40的响应来表征短语成分。另一方面,音调成分同样由音调控制机构46针 对台阶状的音调指令44的响应来表征。通过利用加法器48将这些短语成分、音调成分与基 底成分F b的对数l〇geFb进行加法运算,从而可获得F0轮廓50的对数表现l〇g eF0(t)。
[0007] 在该模型中,音调成分及短语成分、与发声的语言学信息及副语言学信息之间的 对应关系是明确的。另外,还具有仅通过改变模型参数就能容易地确定句子的焦点的特征。
[0008] 然而,在该模型中,存在难以决定适当的参数的问题。在最近的声音技术中,随着 计算机的发展,根据大量收集到的声音数据来构筑模型的方法成为主流。在藤崎模型中,难 以根据在声音语料库中观测到的轮廓来自动获得模型参数。
[0009] 另一方面,作为根据大量收集到的声音数据来构筑模型的方法的典型方法,有如 后述的非专利文献2所记载的根据在声音语料库中观测到的F0轮廓来构筑HMM(Hidden Marcov Model:隐马尔可夫模型)的方法。该方法由于能够从声音语料库获得各种各样的发 声语境中的F0轮廓来进行模型化,因此在实现合成声音的自然度及信息传递功能上是极为 重要的。
[0010] 参照图2,按照该方法的现有的声音合成系统70包括:模型学习部80,其根据声音 语料库进行轮廓合成用的HMM模型的学习;和声音合成部82,其按照利用通过学习获得的 HMM而得到的F0轮廓,对与所输入的文本对应的合成声音信号118进行合成。
[0011]模型学习部80包括:声音语料库存储装置90,其存储标注了音素的语境标签的声 音语料库;F0提取部92,其根据声音语料库存储装置90所存储的声音语料库内的各发声的 声音信号来提取F0;频谱参数提取部94,其同样根据各发声来提取梅尔倒谱(me 1-cepstrum)参数来作为频谱参数;和HMM学习部96,其利用由R)提取部92提取出的F0轮廓、从 声音语料库存储装置90获得的与F0轮廓对应的发声中的各音素的标签、及从频谱参数提取 部94赋予的梅尔倒谱参数,生成各帧的特征向量,若被赋予了由成为生成对象的音素的语 境标签构成的标签串,则进行HMM的统计性学习,以输出在该帧中各F0频率与梅尔倒谱参数 的组被输出的概率。在此,所谓语境标签是声音合成用的控制符号,是对该音素赋予了该音 素环境等各种各样的语言信息(context)的标签。
[0012] 声音合成部82包括:HMM存储装置110,其存储进行了由HMM学习部96执行的学习的 HMM的参数;文本解析部112,其若被赋予了成为声音合成的对象的文本,则对该文本进行文 本解析,进行发声中的单词及其音素的确定、音调的决定、停顿的插入位置的决定、以及句 子的种类的决定等,输出表征发声的标签串;参数生成部114,其若从文本解析部112接受了 标签串,则比对HMM存储装置110中存储的HMM和该标签串,作为发声原来的文本时的F0轮廓 及梅尔倒谱串的组合而生成并输出概率最高的组合;和声音合成器116,其按照从参数生成 部114赋予的F0轮廓,合成由从参数生成部114赋予的梅尔倒谱参数表征的声音,并作为合 成声音信号118来输出。
[0013] 根据该声音合成系统70,可获得能够基于大量的声音数据而在广泛的语境下输出 丰富多彩的轮廓的效果。
[0014]在先技术文献
[0015] 非专利文献
[0016] 非专利文献1 : Fu ji saki,Η ·,and Hirose,K · (1984),"Analysis of voice fundamental frequency contours for declarative sentences of Japanese,', J.Acoust.Soc.Jpn.,5,233_242.
[0017] 非专利文献2:Tokuda,K.,Masuko,T.,Miyazaki,N.,and Kobayashi,T. (1999)," Hidden Markov models based on multi-space probability distribution for pitch pattern modeling/^roc.of ICASSP1999?229-232.
[0018] 非专利文献3:Ni,J.and Nakamura,S. (2007),"Use of Poisson processes to generate fundamental frequency contours',,Proc · of ICASSP2007 ?825-828.
[0019] 非专利文献4:Ni,J,Shiga,Y,Kawai,H.,and Kashioka,H. (2012) /'Resonance-based spectral deformation in HMM-based speech synthesis,',Proc·of ISCSLP2012, 88-92.

【发明内容】

[0020] 发明所要解决的课题
[0021] 在实际的发声中,在音素的边界等处,随着发声方法的变化等而声音的音调会产 生微细的变动。将此称为微韵律(micro-prosody)。特别是在有声/无声区间的边界等处F0 会急剧变化。关于这样的变化,通过对声音进行处理而能够观测到,但在听觉上没什么意 义。在上述利用了 HMM的声音合成系统70(参照图2)的情况下,受到这样的微韵律的影响而 存在F0轮廓的误差变大的问题。另外,还存在追随在比较长的区间内的F0的变化轮廓的能 力低的问题。除了这些问题之外,进一步还存在被合成的F0轮廓与语言学信息之间的关系 不清楚、及难以设定句子的焦点(不依赖于上下文的的变动)的问题。
[0022]因此,本发明的目的在于提供一种F0轮廓的合成装置及方法,在根据统计模型来 生成轮廓时,能够在确保精度的同时使语言学信息与F0轮廓的对应变得明确。
[0023]本发明的另一目的在于提供一种装置及方法,在根据统计模型来生成F0轮廓时, 能够在确保精度的同时使语言学信息与F0轮廓的对应变得明确,而且能够容易地设定句子 的焦点。
[0024]用于解决课题的手段
[0025]本发明的第1方案所涉及的定量的F0轮廓生成装置包括:针对通过文本解析而获 得的发声的韵律词,利用所赋予的数量的目标点来生成F0轮廓的音调成分的单元;按照包 含发声的构造的语言信息,将发声分为包含一个以上的韵律词的小组,从而利用被限定的 数量的目标点来生成F0轮廓的短语成分的单元;以及基于音调成分和短语成分来生成F0轮 廓的单元。
[0026]各音调由三个或者四个目标点描述。四个点中的两个是表示韵律词的F0轮廓之中 频率低的部分的低目标点,其余一个或者两个点是表示R)轮廓之中频率高的部分的高目标 点。在高目标点有两个的情况下,其强度可以相同。
[0027]生成F0轮廓的单元生成连续的F0轮廓。
[0028]本发明的第2方案所涉及的定量的F0轮廓的生成方法包括:针对通过文本解析而 获得的发声的韵律词,利用所赋予的数量的目标点来生成F0轮廓的音调成分的步骤;按照 包含发声的构造的语言信息,将发声分为包含一个以上的韵律词的小组,从而利用被限定 的数量的目标点来生成轮廓的短语成分的步骤;以及基于音调成分和所述短语成分来生 成F0轮廓的步骤。
[0029]本发明的第3方案所涉及的定量的F0轮廓生成装置包括:模型存储单元,其存储F0 轮廓的短语成分的目标参数生成用的生成模型和F0轮廓的音调成分的目标参数生成用的 生成模型的参数;文本解析单元,其接受成为声音合成的对象的文本的输入来进行文本解 析,输出声音合成用的控制符号串;短语成分生成单元,其将文本解析单元所输出的控制符 号串与短语成分生成用的生成模型进行比对,从而来生成F0轮廓的短语成分;音调成分生 成单元,其将文本解析单元所输出的控制符号串与音调成分生成用的生成模型进行比对, 从而来生成F0轮廓的音调成分;以及F0轮廓合成单元,其合成由短语成分生成单元生成的 短语成分和由音调成分生成单元生成的音调成分,从而来生成F0轮廓。
[0030] 模型存储单元可以进一步存储F0轮廓的微韵律成分估计用的生成模型的参数。该 情况下,F0轮廓生成装置还包括:微韵律成分输出单元,其将文本解析单元所输出的控制符 号串与微韵律成分生成用的生成模型进行比对,从而来输出F0轮廓的微韵律成分。F0轮廓 生成单元包括:合成由短语成分生成单元生成的短语成分、由音调成分生成单元生成的音 调成分、及微韵律成分,从而来生成轮廓的单元。
[0031] 本发明的第4方案所涉及的定量的F0轮廓生成方法,利用模型存储单元,该模型存 储单元存储有F0轮廓的短语成分的目标参数生成用的生成模型和F0轮廓的音调成分的目 标参数生成用的生成模型的参数,所述定量的F0轮廓生成方法包括:文本解析步骤,接受成 为声音合成的对
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1