定量的f0轮廓生成装置及方法、以及用于生成f0轮廓的模型学习装置及方法

文档序号：9713660阅读：444来源：国知局

定量的f0轮廓生成装置及方法、以及用于生成f0轮廓的模型学习装置及方法
【技术领域】
[000?]本发明涉及声音合成技术，特别是涉及声音合成时的基频轮廓（fundamental frequency contours)的合成技术。
【背景技术】
[0002] 声音的基频的时间变化轮廓（以下称为"F0轮廓"）有助于使句子的划分明确、表现音调(accent)位置、或者区分单词。F0轮廓还在传递伴随于发声的感情等非语言的信息方面发挥着很大作用。进而，F0轮廓对于发声的自然度也会产生较大影响。特别是，为了使发声中的焦点所在的位置明了，从而使句子的构造明确，需要使句子以适当的语调来发声。若 F0轮廓不适当，则有损于合成声音的可理解性。因此，在声音合成中，如何合成期望的F0轮廓成为大的问题。
[0003] 作为F0轮廓的合成方法，存在后述的非专利文献1中公开的被称为藤崎模型的方法。
[0004] 藤崎模型是通过少量的参数来定量地描述F0轮廓的F0轮廓生成过程模型。参照图 1，该F0轮廓生成过程模型30是将F0轮廓作为短语成分、音调成分与基底成分F b之和来表现的模型。
[0005] 所谓短语成分是指在发声之中按照下述方式变化的成分，即，该成分具有在一个短语开始之后立即上升到顶峰，然后直至短语结束为止缓慢下降。所谓音调成分是指由与词对应的局部凹凸来表征的成分。
[0006] 参照图1的左侧，在藤崎模型中，由短语控制机构42针对在短语的起始处产生的脉冲型的短语指令40的响应来表征短语成分。另一方面，音调成分同样由音调控制机构46针对台阶状的音调指令44的响应来表征。通过利用加法器48将这些短语成分、音调成分与基底成分F b的对数l〇geFb进行加法运算，从而可获得F0轮廓50的对数表现l〇g eF0(t)。
[0007] 在该模型中，音调成分及短语成分、与发声的语言学信息及副语言学信息之间的对应关系是明确的。另外，还具有仅通过改变模型参数就能容易地确定句子的焦点的特征。
[0008] 然而，在该模型中，存在难以决定适当的参数的问题。在最近的声音技术中，随着计算机的发展，根据大量收集到的声音数据来构筑模型的方法成为主流。在藤崎模型中，难以根据在声音语料库中观测到的轮廓来自动获得模型参数。
[0009] 另一方面，作为根据大量收集到的声音数据来构筑模型的方法的典型方法，有如后述的非专利文献2所记载的根据在声音语料库中观测到的F0轮廓来构筑HMM(Hidden Marcov Model:隐马尔可夫模型）的方法。该方法由于能够从声音语料库获得各种各样的发声语境中的F0轮廓来进行模型化，因此在实现合成声音的自然度及信息传递功能上是极为重要的。
[0010] 参照图2,按照该方法的现有的声音合成系统70包括:模型学习部80,其根据声音语料库进行轮廓合成用的HMM模型的学习；和声音合成部82,其按照利用通过学习获得的 HMM而得到的F0轮廓，对与所输入的文本对应的合成声音信号118进行合成。
[0011]模型学习部80包括:声音语料库存储装置90，其存储标注了音素的语境标签的声音语料库;F0提取部92，其根据声音语料库存储装置90所存储的声音语料库内的各发声的声音信号来提取F0;频谱参数提取部94,其同样根据各发声来提取梅尔倒谱（me 1-cepstrum)参数来作为频谱参数;和HMM学习部96,其利用由R)提取部92提取出的F0轮廓、从声音语料库存储装置90获得的与F0轮廓对应的发声中的各音素的标签、及从频谱参数提取部94赋予的梅尔倒谱参数，生成各帧的特征向量，若被赋予了由成为生成对象的音素的语境标签构成的标签串，则进行HMM的统计性学习，以输出在该帧中各F0频率与梅尔倒谱参数的组被输出的概率。在此，所谓语境标签是声音合成用的控制符号，是对该音素赋予了该音素环境等各种各样的语言信息(context)的标签。
[0012] 声音合成部82包括:HMM存储装置110,其存储进行了由HMM学习部96执行的学习的 HMM的参数;文本解析部112，其若被赋予了成为声音合成的对象的文本，则对该文本进行文本解析，进行发声中的单词及其音素的确定、音调的决定、停顿的插入位置的决定、以及句子的种类的决定等，输出表征发声的标签串；参数生成部114,其若从文本解析部112接受了标签串，则比对HMM存储装置110中存储的HMM和该标签串，作为发声原来的文本时的F0轮廓及梅尔倒谱串的组合而生成并输出概率最高的组合;和声音合成器116,其按照从参数生成部114赋予的F0轮廓，合成由从参数生成部114赋予的梅尔倒谱参数表征的声音，并作为合成声音信号118来输出。
[0013] 根据该声音合成系统70,可获得能够基于大量的声音数据而在广泛的语境下输出丰富多彩的轮廓的效果。
[0014]在先技术文献
[0015] 非专利文献
[0016] 非专利文献1 : Fu ji saki，Η ·，and Hirose，K · (1984)，"Analysis of voice fundamental frequency contours for declarative sentences of Japanese，'， J.Acoust.Soc.Jpn.，5,233_242.
[0017] 非专利文献2:Tokuda，K.，Masuko，T.，Miyazaki，N.，and Kobayashi，T. (1999)，" Hidden Markov models based on multi-space probability distribution for pitch pattern modeling/^roc.of ICASSP1999?229-232.
[0018] 非专利文献3:Ni，J.and Nakamura，S. (2007)，"Use of Poisson processes to generate fundamental frequency contours'，，Proc · of ICASSP2007 ?825-828.
[0019] 非专利文献4:Ni，J，Shiga，Y，Kawai，H.，and Kashioka，H. (2012) /'Resonance-based spectral deformation in HMM-based speech synthesis，'，Proc·of ISCSLP2012， 88-92.

【发明内容】

[0020] 发明所要解决的课题
[0021] 在实际的发声中，在音素的边界等处，随着发声方法的变化等而声音的音调会产生微细的变动。将此称为微韵律(micro-prosody)。特别是在有声/无声区间的边界等处F0 会急剧变化。关于这样的变化，通过对声音进行处理而能够观测到，但在听觉上没什么意义。在上述利用了 HMM的声音合成系统70(参照图2)的情况下，受到这样的微韵律的影响而存在F0轮廓的误差变大的问题。另外，还存在追随在比较长的区间内的F0的变化轮廓的能力低的问题。除了这些问题之外，进一步还存在被合成的F0轮廓与语言学信息之间的关系不清楚、及难以设定句子的焦点（不依赖于上下文的的变动）的问题。
[0022]因此，本发明的目的在于提供一种F0轮廓的合成装置及方法，在根据统计模型来生成轮廓时，能够在确保精度的同时使语言学信息与F0轮廓的对应变得明确。
[0023]本发明的另一目的在于提供一种装置及方法，在根据统计模型来生成F0轮廓时，能够在确保精度的同时使语言学信息与F0轮廓的对应变得明确，而且能够容易地设定句子的焦点。
[0024]用于解决课题的手段
[0025]本发明的第1方案所涉及的定量的F0轮廓生成装置包括:针对通过文本解析而获得的发声的韵律词，利用所赋予的数量的目标点来生成F0轮廓的音调成分的单元;按照包含发声的构造的语言信息，将发声分为包含一个以上的韵律词的小组，从而利用被限定的数量的目标点来生成F0轮廓的短语成分的单元；以及基于音调成分和短语成分来生成F0轮廓的单元。
[0026]各音调由三个或者四个目标点描述。四个点中的两个是表示韵律词的F0轮廓之中频率低的部分的低目标点，其余一个或者两个点是表示R)轮廓之中频率高的部分的高目标点。在高目标点有两个的情况下，其强度可以相同。
[0027]生成F0轮廓的单元生成连续的F0轮廓。
[0028]本发明的第2方案所涉及的定量的F0轮廓的生成方法包括:针对通过文本解析而获得的发声的韵律词，利用所赋予的数量的目标点来生成F0轮廓的音调成分的步骤;按照包含发声的构造的语言信息，将发声分为包含一个以上的韵律词的小组，从而利用被限定的数量的目标点来生成轮廓的短语成分的步骤；以及基于音调成分和所述短语成分来生成F0轮廓的步骤。
[0029]本发明的第3方案所涉及的定量的F0轮廓生成装置包括:模型存储单元，其存储F0 轮廓的短语成分的目标参数生成用的生成模型和F0轮廓的音调成分的目标参数生成用的生成模型的参数;文本解析单元，其接受成为声音合成的对象的文本的输入来进行文本解析，输出声音合成用的控制符号串；短语成分生成单元，其将文本解析单元所输出的控制符号串与短语成分生成用的生成模型进行比对，从而来生成F0轮廓的短语成分;音调成分生成单元，其将文本解析单元所输出的控制符号串与音调成分生成用的生成模型进行比对，从而来生成F0轮廓的音调成分；以及F0轮廓合成单元，其合成由短语成分生成单元生成的短语成分和由音调成分生成单元生成的音调成分，从而来生成F0轮廓。
[0030] 模型存储单元可以进一步存储F0轮廓的微韵律成分估计用的生成模型的参数。该情况下，F0轮廓生成装置还包括:微韵律成分输出单元，其将文本解析单元所输出的控制符号串与微韵律成分生成用的生成模型进行比对，从而来输出F0轮廓的微韵律成分。F0轮廓生成单元包括:合成由短语成分生成单元生成的短语成分、由音调成分生成单元生成的音调成分、及微韵律成分，从而来生成轮廓的单元。
[0031] 本发明的第4方案所涉及的定量的F0轮廓生成方法，利用模型存储单元，该模型存储单元存储有F0轮廓的短语成分的目标参数生成用的生成模型和F0轮廓的音调成分的目标参数生成用的生成模型的参数，所述定量的F0轮廓生成方法包括:文本解析步骤，接受成为声音合成的对

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：倪晋富;志贺芳则;
技术所有人：国立研究开发法人情报通信研究机构;
我是此专利的发明人

上一篇：音频信号编码器的制造方法
上一篇：吸音材料及带吸音材料的线束的制作方法