韵律编辑装置、方法及程序的制作方法

文档序号：2826159阅读：148来源：国知局

韵律编辑装置、方法及程序的制作方法
【专利摘要】提供能容易编辑韵律的韵律编辑装置、方法及程序。本实施方式涉及的韵律编辑装置包括：第1选择部、存纳部、检索部、标准化部、映射部、显示部、第2选择部、恢复部及置换部。存纳部对应存纳表示短语相关的属性的属性信息、和1个以上的韵律图形，上述韵律图形表示该短语的韵律的型式，并且表示该短语的韵律的参数包含该短语的音素数以上的要素数。检索部从存纳部检索选择短语和属性信息相一致的1个以上的韵律图形，得到韵律图形集合。映射部将标准化的韵律图形分别映射在数目比要素数少的坐标中表示的低维度空间，生成映射坐标。恢复部按照选择坐标而恢复韵律图形，得到恢复韵律图形。置换部根据选择短语将生成的合成语音的韵律置换为恢复韵律图形。
【专利说明】韵律编辑装置、方法及程序
【技术领域】
[0001] 本发明的实施方式涉及韵律编辑装置、方法及程序。
【背景技术】
[0002]近年来，随着从文本合成语音的语音合成技术的发展，能得到接近人的发音的自然合成音。
[0003]近年的语音合成系统中，一般采用从录制人的语音的语音语料库学习韵律或音质的统计模型的方法。例如，作为韵律的统计模型，已知有决定树模型、隐藏马尔可夫模型等。通过使用这些统计模型，也能以某种程度自然地再现学习语料库中不存在的任意文本的语调。
[0004]可是，由于统计模型从语音语料库的多个表达学习平均的韵律特征，从统计模型生成的合成语音的语调容易变得单调。因此，存在如下系统:将根据统计模型生成的韵律的图形可见化并向用户提示，用户使用鼠标等的设备能图形化地编辑。
[0005]现有技术文献
[0006]专利文献
[0007]专利文献1:日本特开2008-268477号公报
[0008]专利文献2:日本专利第4296231号说明书

【发明内容】

[0009]然而，图画的编辑中，能制作任意的韵律，只要作为合成语音输出即可。因而，韵律图形编辑使编辑的自由度增大，但是，相反，也能作成不妥当的韵律的图形。即，存在没有语音相关的知识的用户非常难制作期望的韵律的图形这样的问题。
[0010]还有，为了解决自由度的问题点，存在向二元坐标平面压缩自由度非常大的参数空间的方法。可是，存在如下问题:能编辑的不是短语的韵律的图形，而是合成音的音质，所以编辑对象不同，并且无法用于编辑文本的任意短语的基频、持续时间长度的目的。
[0011]本公开为了解决上述的课题而做出，其目的在于提供一种能容易编辑韵律的韵律编辑装置、方法及程序。
[0012]本实施方式涉及的韵律编辑装置包括--第I选择部、存纳部、检索部、标准化部、映射部、显示部、第2选择部、恢复部及置换部。第I选择部从文本选择含有音素的短语/词组(PHRASE)，作为选择短语。存纳部对应存纳表示短语相关的属性的属性信息、和I个以上的韵律图形，上述韵律图形表示该短语的韵律的型式，并且表示该短语的韵律的参数包含该短语的音素数以上的要素数。检索部从上述存纳部检索上述选择短语和属性信息相一致的上述I个以上的韵律图形，得到韵律图形集合。标准化部将上述韵律图形集合中包括的韵律图形分别标准化。映射部将标准化的上述韵律图形分别映射在数目比上述要素数少的坐标中表示的低维度空间，生成映射坐标。显示部显示上述映射坐标。第2选择部得到从上述映射坐标选择的坐标，作为选择坐标。恢复部按照上述选择坐标而恢复韵律图形，得到恢复韵律图形。置换部，根据上述选择短语将生成的合成语音的韵律置换为上述恢复韵律图形。
【专利附图】

【附图说明】
[0013]图1是表示第1实施方式涉及的韵律编辑装置的方块图。
[0014]图2是表示在韵律图形DB存纳的短语的属性信息的一个例子的图。
[0015]图3是表示在韵律图形DB存纳的韵律图形的一个例子的图。
[0016]图4是表示基频、持续时间长度及力度(POWER)的关系的图。
[0017]图5是表示韵律编辑装置的操作的流程图。
[0018]图6是表示韵律图形标准化部的标准化处理的图。
[0019]图7是用于说明韵律图形映射部的映射处理的图。
[0020]图8是用于说明韵律图形映射部的映射处理的图。
[0021]图9是表示在显示部显示的映射坐标的一个例子的图。
[0022]图10是表示在显示部显示的用户界面，(a)表示韵律图形的图表，(b)表示二元坐标平面的图。
[0023]图11是表示第1变形例的韵律图形映射部的映射处理，(a)表示基频的二元坐标平面，(b)表示持续时间长度的二元坐标平面的图。
[0024]图12是表示第1变形例涉及的界面的一个例子的图。
[0025]图13是表示第2变形例涉及的集中(CLUSTERING)处理后的二元坐标平面的例子的图。
[0026]图14是表示第3变形例涉及的在韵律图形DB存纳的韵律图形的一个例子的图。
[0027]图15是表示第3变形例涉及的集中处理后的二元坐标平面的例子的图。
[0028]图16是表示第2实施方式涉及的韵律编辑装置的方块图。
[0029]图17是表示第2实施方式涉及的韵律图形恢复部的处理的图。
[0030]图18是表示韵律编辑装置的硬件配置的方块图。
【具体实施方式】
[0031]以下，一边参照附图一边关于本实施方式涉及的韵律编辑装置、方法及程序详细地说明。再者，以下的实施方式中，对附加相同的参照符号的部分进行同样的操作，适当地省略重复的说明。
[0032](第1实施方式)
[0033]关于第1实施方式涉及的韵律编辑装置，参照图1的方块图来说明。
[0034]第1实施方式涉及的韵律编辑装置100包括:语音合成部101、短语选择部102、韵律图形数据库103 (以下，称为韵律图形DB103)、韵律图形检索部104、韵律模型数据库105(以下，称为韵律模型DB105)、韵律模式生成部106、韵律图形标准化部107、韵律图形映射部108、坐标选择部109，韵律图形恢复部110、韵律图形置换部111及显示部112。
[0035]语音合成部101，从外部接收文本，对文本语音合成，生成合成语音，输出到外部。对语音合成的方式，一般已知有使用连接音素的片断的要素连接型语音合成、或隐藏马尔可夫模型将韵律、声质模型化的HMM语音合成等。在这里，只要能取得合成语音的韵律图形，可以采用任何的语音合成方式。所谓韵律图形，表示短语的韵律的型式，意味着表示短语的韵律的基频、持续时间长度、力度等的参数的时系变化。还有，表示韵律图形的参数具有短语的音素数以上的要素数。
[0036]短语选择部102从外部接收文本，按照用户的输入选择作为从文本编辑韵律的范围的短语，得到选择短语。作为选择短语的选择方法，例如有鼠标、键盘、触摸屏等，只要通过鼠标等选择短语的范围即可。短语选择部102从语音合成部101取得与选择的短语相对应的合成语音的属性信息。所谓属性信息表示短语的表层表现、音素列的排列方法、短音节(MORA)数、和口音(ACCENT)型等的关于短语的属性。
[0037]韵律图形DB103分别对应存纳短语的属性信息、和短语的I个以上的韵律图形。向韵律图形DB103进行属性信息及韵律图形的登记方法，采用例如登记从录音语音提出的真实的嗓音韵律图形、用户登记编辑完成的韵律图形、从韵律的统计模型登记自动生成的韵律这样的一般方法即可。
[0038]韵律图形检索部104从短语选择部102接收选择短语及属性信息。韵律图形检索部104从韵律图形DB103检索选择短语的属性信息和属性信息相一致的短语，得到与相一致的短语相对应的I个以上的韵律图形作为韵律图形集合。
[0039]韵律模型DB105存纳统计模型。统计模型采用语音语料库表示学习的决定树模型、隐藏马尔可夫模型。只要准备各种表达风格、感情、和说话者的统计模型，能对用户指定的选择短语生成各种韵律图形。
[0040]韵律模式生成部106从韵律图形检索部104接收选择短语及韵律图形集合。韵律模式生成部106使用韵律模型DB105，生成有关选择短语的韵律图形，向韵律图形集合追加生成的韵律图形。
[0041]再者，只要韵律图形检索部104检索的韵律图形集合包括的韵律图形的数目为阈值以上，韵律模式生成部106也可不重新生成韵律图形。
[0042]韵律图形标准化部107从韵律图形检索部104接收韵律图形集合。再者，在韵律模式生成部106向韵律图形集合追加韵律图形的场合，从韵律模式生成部106接收韵律图形集合。韵律图形标准化部107将生成的韵律图形集合的韵律图形分别标准化。
[0043]韵律图形映射部108从韵律图形标准化部107接收标准化的韵律图形，将标准化的韵律图形映射在数目比参数的要素数少的坐标中表示的低维度空间，并得到每韵律图形的映射坐标。
[0044]坐标选择部109按照来自用户的指示选择坐标，得到选择坐标。
[0045]韵律图形恢复部110分别从韵律图形映射部108接收映射坐标，从坐标选择部109接收选择坐标。韵律图形恢复部110比较映射坐标和选择坐标，恢复与选择坐标相对应的坐标的韵律图形，得到恢复韵律图形。
[0046]韵律图形置换部111从韵律图形恢复部110接收恢复韵律图形，用恢复韵律图形置换语音合成部101生成的默认的韵律图形。
[0047]显示部112从语音合成部101接收并显示韵律图形，从韵律图形映射部108接收并显示映射坐标。
[0048]再者，本实施方式中，假定韵律编辑装置100包含语音合成部101的场合，但是，韵律编辑装置100也可以不包含语音合成部101，使用外部的语音合成器。在这个场合，韵律图形置换部111向外部的语音合成器输出与选择短语相对应的恢复韵律图形即可。
[0049]其次，关于在韵律图形DB103存纳的短语的属性信息的一个例子，参照图2说明。
[0050]如图2所示，在韵律图形DB103，标识符201(以下，称为ID201)、表层表现202、音素列203、短音节数及口音型204分别对应作为短语的属性信息205来存纳，进而与短语对应的韵律图形的图形数206与属性信息205对应来存纳。
[0051]ID201表不短语的标识号。表层表现202表不短语的字符串。音素列203表不与表层表现202相对应的音素的字符串，每音素的群组由“/”断开。短音节数及口音型204表不表层表现202发声的场合的口音。图形数206表不音素列203的韵律图形的数目。具体地，例如，对应存纳ID201 “1”、表层表现202 “下^ ^ ”，音素列203 “/K/U/D/A/S/A/I/”、短音节数及口音型204 “4短音节3型”、图形数206 “182”。
[0052]再者，语言为英语的场合，ID201、表层表现202及音素列203作为各个属性信息205对应，韵律图形的图形数206与属性信息205对应。具体地，图2的例子中，ID201“ 14”、表层表现202 “Please”、音素列203 “/p/l/ii/z/”和图形数206 “7”分别对应。在英语的场合，不存在日语特有的短音节数/ 口音型，所以在这里省略。
[0053]其次，关于在韵律图形DB103存纳的韵律图形的一个例子，参照图3说明。
[0054]对于如图2所示的1个ID201，按每个对应韵律图形，ID201、PID301、基频302及持续时间长度303分别作为参数来对应存纳。PID301表示识别与1个ID201相对应的各图形的标识符。基频302是音素的音高。在这里，每1帧的频率作为要素来存纳。持续时间长度303是音素的发音继续的时间的长度。在这里，1个音素表示持续经过几帧，每音素的帧数作为要素来存纳。
[0055]例如，图2中的ID201 “9”的“ ^如力5 t如(IKAGADESUKA) ”这个短语有41个韵律图形，图3中，表示41个图形中的4个。例如，分别对应存纳PID301 “1”，基频302 “[284，278，273，266，261，259，255，...]，，，持续时间长度 303 “[12，12，11，7，9，9，9，18，12，23]”。SP，短语“ P^ +如”的音素“I”是12帧的长度，可知道对每帧基频“284，278，273，266，261，259，255，…”继续。
[0056]上述的图形期望准备尽可能多种图形。例如，如果能准备各种副语言信息、感情、风格、说话者的韵律图形，则用户能从各种韵律图形选择希望的图形。再者，图3的例子中，作为参数显示基频及持续时间长度，但是作为参数，表示音素被发音时的音量的力度也可以对应存纳。
[0057]其次，关于韵律图形的基频、持续时间长度及力度的关系，参照图4说明。
[0058]图4是根据作为短语“ ^如好^ +如”的韵律图形的参数的基频、持续时间长度及力度生成的图表。横轴表示时间(单位帧)，纵轴分别在左侧表示频率(单位Hz)，在右侧表示力度(单位dB)。再者，将秒作为时间的单位，将八度音等作为频率的单位，也可以使用其他的单位。
[0059]持续时间长度作为各音素幅度401的时系列数据来表示。例如，音素“/I/”为12中贞，音素“/K/”为12帧，音素“/A/”为11帧。沿着时系列将这些音素宽度的数据排列的数据为在如图3所示的持续时间长度303存纳的要素。
[0060]这个坐标空间中对于各帧与1个频率值对应，基频能表示为关联于频率值的1个轨迹402。在这里，假定每帧具有频率值，但是每音素、每母音等任何单位也可具有频率值。沿着时系列按顺序将这些频率值排列的数据为在如图3所示的基频302存纳的要素。
[0061]力度与基频的轨迹402同样，能作为关联于每帧的力度的值的I个轨迹403表示。
[0062]其次，关于本实施方式涉及的韵律编辑装置的操作，参照图5流程图说明。
[0063]在步骤S501，韵律图形检索部104接收由用户选择的选择短语。
[0064]在步骤S502，韵律图形检索部104从韵律图形DB103检索选择短语的属性信息和属性信息相一致的短语，作为韵律图形集合得到与属性信息相一致的短语相对应的韵律图形。作为检索方法，采用表层表现作为短语的属性信息，检索是否存在具有与选择短语的表层表现相一致的表层表现的短语即可。还有，采用音素列作为属性信息，检索是否存在具有与选择短语的音素列相一致的音素列的短语即可。并且，也可以采用短音节数及口音型作为属性信息，检索是否存在具有与选择短语的短音节数及口音型相一致的短音节数及口音型的短语。
[0065]因为常常短音节数及口音型相同的短语的韵律图形彼此类似，即使表层表现相一致的短语的韵律图形数少的场合，作为韵律图形集合采用表层表现不同、但是短音节数及口音型相一致的韵律图形，能增加韵律图形的变化。
[0066]再者，韵律模式生成部106，也可以使用在韵律模型DB105存纳的统计模型生成选择短语的韵律图形。由于使用在韵律模型DB105存纳的统计模型，即使选择短语是与在韵律图形DB103存纳的韵律图形属性不相一致的短语的场合，也能生成韵律图形
[0067]在步骤S503，韵律图形标准化部107分别标准化韵律图形集合包括的韵律图形。关于标准化处理，参照图6后述。`
[0068]在步骤S504，韵律图形映射部108在低维度空间将标准化的韵律图形集合的各韵律图形进行映射。向低维度空间的映射处理，例如，用主成分分析即可。关于具体的映射处理，参照图7及图8后述。
[0069]在步骤S505，显示部112显示映射的韵律图形集合的映射坐标。
[0070]在步骤S506，坐标选择部109将由用户选择的区域的坐标作为选择坐标。
[0071]在步骤S507，韵律图形恢复部110恢复选择的韵律图形，生成恢复韵律图形。关于具体的恢复处理后述。
[0072]在步骤S508，韵律图形置换部111通过恢复韵律图形置换选择短语的韵律图形。在这里，在单纯地置换处理的场合，因为短语前后和韵律不平滑地连接，有可能合成语音成为不自然。这样的场合，采用将基频的轨迹插值等一般的方法即可。
[0073]在步骤S509，语音合成部101采用恢复韵律图形进行语音合成。
[0074]在步骤S510，判定恢复韵律图形是否为用户期望的韵律图形的合成语音，如果判定是用户期望的韵律图形的合成语音，则结束处理。所谓用户期望的合成语音这样的判断是由用户选择例如在显示部112显示的决定按钮判定即可。另一方面，如果判定不是用户期望的韵律图形的合成语音，则返回到步骤S506的处理，从显示部112显示的映射坐标进一步进行韵律图形的选择。以上，结束本实施方式涉及的韵律编辑装置100的操作。
[0075]其次，关于韵律图形标准化部107的标准化处理，参照图6说明。
[0076]图6表示标准化如图3所示的短语“ ^如好^ +分”的4个韵律图形(PID=I, 2, 3, 4)的例子。纵轴表示把基频的平均值作为零的场合的标准化值，横轴表示帧数。在这里，将韵律图形的帧数等于200帧，即各韵律图形的要素数为200个(200维的数据)。
[0077]通常，对于基频，由于人的声音的高度不同而基频的平均值不同。为此，使基频的平均值调整成为零，通过恢复韵律图形时对象的说话者的基频调整平均值。还有，由于基频的数据长度根据韵律图形而不同，将数据长度先行压缩直到对每音素确定的任意的固定长度，对齐其他的韵律图形的数据长度。最终，将基频和持续时间长度的各帧标准化，使其平均值为零，标准差为1。通过这些处理，能统一基频和持续时间长度的单位。再者，预先保持标准化中使用的原来的平均值及标准差的数据，能恢复为原来的值。
[0078]其次，关于韵律图形映射部108的映射处理，参照图7及图8说明。
[0079]在这里，表示使用主成分分析在低维度空间映射韵律图形集合的一个例子。再者，作为低维度空间，期望在三次元以下的坐标空间映射，本实施方式中表示在二元坐标平面映射的例子，但是，不限于二元坐标平面，由比参数的要素数少的坐标表示韵律图形的坐标平面即可。
[0080]如图7所示，进行映射处理时，生成将最初标准化的韵律图形集合的基频的要素701和持续时间长度的要素702结合的矩阵X703。X的各行相当于将各韵律图形的基频和持续时间长度结合的要素。通过这样生成矩阵，能同时编辑基频和持续时间长度。
[0081]继续，如图8表示韵律图形集合的矩阵X的矩阵尺寸。
[0082]韵律图形集合的矩阵X801成为η行p列，以如图8所示进行简略化表示。对于这个η行ρ列的矩阵Χ801，使用式(1)算出矩阵Χ801的方差/协方差矩阵V802。
[0083]【式1】
[0084]
【权利要求】
1.一种韵律编辑装置，其特征在于，包括:第1选择部，从文本选择含有音素的短语，得到选择短语；存纳部，对应存纳表示短语相关的属性的属性信息、和1个以上的韵律图形，上述韵律图形表示该短语的韵律的型式，并且表示该短语的韵律的参数包含该短语的音素数以上的要素数；检索部，从上述存纳部检索上述选择短语和属性信息相一致的上述1个以上的韵律图形，得到韵律图形集合；标准化部，将上述韵律图形集合中包括的韵律图形分别标准化；映射部，将标准化的上述韵律图形分别映射在数目比上述要素数少的坐标中表示的低维度空间，生成映射坐标；显示部，显示上述映射坐标；第2选择部，得到从上述映射坐标选择的坐标，作为选择坐标；恢复部，按照上述选择坐标而恢复韵律图形，得到恢复韵律图形；置换部，根据上述选择短语将生成的合成语音的韵律置换为上述恢复韵律图形。
2.如权利要求1所述的韵律编辑装置，其特征在于，还包括: 生成部，使用统计模型生成上述选择短语相关的韵律图形，将生成的韵律图形追加到上述韵律图形集合。
3.如权利要求1或2所述的韵律编辑装置，其特征在于，还包括:语音合成部，根据上述恢复韵律图形将文本语音合成，生成合成语音。
4.如权利要求1至3中任一项所述的韵律编辑装置，其特征在于，上述属性信息包含表示上述短语的字符串的表层表现；上述检索部检索上述选择短语的表层表现和上述短语的表层表现是否相一致。
5.如权利要求1至3中任一项所述的韵律编辑装置，其特征在于，上述属性信息包含表示上述短语的音素的字符串的音素列；上述检索部检索上述选择短语的音素列和上述短语的音素列是否相一致。
6.如权利要求1至3中任一项所述的韵律编辑装置，其特征在于，上述属性信息包含上述短语的短音节数及口音型；上述检索部检索上述选择短语的短音节数及口音型、和上述短语的短音节数及口音型是否相一致。
7.如权利要求1至6中任一项所述的韵律编辑装置，其特征在于，上述韵律图形的参数包含音素的基频、音素的持续时间长度及音素的力度；上述映射部，关于上述基频、上述持续时间长度、和上述力度中的1个以上的参数，独立映射。
8.如权利要求1至6中任一项所述的韵律编辑装置，其特征在于，上述韵律图形，通过音素的基频、音素的持续时间长度及音素的力度来表现；上述映射部，将上述基频、上述持续时间长度、和上述力度度的1个以上的参数结合映射。
9.如权利要求1至8中任一项所述的韵律编辑装置，其特征在于，上述映射部，根据上述映射坐标间的距离将该映射坐标集中，从集中的多个映射坐标中决定代表点；上述显示部显示上述代表点。
10.如权利要求1至9中任一项所述的韵律编辑装置，其特征在于，上述恢复部，在上述选择坐标和映射坐标的距离为阈值以内的场合，得到将该映射坐标映射之前的韵律图形作为恢复韵律图形。
11.一种韵律编辑方法，其特征在于，包括: 从文本选择含有音素的短语，得到选择短语；在存纳装置对应存纳表示短语相关的属性的属性信息、和I个以上的韵律图形，上述韵律图形表示该短语的韵律的型式，并且表示该短语的韵律的参数包含该短语的音素数以上的要素数；从上述存纳装置检索上述选择短语和属性信息相一致的上述I个以上的韵律图形，得到韵律图形集合；将上述韵律图形集合中包含的韵律图形分别标准化；将标准化的上述韵律图形分别映射在数目比上述要素数少的坐标中表示的低维度空间，生成映射坐标；显示上述映射坐标；得到从上述映射坐标选择的坐标，作为选择坐标；按照上述选择坐标而恢复韵律图形，得到恢复韵律图形；根据上述选择短语将生成的合成语音的韵律置换为上述恢复韵律图形。
12.一种韵律编辑程序，其特征在于，使得计算机作为以下装置起作用，所述装置包括: 第I选择装置，从文本选择含有音素的短语，得到选择短语；存纳装置，对应存纳表示短语相关的属性的属性信息、和I个以上的韵律图形，上述韵律图形表示该短语的韵律的型式，并且表示该短语的韵律的参数包含该短语的音素数以上的要素数；检索装置，从上述存纳装置检索上述选择短语和属性信息相一致的上述I个以上的韵律图形，得到韵律图形集合；标准化装置，将上述韵律图形集合中包括的韵律图形分别标准化；映射装置，将标准化的上述韵律图形分别映射在数目比上述要素数少的坐标中表示的低维度空间，生成映射坐标；显示装置，显示上述映射坐标；第2选择装置，得到从上述映射坐标选择的坐标，作为选择坐标；恢复装置，按照上述选择坐标而恢复韵律图形，得到恢复韵律图形；置换装置，根据上述选择短语将生成的合成语音的韵律置换为上述恢复韵律图形。
【文档编号】G10L13/08GK103632662SQ201310364756
【公开日】2014年3月12日申请日期:2013年8月20日优先权日:2012年8月20日
【发明者】森纮一郎, 笼岛岳彦, 森田真弘申请人:株式会社东芝

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：森纮一郎;笼岛岳彦;森田真弘
技术所有人：株式会社东芝
我是此专利的发明人