声音合成装置及声音合成方法_3

文档序号：9930269阅读：来源：国知局

，得到音量的变化的大致形式。进而，CPU301计算与目标韵律对应的被平滑化了的音量序列的各时间的采样值、与图6B — 2所例示的与连接声音片段对应的被平滑化了的音量序列的各时间的采样值之比。并且，CPU301将按各时间计算出的比的值乘以连接声音片段(步骤S405的音高改变的结果)的各采样值，将其结果作为最终的合成声音输出。
[0060]CPU301将如上述那样输出的合成声音数据作为声音文件向例如RAM303或外部存储装置306中保存，并且经由图1的声音输出装置114放出合成声音。
[0061 ]图7是表示图4的步骤S405的音高适应处理的详细例的流程图。
[0062]CPU301首先从在图4的步骤S402中生成的目标韵律中提取音高序列(以下将其记作“目标音高序列”)，执行使该目标音高序列与连接声音片段的音高序列的时间尺度(timescale)相匹配的时间伸展(time stretching)处理(步骤S701)。由此，两者的时间的长度的差异被吸收。
[0063]接着，CPU301调整在步骤S701中进行时间伸展处理后的目标音高序列和连接声音片段的音高序列的音高存在区间(步骤S702)。具体而言，CPU301例如将连接声音片段的音高序列与目标音高序列进行比较，在连接声音片段中将与不存在音高的区间对应的目标音高序列的区间的音高删除。
[0064]接着，CPU301将在步骤S702中调整音高存在区间后的目标音高序列的频率值量化(对应于图5B)(步骤S703)。具体而言，CPU301例如以将音高频率值在每I个八度中N分割(更具体地讲，3?10分割等)的单位，将目标音高序列量化。
[0065]进而，CPU301将在步骤S703中量化了的目标音高序列通过在图5C中所述的加权移动平均运算进行平滑化(步骤S704)。
[0066]最后，CPU301使在步骤S704中计算出的平滑化了的目标音高序列与连接声音片段相适应(步骤S705) ο具体而言，如在图5中所述那样，CPU301使在步骤S701中调整后的连接声音片段的各时间的音高改变，以使其对应于在步骤S704中被平滑化了的音高序列的各时间的音高的值，并将其结果输出。
[0067]图8是表示图4的步骤S406的音量适应处理的详细例的流程图。
[0068]CPU301首先从在图4的步骤S402中生成的目标韵律中提取音量序列(以下将其记作“目标音量序列”)，执行使该目标音量序列与连接声音片段的音量序列的时间尺度相匹配的时间伸展处理(步骤S801)。另外，进行调整，以使尺度与在图7的步骤S701中执行的时间伸展处理的结果相符。
[0069]接着，CPU301将在步骤S801中进行时间伸展处理后的目标音量序列和连接声音片段的音量序列分别通过在图6B — I及图6B — 2中所述的加权移动平均运算进行平滑化(步骤S802)o
[0070]接着，CPU301计算在步骤S802中计算出的对应于目标韵律的被平滑化了的音量序列的各时间的采样值、与对应于连接声音片段的被平滑化了的音量序列的各时间的采样值之比(步骤S803)。
[0071]最后，CPU301使在步骤S803中按各时间计算出的比的值与连接声音片段相适应(步骤S804) ο具体而言，如在图6中所述那样，CPU301将在步骤S803中按各时间计算出的比的值乘以连接声音片段的各采样值，将其结果作为最终的合成声音输出。
[0072]在以上说明的实施方式中，认为目标韵律中的音高及音量的全局性变动良好地表示讲话者的声调即感情，从目标韵律中提取音高及音量的平缓的变动，通过基于该变动数据使连接声音片段的音高及音量改变，从而生成良好地反映了目标韵律中包含的声调信息的合成声音。但是，在本发明中，声调信息并不限于目标韵律中的音高及音量的全局性变动。例如，作为声调信息，也可以使用在图4的步骤S401中与音素序列一起提取的重音信息，执行在重音位置对在图4的步骤S404的波形连接处理中输出的连接声音片段进行某种加工那样的适应处理。除此以外，如果能够从输入声音数据中提取能够表现声调信息的参数，则也可以执行根据该参数将连接声音片段进行加工那样的适应处理。
[0073]如以上这样，在本实施方式中，在波形连接方式的声音合成系统中，当通过声音输入指定目标韵律时，能够维持基于声音输入的声调指定的高自由度，并且不需要使声音语料库的规模扩大而能够使合成声音的音质提高。
【主权项】
1.一种声音合成装置，其特征在于，具备处理部，该处理部执行: 声调信息提取处理，从输入的声音数据中包含的韵律信息提取声调信息；以及输出处理，基于提取出的上述声调信息，将连接着多个声音片段的连接声音片段中包含的要素的至少一部分变更，基于将上述要素的至少一部分变更后的上述连接声音片段，输出合成声音。2.如权利要求1所述的声音合成装置，其特征在于，上述处理部还执行: 选择处理，基于输入的文本数据，选择多个声音片段；以及连接处理，通过将所选择的上述多个声音片段连接，生成连接声音片段。3.如权利要求2所述的声音合成装置，其特征在于，上述输入的声音数据是语音数据，上述语音数据表示上述输入的文本数据。4.如权利要求1所述的声音合成装置，其特征在于，在上述输出处理中，上述处理部执行音高适应处理，该音高适应处理中，将上述连接声音片段中包含的要素即音高序列进行变更，以使其适应于通过上述声调信息提取处理的执行而提取出的声调信息。5.如权利要求1所述的声音合成装置，其特征在于，在上述声调信息提取处理中，上述处理部执行这样的处理，S卩:将上述输入的声音数据中包含的作为韵律信息的音高序列的音高进行平滑化，提取上述音高被平滑化后的音高序列作为上述声调信息。6.如权利要求1所述的声音合成装置，其特征在于，在上述声调信息提取处理中，上述处理部执行这样的处理，S卩:将构成上述输入的声音数据中包含的作为韵律信息的音高序列的音高进行量化，将被量化了的上述音高进行加权移动平均运算，从而生成上述音高被平滑化后的音高序列。7.如权利要求4所述的声音合成装置，其特征在于，在上述音高适应处理中，上述处理部还执行这样的处理，即:调整上述输入的声音数据中包含的作为韵律信息的音高序列和上述连接声音片段中包含的音高序列的时间尺度，并且调整作为上述韵律信息的音高序列和上述连接声音片段中包含的音高序列的音高存在区间。8.如权利要求1所述的声音合成装置，其特征在于，在上述输出处理中，上述处理部执行音量适应处理，该音量适应处理中，将上述连接声音片段中包含的要素即音量序列进行变更，以适应于通过上述声调信息提取处理的执行而提取出的声调信息。9.如权利要求8所述的声音合成装置，其特征在于，在上述声调信息提取处理中，上述处理部执行这样的处理，S卩:将上述输入的声音数据中包含的作为韵律信息的音量序列进行平滑化，提取被平滑化了的上述音量序列作为上述声调信息；在上述音量适应处理中，上述处理部执行这样的处理，即:将上述连接声音片段中包含的音量序列进行平滑化，计算被平滑化了的上述音量序列与作为上述声调信息的被平滑化了的音量序列之比的序列，基于上述比的序列，修正上述连接声音片段的音量序列。10.如权利要求9所述的声音合成装置，其特征在于，在上述声调信息提取处理中，上述处理部执行这样的处理，S卩:通过将上述音量序列中包含的音量分别进行加权平均运算，从而取得被平滑化了的上述音量序列。11.如权利要求9所述的声音合成装置，其特征在于，在上述音量适应处理中，上述处理部执行这样的处理，即:将上述输入的声音数据中包含的作为韵律信息的音量序列及上述连接声音片段中包含的音量序列各自的时间尺度进行调整。12.一种声音合成方法，在声音合成装置中使用，其特征在于，上述声音合成装置，从输入的声音数据中包含的韵律信息中提取声调信息；基于提取出的上述声调信息，将连接着多个声音片段的连接声音片段中包含的要素的至少一部分变更，基于将上述要素的至少一部分变更后的上述连接声音片段，输出合成声■~>V.曰O
【专利摘要】声音合成装置及声音合成方法。从目标韵律中提取音高频率的时间变化作为音高序列。将提取出的音高序列的各频率值用适当的粗糙度进行量化。对于量化了的音高序列，通过运算时间方向的加权移动平均而进行时间方向的平滑化，计算出被平滑化了的音高序列。结果，能够对应于细微变动的音高序列而得到具有自然的音高变化的被平滑化了的音高序列。使通过波形合成方式而被波形连接的连接声音片段的各时间的音高改变，以对应于被平滑化了的音高序列的各时间的音高的值，对于音量序列也执行同样的处理，最终输出合成音。
【IPC分类】G10L13/06, G10L13/08
【公开号】CN105719640
【申请号】CN201510968697
【发明人】田中飞雄太
【申请人】卡西欧计算机株式会社
【公开日】2016年6月29日
【申请日】2015年12月22日
【公告号】US20160180833

完整全部详细技术资料下载

当前第3页1 2 3