声音合成装置及声音合成方法

文档序号:9930269阅读:937来源:国知局
声音合成装置及声音合成方法
【专利说明】声音合成装置及声音合成方法
[0001 ] 本申请基于2014年12月22日提出的日本专利申请第2014 — 259485号主张优先权,这里引用其全部内容。
技术领域
[0002]本发明涉及声音合成装置及声音合成方法。
【背景技术】
[0003]已知有以下这样的声音合成技术:对于根据输入文本数据生成的合成目标,通过参照被电子化了的大规模的语言一声音数据即声音语料库(speech corpus),来选择声音波形的片段(日语:素片)(以下记作“声音片段”),通过将该声音片段连接而输出合成声音。
[0004](例如:
[0005][a] “CHATR:自然声音波形连接型任意声音合成系统”(自然音声波形接続型任意音声合成亍Λ),电子信息通信学会信学技法(電子情報通信学会信学技法),SP96 — 7.
[0006][b] “使用大规模语料库的声音合成系统XMERA(大規模3 —/、°只旮用V、化音声合成亍ΛΧ頂ERA)”,电子信息通信学会论文志(電子情報通信学会論文誌)D Vol.J89-DN0.12pp.2688一2698.
[0007][c]河井恒,“知识库3 — 4语料库声音合成(知識X—只3-43 —/、°只X—只音声合成)”,[online] ,ver.1/2011.1.7,电子信息通信学会(電子情報通信学会)”,[平成26年12月5 日检索],因特网〈URL:http://27.34.144.197/f iles/02/02gun_07hen_03.pdf#page =6>)
[0008]在这样的声音合成技术中,作为用来从声音语料库选择最适合于合成目标的声音片段序列的方法,以往已知有以下这样的技术(例如非专利文献3所记载的技术)。首先,按从输入文本数据提取的每个音素序列(phoneme sequences),将具有与该音素序列相同的音素序列的声音片段的数据(以下记作“片段数据”)作为片段候选数据从声音语料库中提取O接着,通过DP(Dynami c Programming:动态规划)算法,决定在输入文本数据整体中代价(cost)为最小的最优片段候选数据的组(最优片段数据序列)。作为代价,可以使用输入文本数据与声音语料库内的各片段数据间的音素序列及韵律的差异、作为片段候选数据的相邻的片段数据间的波谱包络(spectral envelope)等声学参数(acoustic parameter)(特征量向量数据)的不连续性等。
[0009]与输入文本数据对应的音素序列通过例如对输入文本数据执行形态解析(morphological analysis)处理来得到。
[0010]与输入文本数据对应的韵律(prosody)(以下将其记作“目标韵律”)是各音素的声带(vocal cord)的基本频率即音高(pitch)的高度、持续时间长及强度(音量(power))。作为该目标韵律的指定方式,有基于从输入文本数据得到的语言信息、使用基于实际的声音数据的统计模型来生成的方法(例如,匂坂芳典(匂坂芳典),“知识库3 — 7韵律的生成(知識X—只3-7韻律(7)生成)”,[online] ,ver.1/2011.1.7,电子信息通信学会(電子情報通信学会),[平成26年12月5日检索],因特网〈1]乩:11??://27.34.144.197/打168/02/0281111_07hen_03.pdf#page = 13>)。语言信息例如可以通过对输入文本数据执行形态解析处理而得到。或者,作为目标韵律的指定方式,有用户以数值进行参数输入的方法。
[0011]进而,作为目标韵律的指定方式,有通过由用户自身将文本发声等而给出的声音来指定的方法。与根据文本的推测和数值参数的调整相比,该方式有能够进行直观性的操作、能够进行感情和声调(intonat1n)的赋予等自由度高的目标韵律指定的优点。
[0012]但是,在通过用户的声音输入进行的目标韵律指定方式中有以下那样的课题。首先,由于能够指定的目标韵律的自由度增加,所以需要能够与其对应的声音片段,如果想要使充分的量一致,则声音语料库的数据库会变得巨大。此外,在用户输入的声音的目标韵律和声音数据库内的声音片段所具有的韵律中,例如有声音的高度等依存于个人的不同点,难以选择适当的声音片段。
[0013]为了解决上述课题,已知有在声音波形连接处理时通过信号处理将声音片段的以下要素修正、使其与用户输入的声音的目标韵律相适应的方法。
[0014]1.各音素的持续时间长。
[0015]2.音高(音的高低)。
[0016]3.音量(音的大小)。
[0017]但是,仅通过利用信号处理使用户输入的声音的目标韵律单纯地适应于从声音数据库选择的声音片段,会发生以下这样的问题。有在用户输入的声音的目标韵律中包含细小的音高和音量的变动的情况,如果使它们全部适应于声音片段,则由信号处理带来的音质的劣化变显著。此外,在用户输入的声音的目标韵律和声音片段的韵律(特别是音高)较大地不同的情况下,如果单纯地进行适应则合成声音的音质劣化。

【发明内容】

[0018]因此,本发明的目的在于,在波形连接方式的声音合成系统中,在通过声音输入指定目标韵律时,不需要使声音语料库的规模扩大而能够在维持高自由度的同时使合成声音的首质提尚。
[0019]在技术方案的一例中,具备处理部,该处理部执行:声调信息提取处理,从输入的声音数据中包含的韵律信息提取声调信息;以及输出处理,基于提取出的上述声调信息,将连接着多个声音片段的连接声音片段中包含的要素的至少一部分变更,基于将上述要素的至少一部分变更后的上述连接声音片段,输出合成声音。
【附图说明】
[0020]图1是声音合成装置的实施方式的框图。
[0021 ]图2是表示声音DB的数据结构例的图。
[0022]图3是表示声音合成装置的实施方式的硬件结构例的图。
[0023]图4是表示声音合成处理的例子的流程图。
[0024]图5是音高适应处理(pitch adaptat1n processing)的说明图。
[0025]图6是音量适应处理(power adaptat1n processing)的说明图。
[0026]图7是表示音高适应处理的详细例的流程图。
[0027]图8是表示音量适应处理的详细例的流程图。
【具体实施方式】
[0028]以下,参照附图对用来实施本发明的形态详细地说明。图1是声音合成装置100的实施方式的框图。声音合成装置100具备声音合成部101、声音数据库(以下记作“声音DB”)102、输入部103及输出部104。进而,声音合成部101具备文本解析模块105、韵律解析模块106、片段选择模块107、波形连接模块108、音高适应模块109、音量适应模块110及系统控制部111。此外,输入部103具备声音输入装置112及文本输入装置113。输出部104具备声音输出装置114。片段选择模块107及波形连接模块108对应于声音片段选择一连接部,音高适应模块109及音量适应模块110对应于声调信息提取部及声调适应部。
[0029]输入部103的文本输入装置113将输入文本数据输入。此外,输入部103的声音输入装置112例如被输入表示输入文本数据的输入声音数据。
[0030]声音合成部101针对根据从文本输入装置113输入的输入文本数据生成的合成目标,通过参照存储在声音DB102中的作为声音片段的集合的声音语料库来选择声音片段,通过将该声音片段连接而生成连接声音片段。
[0031 ]图2是表示存储在图1的声音DB102中的声音语料库的数据结构例的图。作为声音语料库,例如保存有下述项目的数据。
[0032].预先被录音的声音数据(图2A)。
[0033].与图2A的声音数据对应的音素标注(phoneme label)的信息(图2B)。基本上,带有该标注的图2A的声音数据的片断成为声音片段。该音素标注的信息如图2B所示,具有“开始位置”、“持续时间长”及“音素种类”的各信息。
[0034].按由一定时间T(ms:毫秒)构成的每个段,从图2A的声音数据中解析出的音高、音量、共振峰(formant)等声学信息(图2C)。段长T例如是“10” ms。
[0035]回到图1的说明,声音合成部101内的文本解析模块105,通过对文本输入装置113输入的输入文本数据执行例如形态解析处理,提取与输入文本数据对应的带有重音(accent)的音素序列。
[0036]声音合成部101内的韵律解析模块106将声音输入装置112输入的输入声音数据进行解析,提取目标韵律。
[0037]声音合成部101内的片段选择模块(声音片段选择一连接部)107,针对由从输入文本数据生成的音素序列和从输入声音数据生成的目
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1