声音合成方法、声音合成装置和存储声音合成程序的介质的制作方法

文档序号：10595510阅读：551来源：国知局

声音合成方法、声音合成装置和存储声音合成程序的介质的制作方法
【专利摘要】本发明提供了声音合成方法、声音合成装置和存储声音合成程序的介质。一种声音合成方法，用于通过提取自参考声音的语音片段的连接而产生声音信号，所述方法包括：由片段选择单元顺序地选择所述语音片段；由音高设置单元设置音高过渡，在所述音高过渡中，根据与作为所述参考声音的声产生参考的参考音高和所述片段选择单元所选择的语音片段的观测音高之间的差值相对应的音级，来反映所述语音片段的观测音高的变动；以及由声音合成单元通过根据所述音高设置单元所产生的音高过渡而调整所述片段选择单元所选择的语音片段的音高，来产生所述声音信号。
【专利说明】声音合成方法、声音合成装置和存储声音合成程序的介质
[0001]相关申请的交叉引用
[0002]本申请要求日本申请JP 2015-043918的优先权，所述申请的内容通过引用合并于本申请。
技术领域
[0003]本发明的一个或多个实施例涉及用于控制例如待合成的声音的音高的暂时性变动(下面被称作“音高过渡”)的技术。
【背景技术】
[0004]迄今，已经提出了声音合成技术，其用于对由用户在时间序列中指定的具有任意音高的歌唱声音进行合成。例如，在日本专利申请公开N0.2014-098802中，描述了一种配置，该配置通过设置与被指定为待合成对象的多个音符的时间序列相对应的音高过渡(音高曲线)、沿着音高过渡调整与声产生细节相对应的语音片段的音高、并随后使各个语音片段彼此连结，来合成歌唱声音。
[0005]作为用于产生音高过渡的技术，还存在以下配置:例如，Fujisaki发表在MacNeilage ,P.F.(Ed.)The Product1n of Speech, (Springer-Verlag，纽约，美国)的第39-55页的 “Dynamic Characteristics of Voice Fundamental Frequency in Speechand Singing”中所公开的使用Fujisaki模型的配置；以及Keiichi Tokuda发表在TheInstitute of Electronics , Informat1n and Communicat1n Engineers, TechnicalResearch Report，Vol.100,N0.392，SP2000-74，第43-50页，(2000).的“Basics of VoiceSynthesis based on HMM”中所公开的配置，该配置使用通过应用了大量声音的机器学习产生的HMM。此外，在Suni，A.S.,Aalto1D.,Rait11T.,Alku,P.,Vain1，Μ.等人发表在2013年8月31日至2013年9月2日于巴塞罗那召开的第八届语音合成ISCA工作会议会刊(8thISCA Workshop on Speech Synthesis ,Proceedings)中的 “Wavelets for Intonat1nModeling in HMM Speech Synthesis”中公开了这样的配置，其用于通过将音高过渡分解为句子、短语、词语、音节、音素(phoneme)而执行HMM的机器学习。

【发明内容】

[0006]附带地，在人类发出的实际声音中，观察到了这一现象:音高根据声产生目标的音素而在较短的时间段内显著变动(下面被称作“音素相关变动”)。例如，如图9所示，可在被发声辅音的区段(在图9的示例中，音素[m]和音素[g]的区段)以及其中进行不发声辅音和元音中的一个到另一个的过渡的区段(在图9的示例中，在其中进行从音素[k]到音素[i]的过渡的区段)中确认音素相关变动(所谓微韵律)。
[0007]在Fuj i saki发表在MacNei Iage，P.F.(Ed.) The Product1n of Speech ,(Springer-Verlag，纽约，美国)的第39-55页的 “Dynamic Characteristics of VoiceFundamental Frequency in Speech and Singing”的技术中，容易出现较长时间段期间的音高变动(例如句子)，因而难以重现各个音素单元中出现的音素相关变动。另一方面，在Keiichi Tokuda发表在The Institute of Electronics , Informat1n andCommunicat1n Engineers,Technical Research Report,Vol.100，N0.392，SP2000_74，第43-50页，(2000).的 “Basics of Voice Synthesis based on HMM” 的技术以及Suni，A.S.，Aalto1D.,Rait11T.，Alku，P.，Vain1，M.等人发表在2013年8月31 日至2013年9月2日于巴塞罗那召开的第八届语音合成ISCA工作会议会刊(8th ISCA Workshop on SpeechSynthesis ,Proceedings)的技术中，当在用于机器学习的大量声音中包括音素相关变动时，期望产生如实重现实际音素相关变动的音高过渡。然而，除音素相关变动之外的音素的简单错误也被反映在音高过渡中，这会使人担心通过使用音高过渡而合成的声音会被听众感知为走调(即，偏离开适当音高的五音不全歌唱声音)。鉴于上述情形，本发明的一个或多个实施例的目的在于，产生音高过渡，在该音高过渡中反映了音素相关变动而同时减小了对被感知为走调的担忧。
[0008]在本发明的一个或多个实施例中，一种声音合成方法用于通过提取自参考声音的语音片段的连接而产生声音信号，所述声音合成方法包括:由片段选择单元顺序地选择所述语音片段；由音高设置单元设置音高过渡，在所述音高过渡中，根据与作为所述参考声音的声产生参考的参考音高和所述片段选择单元所选择的语音片段的观测音高之间的差值相对应的音级，来反映所述语音片段的观测音高的变动；以及由声音合成单元通过根据所述音高设置单元所产生的音高过渡而调整所述片段选择单元所选择的语音片段的音高，来产生所述声音信号。
[0009]在本发明的一个或多个实施例中，一种声音合成装置被配置为通过提取自参考声音的语音片段的连接而产生声音信号，所述声音合成装置包括被配置为顺序地选择声音片段的片段选择单元。所述声音合成装置还包括:音高设置单元，其被配置为设置音高过渡，在所述音高过渡中，根据与作为所述参考声音的声产生参考的参考音高和所述片段选择单元所选择的语音片段的观测音高之间的差值相对应的音级，来反映所述语音片段的观测音高的变动；以及声音合成单元，其被配置为通过根据所述音高设置单元所产生的音高过渡而调整所述片段选择单元所选择的语音片段的音高，来产生所述声音信号。
[0010]在本发明的一个或多个实施例中，一种非暂时性计算机可读记录介质，其存储用于通过提取自参考声音的语音片段的连接而产生声音信号的声音合成程序，所述程序使得计算机充当:片段选择单元，其被配置为顺序地选择所述语音片段;音高设置单元，其被配置为设置音高过渡，在所述音高过渡中，根据与作为所述参考声音的声产生参考的参考音高和所述片段选择单元所选择的语音片段的观测音高之间的差值相对应的音级，来反映所述语音片段的观测音高的变动；以及声音合成单元，其被配置为通过根据所述音高设置单元所产生的音高过渡而调整所述片段选择单元所选择的语音片段的音高，来产生所述声音信号。
【附图说明】
[0011]图1是根据本发明的第一实施例的声音合成装置的框图。
[0012]图2是音高设置单元的框图。
[0013]图3是用于示出所述音高设置单元的操作的曲线图。
[0014]图4是用于示出参考音高和观测音高之间的差值与调整值之间的关系的曲线图。
[0015]图5是变动分析单元的操作的流程图。
[0016]图6是根据本发明的第二实施例的音高设置单元的框图。
[0017]图7是用于示出平滑处理单元的操作的曲线图。
[0018]图8是用于示出根据本发明的第三实施例的差值与调整值之间的关系的曲线图。
[0019]图9是用于不出首素相关变动的曲线图。
【具体实施方式】
[0020]〈第一实施例〉
[0021]图1是根据本发明的第一实施例的声音合成装置100的框图。根据第一实施例的声音合成装置100是被配置为产生任意歌曲(下面被称作“目标歌曲”)的歌唱声音的声音信号V的信号处理装置，并且通过包括处理器12、存储装置14和发声装置16的计算机系统实现。例如，便携式信息处理装置(例如移动电话或智能电话)或者便携式或固定式信息处理装置(例如个人计算机)可用作声音合成装置100。
[0022]存储装置14存储由处理器12执行的程序以及由处理器12使用的各种类型的数据。已知的记录介质(例如半导体记录介质或磁性记录介质)或者多种类型的记录介质的组合可任意地用作存储装置14。根据第一实施例的存储装置14存储语音片段组L和合成信息S。
[0023]语音片段组L是预先从特定发声者发出的声音(下面被称作“参考声音”)提取的多个语音片段P的一个集合(所谓声音合成库)。每个语音片段P为单个音素(例如，元音和辅音)或通过连结多个音素而获得的音素链(例如，双音或三音)。每个语音片段P被表示为时间域中的声音波形的采样序列或者频域中的频谱的时间序列。
[0024]参考声音是利用预定音高(下面被称作“参考音高”)FR作为参考而产生的声音。具体地，发声者发出参考声音，使得他/她自己的声音达到参考音高Fr。因此，每个语音片段P的音高与参考音高Fr基本匹配，但是每个语音片段P的音高可包含可归于音素相关变动的从参考音高Fr的变动等。如图1所示，根据第一实施例的存储装置14存储参考音高Fr。
[0025]合成信息S指定作为要由声音合成装置100合成的目标的声音。根据第一实施例的合成信息S是时间序列数据，其用于指定形成目标歌曲的多个音符的时间序列，并且合成信息S针对目标歌曲的每个音符指定如图1所示的音高X1、声产生周期X2以及声产生细节(声产生特性W3t3X1被指定为例如符合乐器数字接口(MIDI)标准的音符编号。声产生周期X2是持续产生所述音符的声音的周期，并且被指定为例如声产生的起始点及其持续时间(音值)。声产生细节X3是合成的声音的语音单元(具体地，所述目标歌曲的歌词的音节)。
[0026]根据第一实施例的处理器12执行存储在存储装置14中的程序，从而用作合成处理单元20，该合成处理单元20通过利用存储在存储装置14中的语音片段组L和合成信息S来产生声音信号V。具体地，根据第一实施例的合成处理单元20基于音高X1和声产生周期X2，来调整在语音片段组L之中与合成信息S在时间序列中指定的声产生细节X3相对应的各个语音片段P，并随后将各个语音片段P彼此连接，从而产生声音信号V。注意的是，可采用处理器12的各功能分布到多个装置中的配置或者声音合成专用的电子电路实现处理器12的所有功能或一部分功能的配置。图1所示的发声装置16(例如，扬声器或耳机)发出与处理器12所产生的声音信号V相对应的音响效果。注意的是，为了方便起见，省略了被配置为将声音信号V从数字信号转换为模拟信号的D/A转换器的示意。
[0027]如图1所示，根据第一实施例的合成处理单元20包括片段选择单元22、音高设置单元24和声音合成单元26。片段选择单元22顺序地选择各个语音片段P，该语音片段P对应于由合成信息S在时间序列中从存储装置14内的语音片段组L中指定的声产生细节X3。音高设置单元24设置合成的声音的音高的暂时性过渡(下面被称作“音高过渡”)C。简言之，基于合成信息S的音高X1和声产生周期X2来设置音高过渡(音高曲线)C，以便跟随由合成信息S针对每个首符指定的首尚Xi的时间序列。声首合成单兀26基于首尚设置单兀24所广生的首尚过渡C来调整由片段选择单元22顺序地选择的各语音片段P的音高，并且将已调整的各个语音片段P在时间轴上彼此连结，从而产生声音信号V。
[0028]根据第一实施例的音高设置单元24对音高过渡C进行设置，在所述音高过渡C中，音素相关变动(所述音高在短时间段内根据声产生目标的因素而变动)被反映在不会被收听者感知为走调的范围内。图2是音高设置单元24的具体框图。如图2所示，根据第一实施例的音高设置单元24包括基础设置过渡单元32、变动产生单元34以及变动添加单元36。
[0029]基础过渡设置单元32设置音高的暂时性过渡(下面被称作“基础过渡”)B，所述音高的暂时性过渡对应于由合成信息S针对每个音符而指定的音高X1。可采用任何已知的用于设置基础过渡B的方法。具体地，设置所述基础过渡B，以使得所述音高在时间轴上彼此相邻的音符之间不断变动。换言之，基础过渡B对应于形成目标歌曲的旋律的多个音符之中的音高的粗略轨迹。在参考声音中观测到的音高的变动(例如，音素相关变动)并不反映在基础过渡B中。
[0030]变动产生单元34产生变动分量A，其表示音素相关变动。具体地，根据第一实施例的变动产生单元34产生变动分量A，使得由片段选择单元22顺序地选择的语音片段P中所包含的音素相关变动被反映在变动分量A中。另一方面，在各个语音片段P中，除音素相关变动之外的音高变动(具体地，会被收听者感知为走调的音高变动)未被反映在变动分量A中。[0031 ] 变动添加单元36通过将变动产生单元34所产生的变动分量A添加至基础过渡设置单元32所设置的基础过渡B来产生音高过渡C。因此，产生了音高过渡C，在该音高过渡C中反映了各个语音片段P的音素相关变动。
[0032]相比于除音素相关变动之外的变动(下面被称作“错误变动”)，音素相关变动大略倾向于展现音高的较大变动量。考虑到上述趋势，在第一实施例中，各语音片段P之中展现出与参考音高Fr的较大音高差(随后描述为差值D)的区段中的音高变动被估计为音素相关变动，并且被反映在音高过渡C中，而展现出与参考音高Fr的较小音高差的区段中的音高变动被估计为除音素相关变动之外的错误变动，并且不被反映在音高过渡C中。
[0033]如图2所示，根据第一实施例的变动产生单元34包括音高分析单元42和变动分析单元44。音高分析单元42顺序地识别片段选择单元22所选择的每个语音片段P的音高Fv(下面被称作“观测音高”)。按照足够短于语音片段P的时间长度的周期，顺序地识别观测音高Fv。可采用任何已知的音高检测技术来识别观测音高Fv。
[0034]图3是用于示出观测音高Fv与参考音高Fr(_700森特(cent))之间的关系的曲线图，为了方便起见，通过假设以西班牙语发出的参考声音的多个音素的时间序列([n]、[a]、[B]、[D]和[ο])来示出所述关系。在图3中，为了方便起见，还示出了参考声音的声音波形。参照图3，可确认这样的趋势:观测音高Fv以各音素之中不同的音级降至参考音高Fr之下。具体地，在音素[B]和[D]作为发声的辅音的各个区段中，相比于音素[η]作为另一个发声的辅音以及音素[a]或[O]作为元音的区段，观测音高Fv相对于参考音高Fr的变动可以更加明显地观测到。音素[B]和[D]的区段中的观测音高Fv的变动为音素相关变动，而音素[n]、[a]和
[O]的区段中的观测音高Fv的变动为错误变动。换言之，还可从图3中确认上文提到的这一趋势:音素相关变动比错误变动展现出更大的变动量。
[0035]图2所示的变动分析单元44产生当语音片段P的音素相关变动被估计时获得的变动分量A。具体地，根据第一实施例的变动分析单元44计算存储在存储装置14中的参考音高Fr与由音高分析单元42识别的观测音高Fv之间的差值D(D = Fr-Fv),并且将差值D乘以调整值α，从而产生变动分量A(A = aD = a(FR_Fv))。根据第一实施例的变动分析单元44根据差值D可变地设置调整值a，以重现上文提到的这一趋势:将展现出较大差值D的区段中的音高变动估计为音素相关变动并且将其反映在音高过渡C中，而将展现出较小差值D的区段中的音高变动估计为除音素相关变动之外的错误变动并且未将其反映在音高过渡C中。简言之，变动分析单元44计算调整值a，使得调整值a随着差值D变大(S卩，音高变动更有可能是音素相关变动)而增加(即，音高变动更为主导地反映在音高过渡C中)。
[0036]图4是用于示出差值D和调整值a之间的关系的曲线图。如图4所示，差值D的数值范围被分为第一范围R1、第二范围R2和第三范围R3,其中以预定阈值Dth1和预定阈值Dth2设为边界。阈值Dth2是超过阈值Dthi的预定值。第一范围Ri是降至阈值Dthi以下的范围，第二范围R2是超过阈值Dth2的范围。第三范围R3是阈值Dthi与阈值Dth2之间的范围。经验性地或统计地预先选择阈值Dthi和阈值DTH2，使得差值D在观测音高Fv的变动是音素相关变动时成为第二范围R2内的数值，并且差值D在观测音高Fv的变动是除音素相关变动之外的错误变动时成为第一范围Ri内的数值。在图4的示例中，假设这样的情况，其中将阈值Dthi设为近似170森特，并将阈值Dth2设为近似220森特。当差值D为200森特(在第三范围R3内)时，调整值a被设为0.6。
[0037]如同根据图4理解的那样，当参考音高Fr与观测音高Fv之间的差值D是第一范围R1内的数值(即，当观测音高Fv的变动被估计为错误变动)时，将调整值a设为最小值O。另一方面，当差值D是第二范围R2内的数值(即，当观测音高Fv的变动被估计为音素相关变动)时，将调整值a设为最大值I。此外，当差值D是第三范围R3内的数值时，将调整值a设为在大于或等于O且小于或等于I的范围内的对应于差值D的值。具体地，调整值a与第三范围R3内的差值D成正比。
[0038]如上所述，根据第一实施例的变动分析单元44通过将差值D与上述条件下设置的调整值a相乘而产生变动分量A。因此，当差值D是第一范围R1内的数值时将调整值a设为最小值0，从而使变动分量A为0，并且禁止观测音高Fv的变动(错误变动)被反映在音高过渡C中。另一方面，当差值D是第二范围R2内的数值时将调整值a设为最大值I，从而产生与观测音高Fv的音素相关变动相对应的差值D作为变动分量A，其结果为观测音高Fv的变动被反映在音高过渡C中。如同根据以上描述理解的那样，调整值a的最大值I意指观测音高Fv的变动被反映在变动分量A中(作为音素相关变动而被提取)，而调整值a的最小值O意指观测音高Fv的变动未被反映在变动分量A中(作为错误变动而被忽略)。注意的是，就元音音素而言，观测音高Fv与参考音高Fr之间的差值D降至阈值Dthi以下。因此，元音的观测音高Fv的变动(除音素相关变动之外的变动)未被反映在音高过渡C中。
[0039]图2所示的变动添加单元36通过将由变动产生单元34(变动分析单元44)根据上述过程产生的变动分量A添加至基础过渡B来产生音高过渡C。具体地，根据第一实施例的变动添加单元36从基础过渡B中减去变动分量A，从而产生音高过渡C(C = B-A)。在图3中，同时用虚线表示在为方便起见而将基础过渡B假设为参考音高Fr时获得的音高过渡C。如同根据图3理解的那样，在音素[n]、[a]和[O]的各区段的大部分中，参考音高Fr与观测音高Fv之间的差值D降至阈值Dthi以下，因此在音高过渡C中，观测音高Fv的变动(即，错误变动)得到充分抑制。另一方面，在音素[B]和[D]的各区段的大部分中，差值D超过阈值DTH2，因此观测音高Fv的变动(即，音素相关变动)也在音高过渡C中如实保持。如同根据以上描述理解的那样，根据第一实施例的音高设置单元24设置音高过渡C，使得与差值D是第一范围R1内的数值时相比，语音片段P的观测音高Fv的变动所反映的音级在差值D是第二范围1?2内的数值时变得更大。
[0040]图5是变动分析单元44的操作的流程图。每当音高分析单元42对由片段选择单元22顺序地选择的每个语音片段P的观测音高Fv进行识别时，执行图5所示的过程。当图5所示的过程开始时，变动分析单元44计算存储在存储装置14中的参考音高Fr与由音高分析单元42识别的观测音高Fv之间的差值D(SI)。
[0041]变动分析单元44设置对应于差值D的调整值a(S2)。具体地，在存储装置14中存储参照图4描述的用于表不差值D与调整值a之间的关系的函数(诸如阈值Dthi和阈值Dth2之类的变量)，并且变动分析单元44使用存储在存储装置14中的函数来设置对应于差值D的调整值a。然后，变动分析单元44将差值D乘以调整值a，从而产生变动分量A(S3)。
[0042]如上所述，在第一实施例中，设置音高过渡C，在所述音高过渡C中利用与参考音高Fr和观测音高Fv之间的差值D相对应的音级来反映观测音高Fv的变动，因而可产生如实重现参考声音的音素相关变动的音高过渡，同时减少了合成的声音会被感知为走调的担忧。特别地，第一实施例的有利之处在于:由于将变动分量A添加至与通过合成信息S在时间序列中指定的音高X1相对应的基础过渡B，因此可在保持目标歌曲的旋律的同时重现音素相关变动。
[0043]此外，第一实施例实现了以下显著效果:可通过诸如将要应用于调整值a的设置的差值D乘以调整值a之类的简单过程，来产生变动分量A。特别地，在第一实施例中，设置调整值a，以使其在差值D在第一范围R1内时变为最小值O，使其在差值D在第二范围R2内时变为最大值I，并且使其在差值D在第一范围与第二范围之间的第三范围R3内时变为根据差值D而变动的数值，因此与例如将包括指数函数的多种函数应用于调整值a的设置的配置相比，上文提及的效果为变动分量A的产生过程变得更为简单。
[0044]〈第二实施例〉
[0045]将描述本发明的第二实施例。注意的是，在下文示出的每个实施例中，具有与第一实施例中的组件的行为或功能相同的行为或功能的组件同样用第一实施例的描述所用的附图标记表示，并且适当地省略了相应组件的详细描述。
[0046]图6是根据第二实施例的音高设置单元24的框图。如图6所示，通过将平滑处理单元45添加至根据第一实施例的变动产生单元34来配置根据第二实施例的音高设置单元24。平滑处理单元46在时间轴上对变动分析单元44所产生的变动分量A进行平滑化。可采用任何已知技术来对变动分量A进行平滑化(抑制暂时性变动)。另一方面，变动添加单元36通过将已被平滑处理单元46平滑化的变动分量A添加至基础过渡B来产生音高过渡C。
[0047]在图7中，假设与图3所示的音素相同的音素的时间序列，并且以虚线表示每个语音片段P的观测音高Fv被根据第一实施例的变动分量A校正的音级(校正量)的时间变化。换言之，图7的纵轴所表示的校正量对应于参考声音的观测音高Fv与在基础过渡B保持在参考音高Fr时获得的音高过渡C之间的差值。因此，如图3与图7的对比中的理解，在被估计为展现错误变动的音素[n]、[a]和[O]的区段中校正量增加，而在被估计为展现音素相关变动的音素[B]和[D]的区段中校正量被抑制到接近O。
[0048]如图7所示，在第一实施例的配置中，校正量会紧随每个音素的起始点之后急剧变动，这会使人担心重现声音信号V的合成的声音可能被感知为带给听众不自然的感觉。另一方面，图7的实线对应于根据第二实施例的校正量的时间变化。如根据图7的理解，在第二实施例中，平滑处理单元46对变动分量A进行平滑化，从而与第一实施例相比更大程度地抑制了音高过渡C的骤然变动。这带来了以下优点:减少了合成的声音可能被感知为带给听众不自然的感觉的担忧。
[0049]〈第三实施例〉
[0050]图8是用于示出根据本发明第三实施例的差值D与调整值α之间的关系的曲线图。如图8中的箭头所示，根据第三实施例的变动分析单元可变地对确定差值D的范围的阈值Dthi和阈值Dth2进行设置。如同根据第一实施例的描述理解的那样，调整值α可能会随着阈值Dth1和阈值Dth2变小而被设置为更大的数值(例如，最大值I)，从而使语音片段P的观测音高Fv的变动(音素相关变动)变得更有可能被反映在音高过渡C中。另一方面，调整值α可能会随着阈值Dthi和阈值Dth2变大而被设置为更小的数值(例如，最小值O)，从而使语音片段P的观测音高Fv的变动变得更不可能被反映在音高过渡C中。
[0051]顺便提及，取决于音素类型，被听众感知为走调(五音不全)的音级存在差异。例如，存在这样的趋势:只要当音高相比于目标歌曲的原始音高X1稍有差异时，诸如音素[η]的发声的辅音就会被感知为走调；而即使当音高相比于原始音高X1存在差异时，诸如音素[V]、[ ζ ]和[j ]的发声的摩擦音几乎不会被感知为走调。
[0052]考虑到听众感知特性取决于音素类型的差异，根据第三实施例的变动分析单元44依据由片段选择单元22顺序地选择的语音片段P的每个音素的类型，可变地设置差值D与调整值α之间的关系(具体地，阈值Dth1和阈值DTH2)。具体地，就倾向于被感知为走调的那类音素(例如，[η])而言，通过将阈值Dth1和阈值Dth2设置为较大的数值，使在音高过渡C中观测音高Fv的变动(错误变动)所反映的音级减小。同时，就倾向于很难被感知为走调的那类音素(例如，[v]、[z]或[j])而言，通过将阈值Dth1和阈值Dth2设置为较小的数值，使在音高过渡C中观测音高Fv的变动(音素相关变动)所反映的音级增加。可通过变动分析单元44参照例如被添加至语音片段组L的每个语音片段P的属性信息(用于指定每个音素的类型的信息)来识别形成语音片段P的每个音素的类型。
[0053]另外，在第三实施例中，实现了与第一实施例相同的效果。此外，在第三实施例中，可变地控制差值D与调整值α之间的关系，这带来了以下优点:在音高过渡C中反映每个语音片段P的观测音高Fv的变动的音级可以被适当地调整。此外，在第三实施例中，根据语音片段P的每个音素的类型来控制差值D与调整值α之间的关系，因而可如实重现参考声音的音素相关变动，同时显著减少了被合成的声音会被感知为走调的担忧。注意的是，第二实施例的配置可应用于第三实施例。
[0054]〈修改例〉
[0055]可按各种不同的方式修改以上示出的每个实施例。下面示出了具体修改的各个实施例。还可以适当地组合从下面的示例中任意选择的至少两个实施例。
[0056](I)在上述每个实施例中，示出了音高分析单元42对每个语音片段P的观测音高Fv进行识别的配置，但是观测音高Fv可针对每个语音片段P预先存储在存储装置14中。在观测音高Fv存储在存储装置14的配置中，可省略上述每个实施例中示出的音高分析单元42。
[0057](2)在上述每个实施例中，示出了调整值α根据差值D以直线变动，但是差值D与调整值α之间的关系可以任意设置。例如，可采用调整值α相对于差值D以曲线变动的配置。可以任意改变调整值α的最大值和最小值。此外，在第三实施例中，可根据语音片段P的音素类型来控制差值D与调整值α之间的关系，但是变动分析单元44可基于例如用户给出的指令来改变差值D与调整值α之间的关系。
[0058](3)还可利用用于通过通信网络(例如移动通信网络或互联网)向/从终端装置通信的服务器装置来实现声音合成装置100。具体地，从终端装置通过通信网络接收的声音合成信息S按照与第一实施例相同的方式指定合成的声音，声音合成装置100产生该合成的声音的声音信号V，并将声音信号V通过通信网络发送至终端装置。此外，例如，可采用以下配置:语音片段组L被存储在与声音合成装置100分离提供的服务器装置中，并且声音合成装置100从服务器装置获取对应于合成信息S内的声产生细节X3的每个语音片段P。换言之，声音合成装置100持有语音片段组L的配置并不是必要的。
[0059]注意的是，根据本发明优选模式的声音合成装置是被配置为通过提取自参考声音的语音片段的连接而产生声音信号的声音合成装置，所述声音合成装置包括:片段选择单元，其被配置为顺序地选择所述语音片段;音高设置单元，其被配置为设置音高过渡，在所述音高过渡中，根据与作为所述参考声音的声产生参考的参考音高和所述片段选择单元所选择的语音片段的观测音高之间的差值相对应的音级，来反映所述语音片段的观测音高的变动；以及声音合成单元，其被配置为通过根据所述音高设置单元所产生的音高过渡而调整所述片段选择单元所选择的语音片段的音高，来产生所述声音信号。在上述配置中，设置这样的音高转换:在其中利用与参考音高和语音片段的观测音高之间的差值相对应的音级来反映语音片段的观测音高的变动，所述参考音高为参考声音的声产生的参考。例如，音高设置单元设置所述音高过渡，以使得与所述差值为特定数值的情况相比，在所述音高过渡中所述语音片段的观测音高的变动所反映的音级在所述差值超过所述特定数值时变大。这带来了以下优点:能够产生重现音素相关变动的音高过渡，同时减少了对被听众感知为走调(即，五音不全)的担忧。
[0060]在本发明的优选模式中，音高设置单元包括:基础过渡设置单元，其被配置为设置基础过渡，所述基础过渡对应于待合成的目标的音高的时间序列;变动产生单元，其被配置为通过将参考音高与观测音高之间的差值乘以与参考音高与所述观测音高之间的差值相对应的调整值，来产生变动分量；以及变动添加单元，其被配置为将所述变动分量添加至所述基础过渡。在上述模式中，通过将所述差值乘以与参考音高和观测音高之间的差值相对应的调整值而获得的变动分量被添加至与待合成的目标的音高的时间序列相对应的基础过渡，这带来了以下优点:可在保持待合成目标的音高过渡(例如，歌曲的旋律)的同时重现音素相关变动。
[0061]在本发明的优选模式中，变动产生单元设置调整量，以使其在所述差值为降至第一阈值以下的第一范围内的数值时成为最小值，使其在所述差值为超过第二阈值(其大于第一阈值)的第二范围内的数值时成为最大值，并且使其在所述差值为处于第一阈值与第二阈值之间的数值时成为根据不同的差值而在最小值与最大值之间的范围内变动的数值。在上述模式中，以简单的方式定义差值与调整值之间的关系，这带来了使调整值的设置(即，变动分量的产生)简化的优点。
[0062]在本发明的优选模式中，变动产生单元包括被配置为对变动分量进行平滑化的平滑处理单元，并且变动添加单元将已平滑化的变动分量添加至基础过渡。在上述模式中，对变动分量进行平滑化，从而合成的声音的音高的骤然变动被抑制。这带来了以下优点:可产生带给听众自然感觉的合成的声音。例如，上述模式的具体示例在上文中被描述为第二实施例。
[0063]在本发明的优选模式中，变动产生单元可变地控制差值与调整值之间的关系。具体地，变动产生单元根据片段选择单元所选择的语音片段的音素类型来控制差值与调整值之间的关系。上述模式带来了以下优点:可以适当地调整在音高过渡中反映各语音片段的观测音高的变动的音级。例如，上述模式的具体示例在上文中被描述为第三实施例。
[0064]根据上述每个实施例的声音合成装置通过诸如数字信号处理器(DSP)的硬件(电子电路)实现，并且还可以以通用处理器单元(例如中央处单元(CPU))与程序合作的方式实现。根据本发明的程序可通过以存储在计算机可读记录介质中的形式提供而安装在计算机上。例如，所述记录介质为非暂时性存储器，其优选示例包括诸如CD-ROM的光学记录介质(光盘)，并且可包含任意格式的已知记录介质，例如半导体记录介质或磁性记录介质。例如，根据本发明的程序可通过以在通信网络上分布的形式提供而安装在计算机上。此外，本发明还可被定义为根据上述每个实施例的声音合成装置的操作方法(声音合成方法)。
[0065]虽然已经描述了当前被视为本发明特定实施例的内容，但是应当理解，可对其进行各种不同的修改，并且其意图在于，所附权利要求将所有这样的修改覆盖为落入本发明的真实精神和范围内。
【主权项】
1.一种声音合成方法，其用于通过提取自参考声音的语音片段的连接而产生声音信号，所述声音合成方法包括: 由片段选择单元顺序地选择所述语音片段；由音高设置单元设置音高过渡，在所述音高过渡中，根据与作为所述参考声音的声产生参考的参考音高和所述片段选择单元所选择的语音片段的观测音高之间的差值相对应的音级，来反映所述语音片段的观测音高的变动；以及由声音合成单元通过根据所述音高设置单元所产生的音高过渡而调整所述片段选择单元所选择的语音片段的音高，来产生所述声音信号。2.根据权利要求1所述的声音合成方法，其中，所述音高过渡的设置包括:对所述音高过渡进行设置，使得与所述差值为特定数值的情况相比，在所述音高过渡中所述语音片段的观测音高的变动所反映的音级在所述差值超过所述特定数值时变大。3.根据权利要求1所述的声音合成方法，其中，所述音高过渡的设置包括: 由基础过渡设置单元设置基础过渡，所述基础过渡对应于待合成的目标的音高的时间序列；由变动产生单元通过将所述参考音高与所述观测音高之间的差值和与所述参考音高与所述观测音高之间的差值相对应的调整值相乘，来产生变动分量;以及由变动添加单元将所述变动分量添加至所述基础过渡。4.根据权利要求3所述的声音合成方法，其中，所述变动分量的产生包括:当所述差值为低于第一阈值的第一范围内的数值时，对所述调整值进行设置以使其成为最小值；当所述差值为超过比所述第一阈值更大的第二阈值的第二范围内的数值时，对所述调整值进行设置以使其成为最大值；以及当所述差值为所述第一阈值与所述第二阈值之间的数值时，对所述调整值进行设置，以使其成为根据所述最小值与所述最大值之间的范围内的差值而变动的数值。5.根据权利要求3所述的声音合成方法，其中: 所述变动分量的产生包括:由平滑处理单元对所述变动分量进行平滑化;并且所述变动分量的添加包括:将已平滑化的变动分量添加至所述基础过渡。6.一种声音合成装置，其被配置为通过提取自参考声音的语音片段的连接而产生声音信号，所述声音合成装置包括: 片段选择单元，其被配置为顺序地选择所述语音片段；音高设置单元，其被配置为设置音高过渡，在所述音高过渡中，根据与作为所述参考声音的声产生参考的参考音高和所述片段选择单元所选择的语音片段的观测音高之间的差值相对应的音级，来反映所述语音片段的观测音高的变动；以及声音合成单元，其被配置为通过根据所述音高设置单元所产生的音高过渡而调整所述片段选择单元所选择的语音片段的音高，来产生所述声音信号。7.根据权利要求6所述的声音合成装置，其中，所述音高设置单元还被配置为:对所述音高过渡进行设置，使得与所述差值为特定数值的情况相比，在所述音高过渡中所述语音片段的观测音高的变动所反映的音级在所述差值超过所述特定数值时变大。8.根据权利要求6所述的声音合成装置，其中，所述音高设置单元包括: 基础过渡设置单元，其被配置为设置基础过渡，所述基础过渡对应于待合成的目标的首尚的时间序列；变动产生单元，其被配置为通过将所述参考音高与所述观测音高之间的差值和与所述参考音高与所述观测音高之间的差值相对应的调整值相乘，来产生变动分量;以及变动添加单元，其被配置为将所述变动分量添加至所述基础过渡。9.根据权利要求8所述的声音合成装置，其中，所述变动产生单元还被配置为:当所述差值为低于第一阈值的第一范围内的数值时，将所述调整值设置为最小值；当所述差值为超过比所述第一阈值更大的第二阈值的第二范围内的数值时，将所述调整值设置为最大值；以及当所述差值为处于所述第一阈值与所述第二阈值之间的数值时，将所述调整值设置为根据所述最小值与所述最大值之间的范围内的差值而变动的数值。10.根据权利要求8所述的声音合成装置，其中: 所述变动产生单元包括平滑处理单元，该平滑处理单元被配置为对所述变动分量进行平滑化;并且所述变动添加单元还被配置为将已平滑化的变动分量添加至所述基础过渡。11.一种存储声音合成程序的非暂时性计算机可读记录介质，所述声音合成程序用于通过提取自参考声音的语音片段的连接而产生声音信号，所述程序使得计算机充当: 片段选择单元，其被配置为顺序地选择所述语音片段；音高设置单元，其被配置为设置音高过渡，在所述音高过渡中，根据与作为所述参考声音的声产生参考的参考音高和所述片段选择单元所选择的语音片段的观测音高之间的差值相对应的音级，来反映所述语音片段的观测音高的变动；以及声音合成单元，其被配置为通过根据所述音高设置单元所产生的音高过渡而调整所述片段选择单元所选择的语音片段的音高，来产生所述声音信号。
【文档编号】G10L13/02GK105957515SQ201610124952
【公开日】2016年9月21日
【申请日】2016年3月4日
【发明人】才野庆二郎, 若尔迪·博纳达, 梅利因·布洛乌
【申请人】雅马哈株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：才野庆二郎;若尔迪·博纳达;梅利因·布洛乌;
技术所有人：雅马哈株式会社;
我是此专利的发明人

上一篇：多语音识别模型切换方法及装置的制造方法
上一篇：一种便携式聋哑人交流设备的制造方法