语音合成方法和语音合成设备的制作方法

文档序号：2826425阅读：225来源：国知局

语音合成方法和语音合成设备的制作方法
【专利摘要】本公开提供了一种语音合成方法和语音合成设备，该语音合成设备包括：第一接收器，其构造为接收通过检测用户对操作部件执行的操作的开始而生成的第一发声控制信息；第一合成器，其构造为响应于所述第一发声控制信息的接收而合成与要合成的语音的音素序列中的第一音素对应的第一语音，并输出所述第一语音；第二接收器，其构造为接收通过检测对所述操作部件的操作的完成或对不同操作部件的操作而生成的第二发声控制信息；以及第二合成器，其构造为响应于所述第二发声控制信息的接收而合成至少包括所述要合成的语音的所述第一音素和所述第一音素之后的后续音素的第二语音，以及输出所述第二语音。
【专利说明】语音合成方法和语音合成设备
【技术领域】
[0001]本公开涉及语音合成技术，更具体地，涉及实时语音合成技术。
【背景技术】
[0002]语音合成技术应用广泛，其中，使用多种合成信息通过电信号处理来合成代表语音指导中的指导语音、文学作品朗读语音、歌曲演唱语音等的语音信号。例如，在歌声合成的情况下，作为合成信息，使用诸如这样的音乐表达信息:表不构成作为歌声合成对象的歌曲的旋律的各音符的音高和持续时间的信息，以及代表与各音符合拍地发声的歌词的音素序列。在合成语音指导中的指导语音或文学作品朗读语音的语音信号的情况下，代表指导句子或文学作品的句子的音素的信息以及代表诸如语调和重音之类的韵律变化的信息被用作合成信息。常规地，对于该类型的语音合成，所谓的批量处理方法比较常见，其中，提前将与合成对象的整个语音相关的各种合成信息全部输入至语音合成设备，然后基于那些合成信息在一个批处理中生成代表合成对象的整个语音的语音波形的语音信号。然而，近年来，已提出了一种实时语音合成技术(例如，见JP-B-3879402)。
[0003]实时语音合成的示例是通过以下方式来合成歌声的技术:预先将代表整个歌曲的歌词的音素序列的信息输入至歌声合成设备，并通过操作与钢琴键盘类似的键盘来顺序地指定发出歌词时的音高等。近年来，还提出以音符为单位通过以下方式执行歌声合成:针对每个音符，让用户使用歌声合成键盘顺序地输入代表音高的音符信息和代表与音符合拍地发声的歌词部分的音素序列的音素序列信息，其中，歌声合成键盘中并排布置了音素信息输入部分和与钢琴键盘类似的音符信息输入部分，音素信息输入部分中布置了用于输入构成歌词音素序列的音素(元音和辅音)的操作部件。
[0004]当代表整个歌曲的歌词的音素序列的信息预先存储在歌声合成设备中以执行实时歌声合成时，有时会合成迟疑且不自然的歌声，就好像歌词的发声相对于乐谱有延迟。发生这种迟疑的原因如下:
[0005]图5A是示出当人演唱由元音和辅音构成的与音符合拍的歌词部分时，每个音素的发声定时的示例的示图。在图5A中，音符由五线谱上示出的矩形N表示，在该矩形中示出了与歌词同时地唱出的该歌词部分。如图5A所示，当人演唱由元音和辅音构成的与音符合拍的歌词部分时，通常人会在与乐谱上的发声定时对应的时间Tl之前的时间TO处开始该部分的发声(图5A和图5B中的符号#代表静音；其同样适用于图3)，并且在时间Tl处发出元音和辅音的边界部分。
[0006]同样地，在使用与钢琴键盘类似的键盘进行实时歌声合成时，如图5B所示，通常用户在乐谱上的音符位置之前的时间TO处用手指F开始按下用于指定音高的键K，然后在时间Tl处完全按下键K。然而，这种键盘一般被构造为在键被完全按下的时间点处输出代表音高的信息(或者输出代表音高的信息和代表与按键速度对应的速度的信息)，当键被完全按下时(时间Tl)才实际上输出代表音高的信息。另一方面,在歌声合成设备中,直到音素序列信息和代表音高的信息都被获取时才开始歌声合成。即使合成处理所需的时间短到可以忽略不计，仍要到时间Tl处才开始歌声的输出，开始按下键K与完全按下键K之间的时间滞后(Tl-TO)表现为上述迟疑。当让用户针对每个音符顺序地输入歌词部分和音高从而执行歌声合成时以及当执行指导语音或朗读语音的合成时也会出现同样的情况。
[0007]本公开鉴于上述问题做出，其目的是提供一种实现无迟疑的自然语音的实时合成的技术。

【发明内容】

[0008]为了实现以上目的，根据本公开，提供了一种语音合成方法，包括:
[0009]第一接收步骤，用于接收通过检测用户对操作部件执行的操作的开始而生成的第一发声控制信息；
[0010]第一合成步骤，用于响应于所述第一发声控制信息的接收来合成与要合成的语音的音素序列中的第一音素对应的第一语音，并输出所述第一语音；
[0011]第二接收步骤，用于接收通过检测对所述操作部件的操作的完成或对不同操作部件的操作而生成的第二发声控制信息；以及
[0012]第二合成步骤，用于响应于所述第二发声控制信息的接收来合成至少包括所述要合成的语音的所述第一音素和所述第一音素之后的后续音素在内的第二语音，并输出所述
第二语音。
[0013]作为响应于第二发声控制信息的接收的语音输出的示例，可以考虑以下示例--第一不例，其中合成并输出从由音素序列信息表不的音素序列中的第一音素至后续音素的过渡部分之后的部分的语音；以及第二示例，其中合成并输出重复地发出该过渡部分的语音(或者以各个过渡部分之间具有一个或多个静音的方式来重复地发出该过渡部分的语音)或者连续地发出该过渡部分的语音。
[0014]根据以上语音合成方法，响应于开始操作让用户提供开始发出语音的指令的操作部件，开始输出从静音到第一音素的过渡部分(例如，在从静音状态到开始唱^ ^[saita] ”的情况下，从静音到辅音s的过渡部分)的语音，使得基本上消除了开始操作操作部件与开始发出合成语音之间的时间滞后，并且可以实时地合成不迟疑的语音。同样地，对于(saita)”的(ta)”部分的语音的合成，响应于开始操作让用户提供开始发声的指令的操作部件，开始输出从在前音素(本示例中，元音i)至由该部分的音素序列信息表示的第一音素(在本示例中，辅音t)的过渡部分的语音，使得可以基本上消除开始操作操作部部件与开始发出合成语音之间的时间滞后，并且合成不迟疑的语音。可以通过完成对该操作部件的操作(例如，完全地按下该操作部件)或者对不同的操作部件的操作，来调节从第一音素至后续音素的过渡部分(在歌词部分由辅音和元音构成的情况下，从辅音至元音的过渡部分)的输出定时，使得可以合成准确地再现人类歌唱的特性的自然的歌声。当音素序列信息代表一个音素(例如，元音)时，可以响应于第一发声控制信息的接收来执行语音合成，或者可以在第二发声控制信息的接收之后执行语音合成。
【专利附图】

【附图说明】
[0015]通过参照附图具体描述本公开的优选实施例，本公开的以上目的和优势将变得更加清楚，其中[0016]图1是示出本公开的一个实施例的歌声合成设备的构造示例的示图；
[0017]图2是用于说明根据本公开的一个实施例的歌声合成处理的示例的流程图；
[0018]图3是用于说明歌声合成设备I的操作的示图；
[0019]图4是用于说明根据本公开的实施例的歌声合成处理的另一示例的流程图；
[0020]图5A和图5B是用于说明相关技术的实时歌声合成技术的问题的示图。
【具体实施方式】
[0021]在下文中，将描述本公开的实施例。
[0022](A:实施例)
[0023]图1示出作为本公开的语音合成设备的一个实施例的歌声合成设备I的结构示例的框图。该歌声合成设备I是通过以下方式执行实时歌声合成的设备:让用户顺序地输入多种合成信息(代表与音符合拍地发声的歌词音素序列的音素序列信息、代表音符的音高的信息等)然后使用那些合成信息。如图1所示，歌声合成设备I包括控制部110、操作部120、显示器130、语音输出部140、外部装置接口(在下文中简称“I/F”)部150、存储部160、以及作为这些元件之间的数据接收和发送的媒介的总线170。
[0024]控制部110例如是CPU (中央处理单元)。控制部110根据存储在存储部160中的歌声合成程序进行操作，从而起到基于上述多种合成信息来合成歌声的语音合成单元的作用。控制部110根据歌声合成程序所执行的处理的细节将在稍后阐明。尽管在本实施例中将CPU用作控制部110，但要注意的是还可以使用DSP (数字信号处理器)。
[0025]操作部120是上述歌声合成键盘,并且具有音素信息输入部和音符信息输入部。通过对操作部120进行操作，歌声合成设备I的用户可以指定作为歌声合成对象的歌曲的旋律中包括的音符以及与该音符合拍地发声的歌词部分的音素序列。例如，当指定歌词的“芒(sa) ”时，接连按下设在音素信息输入部分上的多个操作部件中的与辅音“s”对应的操作部件和与元音“a”对应的操作部件，并且当将“C4”指定为与该部分歌词对应的音符的音高时，按下设在音符信息输入部分上的多个操作部件(键)中的与该音高对应的键，以指定其发声的开始，然后将手指从该键上移开，以指定发声的结束。也就是，键被按下所持续的时间长度为该音符的持续时间。此外，通过与该音符对应的按键速度，用户可以指定当部分歌词与音符合拍地发声时的语音的强度(速度)。作为能够通过按键速度指定语音速度的布置，可以采用相关技术的电子键盘乐器中的布置。
[0026]当执行指定音素序列的操作时，操作部120的音素信息输入部(图1中未示出)向控制部110提供代表音素序列的音素序列信息。另一方面，操作部120的音符信息输入部为了使每个操作部件指定音高(在本实施例中，操作部件类似于钢琴键盘的键)，包括检测操作部件的按压开始的第一传感器121以及检测操作部件已完全按下的第二传感器122。作为第一传感器121和第二传感器122，可以使用各种各样类型的传感器，例如，机械传感器、压敏传感器或光学传感器。必要的仅是，第一传感器121是检测已将键按至超过预定阈值的深度的传感器，以及第二传感器122是检测键已完全按下的传感器。
[0027]例如,可以采用二步程开关(two-make switch)来作为第一传感器和第二传感器。在美国专利5，883，327中公开了二步程开关的一个示例。在美国专利5，883，327的图1A中，触点9、11对应于第一传感器，触点10、12对应于第二传感器。[0028]当通过第一传感器121检测到键按下的开始时，操作部120的音符信息输入部向控制部Iio提供音符开(note-on)事件(MIDI [乐器数字接口 ]事件)作为提供开始发声的指令的第一发声控制信息，该音符开(note-on)事件包括代表与该键对应的音高的音高信息(例如，音符编号)。当通过第二传感器122检测到已由第一传感器121检测到其按下的开始的操作部件的完全按下时，音符信息输入部分向控制部HO提供音符开事件作为第二发声控制信息，该音符开事件包括与该键对应的音高信息以及与从第一传感器121检测到按下的开始到第二传感器122检测到完全按下所需的时间长度相对应的速度值。然后，当通过第二传感器122检测到从完全按下位置的返回时，音符信息输入部分向控制部110提供用于提供停止发声的指令的第三发声控制信息(在本实施例中，为音符关事件)。第二发声控制信息中包括的信息不限制于指定发声强度(速度)的信息；而可以是指定音量或者可以是指定速度和音量两者的信息。
[0029]显示器130例如是液晶显示器及其驱动电路，并且在控制部110的控制下显示诸如菜单图像之类的用于提示歌声合成设备I的使用的各种图像。如图1所示，语音输出部140包括D/A转换器142、放大器144和扬声器146。D/A转换器142对从控制部110提供的数字语音数据(代表合成歌声的语音波形的语音数据)进行D/A转换，并将得到的模拟语音信号提供给放大器144。放大器144将从D/A转换器142提供的语音信号的电平(S卩，音量)放大至适合于扬声器驱动的电平，并将得到的信号提供至扬声器146。扬声器146将从放大器144提供的语音信号作为语音输出。
[0030]外部装置I/F部150是诸如USB (通用串行总线)接口和音频接口之类的用于将其它外部装置连接至歌声合成设备I的接口的集合。尽管在本实施例中描述了歌声合成键盘(操作部120)和语音输出部140是歌声合成设备I的元件的情况，但要注意的是，歌声合成键盘和语音输出部140可以是连接至外部装置I/F部150的外部装置。
[0031]存储部160包括非易失性存储部162和易失性存储部164。非易失性存储部162由诸如ROM (只读存储器)、闪速存储器或硬盘之类的非易失性存储器形成，而易失性存储部164由诸如RAM (随机读取存储器)之类的易失性存储器形成。易失性存储部164被控制部110用作执行各种程序的工作区。另一方面，如图1所示，非易失性存储部162预先存储歌声合成库162a和歌声合成程序162b。
[0032]歌声合成库162a是存储代表各种音素和双音素(从音素到不同音素(包括静音)的过渡)的语音波形的片段数据的数据库。歌声合成库162a可以是除了存储单音素和双音素外还存储三音素的片段数据的数据库，或者可以是存储语音波形的音素的平稳部分和过渡至其它音素的部分(过渡部分)的数据库。歌声合成程序162b是使控制部110使用歌声合成库162a执行歌声合成的程序。根据歌声合成程序162b运行的控制部110执行歌声合成处理。
[0033]歌声合成处理是基于多种合成信息(音素序列信息、音高信息、代表语音的速度和音量的信息等)来合成代表歌声的语音波形的语音数据以及输出该语音数据的处理。
[0034]将参照图2描述关于歌声合成处理的示例的说明。在图2中，在步骤S201处，判定控制部110是否接收到音素序列信息和第一发声控制信息两者。若控制部110 (第一接收器)在步骤S201处接收到音素序列信息和第一发声控制信息两者，则处理进行至步骤S202,然后响应于第一发声控制信息的接收,控制部110 (第一合成器)开始第一歌声合成处理。若控制部110在步骤S201处没有接收到音素序列信息和第一发声控制信息两者，则控制部110等待接收音素序列信息和第一发声控制信息两者。在该第一歌声合成处理中，控制部110从歌声合成库162a读取与从静音或歌词之前的部分的音素到由音素序列信息表示的音素序列中的第一音素的过渡部分对应的片段数据，对该片段数据执行诸如音高转换之类的信号处理，使得音高与第一发声控制信息中包括的音高信息表示的音高匹配，从而合成过渡部分的语音波形数据，并且将得到的语音波形数据提供至语音输出部140。
[0035]随后，在步骤S203处，判定控制器110是否接收到第二发声控制信息。若控制部110 (第二接收器)在步骤S203处接收到第二发声控制信息，则处理进行至步骤S204，然后响应于第二发声控制信息的接收，控制部110 (第二合成器)开始第二歌声合成处理。若控制部Iio在步骤S203处没有接收到第二发声控制信息，则控制部11等待接收第二发声控制信息。在该第二歌声合成处理中，控制部Iio从歌声合成库162a读取从第一音素至后续音素的过渡部分之后的各音素的多个片段数据；通过对各音素的各条片段数据执行诸如转换音高处理之类的信号处理来组合各条片段信息，使得音高与第一发声控制信息中包括的音高信息表示的音高匹配以及根据第二发声控制信息中包括的速度值对起奏(attack)深度(上升波形处的减小)进行调节，从而合成过渡部分之后的部分的语音波形数据；并且将得到的语音波形数据提供至语音输出部140。
[0036]在步骤S205处，判定控制部110是否接收到第三发声控制信息。若控制部110在步骤S205处接收到第三发声控制信息，则控制系统110响应于第三发声控制信息的接收，结束歌声合成处理，并且停止合成歌声的输出。若控制部110在步骤S205处没有接收到第三发声控制信息，则控制部110等待接收第三发声控制信息。
[0037]例如，当合成从静音状态开始唱“怒H (saita)”的歌声时，对于“怒(sa) ”部分的歌声，响应于用以提供开始发声的指令而执行的对操作部件操作的开始，来开始输出从静音到由歌词的音素序列信息表示的第一音素(辅音s)的过渡部分的语音，以及响应于操作部件的完全按下，开始输出从第一音素到后续音素(元音a)的过渡部分之后的部分的语音。这基本上消除了在对操作部件进行操作的开始与发出合成语音的开始之间的时间滞后，从而能够实时地合成不迟疑的语音。同样地，对于Pt (saita)”的(ta)”部分的歌声，响应于用以提供开始发声的指令而执行的对操作部件操作的开始，来开始输出从在前音素(在本示例中为元音i)到由该部分的音素序列信息表示的第一音素(在本示例中为辅音t)的过渡部分的语音，以及响应于操作部件的完全按下，开始输出从第一音素到后续音素(元音a)的过渡部分之后的部分的语音。当音素序列信息代表一个元音时，控制器110可以响应于对音素序列信息和第一发声控制信息两者的接收，来开始歌声合成，或者可以在接收到第二发声控制信息后开始歌声合成。在后一模式中，在由第二发声控制信息中包括的速度表示的语音强度下执行歌声合成，而在前一模式中，在预定的默认速度下开始歌声合成，并且响应于第二发声控制信息的接收，将速度改变为与第二发声控制信息中包括的速度对应的值。此外，可以根据用户的选择在前一模式和后一模式之间切换。
[0038]当由音素序列信息表示的音素序列的第一音素是不可持续的语音(例如，爆破音)时，可以由控制部110在接收到第二发声控制信息之前执行重复输出音素的处理，或者在音素之间存在一个或多个静音的情况下输出音素，使得音素不连续，例如，重复“音素和静音”、重复“静音、音素和静音”或者重复“静音和音素”。在将除了具有歌声合成功能还具有音乐演奏功能的设备用作歌声合成设备I的模式中，当在没有任何音素序列信息的情况下输入第一发声控制信息和第二发声控制信息时，控制部110执行音乐演奏功能的音乐演奏音的输出处理，而不是歌声合成输出。此外，当没有输入后续部分的歌词时，例如，当在合成从静音状态到以Pt (saita)”开始唱的歌声的情况下，没有输入第一部分(sa)”之后的部分时，控制部110可以响应于用以提供开始发声的指令的完全按下操作部件的操作，来执行合成并输出以下语音的处理:重复发出从第一音素(辅音s)至代表该歌词部分的音素序列中的后续的音素(元音a)的过渡部分的语音(或者重复发出其间有一个或多个静音的过渡部分的语音)，以及连续发出该过渡部分的语音。必要的仅是，响应于第二发声控制信息的接收，来合成并输出至少包括从由音素序列信息表示的音素序列中的第一音素到后续音素的过渡部分的语音。
[0039]在本实施例中，如图3所示，在指定音高的操作部件的操作起始时间(时间T0)处开始输出合成的歌声，并且可以合成不迟疑的歌声。这里，在歌声合成库162a中存储的片段数据中，代表从辅音到元音的过渡部分的语音波形的片段数据例如被构造为使得辅音部分的长度被最小化。这是因为通过将从辅音到元音的过渡部分的片段数据构造为使得辅音部分被最小化，可以最小化完全按下用于指定音高的操作部件的时间(时间Tl)与元音的发声时间之间的时间滞后，这使歌声的合成更接近于人类的歌声。
[0040]此外，通过使用作为第一传感器121的用于检测用户的手指已触摸操作部件的传感器(例如，电容传感器)来检测对音符信息输入部分的操作部件的操作的开始，则可以在实际开始操作用于指定音高的操作部件之前，开始合成从静音或歌词的在前部分的音素到音素序列中的第一音素的过渡部分的语音，使得可以进一步地减小在开始输出合成的歌声之前的延迟。在该模式中，可以执行以下处理:除用于检测用户的手指已触摸操作部件的传感器外，还提供用于检测已开始按下操作部件的传感器；响应于前一传感器的检测输出，开始歌声合成；以及响应于后一传感器的检测输出，开始合成歌声的输出。
[0041]此外，在本实施例中，响应于完全按下音符信息输入部分的操作部件来输出第二发声控制信息，响应于从完全按下位置的返回来输出用于提供停止发声的指令的第三发声控制信息。然而，可以响应于第一传感器121检测的返回至开始按下之前的位置来向控制部110提供第三发声控制信息。根据该模式，可以测量从完全按下位置返回至开始按下操作之前的位置所需的时间，并且可以使用该时间长度来控制发出的歌声的消失(控制松开部分的发声)，使得可以通过用户执行诸如从完全按下操作部件开始缓慢地移动手指之类的操作，来进一步地改善歌声的表现力。此外，可以由第二传感器122执行对操作部件施加的使其从完全按下位置被进一步地按下的力的检测(或者，用于检测该力的幅值的另一传感器)，向控制部110提供与该力的幅值对应的发声控制信息，并且根据该发声控制信息来执行发声控制。
[0042]根据用户的指令，，可以在本实施例中的两次输出发声控制信息的操作模式与响应于完全按下诸如相关技术的电子键盘乐器的键来输出包括代表音高的信息和代表速度(或音量)的信息在内的发声控制信息的操作模式之间切换。此外，可以执行以下处理:第二发声控制信息中包括的速度不用于歌声合成，第二发声控制信息仅用于识别从辅音到元音的过渡部分的输出定时。在该情况下，第二发声控制信息中不需要包括速度，控制部Iio也不需要执行起奏深度等的调节。[0043]接下来，将描述对歌声合成处理的另一示例的说明。在从操作用于指定音高的操作部件的起始时间到按下操作部件至操作部件的完全按下位置的时间之间的时间段内，在音素信息输入部中，若开始操作用于指定另一音高的一个或多个不同操作部件，则控制部110连续地接收通过操作生成的多条第一发声控制信息。在本示例中，控制部110通过使用选自所述多条第一发声控制信息当中的最早的一条第一发声控制信息，来执行从静音或歌词的在前部分的音素到由音素序列信息表示的音素序列中的第一音素的过渡部分的语音的合成处理(第一歌声合成处理)。同样，控制部110通过从执行第一歌声合成处理后接收的一条或多条第二发声控制信息当中选择与最早的一条第一发声控制信息对应的一条第二发声控制信息(这条第二发声控制信息包括代表与最早的一条第一发声控制信息中包括的音高相同的音高的信息)，来执行至少包括从第一音素到后续音素的过渡部分的语音的合成(第二歌声合成处理)。在本示例中，控制部110直到执行第二歌声合成处理，才接受最早的一条第一发声控制信息之后的一条或多条第一发声控制信息。通过以上处理，即使在从操作用于指定音高的操作部件的起始时间起到该操作部件被按至该操作部件的完全按下位置的时间之间的时间段内，开始了对用于指定另一音高的不同操作部件的操作，并随后接收到多条第一发声控制信息，仍通过使用多条第一发声控制信息中的最早的一条发声控制信息来执行歌声合成处理。
[0044]例如，在开始操作与音高“C3”对应的操作部件后，在将与音高“C3”对应的该操作部件完全按至其完全按下位置前，开始操作与音高“D3”对应的不同操作部件的情况下，选择最早的一条发声控制信息，即，与音高“C3”对应的一条发声控制信息。同样，将与所选的这条第一发声控制信息对应的一条第二发声控制信息用于执行歌声合成处理。该第二发声控制信息对应于音高“C3”。
[0045]接下来，将参照图4描述对歌声合成处理的另一示例的说明。在本示例中，将描述当在接连接收到多条第一发声控制信息后接收到一条第二发声控制信息时的歌声合成处理。在图4中，在步骤S401处，判定控制部110是否接收到音素序列信息和第一发声控制信息两者。若控制部110在步骤S401处还没有接收到音素序列信息和第一发声控制信息两者，则控制部110等待接收音素序列信息和第一发声控制信息两者。若控制部110在步骤S401处接收到音素序列信息和第一发声控制信息两者，则处理进行至S402，然后控制部110响应于第一发声控制信息的接收，执行包括从静音或歌词的在前部分的音素到由音素序列信息表示的音素序列中的第一音素的过渡部分在内的语音的合成处理(第一歌声合成处理)。
[0046]在步骤S403处，判定控制部110(i)是否接收到第一发声控制信息，(ii)接收到第二发声控制信息，或者(iii)既没有接收到第一发声控制信息也没有接收到第二发声控制信息。若控制部110在步骤S403处接收到第一发声控制信息(步骤S403的项(i)的情况)，则处理返回至步骤S402，然后控制部110响应于在步骤S403处接收的第一发声控制信息，执行从静音或歌词的在前部分的音素至音素序列中的第一音素的过渡部分的合成处理。若控制部110在步骤S403处接收到第二发声控制信息(在步骤S403的项(ii )的情况)，则处理进行至步骤S404，然后控制部110响应于在步骤S403处接收的第二发声控制信息，执行至少包括从第一音素到第一音素之后的后续音素的过渡部分的语音的合成处理。
[0047]若控制部110在步骤S403处既没有接收到第一发声控制信息也没有接收到第二发声控制信息，则控制部110等待接收第一发声控制信息或第二发声控制信息。由于步骤S405的处理与图2中的步骤S205的处理相同，因此省去了步骤S405的处理的说明。
[0048]通过以上处理，可以通过从接连接收到的多条第一发声控制信息中选择紧接在第二发声控制信息的接收之前接收到的第一发声控制信息(即，最后一条发声控制信息)，来执行从静音或歌词的在前部分的音素到由音素序列信息表示的音素序列中的第一音素的过渡部分的歌声合成处理。
[0049]根据该构造，即使当通过诸如误触摸之类的误按压操作的校正而接连获取了多条第一发声控制信息时，也可以利用校正的音高来合成歌声。在总是采用在从操作部120接收到一条或多条第一发声控制信息的接收后首先接收的一条第二发声控制信息的模式中，在该条第二发声控制信息中不需要包括代表音高的信息。
[0050]例如，在开始操作与音高“C3”对应的操作部件之后，开始操作与音高“D3”对应的不同操作部件，然后将该不同操作部件完全按压至完全按下位置，并且控制部110在与音高“C3”对应的操作部件被完全按压至完全按下位置之前接收到与该不同操作部件对应第二发声控制信息，在这种情况下，选择紧接在该第二发声控制信息的接收之前接收的与音高“D3”对应的第一发声控制信息。对应于音高“D3”的第一发声控制信息和第二发声控制信息用于执行歌声合成处理。
[0051]此外，当从操作部120向控制部110提供多个发声控制信息对，每个发声控制信息对由包括代表相同音高的信息的第一发声控制信息和第二发声控制信息构成，在多个发声控制信息对当中的每个发声控制信息对对应于不同音高时，可以针对每个发声控制信息对执行歌声合成(即,可以并行地同时执行具有不同音高的多种歌声的合成)。例如，当基本上同时地进行对应于音高“C3”的操作部件的操作以及对应于音高“D3”的不同操作部件的操作时，针对音高“ C3 ”和音高“ D3 ”中的每个来并行地同时执行响应于第一发声控制信息和第二发声控制信息的接收而执行的歌声合成。因此，可以在没有迟疑感的情况下执行针对音高“C3”和音高“D3”的歌声合成。
[0052](B:变形)
[0053]尽管以上已描述了本公开的实施例，但要注意的是可以将以下修改添加至实施例:
[0054](I)在上述实施例中，操作部120响应于将用于指定音高的操作部件按下至预定深度(或者检测到用户手指在操作部件上的触摸)，输出第一发声控制信息。然而，可以执行以下处理:将检测用户的手指已靠近操作部件至短于预定阈值的距离的传感器用作第一传感器121，操作部120响应于该传感器对用户的手指已靠近操作部件至短于预定阈值的距离的检测，来输出第一发声控制信息。在该情况下，为了防止尽管操作部件实际上没有操作但仍没有限制地连续输出从静音或歌词的在前部分的音素至由音素序列信息表示的音素序列中的第一音素的过渡部分的语音，当在距离第一发声控制信息的输出的预定时间内，既没有检测到用户手指的触摸也没有检测到操作部件的按压(或完全按下)时，操作部120输出用于提供停止过渡部分的语音的输出的指令的第四发声控制信息。此外，可以执行以下处理:在操作部120上设有让用户提供输出第四发声控制信息的指令的操作部件，操作部120响应于对操作部件的操作的检测而输出第四发声控制信息。
[0055](2)在上述实施例中，描述了以下情况:用于指定歌声的音高的操作部件同样承担让用户提供开始发声指令的操作部件的功能；响应于对操作部件的操作的开始(用户的手指触摸或按压至预定深度)而输出第一发声控制信息；以及响应于对操作部件的操作的完成(操作部件的完全按下)而输出第二发声控制信息。然而，要注意的是，可以由与上述操作部件不同的操作部件(例如，用于指定歌声的发声强度或音量的刻度盘或踏板)来承担输出第二发声控制信息的功能。具体地，脚踏形式的操作部件设在操作部120上作为用于指定歌声的发声强度或音量的操作部件，并且操作部120响应于对类似于钢琴键盘的音符信息输入部的键操作的开始的检测，输出第一发声控制信息，而操作部120响应于对踏板形式的操作部件的按压的检测而输出第二发声控制信息。同样，在该模式中，响应于对类似于钢琴键盘的音符信息输入部的键操作的开始的检测，输出与从静音或歌词的在前部分的音素到由音素序列信息表示的音素序列中的第一音素的过渡部分对应的语音，使得可以实时地合成不迟疑的歌声。此外，通过调节踏板形式的操作部件的按压定时，从第一音素到后续音素的过渡部分(例如，从辅音到元音的过渡部分)的语音的输出定时可以与乐谱上的音符的定时一致，使得可以准确地再现人类歌唱的特性。
[0056](3)尽管在上述实施例中，将类似于电子键盘乐器的装置用作使歌声合成设备I获取第一发声控制信息和第二发声控制信息的获取部分(操作部120的音符信息输入部)，然而也可以使用类似于电子弦乐器、电子管乐器、电子打击乐器等的装置，只要其类似于MIDI控制的电子乐器即可。例如，当将类似于诸如电子吉他之类的电子弦乐器的装置用作操作部120的音符信息输入部时，用于检测用户的手指或拨子已触摸弦的传感器设为第一传感器121，用于检测用户已开始拨弦的传感器设为第二传感器122，响应于第一传感器121输出的检测来输出第一发声控制信息，并响应于第二传感器122的检测来输出第二发声控制信息。在该情况下，弦同时承担让用户提供开始发声的指令的操作部件的功能和让用户指定音高的操作部件的功能，以及还承担指定速度等的操作部件的功能等。同样，通过开始操作(用户的手指的触摸)让用户提供开始发出语音的指令的操作部件(弦)，接收第一发声控制信息，通过完成对操作部件的操作(通过用户的手指等拨弦)，接收第二发声控制信息。
[0057]当将类似于电子管乐器的装置用作操作部120的音符信息输入部时，将检测用户的手指已触摸类似于活塞阀键或木管乐器的键的操作部件的传感器设为第一传感器121，将检测用户已开始吹奏的传感器设为第二传感器122，响应于第一传感器121输出的检测来输出第一发声控制信息，并响应于第二传感器122输出的检测来输出第二发声控制信息。在该情况下，类似于活塞阀键或木管乐器的键的操作部件承担让用户提供开始发出语音的指令的功能以及让用户指定音高的功能，诸如吹口之类的吹嘴承担用于指定速度等的操作部件的功能。同样，通过开始操作让用户提供开始发出语音的指令的操作部件(类似于活塞阀键或木管乐器的键的操作部件)来接收第一发声控制信息，以及通过操作与上述操作部件不同的操作部件(诸如吹口之类的吹嘴)来接收第二发声控制信息。可以通过检测类似于活塞阀键或木管乐器的键的操作部件的操作的完成(完全按下)来输出第二发声控制信息，而不是通过检测开始吹奏诸如吹口之类的吹嘴而输出第二发声控制信息。
[0058]此外，当将类似于电子打击乐器的装置用作操作部120的音符信息输入部时，将检测鼓槌(或用户的手或手指)已触摸受打击部分的传感器设为第一传感器121，将检测打击的完成(例如，打击的力度已变为最大，或者受打击部分的打击区域已变为最大)的传感器设为第二传感器122,响应于第一传感器121输出的检测而输出第一发声控制信息,并响应于第二传感器122输出的检测而输出第二发声控制信息。在该情况下，受打击部分承担让用户提供用于开始发声的指令的操作部件的功能。同样，通过开始操作(用户的手指触摸等)让用户提供开始发出语音的指令的操作部件(受打击部分)，来接收第一发声控制信息，并且通过完成对操作部件的操作(打击力度或打击区域已变为最大)，来接收第二发声控制信息。在类似于电子打击乐器的音符信息输入部的情况下，存在不能通过对音符信息输入部的操作来指定音高的情况。在该情况下，将代表构成作为歌声合成对象的歌曲的旋律的各音符的音符信息(代表音高和持续时间的信息)存储在歌声合成设备I中，每当接收到第一发声控制信息时，就接连地读取该音符信息以便使用。此外，可以将类似于电子打击乐器的音符信息输入部的受打击部分划分为多个区域，并将每个区域与不同的音高关联，从而实现首闻的指定。
[0059]此外，音符信息输入部不限制于MIDI控制的音符信息输入部；其可以为让用户输入字符、符号或数字的普通键盘或普通触摸板，或者可以是诸如定位装置(例如，鼠标)之类的普通输入装置。当将这些普通输入装置用作音符信息输入部时，将代表构成作为歌声合成对象的歌曲的旋律的各音符的音符信息(代表音高和持续时间的信息)存储在歌声合成设备I中。然后，操作部120响应于开始操作与字符、符号或数字的操作部件、触摸板、鼠标按钮等来输出第一发声控制信息，操作部120响应于完成对操作部件的操作来输出第二发声控制信息，并且每当接收到第一发声控制信息时，就接连地读取音符信息以供歌声合成设备I使用。
[0060]必要的仅是采用以下模式:响应于开始操作让用户提供开始发声指令的操作部件来接收第一发声控制信息；响应于完成对操作部件的操作(或对不同操作部件的操作)来接收第二发声控制信息；响应于第一发声合成信息的获取，通过使用多种合成信息来合成与从静音或歌词的在前部分的音素至由音素序列信息表示的音素序列的第一音素的过渡部分对应的语音并将其输出；以及响应于第二发声控制信息的获取，通过使用多种合成信息来合成至少包括从第一音素到后续音素的过渡部分的语音并将其输出。
`[0061](4)在上述实施例中，描述了以下情况:通过操作操作部120的音素信息输入部，针对每个音符顺序地输出代表与音符合拍地发声的歌词部分的音素序列的音素序列信息。然而，可以执行以下处理:预先将与作为歌声合成对象的整个歌曲的歌词相关的音素序列信息存储在歌声合成设备I的非易失性存储部162中，通过操作音符输出部顺序地为每个音符指定当歌词的每个部分发声时的音高等，并且响应于音高等的指定来读取对应于音符的音素序列信息，以合成歌声。
[0062]此外，当在从操作部120向控制部110提供与不同音高对应的多个发声控制信息对时针对每个发声控制信息对执行语音合成的情况下，可以执行以下处理:存储代表歌词的不同部分的多种音素序列信息，并且控制部110针对每个发声控制信息对来合成不同音高和歌词部分的歌声。例如，将代表歌词的不同部分的N (N为不小于2的自然数)种音素序列信息排序并预先存储在非易失性存储部162中，并且，当将每个均包括不同音高信息的N个发声控制信息对从操作部120提供至控制部110时，控制部110通过使用构成第η(l^n^N)个音素序列信息和第η个发声控制信息对的第一发声控制信息和第二发声控制信息，来执行合成第η个歌声的处理(第一发声控制信息的输入顺序用作发声控制信息对的输入顺序)。此外，可以执行为预先确定音高的范围，从而使N条音素序列信息的每个不相互重叠，并且通过使用与属于对应于该音素序列信息的音高范围的音高对应的发声控制信息对，针对每条音素序列信息执行语音合成。例如，在音高方向上设置一些分割点，并且各条音素序列信息与该分割点划分的范围一对一地关联。
[0063](5)在上述实施例中，操作部120和用于输出合成歌声的语音输出部140被并入歌声合成设备1，该操作部120承担了使歌声合成设备I获取第一发声控制信息和第二发声控制信息以及多种合成信息的获取部分的功能。然而，可以采用这样的模式:操作部120和语音输出部140中的任一个或它们两者连接至歌声合成设备I的外部装置I/F部150。在操作部120通过外部装置I/F部150连接至歌声合成设备I的模式中，外部装置I/F部150承担获取部分的功能。
[0064]操作部120和语音输出部140两者均连接至外部装置I/F部150的一个示例模式为这样的模式:其中，以太网(商标)接口用作外部装置I/F部150，诸如LAN (局域网)或因特网之类的电通信线路连接至外部装置I/F部150，并且操作部120和语音输出部140连接至该电通信线路。根据该模式，可以提供所谓的云计算类型歌声合成服务。具体地，将通过操作设在操作部120上的各种操作部件而输入的音素序列信息以及第一发声控制信息和第二发声控制信息通过电通信线路提供至歌声合成设备，然后歌声合成设备基于通过电通信线路提供的音素序列信息以及第一发声控制信息和第二发声控制信息来执行歌声合成处理。以该方式，歌声合成设备合成的合成歌声的语音数据通过电通信线路提供至语音输出部140，并且从语音输出部140输出与该语音数据对应的语音。
[0065](6)在上述实施例中，使控制部110执行明显体现本公开的特征的歌声合成处理的歌声合成程序162b被预先存储在歌声合成设备I的非易失性存储部162中。然而，该歌声合成程序162b可以通过写在诸如CD-ROM (光盘-只读存储器)之类的计算机可读记录介质上的形式来分发，或者可以通过诸如因特网之类的电通信线路下载来分发。这是因为通过使诸如个人计算机之类的通用计算机执行如上分布的程序，可以使计算机用作上述实施例的歌声合成设备I。此外，要注意的是，本公开可以应用于包括实时歌声处理的游戏作为其一部分的游戏程序。具体地，游戏程序中包括的歌声合成程序可以用歌声合成程序162b代替。根据该模式，可以改善随着游戏的进行而合成的歌声的表现力。
[0066](7)在上述实施例中，描述了将本公开应用于实时歌声合成设备的示例。然而，本公开的应用对象不限制于实时歌声合成设备。例如，本公开可以应用于实时地合成语音指导中的指导语音的语音合成设备，或者实时地合成朗读诸如小说或诗之类的文学作品的语音的语音合成设备。此外，本公开的应用对象可以是具有歌声合成功能或者语音合成功能的玩具(并入有歌声合成设备或语音合成设备的玩具)。
[0067]这里，将上述实施例总结如下。
[0068](I)提供了一种语音合成方法，包括:
[0069]第一接收步骤，用于接收通过检测用户对操作部件执行的操作的开始而生成的第一发声控制信息；
[0070]第一合成步骤，用于响应于所述第一发声控制信息的接收来合成与要合成的语音的音素序列中的第一音素对应的第一语音，并输出所述第一语音；
[0071]第二接收步骤，用于接收通过检测对所述操作部件的操作的完成或对不同操作部件的操作而生成的第二发声控制信息；以及
[0072]第二合成步骤，用于响应于所述第二发声控制信息的接收来合成至少包括所述要合成的语音的所述第一音素和所述第一音素之后的后续音素在内的第二语音，并输出所述
第二语音。
[0073](2)例如，在所述第一合成步骤中，响应于所述第一发声控制信息的接收，合成与从静音或所述要合成的语音的音素序列中的所述第一音素之前的在前音素至所述第一音素的过渡部分对应的语音；以及在所述第二合成步骤中，响应于所述第二发声控制信息的接收，合成至少包括从所述第一音素至所述要合成的音素序列中的所述后续音素的过渡部分的语音。
[0074](3)例如，通过使用合成信息来执行所述第一合成步骤和所述第二合成步骤，所述合成信息包括代表所述要合成的语音的音素序列的音素序列信息和代表音高的音高信息；用于提供开始发出通过使用所述合成信息合成的所述第一语音的指令的所述操作部件用作让用户指定所述第一语音的音高的操作部件；所述第一发声控制信息包括构成了一部分所述合成信息并且代表通过操作所述操作部件而指定的音高的所述音高信息；以及在所述第一合成步骤中，通过使用所述第一发声控制信息中包括的所述音高信息来合成所述第一语音。
[0075](4)例如，当接连地接收到多条第一发声控制信息，并且每条第一发声控制信息包括代表不同音高的音高信息时，通过使用选自所述多条第一发声控制信息当中的一条第一发声控制信息中包括的音高信息来合成所述第一语音。
[0076](5)例如，当接连地接收到多条第二发声控制信息，并且每条第二发声控制信息包括代表不同速度或音量的信息时，通过使用选自所述多条第二发声控制信息当中的一条第二发声控制信息中包括的信息来合成所述第二语音。
[0077](6)例如，当接收到多个发声控制信息对,每个发声控制信息对由包括代表相同音高的音高信息的第一发声控制信息和第二发声控制信息构成，并且各发声控制信息对对应于不同的音高时，针对每个发声控制信息对执行语音合成。
[0078](7)例如,所述语音合成方法还包括:
[0079]当在与所述第一发声控制信息的输出相距预定的时间内没有检测到所述第二发声控制信息的接收时，输出第三发声控制信息以提供停止输出所述第一语音的指令。
[0080](8)例如，通过使用选自所述多条第一发声控制信息当中的最先接收的一条第一发声控制信息中包括的音高信息来合成所述第一语音。
[0081](9)例如，通过使用选自所述多条第一发声控制信息当中的最后接收的一条第一发声控制信息中包括的音高信息来合成所述第一语音。
[0082]( 10)例如,所述语音合成方法还包括:
[0083]第三接收步骤，用于接收通过检测用户对所述操作部件执行的操作的完成所生成的第三发声控制信息，其中所述第三发声控制信息包括音高信息和速度或音量；
[0084]第三合成步骤，用于响应于所述第三发声控制信息的接收而合成第三语音并输出所述第三语音；以及
[0085]切换步骤，用于在第一操作模式和第二操作模式之间切换，
[0086]其中在所述第一操作模式中，执行所述第一接收步骤、所述第一合成步骤、所述第二接收步骤和所述第二合成步骤；以及
[0087]其中在所述第二操作模式中，执行所述第三接收步骤和所述第三合成步骤。
[0088](11)例如，检测用户对所述操作部件执行的操作的开始的步骤包括检测用户的手指触摸所述操作部件的步骤。
[0089](12)这里，还提供了一种语音合成设备，包括:
[0090]第一接收器，其构造为接收通过检测用户对操作部件执行的操作的开始而生成的
第一发声控制信息；
[0091]第一合成器，其构造为响应于所述第一发声控制信息的接收来合成与要合成的语音的音素序列中的第一音素对应的第一语音，并输出所述第一语音；
[0092]第二接收器，其构造为接收通过检测对所述操作部件的操作的完成或对不同操作部件的操作而生成的第二发声控制信息；以及
[0093]第二合成器，其构造为响应于所述第二发声控制信息的接收来合成至少包括所述要合成的语音的所述第一音素和所述第一音素之后的后续音素在内的第二语音，并输出所述第二语音。
[0094](13)例如，所述语音合成设备还包括:第一传感器，其构造为检测用户对所述操作部件的操作的开始；以及第二传感器，其构造为检测对所述操作部件的操作的完成或者对所述不同操作部件的操作。
[0095]通过以上项(3)中描述的特征，可以在适当地指定发出合成语音时的音高的同时，实时地合成不迟疑的自然的语音。
[0096]通过以上项(5)中描述的特征，除了音高之外，还可以在适当地指定发出合成语音时的速度和音量的同时，实时地合成不迟疑的自然的语音。
[0097]通过以上项(6)中描述的特征，可以并行地同时合成具有不同音高的合成信息。
[0098]尽管针对特定的优选实施例示出并描述了本发明，但对本领域技术人员显而易见的是，可以基于本发明的教导做出各种改变和变形。显然，所述改变和修改处在由所附权利要求书所限定的本发明的精神、范围和意图内。
[0099]本申请基于2013年11月14日提交的日本专利申请N0.2012-250438，其内容通过引用并入于此。
【权利要求】
1.一种语音合成方法,包括: 第一接收步骤，用于接收通过检测用户对操作部件执行的操作的开始而生成的第一发声控制信息；第一合成步骤，用于响应于所述第一发声控制信息的接收来合成与要合成的语音的音素序列中的第一音素对应的第一语音，并输出所述第一语音；第二接收步骤，用于接收通过检测对所述操作部件的操作的完成或对不同操作部件的操作而生成的第二发声控制信息；以及第二合成步骤，用于响应于所述第二发声控制信息的接收来合成至少包括所述要合成的语音的所述第一音素和所述第一音素之后的后续音素在内的第二语音，并输出所述第二语音。
2.根据权利要求1所述的语音合成方法，其中在所述第一合成步骤中，响应于所述第一发声控制信息的接收，合成与从静音或所述要合成的语音的音素序列中的所述第一音素之前的在前音素至所述第一音素的过渡部分对应的语音；以及其中在所述第二合成步骤中，响应于所述第二发声控制信息的接收，合成至少包括从所述第一音素至所述音素序列中的所述后续音素的过渡部分在内的语音。
3.根据权利要求1所述的语音合成方法，其中通过使用合成信息来执行所述第一合成步骤和所述第二合成步骤，所述合成信息包括代表所述要合成的语音的音素序列的音素序列信息和代表音高的音高信息；其中用于提供开始发出通过使用所述合成信息合成的所述第一语音的指令的所述操作部件用作让用户指定所述第一语音的音高的操作部件；其中所述第一发声控制信息包括构成了一部分所述合成信息并且代表通过操作所述操作部件而指定的音高的所述音高信息；以及其中在所述第一合成步骤中，通过使用所述第一发声控制信息中包括的所述音高信息来合成所述第一语音。
4.根据权利要求3所述的语音合成方法，其中当接连地接收到多条第一发声控制信息，并且每条第一发声控制信息包括代表不同音高的音高信息时，通过使用选自所述多条第一发声控制信息当中的一条第一发声控制信息中包括的音高信息来合成所述第一语音。
5.根据权利要求4所述的语音合成方法，其中当接连地接收到多条第二发声控制信息，并且每条第二发声控制信息包括代表不同速度或音量的信息时，通过使用选自所述多条第二发声控制信息当中的一条第二发声控制信息中包括的信息来合成所述第二语音。
6.根据权利要求3所述的语音合成方法，其中当接收到多个发声控制信息对，每个发声控制信息对由包括代表相同音高的音高信息的第一发声控制信息和第二发声控制信息构成，并且各发声控制信息对对应于不同的音高时，针对每个发声控制信息对执行语音合成。
7.根据权利要求1所述的语音合成方法，还包括: 当在与所述第一发声控制信息的输出相距预定的时间内没有检测到所述第二发声控制信息的接收时，输出第三发声控制信息以提供停止输出所述第一语音的指令。
8.根据权利要求4或5所述的语音合成方法，其中通过使用选自所述多条第一发声控制信息当中的最先接收的一条第一发声控制信息中包括的音高信息来合成所述第一语音。
9.根据权利要求4或5所述的语音合成方法，其中通过使用选自所述多条第一发声控制信息当中的最后接收的一条第一发声控制信息中包括的音高信息来合成所述第一语音。
10.根据权利要求1所述的语音合成方法，还包括: 第三接收步骤，用于接收通过检测用户对所述操作部件执行的操作的完成所生成的第三发声控制信息，其中所述第三发声控制信息包括音高信息和速度或音量；第三合成步骤，用于响应于所述第三发声控制信息的接收而合成第三语音并输出所述第三语音；以及切换步骤，用于在第一操作模式和第二操作模式之间切换，其中在所述第一操作模式中，执行所述第一接收步骤、所述第一合成步骤、所述第二接收步骤和所述第二合成步骤；以及其中在所述第二操作模式中，执行所述第三接收步骤和所述第三合成步骤。
11.根据权利要求1所述的语音合成方法，其中检测用户对所述操作部件执行的操作的开始的步骤包括检测用户的手指触摸所述操作部件的步骤。
12.—种语音合成设备,包括: 第一接收器，其构造为接收通过检测用户对操作部件执行的操作的开始而生成的第一发声控制信息；第一合成器，其构造为响应于所述第一发声控制信息的接收来合成与要合成的语音的音素序列中的第一音素对应的第一语音，并输出所述第一语音；第二接收器，其构造为接收通过检测对所述操作部件的操作的完成或对不同操作部件的操作而生成的第二发声控制信息；以及第二合成器，其构造为响应于所述第二发声控制信息的接收来合成至少包括所述要合成的语音的所述第一音素和所述第一音素之后的后续音素在内的第二语音，并输出所述第二语音。
13.根据权利要求12所述的语音合成设备，还包括: 第一传感器，其构造为检测用户对所述操作部件的操作的开始；以及第二传感器，其构造为检测对所述操作部件的操作的完成或者对所述不同操作部件的操作。
【文档编号】G10L13/08GK103810992SQ201310572222
【公开日】2014年5月21日申请日期:2013年11月13日优先权日:2012年11月14日
【发明者】嘉山启, 西谷善树申请人:雅马哈株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：嘉山启;西谷善树
技术所有人：雅马哈株式会社
我是此专利的发明人

上一篇：语音识别方法、语音识别设备和电子设备的制作方法
上一篇：在电子音乐设备中对注册数据的延迟读出的制作方法