歌声合成系统、方法以及装置的制作方法

文档序号：2832318阅读：344来源：国知局

专利名称：歌声合成系统、方法以及装置的制作方法
技术领域：
本发明涉及一种歌声合成技术，尤其涉及一种能够产生拟真歌声的歌声合成系统、装置及方法。
背景技术：
近年来，随着信息科技的发展逐渐成熟，电子计算装置所具备的处理能力也大幅提升，使得许多复杂的应用得以实现，其中之一便是语音或歌声合成的相关技术。一般而言，语音合成可泛指为以人工方式产生接近真人语音的技术，目前已有许多相关应用存在，例如虚拟歌手、电子宠物、练唱软件、作曲家与歌手的仿真组合等，其相应的需求也逐日渐增。而在传统架构上，如图1所示，普遍的语音、歌声合成方法必须预先录制真人的语音数据以建立语料库(Corpus Database) 20，以此作为文字与语音之间转换的依据，其中语料的输入又可分为单音节语料6ingle-Syllable-basedCorpus)21的输入，以中文为例iI、夕、π等中文单音节，还有字词语料(Coarticulation-basedCorpus)22 的输入，如明天、后天等等，以及歌曲词句语料6ong-basedCorpus)23的输入。
图1为显示传统歌声合成方法的流程图。首先，输入选定歌曲的乐器数字接口 (Musical Instrument Digital Interface, MIDI)文件与歌词数据，其中该乐器数字接口文件包含有选定歌曲的乐谱(score)，包括节拍与音符等信息，在步骤S101，根据所输入的乐器数字接口文件与歌词数据进行字词切割(Word Segmentation)取得语音卷标(Phonetic Label),然后在步骤S102进行字词推导，从语料库20中挑选出最符合的语料，而后在步骤S103调校音长(duration)与音高(pitch)，最后，在步骤S103进行音与音之间的连接与平滑处理、加入回音效果、伴奏音乐，并得到合成的歌声。然而，上述传统技术却存在下列缺点
(一)建立语料库需耗费长时间进行语料的录制，且语料库需要庞大的储存空间。
(二)字词推导程序复杂，需耗费大量系统资源，且容易发生字词切割错误的问题。
(三)以中文语言而言，歌声合成的效果不佳，听起来有明显的机械音。
(四)受限于预录的语料库，只能产出固定音色，若要更换音色则必须重新录制语料库。
(五)整体程序复杂，产生合成歌声所需时间较长，无法实时取得合成歌声。
因此，整体而言，传统的歌声合成方法在成本上、效率上以及合成歌声的流畅度上，无法满足一般使用者的需求。发明内容
本发明的目的在于提供一种直觉式的歌声合成系统、方法以及装置，让使用者不必熟习乐理或擅长歌唱，只要用口语的方式按照节拍输入声音信号，即可得到拥有个人音色的歌声。
本发明所提供的歌声合成系统，包括一储存单元、一节拍单元、一输入单元、以及一处理单元。储存单元用以储存至少一旋律；节拍单元用以依据上述至少一旋律中一特定旋律来提示一节拍；输入单元用以接收多个声音信号，其中上述声音信号对应上述特定旋律；处理单元用以依据上述特定旋律及上述声音信号产生一合成歌声信号。
本发明所提供的歌声合成方法，适用于一电子计算装置，其步骤包括根据一旋律提示一节拍；透过上述电子计算装置的一收音模块接收多个声音信号，其中上述声音信号对应上述特定旋律；依据上述特定旋律及上述声音信号产生一合成歌声信号，并透过上述电子计算装置的一播音模块输出上述合成歌声信号。
本发明所提供的歌声合成装置，包括一壳体、一储存器、一节拍机构、一收音器、以及一处理器。储存器设置于上述壳体内部，连接至上述处理器，储存有至少一旋律；节拍机构设置于上述壳体外部，连接至上述处理器，依据上述至少一旋律中一特定旋律来提示一节拍；由收音器设置于上述壳体外部，连接至上述处理器，接收多个声音信号，其中上述声音信号对应上述特定旋律；以及，处理器设置于上述壳体内部，依据上述特定旋律及上述声音信号产生一合成歌声信号。
本发明实施例中的声音信号是使用者依据该旋律、节拍所诵读或哼唱所产生，因此每个声音信号分别对应至该旋律及其节拍，可直接将该声音信号进行处理，节省现有技术中需大量预先录制的大量使用者语料库的时间和成本，达到节省系统资源以及加速歌曲合成速度的效果，而且最终获得的合成歌声更具有使用者的音色，且效果相当拟直ο

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中
图1为根据传统语音合成架构所述的歌声合成方法的流程图。
图2为根据本发明一实施例所述的歌声合成装置的架构图。
图3为根据本发明一实施例所述的语音输入误差侦测示意图。
图4为根据本发明一实施例所述使用基周同步叠加法的音高调校示意图。
图5为根据本发明一实施例所述使用交叉消退法的音高调校示意图。
图6A、6B为根据本发明一实施例所述使用重新取样法的音高调校示意图。
图7A、7B、7C为根据本发明一实施例所述使用贝兹曲线的平滑处理示意图。
图8为根据本发明一实施例所述的歌声合成方法的流程图。
图9A、9B、9C、9D为根据本发明其它实施例所述的歌声合成方法的流程图。
图10为根据本发明一实施例所述的歌声合成装置的架构图。
附图标号
20 语料库；
21 单音节语料；
22 字词语料；
23 歌曲词句语料；
200 -歌声合成系统；
201 -储存单元；
202 -节拍单元；
203 -输入单元；
204 -处理单元；
1000 歌声合成装置
1010 夕卜壳；
1020 储存器；
1030 节拍机构；
1040 收音器；
1050 处理器。
具体实施方式
为使本发明的目的、特征和优点能更明显易懂，下文特举一些较佳实施例，并配合附图作详细说明如下
图2为根据本发明一实施例所述的歌声合成系统的架构图。歌声合成系统200中包含有储存单元201、节拍单元202、输入单元203以及处理单元204。当一歌曲要进行歌声合成时，储存单元201储存有多首歌曲的旋律，可提供该歌曲的旋律给节拍单元202，节拍单元202再根据该歌曲的旋律提示对应的节拍(tempo)，该节拍指的是依据该歌曲旋律的固定频率的拍子，可辅助使用者以口语的方式诵读或哼唱该歌曲的歌词，输入单元 203则用以接收上述使用者诵读或哼唱所产生的多个声音信号，上述声音信号对应上述该旋律，且符合该节拍。最后，处理单元204再依据该旋律和上述声音信号进行处理，产生一合成歌声信号。
在某些实施例中，上述旋律可为一声波(WaveformAudio，WAV)文件，节拍单元202可通过拍子追踪(beat tracking)的技术标记出该歌曲的节拍。而在其它实施例中，上述旋律可为一乐器数字接口(Musical Instrument Digitalbiterface，MIDI)文件，节拍单元202可直接抓取乐器数字接口文件中的节拍事件(tempo event)数据以得到该歌曲的节拍。而节拍单元202依据旋律来提示的节拍，可以有多种实施方式，如经由一显示单元所产生的视觉信号，例如移动、跳跃、闪烁或变色的符号；或为由一输出单元所产生的声音信号，例如模仿节拍器的「答、答」声，或是由一机械结构所提供的节拍动作，例如摇摆、旋转、跳动或是如节拍器的摆针摆动；亦或是由一发光单元所产生灯光的闪烁、变色等。
在某些实施例中，为了让使用者所输入的多个声音信号的节奏(rhythm)具有一定程度的正确性，节奏分析单元(未绘示)在接收到使用者所输入的多个声音信号后，根据该歌曲的旋律判断该声音信号所具有的既定节奏是否超过一预设容许误差值，该节奏指的是歌词的每个字配合旋律出现的快慢状态。如果上述既定节奏超过预设容许误差值，则节奏分析单元(未绘示)提示使用者重复上述输入声音信号的步骤；此关于判断节奏误差的运作细节将在稍后在图3进一步描述。或者，节奏分析单元(未绘示)也可以设计成在接收到使用者所输入的多个语音信号后，再进一步将该声音信号输出由使用者自行决定是否接受此录制版本，若不接受，则提供一操作接口以供使用者操作选择重新输入多个声音信号，以取代旧声音信号。另外，在其它实施例中，使用者也可以歌唱的方式产生并输入该声音信号，或者也可输入事先所录制或处理过的声音信号。
上述处理单元204主要是依据该旋律和上述声音信号进行处理，产生一合成歌声信号。在一些实施例中，所进行的处理包括将上述声音信号执行音高拉平以取得多个相同音高信号，以及依据该旋律，将上述相同音高信号调校至对应于该歌曲的旋律所指示的多个标准音高，以取得多个调校后声音信号。更进一步时，可再将该调校过的多个调校后声音信号执行平滑处理，以产生一平滑处理后声音信号。以下再以一些详细实施例来进行说明。
在一些实施例中，处理单元204可执行一音高分析程序，透过音高追踪(Pitch Tracking),音高标记(Pitch Marking)，以将上述声音信号执行音高拉平以取得多个相同音高信号。接着，处理单元204针对多个相同音高信号执行音高调校程序，例如运用基周同步叠加法(Pitch SynchronousOverLap-Add，PSOLA)、交叉消退法(Cross-Fadding) 或重新取样法(Resample)，将多个相同音高信号分别调校至对应于该歌曲的旋律所指示的多个标准音高，以取得多个调校后声音信号；此关于基周同步叠加法、交叉消退法以及重新取样法的运作细节将在稍后分别在图4、图5、图6A与图6B中进一步描述。然后，处理单元204再针对多个调校后声音信号执行平滑处理程序，例如运用线性内插法 (interpolation)、双线性内插法或多项式内插法将上述调校后声音信号连接起来以取得一平滑处理后声音信号；其中关于多项式内插法的运作细节将在稍后在图7A 7C中进一步描述。
在另一些实施例中，处理单元204进一步将该平滑处理后声音信号执行歌声特效处理程序，其可根据歌声合成系统200的系统负载状况决定取样音框的大小，然后将该平滑处理后声音信号以取样音框大小依序进行音量调整、加入抖音以及加入回音效果，产生一特效处理后声音信号。在另一些实施例中，处理单元204可针对上述的多种声音信号，如多个调校后声音信号、平滑处理后声音信号或特效处理后声音信号等，执行伴奏合成程序，将该歌曲的伴奏音乐与上述各种声音信号合成以取得一伴奏歌声信号。前述的调校后声音信号、平滑处理后声音信号、特效处理后声音信号、伴奏歌声信号等，皆为本发明的合成歌声信号的实施样态，一合成歌声信号可以是一包含有多个声音信号(如上述调校后、平滑处理后、特效处理后或伴奏处理后的声音信号)的档案，且该合成歌声即具有该使用者的音色。在某些实施例中，歌声合成系统200可再包括一输出单元，用以将合成歌声信号输出，而该输出单元可更进一步结合节拍单元202或其它显示单元，在输出该合成歌声信号时，依据该合成歌声信号来显示节拍，如上述的摇摆、旋转、跳动等动作，或移动、跳跃、闪烁、变色等视觉符号，或模仿节拍器「答、答」声的声音信号等。
图3为根据本发明一实施例所述的判断节奏误差的示意图。如图3所示，一段歌词的声音信号输入包括有歌词1 歌词3。在某些实施例中，储存单元201中除了储存上述歌曲的旋律之外，可进一步储存对应该旋律的歌词，以及对应于歌词的节奏。节奏分析单元(未绘示)根据歌曲的旋律取得这段歌词的标准节拍r(i)，其中r(l)、rO)代表歌词1的时间区间端点，r(3)、r(4)代表歌词2的时间区间端点，r(5)、r(6)代表歌词3的时间区间端点，位于时间区间端点前的虚线代表提前输入的误差容许时间，位于时间区间端点后的虚线代表延迟输入的误差容许时间，所以截线与虚线所形成的区间即为误差容许值μ。而使用者所输入的多个语音信号具有一既定节奏，该既定节奏以c(i)表示，那么在此实施例中，累计误差值可用计算公式(1)表示
权利要求
1.一种歌声合成系统，其特征在于，所述歌声合成系统包括一储存单元，用以储存至少一旋律；一节拍单元，用以依据所述至少一旋律中一特定旋律来提示一节拍；一输入单元，用以接收多个声音信号，其中所述声音信号对应所述特定旋律；以及一处理单元，用以依据所述特定旋律处理所述声音信号并产生一合成歌声信号。
2.如权利要求1所述的歌声合成系统，其特征在于，所述声音信号是由一使用者根据一歌词信息与所述节拍所产生，且所述声音信号依序分别对应至所述歌词信息中的每一歌词。
3.如权利要求1所述的歌声合成系统，其特征在于，所述声音信号具有一既定节奏，且所述歌声合成系统进一步包括一节奏分析单元，用以判断所述既定节奏是否超过一预设容许误差值。
4.如权利要求1所述的歌声合成系统，其特征在于，所述处理单元针对所述声音信号所进行的处理包括执行一音高分析程序与一音高调校程序以取得多个调校后声音信号，并以所述调校后声音信号为所述合成歌声信号，其中所述音高分析程序透过音高追踪取得分别对应至所述声音信号的多个音高，再将所述音高拉平以取得多个相同音高。
5.如权利要求4所述的歌声合成系统，其特征在于，所述处理单元针对所述声音信号所进行的处理进一步包括针对所述调校后声音信号执行一平滑处理程序以取得一平滑处理后声音信号，并以所述平滑处理后声音信号为所述合成歌声信号。
6.如权利要求5所述的歌声合成系统，其特征在于，所述处理单元针对所述声音信号所进行的处理进一步包括针对所述平滑处理后声音信号执行一歌声特效处理程序以取得一特效处理后声音信号，并以所述特效处理后声音信号为所述合成歌声信号。
7.如权利要求6所述的歌声合成系统，其特征在于，所述处理单元针对所述声音信号所进行的处理进一步包括针对所述调校后声音信号、所述平滑处理后声音信号以及所述特效处理后声音信号中的其中之一，执行一伴奏合成程序以取得一伴奏歌声信号，并以所述伴奏歌声信号为所述合成歌声信号。
8.—种歌声合成方法，适用于一电子计算装置，其特征在于，所述歌声合成方法包括依据至少一旋律中一特定旋律提示一节拍；透过所述电子计算装置的一收音模块接收多个声音信号，其中所述声音信号对应所述特定旋律；以及依据所述特定旋律处理所述声音信号并透过所述电子计算装置的一播音模块输出一合成歌声信号。
9.如权利要求8所述的歌声合成方法，其特征在于，所述声音信号由一使用者根据一歌词信息与所述节拍所产生，且所述声音信号具有一既定节奏并依序分别对应至所述歌词信息中的每一歌词，而所述歌声合成方法判断所述既定节奏是否超过一预设容许误差值，若是，则重复所述输入声音信号的步骤。
10.如权利要求8所述的歌声合成方法，其特征在于，针对所述声音信号所进行的处理进一步包括执行一音高分析程序与一音高调校程序以取得多个调校后声音信号，并以所述调校后声音信号为所述合成歌声信号，其中所述音高分析程序透过音高追踪取得分别对应至所述声音信号的多个音高，再将所述音高拉平以取得多个相同音高。
11.如权利要求10所述的歌声合成方法，其特征在于，针对所述声音信号所进行的处理进一步包括针对所述调校后声音信号执行一平滑处理程序以取得一平滑处理后声音信号，并以所述平滑处理后声音信号为所述合成歌声信号。
12.如权利要求11所述的歌声合成方法，其特征在于，针对所述声音信号所进行的处理进一步包括针对所述平滑处理后声音信号执行一歌声特效处理程序以取得一特效处理后声音信号，并以所述特效处理后声音信号为所述合成歌声信号。
13.如权利要求12所述的歌声合成方法，其特征在于，针对所述声音信号所进行的处理进一步包括针对所述调校后声音信号、所述平滑处理后声音信号以及所述特效处理后声音信号中的其中之一，执行一伴奏合成程序以取得一伴奏歌声信号，并以所述伴奏歌声信号为所述合成歌声信号。
14.一种歌声合成装置，其特征在于，所述歌声合成装置至少包括一壳体、一储存器、一节拍机构、一收音器、一处理器，其中所述储存器设置于所述壳体内部，连接至所述处理器，储存至少一旋律；所述节拍机构设置于所述壳体外部，连接至所述处理器，依据所述旋律的一特定旋律提示一节拍；所述收音器设置于所述壳体外部，连接至所述处理器，接收多个声音信号，且所述声音信号对应所述特定旋律；以及所述处理器设置于所述壳体内部，依据所述特定旋律将所述声音信号进行处理并产生一合成歌声信号。
15.如权利要求14所述的歌声合成装置，其特征在于，所述储存器为一内存；所述节拍机构为一发光器、一可动式机械结构、一显示器或一播音器；所述收音器为一麦克风、一集音器或一录音器；以及，所述处理器为一嵌入式微型处理器。
16.如权利要求14所述的歌声合成装置，其特征在于，所述声音信号是由一使用者根据一歌词信息与所述节拍所产生，且所述声音信号具有一既定节奏并依序分别对应至所述歌词信息中的每一歌词，而所述处理器进一步判断所述既定节奏是否超过一预设容许误差值，若是，则提示所述使用者重复所述输入声音信号的步骤。
17.如权利要求14所述的歌声合成装置，其特征在于，所述处理器针对所述声音信号所进行的处理为执行一音高分析处理与一音高调校处理以取得一多个调校后声音信号，并以所述调校后声音信号为所述合成歌声信号，所述音高分析处理透过音高追踪取得分别对应至所述声音信号的多个音高，再将所述音高拉平以取得多个相同音高。
18.如权利要求17所述的歌声合成装置，其特征在于，所述处理器对所述声音信号所进行的处理，进一步包括将所述调校后声音信号执行一平滑处理以取得一平滑处理后声音信号，并以所述平滑处理后声音信号为所述合成歌声信号。
19.如权利要求18所述的歌声合成装置，其特征在于，所述处理器对所述声音信号所进行的处理，进一步包括对所述平滑处理后声音信号执行一歌声特效处理以取得一特效处理后声音信号，并以所述特效处理后声音信号为所述合成歌声信号。
20.如权利要求19所述的歌声合成装置，其特征在于，所述处理器对所述声音信号所进行的处理，进一步包括将所述调校后声音信号、所述平滑处理后声音信号以及所述特效处理后声音信号中的其中之一，执行一伴奏合成处理以取得一伴奏歌声信号，并以所述伴奏歌声信号为所述合成歌声信号。
21.如权利要求14所述的歌声合成装置，其特征在于，所述歌声合成装置进一步包括一播音器，输出所述合成歌声信号。
全文摘要
本发明公开了一种歌声合成系统，所述系统具有储存单元、节拍单元、输入单元以及处理单元。其中储存单元用以储存至少一旋律；节拍单元用以提示节拍；输入单元用以接收多个声音信号；处理单元用以针对声音信号进行处理并产生合成歌声信号。本发明实施例中的声音信号是使用者依据该旋律、节拍所诵读或哼唱所产生，因此每个声音信号分别对应至该旋律及其节拍，可直接将该声音信号进行处理，节省需大量预先录制的大量使用者语料库的时间和成本，达到节省系统资源以及加速歌曲合成速度的效果，而且最终获得的合成歌声更具有使用者的音色，效果相当拟真。
文档编号G10L13/00GK102024453SQ20091016942
公开日2011年4月20日申请日期2009年9月9日优先权日2009年9月9日
发明者张智星, 徐志浩, 李宏儒, 李幸辑, 王文男申请人:财团法人资讯工业策进会

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李幸辑;李宏儒;王文男;徐志浩;张智星
技术所有人：财团法人资讯工业策进会
我是此专利的发明人