歌声合成方法和设备、程序、记录介质以及机器人设备的制作方法

文档序号：2833545阅读：319来源：国知局

专利名称：歌声合成方法和设备、程序、记录介质以及机器人设备的制作方法
技术领域：
本发明涉及用于从演奏数据合成歌声的方法和设备、程序、记录介质以及机器人设备。
本发明包含与2003年3月20日向日本专利办公室申请的日本专利申请JP-2003-079150有关的主题，此专利申请的全部内容在本文引作参考。
背景技术：
如专利文献1所提出的，到目前为止知道例如通过计算机从给定歌唱数据合成歌声的技术。
在相关技术领域中，MIDI(乐器数字接口)数据是被接受作为实际标准的代表性演奏数据。一般地，通过控制称作MIDI声源的数字声源而用MIDI数据产生音乐声音，其中，所述MIDI声源例如为由MIDI数据激发的声源，如计算机声源或电子乐器的声源。歌词数据可引入到MIDI文件，如SMF(标准MIDI文件)，从而，可自动地编制具有歌词的音乐五线谱。
还已经提出使用由歌声参数(特殊数据表示)或组成歌声的音位片段表现的MIDI数据的尝试。
虽然这些相关技术试图用MIDI数据的数据形式来表现歌声，但是，此尝试仅仅是在控制乐器意义上的控制，而不是利用MIDI自身拥有的歌词数据。
而且，利用常规技术不纠正MIDI数据就把为乐器编制的MIDI数据译成歌曲是不可能的。
另一方面，用于大声读电子邮件或主页的声音合成软件由包括本受让人在内的许多制造商销售。然而，读的方式是大声读文本的常规方式。
使用电气或磁性操作来执行与包括人类的生命体相似的动作的机械设备称作机器人。机器人在日本的使用回溯到60年代末。当时使用的大多数机器人是工业机器人，如机械手或运输机器人，目的是使工厂的生产操作自动化或提供无人操作。
近年来，正在进行应用机器人的开发，所述应用机器人适于支持人类生活，即在我们日常生活的各个方面支持人类活动，作为人类的伙伴。与工业机器人截然不同的是，应用机器人被赋予在我们日常生活的各个方面学习如何使它自己适合有个体差异的操作员或适应变化环境的能力。宠物型机器人或人形机器人正投入实际使用，其中，宠物型机器人模拟四足动物如狗或猫的身体机构或动作，人形机器人以人类用两条腿直立行走的身体机构或动作为模型进行设计。
与工业机器人截然不同的是，应用机器人设备能执行以娱乐为中心的各种动作。为此，这些应用机器人设备有时称作娱乐机器人。在此类机器人设备中，有根据外部信息或内部状态而执行自主动作的机器人。
用于自主机器人设备的人工智能(AI)是智力功能如推理或判断的人工实现。进一步试图人工实现诸如感觉或直觉的功能。在借助视觉装置或自然语言向外部表现人工智能的表现装置中，有借助声音的装置，作为使用自然语言的表现功能的实例。
对于本发明相关技术的出版物，有专利3233036和日本特开平专利出版物H11-95798。
歌声的常规合成使用特殊类型的数据，或者即使使用MIDI数据，也不能有效地使用嵌入在其中的歌词数据，或者，不能在哼唱的意义上唱为乐器准备的MIDI数据。

发明内容
本发明的目的是提供一种合成歌声的新型方法和设备，从而，有可能克服常规技术中固有的问题。
本发明的另一目的是提供一种合成歌声的方法和设备，从而，有可能通过利用演奏数据如MIDI数据而合成歌声。
本发明的又一目的是提供一种合成歌声的方法和设备，其中，由MIDI文件(以SMF为代表)规定的MIDI数据可通过语音合成而歌唱，如果有的话，可直接使用MIDI数据中的歌词信息，或者，用其它歌词替代它，缺少歌词信息的MIDI数据可设置任意的歌词或歌唱，并且/或者，可以为单独提供的文本数据赋予旋律，并且，以模仿的方式歌唱得到的数据。
本发明的再一目的是提供一种使计算机执行歌声合成功能的程序和记录介质。
本发明的还一目的是提供一种实施上述歌声合成功能的机器人设备。
根据本发明的歌声合成方法包括分析步骤，所述分析步骤把演奏数据分析为音调和音长以及歌词的音乐信息；歌词赋予步骤，所述歌词赋予步骤基于被分析音乐信息的歌词信息而向音符串赋予歌词，并且，在没有歌词信息的情况下，向可选音符串赋予可选歌词；以及歌声产生步骤，所述歌声产生步骤基于赋予的歌词而产生歌声。
根据本发明的歌声合成设备包括分析装置，所述分析装置把演奏数据分析为音调和音长以及歌词的音乐信息；歌词赋予装置，所述歌词赋予装置基于被分析音乐信息的歌词信息而向音符串赋予歌词，并且，在没有歌词信息的情况下，向可选音符串赋予可选歌词；以及歌声产生装置，所述歌声产生装置基于因此赋予的歌词而产生歌声。
利用根据本发明的歌声合成方法和设备，通过分析演奏数据并通过向音符信息赋予可选歌词，有可能产生歌声信息，并基于因此产生的歌声信息而产生歌声，其中，所述音符信息基于从分析得到的音调、音长和声音速度。如果在演奏数据中有歌词信息，歌词就可演唱为歌曲。同时，可向演奏数据中的可选音符串赋予可选歌词。
本发明所用的演奏数据优选是MIDI文件的演奏数据。
在没有外部的歌词指令的情况下，歌词赋予步骤或装置优选向演奏数据中的可选音符串赋予预定歌词元素，如‘ら’(发‘ra’音)或‘ぼん’(发‘bon’音)。
优选向包括在MIDI文件的音轨或通道中的音符串赋予歌词。
在本文中，优选歌词赋予步骤或装置可选地选择音轨或通道。
还优选歌词赋予步骤或装置向在演奏数据中首先出现的音轨或通道中的音符串赋予歌词。
另外优选歌词赋予步骤或装置向多个音轨或通道赋予独立的歌词。通过这样做，容易实现二重唱或三重唱中的合唱。
优选保存歌词赋予的结果。
在歌词信息中包括表示语音的信息的情况下，希望进一步设置用于在歌词中插入语音的语音插入步骤或装置，所述步骤或装置用合成语言大声读语音，以取代在唱歌词时的歌词，从而在歌曲中插入语音。
根据本发明的程序允许计算机执行本发明的歌声合成功能。根据本发明的记录介质是计算机可读的，并在其上记录所述程序。
根据本发明的机器人设备是根据被提供的输入信息而执行动作的自主机器人设备，所述机器人设备包括分析装置，所述分析装置把演奏数据分析为音调和音长以及歌词的音乐信息；歌词赋予装置，所述歌词赋予装置基于被分析音乐信息的歌词信息而向音符串赋予歌词，并且，在没有歌词信息的情况下，向可选音符串赋予可选歌词；以及歌声产生装置，所述歌声产生装置基于因此赋予的歌词而产生歌声。此配置显著提高作为娱乐机器人的机器人设备的性质。

图1为示出根据本发明的歌声合成设备的系统配置的框图。
图2示出分析结果的音符信息的实例。
图3示出歌声信息的实例。
图4为示出歌声产生单元的结构的框图。
图5示出未分配歌词的音乐五线谱信息的实例。
图6示出歌声信息的实例。
图7为示出根据本发明的歌声合成设备的操作的流程图。
图8为示出根据本发明的机器人设备的外观的透视图。
图9示意性地示出机器人设备的自由度结构的模型。
图10为示出机器人设备系统结构的示意性框图。
具体实施例方式
参照附图详细解释本发明的优选实施例。
图1示出根据本发明的歌声合成设备的系统配置。尽管预先假定本歌声合成设备例如用于机器人设备，其中，所述机器人设备至少包括感觉模型、语音合成装置和发音装置，但这不应解释为限制意义的，并且当然，本发明可应用于各种机器人设备以及除机器人之外的各种计算机AI(人工智能)。
在图1中，演奏数据分析单元2分析以MIDI数据为代表的演奏数据1，分析输入的演奏数据，把该数据转换为音乐五线谱信息4，所述音乐五线谱信息4表示包括在演奏数据中的音轨或通道的音调、音长和声音速度。
图2示出转换为音乐五线谱信息4的演奏数据(MIDI数据)的实例。参照图2，事件从一个音轨写到下一个音轨并从一个通道写到下一个通道。事件包括音符事件和控制事件。音符事件具有与产生时间(图2中的列‘时间’)、音调、长度和强度(速度)有关的信息。因而，音符串或声音串由音符事件序列定义。控制事件包括表示产生时间的数据、诸如颤音、演奏动态表现和控制内容的控制类型数据。例如，在颤音的情况下，控制内容包括表示声音脉动大小的‘深度’项、表示声音脉动周期的‘宽度’项、以及表示从声音脉动开始时刻(发声时刻)起的延迟时间的‘延迟’项。用于特定音轨或通道的控制事件用于再现所述音轨或通道的音符串的音乐声，除非发生用于所述控制类型的新控制事件(控制变化)。而且，在MIDI文件的演奏数据中，可基于音轨而输入歌词。在图2中，在上半部表示的‘あるう日’(‘一天’，发‘a-ru-u-hi’音)是在音轨1中输入的歌词的一部分，而在下半部表示的‘あるう日’是在音轨2中输入的歌词的一部分。也就是说，在图2的实例中，歌词已经嵌入到被分析的音乐信息(音乐五线谱信息)中。
在图2中，时间用“小节拍分段信号数量”表示，长度用“分段信号数量”表示，速度用数字‘0-127’表示，并且，音调用‘A4’代表440Hz而表示。另一方面，颤音的深度、宽度和延迟分别用数字‘0-64-127’表示。
被转换的音乐五线谱信息4传递给歌词赋予单元5。歌词赋予单元5根据音乐五线谱信息4而产生歌声信息6，歌声信息6由用于声音的歌词以及与音符的长度、音调、速度和声调有关的信息组成，其中，所述声音的歌词与音符相匹配。
图3示出歌声信息6的实例。在图3中，‘song’为表示歌词信息开始的标签。标签‘PP，T10673075’表示10673075μsec的停顿，标签‘tdyna 110 649075’表示从前端开始10673075μsec的总速度，标签‘fine-100’表示细微的音调调整，与MIDI的微调相对应，并且，标签‘vibrato NRPN_dep＝64’、‘vibrato NRPN_del＝50’以及‘vibrato NRPN_rat＝64’分别代表颤音的深度、延迟和宽度。标签‘dyna 100’代表不同声音的相对速度，并且，标签‘G4，T288461あ’代表具有G4音调和288461μsec长度的歌词元素‘あ’(发‘a’音)。图3的歌声信息从图2所示的音乐五线谱信息(MIDI数据的分析结果)获得。图3的歌词信息从图2所示的音乐五线谱信息(MIDI数据的分析结果)获得。
从图2和3的比较可看出，用于控制乐器的演奏数据，如音乐五线谱信息，完全用于产生歌声信息。例如，对于歌词部分‘あるう日’中的组成元素‘あ’，其产生时间、长度、音调和速度包括在控制信息中或包括在音乐五线谱信息的音符事件信息中(参见图2)，并且与除‘あ’之外的歌唱属性一起直接使用，其中，所述歌唱属性例如为声音‘あ’的产生时间、长度、音调或速度，音乐五线谱信息中相同音轨或通道内的下一音符事件信息也直接用于下一歌词元素‘る’(发‘u’音)，等等。
参照图1，歌声信息6传递给歌声产生单元7，在此歌声产生单元7中，歌声产生单元7基于歌声信息6而产生歌声波形8。从歌声信息6产生歌声波形8的歌声产生单元7例如按图4所示进行配置。
在图4中，歌声节奏产生单元7-1把歌声信息6转换为歌声节奏数据。波形产生单元7-2把歌声节奏数据转换为歌声波形8。
作为具体实例，现在解释把具有音调‘A4’的歌词元素‘ら’(发‘ra’音)扩展为当前时间长度的情况。在不应用颤音情况下的歌声节奏数据可按下表1表示表1

在上表中，[标记]代表各个声音(音位元素)的时间长度。也就是说，声音(音位元素)‘ra’具有从采样0到采样1000的1000个采样的时间长度，并且，第一声音‘aa’、下一声音‘ra’具有从采样1000到采样39600的38600个采样的时间长度。‘音调’代表以点音调表示的音调周期。也就是说，在采样点0的音调周期为56个采样。这里，不改变‘ら’的音调，从而，56个采样的音调周期作用在全部采样上。另一方面，‘音量’代表各个采样点每一个上的相对音量。也就是说，对于100％的缺省值，在0采样点的音量为66％，而在39600采样点的音量为57％。在40100采样点的音量为48％，在42600采样点的音量为3％，等等。这实现‘ら’声音随着时间的衰减。
另一方面，如果应用颤音，就编制下表2所示的歌声节奏数据表2

如上表的列‘音调’所示，在0采样点的音调周期和在1000采样点的音调周期都是50个采样。在此时间间隔中，语音音调没有变化。从此时刻起，音调周期以大约4000个采样的周期(宽度)在50±3的范围内上下摆动，例如2000采样点上53个采样的音调周期、4009采样点上47个采样的音调周期以及6009采样点上53个采样的音调周期。以此方式，实现作为语音音调脉动的颤音。基于与歌声信息6中相应歌声元素如‘ら’有关的信息而产生列‘音调’的数据，所述信息具体为诸如A4的音调号、以及诸如标签vibrato NRPN_dep＝64’、‘vibrato NRPN_del＝50’以及‘vibrato NRPN_rat＝64’的颤音控制数据。
基于以上歌声音位数据，波形产生单元7-2从未示出的内部波形存储器读出采样而产生歌声波形8。应指出，适于从歌声信息6产生歌声波形8的歌声产生单元7不局限于以上实施例，从而，可以使用任何适当的已知产生歌声的单元。
回到图1，演奏数据1传递给MIDI声源9，MIDI声源9接着基于演奏数据而产生音乐声。产生的音乐声是伴奏波形10。
歌声波形8和伴奏波形10传递给适于使两个波形互相合成和混合的混合单元11。
混合单元11使歌声波形8和伴奏波形10合成，并且，把两个波形叠加在一起，以产生并再现因此叠加的波形。因而，基于演奏数据1，通过歌声及其附属的伴奏而再现音乐。
在歌词赋予单元5基于音乐五线谱信息4而转换为歌声信息6的阶段中，如果在音乐五线谱信息4中存在歌词信息，当歌声信息6被列为优先时，就向该信息赋予所存在的歌词。如前所述，图2示出已经被赋予歌词的音乐五线谱信息4的实例，图3示出从图2音乐五线谱信息4产生的歌声信息6的实例。
此时，它是用于音乐五线谱信息4的音轨或通道的音符串，其中，音轨选择单元14基于音乐五线谱信息4而选择所述音符串，歌词赋予单元5向音符串赋予歌词。
如果在音乐五线谱信息4中在任何音轨或通道中都没有歌词，歌词赋予单元5就向音轨选择单元14选择的音符串赋予歌词，其中，音轨选择单元14基于可选歌词数据12，如‘ら’或‘ぼん’(发‘bon’音)而选择所述音符串，其中，可选歌词数据12由操作员通过歌词选择单元13事先确定的。
图5示出未分配歌词的音乐五线谱信息4的实例，图6示出与图5音乐五线谱信息相应的歌声信息6的实例，在图6中，‘ら’被登记为可选歌词元素。
此时，在图5中，时间用“小节拍分段信号数量”表示，长度用“分段信号数量”表示，速度用数字‘0-127’表示，并且，音调用‘A4’代表440Hz而表示。
参照图1，操作员通过歌词选择单元13把任何可选读物的歌词数据的赋予确定为可选歌词数据12。在操作员没有指定时，通过可选歌词数据12的缺省值设定‘ら’。
歌词选择单元13能向音轨选择单元14选择的音符串赋予歌词数据15，其中，事先在歌声合成设备的外部设置歌词数据15。
歌词选择单元13还可通过歌词产生单元17把文本数据16转换为读物，以选择可选字母/字符串作为歌词，其中，所述文本数据16例如为在文字处理器上准备的电子邮件或文件。应指出，对由日本汉字-假名混合语句组成的字母/字符串进行转换的周知技术是‘语素分析’应用。
此时，感兴趣的文本可以是在网络上分配的网上文本18。
根据本发明，如果在歌词信息中包括表示台词(语音或叙述)的信息，就可在说出歌词时，与合成声音一起大声地读台词，以取代歌词，由此在歌词中引入台词。
例如，如果在MIDI数据中有诸如‘//幸せだな一’(‘我是多么幸运啊！’，发‘shiawase-da-na-’音)的语音标签，就在歌词赋予单元5产生的歌声信息6的歌词上增加‘SP，T2345696幸せだな一’，作为表示所述歌词部分是语音的信息。在此情况下，语音部分传递给文本声音合成单元19，以产生语音波形20。很有可能使用诸如‘SP，Tspeech’的标签在字母/字符串的级别上表达代表语音的信息。
也可借助用于表示语音的时间信息，通过转而使用歌声信息中的安静信息，通过在语音之前增加静默波形而产生语音波形。
音轨选择单元14可向操作员建议音乐五线谱信息4中的音轨号、各个音轨中的通道号或歌词存在与否，以便操作员选择向音乐五线谱信息4中的哪个音轨或通道赋予哪个歌词。
在向音轨选择单元14中的音轨或通道已经赋予歌词的情况下，音轨选择单元14选择被赋予歌词的音轨或通道。
如果没有赋予歌词，就核实在操作员的命令下选择哪个音轨或通道。当然，操作员可选地向已经被赋予歌词的音轨或通道赋予可选歌词。
如果既不赋予歌词也没有操作员的命令，就向歌词赋予单元5缺省通知第一音轨的第一通道，作为感兴趣的音符串。
歌词赋予单元5基于音乐五线谱信息4，使用歌词选择单元13选择的歌词或使用在音轨或通道中描述的歌词，为音轨选择单元14所选音轨或通道表示的音符串产生歌声信息6。可为各个音轨或通道中的每一个单独执行此处理。
图7示出图1所示歌声合成设备的总体操作的流程图。
参照图7，首先输入MIDI文件的演奏数据1(步骤S1)。接着分析演奏数据1，并接着输入音乐五线谱数据4(步骤S2和S3)。随后向执行设定处理的操作员询问是选择音轨或通道作为歌词主题还是选择MIDI音轨或通道沉默(步骤S4)，其中，所述设定处理例如为选择歌词。在操作员还未执行设定的情况下，在后续处理中应用缺省设定。
随后的步骤S5-S16表示用于增加歌词的处理。如果已经从外部指定用于感兴趣音轨的歌词(步骤S5)，此歌词就在优先次序中排第一。因而，处理转移到步骤S6。如果指定的歌词是文本数据16、18，如电子邮件，文本数据就转换为读物(步骤S7)，并且，随后获得歌词。如果指定的歌词不是文本数据而例如是歌词数据15，就直接获得从外部指定的歌词，作为歌词(步骤S8)。
如果还未从外部指定歌词，就检查在音乐五线谱信息4内是否有歌词(步骤S9)。在音乐五线谱信息中存在的歌词在优先次序中排第二，从而，如果以上步骤的检查结果是肯定的，就获得音乐五线谱信息中的歌词(步骤S10)。
如果在音乐五线谱信息4中没有歌词，就检查是否已经指定可选歌词(步骤S11)。当已经指定可选歌词时，获得用于可选歌词的可选歌词数据12(步骤S12)。
如果可选歌词判定步骤S11中的检查结果是否定的，或者在歌词获得步骤S8、S10或S12之后，检查是否已经选择将被分配歌词的音轨(步骤S13)。当没有选择的音轨时，选择领先的音轨(步骤S19)。具体地，选择首先出现的音轨通道。
以上决定将被分配歌词的音轨和通道，因而，通过使用音轨中的音轨音乐五线谱信息4而从歌词准备歌声信息6。
接着检查是否已经完成对全部音轨的处理(步骤S16)。当还未完成处理时，对下一音轨执行处理，并接着回到步骤S5。
因而，当在多个音轨的每一个上增加歌词时，歌词独立地增加到单独的音轨上，以编制歌声信息6。
也就是说，对于图7所示的歌词增加处理，如果在被分析的音乐信息中没有歌词信息，就在可选的音符串中增加可选歌词。如果从外部没有指定歌词，预设的歌词元素如‘ら’或‘ぼん’就可赋予可选音符串。包含在MIDI文件的音轨或通道内的音符串也是歌词赋予的主体。另外，通过操作员设定的处理而可选地选择被分配歌词的音轨或通道(S4)。
在增加歌词的处理之后，处理转移到步骤S17，在此步骤中，通过歌声产生单元7从歌声信息6编制歌声波形8。
接着，如果在歌声信息中有语音(步骤S18)，就通过文本声音合成单元19编制语音波形20(步骤S19)。因而，当表示语音的信息已经包括在歌词信息中时，通过合成的声音大声地读语音，以取代在唱相关歌词部分时的歌词，因而在歌曲中引入语音。
接着，检查是否有静默的MIDI声源(步骤S20)。如果有静默的MIDI声源，就使相关MIDI音轨或通道静默(步骤S21)。这使已经被分配歌词的音轨或通道的音乐声静默。接着，通过MIDI声源9再现MIDI，以编制伴奏波形10(步骤S21)。
通过以上处理，产生歌声波形8、语音波形20和伴奏波形10。
通过混合单元11合成歌声波形8、语音波形20和伴奏波形10，并使其叠加在一起，以再现叠加在一起所得到的波形，作为输出波形3(步骤S23和S24)。此输出波形3通过未示出的声音系统输出，作为声信号。
在最后的步骤S24中，或在可选的中途步骤中，例如在歌声波形和语音波形的产生已经结束的阶段中，可保存处理结果，如歌词赋予结果或语音赋予结果。
上述歌声合成功能例如安装在机器人设备中。
以本发明实施例示出的用两条腿行走类型的机器人设备是在我们日常生活各个方面，如在我们的生活环境中，支持人类活动的应用机器人，并且能根据内部状态如愤怒、悲伤、快乐或幸福而动作。同时，这是能表现人类基本行为的娱乐机器人。
参照图8，机器人设备60由躯干单元62形成，躯干单元62在预定位置连接到头部单元63、左右臂单元64R/L以及左右腿单元65R/L，其中，R和L分别代表表示右和左的后缀，以下相同。
在图9中示意性地示出为机器人设备60设置的关节的自由度结构。支撑头部单元63的颈关节包括三个自由度，即颈关节偏转轴101、颈关节俯仰轴102和颈关节翻滚轴103。
组成上肢的臂单元64R/L由肩关节俯仰轴107、肩关节翻滚轴108、上臂偏转轴109、肘关节俯仰轴110、前臂偏转轴111、腕关节俯仰轴112、腕关节翻滚轴113和手单元114组成。手单元114实际上是包括多个手指的多关节多自由度结构。然而，由于手单元114的动作只在更低的程度上作用于或者影响机器人设备60的姿势控制或行走控制，因此，在本文描述中假设手单元具有零自由度。结果，每个臂单元都设置七个自由度。
躯干单元62也具有三个自由度，即，躯干俯仰轴104、躯干翻滚轴105和躯干偏转轴106。
形成下肢的每个腿单元65R/L都由臀关节偏转轴115、臀关节俯仰轴116、臀关节翻滚轴117、膝关节俯仰轴118、踝关节俯仰轴119、踝关节翻滚轴120、以及腿单元121组成。在本文描述中，臀关节俯仰轴116和臀关节翻滚轴117的交叉点规定机器人设备60的臀关节位置。尽管实际上人类的腿单元121是包括脚底的结构，其中，脚底具有多个关节和多个自由度，但是，假设机器人设备的脚底是零自由度的。结果，每条腿具有六个自由度。
总之，机器人设备60全部具有总计3+7×2+3+6×2＝32个自由度。然而，应指出，娱乐机器人设备的自由度的数量不局限于32，从而，可根据设计或制造中的约束条件或根据要求的设计参数而适当地增加或减少自由度的数量，即，关节数量。
实际上使用执行器来安装上述机器人设备60拥有的上述自由度。考虑到消除外观上过度的肿胀以接近人体自然形状的要求、以及对因两条腿行走导致的不稳定结构进行姿势控制的要求，希望执行器尺寸小且重量轻。更优选执行器设计和构造为直接传动耦合类型的小尺寸AC伺服执行器，其中，伺服控制系统布置为一个芯片并安装在电动机单元中。
图10示意性地示出机器人设备60的控制系统结构。参照图10，控制系统由思维控制模块200以及动作控制模块300组成，其中，思维控制模块200根据用户输入而动态地负责情绪判断或感觉表达，动作控制模块300控制机器人设备60全部躯体的协同动作，如驱动执行器350。
思维控制模块200是独立驱动的信息处理设备，它由执行计算与情绪判断或感觉表达的CPU(中央处理单元)211、RAM(随机存取存储器)212、ROM(只读存储器)213、以及外部存储装置(如硬盘驱动器)214组成，并且能在模块内执行自主式处理。
此思维控制模块200根据外部的刺激，如从图像输入装置251输入的图像数据或从声音输入装置252输入的声音数据，而决定机器人设备60当前的感觉或意向。图像输入装置251例如包括多个CCD(电荷耦合装置)照相机，而声音输入装置252包括多个麦克风。
思维控制模块200基于决定而发出对动作控制模块300的命令，以便执行动作或行为序列，即四肢的动作。
动作控制模块300是独立驱动的信息处理设备，它由控制机器人设备60全部躯体的协同动作的CPU(中央处理单元)311、RAM 312、ROM 313、以及外部存储装置(如硬盘驱动器)314组成，并且能在模块内执行自主式处理。外部存储装置314能储存动作表，包括脱机计算的行走方案以及目标ZMP轨迹。应指出，ZMP是在地板表面上在行走过程中从地板作用的反作用力的力矩等于零的点，而ZMP轨迹是在机器人设备60的行走周期中ZMP移动的轨迹。对于ZMP的概念以及应用ZMP作为行走机器人稳定程度的检验标准，参照Miomir Vukobratovic的“有腿移动机器人(Legged LocomotionRobots)”，以及Ichiro KATO等的“行走机器人和人造腿(WalkingRobot and Artificial Legs)”，NIKKAN KOGYO SHIMBUN-SHA出版。
通过总线接口(I/F)301连接到动作控制模块300的例如有执行器350、姿势传感器351、地板接触确认传感器352、353、以及电源控制装置354，其中，执行器350分布在图9所示机器人设备60的全部躯体上，用于实现自由度；姿势传感器351用于测量躯干单元62的倾斜姿势；地板接触确认传感器352、353用于检测左右脚的脚底的飞跃状态或站立状态；电源控制装置354用于监督诸如电池的电源。例如通过组合加速传感器和陀螺仪传感器而形成姿势传感器351，同时，地板接触确认传感器352、353中的每一个都由近程传感器或微型开关形成。
思维控制模块200和动作控制模块300在公共平台上形成，并且通过总线接口201、301互连。
动作控制模块300控制由各个执行器350产生的全部躯体的协同动作，用于实现由思维控制模块200命令的行为。也就是说，CPU 311从外部存储装置314中提取出与思维控制模块200所命令行为一致的行为方案，或者在内部产生该行为方案。CPU 311根据指定的动作方案而设定脚/腿动作、ZMP轨迹、躯干动作、上肢动作以及水平位置和腰部高度，同时向各个执行器350发送命令值，以命令执行与设定内容一致的动作。
CPU 311还基于姿势传感器351的输出信号而检测机器人设备60的躯干单元62的姿势或倾斜，同时，通过地板接触确认传感器352、353的输出信号检测腿单元65R/L是处于飞跃状态还是处于站立状态，以便适应性地控制机器人设备60全部躯体的协同动作。
CPU 311还控制机器人设备60的姿势或动作，从而，ZMP位置总是指向ZMP稳定区的中心。
动作控制模块300适于向思维控制模块200返回已经实现与思维控制模块200所做决定保持一致的行为的程度，即处理状态。
以此方式，机器人设备60能基于控制程序而核实自己的状态和周围的状态，以执行自主行为。
在此机器人设备60中，例如在思维控制模块200的ROM 213中驻留已经实施上述歌声合成功能的程序，包括数据。在此情况下，用于合成歌声的程序由思维控制模块200的CPU 211执行。
通过向机器人设备提供上述歌声合成功能，新获得机器人设备对着伴奏唱歌的表现能力，结果是该机器人设备作为娱乐机器人的性质得到增强，进一步密切机器人设备与人类的关系。
本发明不局限于上述实施例，只要不偏离本发明的范围，就可以希望的方式进行修改。
例如，尽管在上面已经示出和解释可用于歌声产生单元7的歌声信息，但也可以使用各种其它的歌声产生单元，其中，歌声产生单元7与在以下语音合成方法和设备中使用的歌声合成单元和波形产生单元相对应，所述语音合成方法和设备又用于本代理人先前提出的日本专利申请2002-73385的说明书和附图中公布的歌声产生方法和设备中。在此情况下，通过各种歌声产生单元从以上演奏数据当然足以产生包含产生歌声所需信息的歌声信息。另外，演奏数据也可以是许多标准的演奏数据，不必局限于MIDI数据。
工业应用对于根据本发明的歌声合成方法和设备，其中，演奏数据被分析为音调和音长的音乐信息以及歌词的音乐信息，基于被分析音乐信息的歌词信息而向音符串赋予歌词，在没有歌词信息时，可向被分析音乐信息中的任意音符串赋予任意歌词，并且，其中，基于因此赋予的歌词而产生歌声，可分析演奏数据，并向音符信息赋予任意歌词，以产生歌声信息并基于因此产生的歌声信息而产生歌声，其中，所述音符信息由从分析得到的音调、音长和声音速度而得到。如果在演奏数据中有歌词信息，就有可能唱出歌词。另外，可向演奏数据中的可选音符串赋予任意歌词。因而，由于不必增加在到目前为止只通过乐器声音而创造或表现音乐时的任何特殊信息而再现歌声，因此，可较大地提高音乐表现力。
根据本发明的程序允许计算机执行本发明的歌声合成功能。在根据本发明的记录介质上记录此程序，并且，此介质是计算机可读的。
对于根据本发明的程序和记录介质，其中，演奏数据被分析为音调和音长的音乐信息以及歌词的音乐信息，基于被分析音乐信息的歌词信息而向音符串赋予歌词，在没有歌词信息时，可向被分析音乐信息中的任意音符串赋予任意歌词，并且，其中，基于因此赋予的歌词而产生歌声，可分析演奏数据，并向音符信息赋予任意歌词，以产生歌声信息并基于因此产生的歌声信息而产生歌声，其中，所述音符信息由从分析得到的音调、音长和声音速度而得到。如果在演奏数据中有歌词信息，就有可能唱出歌词。另外，可向演奏数据中的可选音符串赋予任意歌词。
根据本发明的机器人设备能实现根据本发明的歌声合成功能。也就是说，对于根据本发明的基于被提供的输入信息而执行动作的自主机器人设备，输入演奏数据被分析为音调和音长的音乐信息以及歌词的音乐信息，基于被分析音乐信息的歌词信息而向音符串赋予歌词，在没有歌词信息时，可向被分析音乐信息中的任意音符串赋予任意歌词，并且，其中，基于因此赋予的歌词而产生歌声，可分析输入的演奏数据，并向音符信息赋予任意歌词，以产生歌声信息并基于因此产生的歌声信息而产生歌声，其中，所述音符信息由从分析得到的音调、音长和声音速度而得到。如果在演奏数据中有歌词信息，就有可能唱出歌词。另外，可向演奏数据中的可选音符串赋予任意歌词。结果是可提高机器人设备的表现力，作为娱乐机器人的机器人设备的性质得到增强，进一步密切机器人设备与人类的关系。
权利要求
1.一种用于合成歌声的方法，包括分析步骤，所述分析步骤把演奏数据分析为音调和音长以及歌词的音乐信息；歌词赋予步骤，所述歌词赋予步骤基于被分析音乐信息的歌词信息而向音符串赋予歌词，并且，在没有歌词信息的情况下，向可选音符串赋予可选歌词；以及歌声产生步骤，所述歌声产生步骤基于赋予的歌词而产生歌声。
2.如权利要求1所述的歌声合成方法，其中所述演奏数据是MIDI文件的演奏数据。
3.如权利要求1所述的歌声合成方法，其中在从外部没有指定具体歌词的情况下，所述歌词赋予步骤向可选音符串赋予预定歌词。
4.如权利要求2所述的歌声合成方法，其中所述歌词赋予步骤向包括在所述MIDI文件的音轨或通道中的音符串赋予歌词。
5.如权利要求4所述的歌声合成方法，其中所述歌词赋予步骤任意地选择所述音轨或通道。
6.如权利要求4所述的歌声合成方法，其中所述歌词赋予步骤向在演奏数据中首先出现的音轨或通道的音符串赋予歌词。
7.如权利要求4所述的歌声合成方法，其中所述歌词赋予步骤向多个音轨或通道中的每一个赋予独立的歌词。
8.如权利要求2所述的歌声合成方法，其中所述歌词赋予步骤储存歌词赋予的结果。
9.如权利要求2所述的歌声合成方法，进一步包括语音插入步骤，在所述歌词信息中包括表示语音的信息的情况下，所述语音插入步骤通过合成声音大声读语音，以取代在唱歌词时的所述歌词，从而在歌曲中引入语音。
10.一种用于合成歌声的设备，包括分析装置，所述分析装置把演奏数据分析为音调和音长以及歌词的音乐信息；歌词赋予装置，所述歌词赋予装置基于被分析音乐信息的歌词信息而向音符串赋予歌词，并且，在没有歌词信息的情况下，向可选音符串赋予可选歌词；以及歌声产生装置，所述歌声产生装置基于赋予的歌词而产生歌声。
11.如权利要求10所述的歌声合成设备，其中所述演奏数据是MIDI文件的演奏数据。
12.如权利要求10所述的歌声合成设备，其中在从外部没有指定具体歌词的情况下，所述歌词赋予装置向可选音符串赋予预定歌词。
13.如权利要求11所述的歌声合成设备，其中所述歌词赋予装置向包括在所述MIDI文件的音轨或通道中的音符串赋予歌词。
14.如权利要求11所述的歌声合成设备，进一步包括语音插入装置，在所述歌词信息中包括表示语音的信息的情况下，所述语音插入装置通过合成语音大声读语音，以取代在唱歌词时的所述歌词，从而在歌曲中引入语音。
15.一种使计算机执行预设处理的程序，所述程序包括分析步骤，所述分析步骤把输入演奏数据分析为音调和音长以及歌词的音乐信息；歌词赋予步骤，所述歌词赋予步骤在被分析音乐信息中没有歌词信息的情况下，向任意音符串赋予任意歌词；以及歌声产生步骤，所述歌声产生步骤基于赋予的歌词而产生歌声。
16.如权利要求15所述的程序，其中所述演奏数据是MIDI文件的演奏数据。
17.如权利要求16所述的程序，进一步包括语音插入步骤，在所述歌词信息中包括表示语音的信息的情况下，所述语音插入步骤通过合成语音大声读语音，以取代在唱歌词时的所述歌词，从而在歌曲中引入语音。
18.一种其上记录用于使计算机执行预设处理的程序的计算机可读记录介质，所述程序包括分析步骤，所述分析步骤把输入演奏数据分析为音调和音长以及歌词的音乐信息；歌词赋予步骤，所述歌词赋予步骤基于被分析音乐信息的歌词信息而向音符串赋予歌词，并且，在没有歌词信息的情况下，向可选音符串赋予可选歌词；以及歌声产生步骤，所述歌声产生步骤基于赋予的歌词而产生歌声。
19.如权利要求18所述的记录介质，其中所述演奏数据是MIDI文件的演奏数据。
20.一种根据被提供的输入信息而执行动作的自主机器人设备，包括分析装置，所述分析装置把演奏数据分析为音调和音长以及歌词的音乐信息；歌词赋予装置，所述歌词赋予装置基于被分析音乐信息的歌词信息而向音符串赋予歌词，并且，在没有歌词信息的情况下，向可选音符串赋予可选歌词；以及歌声产生装置，所述歌声产生装置基于赋予的歌词而产生歌声。
21.如权利要求20所述的机器人设备，其中所述演奏数据是MIDI文件的演奏数据。
全文摘要
本发明涉及歌声合成方法和设备、程序、记录介质以及机器人设备，其中具体公开了一种利用诸如MIDI数据的演奏数据而合成歌声的歌声合成方法。接收的演奏数据被分析为音调和音长以及歌词的音乐信息(S2，S3)。如果在被分析的音乐信息中没有歌词信息，就向音符串任意赋予歌词(S9、S11、S12、S15)。基于赋予的歌词而产生歌声(S17)。
文档编号G10H7/00GK1761992SQ20048000757
公开日2006年4月19日申请日期2004年3月19日优先权日2003年3月20日
发明者小林贤一郎申请人:索尼株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：小林贤一郎
技术所有人：索尼株式会社
我是此专利的发明人

上一篇：有定制辅助性能的电声乐器的制作方法
上一篇：浮点数字信号的可逆编码方法、解码方法及其装置和程序的制作方法