音频信息播放方法及装置、音频信息生成方法及装置和程序与流程

文档序号:27651489发布日期:2021-11-29 20:25阅读:188来源:国知局
音频信息播放方法及装置、音频信息生成方法及装置和程序与流程

1.本发明涉及一种音频信息播放方法及装置、音频信息生成方法及装置和程序。


背景技术:

2.以往,已知对将用于歌唱的将多个音节分别与音符相关联的数据(歌唱合成用乐谱)进行播放的技术。下述专利文献1的装置能够通过将歌唱合成用乐谱与用户的演奏操作相应地进行歌唱合成,从而实时地改变歌唱语音的音调(pitch)、发音期间。另外,通过对歌唱合成用乐谱进行歌唱合成并转换为波形(wave)数据,也能够生成将多个音节各自的波形数据进行了时间序列化得到的音频信息。
3.专利文献1:日本专利4735544号公报


技术实现要素:

4.但是,一旦将歌唱合成用乐谱进行歌唱合成并转换为音频信息,则该音频信息的各音节的发音定时、发音长度被确定。因此,在通过歌唱合成而生成的音频信息的播放中,难以根据用户的意愿以自然的形式改变发音、消音。即,音频信息通常以时间序列进行播放,但不是适合于与演奏操作等相应地实时地按希望进行播放控制的信息。因此,关于实现音频信息的实时且所希望的播放控制,存在改善的余地。
5.本发明的目的是提供一种能够实现音频信息的实时且所希望的播放控制的音频信息播放方法及装置、音频信息生成方法及装置和程序。
6.根据本发明的一个方式,提供了一种音频信息播放方法,读出音频信息,该音频信息是将确定了发音音高及发音顺序的多个发声单位各自的波形数据进行了时间序列化而得到的,读出分割信息,该分割信息与所述音频信息相关联,且针对每个所述发声单位而对播放开始位置、循环开始位置、循环结束位置及播放结束位置进行规定,取得音符开信息及音符关信息,与取得了所述音符开信息或所述音符关信息这一情况相应地,基于所述分割信息而使所述音频信息的播放位置移动,与取得了对应于所述音符开信息的所述音符关信息这一情况相应地,开始进行播放对象的发声单位的所述循环结束位置至所述播放结束位置的播放。
7.根据本发明的其他方式,提供一种音频信息生成方法,其生成音频信息,该音频信息与取得了音符开信息或音符关信息这一情况相应地被播放,是将确定了发音音高及发音顺序的多个发声单位各自的波形数据进行了时间序列化而得到的,在该音频信息生成方法中,取得歌唱合成用乐谱,该歌唱合成用乐谱是将指定应当合成的歌唱语音的音高的信息与乐曲的进展相匹配地进行了时间序列化而得到的,通过对所述歌唱合成用乐谱进行歌唱合成,从而生成所述音频信息,并且将分割信息与所述音频信息相关联,其中,该分割信息针对所述歌唱合成用乐谱的每个发声单位,分别对与音符开信息相应地开始播放的播放开始位置、循环开始位置、循环结束位置及播放结束位置进行规定,该播放结束位置是与取得了音符关信息这一情况相应地结束播放的位置。
8.发明的效果
9.根据本发明的一个方式,能够实时且按希望对音频信息的播放进行控制。
10.根据本发明的其他方式,能够实时地生成能够按希望进行播放控制的音频信息。
附图说明
11.图1是音频信息播放装置的框图。
12.图2是表示歌唱合成用乐谱与播放用数据的关系的概念图。
13.图3是音频信息播放装置的功能框图。
14.图4是表示音频信息的波形样本数据的一部分和分割信息的概念图。
15.图5是例示出在歌唱合成用乐谱的针对1个乐句的分割信息的图。
16.图6是例示出在歌唱合成用乐谱的针对1个乐句的分割信息的图。
17.图7是实时播放处理的流程图。
18.图8是例示出歌唱合成用乐谱的针对1个乐句的分割信息的变形例的图。
具体实施方式
19.下面,参照附图说明本发明的实施方式。
20.图1是应用了本发明的一个实施方式涉及的音频信息播放方法的音频信息播放装置的框图。该音频信息播放装置100具有对音频信息进行播放的功能。音频信息播放装置100可以兼用作具有生成音频信息的功能的装置。因此,本发明所应用的装置的名称是任意的。例如,在本发明主要应用于具有对音频信息进行播放的功能的装置的情况下,可以将本装置称为应用音频信息播放方法的音频信息播放装置。另外,在本发明主要应用于具有生成音频信息的功能的装置的情况下,可以将称为本装置应用音频信息生成方法的音频信息生成装置。
21.该音频信息播放装置100具有总线23、cpu(central processingunit:中央处理装置)10、计时器11、rom(read only memory:只读存储器)12、ram(random access memory:随机存取存储器)
22.13及存储部14。另外,音频信息播放装置100具有演奏操作件15、设定操作件17、显示部18、音源19、效果电路20、音响系统21及通信i/f(interface:接口)22。
23.总线23进行音频信息播放装置100的各部之间的数据传送。cpu 10是进行音频信息播放装置100整体的控制的中央处理装置。计时器11是测量时间的模块。rom 12是对控制程序、各种数据等进行储存的非易失性存储器。ram 13是作为cpu 10的工作区域和各种缓冲器等而使用的易失性存储器。显示部18是液晶显示面板、有机el(electro

luminescence:电致发光)面板等显示模块。显示部18对音频信息播放装置100的动作状态、各种设定画面、针对用户的消息等进行显示。
24.演奏操作件15是主要接收对音高及定时进行指定的演奏操作的模块。在本实施方式,能够按照演奏操作件15的操作而对音频信息(音频数据)进行播放。音频信息播放装置100例如构成为键盘乐器型,演奏操作件15包含键盘部的多个键(未图示)。但是,音频信息播放装置100的形式是任意的,演奏操作件15只要是对音高及定时进行指定的操作件,则可以是其它形式,例如弦。另外,演奏操作件15不限于物理操作件,可以是通过软件而显示于
画面上的虚拟演奏操作件。
25.设定操作件17是用于进行各种设定的操作模块。外部存储装置3例如能够连接于音频信息播放装置100。存储部14例如是硬盘或非易失性存储器。通信i/f 22是用于与外部设备通信的通信模块。通信i/f 22也可以包含midi(musical instrument digital interface:乐器数字接口)接口、usb(universal serial bus:通用串行总线)等。用于实现本发明的程序可以预先储存于rom 12,或者也可以经由通信i/f 22取得而存储于存储部14。
26.此外,并非必须将图1所示的硬件的至少一部分内置于音频信息播放装置100,也可以通过经由usb等接口而连接的外部装置来实现。另外,设定操作件17等也可以是显示于画面而进行触摸操作的虚拟操作件。
27.存储部14还可以对1个以上的歌唱合成用乐谱25和1个以上的播放用数据28进行储存(参照图2)。在歌唱合成用乐谱25包含为了合成歌唱所需的信息、歌词文本数据。为了合成歌唱所需的信息包含音符(note)的开始时刻及结束时刻、音符的音高、音符内的发音标记以及用于带表情的附加参数(颤音、辅音长度的指定等)。歌词文本数据是记述了歌词的数据,以音节单位进行划分而记述了每个乐曲的歌词。即,歌词文本数据具有将歌词以音节划分的字符信息,该字符信息也是与音节相对应的显示用的信息。这里,音节是指作为一完整的音而被意识并发音的单位。在本实施方式,与1个音符相关联的1个或多个语音“组”被称为“发声单位”。“音节”是“发声单位”的一个例子。作为“发声单位”的另一个例子,举出“音拍(mora)”。音拍表示具有一定时间长度的声音的单位。例如,音拍表示与日语的
“かな
(ka na假名)”1个字符相当的时间长度的单位。作为“发声单位”,可以使用“音节”或“音拍”中的任一者,或者可以在乐曲或乐句中将“音节”及“音拍”混在一起使用。例如,可以根据演唱或歌词而区分使用“音节”及“音拍”。
28.此外,音位信息数据库被存储于存储部14,在歌唱合成时被音源19参照。音位信息数据库是对语音片段数据进行储存的数据库。语音片段数据是表示语音的波形的数据,例如包含语音片段的样本列的频谱数据作为波形数据。在语音片段数据包含表示语音片段的波形的音调的片段音调数据。歌词文本数据、语音片段数据可以分别由数据库进行管理。
29.音源19将演奏数据等转换为声音信号。在基于歌唱合成用定序数据即歌唱合成用乐谱25对歌唱声音进行发音的情况下,音源19参照从存储部14读出的音位信息数据库,生成合成歌唱语音的波形数据即歌唱声音数据。效果电路20将指定的音响效果应用到由音源19生成的歌唱声音数据。音响系统21通过数字/模拟转换器将由效果电路20处理后的歌唱声音数据转换为模拟信号。而且,音响系统21将转换为模拟信号后的歌唱声音进行放大而从扬声器等输出。
30.在本实施方式,关于音频信息26的播放,除了从乐曲的开头起按顺序播放的正常播放以外,还可以进行按照演奏操作件15的操作而播放的实时播放。此外,音频信息26可以预先存储于存储部14,也可以事后从外部取得。并且,cpu 10还可以通过对歌唱合成用乐谱25进行歌唱合成并将其转换为wave数据而生成音频信息26。
31.图2是表示歌唱合成前的歌唱合成用乐谱25与播放用数据28的关系的概念图。播放用数据28是带有分割信息的音频信息,由音频信息26和与音频信息26相关联的分割信息27构成。歌唱合成用乐谱25是使指定应当合成的歌唱语音的音高的信息与乐曲的进展相匹
配地进行了时间序列化的数据。歌唱合成用乐谱25由多个乐句(乐句a~e)构成。除了乐曲的开头和末尾,休止符与休止符之间的连续地发音的一整套的音节组(有时是1个音节)相当于1个乐句。或者,休止符与休止符之间的一整套的音拍组(有时是1个音拍)相当于1个乐句。或者,休止符与休止符之间的音节及音拍的集合相当于1个乐句。即,1个乐句由1个或多个“发声单位”构成。
32.对歌唱合成用乐谱25进行歌唱合成而生成的音频信息26具有与歌唱合成用乐谱25的乐句(乐句a~e)相对应的多个乐句(乐句a~e)。因此,音频信息26是将确定了发音音高及发音顺序的多个音节各自的波形数据(多个波形样本)进行了时间序列化的波形样本数据。
33.如图2所示,在音频信息26的播放中,使用全局播放指针pg和本地的播放指针pl。全局播放指针pg是用于确定在音符开时播放哪个音符的全局的位置信息。播放指针pl是对根据全局播放指针pg而成为播放对象的特定音符内的播放位置进行指示的位置信息。在实时播放中,全局播放指针pg按照演奏操作件15的操作而以音符单位进行移动。另外,cpu 10基于与音频信息26相关联的分割信息27,在播放对象的音符内使播放指针pl移动。换言之,如图2所示,全局播放指针pg在音节的分割处移动,播放指针pl在音节内移动。换言之,全局播放指针pg以“发声单位”移动,播放指针pl在“发声单位”内移动。后面在图4中对音频信息26的波形样本及分割信息27的具体例进行叙述。
34.为了创建分割信息27,音源19在将歌唱合成用乐谱25转换为音频信息26时,输出附加信息。该附加信息针对音源19的每个合成帧单位(例如256个样本)而输出。在音频信息,各音节由多个语音片段构成。而且,各语音片段由多个帧构成。即,在音频信息中,各“发声单位”由多个语音片段构成。该附加信息例如包含在该帧中使用的片段样本(在图5后述的[sil

dz]、[i]等)、该帧的片段样本内的位置(表示是[sil

dz]中的sil、dz的哪一侧的位置的信息)。此外,上述附加信息也可以包含该帧的合成音调及相位信息。cpu 10通过在附加信息和歌唱合成用乐谱25之间进行匹配而对与各音符开相应地应当播放的分割信息27进行确定。此外,在不能取得上述附加信息的情况下(在输入了自然歌唱语音等的情况下),也可以使用音素识别器而取得与附加信息相当的信息。
[0035]
图3是音频信息播放装置100的功能框图。音频信息播放装置100具有第1读出部31、第2读出部32、第1取得部33、点移动部34及播放部35,作为与音频信息播放相关的主要功能块。音频信息播放装置100具有第2取得部36及生成部37,作为与音频信息生成相关的主要功能块。
[0036]
关于音频信息播放功能,第1读出部31及第2读出部32的功能主要通过cpu 10、ram 13、rom 12和存储部14的协同动作而实现。第1取得部33的功能主要通过演奏操作件15、cpu 10、ram13、rom 12以及计时器11的协同动作而实现。点移动部34的功能主要通过cpu 10、ram 13、rom 12、计时器11以及存储部14的协同动作而实现。播放部35的功能主要通过cpu 10、ram 13、rom12、计时器11、存储部14、效果电路20以及音响系统21的协同动作而实现。
[0037]
第1读出部31从存储部14等读出音频信息26。第2读出部32从存储部14等读出与音频信息26相关联的分割信息27。第1取得部33检测演奏操作件15的操作,根据检测结果而取得音符开信息及音符关信息。此外,演奏操作件15的操作检测的机构是任意的,例如可以是以光学方式检测操作的机构。此外,音符开信息及音符关信息也可以是从外部经由通信而
取得的信息。与所取得的音符开信息或音符关信息相应地,点移动部34基于分割信息27而使全局播放指针pg和/或播放指针pl移动。
[0038]
在图4说明与播放部35相关的详细动作。概略地叙述,首先,与取得了音符开信息这一情况相应地,播放部35从由全局播放指针pg所示的播放对象的音节的播放开始位置(在该时间点,播放指针pl所示的位置)起开始进行播放。另外,在播放指针pl到达循环区间的情况下,播放部35进入循环区间的循环播放。并且,对应于取得了与音符开信息对应的音符关信息这一情况,播放部35开始进行从播放对象的音节的循环区间的末端即循环结束位置至播放结束位置的播放。与音符开信息对应的音符关信息例如是通过对与演奏操作件15所包含的键中的被进行了按压操作的键相同的键进行放开操作而取得的信息。
[0039]
另一方面,关于音频信息生成功能,第2取得部36的功能主要通过cpu 10、ram 13、rom 12以及存储部14的协同动作而实现。生成部37的功能主要通过cpu 10、ram 13、rom 12、计时器11及存储部14的协同动作而实现。第2取得部36从存储部14等取得歌唱合成用乐谱25。生成部37通过对所取得的歌唱合成用乐谱25进行歌唱合成而生成音频信息26,并且针对歌唱合成用乐谱25的每个音节而使分割信息27与所生成的音频信息26相关联。通过该处理,生成部37生成播放用数据28。此外,实时使用的播放用数据28不限于由生成部37生成的数据。
[0040]
图4是表示音频信息26的波形样本数据的一部分和分割信息27的概念图。在图4中,由箭头表示音频信息26的播放顺序的例子。音频信息26通常以1个乐曲为单位,但是在图4,示出由5个音节构成的乐句的波形。将与该乐句中的5个音节相对应的波形样本数据依次称为样本sp1、sp2、sp3、sp4、sp5。各样本sp与歌唱合成前的歌唱合成用乐谱25的各音节相对应。通过与音频信息26相关联的分割信息27,针对每个样本sp(对应的每个音节)而规定了播放开始位置s、循环区间rp、接合部c及播放结束位置e。循环区间rp是从循环开始位置为起始并在循环结束位置结束的区间。播放开始位置s表示与音符开信息相应地开始播放的位置。循环区间rp是成为循环播放的对象的播放区间。播放结束位置e表示与取得了音符关信息这一情况相应地结束播放的位置。在乐句内相邻的样本sp彼此的边界是接合部c(c1~c4)。
[0041]
例如,对于样本sp1,规定了播放开始位置s1、循环区间rp1及播放结束位置e1。相同地,对于样本sp2~sp5,分别规定了播放开始位置s2~s5、循环区间rp2~rp5及播放结束位置e2~e5。
[0042]
接合部c1是样本sp1、sp2之间的分割位置,与播放开始位置s2及播放结束位置e1一致。接合部c2是样本sp2、sp3之间的分割位置,与播放开始位置s3及播放结束位置e2一致。接合部c3是样本sp3、sp4之间的分割位置,与播放开始位置s4及播放结束位置e3一致。接合部c4是样本sp4、sp5之间的分割位置,与播放开始位置s5及播放结束位置e4一致。
[0043]
在乐句中,对于在前后两侧具有相邻的样本sp的样本sp(图4中样本sp2~sp4),播放开始位置s、播放结束位置e分别与前侧的样本sp的播放结束位置e、后侧的样本sp的播放开始位置s相同。乐句中的开头的样本sp(音节)(图4中sp1)的播放开始位置s是该样本sp的前端位置。乐句中的最末尾的样本sp(音节)(图4中sp5)的播放结束位置e是该样本sp的末端位置。循环区间rp是歌唱合成用乐谱25的音节的与固定部(stationary part元音部)相对应的区间。
[0044]
基于这样的分割信息27,与用户对演奏操作件15进行操作的情况相应地,以如下方式进行播放。第1取得部33如果检测到对演奏操作件15进行了按下操作,则取得音符开信息,如果检测到对被按下操作的演奏操作件15进行了放开操作,则取得音符关信息。
[0045]
例如设为,在不存在比样本sp1靠前的乐句、或比样本sp1靠前的乐句的播放结束的状态下,设为取得了音符开信息。这样,点移动部34使全局播放指针pg移动至播放开始位置s1,并且将播放指针pl设定于播放开始位置s1。这样,样本sp1成为播放对象,播放部35开始从播放开始位置s1起进行播放。在从播放开始位置s1进行播放之后,以规定的播放速度由点移动部34使播放指针pl向后逐渐移动。该规定的播放速度例如与在将歌唱合成用乐谱25进行歌唱合成而生成音频信息26时的播放速度相同。如果播放指针pl到达循环区间rp1的前端即循环开始位置,则进入循环区间rp1的播放。
[0046]
在执行实时演奏的循环区间rp1的播放时,播放部35可以将循环区间rp1的音高转换为基于音符开信息的音高而播放。在这种情况下,根据演奏操作件15中的哪一个键被按下而改变播放音高。
[0047]
例如,播放部35可以基于与样本sp1相对应的歌唱合成用乐谱25的音高及所输入的音符开的音高信息,以成为与音符开相应的音高的方式进行音调移位(pitch shift)而播放。此外,不仅仅可以将音调移位应用于循环区间rp1,还可以应用于整个样本sp1。
[0048]
最后,如果播放指针pl到达循环区间rp的末端即循环结束位置,则点移动部34使播放指针pl的移动方向反转,使播放指针pl向循环区间rp1的前端即循环开始位置移动。然后,如果播放指针pl到达循环开始位置,则点移动部34将播放指针pl的移动方向返回至正向(后方),使播放指针pl朝向循环结束位置移动。循环区间rp1中的播放指针pl的移动方向的反转直至取得与此次的音符开信息相对应的音符关信息为止反复。因此,循环区间rp被循环播放。最后,如果取得音符关信息,则点移动部34使播放指针pl从届时的播放位置跳转至循环区间rp1的末端即循环结束位置。然后,播放部35开始进行从循环结束位置至播放结束位置e1的播放。此时,播放部35也可以通过进行交叉衰减(cross

fade)播放而平滑地进行播放。此外,即使在播放指针pl到达循环区间rp1之前取得了音符关信息的情况下,点移动部34也使播放指针pl跳转至循环结束位置。
[0049]
如果在开始了从循环区间rp1的末端即循环结束位置起的播放之后,至下一个播放结束位置e即播放结束位置e1为止的播放结束,则播放部35结束样本sp1的播放。与此同时,播放部35将本地的播放指针pl废弃。然后,如果取得下一个音符开信息,则作为定序位置的同定处理,首先,点移动部34判断全局播放指针pg的移动目标,使全局播放指针pg向移动目的地移动。例如,如果设为使全局播放指针pg移动至播放开始位置s2,则接下来播放部35按照将播放开始位置s2设定为播放开始位置的新的播放指针pl而开始样本sp2的播放。
[0050]
此后的样本sp2的播放动作与样本sp1的播放动作相同。另外,样本sp3、sp4的播放动作也与样本sp1的播放动作相同。对于样本sp5,如果循环区间rp5的从循环结束位置至播放结束位置e5的播放结束,则图4中所示的乐句的播放结束。对于图4所示的乐句,在存在后续的乐句的情况下,点移动部34使全局播放指针pg移动至后续的乐句的开头的样本sp的前端。在图4所示的乐句是音频信息26的最终乐句的情况下,音频信息26的播放结束。
[0051]
此外,循环区间rp的循环播放的方法是任意的。因此,可以不是在循环区间rp往复的方式,而是从循环开始位置至循环结束位置为止重复进行正向的播放的方式。另外,也可
以使用时间伸缩技术而实现循环播放。
[0052]
利用图5、图6,说明在生成部37(图3)根据歌唱合成用乐谱25而生成播放用数据28时,如何将分割信息27与音频信息26相关联。此外,如果限定于实现本发明的音频信息播放方法,则也可以通过对通常的音频信息进行解析而在事后将分割信息27相关联。但是,为了以更高的精度对分割信息27进行关联,生成部37在对歌唱合成用乐谱25进行歌唱合成而生成音频信息26的阶段,生成分割信息27而进行关联。此外,播放开始位置s1、循环区间rp1(循环开始位置及循环结束位置)、接合部c及播放结束位置e1并非必须与音频信息26中的图4例示出的位置相关联。分割信息27的内容根据在生成播放用数据28时所应用的规则而不同。在图5、图6,对为了能够进行自然的发音的分割信息27的设定的代表例进行说明,后面在图8对变形例进行叙述。
[0053]
图5、图6是例示出歌唱合成用乐谱25的针对1个乐句的分割信息的图。在图5例示出针对如下乐句的分割信息,该乐句由日语的
“じ
(发音为[ji]的日语字符)”、
“こ
(发音为[ko]的日语字符)”、
“ちゅ
()发音为[cyu]的日语字符”这3个音节构成。在图6例示出针对由英语的“i”、“test”、“it”这3个音节构成的乐句的分割信息。图5、图6所示的歌唱合成用乐谱25中的播放开始位置s(s1~s3)、播放结束位置e(e1~e3)分别与图4所示的音频信息26的播放开始位置s、播放结束位置e相对应。另外,图5、图6所示的歌唱合成用乐谱25的循环区间loop(loop1~loop3)、接合部c(c1、c2)分别与图4所示的音频信息26的循环区间rp、接合部c相对应。
[0054]
在图5、图6中,将音节由作为一个例子而基于x

sampa(extended speech assessment methods phonetic alphabet)的形式的音素符号表示。在构成歌唱合成用乐谱25的语音片段数据库,存储有[a]和[i]这样的单个音素的语音片段数据、或[a

i]、[a

p]这样的音素链的语音片段数据。
[0055]
在图5的例子中,
“じ
(发音为[ji]的日语字符)”、
“こ
(发音为[ko]的日语字符)”、
“ちゅ
(发音为[cyu]的日语字符)”为表音字符。如果将
“じ
(发音为[ji]的日语字符)”用音素符号表示,则为[dz

i]。如果将
“こ
(发音为[ko]的日语字符)”用音素符号表示,则为[k

o]。如果将
“ちゅ
(发音为[cyu]的日语字符)”用音素符号表示,则为[ts

m]。在歌唱合成用乐谱25中,乐句的开头音节的语音片段的标记以“sil
‑”
开始,最后的音节的语音片段的标记以
“‑
sil”结束。另外,在连接发音的音素之间,配置音素链的语音片段。因此,如果将作为1个乐句而连接发音的情况下的
“じ
(发音为[ji]的日语字符)”、
“こ
(发音为[ko]的日语字符)”、
“ちゅ
(发音为[cyu]的日语字符)”用音素符号表示,则为[sil

dz][dz

i][i][i

k][k

o][o][o

ts][ts

m][m][m

sil]。
[0056]
关于播放开始位置s,乐句中的开头的音节即
“じ
(日语字符[ji])”的播放开始位置s1是语音片段[sil

dz]中的dz的前端位置。另外,乐句中的相邻的2个音节中的后侧的音节的播放开始位置s是由前侧的音节的最后的音素和后侧的音节的最初的音素构成的语音片段的后端位置。例如,对于相邻的
“じ
(日语字符[ji])”、
“こ
(日语字符[ko])”中的
“こ
(日语字符[ko])”,由
“じ
(日语字符[ji])”的最后的音素(i)和
“こ
(日语字符[ko])”的最初的音素(k)构成的语音片段[i

k]的后端位置成为播放开始位置s2。对于
“こ
(日语字符[ko])”、
“ちゅ
(日语字符[cyu])”中的
“ちゅ
(日语字符[cyu])”,语音片段[o

ts]的后端位置成为播放开始位置s3。
[0057]
关于播放结束位置e,前侧的音节的播放结束位置e是与后侧的音节的播放开始位置s相同的位置。例如,相邻的
“じ
(日语字符[ji])”、
“こ
(日语字符[ko])”中的
“じ
(日语字符[ji])”的播放结束位置e1是与
“こ
(日语字符[ko])”的播放开始位置s2相同的位置。
“こ
(日语字符[ko])”、
“ちゅ
(日语字符[cyu])”中的
“こ
(日语字符[ko])”的播放结束位置e2是与
“ちゅ
(日语字符[cyu])”的播放开始位置s3相同的位置。另外,乐句中的最后的音节即
“ちゅ
(日语字符[cyu])”的播放结束位置e3是语音片段[m

sil]中的m的后端位置。
[0058]
语音片段[i]、[o]、[m]是各音节的固定部。这些固定部的区间为loop1、loop2、loop3。另外,接合部c1、c2分别是与播放结束位置e1、e2相同的位置。如上所述,在日语的乐句中,接合部c位于辅音和辅音之间。
[0059]
生成部37在对歌唱合成用乐谱25进行歌唱合成而生成音频信息26的阶段,生成分割信息27。此时,生成部37生成分割信息27,该分割信息27使播放开始位置s、循环区间loop(循环开始位置及循环结束位置)、接合部c及播放结束位置e分别与播放开始位置s、循环区间rp(循环开始位置及循环结束位置)、接合部c及播放结束位置e相关联。然后,生成部37通过将所生成的分割信息27与音频信息26相关联而生成播放用数据28。因此,在音频信息26中,各乐句中的相邻的多个音节中的开头的音节的播放开始位置s成为该开头的音节的前端位置。另外,在音频信息26中,各乐句中的相邻的多个音节中的最末尾的音节的播放结束位置e成为该最末尾的音节的末端位置。
[0060]
此外,在对歌唱合成用乐谱25进行歌唱合成时,有时针对歌唱合成用乐谱25的每个音节而固定部的区间(循环区间loop)的长度小于规定时间。在这种情况下,由于循环区间rp过短,可能不能适当地进行循环播放。因此,生成部37可以将使得固定部的区间的长度成为所述预定时间以上的长度的区间设定为分割信息27中的循环区间rp。
[0061]
接下来,在图6的例子中,如果将“i”、“test”、“it”用音素符号表示,则成为[sil

ai][ai][ai

t][t

e][e][e

s][s

t][t

i][i][i

t][t

sil]。
[0062]
关于播放开始位置s,乐句中的开头的音节即“i”的播放开始位置s1是语音片段[sil

ai]中的ai的前端位置。“test”的播放开始位置s2是语音片段[ai

t]的后端位置。“it”的播放开始位置s3是语音片段[s

t]的后端位置。
[0063]
关于播放结束位置e,“i”的播放结束位置e1是与“test”的播放开始位置s2相同的位置。“test”的播放结束位置e2是与“it”的播放开始位置s3相同的位置。另外,乐句中的最后的音节即播放结束位置e3是语音片段[t

sil]中的t的后端位置。
[0064]
图7是实时播放处理的流程图。该处理例如通过由cpu 10将存储于rom 12的程序展开至ram 13并执行而实现。
[0065]
如果电源接通,则cpu 10直至从用户接收到选择要演奏的乐曲的操作为止等待(步骤s101)。此外,在经过一定时间也没有乐曲选择的操作的情况下,cpu 10也可以判断为选择了默认设定的乐曲。cpu 10如果接收到乐曲的选择,则执行初始设定(步骤s102)。在该初始设定中,cpu 10读出所选择的乐曲的播放用数据28(音频信息26及分割信息27),并且将定序位置设定为初始位置。即,cpu10使全局播放指针pg及播放指针pl位于音频信息26的开头乐句的开头音节的前端。
[0066]
接下来,cpu 10对是否检测到基于演奏操作件15的操作的音符开(取得了音符开信息)进行判别(步骤s103)。而且,cpu 10在未检测到音符开的情况下,对是否检测出音符
关(取得了音符关信息)进行判别(步骤s107)。另一方面,在检测出音符开的情况下,cpu 10执行定序位置的同定处理(步骤s104)。
[0067]
在该同定处理中,确定全局播放指针pg及本地的播放指针pl的位置。例如,如果前一个音符开的时刻和当前音符开的时刻之差为规定值以上,则全局播放指针pg前进1个位置。此外,也可以与实时播放处理并行地对选择乐曲的伴奏进行播放。在这种情况下,可以使全局播放指针pg追随伴奏的播放位置而移动。或者,也可以与全局播放指针pg的移动相匹配地演奏伴奏。
[0068]
如果以图4所示的例子进行说明,则例如在全局播放指针pg及播放指针pl位于样本sp1的播放开始位置s1的情况下,cpu 10开始在样本sp1中使播放指针pl前进的处理。在播放指针pl位于循环区间rp1的情况下(循环播放中),cpu 10使播放指针pl前进以使得在循环区间rp1内往复。
[0069]
此外,在上述同定处理中,在一定时间内通过多个按键而检测出多个音符开的情况下,cpu 10也可以不使全局播放指针pg的位置前进,而是使样本sp1在多个音阶以和音的方式发音。或者,cpu10可以使全局播放指针pg的位置前进,使得样本sp1和样本sp2以各个音阶同时发音。此外,在保持一定时间间隔而进行了2个按键的情况下,在步骤s103中判别为yes之后,在步骤s107中判别为yes,之后,再次在步骤s103中判别为yes。
[0070]
此外,可以设为即使在多个键被同时操作的情况下也仅输出单音的结构。在这种情况下,可以按照被同时操作的键的音高中的最高的音高进行处理,也可以按照最低的音高进行处理。在一定时间内有多个按键的情况下,也可以按照最后按下的键的音高进行处理。
[0071]
接下来,在步骤s105中,cpu 10读出音频信息26中的定序位置的样本。在步骤s106中,cpu 10开始进行使在步骤s105中读出的样本进行发音的发音处理。此外,cpu 10与在音频信息26中规定的音高和基于此次的音符开信息的音高之差相应地,使发音音高移位。通过该处理,将播放对象的样本的音高转换为基于音符开信息的音高而进行播放。另外,在和音发音的情况下,以基于各个音符开信息的多个音高进行发音。在步骤s106之后,cpu 10使处理进入到步骤s107。
[0072]
在步骤s107中,在未检测出音符关的情况下,由于按键状态继续,因此,cpu 10对是否有发音中的样本进行判别(步骤s110)。而且,在没有发音中的样本的情况下,cpu 10使处理返回至步骤s103。另一方面,在存在发音中的样本的情况下,cpu 10执行发音继续处理(步骤s111),使处理返回至步骤s103。在图4所示的例子中,例如,如果是样本sp1正在发音中,则继续进行由播放指针pl指示的位置及其以后的播放。特别地,在播放指针pl位于循环区间rp1的情况下,继续循环区间rp1的循环播放。
[0073]
在步骤s107中,在检测出音符关的情况下,通常能够判断为对被按下的键进行了放开操作,因此,cpu 10在步骤s108中执行发音停止处理。这里,cpu 10使播放指针pl跳转至发音中的样本sp的循环区间rp的末尾即循环结束位置,并且,开始进行从跳转后的位置至在后方相邻的播放结束位置e的播放。在图4所示的例子中,例如在样本sp1的发音中取得了音符关信息的情况下,cpu 10使播放指针pl跳转至循环区间rp1的循环结束位置。与此同时,cpu 10开始进行从循环区间rp1的循环结束位置至在后方相邻的播放结束位置e1的播放。例如,在图6的例子中,在将“test”延长而进行播放的情况下,作为元音的“e”延长,并
且,此后与音符关信息相应地直至播放结束位置e1为止进行播放,由此,作为辅音的“st”被充分地发音。因此,可以通过自然的延长方式来播放“test”。
[0074]
接下来,在步骤s109,cpu 10对是否到达定序结尾、即播放到选择乐曲的音频信息26的最后进行判别。而且,在没有播放到选择乐曲的音频信息26的最后的情况下,cpu 10使处理返回至步骤s103,在播放到选择乐曲的音频信息26的最后的情况下,cpu 10使图7所示的实时播放处理结束。
[0075]
根据本实施方式,能够实现音频信息的实时且所希望的播放控制。特别地,cpu 10与取得了音符开信息这一情况相应地,从播放开始位置s开始播放,并且在到达循环区间rp的情况下进入至循环播放。另外,cpu 10与取得了对应于音符开信息的音符关信息这一情况相应地,开始进行播放对象的音节的循环区间rp的末端即循环结束位置至播放结束位置e的播放。用户通过对演奏操作件15进行操作,从而能够在期望的定时依次使音节发音。而且,通过继续按压演奏操作件15,能够通过循环区间rp的循环播放而使所希望的音节的声音按希望延长。并且,通过音调移位,可以一边与用户操作的演奏操作件15相应地对音节的发音音高进行变更一边进行演奏。因此,能够实时地按希望对音频信息的播放进行控制。
[0076]
cpu 10通过对歌唱合成用乐谱25进行歌唱合成而生成音频信息26,并且针对歌唱合成用乐谱25的每个音节,将分割信息27与音频信息26相关联。因此,可实时地生成能够以期望方式进行播放控制的音频信息。另外,能够提高分割信息27的关联精度。
[0077]
另外,循环区间rp是歌唱合成用乐谱25中的各音节的与固定部相对应的区间。而且,cpu 10针对歌唱合成用乐谱25的每个音节,在固定部的区间的长度小于预定时间的情况下,将使得该固定部的区间的长度成为规定时间以上的长度的区间作为循环区间rp而与音频信息26相关联。因此,能够使循环播放时的声音变得自然。
[0078]
接下来,后面在图8对分割信息27的设定的变形例进行叙述。图8是例示出歌唱合成用乐谱25中针对1个乐句的分割信息的变形例的图。在图8的例子中,例示出针对由英语的“start”、“start”这2个音节构成乐句的分割信息。图8中的3个模式1)、2)、3)具有如下特征。
[0079]
首先,在模式1),辅音部分全部包含于音符开以后。因此,在使各音符缓慢地单独发音时,各发音(
“サ”
行等(日语的[sa]行)变得清楚。另一方面,在与伴奏相匹配地发音的情况下,根据辅音的种类而需要相当提前弹奏。
[0080]
在模式2),设为难以察觉进行了片段连接的辅音和辅音的连接部分。此外,作为该变形例,也可以不依赖于辅音的种类,而将从音符开提前了一定长度的位置作为分割位置。在这种情况下,由于不依赖于歌词而以一定的定时提前进行演奏即可,因此能够比较容易地进行与伴奏相匹配的定时的演奏。
[0081]
在模式3),能够在与原来的歌唱合成用乐谱的音符开的位置相同的位置进行弹奏。但是,在单独发音的情况下,即使弹奏
“さ
(日语字符[sa])”的歌词的音符也只有[a]的部分发音。
[0082]
在3个模式1)、2)、3)中,模式2)与应用了图6中说明过的规则的模式相同。如果将“start”“start”用音素符号表示,
[0083]
则成为[sil

s][s

t][t

q@][q@][q@

t][t

s][s

t][t

q@][q@][q@

t][t

sil]。
[0084]
在模式1)、2)、3)的任一者,后侧的“start”的播放结束位置e是语音片段[t

sil]
中的t的后端位置。另外,在模式1)、2)、3)的任一者,语音片段[q@]是各音节的固定部,这些区间成为循环区间loop。
[0085]
在模式1),关于播放开始位置s,乐句中的开头的“start”的播放开始位置s是语音片段[sil

s]中的s的前端位置。另外,乐句中的相邻的2个音节中的后侧的音节的播放开始位置s与接合部c相同。即,接合部c是由前侧的音节的最后音素和后侧的音节的最初音素构成的语音片段中的后侧的音素的前端位置。例如,[t

s]中的s的前端位置成为接合部c。前侧的音节的播放结束位置e与后侧的音节的播放开始位置s及接合部c相同。
[0086]
在模式3),播放开始位置s是由作为循环区间loop而伸长的音素(与固定部对应的音素)和该音素的前1个音素构成的语音片段中的后侧的音素(与固定部对应的音素)的前端位置。例如,在第1个[t

q@]中的q@的前端位置成为播放开始位置s。另外,后侧的音节的播放开始位置s与接合部c相同。接合部c是第2个[t

q@]中的q@的前端位置。前侧的音节的播放结束位置e与后侧的音节的播放开始位置s及接合部c相同。
[0087]
如上所述,在生成播放用数据28时应用的规则不限于1种。另外,也可以根据语言而使应用的规则不同。
[0088]
此外,在固定部的区间(循环区间loop)的长度小于规定时间的情况下,假设不采用使固定部的区间的长度增长的处理,在音频信息26中没能充分确保循环区间rp的长度。在这种情况下,在步骤s111中,例如,可以使用语音片段[dz

i]的[i]的区间而进行循环播放。
[0089]
此外,即使歌唱合成用乐谱25具有颤音等带表情的参数,也可以忽略这些信息,将歌唱合成用乐谱25转换为音频信息26。另一方面,播放用数据28可以包含颤音等带表情的参数作为信息。即使在这种情况下,在播放用数据28中的音频信息26的实时播放处理中,也可以使颤音等带表情的参数的播放无效。或者,在播放颤音时,可以通过使循环播放中的反复定时与颤音的振幅波形一致,从而一边保持音频信息26中所包括的颤音的周期一边对发音时间进行变更。
[0090]
此外,在步骤s106中,可以同时使用共振峰移位(formant shift)。另外,并非必须采用音调移位。
[0091]
此外,在预先保存有规定的样本数据并取得了音符关信息时,在步骤s108中,也可以取代循环区间rp的末端即循环结束位置至播放结束位置e为止的播放,作为后触处理,播放上述规定的样本数据。或者,作为后触处理,也可以应用“wo2016/152715公报”等所示的分组化处理。例如,在音节
“こ
(日语字符[ko])”和
“い
(日语字符[i])”被分组化的情况下,也可以与在
“こ
(日语字符[ko])”的发音中取得了音符关信息这一情况相应地,在
“こ
(日语字符[ko])”的发音结束之后接着发音至
“い’
日语字符[i])”为止。
[0092]
此外,在实时播放处理中使用的音频信息26不限于具有与歌唱的音节相当的样本sp(对应于音节的波形数据)的音频信息。即,也可以将本发明的音频信息播放方法应用于不基于歌唱的音频信息。因此,音频信息26并非必须限定于通过歌唱合成而生成的音频信息。在将分割信息与不基于歌唱的音频信息相关联的情况下,例如可以将循环播放的区间与包络波形中的s(sustain)相关联,将在音符关时播放的末端信息与r(release)相关联。
[0093]
此外,在本实施方式,演奏操作件15具有对音高进行指定的功能。但是,也可以将用于输入音符开信息和音符关信息的输入操作件限定为1个以上。在这种情况下,输入操作
件可以是专用的,但也可以分配给演奏操作件15中的一部分(例如,键盘的最低音高的2个白键等)。例如,可以设为如下结构,即,在每次通过输入操作件而输入信息时,cpu 10寻找下一个分割位置,使全局播放指针pg和/或播放指针pl移动。
[0094]
此外,播放音频信息26的通道的数量不限定于1个。也可以针对共享分割信息27的多个通道的每一者应用本发明。此时,也可以将播放伴奏的通道设为发音音高的移位处理的对象外。
[0095]
以上,基于本发明的优选实施方式对本发明进行了详细说明,但本发明不受这些特定的实施方式限定,不脱离本发明的主旨的范围内的各种方式也包含于本发明。
[0096]
此外,关于本发明的应用,在仅着眼于音频信息播放功能的情况下,本装置并非必须具有音频信息生成功能。相反,在仅着眼于音频信息生成功能的情况下,本装置并非必须具有音频信息播放功能。
[0097]
此外,也可以通过将存储有由用于实现本发明的软件表示的控制程序的记录介质读出至本装置,从而实现与本发明相同的效果。在这种情况下,从记录介质读出的程序代码本身实现本发明的新功能,存储有该程序代码的非暂时性的计算机可读取的记录介质5(参照图1)构成本发明。例如,如图1所示,cpu 10能够经由通信i/f 22从记录介质5读出程序代码。另外,也可以通过传输介质等提供程序代码,在这种情况下,程序代码本身构成本发明。作为非暂时性的计算机可读取的记录介质5,可以使用软盘、硬盘、光盘、光磁盘、cd

rom、cd

r、dvd

rom、dvd

r、磁带、非易失性的存储卡等。另外,作为非暂时性的计算机可读取的记录介质,还包含如成为经由互联网等网络、电话线路等通信线路而发送了程序的情况下的服务器、客户端的计算机系统内部的易失性存储器(例如dram(dynamic random access memory))那样将程序保存一定时间的介质。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1