使用演奏乐器的声音信息的音乐分析方法

文档序号:2823855阅读:329来源:国知局
专利名称:使用演奏乐器的声音信息的音乐分析方法
技术领域
本发明涉及分析数字音响信号的方法,特别是涉及通过比较输入的数字音响信号的频率成分和演奏乐器的声音频率成分,分析数字音响信号的方法。
背景技术
在二十世纪八十年代开始提供个人电脑以来,计算机的技术、性能和环境得到了急速发展,进入二十世纪九十年代,互联网迅速普及到公司的各部门和个人领域。据此,在21世纪的全世界中,在各领域中非常重视计算机的应用,在音乐领域中,作为应用了它的一种,有MIDI(MusicInstrument Digital Interface)。“MIDI”是指能合成人的声音或乐器的演奏声音(synthesis),并存储的计算机音乐技术,可以说是音乐家利用的代表性的规格,现在,是流行音乐的作曲家和演奏者主要利用的规格。
例如,作曲家把具有MIDI的电子乐器和计算机连接,能轻松地作曲,这样创作的演奏曲使用计算机或合成器的声音合成,能轻松地再现。另外,在录音过程中,把用MIDI装备制作的声音与歌手的歌混合,制作成人们喜欢的音乐。
MIDI技术在这样与流行音乐相关联的同时,也进入了音乐教育领域。即MIDI与音乐演奏的实际声音无关,只使用乐器的种类、声音的高度和强度、声音的开始和结束信息,所以使用MIDI乐器和计算机,能容易地处理MIDI信息。因此,用MIDI电缆连接了具有MIDI功能的电子钢琴和计算机后,通过使用电子钢琴的演奏时生成的MIDI信息,就能在音乐教育中充分利用。据此,在以日本的雅马哈为首的很多公司中,开发了使用MIDI的音乐教育软件,并应用起来。
可是,这样的MIDI技术无法满足重视声学乐器的声音和从声学乐器的演奏得到的感觉的古典音乐家的要求。即,很多的古典音乐家不太喜欢电子乐器的声音和感觉,所以实际情况是用传统的方法学习音乐,学习声学乐器的演奏。因此,音乐教师在教古典音乐或学生学习音乐时,现状是使用音乐学院或音乐学校,学生完全依赖于音乐教师的指导。在这样的状况下,在对教育的关心高涨的国内,高额的个人课程盛行,为了极优秀的音乐教育,就要从极优秀的老师学习的竞争变得激烈。鉴于这样的古典音乐教育环境,如果在古典音乐领域中导入计算机技术和数字信号处理技术,分析用声学乐器演奏的音乐,能把该分析结果作为定量的演奏信息表示,就一定是人们所希望的。
因此,对把声学乐器的演奏声音变换为数字音响后,用计算机分析该数字音响的技术进行了种种尝试。
作为这样的例子之一,在“Eric D.Scheirer”的硕士论文的“ExtractingExpressive Performance Information from Recorded Music”中,为了从录音的数字音响中提取出MIDI音乐,利用了乐谱信息。如所述论文中所述,他研究了提取出各音的强度、开始时间、结束时间,使其在MIDI音乐中变化的方法。可是,如果观察所述论文中记载的实验结果,则当使用了乐谱信息时,正确提取出了从录音的数字音响开始的时间,但还是存在着不能正确提取出结束时间和音强度信息的问题。
此外,在全世界,少数的公司推出了使用音乐识别技术,能分析简单的数字音响的初期产品,根据互联网上的alt.music.midi FAQ,则开发了很多分析波(wave)形式的数字音响,变换为MIDI形式或乐谱化的产品。作为这些产品,例如有AkoffMusic Composer、Sound2MIDI、Gama、WIDI、Digital Ear、WAV2MID、Polyaxe Driver、WAV2MIDI、IntelliScore、PFS-System、Hanauta Musician、Audio to MIDI、AmazingMIDI、Capella-Audio、AutoScore和最近推出的WaveGoodbye等。
虽然,宣称它们中的几个能进行复合音的分析,但是实际进行试验的结果是复合音的分析是不可能的。因此,在所述FAQ文章中,用计算机把波形式的音乐变换为MIDI形式后,在再现时,对于能否听起来与原来的波音乐同样,说明为不可能。现在,对于把波音乐变更为MIDI音乐的软件,明确表示为都没有价值。
下面,描述了在这些产品中,使用Araki Software公司的AmazingMIDI,怎样分析了波音乐的实验结果。
图1相当于在实验中使用的乐曲乐谱的贝多芬钢琴奏鸣曲第九号第二乐章的最初2小节,图2是为了方便图1所示的乐谱的分析,划分为各单音,在各音符上附加了表示音程的记号。图3是在AmazingMIDI,为了把波音乐变更为MIDI音乐,使用者设定的参数输入窗口,图4是把各种参数的值设定在最右侧时变换的MIDI窗口,图5是使用图2的乐谱信息,用图4的黑条表示相当于原来的波音乐的部分。图6是把各种参数的值设定在最左侧时变换的MIDI窗口,图7与图5同样,是用黑条表示在图6中相当于波音乐的部分。
首先,参照图1和图2。最初表示了C4、A3b、A2b等3个音,在按下C4和A2b的键盘的状态下,代替A3b,按下的E3b的键盘,再度重复A3b、E3b的顺序。接着,C4的音变为B3b的音,A2b的音变为D3b的音,E3b的音变为G3的音,再度在按下B3b和D3b的键盘的状态下,重复G3、E3b的顺序。因此,当把这些乐谱变换为MIDI时,有必要构成在图5中用黑条表示的MIDI信息,但是实际上存在构成了图4所示的MIDI信息的问题。
如图3所示,在AmazingMIDI中,使用者设定各种参数,把波音乐变更为MIDI音乐,但是由这些设定值构成的MIDI信息表示了大的差。图3的设定值中,Minimum Analysis的值、Minimum Relative的值、Minimum Note的值都设定在最右侧,变换为MIDI音乐的结果表示在图4中,把各值都设定在最左侧,变换为MIDI音乐的结果表示在图6中。如图比较图4和图6,就知道存在很大不同。即在图4中,在频率区域中,只识别强度大的频率部分,表示为MIDI,在图6中,还识别强度小的部分,表示为MIDI。因此,图4的MIDI信息项目表示为基本上包含在图6中。
如果比较图4和图5,则在图4的情况下,完全未识别实际演奏的部分的A2b、E3b、G3、D3b,而在C4、A3b、B3b的情况下,识别的部分也与实际演奏的部分很不同。即在C4时,识别的部分在全体音长中,在初始25%停止,当B3b时,只识别了不到20%。另外,当A3b时,停止在35%左右。而非常多地识别了非演奏的部分。当E3b时,识别为非常强的大小,也错误识别了A4b、G4、B4b、D5、F5等音。
如果比较图6和图7,则图6时,全部识别了实际演奏的部分的A2b、E3b、G3、D3b、C4、A3b、B3b,但是识别的部分和演奏的部分非常不同。即当C4、A2b时,因为持续按着键盘,所以尽管实际上持续发音,但是识别为至少一度声音断了的状态。当A3b、E3b时,相当不同地识别了实际演奏的时刻谐波音长度。如图6和图7所示,在黑条表示的部分以外,很多部分用灰色条表示。尽管这些部分实际并未演奏,却被错误识别,所以远比正确识别的部分多很多。在本说明书中,虽然未记载对AmazingMIDI程序以外的其他的程序进行实验的结果,但是到现在为止公开的所有程序的音乐识别结果与用所述的AmazingMIDI程序进行实验的结果是同样的,不太令人满意。
即导入计算机技术和数字信号处理技术,对用于分析用声学乐器演奏的音乐的技术进行了种种尝试,但是实际情况是还未取得满意的结果。

发明内容
因此,在本发明中,其目的在于提供一种通过使用对演奏中使用的乐器预先存储的信息,能导出更正确的演奏分析结果,能把该结果作为定量的数据而提取出的音乐分析方法。
即本发明的目的在于提供一种通过使用演奏乐器的声音信息,比较、分析数字音响中包含的构成信号和该声音信息的构成信号,能正确分析单音、复合音的音乐分析方法。
另外,本发明的其他目的在于提供一种使用演奏乐器的声音信息和演奏曲的乐谱信息,不但能够如上所那样取得正确的分析结果,而且能减少分析所需时间的音乐分析方法。
为了实现所述目的,本发明提供的使用演奏乐器的声音信息的音乐分析方法的特征在于包括生成并存储各演奏乐器的声音信息的步骤(a);在所述存储的各演奏乐器的声音信息中选择实际演奏的乐器的声音信息的步骤(b);输入数字音响的步骤(c);把所述输入的数字音响信号分解为各单位帧的频率成分的步骤(d);对所述输入的数字音响信号的频率成分和所述选择的演奏乐器的声音信息的频率成分进行比较、分析,导出所述输入的数字音响信号中包含的单音信息的步骤(e);输出发送所述被导出的单音信息的步骤(f)。
另外,为了实现所述其他目的,本发明提供的使用演奏乐器的声音信息和乐谱信息的音乐分析方法的特征在于包括生成并存储各演奏乐器的声音信息的步骤(a);生成并存储演奏的乐谱的乐谱信息的步骤(b);在所述存储的各演奏乐器的声音信息和乐谱信息中选择出实际演奏的乐器的声音信息和乐谱信息(c);输入数字音响的步骤(d);把所述输入的数字音响信号分解为各单位帧的频率成分的步骤(e);对所述输入的数字音响信号的频率成分和乐谱信息与所述选择的演奏乐器的声音信息的频率成分和乐谱信息进行比较、分析,导出所述输入的数字音响信号中包含的演奏错误信息和单音信息的步骤(f);输出发送所述导出的单音信息的步骤(g)。


图1是表示相当于贝多芬钢琴奏鸣曲第九号第二乐章的最初2小节的图。
图2是把图1所示的乐谱的复合音划分为单音而表示的乐谱图。
图3是表示AmazingMIDI程序的参数设定窗口的图。
图4是表示在AmazingMIDI程序中,把图1所示的乐谱的实际演奏音变换为MIDI数据的结果的图。
图5是用黑条表示、组合图4中相当于实际演奏音的部分的图。
图6是表示在AmazingMIDI程序中,把图1所示的乐谱的实际演奏音变换为MIDI数据的其他结果的图。
图7是用黑条表示、组合图6中相当于实际演奏音的部分的图。
图8是关于分析数字音响的方法的概念图。
图9A~9E是关于用于分析数字音响而使用的钢琴的声音信息的例示图。
图10是表示通过本发明的一个实施例,根据各乐器的声音信息,分析从外部输入的数字音响的过程的处理程序流程图,图10A是表示通过本发明的一个实施例,根据各乐器的声音信息,导出从外部输入的数字音响的各帧的单音信息的过程的处理程序流程图,图10B是表示通过本发明的一个实施例,根据各乐器的声音信息,比较分析从外部输入的数字音响和相应乐器的声音信息的各帧的频率成分的过程的处理程序流程图。
图11是表示通过本发明的其他实施例,根据各乐器的声音信息和乐谱信息,分析从外部输入的数字音响的过程的处理程序流程图,图11A是表示通过本发明的其他实施例,根据各乐器的声音信息和乐谱信息,导出从外部输入的数字音响的各帧的单音信息和演奏错误信息的过程的处理程序流程图,图11B和图11C是表示通过本发明的其他实施例,根据各乐器的声音信息和乐谱信息,比较、分析从外部输入的数字音响、相应乐器的声音信息和乐谱信息的各帧的频率成分的过程的处理程序流程图,图11D是表示通过本发明的其他实施例,订正根据各乐器的声音信息和乐谱信息而生成的演奏期望值的过程的处理程序流程图。
图12是用钢琴演奏图1和图2所示的乐谱的第一小节,按频率分析了该声音的图。
图13A~图13G是用钢琴演奏所述乐谱的第一小节中包含的各音,按频率分析了该声音的图。
图14A~图14G是表示把关于所述乐谱的第一小节中包含的各音的频率成分表示为图12所示的状态的图。
图15是表示比较图12所示的各频率与图2的乐谱中包含的音的各频率的图。
图16A~图16D是表示把图1和图2所示的乐谱的第一小节的演奏音进行FFT变换时设定的窗口的各尺寸的频率分析结果的图。
图17A和图17B是表示按照FFT窗口的尺寸,数字音响分析过程的时间误差不同的图。
图18是表示通过本发明的实施例,把再度合成根据声音信息和乐谱信息而导出的单音信息的音按频率进行分析的结果的图。
具体实施例方式
下面,参照附图,说明本发明的音乐分析方法的细节。
图8是关于分析数字音响的方法的概念图。如图8所示,输入数字音响,使用演奏乐器的声音信息(84)和乐谱信息(82),分析输入的数字音响的信号(80),作为结果,导出演奏乐器和正确度、MIDI音乐等,表示了描绘电子乐谱的概念。
这里,数字音响意味着把PCM波、CD音频、MP3文件等输入的声音进行数字变换,以计算机可读取的形态存储的所有内容,当实际演奏的音乐时,通过连接了计算机的麦克风进行输入后,能一边进行数字变换、存储,一边进行分析。
输入音乐的乐谱信息(82)包含例如音的高度、音的长度、速度信息(例如,1拍=64,延长号等)、拍子信息、音的强度信息(例如,forte,piano>-accent,<渐强(crescendo)等)、细节演奏信息(例如,断奏、跳跃音、上波音等)、以及如钢琴那样用两手演奏时的用于区分相当于左手的演奏和右手的演奏的部分的信息等。另外,当用两个以上的乐器演奏时,包含相当于各乐器的乐谱的部分信息等。即在乐器的演奏时,用眼观察的乐谱上的信息都能作为乐谱信息充分利用,但是根据作曲家和时代,符号表示法不同,所以在本说明书中未涉及到细节的表示法。
此外,如图9A~9E所示,演奏乐器的声音信息(84)是按照演奏的特定演奏乐器,预先构筑的信息,具有音的高度、音的强度、持续音表等,在参照图9A~图9E而说明的部分中,再度说明它。
如图8所示,在本发明中,在分析输入的数字音响是,充分利用声音信息或声音信息和乐谱信息,当如钢琴那样,同时演奏了多个音时,能正确分析各构成音的高度和强度,从关于分为各时刻而分析的构成音的信息,能把关于用怎样的强度演奏哪个的音的演奏信息作为分析结果而导出。
这时,为了音乐分析而使用演奏乐器的声音信息的理由是一般,在音乐中使用的各音按照其高度,具有固有定调(Pitch)频率和谐波(Harmonic)频率,但是在声学乐器的演奏音和人声音的分析中成为基本的是定调频率和谐波频率。
此外,这样的峰频率-定调频率和谐波频率-成分一般按各乐器的种类而表现不同。因此,预先导出这样的乐器的各种的峰频率成分,作为该乐器的声音信息存储后,通过比较输入的数字音响中包含的峰频率成分和已经存储的演奏乐器的声音信息,能分析所述数字音响。
例如,在钢琴的情况下,如果预先知道关于88个键盘的声音信息,则即使同时演奏了多个音,也能把该演奏音与预先存储的88个声音信息的组合比较,所以用该钢琴演奏的演奏音的分析结果能正确分析各个别音。
图9A~图9E是关于用于分析数字音响而使用的钢琴的声音信息的例示图。即表示了韩国的公司YOUNG CHANG公司制造的关于钢琴的88个键盘的声音信息的例子。这时,图9A~图9C表示了用于导出该钢琴的声音信息,图9A区分表示了关于88个键盘的音的高度(A0、…、C8),图9B表示了各音的强度的识别信息,图9C表示了关于是否使用持续音的识别信息。如图9B所示,各音的强度能把“-∞”~“0”分类为给定阶段并存储。如图9C所示,使用持续音时为“1”,不使用持续音时为“0”,在具有三个持续音的钢琴中,表示了关于持续音的使用形态的所有情形时的数量。
另外,图9D和图9E表示了关于所述钢琴的声音信息的实际存储形态,从图9A~图9C所示的各声音信息的条件,用音的高度为“C4”,音的强度为“-7dB”,表示了完全不使用持续音时的声音信息。特别是,图9D表示了用波存储了该声音信息的形态,图9E表示了用声谱图存储了该声音信息的形态。这里,声谱图表示了依照时间流的各频率成分的强度,通过用声谱图的横轴表示时间信息,纵轴表示频率信息,如果参照图9E的声谱图,就可知道关于各时刻的频率成分的强度的信息。
即当把该演奏乐器的声音信息作为一个以上的不同强度的音的取样而存储时,当如图9D所示,用波形态存储了能表现为声音信息的各单音后,在数字音响的分析是,能从该波导出频率成分,如图9E所示,能具有各频率成分并直接存储。
为了用各频率成分直接表现演奏乐器的声音信息,能使用傅立叶变换和成分波等频率分析方法。
而当所述演奏乐器不是钢琴,而是小提琴那样的弦乐器时,分类存储该弦乐器的各弦的声音信息。
此外,通过使用者的选择,周期地更新、存储了这样的各演奏乐器的声音信息,这是因为该乐器的声音信息伴随着时间的经过,或由于温度等周围环境而变化。
图10~图10B是表示本发明一实施例的数字音响分析过程的图,下面,参照它们更详细说明本发明的实施例。
首先,图10是表示通过本发明的一实施例,根据各乐器的声音信息,分析从外部输入的数字音响的过程的处理流程图。如果参照图10,说明通过本发明的一个实施例,根据各乐器的声音信息,分析从外部输入的数字音响的过程,则如下所述。
为了进行本发明的一实施例,事前经过生成各乐器的声音信息并存储的过程后(未图示),从存储的各乐器的声音信息中选择实际演奏的乐器的声音信息(s100)。这时,各乐器的声音信息的存储形态例如图9A~图9E所示。
另外,如果从外部输入了数字音响(s200),就把该数字音响信号分解为各单位帧的频率成分后(s400),通过比较、分析所述数字音响信号的频率成分和所述选择的演奏乐器的声音信息的频率成分,按帧导出所述数字音响中包含的单音信息(s500)。
这样,如果导出了从外部输入的数字音响的单音信息,就输出该单音信息(s600)。
重复进行这样的一系列过程(s200~s600),直到数字音响的输入被中断或输入了结束命令。
图10A是表示通过本发明的一实施例,根据各乐器的声音信息,导出从外部输入的数字音响的各帧的单音信息的过程(s500)的处理程序流程图。在图10A中,说明对于一帧的信息导出过程。如图10A所示,为了导出数字音响的各帧的单音信息,首先,导出该帧的时间信息(s510),比较、分析该单位帧的频率成分和演奏乐器的声音信息的频率成分(s520),与时间信息一起导出各单位帧中包含的单音的各音高、各强度的信息。另外,把该导出结果作为单音信息导出(s530)。
另外,当通过所述过程(s530)导出的单音是不包含在所述帧中的新单音时(s540),把当前划分为副帧后(s550),在该副帧中导出包含了新的单音的副帧(s560),导出所述副帧的时间信息(s570),这时,把新导出的实现信息变更为现在导出的单音信息的时间信息(s580)。可是,当导出的单音包含在低音的区域中时或不要求时间信息的正确性时,能省略这样的一系列过程(s540~s580)。
图10B是表示通过本发明的一实施例,根据各乐器的声音信息,比较分析从外部输入的数字音响和相应乐器的声音信息的各帧的频率成分的过程(s520)的处理程序流程图。
如图10B所示,首先,在所述输入的数字音响信号的各帧中,选择该帧中包含的最低峰频率(s521)。另外,从该演奏乐器的声音信息中导出包含所述选择的峰频率的声音信息(s522),在该声音信息中,把与用所述过程(s521)选择的峰频率的频率成分具有最接近的峰信息的声音信息作为单音信息导出(s523)。
这样,相当于最低峰频率的单音信息,接着,在该帧中包含的频率成分中除去所述导出的单音信息中包含的频率成分后(s524),当在该帧中存在残余的峰频率时,重复进行所述过程(s521~s524)。
例如,在从外部输入的数字音响信号的该帧中包含“C4、E4、G4”等3个音时,通过所述过程(s521),把“C4”的基本频率成分作为当前帧中包含的峰频率成分中最低的峰频率成分选择。
然后,所述过程(s522),在预先设定的该演奏乐器的声音信息中导出包含“C4”的基本频率成分的声音信息。这时,一般导出了“C4”、“C3”、“G2”…等多个声音信息。
接着,通过所述过程(s523),把导出的多个声音信息中与在所述过程(s521)中选择的峰频率成分最近似的“C4”的声音信息作为关于该频率成分的单音信息导出。
另外,从所述数字音响信号的该帧中包含的频率成分(“C4、E4、G4”)除去该单音信息(“C4”)。这样,在该帧中,只剩下相当于(“E4、G4”)的频率成分。这样,通过重复所述过程(s521~s524),直到该帧中,频率成分完全消失,就能导出关于该帧中包含的所有音的单音信息。
在所述的例子中,重复3次进行所述过程(s521~s524),完全导出关于(“C4、E4、G4”)的音的单音信息。
下面,根据“伪代码”,说明关于使用了这样的声音信息的数字音响分析方法的处理过程。
line1 数字音响信号(das)的输入;line2//按FFT的窗口尺寸、按窗口间的间隔(允许重叠),把das分成frame//用单位划分line3 frame=按帧划分(das,fft-size,overlap-size);line4 for所有frameline5 x=fft(frame);//傅立叶变换line6 peak=最低峰频率(x);line7 timing=frame的时间信息;line8 while(peak存在时);line9 candidates=包含峰的声音信息(peak);line10sound=最近似的声音信息(candidates,x);line11if sound是新的音的开始line12subframe=按帧划分(frame,sub-size,overlap-size);line13for所有subframeline14subx=fft(subframe);line15ifsubx中存在peakline16timing=subframe的时间信息;line17exit-for;line18end-ifline19end-forline20end-ifline21result=存储分析结果(result,timing,sound);line22x=x-sound;line23peak=最低峰频率(x);line24end-while
line25 end-forline26 performance=各乐器的演奏修正(result);如[伪代码1]所示,首先,输入数字音响信号(line1),按帧划分(line3)后,一边对各帧进行循环(for loop),一边进行分析(line4~line25)。经过傅立叶变换导出频率成分(line5),寻找最低峰频率成分(line6)。接着,接着,在(line7)中,为了用(line21)存储而导出相当于当前帧的时间信息。接着,在对于当前帧存在峰频率成分是,一边进行循环(whileloop),一边进行分析(line8~line24)。在(line9)中导出具有当前帧的峰频率成分的声音信息,在(line10)中,在它们中比较当前帧上的峰频率成分和谐波频率成分,导出最近似的声音信息。这时,声音信息被调节为基于当前帧上的峰频率强度的强度。如果导出的声音信息意味着新的音的开始(line11),就缩小FFT窗口的尺寸,提取出正确的时间信息。
在该过程中,把当前帧分为多个副帧(line12),对各副帧一边进行循环(for loop),一边进行分析(line13~line19)。经过傅立叶变换导出频率成分(line14),如果发现包含用(line6)导出的峰频率的副帧(line15),就在(line16)中,为了在(line21)中存储而导出相当于副帧的时间信息。因为(line7)的时间信息是FFT窗口的尺寸大的帧单位的时间信息,是时间误差多的信息,但是(line16)的时间信息是FFT窗口的尺寸小的帧单位的信息,所以是几乎没有时间误差的信息。在(line17)跳出(line13~line19)的循环(for loop),所以(line21)中存储的时间信息代替(line7)中导出的时间信息,变为在(line16)中导出的正确时间信息。
这样,从(line11)到(line20)开始了新的音时,缩小单位帧的大小,导出正确的时间信息。在(line21)中,把导出的单音的音高信息和强度信息与时间信息一起存储,在(line22)中,从当前帧去掉在(line10)中导出的声音信息后,再度寻找峰频率(line23)。一边重复所述的过程,一边在(line21)中,把所有数字音响的分析结果存储在结果变量(result)中。
此外,存储在该结果变量(result)中的分析结果不足以作为实际演奏信息而充分利用。当钢琴时,在按键盘发出声音的最初,不表现为正确的频带,所以经过一个以上的帧,在下一帧中,正确分析的可能性高。因此,这时,如果使用钢琴的音在极短的时间(例如,相当于3~4帧的时间)中,音不变更的特征,能导出正确的演奏信息。因此,在(line26)的过程中,把使用这样的各乐器的特性分析的结果变量中存储的值修正为更正确的演奏信息的表现(performance)。
图11~图11D是表示本发明其他实施例的数字音响分析过程的图,如果参照这些图更详细地说明本发明的实施例,则如下所述。
本发明的其他实施例是关于同时使用的各乐器的声音信息和要演奏的乐谱信息的方法的,如果能在声音信息的构筑时,按照各单音中包含的频率成分的变化,尽可能构筑所有的信息,就几乎能正确分析输入的数字音响信号,但是在实际情况中,这样的声音信息的构筑不容易,所以是关于用于补全它的方法的。即本发明的其他实施例涉及在导出关于要演奏的演奏曲的乐谱信息后,根据已经提取出的各乐器的声音信息和所述乐谱信息,预想输入的音,使用预想的音信息分析数字音响的方法。
首先,图11是表示通过本发明的其他实施例,根据各乐器的声音信息和乐谱信息,分析从外部输入的数字音响的过程的处理程序流程图。如图11所示,如果说明通过本发明的其他实施例,根据各乐器的声音信息和乐谱信息,分析从外部输入的数字音响的过程,则如下所述。
为了进行本发明的其他实施例,在预先进行了生成并存储各演奏乐器的声音信息的过程和生成并存储演奏的乐谱的乐谱信息的过程后(未图示),从存储的各演奏乐器的声音信息和乐谱信息中选择实际演奏的乐器的声音信息和乐谱信息(t100,t200)。这时,各乐器的声音信息的存储形态的例子如“图9A~图9E”所示。此外,从演奏的乐谱生成乐谱信息的方法不属于本发明的范围,现在有很多如果扫描纸的乐谱,就立刻变换为MIDI音乐的演奏信息并存储的技术,所以省略了关于生成并存储乐谱信息的方法。
可是,作为乐谱信息中包含的信息的例子,列举出根据时间的经过的音高、音长度信息、速度信息、音强度信息、细节演奏信息(例如,断奏、跳跃音、上波音等)、对于双手演奏或多个乐器演奏的演奏划分信息。
如上所述,选择了该演奏乐器的声音信息和乐谱信息(t100,t200)后,如果从外部输入数字音响(t300),就把该数字音响信号分解为各单位帧的频率成分(t500),比较、分析所述数字音响信号的频率成分和所述选择的各演奏乐器的声音信息的频率成分以及乐谱信息,导出所述数字音响信号中包含的演奏错误信息和单音信息(t600)。
这样,如果导出了从外部输入的数字音响信号的单音信息和演奏错误信息,就输出该单音信息(t700)。
此外,当根据所述演奏错误信息判别演奏的正确度(t800),当该演奏错误信息是根据演奏者的意图而演奏的音(例如,变奏音)时,能有选择地进行把它追加到已经存在的乐谱信息中的过程(t900)。图11A是表示通过本发明的其他实施例,根据各乐器的声音信息和乐谱信息,导出从外部输入的数字音响的各帧的单音信息和演奏错误信息的过程(t600)的处理程序流程图。在图11A中,说明了关于一帧的单音信息和演奏错误信息的导出过程。如图11A所示,为了导出数字音响的各帧的单音信息和演奏错误信息,首先导出该帧的时间信息(t610),比较、分析该各单位帧的频率成分和演奏乐器的声音信息的频率成分以及乐谱信息(t620),与时间信息一起导出各单位帧中包含的单音的各音高、各音强度的信息。另外,按帧导出作为分析结果而导出的单音信息和演奏错误信息。
此外,当由所述过程(t640)导出的单音是所述前帧中不包含的新单音时(t650),把当前帧划分为副帧侯(t660),在该副帧中导出包含了新单音的副帧(t670),导出所述导出的副帧的时间信息(t680)。另外,这时,根据新导出的副帧的时间信息变更现在导出的单音信息的时间信息(t690)。可是,如所述本发明的一个实施例那样,当单音包含在低音区域中时和不要求时间信息的正确性时,能省略这样的一系列过程(t650~t690)。
图11B和图11C是表示通过本发明的其他实施例,根据各乐器的声音信息和乐谱信息,比较、分析从外部输入的数字音响、相应乐器的声音信息和乐谱信息的各帧的频率成分的过程(t620)的处理程序流程图。
如图11B和图11C所示,首先,参照乐谱信息,实时生成根据该演奏乐器的演奏进行的数字音响信号的各帧的演奏期望值,用帧单位确认各帧的演奏期望值中是否存在与该帧的数字音响信号不匹配的演奏期望值(t621)。
另外,所述确认(t621)的结果为各帧的演奏期望值中不存在与该帧的数字音响信号不匹配的演奏期望值时,确认该帧的数字音响信号中包含的频率成分是否为演奏错误信息,在导出演奏错误信息和单音信息后,进行从该帧的数字音响信号除去作为该演奏错误信息和单音信息而导出的声音信息的频率成分的过程(t622~t628)。
即在所述输入的数字音响信号的各帧中,选择了该帧中包含的最低峰频率后(t622),从该演奏乐器的声音信息中导出包含所述选择的峰频率的声音信息(t623),把该声音信息中,具有与所述过程(t622)中选择的峰频率成分最接近的峰信息的声音信息作为演奏错误信息导出(t624)。另外,当所述演奏错误信息在连续的音的乐谱信息中,包含在下一帧中演奏的音符中时(t625),把与该演奏错误信息相应的音追加到演奏期望值中后(t626),把该演奏错误信息作为单音信息导出(t627)。此外,这样,把在所述过程(t624、t627)中作为演奏错误信息或单音信息而导出的声音信息的频率成分从数字音响信号的该帧除去(t628)。
另外,所述确认(t621)的结果为各帧的演奏期望值中存在与该帧的数字音响信号不匹配的演奏期望值时,比较、分析所述数字音响信号和所述演奏期望值,导出该帧的数字音响信号中包含的单音信息,进行从包含该单音信息的帧的数字音响信号中除去作为所述单音信息而导出的声音信息的频率成分的过程(t630~t634)。
即在所述演奏期望值中包含的声音信息中选择与所述数字音响信号的该帧中包含的频率成分不匹配的最低音的声音信息(t630),当所述选择的声音信息的频率成分包含在所述数字音响信号的该帧中包含的频率成分中时(t631),把该声音信息作为单音信息导出后(t632),从数字音响信号的该帧除去该声音信息的频率成分(t633)。这时,当在所述过程(t630)中选择的声音信息的频率成分不包含在所述数字音响信号的该帧中包含的频率成分中时,进行订正已经设定的演奏期望值的过程(t635)。重复进行这样的一系列的处理过程(t630~t633和t635),直到演奏期望值中不匹配的音消失为止。
另外,反复进行图11B和图11C所示的所有处理过程(t621~t628和t630~t635),直到帧单位的数字音响信号中包含的峰频率成分都消失为止(t629)。
图11D是表示通过本发明的其他实施例,修正根据各乐器的声音信息和乐谱信息而生成的演奏期望值的过程(t635)的处理程序流程图。如图11D所示,所述选择的声音信息的频率成分在该帧的前帧中不连续包含给定的次数(N)以上(t636),当是具有该声音信息的频率成分在某时刻,在所述数字音响信号中包含了一次以上的纪录(t637)的声音信息时,从演奏期望值除去(t639)。此外,所述选择的声音信息的频率成分中,在该帧中不连续包含给定的次数(N)以上(t636),当是在该帧中一次也不包含(t637)的声音信息时,作为演奏错误信息导出后(t638),从演奏期望值除去(t639)。
下面,根据[伪代码(pseudo-code2)2],说明关于使用了声音信息和乐谱信息的数字音响分析方法的处理过程。
line1 输入乐谱信息(score);line2 输入数字音响信号(das);line3 frame=按帧划分(das,fft-size,overlap-size);line4 当前演奏值(current)=前演奏值(prev)=NULL;line5 下一演奏值(next)=最初演奏的单音;line6 for所有的frameline7 x=fft(frame);line8 timing=frame的时间信息;line9 for所有单音(sound)in next&not in(current,prev)line10 ifsound包含在frame中line11 prev=prev+current;line12 current=next;line13 next=接着演奏的单音;line14 exit-for;
line15 end-if;line16 end-for;line17 for所有单音(sound)in prevline18 if sound不包含在frame中line19 prev=prev-sound;line20 end-ifline21 end-forline22 for所有单音(sound)in(current,prev)line23 if sound不包含在frame中line24 result=存储演奏错误(result,timing,sound);line25 else//如果sound不包含在frame中line26 sound=强度的调节(sound,x);line27 result=存储分析结果(result,timing,sound);line28 x=x-sound;line29 end-ifline30 end-forline31 peak=最低峰频率(x);line32 while(存在peak时)line33 candidates=包含峰的声音信息(peak);line34 sound=最近似的声音信息(candidates,x);line35 result=演奏错误信息(result,timing,sound);line36 x=x-sound;line37 peak=最低峰频率(x);line38 end-while;line39 end-for;line40 performance=各乐器的演奏信息(result);如[伪代码2]所示,因为同时使用乐谱信息和声音信息,所以首先用(line1)输入乐谱信息。该伪代码是比较、分析在乐谱信息(score)中只使用音符信息而演奏的各单音的信息和数字音响的例子,可以理解为是最基本的。在(line5)和(line13)中为了导出下一演奏值(next),使用了在(line1)中输入的乐谱信息。即为了进行各帧的演奏期望值的导出而使用。接着,下一步骤与使用所述的声音信息的伪代码中的说明同样,输入数字音响信号(line2),按帧划分(line3)。在(line4)中把当前演奏值(current)和前演奏值(prev)指定为(null),但是在乐谱上,数字音响信号的当前帧中包含的音所对应的音的信息是当前演奏值(current),数字音响信号的前帧中包含的音所对应的音的信息是前演奏值(prev),预想为数字音响信号的下一帧中包含的音的信息是下一演奏值(next)。
接着,一边对所有帧进行for loop,一边进行分析(line6)。对各帧经过傅立叶变换,导出频率成分(line7),在(line9)中,判断是否进行到乐谱上的下一演奏部分。即不包含在当前演奏值(current)和前演奏值(prev)中,而只包含在下一演奏值(next)中的新音如果包含在数字音响信号的当前帧中,就判断为进行到了进行到乐谱上的下一演奏部分。这时,适当变更前演奏值(prev)、前演奏值(prev)、下一演奏值(next)。在(line17~line21)中,寻找前演奏值(prev)中包含的音中在数字音响信号的当前帧中不包含的音(消失的音),从前演奏值(prev)中除去。通过该过程,对于在乐谱上已经过去,但是在实际演奏中声音残留的部分进行消灭处理。在(line22~line30)中,对于当前演奏值(current)和前演奏值(prev)中包含的所有声音信息(sound),判断各声音信息是否位于数字音响信号的当前帧中,如果各声音信息不包含在数字音响信号的当前帧中,就把进行了与乐谱不同的演奏的事实作为结果存储,如果各声音信息包含在数字音响信号的当前帧中,在配合当前帧中包含的音强度,导出了声音信息(sound)后,把音高信息和强度信息与时间信息一起存储。这样,(line9)~(line30)从乐谱信息把数字音响信号的当前帧中包含的音所对应的单音设定为当前演奏值(current),把数字音响信号的前帧中包含的音所对应的单音设定为前演奏值(prev),把数字音响信号的下一帧中包含的音所对应的单音设定为下一演奏值(next),使前演奏值和当前演奏值为演奏期望值,把这里包含的音作为基准,分析数字音响信号,所以能更正确和快速地分析。
当演奏得与乐谱信息不同时,追加了(line31)的步骤。分析了乐谱信息中包含的音后,如果还残存峰频率,就是演奏得不同的部分,所以使用了应用所述声音信息的伪代码1中所述的算法,导出相当于各峰频率的单音,把它如伪代码2(line23)中那样,存储演奏得与乐谱不同的事实。伪代码2中,重点说明了使用乐谱信息的方法,所以省略了细节内容,但是使用声音信息和乐谱信息的方法与所述只使用声音信息的方法同样,是为了导出正确的时间信息,一边减少单位帧的大小,一边分析的方法,能包含相当于伪代码1的(line11)~伪代码1的(line20)的步骤。
在伪代码2中,存储在结果变量(result)中的分析结果和演奏错误结果也不足以作为实际演奏的信息而充分利用。由于与伪代码1同样的理由,另外,考虑到在乐谱信息中,对于在相同时刻开始多个音,在实际演奏中,各音之间应该存在极短的时间差,在(line40)中,把考虑了各乐器的特性和演奏者的特性而分析的结果变量(result)修正为表现(performance)。
下面,为了证明所述的本发明,更详细说明数字音响和演奏乐器的声音信息的频率特性。
图12是用钢琴演奏图1和图2所示的乐谱的第一小节,按频率分析了该声音的图。即用声谱图(Spectrogram)表示了图1和图2所示的贝多芬钢琴奏鸣曲第八号第二乐章的第一小节的钢琴演奏曲。这里,使用的钢琴是YOUND CHANG钢琴公司制造的三角钢琴,在索尼公司的笔记本型个人电脑上连接了麦克风,用视窗辅助程序具有的录音机进行了录音。分析声谱图并表示的程序使用了R.S.Home开发并发布的自由软件“Spectrogram 5.1.6”版本。作为设定项目,Scale为90dB,Time Scale为5msec,FFT(Fast Fourier Transformation)size为8192,对于其他项目,应用了基本值。Scale意味着忽略比-90dB小的音,并且不显示,Time Scale表示每5msec一边使FFt窗口重叠,一边经过傅立叶变换(Fourier)进行图示化。
图12的上部表示的线(100)原封不动地表示了输入的数字音响的强度,在其下,在各频带中,表示了数字音响中包含的频率成分。越靠近黑色,越包含强度大的频率成分。声谱图的纵线之一是以该地点为基准,对8192个取样进行傅立叶变换,对各频率的成分,根据强度表示了颜色,横轴表示了时间的进行,所以对于个别频率成分,一眼就能把握基于时间流的强度的变化。参照图12和图2,可知图12中表示了按照图2的乐谱上所示的各音高,相当的基本频率和谐波频率。
图13A~图13G是用钢琴演奏所述乐谱的第一小节中包含的各音,按频率分析了该声音的图,是在相同环境下,分别对图2的第一小节中包含的各音录音后,把结果用声谱图表示。即图13A用声谱图表示了相当于C4的钢琴音,图13B用声谱图表示了相当于A2b的钢琴音,图13C用声谱图表示了相当于A3b的钢琴音,图13D用声谱图表示了相当于E3b的钢琴音,图13E用声谱图表示了相当于B3b的钢琴音,图13F用声谱图表示了相当于D3b的钢琴音,图13G用声谱图表示了相当于G3的钢琴音。各图都具有4秒的各频率的强度信息,分析时的设定项目与图12时同样。当C4时,具有262Hz作为基本频率,具有它的n倍的523Hz、785Hz、1047Hz等作为谐波频率,在图13A中能确认它。即262Hz和523Hz所示的频率成分表示强(靠近黑色),越往比785Hz高的倍数的频带,大致强度减弱。在附图中,C4的基本频率和谐波频率都表示为“C4”。
此外,A2b音具有104Hz作为基本频率,但是如图13B所示,A2b音的基本频率表现弱,A2b音的谐波频率表现得远比基本频率强。只参照图13,特别是A2b音的3倍谐波频率(311Hz)表现最强,所以,如果单用频率的强度决定音高,则有可能把A2b音错误识别为具有311Hz作为基本频率的E4b音。
另外,在图13C~图13G中,当只根据音的强度,决定音的高度时,有时会犯这样的错误。
图14A~图14G是表示把关于所述乐谱的第一小节中包含的各音的频率成分表示为图12所示的状态的图。
图14A表示了把相当于C4音的图13A的频率成分表示为图12所示的状态。图13A所示的音强度比图12中使用的音强度大,所以位于图12的上端部的C4音的谐波频率表示为很淡,或表示为很难发现的小强度。可是,如果使图13A的频率强度降低到与图12所示的C4基本频率的强度一致,并进行比较,则可知,在图12中,如图14A中那样,包含了C4音的频率成分。
图14B表示了把相当于A2b音的图13B的频率成分表示为图1 2所示的状态。因为图13B所示的强度远比图12中演奏的A2b音的强度强,所以明确表示了基本频率的成分和上端部的谐波频率,但是在图12中表示为很淡,特别是在上端部,几乎未表示谐波频率。如果把图13B的频率的强度降低到与图12所示A2b的基本频率一致,并进行比较,就可知,在图12中,如图14B中那样,包含了A2b音的频率成分。在图14B中,之所以5倍的谐波频率成分表现得很强,是因为在图14A中,与C4音的2倍谐波频率成分重叠,A2b音的5倍的谐波频率是519Hz,C4音的是523Hz,所以在图中重叠在同一区域。如果接着分析图14B,则相当于A2b音的5倍、10倍、15倍的谐波频率与C4音的2倍、4倍、6倍谐波频率重叠,表示为比图13所示的基本频率和谐波频率之间的相对大小大(作为参考,弱强度的音在声谱图中表示得淡,所以用眼睛能明确分辨各频率成分,当对图13A~图13G的单音录音室,用比图12中包含的实际音的强度大的音录音)。
图14C是表示了把相当于A3b音的图13C的频率成分表示为图12所示的状态的图。因为图13C所示的音强度比图12中演奏的A3b音的强度强,所以图13C所示的频率成分表示为比图14C强。此外,与所述单音相比,在图14C中,不太容易只寻找A3b音的成分。其理由是其他音的基本频率和谐波频率重叠的部分多,在其他音的演奏时,A3b音很弱地发生,在其内消失。首先,A3b音的所有频率成分与在A2b音中相当于2倍的谐波频率的成分重叠。A3b音的5倍谐波频率与C4音的4倍谐波频率重叠,所以在该部分中,在音的二度演奏时,很难发现断开的部分。其他频率成分都是在中间部分强度变弱,所以在该部分,表示了A2b的谐波频率成分,在该部分中,A3b音被中断后,再度演奏。
图14D是表示了把相当于E3b音的图13D的频率成分表示为图12所示的状态的图。图13D所示的音强度比图12中演奏的E3b音的强度强,所以图13D所示的频率成分表示为比图14D的强。四次演奏了E3b音,但是开始的2次演奏之间,E3b音的2倍和4倍谐波频率成分与A2b音的3倍和6倍谐波频率成分重叠,所以在该部分中,二次演奏之间,连续表示了其他音的谐波频率成分。另外,E3b音的5倍谐波频率成分表示为与C4音的3倍谐波频率成分重叠,所以在第一个音和第二个音之间,连续表示了该频率成分。在第三个音和第四个音之间,E3b音的3倍谐波频率成分与B3b音的2倍谐波频率成分重叠,所以在E3b音的非演奏期间也连续表示了该频率成分。另外,E3b音的5倍谐波频率成分和G3音的4倍谐波频率成分重叠,所以尽管交替演奏了G3音和E3b音,但是,一直连结表示了G3音的4倍谐波频率成分和E3b音的5倍谐波频率成分。
图14E表示了把相当于B3b音的图13E的频率成分表示为图12所示的状态的图。图13E所示的音强度比图12中演奏的B3b音强度稍强,所以图13E所示的频率成分表示为强。可是,在图14E中,确认了图13E所示的频率成分几乎保持原有的匹配。如图13E所示,音一边变弱,变弱到B3b音的上端部的谐波频率未被很好显示,在图14E中也同样,一边向右侧进行,上端部的谐波频率的强度一边变弱。
图14F表示了把相当于D3b音的图13F的频率成分表示为图12所示的状态的图。图13F所示的音强度比图12中演奏的D3b音强,所以图13F所示的频率成分表示为比图14D的强。可是,在图14F中,也确认了图13F所示的频率成分几乎保持原有的匹配。特别是在图13F中,D3b音的9倍谐波频率的强度表示为比10倍谐波频率的强度小,但是在图14F中,D3b音的9倍谐波频率的强度表示为非常弱,表示为比10倍谐波频率的强度小。此外,在图14F中,D3b音的5倍和10倍谐波频率与图14E中表示的B3b音的3倍和6倍谐波频率重叠,所以表示为比其他谐波频率强。D3b音的5倍谐波频率是693Hz,B3b音的3倍谐波频率是699,彼此相邻,所以在声谱图中重叠表现。
图14G表示了把相当于G3音的图13G的频率成分表示为图12所示的状态的图。图13G所示的音强度比图12中演奏的G3音的强度强,所以图13G所示的频率成分表示为比图14G的强。在图14G中,G3音的强度演奏为比图14C中的A3b音的强度强,所以能明确找出各频率成分。如图14和图14F那样,几乎未表示与其它音的频率成分重叠的部分,所以能容易地用眼睛确认个别频率成分。可是,G3音的4倍谐波频率和图14D所示的E3b音的5倍谐波频率分别为784Hz、778Hz,是近似的,但是E3b音和G3音的演奏时间彼此不同,所以在图14G中,G3音的4倍谐波频率成分的两个部分之间,只在下方表示了E3b音的5倍谐波频率成分。
图15是表示比较图12所示的各频率与图2的乐谱中包含的音的各频率的图。即如果用一眼能确认此前分析的图12的频率成分的内容,表示了相当的各频率成分。在所述本发明的方法中,为了分析图12所示的频率成分,使用了图13A~图13G中表现的各单音的频率成分。作为结果,取得了图15的图面,因为据此分析输入的数字音响,所以能确认使用演奏乐器的声音信息的方法的概要。即在所述本发明的方法中,输入各单音的实际音作为演奏乐器的声音信息,使用了各音中包含的频率成分。
在本说明书中,使用傅立叶变换的FFT,分析了频率成分,但是作为频率成分的分析技术,当然除此还能使用由成分波(Wavelet)和其他数字信号处理算法开发的很多技术。即在本说明书中,为了便于说明,使用了最具代表性的傅立叶变换,但是并不是用于限定本发明的方法。
此外,图14A~图14G和图15中,表现各音的频率成分的时间信息表示为与实际演奏的时间信息不同。特别是在图15中,用参照符号(1500、1501、1502、1503、1504、1505、1506、1507)表示的时间是实际演奏开始的部分,但是频率成分由以前的时间表现。另外,超过音的结束时间表示了各频率成分。为了使根据时间流的频率分析正确,使FFT窗口的尺寸为8192,所以它是产生的时间上的误差。该误差的范围按照FFT窗口的尺寸决定,在本例中使用的采样比率是22,050Hz,FFT窗口8192取样,包含8,192÷220500.37秒的误差。即如果增大FFT窗口的尺寸,则单位帧的尺寸增大,可划分的频率间隔变窄,所以能正确分析基于各音高的频率成分,但是具有时间上的误差,如果缩小FFT窗口的尺寸,则可划分的频率间隔变宽,所以在低音区域无法区分相邻的音,但是在时间上的误差减小。有选择地使采样比率增高,如上所述,时间上的误差减小。
图16A~图16D是表示为了说明基于FFT窗口尺寸变化的误差范围的变化,用彼此不同的FFT窗口尺寸分析关于图1和图2所示的乐谱的第一小节的演奏音的结果的图。
图16A表示把FFT窗口尺寸设定为4096后,关于进行FFT变换时的分析结果,图16B表示把FFT窗口尺寸设定为2048后,关于进行FFT变换时的分析结果,图16C表示把FFT窗口尺寸设定为1024后,关于进行FFT变换时的分析结果,图16D表示把FFT窗口尺寸设定为512后,关于进行FFT变换时的分析结果。
而在图15中,表示了把FFT窗口尺寸设定为8192后,关于进行FFT变换时的分析结果,所以如果在图15、图16A~图16D中比较分析结果,则FFT窗口尺寸越大,频带分得越细,能细致地分析,但是时间上的误差增大,FFT窗口尺寸越小,频带分得越宽,很难进行细致的分析,但是时间上的误差变得很小。
因此,按照时间上的正确度和频带划分的正确度的要求,可以应用一边可变地变更FFT窗口尺寸,一边分析,或使用彼此不同的FFT窗口尺寸,分析时间上的信息和频率上的信息的方法。
图17A和图17B是表示按照FFT窗口的尺寸,数字音响分析过程的时间误差不同的图。这时,图面上表示为白的区域表示发现了该音的窗口。因此,在图17A中,FFT窗口尺寸大(8192),所以表示发现了该音的窗口的区域表示得很宽,在图17B中,以为FFT窗口尺寸相对小(1024),所以表示发现了该音的窗口的区域表示得很窄。
图17A是表示关于把FFT窗口尺寸设定为“8192”时的数字音响的分析结果的图,如图17A所示,实际音开始的位置是“9780”,但是FFT变换的结果是分析为音的开始位置的位置是发现了该音的窗口的中间地点“12288”((=8192+116384)/2)。这时产生了相当于第12288个取样和第9780个取样之间的差2508个取样的时间部分的误差。即当22.5KHz采样时,产生了2508*(1/22500)=大约0.11秒的误差。
另外,图17B是表示关于把FFT窗口尺寸设定为“1024”时的数字音响的分析结果的图,如图17B所示,实际音开始的位置与图17A同样是“9780”,但是FFT变换的结果是分析为音的开始位置的位置是“9728”((=9216+10240)/2)。这时,作为第9216个取样和第10239个取样的中间值的第9728个取样的时间进行了分析,但是该误差不过52个取样,如上所述,当为22.5KHz采样时,根据所述的计算方法,作为时间,大致发生0.002秒的误差。因此,如图17B那样,通过把FFT窗口尺寸设定为很小,取得了更正确的分析结果。
图18是表示通过本发明的实施例,把再度合成根据声音信息和乐谱信息而导出的单音信息的音按频率进行分析的结果的图。即从图1的乐谱导出乐谱信息,应用了用关于图13A~图13G的部分说明的声音信息。
即是从图1导出的乐谱信息导出在开始的0.5秒,演奏了C4、A3b,然后演奏了A2b的音,从图13A~图13C的信息导出该音的声音信息后,使用该信息分析了从外部输入的数字音响后,导出该分析结果的图。这时,如果比较图12的相当于开始的0.5秒的部分图14D的前部,则几乎一致。因此,图18的相当于开始的0.5秒的部分是在所述的[伪代码2]中,相当于结果变量(result)或表现(performance)的部分,与图12的开始的0.5秒部分一致。
以上,以首选实施例为中心说明了本发明,但是,如果是在本发明所属的技术领域中具有通常的知识的人,就能在不脱离本发明的本质特性的前提下,在变更的形态中实施本发明。因此,本说明书中描述的实施例未限定本发明,应该解释为用于说明本发明的材料。即,本发明的范围只受到所附加的权利要求书中要求保护的范围的限制。
根据本发明,通过在数字音响分析中使用声音信息或声音信息和乐谱信息,能迅速分析输入的数字音响,其正确性也提高。另外,在以往的方法中,几乎无法分析钢琴演奏曲等用复合音构成的音符,但是在本发明中,通过使用声音信息或声音信息和乐谱信息,取得了能快速并且正确地分析数字音响中包含的单音演奏部分甚至于复合音演奏部分的效果。
因此,能把这样的数字音响的分析结果直接应用于电子乐谱,另外,能使用正确的分析结果,定量导出演奏信息。因此,这样的分析结果的利用范围广,能广泛应用于从面向儿童的音乐教育到专家的演奏课程。
即,应用能实时分析从外部输入的数字音响的本发明的技术,实时掌握对于现在演奏的演奏音的电子乐谱上的位置,能自动在电子乐谱上显示下一演奏位置,演奏者没必要用手翻乐谱,取得了能专心于演奏的效果。
另外,通过把分析结果的演奏信息与预先存储的乐谱信息比较,导出演奏正确度,对演奏者指出不同的演奏部分,或能作为具有所述演奏正确度,并且能评价该演奏者的演奏的资料而充分利用。
权利要求
1.一种数字音响的分析方法,是一种利用演奏乐器的声音信息对数字音响进行分析的方法,其特征在于包括生成并存储各演奏乐器的声音信息的步骤(a);在所述存储的各演奏乐器的声音信息中选择实际演奏的乐器的声音信息的步骤(b);输入数字音响的步骤(c);把所述输入的数字音响信号分解为各单位帧的频率成分的步骤(d);对所述输入的数字音响信号的频率成分和所述选择的演奏乐器的声音信息的频率成分进行比较、分析,导出所述输入的数字音响信号中包含的单音信息的步骤(e);输出发送所述被导出的单音信息的步骤(f)。
2.根据权利求1所述的数字音响的分析方法,其特征在于所述步骤(e)在导出了所述划分的各单位帧的时间信息后,比较、分析该各单位帧的频率成分和演奏乐器的声音信息的频率成分,与时间信息一起导出各单位帧中包含的单音的各音高和各音强度的信息。
3.根据权利求2所述的数字音响的分析方法,其特征在于所述步骤(e)在所述导出的单音信息是前帧中不包含的新单音时,把相当于它的帧划分为比前帧的尺寸小的副帧,寻找包含了新音的副帧,把该副帧的时间信息与所述导出的单音的各音高和各音强度的信息一起导出。
4.根据权利求1所述的数字音响的分析方法,其特征在于所述步骤(a)周期地更新所述演奏乐器的声音信息。
5.根据权利求1所述的数字音响的分析方法,其特征在于所述步骤(a)当把所述演奏乐器的声音信息作为一个以上的不同强度的音的取样而存储时,把能够用声音信息表达的各单音作为波形式的数据存储,从该波形式的数据导出各演奏乐器的声音信息的频率成分。
6.根据权利求1所述的数字音响的分析方法,其特征在于所述步骤(a)当把所述演奏乐器的声音信息作为一个以上的不同强度的音的取样而存储时,以能直接表现各频率成分的强度的形态存储能够用声音信息表达的各单音。
7.根据权利求6所述的数字音响的分析方法,其特征在于所述步骤(a)以经过傅立叶变换能够直接表达的形态存储所述演奏乐器的声音信息。
8.根据权利求6所述的数字音响的分析方法,其特征在于所述步骤(a)以经过成分波变换能够直接表达的形态存储所述演奏乐器的声音信息。
9.根据权利求5或6所述的数字音响的分析方法,其特征在于所述步骤(a)当存储键盘乐器的声音信息时,对应是否使用了持续音而分类进行存储。
10.根据权利求5或6所述的数字音响的分析方法,其特征在于所述步骤(a)当存储键盘乐器的声音信息时,按各弦分类存储该声音信息。
11.根据权利求1或2所述的数字音响的分析方法,其特征在于所述步骤(e)包含在所述输入的数字音响信号的各帧中,选择该帧中包含的最低峰频率的步骤(e1);从所述选择的演奏乐器的声音信息中导出包含所述选择的峰频率的声音信息的步骤(e2);从所述导出的声音信息中,把与该帧的具有与峰频率成分最接近的峰信息的声音信息作为单音信息导出的步骤(e3);从该帧除去相当于所述导出的单音信息的声音信息的频率成分的步骤(e4);当残存有该帧的峰频率成分时,重复进行所述步骤(e1~e4)的步骤(e5)。
12.一种数字音响的分析方法,其特征在于包括生成并存储各演奏乐器的声音信息的步骤(a);生成并存储演奏的乐谱的乐谱信息的步骤(b);在所述存储的各演奏乐器的声音信息和乐谱信息中选择出实际演奏的乐器的声音信息和乐谱信息的步骤(c);输入数字音响的步骤(d);把所述输入的数字音响信号分解为各单位帧的频率成分的步骤(e);对所述输入的数字音响信号的频率成分和乐谱信息与所述选择的演奏乐器的声音信息的频率成分和乐谱信息进行比较、分析,导出所述输入的数字音响信号中包含的演奏错误信息和单音信息的步骤(f);输出发送所述被导出的单音信息的步骤(g)。
13.根据权利求12所述的数字音响的分析方法,其特征在于所述步骤(f)在导出了所述各单位帧的时间信息后,比较、分析该各单位帧的频率成分和演奏乐器的声音信息的频率成分以及乐谱信息,与时间信息一起导出各单位帧中包含的单音的各音高和各音强度的信息。
14.根据权利求12或13所述的数字音响的分析方法,其特征在于所述步骤(f)在所述导出的单音信息是前帧中不包含的新单音时,把相当于它的帧划分为比前帧的尺寸小的副帧,寻找包含了新音的副帧,把该副帧的时间信息与所述导出的单音的各音高和各强度的信息一起导出。
15.根据权利求12所述的数字音响的分析方法,其特征在于所述步骤(a)周期地更新所述演奏乐器的声音信息。
16.根据权利求12所述的数字音响的分析方法,其特征在于所述步骤(a)当把所述演奏乐器的声音信息作为一个以上的不同强度的音的取样而存储时,把能够用声音信息表达的各单音作为波形式的数据存储。
17.根据权利求12所述的数字音响的分析方法,其特征在于所述步骤(a)当把所述演奏乐器的声音信息作为一个以上的不同强度的音的取样而存储时,以能直接表现各频率成分的强度的形态存储能够用声音信息表达的各单音。
18.根据权利求17所述的数字音响的分析方法,其特征在于所述步骤(a)以经过傅立叶变换能够直接表达的形态存储所述演奏乐器的声音信息。
19.根据权利求17所述的数字音响的分析方法,其特征在于所述步骤(a)经过成分波变换,以能直接表达的形态存储所述演奏乐器的声音信息。
20.根据权利求16或17所述的数字音响的分析方法,其特征在于所述步骤(a)当存储键盘乐器的声音信息时,对于是否使用持续音而分类存储。
21.根据权利求16或17所述的数字音响的分析方法,其特征在于所述步骤(a)当存储弦乐乐器的声音信息时,按各弦分类存储该声音信息。
22.根据权利求12或13所述的数字音响的分析方法,其特征在于所述步骤(f)包括参照所述乐谱信息,实时生成根据该演奏乐器的演奏进行的数字音响信号的各帧演奏期望值,以帧为单位确认在各帧的演奏期望值中是否存在与该帧的数字音响信号不匹配的演奏期望值的步骤(f1);当所述步骤(f1)的结果是各帧的演奏期望值中不存在与该帧的数字音响信号不匹配的演奏期望值时,确认该帧的数字音响信号中包含的频率成分是否为演奏错误信息,在导出演奏错误信息及单音信息后,从该帧的数字音响信号中除去作为该演奏错误信息及单音信息而导出的声音信息的频率成分的步骤(f2);当所述步骤(f1)的结果是各帧的演奏期望值中存在与该帧的数字音响信号不匹配的演奏期望值时,比较、分析所述数字音响信号及所述演奏期望值,导出该帧的数字音响信号中包含的单音信息,从包含该单音信息的帧的数字音响信号中除去作为所述单音信息而导出的声音信息的频率成分的步骤(f3);当帧单位的数字音响信号中残存峰频率成分时,重复进行所述步骤(f1~f3)的步骤(f4)。
23.根据权利求22所述的数字音响的分析方法,其特征在于所述步骤(f2)包括在所述输入的数字音响信号的各帧中,选择该帧中包含的最低峰频率的步骤(f2_1);从该演奏乐器的声音信息中导出包含所述被选择的峰频率的声音信息的步骤(f2_2);在所述被导出的声音信息中,把具有与该帧的峰频率成分最接近的峰信息的声音信息作为演奏错误信息导出的步骤(f2_3);当所述演奏错误信息在乐谱信息中包含在接着要演奏的音符中时,把所述演奏错误信息中包含的音追加到演奏期望值中后,把该演奏错误信息作为单音信息导出的步骤(f2_4);从该帧除去作为所述演奏错误信息和单音信息而被导出的声音信息的频率成分的步骤(f2_5)。
24.根据权利求23所述的数字音响的分析方法,其特征在于所述步骤(f2_3)把该演奏音高和音强度作为演奏错误信息导出。
25.根据权利求22所述的数字音响的分析方法,其特征在于所述步骤(f3)包含在所述各帧的演奏期望值中,从与该帧的数字音响信号不匹配演奏期望值中所包含的声音信息中选择出最低音的信息的步骤(f3_1);当所述被选择的声音信息的频率成分包含在该帧的数字音响信号中所包含的频率成分中时,在把该声音信息作为单音信息导出后,从该帧的数字音响信号中除去该声音信息的频率成分的步骤(f3_2);当所述被选择的声音信息的频率成分不包含在该帧的数字音响信号中时,修正所述演奏期望值的步骤(f3_3);
26.根据权利求25所述的数字音响的分析方法,其特征在于步骤(f3_3)中,所述被选择的声音信息的频率成分具有在某时刻包含在所述数字音响信号中的历史,但当在该帧之前的帧中不是连续包含规定次数以上时,从演奏期望值中除去该声音信息。
27.根据权利求12所述的数字音响的分析方法,其特征在于还包含根据由所述步骤(f)导出的所述演奏错误信息,判断演奏正确度的步骤(h)。
28.根据权利求12所述的数字音响的分析方法,其特征在于还包含根据由所述步骤(f)导出的所述演奏错误信息,把相当于所述演奏错误信息的数字音响信号的单音信息追加到由所述步骤(b)生成的乐谱信息中的步骤(i)。
29.根据权利求12所述的数字音响的分析方法,其特征在于所述步骤(b)根据演奏的乐谱,生成并存储以下信息,包括根据时间流的音高、音长信息、速度信息、拍子信息、音强度信息;包含断奏、跳跃音、上波音等的细节演奏信息;与双手演奏和多种乐器的演奏有关的演奏划分信息中的一种以上的信息。
全文摘要
本发明涉及为了分析数字音响而使用乐器的声音信息或声音信息和乐谱信息的技术。特别是涉及为了生成输入的数字音响而使用的、或为了生成使用中的声音信息或该声音信息和输入的数字音响而使用的、或利用正在使用的乐谱信息技术。根据本发明,预先存储了为了生成输入的数字音响而使用的演奏乐器的音的各音高、各音强信息等,所以能容易分析用该乐器演奏的单音和复合音。另外,根据本发明,通过同时使用演奏乐器的声音信息和乐谱信息,对输入的数字音响能够进行正确的分析,并能将其作为定量的数据而提取出。
文档编号G10H3/12GK1479916SQ01820079
公开日2004年3月3日 申请日期2001年12月3日 优先权日2000年12月5日
发明者郑道日 申请人:娱乐技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1