音乐速度检测装置、音乐速度检测方法和程序的制作方法

文档序号:2825290阅读:192来源:国知局
专利名称:音乐速度检测装置、音乐速度检测方法和程序的制作方法
技术领域
本公开涉及一种音乐速度检测装置、音乐速度检测方法和程序,尤其涉及一种对音乐的音频信号进行处理以检测音乐的音乐速度的音乐速度检测装置、音乐速度检测方法和程序。
背景技术
音乐音乐速度代表音乐的进行速度,且主要使用BPM(每分钟拍数每分钟四分音符的数目)作为代表音乐的音乐速度的指标。为了检测音乐的BPM,在相关技术中公开了下面的技术。日本未审专利申请2002-221240号公报公开了这样的技术计算音乐波形信号的自相关(autocorrelation),基于计算结果分析音乐的拍结构,并且基于分析结果提取音乐的音乐速度。此外,日本未审专利申请2007-033851号公报公开了这样的技术将输入音频信号划分为多个频带,针对每个频带检测输入音频信号的峰,计算峰位置的时间间隔,并基于频峰生成的时间间隔检测音乐速度。

发明内容
日本未审专利申请2002-221240号公报公开的技术具有这样的问题考虑到用于便携设备的嵌入式处理器上的简要分析,计算量过量。此外,日本未审专利申请 2007-033851号公报中公开的技术是为低计算量设计的,但是存在这样的问题各个峰的时间间隔与在很多情况下的BPM不对应,且检测效率不是充分高。特别地,在很多情况下, BPM被错误地设置为两倍或一半。例如,在正确的BPM是60的情况下,可能检测到BPM = 120,或在正确的BPM是100的情况下,可能检测到BPM = 50。因此,期望提供一种能够以高效率、低计算量检测音乐的音乐速度的技术。根据本公开的实施例,提供一种音乐速度检测装置,包括基本特征量提取部分, 其从输入音频信号提取多个类型的基本特征量;加权和相加部分,其对在基本特征量提取部分中提取的多个类型的基本特征量进行加权和相加,以获得相加信号;以及音乐速度检测部分,其基于在加权和相加部分中获得的相加信号中包括的周期分量来检测指示音乐速度的BPM。根据该实施例,基本特征量提取部分从输入音频信号提取多个类型的基本特征量。例如,基本特征量提取部分将输入音频信号划分为包括预定数量的样本数据的帧,并针对每一帧提取多个类型的基本特征量。例如,在输入音频信号的采样频率是22. 050kHz的情况下,输入音频信号被划分为包括IOM件样本数据的帧。例如,基本特征量提取部分包括短时傅立叶变换部分和基本特征量计算部分。短时傅立叶变换部分对输入音频信号的每一帧进行短时傅立叶变换。基本特征量计算部分基于从短时傅立叶变换部分输出的每一帧的频谱计算多个类型的基本特征量,即“谱通量”、 “谱质心”和“滚降”。
加权和相加部分对在基本特征量提取部分中提取的多个类型的基本特征量进行加权和相加,以获得相加信号。这里,例如,手动地获得权重系数,但可以通过学习自动地确定权重系数。此外,音乐速度检测部分检测在加权和相加部分中获得的相加信号中包括的周期分量,并基于周期分量检测指示音乐速度的BPM。例如,音乐速度检测部分包括快速傅立叶变换部分,得分计算部分和BPM确定部分。快速傅立叶变换部分对每一帧的相加信号进行快速傅立叶变换,以进行周期性分析。得分计算部分将从快速傅立叶变换部分输出的频率轴上的各个样本划分到预定数量的连续频率区域,连续频率区域包括假设存在正确的BPM的频率区域,并且在连续频率区域中,与低通侧相邻的频率区域变为一半且与高通侧相邻的频率区域变为两倍。此外, 得分计算部分针对每个频率区域以及针对每个样本计算与每个样本数据的水平相对应的得分。BPM确定部分包括得分相加部分和最大值搜索部分。得分相加部分匹配各个频率区域的样本数,并基于在得分计算部分中计算出的针对每一频率区域以及针对每一样本的得分,对各个频率区域的针对相应样本的样本得分进行相加。最大值搜索部分计算来自假设存在正确的BPM的频率区域的、与具有由得分相加部分的相加获得的样本中的每一个样本的得分相加值中的最大值的样本相对应的频率,并确定与该频率相对应的BPM作为指示音乐速度的BPM。这样,根据实施例,从输入音频信号提取多个类型的基本特征量;降多个类型的基本特征量加权并相加以获得相加信号;并且基于包括在相加信号中的周期分量检测指示音乐速度的BPM。因此,可以以高效率低计算量检测音乐的音乐速度。根据实施例,例如,音乐速度检测装置还包括基于在基本特征量提取部分中提取的多个类型的基本特征量修改在音乐速度检测部分中检测到的BPM的音乐速度修改部分。 音乐速度修改部分可以基于多个类型的基本特征量,获得用于确定正确的BPM是否存在于参照假设存在正确的BPM的频率区域的高通侧的第一速度感,并获得用于确定正确的BPM 是否存在于参照假设存在正确的BPM的频率区域的低通侧的第二速度感。然后,当通过第一速度感确定正确的BPM存在于参照假设存在正确的BPM的频率区域的高通侧时,音乐速度修改部分可以将在音乐速度检测部分中检测到的BPM加倍,以输出BPM ;当通过第二速度感确定正确的BPM存在于参照假设存在正确的BPM的频率区域的低通侧时,可以将在音乐速度检测部分中检测到的BPM减小到一半,以输出BPM ;并且当通过第一速度感确定正确的 BPM不存在于参照假设存在正确的BPM的频率区域的高通侧时,以及当通过第二速度感确定正确的BPM不存在于参照假设存在正确的BPM的频率区域的低通侧时,可以将在音乐速度检测部分中检测到的BPM照原样输出。在这种情况下,通过基于多个类型的基本特征量,获得用于确定正确的BPM是否存在于参照假设存在正确的BPM的频率区域的高通侧和低通侧的第一和第二速度感,执行 BPM的修改处理,且能够在正确的BPM存在于参照假设存在正确的BPM的频率区域的高通侧和低通侧的情况下适当地修改BPM。此外,在这种情况下,能够在不执行额外的基本特征量计算的情况下使用在基本特征量提取部分中提取的多个类型的基本特征量。此外,根据实施例,例如,基本特征量提取部分将输入音频信号划分为包括预定数量的样本数据的帧,并针对每一帧提取多个类型的基本特征量,且音乐速度修改部分针对包括预定数量的帧的每个块获得第一速度感和第二速度感。这里,可以通过利用经过预先学习获得的第一系数组来加权预定数量的帧中多个类型的基本特征量的平均值和标准偏差,并通过将加权的平均值和标准偏差相加,来获得第一速度感;以及可以通过利用经过预先学习获得的第二系数组来加权预定数量的帧中多个类型的基本特征量的平均值和标准偏差,并通过将加权的平均值和标准偏差相加,来获得第二速度感。例如,多个类型的基本特征量包括“ZCR”、“谱通量”、“谱质心”和“滚降”。根据本公开,从输入音频信号中提取多个类型的基本特征量,对多个类型的基本特征量进行加权并相加以获得相加信号,并基于包括在相加信号中的周期分量检测指示音乐速度的BPM。因此,能够以高效率低计算量来检测音乐的音乐速度。


图1例示根据本公开第一实施例的音乐音乐速度检测装置的结构实例的框图;图2是例示形成音乐音乐速度检测装置的基本特征量提取部分的结构的实例的框图;图3是例示形成音乐音乐速度检测装置的临时BPM计算部分的结构的实例的框图;图4是例示形成临时BPM计算部分的周期分量分析部分的结构的示例的框图;图5是例示通过对多个类型的基本特征量的加权的相加信号执行快速傅立叶变换获得的结果的实例的图;图6是例示使用快速傅立叶变换结果的每个频率区域的得分计算实例的图;图7是例示BPM计算部分中每个块的BPM确定处理的过程的流程图;图8是例示根据本公开第二实施例的音乐分析系统的结构的实例的框图;以及图9是例示允许使用软件执行诸如音乐音乐速度检测或音乐分类的处理的计算机装置的结构的实例的图。
具体实施例方式下文中,将以下面的顺序描述根据本公开的各实施例1.第一实施例2.第二实施例3.变型1.第一实施例[音乐音乐速度检测装置的结构实例]图1例示根据第一实施例的音乐音乐速度检测装置10的结构的实例。音乐音乐速度检测装置10检测代表音频信号的每预定时间(例如,30秒)的音乐的音乐速度的BPM(每分钟拍数)。音乐音乐速度检测装置10使用根据音频信号的时间轴和频率轴上的数据获得的各种基本特征量的值以及其周期,检测代表音乐音乐速度的BPM。音乐音乐速度检测装置 10包括基本特征量提取部分100、临时BPM计算部分200以及BPM计算部分300。基本特征量提取部分100根据输入音频信号(PCM信号)针对每一帧计算多个类型的基本特征量。在本实施例中,多个类型的基本特征量对应于“ZCR(过零率,ZeroCrossing Rate)”、“谱通量(Spectrum Flux) ”、“谱质心(Spectrum Centroid) ” 和“滚降 (Roll-Off),,。"George Tzanetakis and Perry Cook,Musical genre classification of audio signals, IEEE Transactions of Speech and Audio Processing,10(5) :293-302, July 2002”中公开了这些基本特征量。“ZCR”、“谱通量”、“谱质心”和“滚降”的基本特征量通常具有下面的含义。“ZCR” 是输入音频信号的时间波形在单位时间期间与横轴相交的次数。“谱通量”是每帧的频谱中的能量变化。“谱质心”是每帧的频谱的中心。“滚降”是达到每帧的频谱的总和的85%的频率。临时BPM计算部分200将由基本特征量提取部分100提取的每一帧的多种类型的基本特征量视为时间序列数据,并检测包括于多个类型的基本特征量的加权的相加信号中的周期分量(重复的分量),从而计算临时BPM。临时BPM计算部分200使用“谱通量”、“谱质心”和“滚降”的基本特征量。临时BPM计算部分200形成加权和相加部分以及音乐速度检测部分。这里,临时BPM取BPMO到BPMO X 2,并将大约75用作BPMO。即使在BPMO到BPMO X 2 之间不存在正确的BPM的情况下,临时BPM计算部分200输出BPMO到BPM0X2之间的值作为临时BPM。例如,在正确的BPM是180的情况下,临时BPM计算部分200输出90作为临时BPM。此外,例如,在正确BPM是50的情况下,临时BPM计算部分200输出100作为临时 BPM。BPM计算部分300基于由基本特征量提取部分100提取的基本特征量计算速度感, 并确定正确的BPM是超过150的BPM(高BPM)还是低于BPMO (大约75)的BPM(低BPM)。 在计算速度感时,BPM计算部分300使用“ZCR(过零率)”、“谱通量”、“谱质心”和“滚降”的
基本特征量。当确定为正确的BPM是高BPM时,BPM计算部分300将由临时BPM计算部分200 计算出的临时BPM加倍,以获得BPM。此外,当确定为正确的BPM是低BPM时,BPM计算部分 300将由临时BPM计算部分200计算的临时BPM减少到一半,以获得BPM。此外,当确定为正确的BPM既不是高BPM又不是低BPM时,BPM计算部分300照原样使用由临时BPM计算部分200计算出的临时BPM作为BPM。BPM计算部分300形成音乐速度修改部分。将描述图1中所示的音乐音乐速度检测装置10的操作。输入音频信号(PCM信号)被提供到基本特征量提取部分100。在基本特征量提取部分100中,对每一帧从输入音频信号中提取“ZCR”、“谱通量”、“谱质心”和“滚降”的基本特征量。由基本特征量提取部分100提取的针对每一帧的“ZCR”、“谱通量”、“谱质心”和 “滚降”的基本特征量被提供到临时BPM计算部分200。在临时BPM计算部分200中,由基本特征量提取部分100针对每一帧提取的每一基本特征量被视为时间序列数据,并被加权和相加。此外,在临时BPM计算部分200中,提取包括于加权的相加信号中的周期分量(重复分量),并计算临时BPM。临时BPM是BPMO到BPMO X 2之间的值(BPM是大约75)。由临时BPM计算部分200计算的临时BPM被提供给BPM计算部分300。临时BPM是 BPMO到BPMO X 2之间的值(BPM是大约75)。即,在临时BPM计算部分200中,即使在BPMO 到BPMO X 2之间不存在正确BPM的情况下,也将BPMO到BPMO X 2之间的值输出为临时BPM。 此外,由基本特征量提取部分100针对每一帧提取的“ZCR”、“谱通量”、“谱质心”和“滚降”的基本特征量被提供给BPM计算部分300。在临时BPM计算部分300中,基于由基本特征量提取部分100提取的“ZCR”、“谱通量”、“谱质心”和“滚降”的基本特征量计算速度感。在BPM计算部分300中,基于计算的速度感确定正确的BPM是超过BPMO X 2的BPM (高BPM) (ΒΡΜ0是大约75),还是低于BPMO的 BPM (低 BPM)。此外,在BPM计算部分300中,当确定为正确的BPM是高BPM时,由临时BPM计算部分200计算出的临时BPM被加倍,以作为BPM输出。此外,在BPM计算部分300中,当确定正确的BPM是低BPM时,由临时BPM计算部分200计算的临时BPM被减少到一半,以作为 BPM输出。此外,在BPM计算部分300中,当确定为BPM既不是高BPM也不是低BPM时,由临时BPM计算部分200计算的临时BPM被作为BPM原样输出。[基本特征量计算部分的描述]将描述基本特征量计算部分100的细节。如上所述,基本特征量计算部分100计算在临时BPM计算部分200中的周期分量提取处理以及BPM计算部分300中的速度感计算处理中使用的多个类型的基本特征量。多个类型的基本特征量对应于如上所述的“ZCR”、 “谱通量”、“谱质心”和“滚降”。基本特征提取部分100从输入音频信号提取“ZCR”、“谱通量”、“谱质心”和“滚降”。预先对输入音频信号进行通道变换和采样频率变换,使得输入音频信号是单声道的, 并具有22. 050kHz的采样频率。基本特征量提取部分100将输入音频信号划分为IOM个样本帧(大约46毫秒),计算每一帧的基本特征量,然后将结果存储在缓冲器中。图2例示基本特征量提取部分100的结构的示例。基本特征量提取部分100包括 短时傅立叶变换部分101、通量计算部分102、质心计算部分103、滚降计算部分104、ZCR计算部分105以及缓冲器106到109。ZCR计算部分105使用输入音频信号,即时间轴上的数据,针对每一帧(10M 个样本),根据下面的公式⑴计算“ZCR”。此外,ZCR计算部分105执行归一化 (normalization),使得计算结果在被确定为“ZCR”的基本特征量的归一化系数中从0改变为1。这里,代表帧t中输入音频信号的采样数据,且“η”代表时间轴方向上的索引 (index)。此外,“sign”是确定信号的极性的函数。在信号为正的情况下,“sign”被赋予 “1”,且在信号是负的情况下,“信号”被赋予“_1”。这里,‘%”是帧t中的“ZCR,,。
权利要求
1.一种音乐速度检测装置,包括基本特征量提取部分,其从输入音频信号提取多个类型的基本特征量;加权和相加部分,其对在所述基本特征量提取部分中提取的多个类型的所述基本特征量进行加权和相加,以获得相加信号;以及音乐速度检测部分,其基于在所述加权和相加部分中获得的所述相加信号中包括的周期分量来检测指示音乐速度的每分钟拍数BPM。
2.根据权利要求1所述的音乐速度检测装置,其中,所述基本特征量提取部分将所述输入音频信号划分为包括预定数量的样本数据的帧,并针对每一帧提取所述多个类型的所述基本特征量。
3.根据权利要求2所述的音乐速度检测装置,其中,所述基本特征量提取部分包括短时傅立叶变换部分,其对所述输入音频信号的每一帧进行短时傅立叶变换;以及基本特征量计算部分,其基于从所述短时傅立叶变换部分输出的每一帧的频谱计算所述多个类型的所述基本特征量。
4.根据权利要求3所述的音乐速度检测装置,其中,所述音乐速度检测部分包括快速傅立叶变换部分,其对在所述加权和相加部分中获得的每一帧的所述相加信号进行快速傅立叶变换;得分计算部分,其将从所述快速傅立叶变换部分输出的频率轴上的各个样本划分到预定数量的连续频率区域,并且针对每个频率区域以及针对每个样本计算与每个样本数据的水平相对应的得分,所述连续频率区域包括假设存在正确的BPM的频率区域,并且在所述连续频率区域中,与低通侧相邻的频率区域变为一半且与高通侧相邻的频率区域变为两倍;得分相加部分,其基于在所述得分计算部分中计算出的针对每一频率区域以及针对每一样本的得分,匹配所述各个频率区域的样本数,并对所述各个频率区域的针对相应样本的样本得分进行相加;以及BPM确定部分,其将与假设存在所述正确的BPM的所述频率区域中的频率相对应的BPM 确定为指示音乐速度的BPM,所述假设存在所述正确的BPM的所述频率区域中的频率与具有由所述得分相加部分的相加获得的样本中的每一个样本的得分相加值中的最大得分相加值的样本相对应。
5.根据权利要求1所述的音乐速度检测装置,还包括基于在所述基本特征量提取部分中提取的所述多个类型的基本特征量修改在所述音乐速度检测部分中检测到的BPM的音乐速度修改部分,其中,所述音乐速度修改部分基于所述多个类型的所述基本特征量,获得用于确定所述正确的BPM是否存在于参照假设存在所述正确的BPM的所述频率区域的高通侧的第一速度感,并获得用于确定所述正确的BPM是否存在于参照假设存在所述正确的BPM的所述频率区域的低通侧的第二速度感;当通过所述第一速度感确定所述正确的BPM存在于参照假设存在所述正确的BPM的所述频率区域的所述高通侧时,将在所述音乐速度检测部分中检测到的所述BPM加倍,以输出所述BPM ;当通过所述第二速度感确定所述正确的BPM存在于参照假设存在所述正确的BPM的所述频率区域的所述低通侧时,将在所述音乐速度检测部分中检测到的BPM减小到一半,以输出所述BPM ;以及当通过所述第一速度感确定所述正确的BPM不存在于参照假设存在所述正确的BPM的所述频率区域的所述高通侧时,以及当通过所述第二速度感确定所述正确的BPM不存在于参照假设存在所述正确的BPM的所述频率区域的所述低通侧时,将在所述音乐速度检测部分中检测到的所述BPM照原样输出,作为所述BPM。
6.根据权利要求5所述的音乐速度检测装置,其中,所述基本特征量提取部分将所述输入音频信号划分为包括预定数量的样本数据的帧, 并针对每一帧提取所述多个类型的所述基本特征量,以及其中,所述音乐速度修改部分针对包括预定数量的帧的每个块获得所述第一速度感和所述第二速度感;通过利用经过预先学习而获得的第一系数组加权预定数量的帧中所述多个类型的基本特征量的平均值和标准偏差,并通过将加权的平均值和标准偏差相加,来获得所述第一速度感;以及通过利用经过预先学习而获得的第二系数组加权预定数量的帧中所述多个类型的基本特征量的所述平均值和所述标准偏差,并通过将加权的平均值和标准偏差相加,来获得所述第二速度感。
7.一种音乐速度检测方法,包括从输入音频信号提取多个类型的基本特征量;对在基本特征量提取中提取的多个类型的所述基本特征量进行加权和相加,以获得相加信号;以及基于在基本特征量加权和相加中获得的所述相加信号中包括的周期分量来检测指示音乐速度的每分钟拍数BPM。
8.一种允许计算机具有包括以下内容的功能的程序,包括基本特征量提取装置,用于从输入音频信号提取多个类型的基本特征量;加权和相加装置,用于对在所述基本特征量提取装置中提取的多个类型的所述基本特征量进行加权和相加,以获得相加信号;以及音乐速度检测装置,用于基于在所述加权和相加装置中获得的所述相加信号中包括的周期分量来检测指示音乐速度的每分钟拍数BPM。
全文摘要
提供一种音乐速度检测装置、音乐速度检测方法和程序。该音乐速度检测装置包括基本特征量提取部分,其从输入音频信号提取多个类型的基本特征量;加权和相加部分,其对在基本特征量提取部分中提取的多个类型的基本特征量进行加权和相加,以获得相加信号;以及音乐速度检测部分,其基于在加权和相加部分中获得的相加信号中包括的周期分量来检测指示音乐速度的BPM。
文档编号G10H1/40GK102347022SQ20111021269
公开日2012年2月8日 申请日期2011年7月26日 优先权日2010年8月2日
发明者井上晃, 高桥秀介 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1