信息处理设备、方法及程序的制作方法

文档序号:2830003阅读:203来源:国知局
专利名称:信息处理设备、方法及程序的制作方法
技术领域
本发明涉及信息处理设备、方法及程序,以及具体地,涉及用于分析包
含调制的曲调(tune)的波形的信息处理设备、方法及程序。
背景技术
已经提出了用于分析曲调结构的各种方法。具体地,通过分析如图1的 上部所示的曲调的波形,发现曲调具有如图1下部所示的结构。即,,i设时 间从图的左侧行进到右侧,曲调开始于"简介",其接下来的部分以顺序的"和 音"、"插曲"、"独唱A"、"独唱B"、"和音"、"和音"、"插曲"等等组成。然后, 例如,基于这种分析的结果,在曲调中识别对应于和音的部分。
在下文中,位于曲调中部并包含了主题曲中的变化且具体地,是曲调的 最吸引人的部分的曲调部分将被称为"和音"。另外,用于打节拍(meter)的 单位将在下文中被称为"拍子(beat),,。即,可以数拍子,因为它们每个具有 不变的时间间隔,且在小节(measure)中的拍子的位置在重音中产生变化(即 强拍和弱拍),且其不同的组合导致不同的节拍。
还存在一种方法,其中从输入音频数据中抽取特征;计算这些特征之间 的相似性以列下重复的部分(section);集合所列的重复的部分;进行包含调 制的重复部分的检测;集合包含调制的重复部分;以及从所集合的重复部分 中选择适合作为和音部分的部分(例如,见专利文档1)。
专利文档1:日本专利公开No.2004-23396
发明内容
本发明要解决的问题
在分析包含调制的曲调波形的情况下,处理调制包含了增长的操作量, 且因此,不幸地,用于分^f曲调波形所需的时间增加了。
例如,在日本专利公开No.2004-233965中公开的方法中,通过检测包含 调制的重复部分的来选择作为和音部分适当的部分。然而,以此方法,选择
适当的和音部分有时要花费较长时间。
已经考虑上述环境设计了本发明,本发明使得包含调制的曲调波形的分 析能够用减少的操作量来达到。
解决问题的手段
本发明的一个发明是一种信息处理设备,包括第一提取装置,用于从 包含调制的曲调的波形的第 一部分中提取第 一特征,每个第 一部分对应于每 个拍子,第一特征涉及拍子;消除装置,用于从所提取的每个第一特征的频
率分量中消除相位分量;以及生成装置,用于基于其相位分量已经被消除的
第一特征,生成表示一个所述第一部分和另一个所述第一部分之间的相关性 的自相关信息。
该信息处理设备还可以包括分离装置,用于基于自相关信息,将拍子 分离为多个第二部分,每个第二部分都包含一连串的具有高相关性的拍子; 第二提取装置,用于从通过所述分离所获得的每个第二部分中提取第二特征, 第二特征表示曲调的音乐特征;以及识别装置,用于基于第二特征,识别分 离的第二部分中的曲调的曲调结构分量。
消除装置可以通过离散傅立叶变换从每个第一特征的频率分量中消除相 位分量。
识别装置可以识别对应于曲调的和音的部分作为曲调结构分量。
第一特征可以是在第一部分中的预定数量的八度音阶中每个音调的能量 第二部分可以是在第二部分中的特定频带的增益、.音量、或关于声音源
的信息。
第二特征可以是第二部分的长度、第二部分出现的次数、或第二部分连 续重复的次数。
基于其相位分量已经被消除的第一特征,所述生成装置以预定数量拍子 的间隔计算与另 一个所述第一部分的相关性,以生成自相关信息
消除装置可以从已经被滑移的每个第一特征的频率分量中消除相位分量。
消除装置可以在在从每个第一特征的频率分量中消除相位分量之前移位 每个音调的能量。
本发明的一个方法是一种信息处理方法,包括提取步骤,用于从包含
调制的曲调的波形的一些部分中提取特征,每个部分对应于每个拍子,该特 征涉及拍子;消除步骤,用于从所提取的每个特征的频率分量中消除相位分
量;以及生成步骤,用于基于其相位分量已经被消除的特征,生成表示一个 所述部分和另 一个所述部分之间的相关性的自相关信息。
本发明的一个方面是一种程序,使得计算机进行提取步骤,用于从包 含调制的曲调的波形的一些部分中提取特征,每个部分对应于每个拍子,该 特征涉及拍子;消除步骤,用于从所提取的每个特征的频率分量中消除相位 分量;以及生成步骤,用于基于其相位分量已经被消除的特征,生成表示一 个所述部分和另一个所述部分之间的相关性的自相关信息。
在本发明的 一 个方面中,从包含调制的曲调波形的第 一部分中提取了第 一特征,每个第一部分对应于每个拍子,第一部分涉及拍子,从所提取的每 个第一特征的频率分量中消除了相位分量;并基于其相位分量已经被消除的 第一特征,生成了表示所述第一部分和另一第一部分之间的相关性的自相关 信息。
发明的效果
如上所述,根据本发明的一个方面,可以用减少的操作量来分析包含调 制的曲调波形。


图1是图示用于分析曲调的曲调结构的相关技术的方法的图。
图2是用于说明个人计算机的示例硬件配置的方框图。
图3是图示由个人计算机的CPU执行的软件的示例功能结构的方框图
图4是用于说明由曲调结构分析单元进行的提取和音的处理的流程图。
图5是图示从曲调的波形中检测的拍子的示例的图。
图6是用于说明从曲调的波形的每个拍子中提取的拍子特征的图。
流程图
9是图示曲调(Cl到B7)的能量随音高(pitch)和时间的示例分布

图10是用于说明用于分析七个八度音阶中的音调的能量的方法的图。 图11是用于说明在一个拍子特征和另一拍子特征之间的相关性的图。 图12是用于说明拍子特征的消除处理的图。 图13是用于说明拍子特征的消除处理的图。
细节的流程图。
图15是图示由自相关映射生成部分生成的示例自相关映射的图。 图16是用于说明在自相关映射中的部分的分离的图。 图17是用于说明在曲调中的部分的分离的图。
图18是用于说明从曲调波形的每个分离的部分中提取的音乐特征的图。 图19是用于除了从曲调的每个分离的部分中提取的音乐特征以外的其 它特征的图。
图20是说明由和音识别部分进行的对应于曲调的和音部分的识别的图。 图21是用于说明由和音识别部分进行的对应于曲调的和音部分的识别 的细节的图。
细节的流程图。
图23是图示一侧上由N个拍子的间隔的示例自相关映射的图。 图24是图示一侧上由N个拍子的间隔的示例自相关映射的图。 图25是用于说明拍子特征的滑移(shuffle)的图。 图26是用于说明拍子特征的移位(shift)的图。
图27是图示由个人计算机的CPU执行的软件的另一示例功能结构的方 框图。
图28是图示从曲调波形中检测的拍子的示例的图。 图29是图示拍子检测单元的示例结构的方框图。 图30是用于说明打击(attack)信息的提取的图。 图31是用于说明打击信息的提取的图。 图32是用于说明基本拍子周期的检测的图。 图33是用于说明节奏(tempo)的确定的图。 图34是用于说明节奏的校正的图。 图35是用于说明节奏的校正的图。
图36是用于说明曲调校正的图。
图37是用于说明节拍的确定的图。
图38是用于说明节拍的确定的图。
图39是用于说明小节的顶部的确定的图。
图40是用于说明小节的顶部的确定的图。
标号描述
1个人计算机,11 CPU, 12R0M, 13 RAM, 16输入部分,17输出部 分,18记录部分,19通信部分,20驱动器,21可移动介质,31曲调结构 分析单元,41拍子特征提取部分,42拍子特征消除部分,43自相关映射生 成部分,44分节部分,45音乐特征提取部分,46和音识别部分,101拍子 检测单元,111打击信息提取部分,112基本拍子周期检测部分,113节奏 确定部分,114曲调特征提取部分,115节奏校正部分,116拍子特征提取 部分,117节拍确定部分,118小节顶部确定部分
具体实施例方式
在下文中,将参考附图描述本发明的实施例。 图2是个人计算机1的示例硬件配置的方框图。
个人计算机1是用于进行预定处理以记录曲调数据并分析从曲调数据中 再现的曲调波形的器件。个人计算机1是本发明的信息处理设备的示例。
在图2的示例中的个人计算机1中,CPU (中央处理单元)11根据存储 在ROM (只读存储器)12中的程序或从记录部分18装载到RAM (随机存 取存储器)13的程序来执行各种处理。在RAM 13中,还适当地存储了当CPU 11执行各种处理时需要的数据和其它数据。
CPU 11、 ROM 12和RAM 13经由总线14而彼此连接。输入/输出接口 15也被连接于总线14。
连接于输入/输出接口的有由键盘、鼠标等等构成的输入部分16;由扬 声器、诸如LCD (液晶显示器)的显示器等等构成的输出部分;由硬盘等等 构成的记录介质18;以及控制经由诸如因特网的网络而联系另一器件的通信 处理的通信部分19。
必要时驱动器20也被连接于输入/输出接口。诸如-兹盘、光盘、;兹-光盘
或半导体存储器的可移动介质21被适当地安装在驱动器上,且必要时计算机 程序从其被读取并安装到记录介质18。
注意,个人计算机1的硬件配置不局限于图2的示例。任何硬件配置可 用,只要实现了参考图3的如下描述的功能结构。
图3是图示由图2的个人计算机1的CPU 11执行的软件的示例功能结构 的方框图。
曲调结构分析单元31进行预定处理以分析(包含调制的)曲调的波形。
曲调结构分析单元31包括拍子特征4是取部分41、自相关映射生成部分 42、分节部分43、音乐特征提取部分44,和和音识别部分45。
拍子特征提取部分41进行拍子特征提取处理以提取特征,即将在逐拍的 基础上提取的特征。拍子特征提取部分41向拍子特征消除部分42提供所提 取的拍子特征。稍后将描述拍子特征提取处理的细节。
拍子特征消除部分42从来自拍子特征提取部分41所提供的每个拍子特 征中消除相位分量。拍子特征消除部分42向自相关映射生成部分43提供从 其已经消除了相位分量的拍子特征量。
基于从拍子特征消除部分42提供的从其已经消除了相位分量的拍子特 征,自相关映射生成部分43进行自相关映射生成处理以生成相关性映射。自 相关映射生成部分43向分节部分44提供所生成的自相关映射。稍后将描述 自相关映射生成处理的细节。
基于从自相关映射生成部分43提供的自相关映射,分节部分44进行分 离(分节)以便曲调被分离为每个都对应于由曲调波形重复多次的相同短句 之一的部分。
音乐特征提取部分45从每个都对应于一个相同(相似)的短句的每个分 离的部分(即,对应于各个分离的部分的曲调的部分波形)中提取音乐特征, 即音乐的特征。音乐特征提取部分45向和音识别部分46提供所提取的音乐 特征。
音乐特征提取部分45还从每个都对应于一个相同(相似)的短句的每个 分离的部分(即,对应于各个分离的部分的曲调的部分波形)中提取不同于 音乐特征的另 一特征。音乐特征提取部分45向和音识别部分46提供所提取 的其它特征。
基于从音乐特征提取部分45提供的音乐特征和其它特征,和音识别部分
46从每个都对应于一个相同(相似)的短句的分离的部分(即,对应于各个 分离的部分的曲调的部分波形)中识别对应于曲调的和音的部分。
注意,在本实施例中,由于个人计算机1具有图2的上述硬件配置,因 此,例如,曲调结构分析单元31被构成作为将由图2所示的CPU11执行的 应用软件。然而,用不同于图2的硬件配置的个人计算机1的硬件配置,曲 调结构分析单元31可替换地可以被构成作为硬件单元或软件和石更件组件的 结合。
如上所述,基于曲调波形的曲调的结构的分析使得可能识别曲调的和音 部分。因此,接下来,参考图4的流程图,现在下面将描述由曲调结构分析 单元31进行的和音识別处理。
在步骤S1,曲调结构分析单元31从曲调的波形检测拍子。例如,在步 骤Sl,曲调结构分析单元31从由音频压缩根据MP3 (MPEG音频层-3)系 统、AAC (增强音频编码)系统等等所获得的音频信号中再现的曲调的波形 来检测节奏、节拍、小节的位置等等。
图5是图示从曲调的波形检测的拍子的示例的图。
通过将曲调的波形分离成多个部分的垂线来划分的部分,从图5的上部 所示的曲调的波形检测的拍子被呈现在图5的下部。具体地,那些线中的具 有其之间的三条线的粗线指示小节的顶部,而包含在由粗线划分的每个部分
中的、由细线划分的四个部分的每个(即四分音符的持续时间)表示节奏。 即,如被分配给由分离如图下部所示的波形的线划分的每个部分的数字(1 到4)所示,如图5所示的曲调的波形表示4-拍子曲调。
即,例如,如图5所示,曲调结构分析单元31 vt人如图上部所示的曲调的 波形中检测如图下部所示的拍子。
返回到图4的流程图,在步骤S2,拍子特征提取部分41进行拍子特征 提取处理以提取拍子特征。
图6是用于说明在逐拍的基础上从曲调的波形中提取拍子特征的图。
在如图6所示的曲调的波形中,具有如图5下部的曲调的波形,曲调的 波形被分离为每个都对应于每个拍子(如图6所示的例子中,显示了分离的 十二个部分)的段(part)。拍子特征提取部分41从每个如此分离的拍子中提 取拍子特征。
这里,现在将参考图8的流程图以下描述由拍子特征提取部分41在步骤
S2进行的拍子特征^是取处理的细节。
在步骤Sll,基于被分离为每个都对应于每个拍子的段的曲调波形,例
如,拍子特征提取部分41计算关于每个拍子的、七个八度音阶的范围内的每
个音调的能量。
图8是说明由拍子特征提取部分41进行的拍子特征提取处理的图。 如图8所示,在计算七个八度音阶的范围内的每个音调的能量的情况下, 例如,计算每个八度音阶l到7的和音的能量C、 C#、 D、 D#、 E、 F、 F#、 G、 G#、 A、 A#,和B (在下文章还被分别称为"01"到"07")。这里,每个八 度音阶包括十二个音调(声音),以它们的频率的递增顺序,C(Do)、 C#、 D(Re)、 D#、 E(Mi)、 F(Fa)、 F#、 G(Sol)、 G#、 A(La)、 A弁和B(Si)。例如,八度音阶 1 (即01)的十二个音调C、 C#、 D、 D#、 E、 F、 F#、 G、 G#、 A、 A弁和B
被分别称为"cr'、 "c#r、 "di"、 "d#i"、 "ei,,、 "fi"、 "f#i"、 "gi"、 "g#i,,、
"A1"、 "A弁1"和"B1";八度音阶2 (即02)的十二个音调C、 C#、 D、 D#、 E、 F、 F#、 G、 G#、 A、 A存和B被分别称为"C2"、 "C#2"、 "D2"、 "D#2"、 "E2"、 "F2"、 "F#2"、 "G2"、 "G#2,,、 "A2"、 "A弁2,,和"B2"。相同的符号同样被应用 于八度音阶3 (即03 )到八度音阶7 (即07 )。
即,例如,基于被分离成每个都对应于每个拍子的段的曲调波形,拍子 特征提取部分41计算Cl到B7的各个能量。
至于用于计算在七个八度音阶的范围内的音调(Cl到B7)的能量的方 法,例如,通过分析按照音调和时间被分离为每个都对应于每个拍子的段的 曲调波形来计算每个音调的能量。接下来,参考图9和10,下面将描述用于 计算七个八度音阶的范围内的每个音调的能量的方法。
图9是图示音调(Cl到B7)的能量随着音高(pitch)和时间的示例分 布的图。
在图9所示的示例中,水平轴表示时间,时间从图的左侧行进到右侧。 垂直轴表示音调,音高(即频率)随着增加的高度而增加。
图包括黑色区域和白色区域。黑色区域表示更强能量,而图中的白素区 域表示更弱能量。注意,在图9的示例中,为了简化说明,由两种颜色、黑 与白表述能量的强度。然而,实际中,可以更详细地表述能量的强度的分布。
画出图中的六条水平的点线以筒化说明,由这些点线分离的七个部分的 每个表示一个八度音阶。即,由七个分离的部分表示七个八度音阶Ol到07。
例如,参考图9所示的示例,在从图的底部的第一到第三个部分的每个、
即01到03中,稀少地分布音调的能量,而从图的底部的第四到第七个部分 的每个、即04到07中,几乎遍布音调的能量。
在基于逐拍计算七个八度音阶范围上的能量的情况下,如图IO所示,拍 子特征提取部分41切割关于其将被其它拍子特征的在拍子范围时间内的信 号,并通过时间来平均化所切割的信号的能量。因此,拍子特征提取部分41 获得如图10的右手部上的图所表示的音调(C1到B7)的能量。
返回图7的流程图,在步骤S12,拍子特征提取部分41权重所计算的每 个音调的能量。例如,在步骤S12,拍子特征^是取部分41以图8所示的方式 来权重七个八度音阶范围中的每个音调(C1到B7)的能量。
至于用于权重每个音调(Cl到B7)的能量的方法,拍子特征提取部分 41通过高斯分布等等来计算权重和例如通过归一化所计算的权重来识别对于 每个曲调(C1到B7)的权重并给曲调分配权重。
具体地,用公式(1 )来计算通过高斯分布的权重W (N)。
W(N)=Exp(-(N-Gm)x(N-Gm) / (2xGvxGv)) ... ( 1 )
在公式(l)中,Gm指的是具有最高权重的音调,而Gv指的是权重的 宽度,且为它们设置预定值。另外,N指的是音调的数量;因此,由高斯分 布计算的权重W (N)的数量与音调(例如,在图8的情况下,Cl到B7) 的数量相同。然后,归一化所计算的权重W (N)。
以上述方式来给音调(Cl到B7)分配权重有助于消除非相关的音调, 例如,诸如高频段的音调和低频段的音调。
返回图7的流程图,在步骤S13,拍子特征提取部分41提取拍子特征, 然后完成拍子特征换3又处理。
例如,在步骤S13,如图8所示的,拍子特征提取部分41通过加那些 Cl、 C2、 C3、 C4、 C5、 C6和C7到一起来在权重了的Cl到B7中提取和音 C的能量,通过加那些C針、C#2、 C#3、 C#4、 C#5、 C弁6和C弁7到一起来提 取和音C弁的能量。类似地,拍子特征提取部分41通过加那些D1到D7到一 起来在权重了的Cl到B7中提取和音D的能量,通过加那些D#l到D#7到 一起来提取和音D弁的能量。至于E1到B7,进行类似的加法来其它各个和音 E到B的能量。因此,如图8所示,拍子特征提取部分41提取十二种曲调C、 C#、 D、 D#、 E、 F、 F#、 G、 G#、 A、 A弁和B的能量作为拍子特征。
即,通过进行步骤Sll到步骤S13的处理,拍子特征提取部分41计算每 个都对应于每个拍子的曲调波形的每个分离的部分的拍子特征。
注意,由拍子特征提取部分41提取的拍子提取不局限于上述示例。例如, 可以使用正如它们这样的84 ( 12x7)的能量,而无需进行在步骤S13的处理 中的加法处理。简言之,任何特征是可用作为拍子提取的,只要它是关于每 个都对应于每个拍子的分离的部分所提取的。
返回图4的流程图,在步骤S3,拍子特征消除部分42从来自拍子特征 提取部分41提供的拍子特征的相位分量,并向自相关映射生成部分43提供 从其已经消除了相位分量的结果拍子特征。
例如,在步骤S3,拍子特征消除部分42从-故分离为每个对应于每个拍 子的段的曲调波形中,识别将对其进行相关性计算的部分。拍子特征消除部 分42对所识别的部分的所特征的拍子特征施加离散傅立叶变换(DFT)以从 所提取的拍子特征中消除相位分量。
图11是用于说明在一个拍子特征和另一个拍子特征之间的相关性的图。
在图ll所示的示例中,由曲调波形下方所示的十二个矩形来表示被分离 为每个都对应于每个拍子的段的曲调波形的每个拍子特征,且这十二个矩形
分别代表十二种音调C、 C#、 D、 D#、 E、 F、 F#、 G、 G#、 A、 A弁和B的和 音(在图ll的示例中,只显示了 C和B的和音名)。
々支设,例如,关于特定曲调的波形,将计算包括位置X(即,该部分的 拍子特征)的部分和包括位置Y (即,该部分的拍子特征)的部分之间的相 关性(即两个不同的部分之间的相关性)。在这种情况下,计算从包括位置X 的部分沿时间向后延展的并通过图中上升的斜线而制成的四个部分(即四个 拍子)和从包括位置Y的部分沿时间向后延展的并通过图中下降的斜线而制 成的四个部分(即四个拍子)之间的相关性。
在这种情况下,例如,拍子特征消除部分42对将进行相关性计算的通过 图中上升的斜线而制成的四个部分的拍子特征和通过图中下降的斜线而制成 的四个部分的拍子特征这两者施加离散傅立叶变换,从而从那些拍子在中消
除相位分量。
即,例如,如图12所示,拍子特征消除部分42对通过图11中上升的斜 线而制成的四个部分(即四个拍子)的拍子特征施加离散傅立叶变换来从其 中消除相位分量。该变换使得拍子特征分量的数量从48 (12 (分量)x4 (部
分))减少到25 (12x4/2+1)。
类似地,例如,拍子特征消除部分42对通过图11中下降的斜线而制成 的四个部分(即四个拍子)的拍子特征施加离散傅立叶变换来从其中消除相 位分量。结果,该拍子特征分量的数量从48减少到25。
此时,参考图13,在基调(key) C和在基调D (相比于基调C上升两 个)弹奏的"Do""Me""Sol""Do"的情况下,例如,作为离散傅立叶变换结果的 拍子特征(例如,25个拍子特征分量)是常量,不考虑基调是C还是D。即, 在包含调制的曲调中,作为离散傅立叶变换结果的拍子特征是常量,不考虑 调制。因此,通过计算一次这一组25个拍子特征分量和其它之间的相关性, 实现了相关性计算,同时足够良好地处理了调制。这减少了关于相关性的操 作量,因此,用减少的操作量实现了包含调制的曲调的波形的分析。
注意,当计算拍子特征之间相关性时所选的部分的数量不局限于上述示 例中的四(四个拍子),而可以是例如一个、八个或十个。还要注意,从参考
替换地,所选的部分可以向后或向前和向后延展。即,参考图ll,当计算拍 子特征之间的相关性时所选的部分可以,例如是包括X的部分的向后延展的 三个部分(三个拍子)和六个向后部分(六个拍子)即总共八个部分(八个 拍子)的拍子特征。
还要注意,在上述实施例中,拍子特征消除部分42使用离散傅立叶变换 来从拍子特征中消除相位分量。然而,本发明不局限于此示例。可用任何方 法,只要能够从拍子特征中消除相位分量。
返回图4的流程图,在步骤S4,基于从其已经消除了相位分量并从拍子 特征消除部分42中提供的拍子特征,自相关映射生成部分43进行自相关映 射生成处理以生成自相关映射。
这里,参考图14的流程图,现在将描述以下由自相关映射生成部分43 在步骤S4进行的自相关映射生成处理的细节。
在步骤S21,自相关映射生成部分43计算从拍子特征消除部分42提供 的两者、其相位分量被消除了的包括位置X的四个部分(即,在图11中通过 上升的斜线而制成的部分)的拍子特征和其相位分量被消除了的包括位置Y 的四个部分(即,在图11中通过下降的斜线而制成的部分)的拍子特征之间
的相关性。
换句话说,为了处理包含调制的曲调,自相关映射生成部分43仅使用多
个拍子的离散傅立叶变换的拍子特征的范数(norm)分量来计算相关性。 具体地,例如,使用公式(2)来计算拍子特征之间的相关性。 [等式l]
在公式(2)中,例如,X指的是其相位分量被消除了的包括位置X的四 个部分(即四个拍子)的拍子特征,而Y指的是其相位分量被消除了的包括 位置Y的四个部分(即四个拍子)的拍子特征。
在步骤S22,基于所计算的每个拍子之间的相关性,自相关映射生成部 分43生成自相关映射。
图15是图示由自相关映射生成部分43生成的示例自相关映射的图。
在图15所示的示例自相关映射中,水平轴表示整个曲调的拍子,时间从 图的左侧行进到右侧。垂直轴表示与水平轴所表示的整个相同的曲调的拍子, 时间从图的上侧行进到下侧。即,关于水平轴,随着水平位置在图中向右移 动,曲调中所表示的位置接近曲调的结尾,而关于垂直轴,随着垂直位置在 图中向下移动,曲调中所表示的位置接近曲调的结尾。因为水平轴和垂直轴 表示相同曲调的拍子,因此两个轴具有相同的长度。
在图中的黑色区域指示由水平和垂直轴所识别的曲调的对应拍子之间的 相关性高,而在图中的白色区域指示由水平和垂直轴所识别的曲调的对应拍 子之间的相关性低。由图中的正方形所表示的从自相关映射的左上角到右下 角延展的对角线对应于由水平轴所识别的曲调拍子与由垂直轴识别的拍子相 同的位置。因此,该对角线在该图中自然采用黑线(对角线)来表示,表示 高的相关性。
即,基于由公式(2)计算的拍子特征之间的相关性,例如,图15的示 例自相关映射指示通过黑色相应的拍子之间的相关性高的位置和通过白色相 应的拍子之间的相关性低的位置。换句话说,自相关映射是由黑线指示具有 类似短句的曲调的部分(即具有高相关性的部分)的图。
返回图4的流程图,在步骤S5,基于从自相关映射生成部分43提供的 自相关映射,分节部分44进行分离(即分节)以便曲调被分离为每个都对应
...(2)
于由曲调波形重复多次的相同短句(类似短句)之一的部分。
具体地,参考图16的示例,在图15的示例自相关映射中,本质上相同
(类似)的下降斜线样式在由点线A包围的最顶区域中出现了四次,这种样 式出现的部分被标为"部分A"。在由点线C包围的(从底部的第二个)区域 中,本质上相同的下降斜线样式出现了两次,这种样式出现的部分被标为"部 分C"。类似地,在由点线B包围的(从底部的第三个)区域中,本质上相同 的下降斜线样式出现了两次,这种样式出现的部分被标为"部分B"。由点线D 包围的(从底部的第四)区域中,本质上相同的下降斜线样式出现了两次, 这种样式出现的部分被标为"部分D"。虽然未在图中示出,本质上相同的下 降斜线样式出现的更多部分可以被类似地标为"部分E"、"部分F,、"部分G" 等等。
根据由图16的水平轴表示的曲调的拍子,通过表述以上述方式被分离为 每个对应于重复多次的类似短句之一的部分的图16的自相关映射得到了图 17的表述。即,图17显示了被分离为每个对应于类似短句之一的部分的曲 调(即曲调的波形)。
在图17中,根据由图16中的分离得到的部分,曲调被分离为依顺序的 A、 B、 C、 D、 E、 B、 B、 C等等的部分。时间从图的左侧行进到右侧,较长 的部分指示较长的播放时间,而较短的部分指示较短的播放时间。返回图4的流程图,在步骤S6,音乐特征提取部分45从每个都对应于 相同(类似)短句之一的每个分离的部分(即,对应于各个分离的部分的曲 调的部分波形)提取音乐特征,并向和音识别部分46提供所提取的音乐特征。
这里,由音乐特征提取部分45提取的音乐特征是音乐的特征,诸如关于 音量或声音源的信息、特定频段增益、频率平衡、音调(tone)的多样性、 诸如鼓和贝司的节奏乐器的比例,或是否存在歌唱。
图18是用于说明从曲调波形的每个分离的部分4是取的音乐特征的图。
例如,如用图17根据通过分离图16的自相关映射而得到的部分(以下 列顺序排列的分离的部分A、 B、 C、 D、 E、 B、 B、 C等等),来分离出图 18所示的分离的部分,且音乐特征提取部分45从每个分离的部分提取诸如 音量的音乐特征。
返回图4的流程图,在步骤S6,音乐特征提取部分45还从每个都对应 于相同(类似)短句之一的每个分离的部分(即,对应于各个分离的部分的
曲调的部分波形)提取除了音乐特征以外的其它特征,并向和音识别部分46 提供所提取的其它特征。
这里,由音乐特征提取部分45拔:取的其他特征是诸如具体的分离的部分 的长度、在一个曲调中出现具体部分的次数、或具体部分重复的次数的特征。
图19是说明从曲调的每个分离的部分提取的除了音乐特征以外的其他 特征的图。
在图19所示的示例中,音乐特征提取部分45提取诸如部分B的长度的 "片段(segment)长度,,(以拍子测量)、指示部分B出现在一个曲调中的次 数的"一个曲调中相同片段出现的次数(即重复的次数)"、指示部分B重复 的次数的"连续重复的次数,,等等的其他特征。
除了参考图19的上述实施例以外,其他特征的示例包括在一个曲调中的 具体片段的相对位置(即,例如在片段开始于五分钟的曲调开始之后的一分 钟的情况下,1/5=0.2),和在向前或向后紧接着出现的片段的变化度。
例如,提取更多音乐特征和其他特征允许和音识别部分46来识别具有更 改善的精确度的结构。稍后将描述其细节。
注意,音乐特征提取部分45仅可以从每个都对应于一个相同(类似)的 短句的每个分离的部分(即对应于各个分离的部分的曲调的部分波形)中提 取音乐特征和其他特征的任一个,并向和音识别部分46提供所提取的音乐特 征或其它特4正。
返回图4的流程图,在步骤S7,基于从音乐特征提取部分45提供的音 乐特征和/或其他特征,和音识别部分46从每个都对应于一个相同(类似) 的短句的每个分离的部分(即对应于各个分离的部分的曲调的部分波形)中 识别对应于曲调的和音的部分。然后,完成和音识别处理。
例如,参考图20,在步骤S7,基于每个分离的部分的所提取的音乐特征 (XI )和其他特征(X2 ),和音识别部分46计算每个部分的"和音相似性"(y (%))来识别对应于曲调的和音的部分。
具体地,例如,和音识别部分46进行对于使用音乐特征(XI )、其他特 征(X2)和关于校正和音的数据(例如,指示曲调的哪个部分是曲调的和音 的用户设置凝:据)的和音识别的学习,来生成具体函数(例如,音乐计算"和 音相似性"的函数)。和音识别部分46对从音乐特征提取部分45提供的音乐 特征(XI)和其他特征(X2)施加根据所生成的具体函数的计算来计算每个
部分的"和音相似性"(y (%)),从而识别对应于曲调的和音的部分。
注意,其中由和音识别部分46计算"和音相似性"(y (%))的方法不局
限于上述方法。可用任何方法,只要能计算成为和音的概率。
图21是用于说明由和音识别部分46的对应于曲调的和音部分的识别的 细节的图。
如图21所示的示例,如用图17等等,曲调(即曲调的波形)被分离为 以下列顺序排列的部分A、 B、 C、 D、 E、 B、 B、 C等等。和音识别部分 46计算每个分离的部分的和音相似性,并获得,例如,下列结果对于"部分 A的和音相似性"的0%;对于"部分B的和音相似性"的60%;对于"部分C 的和音相似性"的10%;对于"部分D的和音相似性"的30%;对于"部分E的 和音相似性"的40%;对于"部分B的和音相似性"的70%;对于"部分B的和 音相似性"的80%;对于"部分C的和音相似性"的15%;等等。
然后,例如,和音识别部分46识别具有所计算的"和音相似性"的最高平 均值的部分作为对应于曲调的和音的部分。例如,因为部分B的"和音相似性" 是60%、 70%、 80%等等,如图21所示,且部分B具有"和音相似性"的最高 平均值,因此和音识别部分46识别部分B作为对应于曲调的和音的部分。
以上述方式,曲调结构分析单元31基于曲调的波形能够用减少的操作量 来认别包含调制的曲调的结构。
例如,基于从在由个人计算机1的硬盘等等所构成的记录部分18上记录 的曲调数据块的庞大的数量所获得的曲调波形,对应于曲调的和音的部分可 以用减少的操作量来从曲调的曲调结构中被识别。这使得可能当选择曲调时, 仅播放曲调的和音,而不是从开始播放该曲调。结果,例如,用户能够听到 曲调的和音(即,最吸引人的段)来搜索所想要的曲调。
另外,例如,因为能够基于曲调的曲调结构用较少的操作量来识别对应 于曲调的和音的部分,这使得通过仅记录曲调的所切割的和音部分来在记录 介质上记录更大量的曲调的数据成为可能。
注意,已经参考基于曲调的波形来识别曲调结构分量的示例来描述了上 述示例。然而,本发明不局限于此示例。例如,可以识别"简介""和音"、"插 曲"、"独唱A"、"独唱B"、等等来取代"和音"。
注意,由自相关映射生成部分43的生成自相关映射的处理不局限于上述 处理(图14的自相关映射生成处理)。可用任何方法,只要基于从其已经消
除了相位分量的拍子特征中生成自相关映射。例如,在如下情况下,在由分
节部分44在图4的步骤S5的处理中进行的分节处理中,仅需要对应于"和音" 的部分的识别(即,在不需要识别对应于"独唱A"或"独唱B"的部分的情况 下),曲调的分离不需要如此精细(minute ),以至于任何一个分离的部分具 有短于通常被看作是"和音"的长度的长度。即,任何一个分离的部分不需要 具有短于拍子的预定数量(即,十二)的长度的长度。换句话说,不需要从 自相关映射中检测具有短于拍子的预定数量的长度的长度的重复。如此,可 以如此排列以至于在一侧的拍子的预定数量的间隔第一次生成自相关映射 (例如,下述图23中的垂直轴),在下文中,仅关于在具有高相关性的点的 前面或后面的点(即可能包含重复的点)来计算相关性。这进一步减少了用 于识别"和音"的处理的负担。
接下来,参考图22的流程图,现在将描述以下在仅需要对应于"和音,,的 部分的识别的情况下、由自相关映射生成部分43在图4中的步骤S4进行的 自相关映射生成处理的细节。
在步骤S31,自相关映射生成部分43计算在一侧上的N个拍子的间隔上 的拍子之间的相关性。例如,在步骤S31,在下述图23中的垂直轴上的N个 拍子的间隔上,自相关映射生成部分43计算从拍子特征消除部分42提供的 两者、其相位分量被消除了的包括位置X的四个部分(即,在图11中通过上 升的斜线而制成的部分)的拍子特征和其相位分量被消除了的包括位置Y的 四个部分(即,在图11中通过下降的斜线而制成的部分)的拍子特征之间的 相关性。
具体地,例如,使用上述公式(2)进行下述图23中的垂直轴上的N个 拍子的间隔上的拍子特征之间的相关性的计算。
在步骤S32,自相关映射生成部分43基于拍子之间的所计算的相关性来 生成自相关映射。
图23是图示由自相关映射生成部分43用 一侧上的N个拍子的间隔来生 成的示例相关性映射的图。
在图23所示的示例自相关映射中,用图15,水平轴表示整个曲调的拍 子,而垂直轴表示与水平轴所表示的整个相同的曲调的拍子。关于水平轴, 随着水平位置在图中向右移动,曲调中所表示的位置接近曲调的结尾,而关 于垂直轴,随着垂直位置在图中向下移动,曲调中所表示的位置接近曲调的
结尾。在图中的黑色区域指示由水平和垂直轴所识别的曲调的对应拍子之间 的相关性高,而在图中的白色区域指示由水平和垂直轴所识别的曲调的对应 拍子之间的相关性低。
在图23的示例自相关映射中,由于在水平轴上的N个拍子的间隔上计 算拍子特征之间的相关性,因此黑色的高相关性区域仅出现在垂直轴上的N 拍子的间隔上。相反,在图23的示例自相关映射中,不在一个第N拍子和 下一个第N拍子之间计算拍子特征之间的相关性;从而,之间的区域不一定 是白色。
即,在图23的示例自相关映射中,由黑点指示的位置指示其相位分量已 经被消除的拍子特征之间的高相关性。
注意,如上所述,在通常考虑作为"和音"的长度的长度是十二个或更多 拍子的长度的情况下,例如,用户向前在图23的自相关映射中设置N:20(拍 子)。
返回图22的流程图,在步骤S33,自相关映射生成部分43计算关于已 经在所生成的自相关映射中检测了相关性的点的前面的点的相关性。
图24是图示具有一侧上的N个拍子的间隔的示例自相关映射的图。
如图24所示的示例自相关映射的轴与图23的示例自相关映射的轴相同。 因此,省略其说明。
如图24所示的示例自相关映射是在计算关于在由图23的示例自相关映 射中的黑点指示的每个点之前的对应于N拍子的点的相关性、如下所述计算 关于在由图23的示例自相关映射中的黑点指示的每个点之后的对应于N拍 子的点的相关性、然后由黑色指示高相关性区域并用白色指示低相关性区域 之后获得的图。
具体地,例如,参考图23的示例自相关映射,通过计算关于在图24所 示的箭头al指示的方向中从由黑点指示的且位于垂直轴上的第一个第N拍子 上的点的N个拍子的相关性,自相关映射生成部分43以类似于生成图15的 上述自相关映射的方式生成图24的自相关映射。
返回图22的流程图,在步骤S34,自相关映射生成部分43计算关于已 经在所生成的自相关映射中生成了相关性的点之后点的相关性。
具体地,例如,参考图23的示例自相关映射,通过计算关于在图所示的 箭头a2指示的方向中从由黑点指示的且位于垂直轴上的第二个第N拍子上的
点的N个拍子的相关性,自相关映射生成部分43以类似于生成图15的上述 自相关映射的方式生成图24的自相关映射。
即,如图24所示,自相关映射生成部分43计算在N拍子间隔的拍子特 征之间的相关性,然后继续计算关于在所计算的相关性高的点之前和之后的 最大N个拍子的相关性,仅就高相关性点继续,来生成自相关映射。
如上所述,自相关映射(即图23的自相关映射)首先被生成具有在一侧 (即图23的垂直轴)上的预定的数量拍子,然后,仅关于高相关性点之前和 之后的各点计算相关性来生成自相关映射(图24的自相关映射)。该方法有 助于进一步减少和音识别处理上的负担以更快地完成和音识别处理。
在步骤S3的上述处理中,拍子特征消除部分42可以滑移从拍子特征提 取部分41提供的拍子特征,并在然后从所滑移的拍子特征中消除相位分量。
图25是用于说明拍子特征的滑移的图。
在如图25所示的示例中,如用图12等等,图中的四个矩形表示被分离 为每个都对应于每个拍子的段的曲调波形的拍子特征。四个矩形的每个都由 表示十二种曲调C、 C#、 D、 D#、 E、 F、 F#、 G、 G#、 A、 A弁和B的和音(在 图25的示例中,仅显示C和B的和音名)的十二个矩形组成。
例如,假设四个矩形被称为图中从左到右排队的"第一拍子"、"第二拍 子"、"第三拍子"、"第四拍子",拍子特征消除部分42滑移第二和第三拍子, 并然后对所滑移的拍子特征施加离散傅立叶变换等等以从所提取的拍子特征 中消除相位分量。
如上所述的拍子特征的滑移有助于改善自相关映射(即,识别诸如和音 的曲调结构分量的处理)的精确度。
注意,已经处理滑移了图25中的第二和第三矩形的情况下的示例进行了 以上描述。然而,本发明不局限于此示例。例如,可替换地,所有第一到第 四矩形可以;陂滑移。
另外,为了改善自相关映射(即,识别诸如和音的曲调结构分量的处理) 的精确度,例如,可以如此排列以至于在通过离散傅立叶变换等等消除了拍 子特征的相位分量并计算了拍子之间的相关性之后,当十一次滑移对于自相
关映射(例如,图15的水平或垂直轴)的一侧的拍子特征时再次进行相关性 计算。
图26是用于说明拍子特征的滑移的图。
在图26所示的示例中,如用图12等等,从图的左侧的第一个矩形(下 文中被称为"第一矩形";类似地,其次的矩形被分别称为"第二矩形"、"第三 矩形"......"第十二矩形,,)表示,被分离为每个都对应于每个拍子的段的曲调
波形的拍子特征,且矩形由包含其中表示十二种曲调C、 C#、 D、 D#、 E、 F、 F#、 G、 G#、 A、 A弁和B的和音的十二个矩形组成。
例如,首先,拍子特征消除部分42对由第一矩形表示的拍子特征施加离 散傅立叶变换等等以从拍子特征中消除相位分量。自相关映射生成部分43基 于其相位分量已经被消除了的第一矩形,来计算拍子特征之间的相关性。
接下来,在第一矩形中的十二种曲调的和音向下移位一个,以便拍子特 征变成如下,与由第二矩形表示的那样,和音以以下顺序从下往上排列C#、 D、 D#、 E、 F、 F#、 G、 G#、 A、 A#、 B和C。
此时,例如,拍子特征消除部分42对由第二矩形表示的拍子特征施加离 散傅立叶变换等等以从拍子特征中消除相位分量。自相关映射生成部分43基 于其相位分量已经被消除了的第二矩形,来计算拍子特征之间的相关性。
类似地,在拍子特征中的十二种曲调的每个和音顺序地向下移位一个, 例如,拍子特征消除部分42对由第三到第十一矩形(未示出)表示的拍子特 征施加离散傅立叶变换等等以从拍子特征中消除相位分量,自相关映射生成 部分43基于其相位分量已经被消除了的第三到第十一矩形,来计算拍子特征 之间的相关性。
最后,在第十一矩形中的十二种曲调的和音向下移位一个,以便拍子特 征变成如下,与由第十二矩形表示的那样(即,图最右边的矩形),和音以以 下顺序从下往上排列B和C、 C#、 D、 D#、 E、 F、 F#、 G、 G#、 A、 A#。
此时,例如,拍子特征消除部分42对由第十二矩形表示的拍子特征施加 离散傅立叶变换等等以从拍子特征中消除相位分量。自相关映射生成部分43 基于其相位分量已经被消除了的第十二矩形,来计算拍子特征之间的相关性。
以上述方式计算当移位拍子特征分量十一次时的相关性使得自相关映射 生成部分43生成更精确的自相关映射。
注意,已经处理对一个部分(即一个拍子)的拍子特征分量进行移位的 示例情况来进行了使用图26的上述描述,以便简化描述。然而,同样在四个 部分(即四个拍子)的情况下,例如,通过以类似方式对拍子特征分量进行
移位来进一步改善自相关映射的精确度。
在本实施例中,在进行分节处理(即图4中步骤S5的处理)的情况下,
需要通过改善在检测拍子的处理(即图4中的步骤Sl的处理)中从曲调波形
(即音频信号)检测拍子(节奏、节拍、小节的顶部等等)的精确度来在小 节的顶部吻合的分离的部分之间制定边界。如此,小节的顶部的精确的检测
允许精确的分节。因此,接下来,参考图27到40,将以下描述从曲调波形 检测节奏、节拍、小节的顶部(下文中称为"拍子数据")的处理。
图27是图示由图2的个人计算机1的CPU 11执行的软件的另一示例功 能结构的方框图。
在图27中,与图3中的那些元件相同的元件由相同的标号来标记,省略 与进行了图3中的那些处理相同的处理的元件的处理的描述以避免重复。即, 相比于图3的曲调结构分析单元31,图27的曲调结构分析单元31被附加地 提供有拍子检测单元101。
拍子检测单元101从曲调波形中检测拍子数据。例如,拍子检测单元101 从从根据MP3系统、AAC系统等等的音频压缩得到的音频信号中再现的曲 调波形中检测拍子数据,例如节奏、节拍或小节的顶部。
接下来,参考图28,现在描述以下从曲调波形中检测每个拍子的位置的 拍子检测单元IOI。在图28中,对应于数字"l:l、 1:2、 1:3、 1:4、 2:1、 2:2、 2:3、 2:4、 3:1、 3:2、 3:3、 3:4等等"(这些数字,例如"l:l",表述在图的左下 所示的"小节拍子")的垂直线指示曲调波形中的拍子的顶部的位置。图28, 由对应于各个数字的任何垂直线指示的位置和由下一条垂直线指示的位置之 间的范围表示曲调波形中的拍子的范围。
两条相邻的垂直线之间的空隙的宽度表示,例如,四分音符的持续时间, 并对应于节奏。由对应于数字"l:l"、 "2:1"、 "3:1"等等的垂直线指示的位置指 示小节的顶部。
换句话说,拍子检测单元101从图28所示的音频信号中得到的曲调波形 中4企测,如拍子数据,由图中的垂直线指示的每个拍子的顶部或每个小节的 顶部、或节奏(即,图中两条相邻垂直线之间的空隙的宽度)。
图29是图示拍子检测单元101的示例结构的方框图。拍子检测单元101 指示打击信息提取部分111、基本拍子周期检测部分112、节奏确定部分113、 曲调特征提取部分114、节奏校正部分115、拍子特征提取部分116、节拍确 定部分117,和小节顶部确定部分118。 打击信息提取部分111从表示曲调波形的音频信号中提取时序的打击信 息。这里,时序的打击信息是表示随时间音量的改变的数据,这允许人们感 知拍子。如图30所示,打击信息由所感知的音量,即由人们随时间所感知的 音量来表示。
例如,打击信息提取部分111从音频信号中提取表示之间中的每个点上 的声音的级别的打击信息,该声音基于音频信号。
可替换地,例如,如图31所示,打击信息提取部分lll将基于音频信号
的声音划分为多个八度音阶分量,并确定在根据十二-音调相等平均律的每个
八度音阶中的具有各个音调的十二个音调的能量以基于十二-音调分析获得 时间-音调数据。时间-音调数据表示在每个八度音阶中的十二个音调的每个的
能量。关于时间中的每个点,打击信息提取部分111相加关于十二个音调和 多个八度音阶的声音的能量,并将相加的结果当作打击信息。
可替换地,例如,打击信息提取部分111将基于音频信号的声音划分为 多个八度音阶分量,并检测在具有根据十二个音调的相等的平均律的各个音 调的每个八度音阶中的十二个音调的每个开始发声。例如,在每个音调的能
量随时间的差异大于预定门限的情况下,打击信息冲是^^部分111将那个时刻 当作该曲调开始发声的时间点。
然后,将每个曲调开始发生的时间点当作"r,其他时间点当作"r,打 击信息提取部分iii相加关于这些每个八度音阶中的十二个音调的每个值, 并将相加的结果当作打击信息。
在图31.中,圆圈指示曲调开始发声的位置。在曲调开始发声的时间点被
当作'T,且其他时间点^皮当作"O"的情况下,这些值净皮相加以获得打击信息,
在打击信息中,多个八度音阶中的许多十二个音调开始发声的时间点具有大 值,而多个八度音阶中的少量十二个音调开始发声的时间点具有较'J、值。
另外,例如,打击信息提取部分111将基于音频信号的声音划分为多个 八度音阶分量,并确定在具有根据十二-音调相等平均律的各个音调的每个八 度音阶中的十二个音调的每个的能量中的变化。例如按照随时间的音调的能 量的差异,计算每个音调的能量中的变化。打击信息提取部分111相加关于 时间中的每个点的每个八度音阶中的十二个音调的能量中的变化,并将相加 的结果当作打击信息。
返回图29,打击信息提取部分111向基本拍子周期检测部分112、节奏
校正部分115、和节拍确定部分117供应打击信息。
基本拍子周期检测部分112检测关于将被检测的和音的曲调中的最基本
的声音的持续时间。曲调中的最基本声音是,例如,由四分音符、八分音符、 十六分音符表示的声音。
在下文中,曲调中的最基本声音的持续时间被称为"基本拍子周期"。
基本拍子周期检测部分112通过进行关于打击信息的基本曲调检测来确
定即时序信息的基本拍子周期,作为普通波形。
例如,如图32所示,基本拍子周期检测部分112对即时序信息的打击信 息施加短时傅立叶变换(STFT)。对打击信息施加短时傅立叶变换使得表示 能量强度的时序数据处于不同的频率。
具体地,当关于打击信息一点一点地滑动相比于打击信息的时间长度来 说在周期上足够短的窗口的位置时,基本拍子周期检测部分112对窗口中的 部分打击信息施加傅立叶变换,并以时间顺序排列傅立叶变换的结果,从而 获得表示每个频率的能量的强度的时序数据。
作为短时傅立叶变换的结果,具有相比于其他频率的能量的强烈的能量 的频率被检测作为基本拍子周期的候选的周期。在图32的下部,深度指示能 量的强度。
基本拍子周期检测部分112将作为打击信息的短时傅立叶变换的结果的 所检测的最主导的一个周期作为基本拍子周期。
具体地,当比较基本拍子的相似性即先前准备的权重时,参考打击信息 的短时傅立叶变换的结果,基本拍子周期检测部分112从作为打击信息的短 时傅立叶变换的结果的所检测的周期中确定具有高基本拍子相似性的 一个周 期作为基本拍子周期。
更具体地,使用即在频率方向上延展的先前准备的权重的基本拍子相似 性,基本拍子周期检测部分112加权作为打击信息的短时傅立叶变换的结果 而获得的每个频率的能量,并确定具有作为加权的结果的最高的所获值的周 期作为基本拍子周期。
使用即在频率方向上延展的权重的基本拍子相似性预防即永远不可能成 为基本拍子周期的周期的极低频率的周期或极高频率的周期被确定作为基本 拍子周期。
返回图29,基本拍子周期检测部分112向节奏确定部分113供应如此提 取的基本拍子周期。
通过对音频信号进行预定的信号处理,曲调特征提取部分114从曲调中 提取预定数量的特征(在下文章被称为"曲调特征,,)。例如,曲调特征提取部 分114将音频信号划分为多个八度音阶分量,然后获得具有根据十二-曲调相 等平均律的各个音调的每个八度音阶中的十二个曲调的信号,然后对每个八 度音阶中的十二个曲调的信号进行预定的信号处理来提取曲调特征。
例如,曲调特征提取部分114获得在每个八度音阶中的十二个曲调的信 号的单位之间中的峰值数量作为曲调特征。
另外,例如,曲调特征提取部分114获得每个八度音阶中的十二个曲调
的信号的音调方向中的能量分散作为曲调特征。
还另外,例如,曲调特征提取部分114从每个八度音阶中的十二个曲调
的信息中获得在低范围、中等范围、高范围能量之间的平滑作为曲调特征。
还另外,例如,曲调特征提取部分114/人每个八度音阶中的十二个曲调 的信号中获得立体声音频信号的左和右声道的信号之间的相关度作为曲调特 征。
曲调特4正提取部分114向节奏确定部分113供应如此提取的曲调特征。
通过学习使用曲调特征和节奏而先前构造的节奏确定部分113基于从曲 调特征提取部分114供应的曲调特征来评估节奏。在下文中,所评估的节奏 将被称为所评估的节奏。
基于所评估的节奏和从基本拍子周期检测部分112供应的基本拍子周 期,节奏确定部分113确定乘以2的X次幂(例如1/8、 1/4、 1/2、 1、 2、 4、 8等等)的基本拍子周期作为节奏。例如,用由曲调的特征的衰退分析获得 的所评估的节奏,确定通过将基本拍子周期乘以2或1/2获得的、且在所评 估的节奏x2^和所评估的节奏+2"s的值。
例如,如图33所示,在从基本拍子周期检测部分112供应的基本拍子周 期(即,由图33的上部的白圆圈所表示的基本拍子周期)长于通过对所评估 的节奏除以21/2所获得的周期的情况下,节奏确定部分113对基本拍子周期乘 以1/2。
在从基本拍子周期^r测部分112供应的基本拍子周期(即,由图33的上 部的白圓圈所表示的基本拍子周期)短于通过对所评估的节奏乘以21/2所获 得的周期的情况下,节奏确定部分113对基本拍子周期乘以2。
节奏确定部分113确定乘以1/2或2或重复乘以1/2或2的基本拍子周期 (即,由图33中的黑圆圈表示的基本拍子周期),以便落入作为节奏的所评 估的节奏><21/2和所评估的节奏+21/2之间的范围。
注意,在基本拍子周期落入所评估的节奏x2^和所评估的节奏+2^之间 的范围的情况下,节奏确定部分113确定该基本拍子周期作为节奏。
返回图29,节奏确定部分113向节奏校正部分115供应如此确定的节奏。
基于从打击信息提取部分111供应的打击信息,节奏校正部分115对在 节奏确定部分113中确定的节奏进行精细的校正。
首先,节奏校正部分115校正拍子的相位。
具体地,如图34所示,在关于贯穿整个曲调的打击信息所确定的节奏的 间隔,节奏校正部分115相加每个都来自于每个拍子范围的打击信息分量。
例如,节奏校正部分115相加贯穿整个曲调的第一到最后拍子的每个的 第一打击信息采样,与基于节奏的间隔所确定的每个拍子范围,然后节奏校 正部分115将相加的结果作为拍子范围中的第一部分的总和。接下来,节奏 校正部分115相加贯穿整个曲调的第一到最后拍子的每个的第二打击信息采 样,与基于节奏的间隔所确定的每个拍子范围,然后节奏校正部分115将相 加的结果作为拍子范围中的第二部分的总和。
类似地,节奏校正部分115分别相加贯穿整个曲调的第一到最后拍子的 每个的第三到最后打击信息采样,与基于节奏的间隔所确定的每个拍子范围, 然后节奏校正部分115将相加的结果作为拍子范围中的第一到最后部分的总 和。
然后,移位关于打击信息的节奏间隔侧道(sideways)的相位,类似地, 节奏校正部分115相加贯穿整个曲调的每个都来自于每个拍子范围的打击信 息分量。
节奏校正部分115校正关于打击信息的节奏间隔的相位,成为总和具有 通过移位关于打击信息的节奏间隔侧道的相位所获得的所有总和的最大值的 相位。即,节奏校正部分115校正拍子的位置以便对应于关于已经获得了最 大总和的打击信息的节奏间隔的位置。
另外,节奏校正部分115校正节奏。
具体地,如图35所示,节奏校正部分115通过相比于间隔的长度来说足 够短的预定长度来缩短或延长节奏间隔,并用所缩短或延长的节奏间隔,节
奏校正部分115在贯穿整个曲调的节奏的间隔相加打击信息分量。
在这种情况下,节奏校正部分115分别相加贯穿整个曲调以顺序的次序 的第一到最后拍子范围的每个的第一到最后打击信息采样,与基于节奏的间 隔所确定的每个拍子范围,然后节奏校正部分115将相加的结果当作拍子范 围的第 一到最后部分的总和。
节奏校正部分115通过预定长度来缩短或延长节奏间隔,并相加在贯穿
整个曲调的缩短或延长的节奏的间隔的打击信息分量,来获得拍子范围的第 一到最后部分的总和。
节奏校正部分115校正节奏间隔以便具有已经获得最大总和的原始的、
缩短的和延长的节奏间隔之 一 的长度。
节奏校正部分115重复拍子相位的上述校正和节奏的上述校正,以便确 定最终的节奏。例如,节奏校正部分115重复拍子相位的校正和节奏的校正 预定的次数,例如两者两次,来确定最终的节奏。
返回图29,节奏4交正部分115向拍子特征提取部分116和小节顶部确定 部分118供应表示最后确定的节奏的节奏数据。
基于从节奏校正部分115供应的节奏数据,拍子特征提取部分116从每 个片段(即每个拍子)中提取诸如音乐特征或和音的曲调特征。
例如,从如图36所示的曲调波形中,拍子特征提取部分116从被图中的 垂线分离的每个拍子(如图36所示的示例中,曲调波形^f皮分离为十二个部分) 中提取曲调特征。
注意,例如,通过对十二-曲调分析的结果所获得的信号进行预定的信号 处理来提取由拍子特征提取部分116提取的曲调特征,如用由曲调特征提取 部分114提取的上述曲调特征。
返回图29,拍子特征提取部分116向小节顶部确定部分118供应从每个 拍子提取的曲调特征。
例如,基于从打击信息提取部分lll供应的打击信息,节拍确定部分117 确定诸如4/4拍、3/4拍、6/8拍的节拍。
这里,至于用于确定节拍的方法,例如,可以使用施加了短时傅立叶变 换的打击信息的谐波(harmonic)结构来确定节拍。例如,参考图37,由于 已经结束了基本拍子周期检测部分117,节拍确定部分117对即时序信息的打 击信息施加短时傅立叶变换。结果,获得了表示部分频率中的能量的强度的
时序数据。
即,如图37的示例所示,由于通过对打击信息施加短时傅立叶变换所获 得的结果允许出现峰值的频率的检测,该频率被用于确定节拍。例如,在图
的左手边所示的4/4拍中,八分音符、四分音符、二分音符和全音符之间的 关系如下如图的圆圈所示,四分音符的频率是八分音符的一半;如图的三 角所示,二分音符的频率是四分音符的频率的一半;如图的叉所示,全音符 的频率是二分音符的频率的一半。换句话说,四分音符的周期是八分音符的 两倍,二分音符的周期是四分音符的两倍,全音符的周期是二分音符的两倍。
另外,类似地,例如,在图中间所示的3/4节拍中,四分音符、 一小节 和两小节之间的关系如下如图的圆圈所示, 一小节的频率是四分音符的1/3; 如图的叉所示,两小节的频率是一小节的频率的一半。
还另外,类似地,在如图右手边所示的6/8拍中,八分音符、四分音符、 附点四分音符和一小节之间的关系如下如图的圓圈所示,四分音符的频率 是八分音符的频率的一半;如图的叉所示,附点四分音符的频率是四分音符 的频率的2/3, 一小节的频率是四分音符的频率的1/3。
即,节拍确定部分117基于在出现峰值的频率上能量间隔的样式即施加 了短时傅立叶变换的打击信息的谐波结构来确定节拍。
图38是用于说明由节拍确定部分117进行的确定节拍的方法的具体示例。
图38显示了三个图如图的左手边显示的其中水平轴表示时间而垂直轴
表示频率的图(在下文中被称为"时间对频率图");如时间对频率图的右边显 示的其中水平轴表示能量而垂直轴表示频率的图(在下文中被称为"能量对频
率图");如能量对频率图的右边显示的其中水平轴表示能量而垂直轴表示log-频率的图(在下文中被称为"能量对log-频率图")。
首先参考图38,节拍确定部分117以时间方向相加通过对打击信息施加 短时傅立叶变换获得的在时间对频率图的频率,来获得能量对频率图。接下 来,节拍确定部分117将能量对频率图中的频率轴转换成log-频率轴以获得 能量对log-频率图。
然后,节拍确定部分117比较通过即通过对能量对log-频率图所示的每 个log-频率的能量施加快速傅立叶变换(FFT)而获得的幂分量的特征与先前 准备的节拍样式来确定节拍。
返回图29,节拍确定部分117向小节顶部确定部分118供应如此确定的节拍。
小节顶部确定部分118从节奏校正部分115中接收节奏数据,从拍子特 征提取部分116中接收对于每个拍子的曲调特征,从节拍确定部分117中接 收节拍。基于节奏数据、对于每个拍子的特征,和节拍,小节顶部确定部分 118确定小节的顶部。
这里,关于用于确定小节的顶部的方法,例如,小节的顶部相比于小节 的其他段来说具有下列特性和音更可能改变;音乐稳定的和音(例如,所 谓的三个和音)很可能出现;音调明显且稳定;存在按照音量的重音。
使用小节的顶部的这些特性,小节顶部确定部分118确定每个拍子的小 节顶部相似性。注意,例如,小节顶部确定部分118是通过学习使用和音和 每个拍子的特征等等而先前构造的,并基于节奏数据、每个拍子的曲调特征, 和节拍来评估小节顶部相似性。
接下来,如图39的示例所示,小节顶部确定部分118相加贯穿整个曲调 或贯穿具体范围(例如,4/4拍中的四、3/4拍中的三、6/8拍中的六等等)的 节拍的一个小节中的每个码号的所评估的小节顶部相似性。即,在节拍是4/4 拍的图39的示例的情况下,每个第四拍子的小节顶部相似性被相加。更具体 地,第一拍子、第五拍子、第九拍子等等(在下文中被称为"第1/4拍子")的 小节顶部相似性被相加;第二拍子、第六拍子、第十拍子等等(在下文中被 称为"第2/4拍子")的小节顶部相似性被相加;第三拍子、第七拍子、第十一 拍子等等(在下文中被称为"第3/4拍子")的小节顶部相似性被相力口;第四拍 子、第八拍子、第十二拍子等等(在下文中被称为"第4/4拍子")的小节顶部 相似性被相加。
然后,如图40的示例所示,在节拍是4/4的情况下,小节顶部确定部分 118比较每个第四拍子的小节顶部相似性的总和与另一个,并确定具有最高 小节顶部相似性的拍子作为小节的顶部。更具体地,在图40的示例的情况下, 第1/4拍子的小节顶部相似性的值的总和是35.6,第2/4拍子的小节顶部相似 性的值的总和是12.6,第3/4拍子的小节顶部相似性的值的总和是21.5,第 4/4拍子的小节顶部相似性的值的总和是13.3.即,第1/4拍子的顶部相似性的 值的总和是所有的最高的。因此,小节顶部确定部分118确定第1/4拍子作 为小节的顶部。
如上所述,拍子检测单元101从曲调波形(即,音频信号)中检测拍子 数据,诸如节奏、节拍和小节的顶部,并输出拍子数据。即,由于拍子检测
单元101能够通过^r测拍子的处理(即图4中的步骤Sl的处理)中的上述方 法来获得拍子数据,例如,拍子检测单元101能够更精确地检测拍子。因此, 例如,精确的分节在分节处理(即图4中的步骤S5的处理)中变得可能,反 过来允许和音识别处理(即,图4中的步骤S7的处理)中的和音部分的更精 确的识别。
时,现在将相互比较操作量(即乘法和加法的数量)。为了当比较它们时使条 件相等,假设,例如,曲调的长度是五分钟,节奏是120,用于校正技术的 拍子的数量是八个拍子,比较其操作量。
首先,在通过现有技术进行包含调制的曲调波形的分析的情况下,当计 算用于计算相关性的平均值和范数时,操作量al如下
操作量al-(拍子的数量)x(8拍子)x(12个曲调)x(2(平均值和范 数)"5x 120x8x 12x2=115,200(操作量)
另外,当计算相关性时操作量a2如下
操作量a2气拍子的数量/2+l)x(8拍子)x(12个曲调)x(12次移 位)-5xl20x299x8xl2xl2-206,668,800(^喿作量) 相应地,在相关技术的情况下搮:作量A如下
操作量A-操作量al+操作量a2=115,200+206,668,800=206,784,000 (操作
量)
接下来,在通过本发明的技术进行包含调制的曲调波形的分析的情况下, 当通过离散傅立叶变换消除相位分量并计算用于计算相关性的平均值和范数 时,操作量bl如下
操作量bl-(拍子数量)x((8个拍子)x(12曲调))2(历史傅立叶变换的计 算)+(拍子的数量)x(离散傅立叶变换后的特征)x)2(平均值和范 数)"5xl20x(8xl2)2+5xl20x47x2-5xl20x(8xl2)2+5xl20x47x2-5,529,600+56, 400=5,586,000(操作量)
另外,当计算相关性时的操作量如下
操作量b2=(拍子数量)x(拍子数量/2+1 )x(离散傅立叶变换后的特 征"5xl20x299x47二8,431,8000l喿作量)
相应地,在本发明的技术的情况下,操作量B如下
操作量B4喿作量bl+操作量b2=5,586,000+8,431,800=14,017,800 (操作
量)
如上所述,在相关技术的情况下的操作量A和在本发明的情况下的操作 量B分别是206,784,000 (操作量)和14,017,800 (操作量)。即,本发明的情 况下的操作量B是小于在相关技术的情况下的操作量A的1/14的操作量(即, 乘法和加法的数量)。实际中,使用对于离散傅立叶变换的快速算法使得能够 用乘法和加法的数量N2或更少来实现计算,因此,计算的数量被进一步减 少以实现自相关映射的更快速生成。因此,例如,可以更快地进行用于识别 曲调结构或和音的处理。
如上所述,本发明可能能够用减少的操作量来分析包含调制的曲调波形。 另外,本发明使得可能基于包含调制的曲调波形,用减少的操作量来识 别曲调的结构。
可以通过硬件或软件来实现处理的上述序列。例如,在通过软件实现处 理的序列的情况下,组成软件的并被存储在存储介质的程序被安装到当其上 安装了各种程序时变得能够进行各种功能的专用计算机或通用个人计算机 中。
该存储介质可以是图2中的与计算机分离地分布的用于向用户提供程序 并具有其上记录的程序的可移动介质21,诸如磁盘(例如,软盘)、光盘(例 如,CD-ROM (紧密盘-只读存储器)或DVD (数字通用盘))、磁光盘(例 如,MD (微型盘)(注册商标))、或半导体存储器。可替换地,上述存储介 质可以是原始地包含在计算机中并因此而被提供给用户并具有其中存储的程 序的图2中的ROM12或记录部分18。
另外,用于执行上述处理序列的程序可以经由诸如局域网、因特网或数 字卫星广播的有线或无线通信介质通过诸如必要的路由器或调制解调器的接 口而被安装在计算机中。
注意,通过存储在存储介质中的程序实现的并在本说明书中描述的步骤 可以自然地被以说明书的时间顺序进行,但不是一定要以时间顺序进行。某 些步骤可以并行或独立地进行。
还要注意,本发明的实施例不局限于上述实施例。应该理解,可以在不 脱离本发明的范围的情况下设计各种修改。
权利要求
1.一种信息处理设备,包括第一提取装置,用于从包含调制的曲调的波形的第一部分中提取第一特征,每个第一部分对应于每个拍子,第一特征涉及拍子;消除装置,用于从所提取的每个第一特征的频率分量中消除相位分量;以及生成装置,用于基于其相位分量已经被消除的第一特征,生成表示一个所述第一部分和另一个所述第一部分之间的相关性的自相关信息。
2. 根据权利要求1所述的信息处理设备,还包括分离装置,用于基于自相关信息,将拍子分离为多个第二部分,每个第 二部分都包含一连串的具有高相关性的拍子;第二提取装置,用于从通过所述分离所获得的每个第二部分中提取第二 特征,第二特征表示曲调的音乐特征;以及识别装置,用于基于第二特征,识别分离的第二部分中的曲调的曲调结 构分量。
3. 冲艮据权利要求1所述的信息处理设备,其中所述消除装置通过离散傅 立叶变换/人每个第 一特征的频率分量中消除相位分量。
4. 根据权利要求2所述的信息处理设备,其中所述识别装置识别对应于 曲调的和音的部分作为曲调结构分量。
5. 根据权利要求1所述的信息处理设备,其中第一特征是在第一部分中 的预定数量的八度音阶中每个音调的能量。
6. 根据权利要求2所述的信息处理设备,其中第二特征是在第二部分中 的特定频带的增益、音量、或关于声音源的信息。
7. 根据权利要求6所述的信息处理设备,其中第二特征是第二部分的长 度、第二部分出现的次数、或第二部分连续重复的次数。
8. 根据权利要求4所述的信息处理设备,其中,基于其相位分量已经被 消除的第一特征,所述生成装置以预定数量拍子的间隔计算与另一个所述第 一部分的相关性,以生成自相关信息。
9. 根据权利要求1所述的信息处理设备,其中所述消除装置从已经被滑 移的每个第 一特征的频率分量中消除相位分量。
10. 根据权利要求5所述的信息处理设备,其中所述消除装置在从每个 第 一特征的频率分量中消除相位分量之前移位每个音调的能量。
11. 一种信息处理方法,包括提取步骤,用于从包含调制的曲调的波形的一些部分中提取特征,每个部分对应于每个拍子,该特征涉及拍子;消除步骤,用于从所提取的每个特征的频率分量中消除相位分量;以及 生成步骤,用于基于其相位分量已经被消除的特征,生成表示一个所述部分和另一个所述部分之间的相关性的自相关信息。
12. —种程序,使得计算机进行提取步骤,用于从包含调制的曲调的波形的一些部分中提取特征,每个部分对应于每个拍子,该特征涉及拍子;消除步骤,用于从所提取的每个特征的频率分量中消除相位分量;以及 生成步骤,用于基于其相位分量已经被消除的特征,生成表示一个所述部分和另 一个所述部分之间的相关性的自相关信息。
全文摘要
本发明涉及能够用减少的操作量来分析包含调制的曲调波形的信息处理设备、方法及程序。拍子特征提取部分(41)从包含调制的曲调的波形的部分中提取涉及拍子的特征,每个部分对应于每个拍子。拍子特征消除部分(42)从所提取的每个特征的频率分量中消除相位分量。基于其相位分量已经消除了的特征,自相关映射生成部分(43)生成表示一个部分和另一部分之间的相关性的自相关信息。这使得包含调制的曲调波形能够用减少的操作量来分析。本发明可应用于信息处理设备。
文档编号G10H1/20GK101116134SQ20068000433
公开日2008年1月30日 申请日期2006年11月8日 优先权日2005年11月8日
发明者小林由幸 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1