信息处理设备、声音素材捕获方法和程序的制作方法

文档序号:2822506阅读:252来源:国知局
专利名称:信息处理设备、声音素材捕获方法和程序的制作方法
技术领域
本发明涉及信息处理设备、声音素材捕获方法和程序。
背景技术
为了对音乐进行混音,需要提供用于混音的声音素材。为了执行混音,通常使用从市场上的素材集中挑选的声音素材或使用某人用波形编辑软件等捕获的声音素材。然而,寻找包含与人的意图相匹配的声音素材的素材集很麻烦。从海量的音乐数据中找出可以用作所希望的声音素材的部分,或者高精度地捕获该部分也很麻烦。此外,例如,在日本专利申请文件JP-A-2008-164932中有与音乐的混音回放有关的描述。在JP-A-2008-164932中,公开了一种通过简单的操作来组合多个声音素材并且高度完美地创建音乐的技术。

发明内容
然而,JP-A-2008-164932没有公开用于高精度地自动检测各首乐曲中所包括的特征量,并且基于这些特征量来自动捕获声音素材的技术。因此,鉴于以上所述,希望提供能够精确地从音乐数据中提取特征量并且基于这些特征量来捕获声音素材的新颖的改进的信息处理设备、声音素材捕获方法和程序。 根据本发明的一个实施例,提供了一种信息处理设备,该信息处理设备包括音乐分析单元,该音乐分析单元用于分析用作声音素材的捕获源的音频信号,并且用于检测音频信号的拍子位置和音频信号中的各种乐器声音的存在概率;以及捕获范围确定单元,该捕获范围确定单元用于通过使用由音乐分析单元所检测到的拍子位置和各种乐器声音的存在概率来确定声音素材的捕获范围。 此外,该信息处理设备还可以包括捕获请求输入单元,捕获请求输入单元用于输入捕获请求,捕获请求包括以下内容中的至少一个作为信息要被捕获作为声音素材的范围的长度、乐器声音的类型和捕获的严格度。在这种情况中,捕获范围确定单元确定声音素材的捕获范围使得声音素材满足由捕获请求输入单元输入的捕获请求。 此外,该信息处理设备还可以包括素材捕获单元,该素材捕获单元用于从音频信
号中捕获由捕获范围确定单元确定的捕获范围并且用于输出捕获范围作为声音素材。 此外,该信息处理设备还可以包括声源分离单元,该声源分离单元用于在音频信
号中包括多种类型的声源的信号的情况中,从音频信号中分离出各种声源的信号。 此外,音乐分析单元还可以通过分析音频信号来检测音频信号的和弦进行。在此
情况下,捕获范围确定单元确定声音素材的捕获范围,并且一起输出有关捕获范围的信息
和捕获范围中的和弦进行。 此外,音乐分析单元还可以通过分析音频信号来检测音频信号的和弦进行。在这种情况中,素材捕获单元输出捕获范围的音频信号作为声音素材,并且还输出捕获范围中的和弦进行。 此外,音乐分析单元可以通过使用能够自动生成用于提取任意音频信号的特征量的计算公式的计算公式生成设备来生成用于提取与拍子位置有关的信息和与各种乐器声音的存在概率有关的信息的计算公式,并且通过使用计算公式来检测音频信号的拍子位置和音频信号中的各种乐器声音的存在概率,计算公式生成设备通过使用多个音频信号和各个音频信号的特征量来自动生成计算公式。 此外,捕获范围确定单元可以包括素材得分计算单元,该素材得分计算单元针对音频信号的各个范围来计算通过捕获请求所指定的类型的乐器声音的存在概率的总和,并且用于计算通过将总计出的存在概率除以该范围内所有乐器声音的存在概率的总和而获得的值作为素材得分,每个范围具有由所述捕获请求指定的捕获范围的长度,并且确定由素材得分计算单元所计算出的素材得分高于捕获的严格度的值的范围,作为满足捕获请求的捕获范围。 此外,声源分离单元可以从音频信号中分离出前景声音的信号和背景声音的信号,并且还可以将前景声音的信号中位于中心周围的中心信号、左声道信号和右声道信号相互分离。 根据本发明另一实施例,提供了一种声音素材捕获方法,当用作声音素材的捕获源的音频信号被输入信息处理设备时,该方法包括以下步骤分析音频信号,并且检测音频信号的拍子位置和音频信号中各种乐器声音的存在概率;以及通过使用通过分析和检测步骤所检测到的拍子位置和各种乐器声音的存在概率来确定声音素材的捕获范围。这些步骤是由信息处理设备执行的。 根据本发明另一实施例,提供了一种程序,当用作声音素材的捕获源的音频信号被输入时,该程序使得计算机实现分析音频信号并且检测音频信号的拍子位置和音频信号中各种乐器声音的存在概率的音乐分析功能,以及通过使用通过音乐分析功能所检测到的拍子位置和各种乐器声音的存在概率来确定声音素材的捕获范围的捕获范围确定功能。
根据本发明另一实施例,可以提供一种存储程序并且可以由计算机读取的记录介质。 根据上述本发明实施例,可以从音乐数据中精确地提取特征量并且基于该特征量来捕获声音素材。


图1是示出用于自动生成用于计算特征量的算法的特征量计算公式生成设备的配置示例的说明性示图; 图2是示出根据本发明一个实施例的信息处理设备(波形素材自动捕获设备)的功能配置示例的说明性示图; 图3是示出根据本实施例的声源分离方法(中心提取方法)的示例的说明性示图; 图4是示出根据本实施例的声源的类型的说明性示图; 图5是示出根据本实施例的对数谱生成方法的一个示例的说明性示图; 图6是示出通过根据本实施例的对数谱生成方法所生成的对数谱的说明性示图; 图7是示出按照根据本实施例的音乐分析方法的一连串处理的流程的说明性示
图8是示出根据本实施例的拍子检测方法的- 图9是示出根据本实施例的拍子检测方法的- 图10是示出根据本实施例的拍子检测方法的- 图11是示出根据本实施例的拍子检测方法的- 图12是示出根据本实施例的拍子检测方法的- 图13是示出根据本实施例的拍子检测方法的- 图14是示出根据本实施例的拍子检测方法的- 图15是示出根据本实施例的拍子检测方法的- 图16是示出根据本实施例的拍子检测方法的- 图17是示出根据本实施例的拍子检测方法的- 图18是示出根据本实施例的拍子检测方法的- 图19是示出根据本实施例的拍子检测方法的- 图20是示出根据本实施例的拍子检测方法的- 图21是示出根据本实施例的拍子检测方法的- 图22是示出根据本实施例的拍子检测方法的- 图23是示出根据本实施例的拍子检测方法的- 图24是示出根据本实施例的拍子检测方法的- 图25是示出根据本实施例的拍子检测方法的- 图26是示出根据本实施例的拍子检测方法的- 图27是示出根据本实施例的拍子检测方法的- 图28是示出根据本实施例的拍子检测方法的- 图29是示出根据本实施例的拍子检测方法的- 图30是示出根据本实施例的拍子检测方法的- 图31是示出通过根据本实施例的拍子检测方
-个示例的说明性示图;-个示例的说明性示图;一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图法所检测到的拍子的检
个示例的说明性示图; 图32是示出根据本实施例的结构分析方法的
示示示图33是示出根据本实施例的结构分析方法的图34是示出根据本实施例的结构分析方法的图35是示出根据本实施例的结构分析方法的图36是示出根据本实施例的结构分析方法的图37是示出根据本实施例的结构分析方法的图38是示出根据本实施例的结构分析方法的-图39是示出根据本实施例的和弦概率检测方
一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图法和基调检测方法的示例的说明性
图40是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性
图41是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性
图42是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性示图;图43
示图;图44
示图;图45
示图;图46
示图;图47
示图;图48
示图;图49
示图;图50
示图;图51
示图;图52
示图;图53
示图;图54
示图;图55图56图57图58图59图60图61图62图63图64图65图66图67图68
图43是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性图44是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性图45是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性图46是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性图47是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性图48是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性图49是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性图50是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性图51是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性图52是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性图53是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性图54是示出根据本实施例的和弦概率检测方法和基调检测方法的示例的说明性
:出根据本:出根据本:出根据本:出根据本:出根据本:出根据本:出根据本:出根据本:出根据本:出根据本:出根据本:出根据本:出根据本:出根据本
实施例的小实施例的小实施例的小实施例的小实施例的小实施例的小实施例的小实施例的小实施例的小实施例的小实施例的小实施例的和实施例的和实施例的和
节线检领节线检领节线检领节线检领节线检领节线检领节线检领节线检领节线检领节线检领节线检领
l方法的l方法的l方法的l方法的l方法的l方法的l方法的l方法的l方法的l方法的l方法的
弦进行估计方法弦进行估计方法弦进行估计方法
一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图一个示例的说明性示图的一个示例的说明性示图的一个示例的说明性示图
图69是示出根据本实施例的和弦进行估计方法的一个示例的说明性示图 图70是示出根据本实施例的和弦进行估计方法的一个示例的说明性示图 图71是示出根据本实施例的和弦进行估计方法的一个示例的说明性示图 图72是示出根据本实施例的和弦进行估计方法的一个示例的说明性示图 图73是示出根据本实施例的乐器声音分析方法的一个示例的说明性示图 图74是示出根据本实施例的乐器声音分析方法的一个示例的说明性示图 图75是示出根据本实施例的捕获范围确定方法的一个示例的说明性示图 图76是示出根据本实施例的信息处理设备的一个硬件配置示例的说明性示图。
具体实施例方式
以下,将参考附图来详细描述本发明的优选实施例。注意,在本说明书和附图中,用相同的标号来标注具有基本相同的功能和结构的结构元件,并且省略对这些结构元件的重复说明。 在本说明书中,将按照以下顺序进行说明。
(说明项目)
1.基础架构技术 1-1.特征量计算公式生成设备10的配置示例
2.实施例 2-1.信息处理设备100的总体配置
2-2.声源分离单元104的配置
2-3.对数谱分析单元106的配置
2-4.音乐分析单元108的配置
2-4-1.拍子检测单元132的配置
2-4-2.和弦进行检测单元134的配置
2-4-3.乐器声音分析单元136的配置
2-5.捕获范围确定单元110的配置
2-6.总结
〈1.基础架构技术〉 首先,在描述根据本发明的一个实施例的技术之前,将简要描述用于实现本实施例的技术配置的基础架构技术。这里所描述的基础架构技术有关于算法的自动生成方法,该算法用于以特征量(也称为"FQ")的形式对任意输入数据的特征进行量化。例如,各种类型的数据,例如音频信号的信号波形或图像中所包括的各种颜色的亮度数据,都可以用作输入数据。而且,当以乐曲为例时,通过应用基础架构技术,从音乐数据的波形中自动地生成用于计算指示乐曲的欢快程度或速度(tempo)的特征量的算法。此外,日本专利文件JP-A-2008-123011中所公开的学习算法也可以用来替代下述特征量计算公式生成设备10的配置示例。 (1-1.特征量计算公式生成设备10的配置示例) 首先,参考图l,将描述根据上述基础架构技术的特征量计算公式生成设备10的功能配置。图1是示出根据上述基础架构技术的特征量计算公式生成设备10的配置示例
8的说明性示图。这里所描述的特征量计算公式生成设备10是用于自动地生成用于使用任意输入数据、以特征量的形式对该输入数据的特征进行量化的算法(以下称为计算公式)的装置(学习算法)的示例。 如图1中所示,特征量计算公式生成设备10主要具有算子存储单元12、提取公式生成单元14、提取公式列表生成单元20、提取公式选择单元22和计算公式设置单元24。此外,特征量计算公式生成设备10包括计算公式生成单元26、特征量选择单元32、评估数据获取单元34、教师数据获取单元36和公式评估单元38。此外,提取公式生成单元14包括算子选择单元16。并且,计算公式生成单元26包括提取公式计算单元28和系数计算单元30。此外,公式评估单元38包括计算公式评估单元40和提取公式评估单元42。
首先,提取公式生成单元14通过组合算子存储单元12中所存储的多个算子来生成特征量提取公式(以下称为提取公式),提取公式用作计算公式的基础。这里的"算子"是用于对输入数据的数据值执行特定运算处理的算子。通过算子执行的运算类型包括差分计算、最大值提取、低通滤波、无偏方差计算、快速傅里叶变换、标准差计算、平均值计算等。当然,这不限于以上列举的这些类型的运算,并且可以包括可对输入数据的数据值执行的任何类型的运算。 此外,针对各个算子设置运算类型、运算目标轴和用于该运算的参数。运算目标轴是指定义输入数据的各个数据值的轴中作为运算处理的目标的轴。例如,当以音乐数据为例时,音乐数据在由时间轴和音调轴(频率轴)形成的空间中被给出为音量的波形。当对音乐数据执行差分运算时,要确定是沿时间轴方向执行差分运算还是沿频率轴方向执行差分运算。因此,各个参数包括与形成定义输入数据的空间的轴中要作为运算处理目标的轴相关的信息。 此外,参数根据运算的类型而变得必要。例如,在低通滤波的情况中,定义要通过的数据值的范围的阈值必须被固定为参数。由于这些原因,除了运算的类型以外,在各个算子中还包括运算目标轴和必要参数。例如,算子被表示为Fffl)ifferential、F#MaxIndex、T#LPF 1 ;0. 861、 T#UVariance……,算子开头所添加的F等指示运算目标轴。例如,F是指频率轴,并且T是指时间轴。 在运算目标轴之后用#分开的所添加的Differential等指示运算的类型。例如,Differential是指差分计算运算,Maxlndex是指最大值提取运算,LPF是指低通滤波,UVariance是指无偏方差计算运算。运算类型之后的数字指示参数。例如,LPF 1 ;0. 861指示将1至0. 861的范围作为通带的低通滤波器。这各种算子被存储在算子存储单元12中,并且由提取公式生成单元14读取和使用。提取公式生成单元14首先通过算子选择单元16来选择任意算子,并且通过组合所选择的算子来生成提取公式。 例如,由算子选择单元16选择F抑ifferential、 F#MaxIndex、 T#LPF 1 ;0. 861和TftUVariance,并且由提取公式生成单元14生成如以下等式(1)所表示的提取公式f。然而,开头所添加的12Tones指示作为处理目标的输入数据的类型。例如,当12Tones被记述时,通过分析输入数据的波形而获得的时间-音调空间中的信号数据(稍后描述的对数谱)成为运算处理目标。即,如以下等式(1)所表示的提取公式指示稍后所述的对数谱是处理目标,以及,关于输入数据,沿频率轴(音调轴方向)顺次执行差分运算和最大值提取并且沿时间轴顺次执行低通滤波和无偏方差运算。
9
f = (12Tones, F#Differential, F#MaxIndex, T#LPF_1;0. 861, T#UVariance}
…(l) 如上所述,提取公式生成单元14针对算子的各种组合生成如上述等式(1)所示的提取公式。将详细描述该生成方法。首先,提取公式生成单元14通过使用算子选择单元16来选择算子。此时,算子选择单元16判定通过所选择的算子的组合(提取公式)来对输入数据进行的运算的结果是否是标量或者特定大小或更小的向量(其是否收敛)。
此外,基于各个算子中所包括的运算目标轴的类型和运算的类型来执行上述判定处理。当由算子选择单元16选择算子的组合时,针对各种组合执行判定处理。然后,当算子选择单元16判定运算结果收敛时,提取公式生成单元14通过使用由算子选择单元16选择的、使运算结果收敛的算子的组合来生成提取公式。由提取公式生成单元14进行的提取公式的生成处理被执行直到特定数目(以下称为所选择的提取公式的数目)的提取公式被生成为止。由提取公式生成单元14生成的提取公式输入提取公式列表生成单元20。
当提取公式从提取公式生成单元14输入提取公式列表生成单元20时,特定数目的提取公式被从输入提取公式中选出(以下,列表中的提取公式的数目《所选择的提取公式的数目)并且提取公式列表被生成。此时,由提取公式列表生成单元20进行的生成处理被执行直到特定数目(以下,称为列表的数目)的提取公式列表被生成。然后,由提取公式列表生成单元20生成的提取公式列表输入提取公式选择单元22。 以下,将关于由提取公式生成单元14和提取公式列表生成单元20进行的处理来描述具体示例。首先,例如,由提取公式生成单元14确定输入数据的类型是音乐数据。接着,由算子选择单元16随机地选择算子OPp 0P2、 0P3和0P4。然后,通过所选择的算子的组合,关于音乐数据的运算结果是否收敛执行判定处理。当判定音乐数据的运算结果收敛时,利用OP工至0P4的组合生成提取公式f1Q由提取公式生成单元14生成的提取公式^输入提取公式列表生成单元20。 此外,提取公式生成单元14重复与提取公式^的生成处理相同的处理,并且例如生成提取公式f2、 f3和f4。以这种方式生成的提取公式f2、 f3和f4输入提取公式列表生成单元20。当提取公式4、 f2、 f3和f4输入时,提取公式列表生成单元20例如生成提取公式列表L丄=仏,f2, f4},并且生成提取公式列表L2 = {f" f3, f4}。由提取公式列表生成单元20生成的提取公式列表和L2输入提取公式选择单元22。如以上利用具体示例所述,提取公式是由提取公式生成单元14生成的,并且提取公式列表是由提取公式列表生成单元20生成的并且被输入提取公式选择单元22。然而,尽管在上述示例中描述了这样的情况所选择的提取公式的数目是4,列表中的提取公式的数目是3并且列表的数目是2,但是应当注意,实际上,生成非常大数目的提取公式和提取公式列表。 现在,当提取公式列表从提取公式列表生成单元20被输入时,提取公式选择单元22从输入的提取公式列表中选择要插入稍后所述的计算公式中的提取公式。例如,当上述提取公式列表中的提取公式^和f4要被插入计算公式,则提取公式选择单元22关于提取公式列表选择提取公式^和f4。提取公式选择单元22针对提取公式列表中的每个列表执行上述选择处理。然后,当选择处理完成时,由提取公式选择单元22进行的选择处理的结果和提取公式列表中的每个列表被输入计算公式设置单元24。
10
当选择结果和提取公式列表中的每个列表从提取公式选择单元22被输入时,计算公式设置单元24考虑提取公式选择单元22的选择结果,设置与各个提取公式相对应的计算公式。例如,如以下等式(2)所示,计算公式设置单元24通过对每个提取公式列表1^ ={&, . . . , fK}中所包括的提取公式fk进行线性耦合来设置计算公式Fm。此外,m = 1,...,M(M是列表的数目),k= l,... ,K(K是列表中提取公式的数目)并且B。,... ,Bk是親合系数。[等式2] <formula>formula see original document page 11</formula>
此外,计算公式Fm还可以被设置成提取公式fk(k二 1至K)的非线性函数。然而,由计算公式设置单元24设置的计算公式Fm的函数形式取决于稍后描述的计算公式生成单元26所使用的耦合系数估计算法。因此,计算公式设置单元24被配置为根据计算公式生成单元26可以使用的估计算法来设置计算公式Fm的函数形式。例如,计算公式设置单元24可以被配置为根据输入数据的类型来改变函数形式。然而,在本说明书中,为了便于说明,将使用如上述等式(2)所表示的线性耦合。有关计算公式设置单元24所设置的计算公式的信息被输入计算公式生成单元26。 此外,希望通过计算公式计算出的特征量的类型从特征量选择单元32输入计算公式生成单元26。特征量选择单元32是用于选择希望通过计算公式计算出的特征量的类型的装置。此外,与输入数据的类型相对应的评估数据从评估数据获取单元34输入计算公式生成单元26。例如,在输入数据的类型是音乐的情况中,多条音乐数据被输入作为评估数据。与各个评估数据相对应的教师数据也从教师数据获取单元36输入计算公式生成单元26。这里的教师数据是各个评估数据的特征量。具体地,针对由特征量选择单元32选择的类型的教师数据被输入计算公式生成单元26。例如,在输入数据是音乐数据并且特征量的类型是速度的情况中,各个评估数据的具体速度值被输入计算公式生成单元26作为教师数据。 当评估数据、教师数据、特征量的类型、评估公式等被输入时,计算公式生成单元26首先向评估公式Fm中所包括的提取公式^, ..., 4输入各个评估数据,并且通过提取公式计算单元28获得提取公式中的每个提取公式的计算结果(以下称为提取公式计算结果)。当由提取公式计算单元28计算出与各个评估数据有关的各个提取公式的提取公式计算结果时,各个提取公式计算结果从提取公式计算单元28输入系数计算单元30。系数计算单元30使用与各个评估数据相对应的教师数据和输入的提取公式计算结果,并且计算如上述等式(2)中的B。, ... , Bk所表示的親合系数。例如,可以通过使用最小均方方法来确定系数B。, . . . , BK。此时,系数计算单元30还计算诸如均方误差之类的评估值。
提取公式计算结果、耦合系数和均方误差等是针对每种类型的特征量并且针对列表的数目来计算的。由提取公式计算单元28计算出的提取公式计算结果和由系数计算单元30计算出的耦合系数和诸如均方误差之类的评估值被输入公式评估单元38。当这些计算结果被输入时,公式评估单元38通过使用输入的计算结果来计算用于判定各个计算公式的有效性的评估值。如上所述,在确定构成各个计算公式的提取公式和构成提取公式的算子的处理中,包括随机的选择处理。即,关于在确定处理中是否选择了最优的提取公式和最优算子存在不确定性。因此,由公式评估单元38来执行评估以评估计算结果并且在适当 时,执行重新计算或校正计算结果。 在图1中所示的公式评估单元38中设置用于计算各个计算公式的评估值的计 算公式评估单元40和用于计算各个提取公式的贡献度的提取公式评估单元42。计算公 式评估单元40例如使用称为AIC或BIC的评估方法来评估各个计算公式。这里的AIC是 Akaike Information Criterion (Akaike信息量准则)的縮写。另一方面,BIC是Bayesian InformationCriterion(贝叶斯信息量准则)的縮写。当使用AIC时,通过使用各个计算公 式的均方误差(mean square error)和教师数据的个数(以下称为教师的数目number of teachers)来计算各个计算公式的评估值。例如,基于由以下等式(3)表示的值(AIC)来计
算评估值。[等式3] AIC = number of teachers X {log 2n+l+log(mean square error)}+2(K+l)
. (3) 根据上述等式(3), AIC越小,计算公式的精确度越高。因此,AIC越小,针对使用
AIC的情况的评估值被设置为越大。例如,通过由上述等式(3)表示的AIC的倒数来计算评
估值。此外,由计算公式评估单元40针对特征量的类型的数目来计算评估值。因此,计算
公式评估单元40针对各个计算公式执行对特征量类型的数目的平均运算,并且计算出平
均评估值。即,在这个阶段计算各个计算公式的平均评估值。由计算公式评估单元40计算
出的平均评估值被输入提取公式列表生成单元20作为计算公式的评估结果。 另一方面,提取公式评估单元42基于提取公式计算结果和耦合系数来计算各个
计算公式中的各个提取公式的贡献比,作为评估值。例如,提取公式评估单元42根据以下
等式(4)来计算贡献比。提取公式fK的提取公式计算结果的标准差是从针对各个评估数
据计算出的提取公式计算结果获得的。由提取公式评估单元42根据以下等式(4)针对各
个计算公式所计算出的各个提取公式的贡献比被输入提取公式列表生成单元20,作为提取
公式的评估结果。 [Equation 4]
y;的贡献率
=_^ x 6VZ)eH估计目标的FQ)_
=5VZ)ev(厶的计算结果)x厶的计算结果,估计目标FQ) . (4) 这里,StDev(...)指示标准差。此外,估计目标的特征量是乐曲的速度等。例如, 在给出100首乐曲的对数谱作为评估数据并且给出每首乐曲的速度作为教师数据的情况 中,StDev(估计目标的特征量)指示这100首乐曲的速度的标准差。此外,上述等式(4)中 所包括的Pearson (...)指示相关函数。例如,Pearson (fK的计算结果,估计目标FQ)指示 用于计算fK的计算结果与估计目标特征量之间的相关系数的相关函数。此外,尽管乐曲的 速度被指示为特征量的示例,但是估计目标特征量不限于此。
当评估结果以这种方式从公式评估单元38输入提取公式列表生成单元20时,生 成要用于新的计算公式的表达的提取公式列表。首先,提取公式列表生成单元20按照由计 算公式评估单元40计算出的平均评估值的降序来选择特定数目的计算公式,并且设置与 所选择的计算公式相对应的提取公式列表作为新的提取公式列表(选择)。此外,提取公 式列表生成单元20通过按照由计算公式评估单元40计算出的平均评估值的降序进行加权 来选择两个计算公式,并且通过对与计算公式相对应的提取公式列表中的提取公式进行组 合来生成新的提取公式列表(交叉)。此外,提取公式列表生成单元20通过按照由计算公 式评估单元40计算出的平均评估值的降序进行加权来选择一个计算公式,并且通过对与 计算公式相对应的提取公式列表中的提取公式进行部分地改变来生成新的提取公式列表 (转变)。此外,提取公式列表生成单元20通过随机地选择提取公式来生成新的提取公式 列表。 在上述交叉中,提取公式的贡献比越低,则提取公式被设置为不太可能被选择越 好。此外,在上述转变中,如下的设置是优选的提取公式的贡献比越低,提取公式越易于被 改变。通过使用以这种方式新生成或新设置的提取公式列表来再次执行提取公式选择单元 22、计算公式设置单元24、计算公式生成单元26和公式评估单元38的处理。处理序列被重 复执行直到公式评估单元38的评估结果中的改善程度收敛至某一程度为止。然后,当公式 评估单元38的评估结果中的改善程度收敛至某一程度时,此时的计算公式被输出作为计 算结果。通过使用输出的计算公式,以高精度从与上述评估数据不同的任意输入数据中计 算出表示输入数据的目标特征的特征量。 如上所述,由特征量计算公式生成设备10进行的处理是基于遗传算法的,该遗传 算法考虑诸如交叉或转变之类的要素,在从一代进行到下一代的同时重复执行处理。能够 以高精度估计特征量的计算公式可以通过使用遗传算法来获得。然而,在稍后所述的实施 例,可以使用学习算法,学习算法通过比可使用遗传算法的方法简单的方法来计算计算公 式。例如,不是由提取公式列表生成单元20执行诸如上述选择、交叉和转变之类的处理,而 是可以设想到这样的方法通过改变提取公式选择单元22所要使用的提取公式,选择使得 计算公式评估单元40所得到的评估值最高的组合。在这种情况中,可以省略提取公式评估 单元42的配置。此外,可以根据运算负荷和所希望的估计精度在适当时改变配置。
〈2.实施例> 以下,将描述本发明的一个实施例。本实施例涉及用于从乐曲的音频信号中以高 精度自动地提取乐曲的特征量并且用于通过使用这些特征量来捕获声音素材的技术。通过 该技术捕获的声音素材使得能够通过在与另一乐曲的拍子同步的同时与该另一乐曲合成 来改变该另一乐曲的编排。此外,以下,乐曲的音频信号也可以称为音乐数据。
(2-1.信息处理设备100的总体配置) 首先,参考图2,将描述根据本实施例的信息处理设备100的功能配置。图2是示 出根据本实施例的信息处理设备100的功能配置示例的说明性示图。此外,这里描述的信 息处理设备100具有这样的配置特征精确地检测音乐数据中所包括的各种特征量并且通 过使用这些特征量来捕获用作声音素材的波形。例如,乐曲的拍子、和弦进行和乐器的类型 等被检测出,作为特征量。以下,在描述了信息处理设备100的总体配置之后,将分别描述 各个结构元件的详细配置。
13
如图2中所示,信息处理设备100主要包括捕获请求输入单元102、声源分离单 元104、对数谱分析单元106、音乐分析单元108、捕获范围确定单元110和波形捕获单元 112。此外,音乐分析单元108包括拍子检测单元132、和弦进行检测单元134和乐器声音 分析单元136。 此外,特征量计算公式生成设备10被包括在图2中所示的信息处理设备100中。 然而,特征量计算公式生成设备IO可以被设置在信息处理设备100内,或作为外部装置被 连接到信息处理设备100。以下,为了方便,假定特征量计算公式生成设备IO被内建于信息 处理设备100中。此外,信息处理设备IOO还可以使用能够生成特征量计算公式的各种学 习算法,来取代设置特征量计算公式生成设备10。 处理的总体流程如接下来所述。首先,波形的捕获条件(以下称为捕获请求)被 输入捕获请求输入单元102。所要捕获的乐器的类型、所要捕获的波形素材的长度、捕获时 所使用的捕获条件的严格度等作为捕获请求被输入。输入捕获请求输入单元102的捕获请 求被输入捕获范围确定单元110,并且被用在对波形素材的捕获处理中。
例如,指定鼓、吉他等为乐器的类型。此外,可以以帧或小节为单位来指定波形素 材的长度。例如,指定1小节、2小节、4小节等作为波形素材的长度。此外,还可以通过连 续的值,例如从O.O(不严格)至1.0(严格),来指定捕获条件的严格度。例如,当捕获条 件的严格度被指定为0. 9等(最大至1. 0),则只有满足该捕获条件的波形素材被捕获。相 反,当捕获条件的严格度被指定为0. 1等(最小至0. 0)时,即使包括没有准确满足捕获条 件的部分,该区间(section)仍被捕获作为波形素材。 另一方面,音乐数据被输入声源分离单元104。音乐数据被声源分离单元104分离 成左声道分量(前景分量)、右声道分量(前景分量)、中心分量(前景分量)和背景分量。 然后,分离成各个分量的音乐数据被输入对数谱分析单元106。音乐数据的各个分量被对数 谱分析单元106变换成稍后描述的对数谱。从对数谱分析单元106输出的对数谱被输入特 征量计算公式生成设备10等。此外,对数谱可以由特征量计算公式生成设备10以外的其 它结构元件使用。在这种情况中,所希望的对数谱在适当时被直接或间接地从对数谱分析 单元106提供给各个结构元件。 音乐分析单元108分析音乐数据的波形,并且提取音乐数据中所包括的拍子位 置、和弦进行和各个乐器声音。由拍子检测单元132检测拍子位置。由和弦进行检测单元 134检测和弦进行。由乐器声音分析单元136提取各个乐器声音。此时,音乐分析单元108 通过使用特征量计算公式生成设备10来生成用于检测拍子位置、和弦进行和各个乐器声 音的特征量的计算公式,并且从通过计算公式计算出的特征量中检测拍子位置、和弦进行 和各个乐器声音。稍后将详细描述由音乐分析单元108进行的分析处理。通过音乐分析 单元108的分析处理获得的拍子位置、和弦进行和各个乐器声音被输入捕获范围确定单元 110。 捕获范围确定单元IIO基于从捕获请求输入单元102输入的捕获请求和音乐分析 单元108的分析结果来从音乐数据中确定所要捕获作为声音素材的范围。然后,有关由捕 获范围确定单元110确定的捕获范围的信息被输入波形捕获单元112。波形捕获单元112 从音乐数据中捕获由捕获范围确定单元110确定的捕获范围的波形作为声音素材。然后, 由波形捕获单元112捕获的波形素材被记录在设置于信息处理设备IOO外部或内部的存储装置中。以上描述了与波形素材的捕获处理相关的粗略流程。以下,将详细描述声源分离 单元104、对数谱分析单元106和音乐分析单元108的配置,这些单元是信息处理设备100 的主要结构元件。 (2-2.声源分离单元104的配置示例) 首先,将描述声源分离单元104。声源分离单元104是用于分离位于左、右和中心 的声源信号(以下称为左声道信号、右声道信号、中心信号)和背景声音的声源信号的装 置。这里,参考声源分离单元104对于中心信号的提取方法,将详细描述声源分离单元104 的声源分离方法。如图3中所示,声源分离单元104例如包括以下单元左声道频带划分单 元142、右声道频带划分单元144、带通滤波器146、左声道频带合成单元148和右声道频带 合成单元150。在提取中心信号的情况中,使用图3中所示的带通滤波器146的通过条件 (相位差小,音量差小)。这里,描述用于提取中心信号的方法作为示例。
首先,输入声源分离单元104的立体声信号的左声道信号sj皮输入左声道频带划 分单元142。左声道的非中心信号L和中心信号C以混合的方式存在于左声道信号&中。 此外,左声道信号^是随时间过去而改变的音量电平信号。因此,左声道频带划分单元142 对输入的左声道信号&执行DFT处理,并且将其从时域信号变换成频域信号(以下称为多 频带信号f JO) , . . . , f JN-I))。这里f JK)是与第k个(k = 0, . . . , N-l)频带相对应的 子频带信号。此外,上述DFT是Discrete Fourier Transform(离散傅里叶变换)的縮写。 从左声道频带划分单元142输出的左声道多频带信号被输入带通滤波器146。
以相似的方式,输入声源分离单元104的立体声信号的右声道信号Sk被瑜入右声 道频带划分单元144。右声道的非中心信号R和中心信号C以混合方式存在于右声道信号 ^中。此外,右声道信号&是随时间过去而改变的音量电平信号。因此,右声道频带划分 单元144对输入的右声道信号sK执行DFT处理,并且将其从时域信号变换成频域信号(以 下称为多频带信号fK(0) , . . . , fK(N-l))。这里fK(k')是与第k' (k' = 0, . . . , N-l)个频 带相对应的子频带信号。从右声道频带划分单元144输出的右声道多频带信号被输入带通 滤波器146。此外,各个声道的多频带信号所划分成的频带数是N(例如,N = 8192)。
如上所述,各个声道的多频带信号fjk) (k = O,. . . ,N-l)和fK(k') (k' = O,..., N-l)被输入带通滤波器146。以下,按照升序标记频率,例如k二O,... ,N-l,或k'二O,..., N-l。此外,信号分量fjk)和fjk')中的每一个称为子声道信号。首先,在带通滤波器146 中,从两个声道的多频带信号中选择在相同频带中的子声道信号fjk)andfjk') (k' = k), 并且计算这些子声道信号之间的类似度a(k)。类似度a(k)例如是根据以下等式(5)和(6) 计算的。这里,幅度分量和相位分量被包括在子声道信号中。因此,幅度分量的类似度表示 为即(k),并且相位分量的类似度表示为ai (k)。
[等式5] = cos^
15
. (5)
[等式6]
. (6) 这里,|... I指示"..."的范数。e指示fL(k)与fK(k)之间的相位差 (0《I e I《ji)。上标*指示复共轭。Re[...]指示"..."的实部。从上述等式(6)可
见,在子声道信号4(k)和4(k)的范数一致的情况中,幅度分量的类似度即(k)是l。反 之,在子声道信号4(k)和4(k)的范数不一致的情况中,类似度即(k)的值小于l。另一
方面,关于相位分量的类似度ai(k),当相位差e为0时,类似度ai(k)为i;当相位差e 为Ji/2时,类似度ai(k)为0;并且当相位差e为ji时,类似度ai(k)为-1。 S卩,在子声 道信号4(k)和fK(k)的相位一致的情况中,相位分量的类似度ai(k)为l,并且在子声道 信号fL(k)和fK(k)的相位不一致的情况中,类似度ai (k)的值小于1。
当各个频带k(k = 0, . . . , N-l)的类似度a(k)是通过上述方法计算出的时,由带 通滤波器146提取与小于特定阈值的类似度即(q)和ai (q)相对应的频带q (0《q《N_l)。 然后,仅由带通滤波器146所提取出的频带q中的子声道信号被输入左声道频带合成单元 148或右声道频带合成单元150。例如,子声道信号fL(q) (q = q。, . . . , qn—》被输入左声道 频带合成单元148。因此,左声道频带合成单元148对从带通滤波器146输入的子声道信号 f Jq) (q = q。, . . . , 1—》执行IDFT处理,并且将其从频域变换到时域。此外,上述IDFT是 Inverse Discrete Fourier Transform(离散傅里口十逆变换)的縮写。 以相似的方式,子声道信号fK(q) (q = q。, . . . , qn—》被输入右声道频带合成单元 150。因此,右声道频带合成单元150对从带通滤波器146输入的子声道信号fK(q) (q = q。, . . . , qn-》执行IDFT处理,并且将其从频域变换到时域。从左声道频带合成单元148输 出左声道信号&中所包括的中心信号分量s p另一方面,从右声道频带合成单元150输 出右声道信号sK中所包括的中心信号分量sK,。声源分离单元104可以通过上述方法从立 体声信号中提取中心信号。 此外,可以通过如图4中所示改变带通滤波器146的通过条件来以相同方式分离 左声道信号、右声道信号和背景声音信号。如图4中所示,在提取左声道信号的情况中,左 右之间的相位差小并且左边的音量高于右边的音量的频带被设置为带通滤波器146的通 带。这里的音量对应于上述幅度分量。类似地,在提取右声道信号的情况中,左右之间的相 位差小并且右边的音量高于左边的音量的频带被设置为带通滤波器146的通带。
左声道信号、右声道信号和中心信号是前景信号。因此,这些信号中的任何一个都 在左右之间的相位差小的频带中。另一方面,背景声音信号是在左右之间的相位差大的频 带中的信号。因此,在提取背景声音信号的情况中,带通滤波器146的通带被设置为左右之 间的相位差大的频带。由声源分离单元104以这种方式分离的左声道信号、右声道信号、中 心信号和背景声音信号被输入对数谱分析单元106(参见图2)。
(2-3.对数谱分析单元106的配置示例) 接着,将描述对数谱分析单元106。对数谱分析单元106是用于将输入音频信号变 换成各个音调的强度分布的装置。在音频信号中每八度音阶包括12个音调(C, C#, D, D#, E, F, F#, G, G#, A, A#, B)。此外,各个音调的中心频率成对数分布。例如,当用音调A3的中 心频率fA3作为标准时,A#3的中心频率表示为fAfl3 = fA3*21/12。类似地,音调B3的中心频 率^表示为^3 = fAS3*21/12。以这种方式,相邻音调的中心频率之比为1 : 21/12。然而,当 处理音频信号时,将音频信号作为时间_频率空间中的信号强度分布将使得频率轴是对数 轴,从而使对音频信号的处理变复杂。因此,对数谱分析单元106分析音频信号,并且将其 从时间_频率空间中的信号变换成时间_音调空间中的信号(以下称为对数谱)。
参考图5,将详细描述对数谱分析单元106的配置。如图5所示,对数谱分析单元 106可以由重新采样单元152、八度音阶划分单元154和多个带通滤波器库(BPFB)156构 成。 首先,音频信号被输入重新采样单元152。然后,重新采样单元152将输入音频信 号的采样频率(例如,44. lkHz)变换成特定采样频率。通过将八度音阶之间的边界处的频 率(以下称为边界频率)作为标准并且将边界频率乘以2的幂而获得的频率被当作特定采 样频率。例如,音频信号的采样频率将八度音阶4和八度音阶5之间的边界频率1016. 7Hz 作为标准,并且被变换成为标准的25倍的采样频率(32534. 7Hz)。通过以这种方式变换采 样频率,作为重新采样单元152之后执行的频带划分处理和下采样处理的结果获得的最高 和最低频率将与某一八度音阶的最高和最低频率一致。结果,可以简化用于从音频信号提 取各个音调的信号的处理。 采样频率被重新采样单元152变换了的音频信号被输入八度音阶划分单元154。 然后,八度音阶划分单元154通过重复执行频带划分处理和下采样处理将输入的音频信 号划分成各个八度音阶的信号。通过由八度音阶划分单元154进行的划分所获得的各个 信号被输入针对各个八度音阶(01, . . . , 08)而设置的带通滤波器库156(BPFB(01),..., BPFB(08))。每个带通滤波器库156由12个带通滤波器构成,每个带通滤波器具有针对12 个音调中的一个的通带,以从各个八度音阶的输入音频信号中提取各个音调的信号。例如, 经由通过八度音阶8的带通滤波器库156(BPFB(08)),从八度音阶8的音频信号中提取出 12个音调(C8, C#8, D8, D#8, E8, F8, F#8, G8, G#8, A8, A#8, B)的信号。
通过从各个带通滤波器库156输出的信号可以获得示出各个八度音阶中12个音 调的信号强度(以下称为能量)的对数谱。图6是示出从对数谱分析单元106输出的对数 谱的示例的说明性示图。 参考图6的垂直轴(音调),输入音频信号被划分成7个八度音阶,并且每个八度
音阶又被划分成12个音调:"c"、"cr,、"D"、"Dr,、"E"、"F"、"Fr,、"G"、"Gr,、"A"、"Ar,禾口
"B"。另一方面,图6的水平轴(时间)示出沿时间轴对音频信号进行采样时的帧编号。例
17如,当由重新采样单元152以采样频率127. 0888 (Hz)对音频信号进行重新采样时,1帧将是 与1 (sec)/127. 0888 = 7. 8686 (msec)相对应的时间段。此外,图6中所示的对数谱的颜色 的浓淡指示在各帧处,各个音调的能量的强度。例如,位置Sl被用黑色示出,并且因此可以 理解与位置SI相对应的音调(音调F)处的音符是在与位置SI相对应的时间被强有力地 产生的。此外,图6是当采用某个音频信号作为输入信号时获得的对数谱的一个示例。因 此,如果输入信号不同,则获得不同的对数谱。以这种方式获得的对数谱被输入特征量计算 公式生成设备10等,并且被用于由音乐分析单元108(参见图2)执行的音乐分析处理。
(2-4.音乐分析单元108的配置示例) 接着,将描述音乐分析单元108的配置。音乐分析单元108是用于使用学习算法 来分析音乐数据并且提取该音乐数据中所包括的特征量的装置。具体地,音乐分析单元108 提取音乐数据中所包括的拍子、和弦进行和各个乐器声音。因此,如图2所示,音乐分析单 元108包括拍子检测单元132、和弦进行检测单元134和乐器声音分析单元136。
由音乐分析单元108进行的处理的流程如图7中所示。如图7中所示,音乐分 析单元108首先通过拍子检测单元132来执行拍子分析处理并且检测音乐数据中的拍子 (S102)。接着,音乐分析单元108通过和弦进行检测单元134来执行和弦进行分析处理并 且检测音乐数据的和弦进行(S104)。然后,音乐分析单元108开始有关声源的组合的循环 处理(S106)。 所有4个声源(左声道声音、右声道声音、中心声音和背景声音)被用作要组合的 声源。所述组合例如可以是(l)所有4个声源,(2)只有前景声音(左声道声音、右声道 声音和中心声音),(3)左声道声音+右声道声音+背景声音或(4)中心声音+背景声音。 此外,其它组合例如可以是(5)左声道声音+右声道声音,(6)仅背景声音,(7)仅左声道 声音,(8)仅右声道声音或(9)仅中心声音。步骤S106开始的循环内的处理例如是针对上 述(1)至(9)来执行的。 接着,音乐分析单元108通过乐器声音分析单元136来执行乐器声音分析处理并 且提取音乐数据中所包括的各个乐器声音(S108)。这里所提取的各个乐器声音的类型是歌 声、吉他声、贝斯声、键盘声、鼓声、琴弦声、铜管声等。当然,也可以提取其它类型的乐器声 音。当针对所有的声源组合执行了乐器声音分析处理时,音乐分析单元108结束有关声源 组合的循环处理(S110),并且有关音乐分析的一连串处理完成。当这一连串处理完成时,拍 子、和弦进行和各个乐器声音从音乐分析单元108输入捕获范围确定单元110。
以下,将详细描述拍子检测单元132、和弦进行检测单元134和乐器声音分析单元 136的配置。 (2-4-1.拍子检测单元132的配置示例) 首先,将描述拍子检测单元132的配置。如图8中所示,拍子检测单元132包括拍 子概率计算单元162和拍子分析单元164。拍子概率计算单元162是用于基于音乐数据的 对数谱来计算各帧是拍子位置的概率的装置。此外,拍子分析单元164是用于基于由拍子 概率计算单元162计算出的各帧的拍子概率来检测拍子位置的装置。以下,将详细描述这 些结构元件的功能。 首先,将描述拍子概率计算单元162。拍子概率计算单元162针对从对数谱分析单 元106输入的对数谱的特定时间单位中的每一个时间单位(例如,1帧),计算拍子被包括在该时间单位中的概率(以下,称为"拍子概率")。此外,当特定时间单位是1帧时,拍子 概率可以被认为是各帧与拍子位置(时间轴上拍子的位置)相符合的概率。由拍子概率计 算单元162用来计算拍子概率的公式是由特征量计算公式生成设备10通过使用学习算法 而生成的。并且,诸如图9中所示的那些数据之类的数据被给予特征量计算公式生成设备 IO,作为用于学习的教师数据和评估数据。在图9中,用于拍子概率的计算的时间单位是1 帧。 如图9中所示,从拍子位置已知的乐曲的音频信号变换出的对数谱的片段(以下, 称为"局部对数谱")和各个局部对数谱的拍子概率被提供给特征量计算公式生成设备10。 即,局部对数谱被提供给特征量计算公式生成设备10作为评估数据,而拍子概率作为教师 数据。这里,局部对数谱的窗口宽度是考虑了拍子概率的计算的精度与处理代价之间的权 衡来确定的。例如,局部对数谱的窗口宽度可以包括要计算拍子概率的那帧的前后7帧 (即,总共15帧)。 此外,作为教师数据提供的拍子概率例如基于已知的拍子位置并且使用真值(1) 或假值(O),来指示拍子是否被包括在各个局部对数谱的中心帧中。这里不考虑小节的位 置,并且当中心帧对应于拍子位置时,拍子概率是1 ;而当中心帧与拍子位置不相对应时, 拍子概率是0。在图9中示出的示例中,给出局部对数谱Wa, Wb, Wc, . . . , Wn的拍子概率分 别为l,O,l, ... ,0。用于从局部对数谱中计算拍子概率的拍子概率公式(P(W))是由特征 量计算公式生成设备IO基于评估数据和教师数据的多个集合而生成的。当以这种方式生 成了拍子概率公式P(W)时,拍子概率计算单元162从所处理的音乐数据的对数谱中截取 (cut out)各帧的局部对数谱,并且通过对各个局部对数谱应用拍子概率公式P(W)来顺次 计算拍子概率。 图10是示出由拍子概率计算单元162计算出的拍子概率的示例的说明性示图。在 图10的(A)中示出要从对数谱分析单元106输入拍子概率计算单元162的对数谱的示例。 另一方面,在图10的(B)中,在时间轴上用折线示出由拍子概率计算单元162基于对数谱 (A)计算出的拍子概率。例如,参考帧位置F1,可以看出,局部对数谱W1对应于帧位置F1。 即,帧F1的拍子概率P(W1) 二0.95是从局部对数谱W1中计算出的。类似地,基于从对数 谱中截取的局部对数谱W2,计算出帧位置F2的拍子概率P(W2)是O. 1。帧位置F1的拍子 概率P(W1)高而帧位置F2的拍子概率P(W2)低,并且因此可以说,帧位置F1与拍子位置相 对应的概率高,而帧位置F2与拍子位置相对应的概率低。 此外,可以通过另一学习算法来生成由拍子概率计算单元162使用的拍子概率公 式。然而,应当注意,一般,对数谱包括各种参数,例如鼓的谱、由于说话引起的谱的发生和 由于和弦的变化引起的谱中的变化。在鼓的谱的情况中,击打鼓的时间点很有可能就是拍 子位置。另一方面,在语音的谱的情况中,说话开始时间点很有可能是拍子位置。为了通过 全体地使用各种参数来高精度地计算拍子概率,适于使用特征量计算公式生成设备10或 JP-A-2008-123011中所公开的学习算法。由拍子概率计算单元162以上述方式计算出的拍 子概率被输入拍子分析单元164。 拍子分析单元164基于从拍子概率计算单元162输入的各个帧的拍子概率来确定 拍子位置。如图8中所示,拍子分析单元164包括起始点(onset)检测单元172、拍子得分 计算单元174、拍子搜索单元176、恒定速度判定单元178、针对恒定速度的拍子重新搜索单元180、拍子确定单元182和速度修正单元184。各帧的拍子概率从拍子概率计算单元162 输入起始点检测单元172、拍子得分计算单元174和速度修正单元184。
起始点检测单元172基于从拍子概率计算单元162输入的拍子概率来检测音频信 号中所包括的起始点。这里的起始点是指音频信号中声音产生的时间点。更具体而言,拍 子概率在特定阈值以上并且取得极大值的点被称为起始点。例如,在图11中,示出基于针 对音频信号所计算出的拍子概率而检测到的起始点的示例。在图11中,与图10的(B) — 样,在时间轴上用折线示出由拍子概率计算单元162计算出的拍子概率。在图11中所示出 的拍子概率曲线图的情况中,取得极大值的点有3个,S卩,帧F3、F4和F5。其中,关于帧F3 和F5,该时间点处的拍子概率在预先给出的特定阈值Thl之上。另一方面,帧F4的时间点 处的拍子概率在阈值Thl之下。在这种情况中,两个点,即,帧F3和F5被检测出作为起始 点。 这里,参考图12,将将要描述起始点检测单元172的起始点检测处理流程。如图 12中所示,首先,起始点检测单元172关于针对各帧计算出的拍子概率,从第一帧开始,顺 次对这些帧执行循环(S1322)。然后,起始点检测单元172关于各帧判定拍子概率是否在特 定阈值之上(S1324)以及拍子概率是否指示极大值(S1326)。这里,当拍子概率在特定阈值 之上并且拍子概率是极大值时,则起始点检测单元172进行到步骤S1328的处理。另一方 面,当拍子概率在特定阈值以下或拍子概率不是极大值时,跳过步骤S1328的处理。在步骤 S1328,向起始点位置的列表添加当前时间(或帧编号)(S1328)。然后,当有关所有帧的处 理都完成了时,起始点检测处理的循环结束(S1330)。 利用如上所述的由起始点检测单元172进行的起始点检测处理,生成音频信号中 所包括的起始点的位置的列表(各个起始点的时间或帧编号的列表)。利用上述起始点检 测处理,例如还检测出如图13中所示的起始点的位置。图13与拍子概率相关地示出由起 始点检测单元172检测出的起始点的位置。在图13中,在示出拍子概率的折线上方用圆圈 示出由起始点检测单元172检测出的起始点的位置。在图13的示例中,具有阈值Thl之上 的拍子概率的极大值被检测出,作为15个起始点。由起始点检测单元172以这种方式检测 出的起始点的位置的列表被输入拍子得分计算单元174(参见图8)。 拍子得分计算单元174针对由起始点检测单元172检测出的各个起始点计算拍子 得分,拍子得分指示与形成具有恒定速度(或恒定拍子间隔)的一连串拍子的多个拍子当 中的拍子的对应程度。 首先,拍子得分计算单元174设置如图14中所示的所关注起始点。在图14的示 例中,在由起始点检测单元172检测到的起始点中,在帧位置Fk(帧编号k)处的起始点被设 置为所关注的起始点。此外,涉及与帧位置Fk的距离为特定距离d的整数倍的一连串帧位 置Fk—3、 Fk—2、Fk—p Fk、 Fk+1、 Fk+2、 Fk+3。以下,特定距离d称为转移量,并且距离为转移量d的整 数倍的帧位置称为转移位置。拍子得分计算单元174将拍子概率已被计算出的帧的群组F 中所包括的所有转移位置(...Fk—3,Fk—2,Fk—"Fk,F^,Fk+2,以及Fk+3...)处的拍子概率的加和 作为所关注起始点的拍子得分。例如,当帧位置Fi处的拍子概率是P(Fi)时,所关注起始点 的与帧编号k和转移量d相关的拍子得分BS(k,d)由以下等式(7)表示。由以下等式(7) 表示的拍子得分BS(k, d)可以说是这样的得分,其指示音频信号的 k帧处的起始点与将 转移量d作为拍子间隔的恒定速度相同步的概率。<formula>formula see original document page 21</formula> 这里,参考图15,将简要描述拍子得分计算单元174的拍子得分计算处理流程。
如图15中所示,首先,拍子得分计算单元174关于由起始点检测单元172检测到 的起始点,从第一起始点开始,针对这些起始点顺次执行循环(S1342)。此外,拍子得分计算 单元174关于所关注的起始点针对所有转移量d中的每一个转移量d执行循环(S1344)。作 为循环的对象的转移量d是可以在音乐演奏中使用的所有拍子处的间隔的值。然后,拍子 得分计算单元174初始化拍子得分BS(k, d)(即,O被代入拍子得分BS(K, d)中)(S1346)。 接着,拍子得分计算单元174针对用于转移所关注起始点的帧位置Fd的转移系数n来执行 循环(S1348)。然后,拍子得分计算单元174向拍子得分BS(k,d)顺次添加每个转移位置处 的拍子概率P(Fk+nd)(S1350)。然后,当针对所有转移系数n的循环结束时(S1352),拍子得 分计算单元174记录所关注的起始点的帧位置(帧编号k)、转移量d和拍子得分BS(k, d) (S1354)。拍子得分计算单元174针对所有起始点的每个转移量重复此拍子得分BS(k, d) 的计算(S1356, S1358)。 利用如上所述由拍子得分计算单元174进行的拍子得分计算处理,针对由起始点 检测单元172检测到的每个起始点,输出跨越多个转移量d的拍子得分BS(k, d)。如图16 中所示的拍子得分分布图就是通过上述拍子得分计算处理获得的。该拍子得分分布图使从 拍子得分计算单元174输出的拍子得分可视化。在图16中,沿水平轴按时间顺序示出由起 始点检测单元172检测到的起始点。图16中的垂直轴示出转移量,已针对所述转移量计算 了每个起始点的拍子得分。此外,图中每个点的颜色的浓淡指示在该转移量处、针对该起始 点所计算出的拍子得分的水平。在图16中的示例中,在转移量dl的附近,所有起始点的拍 子得分都高。当假定以在该转移量dl处的速度来演奏乐曲时,很有可能所检测到的起始点 中的许多起始点与拍子对应。由拍子得分计算单元174计算出的拍子得分被输入拍子搜索 单元176。 拍子搜索单元176基于由拍子得分计算单元174计算出的拍子得分,搜索示出有 可能的速度波动的起始点位置的路径。例如,基于隐马尔科夫模型的Viterbi算法可以用 作拍子搜索单元176的路径搜索方法。对于由拍子搜索单元176进行的Viterbi搜索,例 如,起始点编号被设为时间轴(水平轴)的单位,而拍子得分计算时使用的转移量被设为观 测序列(垂直轴),如图17中示意性所示。拍子搜索单元176搜索连接由时间轴和观测序 列的值分别定义的节点的Viterbi路径。换而言之,拍子搜索单元176将起始点和由拍子 得分计算单元174计算拍子得分时所使用的转移量的所有组合中的每一种组合作为目标 节点。此外,各个节点的转移量等于针对该节点假定的拍子间隔。因此,以下,各个节点的 转移量可以称为拍子间隔。 关于所述节点,拍子搜索单元176沿时间轴顺次选择节点中的任何节点,并且评 估由一连串所选择的节点形成的路径。此时,在节点选择中,允许拍子搜索单元176跳过节 点。例如,在图17的示例中,在第k-l个起始点之后,跳过第k个起始点而选择第k+l个起
21始点。这是因为是拍子的起始点和不是拍子的起始点通常混在这些起始点中,并且只好从
包括不经过不是拍子的起始点的路径在内的路径中搜索出有可能的路径。 例如,对于路径的评估,可以使用4种评估值,即(1)拍子得分,(2)速度变化得分,
(3)起始点移动得分和(4)针对跳过的惩罚。其中,(1)拍子得分是由拍子得分计算单元
174针对每个节点计算出的拍子得分。另一方面,对节点间的过渡给出(2)速度变化得分、
(3)起始点移动得分和(4)针对跳过的惩罚。在要对节点间的过渡给出的评估值中,(2)速
度变化得分是基于经验知识给出的评估值,经验知识通常是乐曲中逐渐波动的速度。因此,
过渡前节点处的拍子间隔与过渡后节点处的拍子间隔之间的差越小,对速度变化得分给出
的值越高。 这里,参考图18,将详细描述(2)速度变化得分。在图18中,当前选择节点N1。 拍子搜索单元176有可能选择节点N2至N5中的任何节点作为下一节点。尽管也可以选择 N2至N5以外的其它节点,但是为了便于描述,将描述4个节点,即节点N2至N5。这里,当 拍子搜索单元176选择节点N4时,由于节点Nl与节点N4处的拍子间隔之间没有差,所以 将给出最高值作为速度变化得分。另一方面,当拍子搜索单元176选择节点N3或N5时,在 节点Nl与节点N3或N5处的拍子间隔之间存在差,并且因此给出相对于选择节点N4时较 低的速度变化得分。此外,当拍子搜索单元176选择节点N2时,节点Nl与节点N2处的拍 子间隔之间的差大于节点N3或N5被选择时的差。因此,给出更低的速度得分。
接着,参考图19,详细描述(3)起始点移动得分。起始点移动得分是根据过渡前后 节点的起始点位置之间的间隔是否与过渡前该节点处的拍子间隔相匹配而给出的评估值。 在图19(19A)中,当前选择第k个起始点的具有拍子间隔d2的节点N6。并且还示出两个节 点N7和N8,作为接下来可能被拍子搜索单元176选择的节点。其中,节点N7是第k+l个 起始点的节点,并且第k个起始点与第k+l个起始点之间的间隔(例如,帧编号之间的差) 是D7。另一方面,节点N8是第k+2个起始点的节点,并且第k个起始点与第k+2个起始点 之间的间隔是D8。 这里,当假定路径上的所有节点都成功与恒定速度中的拍子位置对应的理想路径 时,相邻节点的起始点位置之间的间隔是各个节点处的拍子间隔的整数倍(当无休止符时 是相同间隔)。因此,如图19(19B)中所示,关于当前节点N6,起始点位置之间的间隔越接 近节点N6处的拍子间隔d2的整数倍,给出越高的起始点移动得分。在图19(19B)的示例 中,由于节点N6和N8之间的间隔D8比节点N6和N7之间的间隔D7更接近节点N6处的拍 子间隔d2的整数倍,所以,对从节点N6至节点N8的过渡给出更高的起始点移动得分。
接着,参考图20,详细描述(4)针对跳过的惩罚。针对跳过的惩罚是用于在节点 间的过渡中约束起始点的过多跳过的评估值。因此,在一次过渡中跳过越多起始点则得分 越低,而在一次过渡中跳过越少起始点则得分越高。这里,越低的得分意味着越高的惩罚。 在图20的示例中,选择第k个起始点的节点N9作为当前节点。并且,在图20的示例中,还 示出3个节点N10、N11和N12作为接下来可能被拍子搜索单元176选择的节点。节点N10 是第k+l个起始点的节点,节点Nil是第k+2个起始点的节点,而节点N12是第k+3个起始 点的节点。 因此,在从节点N9至节点N10的过渡的情况中,没有跳过节点。另一方面,在从节 点N9至节点Nil的过渡的情况中,跳过第k+l个起始点。此外,在从节点N9至节点N12的过渡的情况中,跳过第k+1个和第k+2个起始点。因此,针对跳过的惩罚在从节点N9至节 点N10的过渡的情况中取得相对高的值,在从节点N9至节点Nil的过渡的情况中取得中间 值,并且在从节点N9至节点N12的过渡的情况中取得低值。因此,在路径搜索时,可以防止 较大数目的起始点被跳过从而使得节点之间的间隔恒定的现象。 此前,已经描述了用于评估由拍子搜索单元176搜索出的路径的4个评估值。使 用图17描述的路径评估是关于所选择的路径,通过将对各个节点给出的或针对路径中所 包括的节点间的过渡所给出的上述(1)至(4)的评估值彼此顺次相乘来执行的。拍子搜索 单元176确定所有可以设想到的路径中评估值的乘积最大的路径作为最优路径。例如,在 图21中示出以这种方式确定的路径。图21示出由拍子搜索单元176确定为最优路径的 Viterbi路径的示例。在图21的示例中,在图16中示出的拍子得分分布图中用点线描画出 由拍子搜索单元176确定的最优路径。在图21的示例中,可见,由拍子搜索单元176针对 其执行了搜索的乐曲的速度以拍子间隔d3为中心波动。由拍子搜索单元176确定的最优 路径(该最优路径中所包括的节点的列表)被输入恒定速度判定单元178、针对恒定速度的 拍子重新搜索单元180和拍子确定单元182。 恒定速度判定单元178判定由拍子搜索单元176确定的最优路径是否指示具有低 的拍子间隔(这些拍子间隔是针对各个节点假定的拍子间隔)方差的恒定速度。首先,恒 定速度判定单元178计算从拍子搜索单元176输入的最优路径中所包括的节点处的一组拍 子间隔的方差。然后,当所计算出的方差小于预先给定的特定阈值时,恒定速度判定单元 178判定速度是恒定的;并且当所计算出的方差大于该特定阈值时,恒定速度判定单元178 判定速度不是恒定的。例如,由恒定速度判定单元178判定的速度如图22中所示。
例如,在图22(22A)的示例中,用点线描画出轮廓的最优路径中起始点位置的拍 子间隔根据时间变化。利用这样的路径,可以判定速度不是恒定的,作为由恒定速度判定单 元178进行的与阈值相关的判定的结果。另一方面,在图22(22B)的示例中,由点线描画出 轮廓的最优路径中的起始点位置的拍子间隔在整个乐曲中几乎恒定。可以判定这样的路径 是恒定的,作为由恒定速度判定单元178进行的与阈值相关的判定的结果。以这种方式获 得的、由恒定速度判定单元178进行的与阈值相关的判定的结果被输出给针对恒定速度的 拍子重新搜索单元180。 当由拍子搜索单元176提取出的最优路径被恒定速度判定单元178判定为指示恒 定速度时,针对恒定速度的拍子重新搜索单元180重新执行路径搜索,将作为搜索对象的 节点限制为仅最经常出现的拍子间隔周围的那些节点。例如,针对恒定速度的拍子重新搜 索单元180通过图23中所示的方法执行对路径的重新搜索处理。此外,与图17 —样,针对 恒定速度的拍子重新搜索单元180针对以节点间隔为观测序列、沿时间轴(起始点编号) 的一组节点来执行对路径的重新搜索处理。 例如,假定要被拍子搜索单元176确定为最优路径的路径中所包括的节点 处的拍子间隔的众数是d4,并且该路径的速度被恒定速度判定单元178确定为是恒 定的。在这种情况中,针对恒定速度的拍子重新搜索单元180仅将拍子间隔d满足 d4-Th2《d《d4+Th2(Th2是特定阈值)的那些节点作为搜索对象来再次搜索路径。在图 23的示例中,针对第k个起始点示出5个节点N12至N16。其中,关于针对恒定速度的拍 子重新搜索单元180,N13至N15处的拍子间隔被包括在搜索范围(d4-Th2《d《d4+Th2)内。相比之下,N12和N16处的拍子间隔未被包括在上述搜索范围内。因此,关于第k个起 始点,仅3个节点N13至N15成为由针对恒定速度的拍子重新搜索单元180进行的路径搜 索重新执行的对象。 此外,由针对恒定速度的拍子重新搜索单元180进行的对路径的重新搜索处理的 流程与由拍子搜索单元176进行的路径搜索处理相似,不同在于成为搜索对象的节点的范 围不同。根据如上所述由针对恒定速度的拍子重新搜索单元180进行的路径重新搜索处 理,关于具有恒定速度的乐曲,可以减少路径搜索的结果中可能局部发生的与拍子位置相 关的错误。由针对恒定速度的拍子重新搜索单元180确定的最优路径被输出给拍子确定单 元182。 拍子确定单元182基于由拍子搜索单元176确定的最优路径或由针对恒定速度的 拍子重新搜索单元180重新确定的最优路径,以及基于路径中所包括的各个节点处的拍子 间隔,确定音频信号中所包括的拍子位置。例如,拍子确定单元182通过如图24中所示的方 法来确定拍子位置。在图24(24A)中,示出由起始点检测单元172获得的起始点检测结果 的示例。在该示例中,示出由起始点检测单元172检测到的在第k个起始点附近的14个起 始点。相比之下,图24(24B)示出了由拍子搜索单元176或针对恒定速度的拍子重新搜索 单元180确定的最优路径中所包括的起始点。在24B的示例中,24A中所示出的14个起始 点中,第k-7个起始点、第k个起始点和第k+6个起始点(帧编号Fk—7、Fk、Fk+6)被包括在最 优路径中。此外,第k-7个起始点处的拍子间隔(等同于对应节点处的拍子间隔)是4—7, 并且第k个起始点处的拍子间隔是dk。 关于这样的起始点,首先,拍子确定单元182将最优路径中所包括的起始点的位 置作为乐曲的拍子位置。然后,拍子确定单元182根据各个起始点处的拍子间隔,在最优路 径中所包括的相邻起始点之间配设补充拍子。此时,拍子确定单元182首先确定用来在最 优路径上彼此相邻的起始点之间配设拍子的补充拍子数目。例如,如图25中所示,拍子确 定单元182取两个相邻起始点的位置为Fh和Fw,并取起始点位置Fh处的拍子间隔为dh。 在这种情况中,在Fh和Fw之间所要配设的补充拍子的数目Bfill由以下等式(8)给出。
[等式8]
<formula>formula see original document page 24</formula>
. (8) 这里,Ro皿d(.)指示". "被四舍五入为最接近的整数。根据以上等式(8),拍 子确定单元182所要配设的补充拍子的数目将是通过以下方式得到的数相邻起始点之间 的间隔除以拍子间隔得到的值四舍五入为最接近的整数,并且之后考虑栅栏柱问题从所得 到的整数中减去l。 接着,拍子确定单元182用所确定的拍子数目,在最优路径上彼此相邻的起始点
之间配设补充拍子,使得拍子以相等的间隔排列。在图24(24C)的示例中,示出配设了补充拍子之后的起始点。在24C的示例中,在第k-7个起始点和第k个起始点之间配设了两个 补充拍子,并且在第k个起始点与第k+6个起始点之间配设两个补充拍子。应当注意,由拍 子确定单元182提供的补充拍子的位置不一定与由起始点检测单元172检测到的起始点的 位置对应。利用这样的配置,可以确定拍子的位置而不受拍子位置之外处产生的声音的影 响。此外,即使在拍子位置处有休止符而没有声音产生的情况中,也可以恰当地把握拍子位 置。由拍子确定单元182按此方式确定的拍子位置列表(包括最优路径上的起始点和由拍 子确定单元182配设的补充拍子)输出给速度修正单元184。 速度修正单元184修正由拍子确定单元182所确定的拍子位置指示的速度。修正 前的速度有可能是乐曲原始速度的常数倍,例如2倍、l/2倍、3/2倍等(参考图26)。因此, 速度修正单元184对被错误地把握为常数倍的速度进行修正并且再现乐曲的原始速度。这 里,参考图26的示例,其示出由拍子确定单元182确定的拍子位置的样式。在图26的示例 中,在图中所示出的时间范围中,对于样式26A,包括6个拍子。相比之下,对于样式26B,在 相同时间范围内包括12个拍子。S卩,以样式26A的拍子位置作为基准,样式26B的拍子位 置指示2倍速度。 另一方面,对于样式26C-1,在相同时间范围内包括3个拍子。即,以样式26A的拍 子位置作为基准,样式26C-1指示1/2倍速度。并且,对于样式26C-2,与样式26C-1 —样, 在相同时间范围内包括3个拍子,并且因此以样式26A的拍子位置作为基准,指示1/2倍速 度。然而,26C-l和26C-2彼此不同在于在从基准速度改变速度时将保留的拍子位置。由速 度修正单元184执行的速度修正例如是通过以下过程(Sl)至(S3)来执行的。
(Sl)确定基于波形所估计出的估计速度
(S2)确定多个乘子中的最优基本乘子
(S3)重复(S2)直到基本乘子为1为止 首先,将对(Sl)确定基于波形所估计出的估计速度进行说明。首先,速度修正单 元184从音频信号的波形中出现的声音特征中确定被估计为足够的估计速度。例如,特征 量计算公式生成设备10或通过JP-A-2008-123011中所公开的学习算法生成的、用于估计 速度辨别的计算公式(估计速度辨别公式)被用于估计速度的确定。例如,如图27中所 示,多首乐曲的对数谱被提供给特征量计算公式生成设备IO,作为评估数据。在图27的示 例中,提供对数谱LSl至LSn。此外,提供由正在收听乐曲的人判定为正确的速度作为教师 数据。在图27的示例中,提供各个对数谱的正确速度(LSI :100, . . . , LSn :60)。估计速度 辨别公式是基于多组这样的评估数据和教师数据来生成的。速度修正单元184通过使用所 生成的估计速度辨别公式来计算所处理的乐曲的估计速度。 接着,将对(S2)确定多个乘子中的最优基本乘子进行说明。速度修正单元184从 多个基本乘子中确定使得修正后的速度与乐曲的原始速度最接近的基本乘子。这里,该基 本乘子是作为用于速度修正的常数比的基本单位的乘子。例如,七种乘子(S卩,1/3、1/2、 2/3、1、3/2、2和3)中的任何一种被用作该基本乘子。然而,本实施例的应用范围不限于这 些示例,并且基本乘子例如可以是五种乘子(即,1/3、1/2、1、2和3)中的任何一种。为了确 定最优基本乘子,速度修正单元184首先在用各个基本乘子修正拍子位置之后计算平均拍 子概率。然而,在基本乘子为1的情况中,平均拍子概率是针对拍子位置未被修正的情况来 计算的。例如,平均拍子概率是由速度修正单元184通过如图28中所示的方法针对各个基本乘子来计算的。 在图28中,在时间轴上用折线示出由拍子概率计算单元162计算出的拍子概率。 此外,在水平轴上示出根据这些乘子中的任何一个修正的3个拍子的帧编号Fh—"Fh和Fh+1。 这里,当帧编号Fh处的拍子概率是BP(h)时,根据乘子r修正的拍子位置的群组F(r)的平 均拍子概率BP皿(r)由以下等式(9)给出。这里,m(r)是群组F(r)中所包括的帧编号的个 数。[等式9]
阔 Gw . (9) 如使用图26的样式26C-1和26C_2描述的,在基本乘子r为1/2的情况中,对于 拍子位置存在两种候选。在这种情况中,速度修正单元184针对拍子位置的这两种候选中 的每一种计算平均拍子概率BP皿(r),并且采用具有较高平均拍子概率BP皿(r)的拍子位置 作为根据乘子r = 1/2修正的拍子位置。类似地,在乘子r为1/3的情况中,对于拍子位置 存在三种候选。因此,速度修正单元184针对拍子位置的这三种候选中的每一种计算平均 拍子概率BP皿(r),并且采用具有最高平均拍子概率BP皿(r)的拍子位置作为根据乘子r = 1/3修正的拍子位置。 在针对各个基本乘子计算了平均拍子概率之后,速度修正单元184基于估计速度 和平均拍子概率来针对各个基本乘子计算修正后速度的似然(以下,称为速度似然)。速度 似然可以由以估计速度为中心的高斯分布示出的速度概率与平均拍子概率的乘积来表示。 例如,由速度修正单元184计算如图29中所示的速度似然。 在图29(29A)中示出由速度修正单元184针对各个乘子计算出的平均拍子概率。 并且,图29(29B)示出高斯分布形式的速度概率,该高斯分布由预先给出的特定方差o l确 定并且以由速度修正单元184基于音频信号的波形估计出的估计速度为中心。此外,图29 中的29A和29B的水平轴表示拍子位置被根据各个乘子修正之后,速度的对数。速度修正 单元184通过将平均拍子概率与速度概率彼此相乘,来针对基本乘子中的每个基本乘子计 算29C中所示的速度似然。在图29的示例中,尽管平均拍子概率对于基本乘子是1时和其 为1/2时几乎是相同的,但是被修正为1/2倍的速度与估计速度更接近(速度概率高)。因 此,对于被修正为1/2倍的速度,所计算出的速度似然更高。速度修正单元184以这种方式 计算速度似然,并且确定产生最高速度似然的基本乘子,作为使得修正后的速度最接近乐 曲的原始速度的基本乘子。 以这种方式,通过在有可能的速度的确定中考虑可以从估计速度获得的速度概 率,可以从候选中精确地确定恰当的速度,这些候选是具有常数倍关系并且基于声音的局 部波形难以相互辨别的速度。当速度被以这种方式修正之后,速度修正单元184执行(S3) 重复(S2)直到基本乘子为1为止。具体而言,由速度修正单元184针对各个基本乘子重 复平均拍子概率的计算和速度似然的计算,直到产生最高速度似然的基本乘子是1为止。结果,即使速度修正单元184的修正之前的速度是乐曲的原始速度的的1/4倍、1/6倍、4 倍、6倍等,该速度也可以用通过基本乘子的组合获得的用于修正的恰当乘子(例如,1/2 倍乂1/2倍=1/4倍)来修正。 这里,参考图30,将简要描述速度修正单元184的修正处理流程。如图30中所示, 首先,速度修正单元184通过使用由特征量计算公式生成设备10预先获得的估计速度辨别 公式来从音频信号中确定估计速度(S1442)。接着,速度修正单元184针对多个基本乘子 (例如,l/3、l/2等)来顺次执行循环(S1444)。在循环内,速度修正单元184根据各个基本 乘子来改变拍子位置并且修正速度(S1446)。接着,速度修正单元184计算修正后的拍子位 置的平均拍子概率(S1448)。接着,速度修正单元184基于在S1448处计算出的平均拍子概 率和在S1442处确定的估计速度来针对各个基本乘子计算速度似然(S1450)。
然后,当该循环对于所有基本乘子都完成了时(S1452),速度修正单元184确定产 生最高速度似然的基本乘子(S1454)。然后,速度修正单元184判定产生最高速度似然的基 本乘子是否是1 (S1456)。如果产生最高速度似然的基本乘子是l,则速度修正单元184结 束修正处理。另一方面,当产生最高速度似然的基本乘子不是1时,速度修正单元184返回 步骤S1444的处理。从而,基于根据产生最高速度似然的基本乘子修正后的速度(拍子位 置),再次执行根据基本乘子中的任何一个的速度修正。 以上,已经描述了拍子检测单元132的配置。利用上述处理,如图31中所示的拍 子位置的检测结果从拍子检测单元132被输出。拍子检测单元132的检测结果被输入和弦 进行检测单元134,并且用于和弦进行的检测处理(参考图2)。
(2-4-2.和弦进行检测单元134的配置示例) 接着,将描述和弦进行检测单元134的配置。和弦进行检测单元134是用于基于 学习算法来检测音乐数据的和弦进行的装置。如图2中所示,和弦进行检测单元134包括 结构分析单元202、和弦概率检测单元204、基调检测单元206、小节线检测单元208和和弦 进行估计单元210。和弦进行检测单元134通过使用这些结构元件的功能来检测音乐数据 的和弦进行。以下,将描述各个结构元件的功能。
(结构分析单元202) 首先,将描述结构分析单元202。如图32中所示,向结构分析单元202输入来自对 数谱分析单元106的对数谱和来自拍子分析单元164的拍子位置。结构分析单元202基于 对数谱和拍子位置来计算音频信号中所包括的拍子区间之间声音的类似概率。如图32中 所示,结构分析单元202包括拍子区间特征量计算单元222、相关性计算单元224和类似概 率生成单元226。 拍子区间特征量计算单元222关于由拍子分析单元164检测到的各个拍子来计算 拍子区间特征量,拍子区间特征量表示从该拍子到下一个拍子的拍子区间的局部对数谱的 特征。这里,参考图33,将简要描述拍子、拍子区间和拍子区间特征量之间的关系。在图33 中示出由拍子分析单元164检测到的6个拍子位置B1至B6。在该示例中,该拍子区间是 通过在拍子位置处划分音频信号所获得的区间,并且指示从一个拍子到下一个拍子之间的 区间。例如,拍子区间BD1是从拍子Bl至拍子B2的区间;拍子区间BD2是从拍子B2至拍 子B3的区间;并且拍子区间BD3是从拍子B3至拍子B4的区间。此外,拍子区间特征量计 算单元222从与各个拍子区间BD1至BD6相对应的局部 数谱中计算各个拍子区间特征量BF1至BF6。 拍子区间特征量计算单元222通过如图34和图35中所示的方法来计算拍子区间 特征量。在图34(34A)中,示出与由拍子区间特征量计算单元222截取的拍子对应的拍子区 间BD的局部对数谱。拍子区间特征量计算单元222对局部对数谱的各个音调(八度音阶 的数目X12个音符)的能量进行时间平均。通过该时间平均,计算各个音调的平均能量。 在图34(34B)中示出由拍子区间特征量计算单元222计算出的各个音调的平均能量水平。
接着,将参考图35。在图35(35A)示出与图34(34B)中所示一样的各个音调的平 均能量水平。拍子区间特征量计算单元222针对12个音符,对若干个八度音阶上不同八度 音阶中有相同名称的音符的平均能量的值求加权和,并且计算相应12个音符的能量。例 如,在图35(35B,35C)中所示的示例中,使用特定的权重(WpW^. . . ,Wn)对n个八度音阶上 的音符C(Q, C2, . . . , Cn)的平均能量进行加权并且加和到一起,并且计算出音符C的能量 值Enc。此夕卜,以相同的方式,通过使用特定的权重(W15 W2, . . . , Wn)对n个八度音阶上的音 符B(BpB^. . . ,Bn)的平均能量进行加权并且加和到一起,并且计算出音符B的能量值Erv 对于音符C和弦符B之间的10个音符(C#至A#)同样如此。结果,生成了将相应12个音 符的能量值ENC, ENCT, . . . , ENB作为元素的12维向量。拍子区间特征量计算单元222针对 每个拍子计算这样的相应12个音符的能量(12维向量)作为拍子区间特征量BF,并且将它 输出给相关性计算单元224。 用于求加权和的各个八度音阶的权重Wl, W2, . . . , Wn的值优选在普通乐曲的旋律 或和弦清楚的中音域中较大。该配置使得能够在更清楚地反映旋律或和弦的特征的情况下 对乐曲结构进行分析。 相关性计算单元224针对音频信号中所包括的所有拍子区间对,通过使用从拍子 区间特征量计算单元222输入的拍子区间特征量(各个拍子区间的相应12个音符的能量) 来计算拍子区间之间的相关系数。例如,相关性计算单元224通过如图36中所示的方法来 计算相关系数。在图36中,示出第一所关注拍子区间BDi和第二所关注拍子区间BDj作为 要计算相关系数的一对拍子区间的示例,拍子区间是通过划分对数谱获得的。
例如,为了计算这两个所关注拍子区间之间的相关系数,相关性计算单元224首 先获得第一所关注拍子区间BDi以及前后N个区间(也称为"2N+1个区间")(在图36的示 例中,N= 2,总共5个区间)的相应12个音符的能量。同样地,相关性计算单元224获得 第二所关注拍子区间BDj以及前后N个区间的相应12个音符的能量。然后,相关性计算单 元224计算所获得的第一所关注拍子区间BDi以及前后N个区间的相应12个音符的能量 与所获得的第二所关注拍子区间BDj以及前后N个区间的相应12个音符的能量之间的相 关系数。相关性计算单元224针对所有的第一所关注拍子区间BDi和第二所关注拍子区间 BDj对来计算所述相关系数,并且向类似概率生成单元226输出计算结果。
类似概率生成单元226通过使用预先生成的变换曲线,将从相关性计算单元224 输入的、拍子区间之间的相关系数变换成类似概率。类似概率指示拍子区间的声音内容之 间的类似程度。将相关系数变换成类似概率时所使用的变换曲线例如如图37中所示。
在图37(37A)中示出预先获得的两种概率分布。这两种概率分布是具有相同声音 内容的拍子区间之间的相关系数的概率分布和具有不同声音内容的拍子区间之间的相关 系数的概率分布。从图37(37A)中可见,相关系数越低,声音内容彼此相同的概率越低,并且相关系数越高,声音内容彼此相同的概率越高。因此,可以预先生成如图37(37B)中所 示、用于从相关系数中导出拍子区间之间的类似概率的变换曲线。类似概率生成单元226 通过使用以这种方式预先生成的变换曲线,将从相关性计算单元224输入的相关系数C01 例如变换成类似概率SP1。 已被变换出的类似概率例如可以如图38那样被可视化。图38的垂直轴对应于第 一所关注拍子区间中的位置,并且水平轴对应于第二所关注拍子区间中的位置。此外,二维 平面上所画出的颜色的浓淡指示该坐标处第一所关注拍子区间与第二所关注拍子区间之 间的类似程度。例如,第一所关注拍子区间il与和第一所关注拍子区间il基本相同的第 二所关注拍子区间jl之间的类似概率自然显示高值,并且示出这些拍子区间具有相同的 声音内容。当被演奏的乐曲部分到达第二所关注拍子区间j2时,第一所关注拍子区间il 与第二所关注拍子区间j2之间的类似概率再次显示高值。S卩,可以看出,在第二所关注拍 子区间j2中,很有可能正在演奏与第一所关注拍子区间il的声音内容几乎相同的声音内 容。由结构分析单元202以这种方式获得的拍子区间之间的类似概率被输入给稍后描述的 小节线检测单元208和和弦进行检测单元210。 此外,在本实施例中,由于拍子区间中的能量的时间平均被用于拍子区间特征量 的计算,所以,对于由结构分析单元202进行的乐曲结构分析,不考虑拍子区间中的对数谱 中有关时间变化的信息。即,即使在两个区间中演奏相同的旋律而该旋律(例如,由于演奏 者的编排)在时间上彼此偏移时,所演奏的内容仍被判定为相同,只要该偏移仅发生在拍 子区间内即可。(和弦概率检测单元204) 接着,将描述和弦概率检测单元204。和弦概率检测单元204计算由拍子分析单元 164检测到的各个拍子的拍子区间中各种和弦被演奏的概率(以下称为和弦概率)。如上 所述,如图39所示,由和弦概率检测单元204计算出的和弦概率用于基调检测单元206的 基调检测处理。此外,如图39所示,和弦概率检测单元204包括拍子区间特征量计算单元 232、根音特征量准备单元234和和弦概率计算单元236。 如上所述,对数谱和由拍子检测单元132检测到的拍子位置的信息被输入和弦概 率检测单元204。因此,拍子区间特征量计算单元232关于由拍子分析单元164检测到的各 个拍子来计算相应12个音符的能量,作为表示拍子区间中的音频信号的特征的拍子区间 特征量。拍子区间特征量计算单元232计算作为拍子区间特征量的相应12个音符的能量, 并且将其输出给根音特征量准备单元234。根音特征量准备单元234基于从拍子区间特征 量计算单元232输出的相应12个音符的能量来生成根音特征量,根音特征量用于针对各个 拍子区间的和弦概率计算。例如,根音特征量准备单元234通过图40和图41中所示的方 法来生成根音特征量。 首先,根音特征量准备单元234针对所关注拍子区间BDi,提取所关注拍子区间 BDi以及前后N个区间的相应12个音符的能量(参考图40)。所关注拍子区间BDi以及前 后N个区间的相应12个音符的能量可以被认为是将音符C作为和弦的根音(基音)的特征 量。在图40的示例中,由于N为2,所以将音符C作为根音的5个区间的根音特征量(12X5 维)被提取出。接着,根音特征量准备单元234通过将将音符C作为根音的5个区间的根 音特征量的12个音符的元素位置转移特定数目,生成11个单独的根音特征量,每个根音特征量针对5个区间并且每个根音特征量将音符C#至音符B的任何音符作为根音(参考图 41)。此外,元素位置被转移的转移数是在音符Cft为根音的情况下为l,在音符D为根音的 情况下为2,……,并且在音符B为根音的情况下为11。结果,由根音特征量准备单元234 针对相应12个音符生成了根音特征量(分别为,12X 5维),每个根音特征量将从音符C至 音符B的12个音符中的一个作为根音。 根音特征量准备单元234针对所有拍子区间执行如上所述的根音特征量生成处 理,并且准备用于针对各个区间的和弦概率计算的根音特征量。此外,在图40和图41的示 例中,针对一个拍子区间准备的特征量是12X5X12维向量。由根音特征量准备单元234 生成的根音特征量被输出给和弦概率计算单元236。和弦概率计算单元236通过使用从根 音特征量准备单元234输入的根音特征量,针对各个拍子区间来计算指示各种和弦被演奏 的概率(和弦概率)。这里的"各种和弦"是指例如基于根音((:,0#,0,...)、构成音符的数 目(三和弦(triad)、七和弦(7th chord)、九和弦(9th chord))、调性(大调/小调)等来 区分的和弦中的各种和弦。例如,通过逻辑回归分析预先习得的和弦概率公式可以用于和 弦概率的计算。 例如,和弦概率计算单元236通过图42中所示的方法来生成用于和弦概率计算的 和弦概率公式。和弦概率公式的学习是针对每种和弦执行的。即,例如针对用于大和弦的 和弦概率公式、用于小和弦的和弦概率公式、用于七和弦的和弦概率公式和用于九和弦的 和弦概率公式中的每一个,执行以下描述的学习处理。 首先,提供多个根音特征量(例如,用图41描述的12X5X12维向量)作为用于 逻辑回归分析的独立变量,每个根音特征量是针对正确和弦已知的拍子区间的。此外,针对 各个拍子区间的根音特征量中的每一个,提供用于通过逻辑回归分析预测生成概率的鹏元 数据。例如,当学习用于大和弦的和弦概率公式时,如果已知的和弦是大和弦,则哑元数据 的值将为真值(l),并且对于任何其它情况,哑元数据的值为假值(0)。并且,当学习用于小 和弦的和弦概率公式时,如果已知的和弦是小和弦,则哑元数据的值将为真值(l),并且对 于任何其它情况,哑元数据的值为假值(0)。可以说,对于七和弦和九和弦也是如此。
通过使用上述独立变量和鹏元数据来对足够数目的根音特征量(每个根音特征 量针对一个拍子区间)执行逻辑回归分析,生成了用于从各个拍子区间的根音特征量计算 出和弦概率的和弦概率公式。然后,和弦概率计算单元236将从根音特征量准备单元234 输入的根音特征量应用于所生成的和弦概率公式,并且针对各个拍子区间顺次计算各种和 弦的和弦概率。由和弦概率计算单元236进行的和弦概率计算处理例如是通过如图43中 所示的方法来执行的。在图43(43A)中,示出各个拍子区间的根音特征量中,用音符C作为 根音的根音特征量。 例如,和弦概率计算单元236将用于大和弦的和弦概率公式应用于用音符C作为 根音的根音特征量,并且针对各个拍子区间计算和弦为"C"的和弦概率CPe。此外,和弦概率 计算单元236将用于小和弦的和弦概率公式应用于用音符C作为根音的根音特征量,并且 针对该拍子区间计算和弦为"Cm"的和弦概率CPCni。以类似的方式,和弦概率计算单元236 将用于大和弦的和弦概率公式和用于小和弦的和弦概率公式应用于用音符C#作为根音的 根音特征量,并且可以计算和弦"Cft"的和弦概率CPefl和和弦"Cto"的和弦概率CPeflm(43B)。 可以说,对和弦"B"的和弦概率CPB和和弦"Bm"的和弦概率CPBm的计算也是如此(43C)。
如图44中所示的和弦概率是由和弦概率计算单元236通过上述方法计算出的。 参考图44,针对某一拍子区间,计算从音符C至音符B的12种音符中每一种音符的诸如 "Maj (大和弦)"、"m(小和弦)"、"7 (七和弦)"和"m7 (小七和弦)"之类的和弦的和弦概 率。根据图44的示例,和弦概率CPC是0. 88,和弦概率CPCm是0. 08,和弦概率CPCT是0. 01, 和弦概率CP^是0. 02,并且和弦概率CPe是0.01。其它类型的和弦概率值都指示O。此外, 在以上述方式计算多种类型的和弦的和弦概率之后,和弦概率计算单元236以使得每拍子 区间的所计算出的概率值的总和变成1的方式对概率值进行归一化。针对音频信号中所包 括的所有拍子区间重复如上所述由和弦概率计算单元236进行的计算和归一化处理。
和弦概率是如上所述由和弦概率检测单元204通过拍子区间特征量计算单元 232、根音特征量准备单元234和和弦概率计算单元236的处理来计算出的。然后,由和弦 概率检测单元204计算出的和弦概率被输入基调检测单元206(参考图39)。
(基调检测单元206) 接着,将描述基调检测单元206的配置。如上所述,由和弦概率检测单元204计算 出的和弦概率被输入基调检测单元206。基调检测单元206是用于通过使用由和弦概率检 测单元204针对各个拍子区间计算出的和弦概率来检测各个拍子区间的基调(调性/基本 音阶)的装置。如图39中所示,基调检测单元206包括相对和弦概率生成单元238、特征 量准备单元240、基调概率计算单元242和基调确定单元246。 首先,和弦概率由和弦概率检测单元204输入相对和弦概率生成单元238。相对和 弦概率生成单元238根据从和弦概率检测单元204输入的各个拍子区间的和弦概率,生成 用于针对各个拍子区间的基调概率计算的相对和弦概率。例如,相对和弦概率生成单元238 通过如图45中所示的方法来生成相对和弦概率。首先,相对和弦概率生成单元238从某一 所关注的拍子区间的和弦概率中提取出有关大和弦和小和弦的和弦概率。这里所提取的和 弦概率值被表示为总共24维的向量,S卩,大和弦的12个音符和小和弦的12个音符。以下, 包括这里所提取出的和弦概率值的24维向量将被视为将音符C假定为基调的相对和弦概 率。 接着,相对和弦概率生成单元238将所提取出的大和弦和小和弦的和弦概率值的 12个音符的元素位置转移特定数目。通过以这种方式进行转移,生成11个单独的相对和 弦概率。此外,元素位置被转移的转移数与如使用图41所述生成根音特征量时的转移数相 同。以这种方式,由相对和弦概率生成单元238生成12个单独的相对和弦概率,每个相对和 弦概率假定从音符C至音符B的12个音符中的一个作为基调。相对和弦概率生成单元238 针对所有拍子区间执行如上所述的相对和弦概率生成处理,并且向特征量准备单元240输 出所生成的相对和弦概率。 特征量准备单元240生成要用于各个拍子区间的基调概率计算的特征量。根据从 相对和弦概率生成单元238输入到特征量准备单元240的相对和弦概率所生成的各个拍子 区间的和弦出现得分和和弦过渡出现得分被用作特征量准备单元240所要生成的特征量。
首先,特征量准备单元240通过如图46中所示的方法生成各个拍子区间的和弦出 现得分。首先,特征量准备单元240假定音符C作为基调,针对所关注的拍子区间以及前后 M个拍子区间来提供相对和弦概率CP。然后,特征量准备单元240将所关注的拍子区间以 及前后M个拍子区间上相同位置处的元素的概率值进行加和,这些概率值被包括在假定音符C作为基调的相对和弦概率中。结果,获得了与各种和弦的出现概率一致的和弦出现得 分(CEc,CECfl,. . . ,CEBm) (24维向量),出现概率是针对所关注的拍子区间和所关注的拍子区 间周围的多个拍子区间的并且是假定音符C作为基调的。特征量准备单元240针对假定从 音符C至音符B的12个音符中的一个作为基调的每种情况,执行上述和弦出现得分计算。 根据该计算,对于一个所关注的拍子区间,获得12个单独的和弦出现得分。
接着,特征量准备单元240通过如图47中所示的方法来生成各个拍子区间的和弦 过渡出现得分。首先,特征量准备单元240首先关于拍子区间BDi与相邻拍子区间BDi+1 之间的所有和弦对(所有和弦过渡),将和弦过渡前后的相对和弦概率彼此相乘,这些相 对和弦概率假定音符C作为基调。这里,"所有的和弦对"是指24X24对,即,"C" — "C"、 "C,,一 "C#"、"C,,一 "D"、"B,,一 "B"。接着,特征量准备单元240针对整个所关注的
拍子区间和前后M个区间,对和弦过渡前后的相对和弦概率的相乘结果进行加和。结果,获 得了与各种和弦过渡的出现概率一致的24X24维和弦过渡出现得分(24X24维向量),出 现概率是针对所关注的拍子区间和所关注的拍子区间周围的多个拍子区间的并且是假定 音符C作为基调的。例如,对于所关注的拍子区间BDi,有关从"C"至"Cft"的和弦过渡的和 弦过渡出现得分CTc —Cfl(i)由以下等式(10)给出。
[等式10]CTC —c#(i) =CPc(i-M) CPc#(i-M+l)+...+CPc(i+M) CPc#(i+M+l)
.. . (10) 以这种方式,特征量准备单元240针对假定从音符C至音符B的12种音符中的一 种音符作为基调的每种情况,执行上述24X24次单独的和弦过渡出现得分CT计算。根据 该计算,对于一个所关注的拍子区间,获得12个单独的和弦过渡出现得分。此外,与倾向于 因各个小节而变化的和弦不同,例如,在许多情况下,乐曲的基调通常在较长一段时间保持 不变。因此,对要用于和弦出现得分或和弦过渡出现得分的计算的相对和弦概率的范围进 行定义的M的值例如是可以包括许多小节(例如,几十个拍子)的合适的值。特征量准备 单元240向基调概率计算单元242输入针对各个拍子区间计算出的24维和弦出现得分CE 和24X24维和弦过渡出现得分,作为用于计算基调概率的特征量。 基调概率计算单元242通过使用从特征量准备单元240输入的和弦出现得分和和 弦过渡出现得分,来针对各个拍子区间计算基调概率,基调概率指示各种基调被演奏的概 率。"各种基调"是指例如基于12个音符(C, C#, D,...)或调性(大调/小调)来区分的 基调。例如,通过逻辑回归分析预先习得的基调概率公式可以用于基调概率计算。例如,基 调概率计算单元242通过如图48中所示的方法来生成用于基调概率计算的基调概率公式。 对基调概率公式的学习是针对大调和小调独立执行的。因此,生成大调概率公式和小调概 率公式。 如图48中所示,提供正确基调已知的各个拍子区间的多个和弦出现得分和和弦 过渡出现得分,作为逻辑回归分析中的独立变量。接着,针对所提供的和弦出现得分和和弦 过渡出现得分对中的每一对,提供用于通过逻辑回归分析预测生成概率的鹏元数据。例如, 当学习大调概率公式时,如果已知的基调是大调,则鹏元数据将为真值(1),并且当是任何 其它情况时,鹏元数据为假值(0)。并且,当学习小调概率公式时,如果已知的基调是小调, 则哑元数据将为真值(l),并且当是任何其它情况时,哑元数据为假值(0)
32
通过使用足够数目的独立变量和哑元数据对来执行逻辑回归分析,生成用于从和 弦出现得分和和弦过渡出现得分对中计算出大调或小调的概率的基调概率公式。基调概率 计算单元242将从特征量准备单元240输入的一对和弦出现得分和和弦过渡出现得分应用 于基调概率公式中的每一个,并且针对各个拍子区间顺次计算各种基调的基调概率。例如, 基调概率是通过如图49中所示的方法来计算的。 例如,在图49(49A)中,基调概率计算单元242将假定音符C为基调的一对和弦出 现得分和和弦过渡出现得分应用于预先通过学习获得的大调概率公式,并且针对各个拍子 区间计算基调为"C"的基调概率KPe。同样,基调概率计算单元242将假定音符C为基调的 这一对和弦出现得分和和弦过渡出现得分应用于小调概率公式,并且针对相应拍子区间计 算基调为"Cm"的基调概率KPem。类似地,基调概率计算单元242将假定音符C#为基调的 一对和弦出现得分和和弦过渡出现得分应用于大调概率公式和小调概率公式,并且计算基 调概率KPCfl和KPCflm(49B)。可以说,对基调概率KPB和KPBm的计算同样如此(49C)。
通过这样的计算,例如计算出如图50中所示的基调概率。参考图50,对于从音符 C至音符B的12个音符,针对某一拍子区间计算两种基调概率, 一种针对"Maj (大调)"并 且一种针对"m(小调)"。根据图51的示例,基调概率KPe是0.90,并且基调概率KPcm是 0. 03。此外,除上述基调概率以外的基调概率值都指示O。在计算了所有类型的基调的基调 概率之后,基调概率计算单元242以使得每拍子区间的所计算出的概率值的总和为1的方 式对概率值进行归一化。针对音频信号中所包括的所有拍子区间重复如上所述由基调概率 计算单元242进行的计算和归一化处理。以这种方式针对各个基调所计算出的基调概率被 输入基调确定单元246。 这里,基调概率计算单元242根据针对从音符C至音符B的12种音符中的每一种 音符并且针对两种基调(即,大调和小调)所计算出的基调概率值来计算出不区分大调和 小调的基调概率(简单基调概率)。例如,基调概率计算单元242通过如图51中所示的方 法来计算简单基调概率。如图51(51A)中所示,例如,由基调概率计算单元242针对某一拍 子区间计算出来的基调概率KPC、 KPCm、 KPA和KP紐分别是0. 90、0. 03、0. 02和0. 05。其它基 调概率值全都指示O。基调概率计算单元242,通过针对从音符C至音符B的12种音符中的
每一种、对为平行调关系的基调的基调概率值进行加和,来计算不区分大调和小调的简单 基调概率。例如,简单基调概率SKPC是基调概率KPC和KPAm的总和,即,SKPC = 0. 90+0. 05 =0. 95.。这是因为C大调(基调"C")和A小调(基调"Am")为平行调关系。类似地针 对音符Cft至音符B执行简单基调概率计算。由基调概率计算单元242计算出的12个单独 的简单基调概率SKPe至SKPB被输入和弦进行估计单元210。 现在,基调确定单元246基于由基调概率计算单元242针对各个拍子区间计算出 的各个基调的基调概率,通过路径搜索来确定有可能的基调进行。上述Viterbi算法例如 被用作由基调确定单元246进行的路径搜索的方法。Viterbi路径的路径搜索例如是通过 如图52中所示的方法来执行的。此时,拍子被顺次布置为时间轴(水平轴)并且基调类型 被布置为观测序列(垂直轴)。因此,基调确定单元246将所有基调类型与拍子对中的每一 对作为路径搜索的对象节点,对于这些拍子,已经由基调概率计算单元242计算出了基调 概率。 关于所述节点,基调确定单元246沿时间轴顺次选择这些节点中的任何一个,并
33且通过使用两个评估值,(1)基调概率和(2)基调过渡概率,来评估由一连串所选择的节点 形成的路径。此外,在由基调确定单元246进行对节点的选择时,不允许跳过拍子。这里, 要用于评估的(1)基调概率是由基调概率计算单元242计算出的基调概率。对图52中所 示的各个节点给出基调概率。另一方面,(2)基调过渡概率是对基点间的过渡给出的评估 值。基调过渡概率是基于正确基调已知的乐曲中转调的发生概率,针对各种转调样式预先 定义的。 与针对过渡的转调量相应的12个单独的值被定义为以下4种样式的基调过渡中 每种样式的基调过渡概率从大调至大调、从大调至小调、从小调至大调和从小调至小调。 图53示出与针对从大调至大调的基调过渡的转调量相应的12个单独的概率值的示例。在 图53的示例中,当与转调量Ak有关的基调过渡概率是Pr(Ak)时,Pr(O)为O. 9987。这指 示乐曲中基调变化的概率很低。另一方面,基调过渡概率Pr(l)为0.0002。这指示基调被 升高一个音调(或被降低ll个音调)的概率是0.02%。类似地,在图53的示例中,Pr(2)、 Pr(3) 、Pr(4) 、Pr(5) 、Pr(7) 、Pr(8) 、Pr(9)禾PPr(lO)分别是0.0001。并且,Pr(6)和Pr(ll) 分别是0.0000。与转调量相应的12个单独的概率值还针对以下过渡样式中的每种过渡样 式而分别定义从大调至小调,从小调至大调以及从小调至小调。 基调确定单元246关于表示基调进行的各个路径,将路径中所包括的各个节点的 (1)基调概率和对节点间的过渡所给出的(2)基调过渡概率彼此顺次相乘。然后,基调确定 单元246确定使得作为路径评估值的相乘结果最大的路径,作为表示有可能的基调进行的 最优路径。例如,如图54中所示的基调进行是由基调确定单元246确定的。在图54中,在 从乐曲的开始到结束的时间尺度下,示出由基调确定单元246确定的乐曲的基调进行的示 例。在该示例中,从乐曲的开始3分钟,乐曲的基调是"Cm"。之后,乐曲的基调变为"Cto" 并且基调保持不变直到乐曲结束。以这种方式通过相对和弦概率生成单元238、特征量准备 单元240、基调概率计算单元242和基调确定单元246的处理所确定的基调进行被输入小节 线检测单元208(参见图2)。
(小节线检测单元208) 接着,将描述小节线检测单元208。由结构分析单元202计算出的类似概率、由拍 子检测单元132计算出的拍子概率、由基调检测单元206计算出的基调进行和由和弦概率 检测单元204检测出的和弦概率被输入小节线检测单元208。小节线检测单元208基于拍 子概率、拍子区间之间的类似概率、各个拍子区间的和弦概率、基调进行以及各个拍子区间 的基调概率,确定小节线进行,小节线进行指示一连串的拍子中各个拍子对应于哪个节拍 中的哪个拍数。如图55中所示,小节线检测单元208包括第一特征量提取单元252、第二 特征量提取单元254、小节线概率计算单元256、小节线概率校正单元258、小节线确定单元 260和小节线重新确定单元262。 第一特征量提取单元252针对各个拍子区间,根据该拍子区间以及前后L个区间 的和弦概率和基调概率来提取第一特征量,作为用于稍后描述的小节线概率计算的特征 量。例如,第一特征量提取单元252通过如图56中所示的方法来提取第一特征量。如图56 中所示,第一特征量包括(1)无和弦变化得分和(2)相对和弦得分,它们是从所关注的拍子 区间BDi以及前后L个拍子区间的和弦概率和基调概率中导出的。其中,无和弦变化得分 是所具有的维数与包括所关注的拍子区间BDi以及前后L个拍子区间在内的区间的数目相等的特征量。另一方面,相对和弦得分是对于所关注的拍子区间以及前后L个拍子区间中 每个区间具有24维的特征量。例如,当L是8时,无和弦变化得分是17维的而相对和弦得 分是408维(17X24维)的,并且因此,第一特征量总共有425维。以下,将描述无和弦变
化得分和相对和弦得分。
(1)无和弦变化得分 首先,将描述无和弦变化得分。无和弦变化得分是表示乐曲的和弦在特定区间范 围上不改变的程度的特征量。无和弦变化得分是通过将接下来所要描述的和弦稳定性得分 除以和弦不稳定性得分获得的(参考图57)。在图57的示例中,拍子区间BR的和弦稳定 性得分包括元素CC(i-L)至CC(i+L), CC(i-L)至CC(i+L)中的每一个是针对拍子区间BDi 以及前后L个拍子区间中的相应区间来确定的。这些元素中的每一个被计算出,作为目标 拍子区间与紧接在前的拍子区间之间具有相同名称的和弦的和弦概率的乘积的总和值。
例如,通过对拍子区间BD卜h与拍子区间之间具有相同名称的和弦的和弦概 率的乘积进行加和,计算出和弦稳定性得分CC(i-L)。以类似的方式,通过对拍子区间BDi+h 与拍子区间BDi+J勺和弦概率中具有相同名称的和弦的和弦概率的乘积进行加和,计算出和 弦稳定性得分CC(i+L)。第一特征量提取单元252针对整个所关注的拍子区间BDi以及前 后L个拍子区间执行上述计算,并且计算2L+1个单独的和弦稳定性得分。
另一方面,如图58中所示,拍子区间BDi的和弦不稳定性得分包括元素CU(i-L)至 CU(i+L),这些元素中的每一个是针对拍子区间BDi以及前后L个拍子区间中的相应区间来 确定的。这些元素中的每一个被计算出,作为目标拍子区间与紧接在前的拍子区间之间所 有具有不同名称的和弦对的和弦概率的乘积的总和值。例如,通过对拍子区间BD卜h与拍 子区间BDi—J勺和弦概率中具有不同名称的和弦的和弦概率的乘积进行加和,计算出和弦不 稳定性得分CU(i-L)。以类似的方式,通过对拍子区间BDi+w与拍子区间BD^的和弦概率 中具有不同名称的和弦的和弦概率的乘积进行加和,计算出和弦不稳定性得分CU (i+L)。第 一特征量提取单元252针对整个所关注的拍子区间BDi以及前后L个拍子区间执行上述计 算,并且计算2L+1个单独的和弦不稳定性得分。 在计算了拍子稳定性得分和拍子不稳定性得分之后,第一特征量提取单元252针 对所关注的拍子区间BDi,对于每组2L+1个元素,通过将和弦稳定性得分除以和弦不稳定性 得分来计算无和弦变化得分。例如,假定对于所关注的拍子区间BDi,和弦稳定性得分CC是 (CCh, . . . , CCi+J并且和弦不稳定性得分CU是(CUh, . . . , CU^)。在此情况下,无和弦变 化得分CR是(CCiVCUw,... ,cci+ycuw)。所关注拍子区间周围给定范围内的和弦变化越 少,则以这种方式计算出的无和弦变化得分指示越高的值。第一特征量提取单元252以这 种方式计算音频信号中所包括的所有拍子区间的无和弦变化得分。 [(X302] (2)相对和弦得分 接着,将描述相对和弦得分。相对和弦得分是表示给定范围内的区间上和弦的出 现概率及其样式的特征量。相对和弦得分是通过根据从基调检测单元206输入的基调进行 来转移和弦概率的元素位置而生成的。例如,相对和弦得分是通过如图59所示的方法生成 的。在图59(59A)中示出由基调检测单元206确定的基调进行的示例。在该示例中,乐曲 的基调在从乐曲的开始起3分钟后从"B"变为"Cto"。此外,还示出所关注的拍子区间叫 的位置,拍子区间BDi在前后L个区间内包括基调改变的时间点。
35
此时,第一特征量提取单元252针对基调为"B"的拍子区间生成相对和弦概率, 其中拍子区间的包括大调和小调的24维和弦概率的元素的位置被转移使得和弦概率CPB 在开始处出现。同样,第一特征量提取单元252针对基调为"C#m"的拍子区间生成相对和 弦概率,其中拍子区间的包括大调和小调的24维和弦概率的元素的位置被转移使得和弦 概率CPCTm在开始处出现。第一特征量提取单元252针对所关注的拍子区间以及前后L个 区间中的每个区间来生成这样的相对和弦概率,并且输出所生成的相对和弦概率的集合 ((2L+1) X24维特征量向量)作为相对和弦得分。 从如上所述的(1)无和弦变化得分和(2)相对和弦得分形成的第一特征量从第 一特征量提取单元252输出到小节线概率计算单元256 (参考图55)。现在,除了第一特征 量以外,第二特征量也被输入小节线概率计算单元256。因此,将描述第二特征量提取单元 254的配置。 第二特征量提取单元254针对各个拍子区间,根据拍子区间以及前后L个区间上 拍子概率中的变化特征来提取第二特征量,作为用于稍后描述的小节线概率计算的特征 量。例如,第二特征量提取单元254通过如图60中所示的方法来提取第二特征量。在图60 中,沿时间轴示出从拍子概率计算单元162输入的拍子概率。此外,在图中还示出通过分析 拍子概率所检测到的6个拍子以及所关注拍子区间BDit)第二特征量提取单元254关于拍 子概率来计算各个小区间SDj的拍子概率的平均值,小区间SDj具有特定持续时间并且被包 括在整个所关注的拍子区间BDi以及前后L个区间上的拍子区间中。 例如,如图60中所示,为了主要检测音符值(N/M节拍的M)为4的节拍,优选用在 拍子间隔的l/4和3/4的位置处划分拍子间隔的线来将小区间相互划分开。在这种情况中, 将针对一个所关注的拍子区间BDi计算LX4+1个拍子概率平均值。因此,由第二特征量提 取单元254提取出的第二特征量对于每个所关注的拍子区间将具有LX4+1维。并且,小区 间的持续时间是拍子间隔的1/2。此外,为了恰当地检测乐曲中的小节线,希望分析至少若 干个小节上的音频信号的特征。因此,优选定义用于提取第二特征量的拍子概率的范围的L 的值例如是8个拍子。当L为8时,由第二特征量提取单元254提取的第二特征量对于各 个所关注的拍子区间是33维的。 以这种方式提取出的第二特征量从第二特征量提取单元254输入小节线概率计 算单元256。 如上所述,第一特征量和第二特征量被输入小节线概率计算单元256。因此,小节 线概率计算单元256通过使用第一特征量和第二特征量来计算各个拍子的小节线概率。这 里的小节线概率是指各个拍子是X节拍中的第Y个拍子的概率的集合。在随后的说明中,各 种节拍中的各个拍数成为辨别的对象,各种节拍例如是1/4节拍、2/4节拍、3/4节拍和4/4 节拍中的任何一种。在这种情况中,存在X与Y的10种单独集合,即,(1, 1) 、 (2, 1) 、 (2, 2)、 (3, 1) 、 (3, 2) 、 (3, 3) 、 (4, 1) 、 (4, 2) 、 (4, 3)和(4, 4)。因此,计算10种类型的小节线概率。
此外,由稍后所述的小节线概率校正单元258考虑乐曲的结构来校正由小节线概 率计算单元256计算出的概率值。因此,由小节线概率计算单元256计算出的概率是有待 校正的中间数据。通过逻辑回归分析预先习得的小节线概率公式例如可以用于由小节线概 率计算单元256进行的小节线概率计算。例如,用于小节线概率计算的小节线概率公式是 通过如图61中所示的方法生成的。此外,小节线概率公式是针对上述各种小节线概率生成的。例如,当假定要辨别各个拍子在1/4节拍、2/4节拍、3/4节拍和4/4节拍中的拍数时,要生成10个单独的小节线概率公式。 首先,提供多个第一特征量和第二特征量对作为用于逻辑回归分析的独立变量,这些第一特征量和第二特征量是通过对音频信号进行分析提取出来的,并且它们的正确节拍(X)和拍子的正确拍数(Y)是已知的。接着,提供用于通过逻辑回归分析来预测所提供的第一特征量与第二特征量对中每一对的生成概率的鹏元数据。例如,当学习用于辨别1/4节拍中的第一个拍子的公式以计算拍子为1/4节拍中的第一个拍子的概率时,如果已知的节拍和拍数是(l,l),则哑元数据的值将为真值(l),并且对于任何其它情况,哑元数据的值将为假值(0)。同样,当学习用于辨别2/4节拍中的第一个拍子以计算拍子是2/4节拍中的第一个拍子的概率时,例如,如果已知的节拍和拍数是(2,1),则鹏元数据的值将为真值(l),并且对于任何其它情况,哑元数据的值将为假值(0)。可以说,对于其它节拍和拍数同样如此。 通过如上所述使用足够数目的独立变量和哑元数据对来执行逻辑回归分析,预先获得10种类型的小节线概率公式,这些小节线概率公式用于从一对第一特征量和第二特征量中计算小节线概率。然后,小节线概率计算单元256将从第一特征量提取单元252和第二特征量提取单元254输入的一对第一特征量和第二特征量应用于小节线概率公式,并且针对各个拍子区间计算小节线概率。例如,小节线概率是通过如图62中所示的方法计算出的。如图62中所示,小节线概率计算单元256将预先获得的用于辨别1/4节拍中的第一个拍子的公式应用于针对所关注的节拍区间提取的一对第一特征量和第二特征量,并且计算拍子是1/4节拍中的第一个拍子的小节线概率P^' (l,l)。同样,小节线概率计算单元256将预先获得的用于辨别2/4节拍中的第一个拍子的公式应用于针对所关注的节拍区间提取的一对第一特征量和第二特征量,并且计算拍子是2/4节拍中的第一个拍子的小节线概率Pbar'(2,1)。可以说,对于其它节拍和拍数同样如此。 小节线概率计算单元256针对所有拍子重复小节线概率计算,并且计算各个拍子的小节线概率。由小节线概率计算单元256针对各个拍子计算出的小节线概率被输入给接下来所描述的小节线概率校正单元258(参考图55)。 小节线概率校正单元258基于从结构分析单元202输入的拍子区间之间的类似概率,校正从小节线概率计算单元256输入的小节线概率。例如,假定第i个所关注的拍子是X节拍中的第Y个拍子的小节线概率(该小节线概率还有待校正)是& ' (i,x,y),并且第i个拍子区间与第j个拍子区间之间的类似概率是SP(i, j)。在这种情况中,校正后的小节线概率P^(i,x,y)例如由以下等式(11)给出。
[等式ll]
<formula>formula see original document page 37</formula>
…(11) 如上所述,校正后的小节线概率P^(i, X, y)是通过使用归一化后的类似概率作为权重来对校正前的小节线概率求加权和而获得的值,其中,类似概率是与所关注的拍子相对应的拍子区间与其它拍子区间之间的类似概率。通过这样的概率值校正,与校正前的小节线概率相比较,相似声音内容的拍子的小节线概率将具有更接近的值。由小节线概
率校正单元258校正后的各个拍子的小节线概率被输入接下来所描述的小节线确定单元260(参考图55)。 小节线确定单元260基于从小节线概率校正单元258输入的小节线概率,通过路径搜索来确定有可能的小节线进行,小节线概率指示各个拍子是X节拍中的第Y个拍子的概率。Viterbi算法例如用作由小节线确定单元260进行的路径搜索的方法。路径搜索例如是由小节线确定单元260通过如图63中所示的方法来执行的。如图63中所示,拍子被顺次布置在时间轴(水平轴)上。此外,小节线概率已被计算出的拍子的类型(X节拍中的第Y个拍子)用于观测序列(垂直轴)。小节线确定单元260将所有拍子类型与从小节线概率校正单元258输入的拍子对中的每一对作为路径搜索的对象节点。
关于所述对象节点,小节线确定单元260沿时间轴顺次选择这些节点中的任何节点。然后,小节线确定单元260使用两个评估值,(1)小节线概率和(2)节拍变化概率,来评估由一连串所选择的节点形成的路径。此外,在由小节线确定单元260进行节点的选择时,例如优选施加下述约束。作为第一约束,禁止跳过拍子。作为第二约束,禁止在小节的中间从一种节拍过渡至另一节拍(例如,从四节拍中的第一个至第三个拍子中的任何拍子或三节拍中的第一个或第二个拍子的过渡),或从一个节拍过渡至另一节拍的小节的中间。作为第三约束,禁止拍数不按次序的过渡,例如,从第一个拍子至第三个或第四个拍子,或从第二个拍子至第二个拍子或第四个拍子。 现在,在用于小节线确定单元260的路径评估的评估值中,(1)小节线概率是通过由小节线概率校正单元258校正小节线概率而计算出的上述小节线概率。对图63中示出的各个节点给出小节线概率。另一方面,(2)节拍变化概率是对节点之间的过渡所给出的评估值。节拍变化概率是通过从许多普通乐曲中收集在小节线进行期间节拍变化的发生概率、针对变化前的拍子类型和变化后的拍子类型的每种组合而预先定义的。
例如,在图64中示出了节拍变化概率的示例。在图64中,示出基于变化前的4种节拍和变化后的4种节拍导出的16个单独的节拍变化概率。在该示例中,针对从四节拍变为单节拍的节拍变化概率是O. 05,从四节拍变为二节拍的节拍变化概率是0. 03,从四节拍变为三节拍的节拍变化概率是O. 02,而从四节拍变为四节拍(g卩,没有变化)的节拍变化概率是O. 90。这指明节拍在乐曲中间改变的概率一般不高。此外,关于单节拍或二节拍,在所检测到的小节线位置由于小节线的检测错误而从其正确的位置偏移时,节拍变化概率可以用来自动恢复小节线的位置。因此,优选将单节拍或二节拍与另一节拍之间的节拍变化概率值设置为比三节拍或四节拍与另一节拍之间的节拍变化概率高。 小节线确定单元260关于表示小节线进行的各个路径,顺次将路径中所包括的各个节点的(1)小节线概率和对节点间的过渡所给出的(2)节拍变化概率彼此相乘。然后,小节线确定单元260确定使得作为路径评估值的相乘结果最大的路径,作为表示有可能的小节线进行的最大似然路径。例如,如图65中所示的小节线进行是基于由小节线确定单元260确定的最大似然路径获得的。在图65的示例中,针对第一至第八个拍子示出被小节线确定单元260确定为最大似然路径的小节线进行(参见粗线框)。在该示例中,从第一个拍子开始各个拍子的类型顺次是四节拍中的第一个拍子、四节拍中的第二个拍子、四节拍中的第三个拍子、四节拍中的第四个拍子、四节拍中的第一个拍子、四节拍中的第二个拍子、四节拍中的第三个拍子、四节拍中的第四个拍子。由小节线确定单元260确定的小节线进行被输入小节线重新确定单元262。 现在,在普通乐曲中,拍子类型的三节拍和四节拍很少以混合的方式存在。考虑这种情况,小节线重新确定单元262首先判定对于出现在从小节线确定单元260输入的小节线进行中的拍子类型,三节拍和四节拍是否以混合的方式存在。在拍子类型的三节拍和四节拍以混合的方式存在的情况中,小节线重新确定单元262从搜索对象中排除不那么经常出现的节拍,并且再次搜索表示小节线进行的最大似然路径。根据所述由小节线重新确定单元262进行的路径重新搜索处理,可以减少可能在路径搜索的结果中局部出现的小节线(拍子类型)识别错误。 以上,已经描述了小节线检测单元208。由小节线检测单元208检测到的小节线进行被输入和弦进行估计单元210 (参考图2)。
(和弦进行估计单元210) 接下来,将描述和弦进行估计单元210。各个拍子的简单基调概率、拍子区间之间的类似概率和小节线进行被输入和弦进行估计单元210。因此,和弦进行估计单元210基于这些输入值来针对各个拍子区间确定由一连串和弦形成的有可能的和弦进行。如图66中所示,和弦进行估计单元210包括拍子区间特征量计算单元272、根音特征量准备单元274、和弦概率计算单元276、和弦概率校正单元278和和弦进行确定单元280。
和和弦概率检测单元204的拍子区间特征量计算单元232 —样,拍子区间特征量计算单元272首先计算相应12个音符的能量。然而,拍子区间特征量计算单元272可以获得并且使用由和弦概率检测单元204的拍子区间特征量计算单元232计算出的相应12个音符的能量。接着,拍子区间特征量计算单元272生成扩展拍子区间特征量,扩展拍子区间特征量包括所关注的拍子区间以及前后N个区间的相应12个音符的能量以及从基调检测单元206输入的简单基调概率。例如,拍子区间特征量计算单元272通过如图67中所示的方法来生成扩展拍子区间特征量。 如图67中所示,由拍子区间特征量计算单元272提取出了所关注拍子区间BDi以及前后N个区间各自的相应12个音符的能量BF卜2、BFi—^BFi、BF^和BFi+2。这里的N例如是2。此外,获得所关注的拍子区间BDi的简单基调概率(SKPc, . . . , SKPB)。拍子区间特征量计算单元272针对所有的拍子区间,生成扩展拍子区间特征量,并且将其输入根音特征量准备单元274,扩展拍子区间特征量包括简单基调概率和拍子区间以及前后N个区间的相应12个音符的能量(参考图66)。 根音特征量准备单元274转移从拍子区间特征量计算单元272输入的扩展拍子区间特征量的元素位置,并且生成12个单独的扩展根音特征量。根音特征量准备单元274例如通过如图68中所示的方法来生成扩展根音特征量。如图68中所示,根音特征量准备单元274将从拍子区间特征量计算单元272输入的扩展拍子区间特征量作为用音符C作为根音的扩展根音特征量。接着,根音特征量准备单元274将用音符C作为根音的扩展根音特征量的12个音符的元素位置转移特定数目。通过该转移处理,生成ll个单独的扩展拍子区间特征量,每个扩展拍子区间特征量将音符C#至音符B中的任何一种音符作为根音。此外,元素位置被转移的转移数与和弦概率检测单元204的根音特征量准备单元234所使用的转移数相同。 根音特征量准备单元274针对所有拍子区间执行所述扩展根音特征量生成处理,并且准备要用于各个区间的和弦概率重新计算的扩展根音特征量。由根音特征量准备单元274生成的扩展根音特征量被输入和弦概率计算单元276 (参考图66)。
和弦概率计算单元276针对各个拍子区间,通过使用从根音特征量准备单元274输入的根音特征量来计算指示各种和弦被演奏的概率的和弦概率。这里的"各个和弦"例如是指通过根音(C, C#, D,...)、构成音符的数目(三和弦、七和弦、九和弦)、调性(大调/小调)等来区分的和弦中的每一种和弦。通过根据逻辑回归分析的学习处理获得的扩展和弦概率公式例如可以用于和弦概率计算。例如,由和弦概率计算单元276进行的和弦概率重新计算所要使用的扩展和弦概率公式是通过如图69中所示的方法生成的。此外,和针对和弦概率公式的情况一样,对扩展和弦概率公式的学习是针对每种和弦来进行的。艮卩,例如,学习处理是针对以下每种公式来执行的用于大和弦的扩展和弦概率公式、用于小和弦的扩展和弦概率公式、用于七和弦的扩展和弦概率公式和用于九和弦的扩展和弦概率公式。 首先,分别针对正确和弦已知的拍子区间提供多个扩展根音特征量(例如,使用图68描述的12个单独的12X6维向量),作为用于逻辑回归分析的独立变量。此外,针对各个拍子区间的扩展根音特征量中的每个,提供用于通过逻辑回归分析来预测生成概率的哑元数据。例如,当学习用于大和弦的扩展和弦概率公式时,如果已知的和弦是大和弦,则哑元数据的值将是真值(l),并且对于任何其它情况,哑元数据的值将是假值(0)。同样,当学习用于小和弦的扩展和弦概率公式时,如果已知的和弦是小和弦,则哑元数据的值将是真值(l),并且对于任何其它情况,哑元数据的值将是假值(0)。可以说对于七和弦和九和弦同样如此。 通过使用上述独立变量和鹏元数据来对足够数目的扩展根音特征量(每个扩展根音特征量是针对一个拍子区间的)执行逻辑回归分析,获得用于从根音特征量中计算出各个和弦概率的扩展和弦概率公式。当生成扩展和弦概率公式时,和弦概率计算单元276将扩展和弦概率公式应用于从根音特征量准备单元274输入的扩展根音特征量,并且顺次计算各个拍子区间的和弦概率。例如,和弦概率计算单元276通过如图70中所示的方法来重新计算和弦概率。 在图70(70A)中,示出各个拍子区间的扩展根音特征量中,用音符C作为根音的扩展根音特征量。和弦概率计算单元276例如将用于大和弦的扩展和弦概率公式应用于用音符C作为根音的扩展根音特征量,并且针对该拍子区间计算和弦为"C"的和弦概率CP' c。此外,和弦概率计算单元276将用于小和弦的扩展和弦概率公式应用于用音符C作为根音的扩展根音特征量,并且针对该拍子区间重新计算和弦为"Cm"的和弦概率CP' em。以类似的方式,和弦概率计算单元276将用于大和弦的扩展和弦概率公式和用于小和弦的扩展和弦概率公式应用于用音符Cft作为根音的扩展根音特征量,并且重新计算和弦概率CP' ^和和弦概率CP' Cflm(70B)。可以说,对和弦概率CP' e、和弦概率CP' Bm(C)以及其它类型的和弦(包括七和弦、九和弦等)的和弦概率的计算也是如此。 和弦概率计算单元276针对所有所关注的拍子区间重复如上所述的和弦概率重新计算处理,并且向和弦概率校正单元278输出所重新计算出的和弦概率(参考图66)。
和弦概率校正单元278基于从结构分析单元202输入的拍子区间之间的类似概率,校正由和弦概率计算单元276计算出的和弦概率。例如,假定第i个所关注的拍子区间中和弦X的和弦概率是CP' x(i),并且第i个拍子区间和第j个拍子区间之间的类似概率是SP(i,j)。然后,校正后的和弦概率CP〃 x(i)例如由以下等式(12)给出。
[等式12]
SP(i,j)
2>p(u)
k 乂 .(12) S卩,校正后的和弦概率CP〃 x(i)是通过利用归一化后的类似概率来对和弦概率求加权和而获得的值,与所关注的拍子相对应的拍子区间与另一拍子区间之间的类似概率中的每一个类似概率被用作权重。通过这样的概率值校正,具有相似声音内容的拍子区间的和弦概率相比于校正前将具有更接近的值。由和弦概率校正单元278校正后的各个拍子区间的和弦概率被输入和弦进行确定单元280 (参考图66)。 和弦进行确定单元280基于从和弦概率校正单元278输入的各个拍子位置的和弦概率,通过路径搜索来确定有可能的和弦进行。Viterbi算法例如可以用作由和弦进行确定单元280进行的路径搜索的方法。路径搜索例如是通过如图71中所示的方法来执行的。如图71中所示,拍子被顺次布置在时间轴(水平轴)上。此外,和弦概率已被计算出的和弦类型被用作观测序列(垂直轴)。即,和弦进行确定单元280将所有和弦类型与从和弦概率校正单元278输入的拍子区间对中的每一对作为路径搜索的对象节点。
关于上述节点,和弦进行确定单元280沿时间轴顺次选择这些节点中的任何节点。然后,和弦进行确定单元280使用以下四种评估值来对由一连串所选择的节点形成的路径进行评估(l)和弦概率,(2)依赖于基调的和弦出现概率,(3)依赖于小节线的和弦过渡概率和(4)依赖于基调的和弦过渡概率。此外,在由和弦进行确定单元280进行对节点的选择时,不允许跳过拍子。 在用于由和弦进行确定单元280进行的路径评估的评估值中,(1)和弦概率是由和弦概率校正单元278校正后的上述和弦概率。对图71中所示的各个节点给出和弦概率。此外,(2)依赖于基调的和弦出现概率是依赖于根据从基调检测单元206输入的基调进行而针对各个拍子区间指定的基调的、各种和弦的出现概率。依赖于基调的和弦出现概率是通过针对乐曲中使用的每种类型的基调,对许多乐曲的和弦出现概率进行合计来预先定义
41的。例如,在基调为"C"的乐曲中,和弦"C"、"F"和"G"中的每种和弦的出现概率高。对图71中所示的各种和弦给出依赖于基调的和弦出现概率。 此外,(3)依赖于小节线的和弦过渡概率是依赖于根据从小节线检测单元208输入的小节线进行而针对各个拍子指定的拍子类型的和弦过渡概率。依赖于小节线的和弦过渡概率是通过针对乐曲的小节线进行中相邻拍子的各种类型对,对许多乐曲的和弦过渡概率进行合计来预先定义的。 一般,和弦在小节线变化(过渡后的拍子是第一个拍子)时或在从四节拍中的第二个拍子过渡至第三个拍子时变化的概率比和弦在其它过渡时变化的概率高。对节点之间的过渡给出依赖于小节线的和弦过渡概率。此外,(4)依赖于基调的和弦过渡概率是依赖于根据从基调检测单元206输入的基调进行而针对各个拍子区间指定的基调的和弦过渡概率。依赖于基调的和弦过渡概率是通过针对乐曲中使用的各种类型的基调,对许多乐曲的和弦过渡概率进行合计来预先定义的。对节点间的过渡给出依赖于基调的和弦过渡概率。 和弦进行确定单元280关于表示使用图71描述的和弦进行的各个路径,将路径中
所包括的各个节点的上述(1)至(4)的评估值彼此顺次相乘。然后,和弦进行确定单元280
确定使得作为路径评估值的相乘结果最大的路径,作为表示有可能的和弦进行的最大似然
路径。例如,和弦进行确定单元280可以通过确定最大似然路径来获得如图72中所示的和
弦进行。在图72的示例中,示出和弦进行确定单元280针对第一至第六个拍子区间和第i
个拍子区间确定为最大似然路径的和弦进行(参见粗线框)。根据该示例,从第一个拍子区
间开始,拍子区间的和弦顺次是"C"、"C"、"F"、"F"、"Fm"、"Fm"……"C"。 以上,描述了和弦进行检测单元134的配置。如上所述,通过结构分析单元202至
和弦进行估计单元210的处理从音乐数据检测出了和弦进行。以这种方式提取出的和弦进
行被输入捕获范围确定单元IIO(参考图2)。 (2-4-3.乐器声音分析单元136的配置示例) 接着,将描述乐器声音分析单元136的配置。乐器声音分析单元136是用于计算指示在某一定时哪种乐器被演奏的乐器声音存在概率的装置。此外,乐器声音分析单元136针对由声源分离单元104分离出的声源的每种组合计算乐器声音存在概率。为了估计乐器声音存在概率,乐器声音分析单元136首先通过使用特征量计算公式生成设备IO(或另一学习算法)来生成用于计算各种乐器声音的存在概率的计算公式。然后,乐器声音分析单元136通过使用针对各种乐器声音所生成的计算公式来计算各种乐器声音的存在概率。
为了生成用于计算乐器声音存在概率的计算公式,乐器声音分析单元136预先准备按时间系列标记的对数谱。例如,如图73所示,乐器声音分析单元136从以特定时间(例如,约l秒)为单位的已标记对数谱中捕获局部对数谱,并且通过使用所捕获的局部对数谱来生成用于计算存在概率的计算公式。在图73中作为示例而示出歌声的存在与否预先已知的音乐数据的对数谱。当所述对数谱被提供时,乐器声音分析单元136以特定时间为单位确定捕获区间,查看各个捕获区间中歌声的存在与否,并且向有歌声的区间指派标记1而向没有歌声的区间指派标记0。此外,可以说对其它类型的乐器声音同样如此。
以这种方式捕获的局部对数谱被输入特征量计算公式生成设备IO,作为评估数据。此外,被指派给各个局部对数谱的各种乐器声音的标记被输入特征量计算公式生成设备IO,作为教师数据。通过提供所述评估数据和教师数据,可以获得这样的计算公式,当任意所处理乐曲的局部对数谱被输入时,该公式输出各种乐器声音是否被包括在与输入局部 对数谱对应的捕获区间中。因此,乐器声音分析单元136在一点点移动时间轴的同时向与 各种类型的乐器声音对应的计算公式输入局部对数谱,并且根据特征量计算公式生成设备 IO进行学习处理时所计算出的概率分布来将输出值变换成概率值。然后,通过记录按时 间系列计算出的概率值,乐器声音分析单元136获得各种乐器声音的存在概率的时间系列 分布。例如,如图74中所示的各种乐器声音的存在概率是通过乐器声音分析单元136的 处理来计算的。以这种方式计算出的各种乐器声音的存在概率被输入捕获范围确定单元 110(参考图2)。 (2-5.捕获范围确定单元110的配置示例) 接着,将描述捕获范围确定单元110的配置。如上所述,音乐数据的拍子、和弦进 行和各种乐器声音存在概率从音乐分析单元108输入捕获范围确定单元110。因此,捕获范 围确定单元110基于音乐数据的拍子、和弦进行和各种乐器声音存在概率,通过如图75中 所示的方法来确定要被捕获作为波形素材的范围。图75是示出捕获范围确定单元110的 捕获范围确定方法的说明性示图。 如图75中所示,首先,捕获范围确定单元IIO基于从音乐数据检测到的拍子开始 有关小节的循环处理(S122)。具体而言,捕获范围确定单元110在参考拍子的同时跟随小 节,并且针对各小节单位重复执行小节循环内的处理。这里,使用从音乐分析单元108输 入的拍子。接着,捕获范围确定单元110开始与声源组合有关的循环处理(S124)。具体而 言,音乐分析单元108针对与由声源分离单元104分离出的4种类型的声源有关的组合(8 种)中的每一种,执行声源组合循环内的处理。在声源组合循环内,判定由当前小节和当前 声源组合指定的范围对于声音素材是否恰当,并且如果恰当,则该范围被登记为捕获范围。 以下,将详细描述与判定和登记有关的处理内容。 首先,捕获范围确定单元110计算素材得分,素材得分用于判定在小节循环和声 源组合循环中所指定的当前小节和当前声源组合对于声音素材是否是恰当的(S126)。素材 得分是基于从捕获请求输入单元102输入的捕获请求和音乐数据中所包括的各种乐器声 音的存在概率来计算的。更具体而言,对通过捕获请求被指定为捕获长度的许多小节上的 乐器声音组合总计乐器声音存在概率,并且计算出该总和值占所有乐器声音的存在概率的 总和值的百分比,作为素材得分。 例如,在捕获请求是针对两个小节的节奏循环的情况中,首先,计算当前小节到之 前两小节中鼓声的存在概率的总和(以下称为总的鼓概率值)。此外,针对当前小节到之前 两个小节计算所有乐器的存在概率的总和(以下称为总的概率值)。在计算这两种总和值 之后,捕获范围确定单元110通过将总的鼓概率值除以总的概率值来计算值,并且将计算
结果作为素材得分。 作为另一示例,当捕获请求是针对4个小节上的吉他与弦乐的伴奏的时,首先,针 对当前小节到之前4个小节来计算吉他声和弦乐声的存在概率的总和(以下称为总的吉 他-弦乐概率值)。此外,针对当前小节到之前4个小节来计算所有乐器的存在概率的总和
(以下称为总的概率值)。在计算了这两种总和值之后,捕获范围确定单元iio通过将总的
吉他_弦乐概率值除以总的概率值来计算值,并且将计算结果作为素材得分。 当在步骤S126中计算出了素材得分时,捕获范围确定单元110进行到步骤S128的处理。在步骤S128中,判断步骤S126中所计算出的素材得分是否是特定值或更大 (S128)。用于步骤S128中的判定处理的特定值是以依赖于由从捕获请求输入单元102输 入的捕获请求指定的"捕获的严格度"的方式来确定的。当捕获的严格度被指定为在o.o至 l.O范围内时,捕获的严格度的值可以直接用作上述特定值。在这种情况中,捕获范围确定 单元110比较步骤S126中所计算出的素材得分和捕获的严格度的值,并且当素材得分等于 或高于针对捕获的严格度的值时,捕获范围确定单元110进行到步骤S130的处理。另一方 面,当素材得分低于捕获的严格度的值时,捕获范围确定单元110进行到步骤S132的处理。
在步骤S130中,捕获范围确定单元110将目标范围登记为捕获范围,所述目标范 围是从当前小节开始具有由捕获请求指定的长度的范围(S130)。当目标范围被登记时,捕 获范围确定单元110进行到步骤S132的处理。在步骤S132中更新声源组合的类型(S132), 并且再次执行从步骤S124到步骤S132的声源组合循环内的处理。当声源组合循环内的处 理完成时,捕获范围确定单元110进行到步骤S134的处理。在步骤S134中更新当前小节 (S134),并且再次执行从步骤S122到步骤S134的小节循环内的处理。然后,当小节循环的 处理完成时,由捕获范围确定单元110进行的一系列处理完成。 当由捕获范围确定单元110进行的处理被完成时,指示被登记为捕获范围的音乐 数据的范围的信息从捕获范围确定单元110输入波形捕获单元112。然后,由捕获范围确定 单元110确定的捕获范围从音乐数据中被捕获,并且被输出,作为波形捕获单元112的波形 素材。 (2-10.硬件结构(信息处理设备100)) 上述设备的各个结构元件的功能例如可以通过图76中所示的硬件结构和通过使 用用于实现上述功能的计算机程序来实现。图76是示出能够实现上述设备的各个结构元 件的功能的信息处理设备的硬件配置的说明性示图。信息处理设备的模式是任意的,并且 包括以下诸如移动信息终端、游戏机或各种类型的信息家电之类的模式,移动信息终端例 如是个人计算机、移动电话、PHS或PDA。此外,PHS是Personal Handy-phone System(个 人手持式电话系统)的縮写。此外,PDA是Personal Digital Assistant (个人数字助理) 的縮写。 如图76中所示,信息处理设备100包括CPU 902、 ROM 904、 RAM 906、主机总线 908、桥接器910、外部总线912和接口 914。此外,特征量计算公式生成设备10包括输入单 元916、输出单元918、存储单元920、驱动器922、连接端口 924和通信单元926。此外,CPU 是Central Processing Unit(中央处理单元)的縮写。此夕卜,ROM是Readonly Memory(只 读存储器)的縮写。此外,RAM是Random AccessMemory (随机存取存储器)的縮写。
CPU 902例如用作算术处理单元或控制单元,并且基于ROM 904、 RAM 906、存储单 元920或可移除记录介质928上所记录的各种程序来控制结构元件或这些结构元件中的 某些结构元件的整体操作。ROM 904例如存储CPU 902上所加载的程序或算术运算中所使 用的数据等。RAM 906临时地或永久地存储例如CPU 902所加载的程序或在程序的执行中 任意地改变的各种参数等。这些结构元件例如通过可以执行高速数据传输的主机总线908 来相互连接。例如,主机总线908通过桥接器910连接到数据传输速度相对低的外部总线 912。 输入单元916例如是诸如鼠标、键盘、触摸面板、按钮、开关或控制杆之类的操作装置。输入单元916可以是能够通过使用红外射线或其它无线电波来传送控制信号的遥控 装置(所谓的遥控器)。输入单元916包括用于向CPU 902发送使用上述操作装置输入的 信息作为输入信号的输入控制电路等。 输出单元918例如是诸如CRT、LCD、PDP或ELD之类的显示装置。同样,输出单元 918是可以在视觉上或听觉上向用户通知所获取的信息的、诸如音频输出装置(例如,扬声 器或头戴式耳机)、打印机、移动电话或传真机之类的装置。存储单元920是用来存储各种 数据的装置,并且例如包括诸如HDD之类的磁存储装置、半导体存储装置、光存储装置或磁 光存储装置。此外,CRT是Cathode Ray Tube(阴极射线管)的縮写。同样,LCD是Liquid Crystal Display (液晶显示器)的縮写。此外,PDP是Plasma Display Panel (等离子显 示面板)的縮写。此外,ELD是Electro-Luminescence Display (电致发光显示器)的縮 写。此外,HDD是Hard Disk Drive(硬盘驱动器)的縮写。 驱动器922是读取可移除记录介质928上所记录的信息或将信息写入可移除记录 介质928中的装置,可移除记录介质928例如是磁盘、光盘、磁光盘或半导体存储器。可移 除记录介质928例如是DVD介质、蓝光介质或HD-DVD介质。此外,可移除记录介质928例 如是紧凑式闪存(CF ;CompactFlash)(注册商标)、记忆棒或SD存储卡。当然,可移除记录 介质928例如可以是绑定了非接触IC芯片的IC卡。此外,SD是Secure Digital (安全数 字)的縮写。同样,IC是Integrated Circuit (集成电路)的縮写。
连接端口 924是诸如USB端口 、 IEEE1394端口 、 SCSI、 RS-232C端口之类的端口 , 或用于连接诸如光学音频端子之类的外部连接装置930的端口。外部连接装置930例如是 打印机、移动音乐播放器、数字相机或IC记录器。此外,USB是Universal Serial Bus (通 用串行总线)的縮写。同样,SCSI是Small Computer System Interface (小型计算机系 统接口)的縮写。 通信单元926是要连接到网络932的通信装置。通信单元926例如是用于有线或 无线LAN、Bluetooth(注册商标)或WUSB的通信卡、光通信路由器、ADSL路由器或各种通信 调制解调器。连接到通信单元926的网络932包括有线连接或无线连接的网络。网络932 例如是因特网、家用LAN、红外通信、可见光通信、广播或卫星通信。此外,LAN是LocalArea Network(局域网)的縮写。此外,WUSB是无线USB的縮写。此外,ADSL是Asymmetric Digital Subscriber Line (非对称数字用户线)的縮写。
(2-6.总结) 最后,将简要描述本实施例的信息处理设备的功能配置和通过这些功能配置获得 的效果。 首先,根据本实施例的信息处理设备的功能配置可以描述如下。信息处理设备包 括如下所述的捕获请求输入单元、音乐分析单元和捕获范围确定单元。捕获请求输入单元 用于输入捕获请求,捕获请求包括要被捕获作为声音素材的范围的长度、乐器声音的类型 和捕获的严格度作为信息。此外,音乐分析单元用于分析音频信号并且用于检测音频信号 的拍子位置和该音频信号中各种乐器声音的存在概率。以这种方式,通过经由分析音频信 号的处理来检测拍子位置和各种乐器声音的存在概率,可以从任意乐曲的音频信号中自动 捕获声音素材。此外,捕获范围确定单元用于通过使用由音乐分析单元检测到的拍子位置 和各种乐器声音的存在概率来确定声音素材的捕获范围,使得声音素材满足由捕获请求输入单元所输入的捕获请求。以这种方式,能够知道拍子位置使得可以以具有用拍子位置划 分出的特定长度的范围为单位来确定捕获范围。此外,由于各种乐器声音的存在概率是针 对各个范围计算出的,所以可以容易地捕获所希望的乐器声音所存在于的范围。即,可以容 易地从乐曲的音频信号中捕获适于所希望的声音素材的范围的信号。 此外,信息处理设备还可以包括素材捕获单元,该素材捕获单元用于捕获由捕获 范围确定单元从音频信号中确定的捕获范围,并且用于输出捕获范围作为声音素材。通过 在使以这种方式捕获的声音素材与另一已知乐曲的拍子同步的同时混合该声音素材和该 已知乐曲,例如可以改变已知乐曲的编排。此外,信息处理设备还可以包括声源分离单元, 其用于在音频信号中包括多种类型的声源的信号的情况中,从音频信号中分离各个声源的 信号。通过分析针对各种声源分离出的音频信号,可以更精确地检测各种乐器声音的存在 概率。 此外,音乐分析单元还可以被配置为通过分析音频信号来进一步检测音频信号的
和弦进行。在这种情况中,捕获范围确定单元确定满足捕获请求的捕获范围,并且与有关捕
获范围的信息一起输出捕获范围内的和弦进行。有关和弦进行的信息以及有关捕获范围的
信息一起被提供给用户,使得可以在与另一已知乐曲混合时参考该和弦进行。此外,和弦进
行可以与作为声音素材被输出的捕获范围的音频信号一起被素材捕获单元输出。 此外,音乐分析单元可以被配置为通过使用能够自动生成用于提取任意音频信
号的特征量的计算公式的计算公式生成设备来生成用于提取与拍子位置有关的信息和与
各种乐器声音的存在概率有关的信息的计算公式,并且通过使用计算公式来检测音频信号
的拍子位置和音频信号中各种乐器声音的存在概率,该计算公式生成设备通过使用多个音
频信号和这些音频信号中每一个音频信号的特征量来自动生成计算公式。通过使用已经描
述的学习算法等可以计算出拍子概率和各种乐器声音的存在概率。通过使用所述方法,变
得有可能从任意音频信号中自动提取拍子概率和各种乐器声音的存在概率,并且实现如上
所述的针对声音素材的自动捕获处理。 此外,捕获范围确定单元可以包括素材得分计算单元,其用于针对音频信号的各 个范围计算通过捕获请求所指定的类型的乐器声音的存在概率的总和,并且用于计算通过 将总计出的存在概率除以该范围内所有乐器声音的存在概率的总和而获得的值作为素材 得分,各个范围具有通过捕获请求所指定的捕获范围长度。在这种情况中,捕获范围确定单 元确定由素材得分计算单元所计算出的素材得分高于捕获的严格度的值的范围,作为满足 捕获请求的捕获范围。以这种方式,基于上述素材得分可以确定捕获范围是否适于所希望 的声音素材。此外,捕获的严格度的值被指定以与素材得分的表达形式相匹配,并且可以被 直接与素材得分相比较。 此外,声源分离单元可以被配置为从音频信号中分离出前景声音的信号和背景声
音的信号,并且还将前景声音的信号中位于中心周围的中心信号、左声道信号和右声道信
号相互分离。如已经描述的,前景声音的信号被分离出,作为左右之间具有小的相位差的信
号。而且,背景声音的信号被分离出,作为左右之间具有大的相位差的信号。而且,中心信
号被从前景声音的信号中分离出,作为左右之间具有小的音量差的信号。此外,左声道信号
和右声道信号被各自分离出,作为具有大的左音量或右音量的信号。
(评述)
上述波形捕获单元112是素材捕获单元的示例,而且,特征量计算公式生成设备 IO是计算公式生成设备的示例。上述捕获范围确定单元110的功能的一部分是素材得分计 算单元的示例。 本领域技术人员应当理解,根据设计要求和其它因素,可以进行各种修改、组合、 子组合和更改,只要它们在所附权利要求及其等同物的范围以内即可。
本申请包含与2008年12月5日在日本专利局提交的日本优先权专利申请JP 2008-310721中所公开的主题相关的主题,其全部内容被通过引用结合于此。
权利要求
一种信息处理设备,包括音乐分析单元,所述音乐分析单元用于分析用作声音素材的捕获源的音频信号,并且用于检测所述音频信号的拍子位置和所述音频信号中的各种乐器声音的存在概率;以及捕获范围确定单元,所述捕获范围确定单元用于通过使用由所述音乐分析单元所检测到的所述拍子位置和所述各种乐器声音的存在概率来确定所述声音素材的捕获范围。
2. 根据权利要求1所述的信息处理设备,还包括捕获请求输入单元,所述捕获请求输入单元用于输入捕获请求,所述捕获请求包括以 下内容中的至少一个作为信息要被捕获作为所述声音素材的范围的长度、乐器声音的类 型和捕获的严格度,射所述捕获范围确定单元确定所述声音素材的捕获范围使得所述声音素材满足通过所 述捕获请求输入单元输入的所述捕获请求。
3. 根据权利要求1所述的信息处理设备,还包括素材捕获单元,所述素材捕获单元用于从所述音频信号中捕获由所述捕获范围确定单 元确定的所述捕获范围并且用于输出所述捕获范围作为所述声音素材。
4. 根据权利要求1所述的信息处理设备,还包括声源分离单元,所述声源分离单元用于在所述音频信号中包括多种类型的声源的信号 的情况中,从所述音频信号中分离出各种声源的信号。
5. 根据权利要求l所述的信息处理设备,其中所述音乐分析单元还通过分析所述音频信号来检测所述音频信号的和弦进行,并且 所述捕获范围确定单元确定所述声音素材的捕获范围,并且一起输出有关所述捕获范 围的信息和所述捕获范围中的和弦进行。
6. 根据权利要求3所述的信息处理设备,其中所述音乐分析单元还通过分析所述音频信号来检测所述音频信号的和弦进行,并且 所述素材捕获单元输出所述捕获范围的音频信号作为声音素材,并且还输出所述捕获 范围中的和弦进行。
7. 根据权利要求l所述的信息处理设备,其中所述音乐分析单元通过使用能够自动生成用于提取任意音频信号的特征量的计算公 式的计算公式生成设备来生成用于提取与所述拍子位置有关的信息和与所述各种乐器声 音的存在概率有关的信息的计算公式,并且通过使用所述计算公式来检测所述音频信号中 的拍子位置和所述音频信号中的各种乐器声音的存在概率,所述计算公式生成设备通过使 用多个音频信号和所述音频信号中每个音频信号的特征量来自动生成所述计算公式。
8. 根据权利要求2所述的信息处理设备,其中 所述捕获范围确定单元包括素材得分计算单元,所述素材得分计算单元用于针对所述音频信号的各个范围来 计算通过所述捕获请求指定的类型的乐器声音的存在概率的总和,并且用于计算通过将总 计出的存在概率除以该范围内所有乐器声音的存在概率的总和而获得的值作为素材得分, 并且确定由所述素材得分计算单元所计算出的素材得分高于捕获的严格度的值的范围,作 为满足所述捕获请求的捕获范围。
9. 根据权利要求3所述的信息处理设备,其中所述声源分离单元从所述音频信号中分离出前景声音的信号和背景声音的信号,并且还将所述前景声音的信号中位于中心周围的中心信号、左声道信号和右声道信号相互分离。
10. —种声音素材捕获方法,当用作声音素材的捕获源的音频信号被输入信息处理设备时,所述方法包括以下步骤分析所述音频信号,并且检测所述音频信号的拍子位置和所述音频信号中各种乐器声音的存在概率;以及通过使用通过分析和检测步骤所检测到的所述拍子位置和所述各种乐器声音的存在概率来确定所述声音素材的捕获范围,射所述步骤是由所述信息处理设备执行的。
11. 一种程序,其使得计算机实现当用作声音素材的捕获源的音频信号被输入时,分析所述音频信号并且检测所述音频信号的拍子位置和所述音频信号中各种乐器声音的存在概率的音乐分析功能;以及通过使用通过所述音乐分析功能检测到的所述拍子位置和所述各种乐器声音的存在概率来确定所述声音素材的捕获范围的捕获范围确定功能。
全文摘要
本发明公开了一种信息处理设备、声音素材捕获方法和程序。该信息处理设备包括音乐分析单元,其分析用作声音素材的捕获源的音频信号并且检测音频信号的拍子位置和音频信号中各种乐器声音的存在概率;以及捕获范围确定单元,其用于通过使用由音乐分析单元所检测到的拍子位置和各种乐器声音的存在概率来确定声音素材的捕获范围。
文档编号G10H1/00GK101751912SQ20091025363
公开日2010年6月23日 申请日期2009年12月7日 优先权日2008年12月5日
发明者小林由幸 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1