信息处理设备、声音分析方法和程序的制作方法

文档序号:2822339阅读:259来源:国知局
专利名称:信息处理设备、声音分析方法和程序的制作方法
技术领域
本发明涉及信息处理设备、声音分析方法和程序。
背景技术
近年来,已经开发了用于分析以所演奏乐曲的声音来记录的音频信号以及检测该 乐曲的拍子位置、和弦进行、小节线进行等的技术。 例如,日本专利文献JP-A-2008-102405公开了一种信号处理设备,其从音频信号 中检测乐曲中所包括的拍子的位置,针对所检测到的拍子位置中的每个拍子位置来提取用 于和弦辨别的特征量(FQ),并且之后基于所提取出的特征量来辨别各个拍子位置处的和弦 的类型。

发明内容
然而,所演奏乐曲的实际速度不仅包括乐谱上出现的速度波动,还包括乐谱上未 出现的、由于演奏者或指挥者的编排而引起的速度波动。在这样的情况中,利用相关领域 的乐曲分析技术,很难在反映了速度波动的情况下精确地检测到拍子位置或拍子类型(例 如,节拍、拍子的拍数等)。 鉴于以上所述,希望提供能够提高对音频信号中所包括的拍子的位置或拍子的类
型的检测的精度的新颖的和改进的信息处理设备、声音分析方法和程序。 根据本发明一个实施例,提供了一种信息处理设备,其包括用于检测音频信号中
所包括的拍子的位置的拍子分析单元;用于计算类似概率的结构分析单元,每个类似概率
是用由拍子分析单元所检测到的各个拍子位置划分出的拍子区间的声音内容之间相类似
的概率;以及小节线检测单元,用于基于根据由所述结构分析单元所计算出的类似概率而
确定的小节线概率来确定所述音频信号的有可能的小节线进行,所述小节线概率指示各个
拍子对应于哪种节拍中的哪个拍数。 该结构分析单元可以包括用于通过使用各个拍子区间的各个音调的平均能量来 计算特定特征量的特征量计算单元;用于针对拍子区间来计算由特征量计算单元所计算出 的特征量之间的相关性的相关性计算单元;以及根据由所述相关性计算单元所计算出的相 关性来生成所述类似概率的类似概率生成单元。 该小节线检测单元可以包括用于基于从音频信号提取出的特定特征量来计算小 节线概率的小节线概率计算单元;用于根据类似概率来校正由小节线概率计算单元计算出 的小节线概率的小节线概率校正单元;以及用于基于由小节线概率校正单元校正后的小节 线概率来确定音频信号的有可能的小节线进行的小节线确定单元。 特征量计算单元可以通过在多个八度音阶中对具有相同名称的音符的值求加权 和来计算特征量,这些值被包括在各个音调的平均能量中。 相关性计算单元可以通过使用这些特征量来计算拍子区间之间的相关性,每个特 征量是针对所关注的拍子区间以及所关注的拍子区间周围一个或多个拍子区间的。
小节线概率计算单元可以基于根据各个拍子区间的和弦类型或基调类型而不同 的第一特征量和根据拍子概率而不同的第二特征量来计算小节线概率,拍子概率指示拍子 被包括在音频信号的各个特定时间单位中的概率。 小节线确定单元可以通过以下方式来确定有可能的小节线进行从通过在以按时 间顺序布置的拍子以及各个拍子的节拍和拍数所指定的节点中顺次选择节点而形成的路 径中,搜索使根据小节线概率而不同的评估值变成最优的路径。 小节线检测单元还可以包括小节线重新确定单元,该小节线重新确定单元用于在 第一节拍和第二节拍两者都被包括在由所述小节线确定单元所确定的小节线进行中的情 况中,从搜索的对象中排除第一节拍和第二节拍中较不经常出现的节拍而重新执行路径搜 索。 拍子分析单元可以包括用于基于拍子概率来检测所述音频信号中所包括的起始 点的起始点检测单元,每个起始点是声音产生的时间点,每个拍子概率指示拍子被包括在 音频信号中的各个特定时间单位中的概率;用于针对由所述起始点检测单元检测到的各个 起始点来计算拍子得分的拍子得分计算单元,拍子得分指示起始点与具有可以设想到的拍 子间隔的拍子的对应程度;拍子搜索单元,该拍子搜索单元用于基于由所述拍子得分计算 单元所计算出的拍子得分来搜索由示出有可能的速度波动的起始点形成的最优路径;以及 拍子确定单元,该拍子确定单元用于确定最优路径上这些起始点的位置和根据拍子间隔所 补充的位置,作为拍子位置。 拍子分析单元还可以包括拍子重新搜索单元,该拍子重新搜索单元用于在由拍 子搜索单元确定的最优路径的速度中的波动很小的情况中,限制搜索范围并且重新执行对 最优路径的搜索。 拍子搜索单元可以通过使用根据拍子得分而不同的评估值,来从通过沿时间轴顺
次选择以起始点和拍子间隔所指定的节点而形成的路径中确定最优路径。 拍子搜索单元还可以通过使用根据过渡(transition)前后的节点之间速度的变
化量而不同的评估值来确定最优路径。 拍子搜索单元还可通过使用根据过渡前后的起始点之间的间隔与过渡前后的节 点处的拍子间隔之间的匹配程度而不同的评估值来确定最优路径。 拍子搜索单元还可以通过使用根据节点之间的过渡中所跳过的起始点的数目而 不同的评估值来确定最优路径。 拍子分析单元还可以包括速度修正单元,该速度修正单元用于根据使用通过学习 预先获得的估计速度辨别公式而从音频信号的波形中估计出的估计速度,对由拍子确定单 元所确定的拍子位置进行修正。 速度修正单元可以通过针对多个乘子中的每一个乘子、使用修正后的拍子位置的 平均拍子概率和估计速度来评估修正后的速度的似然,从而确定修正拍子位置所要使用的 用于修正的乘子。 根据本发明另一实施例,提供了一种信息处理设备,其包括起始点检测单元,该 起始点检测单元用于基于拍子概率来检测音频信号中所包括的起始点,每个起始点是声音 产生的时间点,每个拍子概率指示拍子被包括在音频信号中的各个特定时间单位中的概 率;拍子得分计算单元,该拍子得分计算单元用于针对由起始点检测单元检测到的各个起始点来计算拍子得分,拍子得分指示起始点与具有可以设想到的拍子间隔的拍子的对应程 度;拍子搜索单元,该拍子搜索单元用于基于由所述拍子得分计算单元所计算出的拍子得 分来搜索由示出有可能的速度波动的起始点形成的最优路径;以及拍子确定单元,该拍子 确定单元用于确定所述最优路径上起始点的位置和根据所述拍子间隔所补充的位置,作为 拍子位置。 根据本发明的另一实施例,提供了一种声音分析方法,其包括以下步骤检测音频 信号中所包括的起始点的位置;计算类似概率,每个类似概率是用各个所检测到的拍子位 置划分出的拍子区间的声音内容之间相类似的概率;以及基于根据所计算出的类似概率而 确定的小节线概率来确定音频信号的有可能的小节线进行,小节线概率指示各个拍子对应 于哪种节拍中的哪个拍数。 根据本发明的另一实施例,提供了一种程序,该程序使得控制信息处理设备的计 算机用作拍子分析单元,该拍子分析单元用于检测音频信号中所包括的拍子的位置;结 构分析单元,该结构分析单元用于计算类似概率,每个类似概率是用由拍子分析单元所检 测到的各个拍子位置划分出的拍子区间的声音内容之间相类似的概率;以及小节线检测单 元,该小节线检测单元用于基于根据由结构分析单元所计算出的类似概率而确定的小节线 概率来确定所述音频信号的有可能的小节线进行,小节线概率指示各个拍子对应于哪种节 拍中的哪个拍数。 根据以上所述的本发明的实施例,可以提高对音频信号中所包括的拍子的位置或 拍子的类型的检测的精度。


图1是示出根据本发明一个实施例的信息处理设备的逻辑配置的框图; 图2是示出对数谱的一个示例的说明性示图; 图3是示出对数谱的另一示例的说明性示图; 图4是用于描述拍子概率公式的学习处理的说明性示图; 图5是示出通过拍子概率公式所计算出的拍子概率的一个示例的说明性示图; 图6是示出拍子分析单元的详细配置的框图; 图7是示出从拍子概率中检测出的起始点的一个示例的说明性示图; 图8是示出起始点检测处理流程的一个示例的流程图; 图9是与拍子概率相关地示出由起始点检测单元检测到的起始点的位置的说明 性示图; 图10是用于描述由拍子得分计算处理的说明性示图; 图11是示出拍子得分计算处理流程的一个示例的流程图; 图12是使从拍子得分计算单元输出的拍子得分可视化的拍子得分分布图; 图13是用于描述由拍子搜索单元进行的路径搜索的说明性示图; 图14是示出速度变化得分的一个示例的说明性示图; 图15是示出起始点移动得分的一个示例的说明性示图; 图16是示出针对跳过的惩罚的一个示例的说明性示图; 图17是示出被拍子搜索单元确定为最优路径的路径的一个示例的说明性示7
图18是示出恒定速度判定单元的判定结果的两个示例的说明性示图; 图19是用于描述由针对恒定速度的拍子重新搜索单元进行的路径重新搜索处理
的说明性示图; 图20是用于描述由拍子确定单元进行的拍子确定处理的说明性示图; 图21是用于描述由拍子确定单元进行的补充拍子设置处理的说明性示图; 图22是示出为常数倍关系的速度示例的说明性示图; 图23是用于描述估计速度辨别公式的学习处理的说明性示图; 图24是用于描述针对各个乘子的平均拍子概率的说明性示图; 图25是用于描述由速度修正单元计算出的速度似然的说明性示图; 图26是示出速度修正处理流程的一个示例的流程图; 图27是示出结构分析单元的详细配置的框图; 图28是示出拍子、拍子区间和拍子区间特征量之间的关系的说明性示图; 图29是用于描述拍子区间特征量的计算处理的第一说明性示图; 图30是用于描述拍子区间特征量的计算处理的第二说明性示图; 图31是用于描述相关系数计算处理的说明性示图; 图32是用于描述从相关系数变换成类似概率的变换曲线的一个示例的说明性示 图; 图33是使拍子区间之间的类似概率的一个示例可视化的说明性示图; 图34是示出和弦概率计算单元的详细配置的框图; 图35是用于描述根音特征量生成处理的第一说明性示图; 图36是用于描述根音特征量生成处理的第二说明性示图; 图37是用于描述和弦概率公式的学习处理的说明性示图; 图38是用于描述和弦概率的计算处理的说明性示图; 图39是示出由和弦概率计算单元计算出的和弦概率的一个示例的说明性示图; 图40是示出基调检测单元的详细配置的框图; 图41是用于描述相对和弦概率生成处理的说明性示图; 图42是用于描述各个拍子区间的和弦出现得分的说明性示图; 图43是用于描述各个拍子区间的和弦过渡出现得分的说明性示图; 图44是用于描述基调概率公式的学习处理的说明性示图; 图45是用于描述基调概率的计算处理的说明性示图; 图46是示出由基调概率计算单元计算出的基调概率的示例的说明性示图; 图47是用于描述简单基调概率的计算处理的说明性示图; 图48是用于描述由基调确定单元进行的路径搜索的说明性示图; 图49是示出基调过渡概率的一个示例的说明性示图; 图50是示出由基调确定单元确定的基调进行的一个示例的说明性示图; 图51是示出小节线检测单元的详细配置的框图; 图52是用于描述由第一特征量提取单元进行的特征量提取处理的说明性示图; 图53是用于描述和弦稳定性得分的说明性示图; 图54是用于描述和弦不稳定性得分的说明性示 图55是用于描述相对和弦得分的生成处理的说明性示图; 图56是用于描述由第二特征量提取单元进行的特征量提取处理的说明性示图; 图57是用于描述小节线概率公式的学习处理的说明性示图; 图58是用于描述小节线概率的计算处理的说明性示图; 图59是用于描述由小节线确定单元进行的路径搜索的说明性示图; 图60是示出节拍变化概率的示例的说明性示图; 图61是示出由小节线确定单元确定的小节线进行的一个示例的说明性示图; 图62是示出和弦进行检测单元的详细配置的框图; 图63是用于描述扩展拍子区间特征量的说明性示图; 图64是用于描述扩展根音特征量生成处理的说明性示图; 图65是用于描述扩展和弦概率公式的学习处理的说明性示图; 图66是用于描述和弦概率的重新计算处理的说明性示图; 图67是用于描述由和弦进行确定单元进行的路径搜索的说明性示图; 图68是示出由和弦进行确定单元确定的和弦进行的一个示例的说明性示图; 图69是示出通用计算机的配置示例的框图。
具体实施例方式
以下,将参考附图来详细描述本发明的优选实施例。注意,在该说明书和附图中, 用相同的标号来标注具有基本相同的功能和结构的结构元件,并且省略对这些结构元件的 重复说明。 此外,将按以下顺序来描述"具体实施方式
"。
1.根据一个实施例的信息处理设备的总体配置 2.根据一个实施例的信息处理设备的各个单元的描述 2-1.对数谱变换单元 2-2.拍子概率计算单元 2-3.拍子分析单元 2-4.结构分析单元 2-5.和弦概率计算单元 2-6.基调检测单元 2-7.小节线检测单元 2-8.和弦进行检测单元 3.根据本实施例的信息处理设备的特征 4.总结 〈1.根据一个实施例的信息处理设备的总体配置〉 首先,将描述根据本发明一个实施例的信息处理设备100的总体配置。
图1是示出根据本发明一个实施例的信息处理设备100的逻辑配置的框图。参 考图l,信息处理设备100包括对数谱变换单元110、拍子概率计算单元120、拍子分析单元 130、结构分析单元150、和弦概率计算单元160、基调检测单元170、小节线检测单元180和 禾口弓玄进行(chordprogression)检测单元190。
信息处理设备100首先获得音频信号,该音频信号是以任意格式记录的乐曲的声
音。信息处理设备ioo所要处理的音频信号的格式可以是任何压縮格式或非压縮格式,例
如WAV、 AIFF、 MP3或ATRAC。 信息处理设备100将音频信号作为输入信号,并且通过图1中所示的各个单元来
执行处理。信息处理设备ioo对音频信号的处理的结果例如可以包括该音频信号中所包含
的拍子在时间轴上的位置、小节线的位置、各个拍子位置处的基调或和弦,等等。 信息处理设备100例如可以是诸如个人计算机(PC)或工作站之类的通用计算机。
并且,信息处理设备100可以是任何数字装置,例如,移动电话终端、移动信息终端、游戏终
端、音乐回放装置或电视机。此外,信息处理设备ioo可以是专用于音乐处理的装置。 以下,将详细描述图1中示出的信息处理设备100的各个单元。 〈2.根据一个实施例的信息处理设备的各个单元的描述〉 (2-1.对数谱变换单元) 对数谱变换单元110将作为输入信号的音频信号的波形变换成以时间和音调两 个维度表示的对数谱。JP-A-2005-275068中所公开的方法例如可以用作将音频信号的波形 变换成对数谱的方法。 根据JP-A-2005-275068中所公开的方法,首先,通过频带划分和下采样将音频信 号划分成多个八度音阶的信号。然后,通过使12个音调的频带通过的带通滤波器从每个八 度音阶的信号中分别提取12个音调的信号。结果,可以获得示出多个八度音阶上各自的12 个音调的音符的能量的对数谱。 图2是示出从对数谱变换单元110输出的对数谱的示例的说明性示图。
参考图2的垂直轴,输入音频信号被划分成4个八度音阶,并且每个八度音阶又被 划分成12个音调:"C"、"C#"、"D"、"D#"、"E"、"F"、"F#"、"G"、"G#"、"A"、"A#H"。另 一方面,图2的水平轴示出沿时间轴对音频信号进行采用时的帧编号。例如,当音频信号被 以采样频率128(Hz)进行采样时,1帧时间段对应于1 (秒)/128 = 7. 8125 (毫秒)。
图2中所示的时间-音调二维平面上所绘出的颜色的浓淡指示时间轴上各个位置 处各个音调的能量的强度。例如,在图2中,下数第二个八度音阶的第十帧处的音调C(该 图中的S1)用黑色绘出,从而指示该音符的能量是高的,S卩,该音符被强有力地产生。
此外,从对数谱变换单元110输出的对数谱不限于这样的示例。图3示出与图2 中所示的音频信号不同的音频信号被划分成8个八度音阶的对数谱的示例。
(2-2.拍子概率计算单元) 拍子概率计算单元120针对从对数谱变换单元IIO输入的对数谱的特定时间单位 中的每一个(例如,1帧),计算该时间单位中包括拍子的概率(以下,称为"拍子概率")。 此外,当特定时间单位为1帧时,拍子概率可以被认为是各帧与拍子位置(时间轴上拍子的 位置)相一致的概率。例如,作为采用JP-A-2008-123011中所公开的学习算法的机器学习 的结果而获得的拍子概率公式被用于拍子概率的计算。 根据JP-A-2008-123011中所公开的方法,首先,向学习装置提供一组内容数据 (例如,音频信号)和针对要从该内容数据提取出的特征量的教师数据。接着,学习装置通 过随机地组合所选择的算子(operator)来生成用于从内容数据中计算出特征量的多个特 征量提取公式。然后,学习装置将根据所生成的特征量提取公式计算出的特征量与输入的
10教师数据相比较,并且评估特征量。此外,学习装置基于特征量提取公式的评估结果来生成 下一代特征量提取公式。通过重复特征量提取公式的生成和评估的循环数次,最终可以获 得能够以高精度从内容数据中提取教师数据的特征量提取公式。 通过采用这样的学习算法,通过如图4中所示的学习处理来获得由拍子概率计算 单元120使用的拍子概率公式。此外,在图4中,示出用于拍子概率的计算的时间单位是1 帧的示例。 首先,向学习算法提供从拍子位置已知的乐曲的音频信号中变换出的对数谱的片 段(以下,称为"局部对数谱")和作为针对每个局部对数谱的教师数据的拍子概率。这里, 考虑拍子概率的计算和处理代价之间的权衡来确定局部对数谱的窗宽度。例如,局部对数 谱的窗宽度可以包括要计算拍子概率的帧之前的7帧和之后的7帧(S卩,总共15帧)。
此外,作为教师数据的拍子概率例如是基于已知的拍子位置并且通过使用真值 (1)或假值(0)来指示拍子是否被包括在各个局部对数谱的中心帧中的数据。这里没有考 虑小节的位置,并且当中心帧与拍子位置相对应时,拍子概率为1 ;而当中心帧与拍子位置 不对应时,拍子概率为0。在图4中所示的示例中,局部对数谱Wa,Wb,Wc,. . . ,Wn的拍子概 率分别被给出为l,O,l,... ,0。 用于从局部对数谱计算出拍子概率的拍子概率公式(P(W))是预先基于如上所述 的多组输入数据和教师数据,通过上述学习算法获得的。 然后,拍子概率计算单元120针对输入对数谱的帧中的每个帧,截取具有越过该 帧的前后几帧的窗宽度的局部对数谱,并且通过应用作为学习的结果而获得的拍子概率公 式,每次一个局部对数谱地计算多个局部对数谱中的每一个的拍子概率。
图5是示出拍子概率计算单元120所计算出的拍子概率的示例的说明性示图。
参考图5,首先,在图5的上部示出从对数谱变换单元IIO输入拍子概率计算单元 120的对数谱的示例。并且,在图5的下部,还利用时间轴上的折线示出由拍子概率计算单 元120从上部中所示出的对数谱中计算出的拍子概率。例如,在帧位置Fl处,局部对数谱 Wl被从该对数谱截取,并且通过拍子概率公式计算出拍子概率为0. 95。另一方面,在帧位 置F2处,局部对数谱W2被从该对数谱截取,并且通过拍子概率公式计算出拍子概率为0. 1。 即,可以理解,帧位置Fl与拍子位置对应的可能性高并且帧位置F2与拍子位置对应的可能 性低。 由拍子概率计算单元120以这种方式计算出的各帧的拍子概率输出到稍后描述 的拍子分析单元130和小节线检测单元180。 此外,可以通过另一学习算法来习得由拍子概率计算单元120使用的拍子概率公 式。然而,应当注意,一般,对数谱包括各种参数,例如,鼓谱、由于说话引起的谱的发生和由 于和弦的变化引起的谱中的变化。在鼓谱的情况中,打鼓的时间点很有可能就是拍子位置。 另一方面,在语音谱的情况中,说话的开始时间点很有可能是拍子位置。为了通过总体使用 各种参数来高精度地计算拍子概率,适于使用JP-A-2008-123011中所公开的学习算法。
(2-3.拍子分析单元) 拍子分析单元130基于从拍子概率计算单元120输入的拍子概率来确定音频信号 中所包括的拍子在时间轴上的位置。 图6是示出拍子分析单元130的详细配置的框图。参考图6,拍子分析单元130包括起始点检测单元132、拍子得分计算单元134、拍子搜索单元136、恒定速度判定单元138、 针对恒定速度的拍子重新搜索单元140、拍子确定单元142和速度修正单元144。
(2-3-1.起始点检测单元) 起始点检测单元132基于从拍子概率计算单元120输入的、利用图5描述的拍子 概率,检测音频信号中所包括的起始点。在该说明书中,起始点是音频信号中产生声音的时 间点,并且更具体而言,起始点被视为拍子概率在特定阈值以上并且取得极大值的点。
图7是示出从针对音频信号计算出的拍子概率中检测出的起始点的示例的说明 性示图。 在图7中,和图5的下部一样,在时间轴上利用折线示出了由拍子概率计算单元 120计算出的拍子概率。利用该拍子概率,取得极大值的点有3个点,S卩,帧F3、 F4和F5。 在这些帧中,关于帧F3和F5,这些时间点的拍子概率在预先给出的特定阈值Thl以上。另 一方面,帧F4在这时间点的拍子概率在阈值Thl以下。在该情况中,检测到两个点,即帧F3 和F5,作为起始点。 图8是示出起始点检测单元132的起始点检测处理流程的示例的流程图。
参考图8,首先,起始点检测单元132关于针对各帧计算出的拍子概率,从第一帧 开始,针对这些帧顺次执行循环(S1322)。然后,起始点检测单元132关于各帧判定拍子概 率是否在特定阈值以(S1324),以及拍子概率是否指示极大值(S1326)。这里,当拍子概率 在特定阈值以上并且拍子概率指示极大值时,处理进行到S1328。另一方面,当拍子概率不 在特定阈值以上或者拍子概率没有指示极大值时,跳过S1328的处理。在S1328,向起始点 位置的列表添加当前时间(或帧编号)(S1328)。然后,当关于所有帧的处理结束时,循环终 止(S1330)。 利用如上所述的起始点检测单元132的起始点检测处理,输出音频信号中所包括 的起始点的位置的列表,即,各个起始点的时间或帧编号的列表。 图9是与拍子概率相关地示出由起始点检测单元132检测到的起始点的位置的说 明性示图。 在图9中,在示出拍子概率的折线上方利用圆环示出由起始点检测单元132检测 到的起始点的位置。可以理解,检测到了 15个指示具有在阈值Thl以上的拍子概率的极大 值的起始点。由起始点检测单元132检测到的起始点的位置的列表输出给接下来所描述的 拍子得分计算单元134。
(2-3-2.拍子得分计算单元) 拍子得分计算单元134针对由起始点检测单元132检测到的各个起始点计算拍子 得分,拍子得分指示与形成具有恒定速度(或恒定拍子间隔)的一串拍子的多个拍子当中 的拍子的一致程度。 图10是用于描述由拍子得分计算单元134进行的拍子得分计算处理的说明性示 图。 参考图IO,在由起始点检测单元132检测到的起始点中,帧位置Fk(帧编号k)处 的起始点被设为所关注的起始点。此外,示出距离帧位置Fk特定距离d的整数倍的一连串 帧位置Fk—3、 Fk—2、 Fk—p Fk、 Fk+1、 Fk+2和Fk+3。在该说明书中,该特定距离d被称为转移量,并且 距离转移量d的整数倍的帧位置被称为转移位置。已经计算了拍子概率的帧的群组F中所包括的所有转移位置(...Fk—3, Fk—2, Fk—p Fk, Fk+1, Fk+2和Fk+3...)处的拍子概率的加和将是所 关注的起始点的拍子得分。即,当帧位置Fi处的拍子概率是P(Fi)时,由下式表示依赖于帧 编号k和转移量d的、所关注的起始点的拍子得分BS(k, d)。
[等式l] M(/:,"hZ尸(i^J,(i^,巧 (1) 通过等式1计算出来的拍子得分BS(k,d)可以说是指示音频信号的第k帧处的起 始点与以转移量d为拍子间隔的恒定速度同步的可能性的得分。 图11是示出拍子得分计算单元134的拍子得分计算处理流程的示例的流程图。
参考图ll,首先,拍子得分计算单元134关于由起始点检测单元132检测到的起 始点,从第一起始点开始,针对这些起始点顺次执行循环(S1342)。此外,拍子得分计算单 元134关于所关注的起始点针对所有转移量d中的每一个转移量d执行循环(S1344)。作 为循环的对象的转移量d是可以在音乐演奏中使用的所有拍子处的间隔的值。然后,拍子 得分计算单元134初始化拍子得分BS(k, d)(即,O被代入拍子得分BS(K, d)中)(S1346)。 接着,拍子得分计算单元134针对用于转移所关注起始点的帧位置Fd的转移系数n来执行 循环(S1348)。然后,拍子得分计算单元134向拍子得分BS(k,d)顺次添加每个转移位置处 的拍子概率P(Fk+nd)(S1350)。然后,当针对所有转移系数n的循环结束时(S1352),拍子得 分计算单元134记录所关注的起始点的帧位置(帧编号k)、转移量d和拍子得分BS(k, d) (S1354)。拍子得分计算单元134针对所有起始点的每个转移量重复此拍子得分BS(k, d) 的计算(S1356, S1358)。 利用如上所述由拍子得分计算单元134进行的拍子得分计算处理,针对由起始点 检测单元132检测到的每个起始点,输出跨越多个转移量d的拍子得分BS(k, d)。
图12是使从拍子得分计算单元134输出的拍子得分可视化的拍子得分分布图。
在图12中,沿水平轴按时间顺序示出由起始点检测单元132检测到的起始点。另 一方面,图12中的垂直轴指示转移量,针对所述转移量,已经计算了各个起始点的拍子得 分。此外,图中各个点的颜色的浓淡指示在转移量处针对起始点计算出的拍子得分的水平。 例如,在该拍子得分分布图中,在转移量dl的附近,拍子得分对于所有起始点都高。这意味 着,当假定以转移量dl的速度演奏乐曲时,很有可能所检测到的起始点中的许多起始点与 拍子对应。由拍子得分计算单元134计算出的拍子得分输出给接下来所描述的拍子搜索单 元136。 (2-3-3.拍子搜索单元) 拍子搜索单元136基于由拍子得分计算单元134计算出的拍子得分来搜索示出可 能的速度波动的起始点位置路径。例如,基于隐马尔科夫模型的Viterbi算法可以用作拍 子搜索单元136的路径搜索方法。 图13是用于描述由拍子搜索单元136进行的路径搜索的说明性示图。
当应用用于由拍子搜索单元136进行的路径搜索的Viterbi算法时,与图12相关 地描述的起始点编号被用作时间轴(图13中的水平轴)的单位。并且,用于计算拍子得分 的转移量被用作观测序列(图13中的垂直轴)。 S卩,拍子搜索单元136将所有已经由拍子得分计算单元134计算了拍子得分的起
13始点与转移量的组合中的每一种组合看作节点,节点是路径搜索的对象。此外,如上所述,各个节点的转移量在意义上与针对该节点假设的拍子间隔是等同的。因此,在以下描述中,各个节点的转移量被称为拍子间隔。 关于所述节点,拍子搜索单元136沿着时间轴顺次选择这些节点中的任何节点,并且通过使用稍后描述的评估值来评估由这一连串所选择的节点形成的路径。此时,在节点选择中,允许拍子搜索单元136跳过起始点。例如,在图13中,在第k-l个起始点之后,跳过第k个起始点,并且选择第k+l个起始点。这是因为,是拍子的起始点和不是拍子的起始点通常被混合在起始点中,并且只好从包括不经过不是拍子的起始点的路径在内的路径中搜索出可能的路径。 例如,对于路径的评估,可以使用4个评估值,S卩,(1)拍子得分,(2)速度变化得分,(3)起始点移动得分和(4)针对跳过的惩罚。其中,(1)拍子得分是由拍子得分计算单元134针对每个节点计算出的拍子得分。另一方面,对节点间的过渡给出(2)速度变化得分、(3)起始点移动得分和(4)针对跳过的惩罚。 在对节点间的过渡给出的评估值中,(2)速度变化得分是基于经验知识给出的评估值,经验知识通常是乐曲中逐渐波动的速度。即,在路径选择中节点间的过渡中,过渡前节点处的拍子间隔与过渡后节点处的拍子间隔之间的差越小,给出的速度变化得分的值越高。 图14是示出速度变化得分的示例的说明性示图。 在图14中,当前选择节点Nl。拍子搜索单元136有可能选择节点N2至N5中的任何节点作为下一节点(尽管也可以选择其它节点,但是为了便于描述,将描述4个节点,即节点N2至N5)。这里,当拍子搜索单元136选择节点N4时,由于节点Nl与节点N4处的拍子间隔之间没有差,所以将给出最高值作为速度变化得分。另一方面,当拍子搜索单元136选择节点N3或N5时,在节点Nl和节点N3或N5处的拍子间隔之间存在差,并且因此给出相对于选择节点N4时较低的速度变化得分。此外,当拍子搜索单元136选择节点N2时,由于节点Nl和节点N2处的拍子间隔之间的差大于节点N3或N5被选择时的差,所以给出更低的速度得分。 接着,(3)起始点移动得分是根据过渡前后节点的起始点位置之间的间隔是否与
过渡前节点处的拍子间隔相匹配而给出的评估值。 图15是示出起始点移动得分的示例的说明性示图。 在图15(15A)中,当前选择第k个起始点的具有拍子间隔d2的节点N6。并且还示出接下来可能被拍子搜索单元136选择的节点中的两个节点N7和N8。其中,节点N7是第k+l个起始点的节点,并且第k个起始点与第k+l个起始点之间的间隔(例如,帧编号之间的差)是D7。另一方面,节点N8是第k+2个起始点的节点,并且第k个起始点与第k+2个起始点之间的间隔是D8。 这里,当假定路径上的所有节点都成功与恒定速度中的拍子位置相对应的理想路径时,相邻节点的起始点位置之间的间隔是各个节点处的拍子间隔的整数倍(当无休止符时是相同间隔)。因此,如图15(15B)中所示,关于当前节点N6,起始点位置之间的间隔越接近节点N6处的拍子间隔d2的整数倍,起始点移动得分被定义得越高。在图15(15B)的示例中,由于节点N6和N8之间的间隔D8比节点N6和N7之间的间隔D7更接近节点N6处
14的拍子间隔d2的整数倍,所以,对从节点N6至节点N8的过渡给出更高的起始点移动得分。
现在,(4)针对跳过的惩罚是用于在节点间的过渡中限制起始点过多跳过的评估值。即,在一次过渡中跳过越多起始点则得分越低,而在一次过渡中跳过越少起始点则得分越高。这里,越低的得分意味着越高的惩罚。
图16是示出针对跳过的惩罚的示例的说明性示图。 在图16中,当前选择第k个起始点的节点N9。并且,还示出接下来可能被拍子搜索单元136选择的节点中的3个节点N10、 Nil和N12。其中,节点N10是第k+l个起始点的节点,节点Nil是第k+2个起始点的节点,而节点N12是第k+3个起始点的节点。S卩,在从节点N9至节点N10的过渡的情况中,没有跳过节点。另一方面,在从节点N9至节点Nil的过渡的情况中,跳过第k+l个起始点。此外,在从节点N9至节点N12的过渡的情况中,跳过第k+l个和第k+2个起始点。此时,针对跳过的惩罚在从节点N9至节点N10的过渡的情况中取得相对高的值,在从节点N9至节点Nil的过渡的情况中取得中间值,并且在从节点N9至节点N12的过渡的情况中取得低值。因此,可以防止更多数目的起始点被跳过从而使得节点之间的间隔恒定的现象。 此前,已经描述了用于评估由拍子搜索单元136搜索出的路径的4个评估值。使用图13描述的路径评估是关于所选择的路径,通过将对各个节点给出的或针对路径中所包括的节点间的过渡所给出的上述(1)至(4)的评估值彼此顺次相乘来执行的。拍子搜索单元136确定所有可以设想到的路径中评估值的乘积最大的路径作为最优路径。
图17是示出被拍子搜索单元136确定为最优路径的路径的示例的说明性示图。
在图17中,在图12中所示的拍子得分分布图中用点线描画出由拍子搜索单元136确定的最优路径的轮廓。参考图17,可见,在示图的示例中,由拍子搜索单元136针对其执行了搜索的乐曲的速度以拍子间隔d3为中心波动。由拍子搜索单元136确定的最优路径(最优路径中所包括的节点的列表)输出给以下将分别描述的恒定速度判定单元138、针对恒定速度的拍子重新搜索单元140以及拍子确定单元142。[OMO] (2-3-4.恒定速度判定单元) 恒定速度判定单元138判定由拍子搜索单元136确定的最优路径是否指示具有低的拍子间隔(即针对各个节点假定的拍子间隔)方差的恒定速度。更具体而言,恒定速度判定单元138首先计算从拍子搜索单元136输入的最优路径中所包括的节点处的一组拍子间隔的方差。然后,当所计算出的方差小于预先给定的特定阈值时,恒定速度判定单元138判定速度是恒定的;并且当所计算出的方差大于该特定阈值时,恒定速度判定单元138判定速度不是恒定的。 图18是示出恒定速度判定单元138的判定结果的两个示例的说明性示图。
参考图18(18A),用点线描画出轮廓的最优路径中起始点位置的拍子间隔根据时间变化。利用这样的路径,作为由恒定速度判定单元138进行的与阈值相关的判定的结果,可以判定速度不是恒定的。另一方面,参考图18(18B),由点线描画出轮廓的最优路径中的起始点位置的拍子间隔在整个乐曲中几乎恒定。作为由恒定速度判定单元138进行的与阈值相关的判定的结果,可以判定这样的路径是恒定的。由恒定速度判定单元138进行的与阈值相关的判定的结果被输出给针对恒定速度的拍子重新搜索单元140。
(2-3-5.针对恒定速度的拍子重新搜索单元)
当从拍子搜索单元136输出的最优路径被恒定速度判定单元138判定为指示恒定速度时,针对恒定速度的拍子重新搜索单元140重新执行路径搜索,将作为搜索对象的节点限制为仅在最经常出现的拍子间隔周围的那些节点。 图19是用于描述由针对恒定速度的拍子重新搜索单元140进行的路径重新搜索处理的说明性示图。 图19和图13—样,示出了以拍子间隔为观测序列的沿时间轴(起始点编号)的一组节点。这里,假定要被拍子搜索单元136确定为最优路径的路径中所包括的节点处的拍子间隔的众数是d4,并且该路径被恒定速度判定单元138判定为指示恒定速度。在这种情况中,针对恒定速度的拍子重新搜索单元140将仅拍子间隔d满足d4-Th2《d《d4+Th2(Th2是预先给出的特定阈值)的那些节点作为搜索对象来再次搜索路径。例如,在图19的示例中,针对第k个起始点示出5个节点N12至N16。其中,N13至N15处的拍子间隔被包括在搜索范围(d4-Th2《d《d4+Th2)内。相比之下,N12和N16处的拍子间隔未被包括在上述搜索范围内。因此,关于第k个起始点,仅3个节点N13至N15成为由针对恒定速度的拍子重新搜索单元140进行的路径搜索重新执行的对象。此外,由针对恒定速度的拍子重新搜索单元140进行的对路径的重新搜索处理的流程与使用图13至17描述的由拍子搜索单元136进行的路径搜索处理相似,不同在于成为搜索的对象的节点的范围不同。 根据如上所述由针对恒定速度的拍子重新搜索单元140进行的路径重新搜索处理,关于具有恒定速度的乐曲,可以减少路径搜索的结果中可能局部发生的与拍子位置相关的误差。由针对恒定速度的拍子重新搜索单元140确定的最优路径输出给拍子确定单元142。 (2-3-6.拍子确定单元) 拍子确定单元142基于由拍子搜索单元136确定的最优路径或由针对恒定速度的拍子重新搜索单元140确定的最优路径以及基于路径中所包括的各个节点处的拍子间隔,确定音频信号中所包括的拍子位置。 图20是用于描述由拍子确定单元142进行的拍子确定处理的说明性示图。
在图20(20A)中再次示出使用图9描述的、由起始点检测单元132进行的起始点检测的结果的示例。在该示例中,示出了由起始点检测单元132检测到的在第k个起始点附近的14个起始点。 相比之下,图20(20B)示出了由拍子搜索单元136或针对恒定速度的拍子重新搜索单元140确定的最优路径中所包括的起始点。在20B的示例中,20A中所示出的14个起始点中,第k-7个起始点、第k个起始点和第k+6个起始点(帧编号Fk—7、Fk、Fk+6)被包括在最优路径中。此外,第k-7个起始点处的拍子间隔(等同于对应节点处的拍子间隔)是4—7,并且第k个起始点处的拍子间隔是dk。 关于这样的起始点,首先,拍子确定单元142将最优路径中所包括的起始点的位置作为乐曲的拍子位置。然后,拍子确定单元142根据各个起始点处的拍子间隔在最优路径中所包括的相邻起始点之间设置补充拍子。 拍子确定单元142首先确定用来在最优路径上彼此相邻的起始点之间设置拍子的补充拍子的数目。例如,如图21中所示,假定两个相邻起始点的位置是Fh和Fw,并且起始点位置Fh处的拍子间隔是dh。在这种情况中,拍子确定单元142所要设置在Fh和Fh+1之间的补充拍子的数目Bfill由以下等式给出。
[等式2]
<formula>formula see original document page 17</formula> 此外,在等式2中,Ro皿d(X)指示X被四舍五入为最接近的整数。即,拍子确定单元142所要设置的补充拍子的数目将是通过以下方式得到的数相邻起始点之间的间隔除以拍子间隔得到的值四舍五入为最接近的整数,并且之后考虑栅栏柱问题从所得到的整数中减去l。 接着,拍子确定单元142在最优路径彼此相邻的起始点之间设置已经以上述方式确定了数目的补充拍子,使得这些拍子以相等的间隔排列。在图20(20C)的示例中,在第k_7个起始点和第k个起始点之间以及在第k个起始点与第k+6个起始点之间设置两个补充拍子。应当注意,由拍子确定单元142提供的补充拍子的位置不一定与由起始点检测单元132检测到的起始点的位置相对应。因此,拍子确定单元142可以恰当地确定拍子的位置而不受该拍子位置之外处产生的声音的影响。此外,即使在该拍子位置处为休止符而没有声音产生的情况中,也可以恰当地把握拍子位置。 由拍子确定单元142确定的拍子位置的列表(包括最优路径上的起始点和由拍子确定单元142设置的补充拍子)输出给速度修正单元144。
(2-3-7.速度修正单元) 由拍子确定单元142确定的拍子位置所指示的速度有可能是乐曲的原始速度的
常数倍,例如2倍、1/2倍、3/2倍、2/3倍等。速度修正单元144考虑了这种可能性并且通过
对作为常数倍的被错误地把握的速度进行修正来再现乐曲的原始速度。 图22是示出为常数倍关系的三种类型的速度中每种速度的拍子位置的样式的示
例的说明性示图。 参考图22,在图中所示的时间范围(22A)中检测到6个拍子。相比之下,在22B中,在相同的时间范围中检测到12个拍子。即,22B的拍子位置利用22A的拍子位置作为基准指示2倍速度。 另一方面,在22C-1中,在相同的时间范围中包括3个拍子。即,22C-1的拍子位置利用22A的拍子位置作为基准指示1/2倍速度。在22C-2中,与22C-1 —样,在相同时间范围中包括3个拍子,并且因此利用22A的拍子位置作为基准指示1/2倍速度。然而,22C-1和22C-2彼此不同在于在从基准速度改变速度时将保留的拍子位置。 例如,通过以下过程(1)至(3)来执行由速度修正单元144进行的对速度的修正。
(1)确定基于波形所估计出的估计速度
(2)确定多个乘子中的最优基本乘子
(3)重复(2)直到基本乘子为1为止
(1)确定基于波形所估计出的估计速度 首先,速度修正单元144从音频信号的波形中出现的声音特征中确定被估计为足够的估计速度。例如,作为采用JP-A-2008-123011中所公开的学习算法的机器学习的结果
17而获得的估计速度辨别公式可以用于确定估计速度。 由速度修正单元144使用的估计速度辨别公式采用JP-A-2008-123011中所公开 的学习算法并且是通过图23中所示的学习处理获得的。 首先,向学习算法提供已从乐曲的音频信号中变换出的多个对数谱,作为输入数 据。例如,在图23中,对数谱LS l至LSn被提供给学习算法。此外,由正在收听乐曲的人 判定为正确的速度被输入学习算法,作为教师数据。例如,在图23中,各个对数谱的正确速 度(LSI :100, . . . , LSn :60)被提供给学习算法。基于多组这样的输入数据和教师数据,通 过上述学习算法来预先获得用于从对数谱中确定估计速度的估计速度辨别公式。
速度修正单元144通过将如上所述预先获得的估计速度辨别公式应用于输入到 信息处理设备100的音频信号,来确定估计速度。
(2)确定多个乘子中的最优基本乘子 接着,速度修正单元144从多个基本乘子中确定使得修正后的速度与乐曲的原始 速度最接近的基本乘子。这里,该基本乘子是作为用于速度修正的常数比的基本单位的乘 子。例如,在本实施例中,基本乘子被描述为七种类型的乘子(即,1/3、1/2、2/3、1、3/2、2 和3)中的任何一个。然而,基本乘子不限于这样的示例,并且例如可以是五种类型的乘子 (即,1/3、1/2、1、2和3)中的任何一个。 为了确定最优基本乘子,速度修正单元144首先针对上述基本乘子中的每个基本 乘子来计算根据该乘子修正拍子位置之后的平均拍子概率(在基本乘子为1的情况中,针 对拍子位置未被修正的情况来计算平均拍子概率)。 图24是用于描述由速度修正单元144针对各个乘子计算出的平均拍子概率的说 明性示图。 参考图24,如图5的下部一样,在时间轴上利用折线示出了由拍子概率计算单元 120计算出的拍子概率。并且,在水平轴上示出了根据这些乘子中任何一个修正后的3个拍 子的帧编号Fh—^Fh和Fw。这里,当帧编号Fh的拍子概率是BP(h)时,通过以下等式给出根 据乘子r修正后的拍子位置的群组F(r)的平均拍子概率BPAve(r)。
[等式3]
Z畔)肌,丄、=
赢/广 ,人 (3)
m厂、 这里,在上述等式中,m(r)是群组F(r)中所包括的帧编号的个数。
此外,如使用图22(C-l)和(C-2)所描述的,在基本乘子r为1/2时,存在拍子位 置的两种类型的候选。在这种情况中,速度修正单元144针对拍子位置的两种类型的候选 中的每一种计算平均拍子概率BP皿(r),并且采用具有较高平均拍子概率BP皿(r)的拍子位 置作为根据乘子r = 1/2修正后的拍子位置。类似地,在乘子r为1/3的情况中,存在拍子 位置的三种类型的候选。在这种情况中,速度修正单元144针对拍子位置的三种类型的候 选计算出平均拍子候选BP皿(r),并且采用具有最高平均拍子概率BP皿(r)的拍子位置作为 根据乘子r = 1/3修正后的拍子位置。 接着,在针对各个基本乘子计算出平均拍子概率之后,速度修正单元144基于估
18计速度和平均拍子概率来计算针对各个基本乘子修正后的速度的似然(以下,称为"速度 似然")。这里,速度似然可以是通过以估计速度为中心的高斯分布示出的速度概率与平均 拍子概率的乘积。 图25是用于描述由速度修正单元144计算出的速度似然的说明性示图。
图25(25A)示出由速度修正单元144针对各个乘子计算出的平均拍子概率。并 且,图25(25B)示出高斯分布形式的速度概率,其是由预先给定的特定方差ol确定的,并 且以由速度修正单元144基于音频信号的波形估计出的估计速度为中心。此外,25A和25B 的水平轴表示已经根据各个乘子修正拍子位置之后,速度的对数。速度修正单元144通过 将平均拍子概率与速度概率彼此相乘,来针对基本乘子中的每个基本乘子计算图25 (25C) 中所示的速度似然。即,在图25的示例中,尽管平均拍子概率对于基本乘子是1时和其为 1/2时几乎是相同的,但是被修正为1/2倍的速度与估计速度更接近(速度概率高),因此, 对于被修正为1/2倍的速度,所计算出的速度似然更高。速度修正单元144以这种方式计 算速度似然,并且确定产生最高速度似然的基本乘子,作为使得修正后的速度最接近乐曲 的原始速度的基本乘子。 以这种方式,通过在有可能的速度的确定中考虑可以从估计速度获得的速度概
率,可以从候选中精确地确定恰当的速度,这些候选是具有常数倍关系并且基于声音的局
部波形难以相互辨别的速度。 (3)重复(2)直到基本乘子为1为止 然后,速度修正单元144针对各个基本乘子重复对平均拍子概率的计算和对速度 似然的计算,直到产生最高速度似然的基本乘子为1为止。结果,即使在由速度修正单元 144进行的修正之前的速度是乐曲的原始速度的1/4倍、1/6倍、4倍、6倍等,也可以用通过 基本乘子的组合获得的用于修正的恰当乘子(例如,1/2倍X 1/2倍=1/4倍)来修正速 度。 图26是示出速度修正单元144的修正处理流程的示例的流程图。
参考图26,首先,速度修正单元144通过使用预先通过学习获得的估计速度辨别 公式来从音频信号中确定估计速度(S1442)。接着,速度修正单元144针对多个基本乘子 (例如,l/3、l/2等)顺次执行循环(S1444)。在循环内,如使用图22所描述的,速度修正单 元144根据各个基本乘子来改变拍子位置,并且修正速度(S1446)。接着,如使用图24所描 述的,速度修正单元144计算修正后的拍子位置的平均拍子概率(S1448)。接着,如使用图 25所描述的,速度修正单元144基于在S1448处计算出的平均拍子概率和在S1442处确定 的估计速度来计算针对各个基本乘子的速度似然(S1450)。然后,当该循环对于所有基本乘 子都结束了时(S1452),速度修正单元144确定产生最高速度似然的基本乘子(S1454)。此 外,速度修正单元144判定产生最高速度似然的基本乘子是否是1 (S1456)。如果产生最高 速度似然的基本乘子是l,则速度修正单元144的修正处理终止。另一方面,当产生最高速 度似然的基本乘子不是1时,处理返回S1444。从而,基于根据产生最高速度似然的基本乘 子修正后的速度(拍子位置),再次执行根据基本乘子中的任何一个的速度修正。
在上述从起始点检测单元132直到速度修正单元144的处理之后,由拍子分析单 元130进行的拍子分析处理终止。作为由拍子分析单元130进行的分析的结果而检测到的 拍子位置输出给稍后描述的结构分析单元150和和弦概率计算单元160。
(2-4.结构分析单元) 结构分析单元150基于从对数谱变换单元110输入的音频信号的对数谱和从拍子 分析单元130输入的拍子位置,计算该音频信号中所包括的拍子区间之间的声音的类似概率。 图27是示出结构分析单元150的详细配置的框图。参考图27,结构分析单元150 包括拍子区间特征量计算单元152、相关性计算单元154和类似概率生成单元156。
(2-4-1.拍子区间特征量计算单元) 拍子区间特征量计算单元152关于由拍子分析单元130检测到的各个拍子来计算 拍子区间特征量,拍子区间特征量表示从该拍子到下一拍子的拍子区间的局部对数谱的特 征。 图28是示出拍子、拍子区间和拍子区间特征量之间的关系的说明性示图。
在图28的上部示出由拍子分析单元130检测到的6个拍子Bl至B6。该拍子区间 是通过在拍子位置处划分音频信号所获得的区间,并且指示从一个拍子到下一个拍子之间 的区间。B卩,在图28的示例中,拍子区间BDl是从拍子B1至拍子B2的区间;拍子区间BD2 是从拍子B2至拍子B3的区间;并且拍子区间BD3是从拍子B3至拍子B4的区间。此外,拍 子区间特征量计算单元152从与各个拍子区间BD1至BD6相对应的局部对数谱中计算各个 拍子区间特征量BF1至BF6。 图29和图30是用于描述由拍子区间特征量计算单元152进行的对拍子区间特征 量的计算处理的说明性示图。 在图29(29A)中,由拍子区间特征量计算单元152截取与拍子相对应的拍子区间 BD的局部对数谱。拍子区间特征量计算单元152首先通过对局部对数谱的各个音调(八度 音阶的数目X12个音符)的能量进行时间平均来计算各个音调的平均能量。图29(29B) 示出由拍子区间特征量计算单元152计算出的各个音调的平均能量的水平。
接着,参考图30(30A),示出与图29 (29B)中所示一样的各个音调的平均能量水 平。然后,拍子区间特征量计算单元152针对12个音符,对若干个八度音阶上不同八度音 阶中有相同名称的音符的平均能量的值求加权和,并且计算相应12个音符的能量。例如, 在图30(30B,30C)中所示的示例中,通过使用特定的权重(Wp W2, . . . , Wn)对n个八度音阶 上的音符C(Q,(^,... ,Cn)的平均能量进行加权并且加和到一起,并且计算出音符C的能量 值Enc。此外,以相同的方式,通过使用特定的权重(WpWy...,Wn)对n个八度音阶上的音 符B(BpB^. . . ,Bn)的平均能量进行加权并且加和到一起,并且计算出音符B的能量值Erv 对于音符C和音符B之间的IO个音符(Cft至Aft)同样如此。结果,生成了以相应12个音 符的能量值ENC, ENCT, . . . , ENB为元素的12维向量。拍子区间特征量计算单元152针对每 个拍子计算这样的相应12个音符的能量(12维向量)作为拍子区间特征量BF,并且将它输 出给相关性计算单元154。 用于求加权和的各个八度音阶的权重WpW^. . . ,Wn的值优选在普通乐曲的旋律或 和弦清楚的中音域中较大。这使得能够在更清楚地反映旋律或和弦的特征的情况下对乐曲 结构进行分析。 (2-4-2.相关性计算单元) 相关性计算单元154针对音频信号中所包括的所有拍子区间对,通过使用从拍子区间特征量计算单元152输入的拍子区间特征量,即,各个拍子区间的相应12个音符的能 量,计算拍子区间之间的相关系数。 图31是用于描述相关性计算单元154进行的相关系数计算处理的说明性示图。
在图31中,示出第一所关注拍子区间BDi和第二所关注拍子区间BDj作为要计算 相关系数的一对拍子区间的示例,拍子区间是通过划分对数谱获得的。为了计算这两个所 关注拍子区间之间的相关系数,相关性计算单元154首先获得第一所关注拍子区间BR以 及前后N个区间(也称为"2N+1个区间")(在图31的示例中,N = 2,总共5个区间)的相 应12个音符的能量。同样地,相关性计算单元154获得第二所关注拍子区间BDj以及前后 N个区间的相应12个音符的能量。然后,相关性计算单元154计算所获得的第一所关注拍 子区间BDi以及前后N个区间的相应12个音符的能量与所获得的第二所关注拍子区间BDj 以及前后N个区间的相应12个音符的能量之间的相关系数。相关性计算单元154针对所 有的第一所关注拍子区间BDi和第二所关注拍子区间BDj对来计算所述相关系数,并且向类 似概率生成单元156输出计算结果。
(2-4-3.类似概率生成单元) 类似概率生成单元156通过使用预先生成的变换曲线,将从相关性计算单元154 输入的、拍子区间之间的相关系数变换成类似概率,类似概率指示拍子区间的声音内容之 间的类似程度。 图32是用于描述将相关系数变换成类似概率时所使用的变换曲线的示例的说明 性示图。 图32(32A)示出预先获得的两种概率分布,S卩,具有相同声音内容的拍子区间之 间的相关系数的概率分布和具有不同声音内容的拍子区间之间的相关系数的概率分布。从 图32(32A)中可见,相关系数越低,声音内容彼此相同的概率越低,并且相关系数越高,声 音内容彼此相同的概率越高。因此,可以预先生成如图32(32B)中所示、用于从相关系数中 导出拍子区间之间的类似概率的变换曲线。类似概率生成单元156通过使用预先以这种 方式生成的变换曲线,将从相关性计算单元154输入的相关系数COl例如变换成类似概率 SP1。 图33是作为一个示例的将由结构分析单元150计算出的拍子区间之间的类似概 率可视化的说明性示图。 图33的垂直轴对应于第一所关注拍子区间中的位置,并且水平轴对应于第二所 关注拍子区间中的位置。此外,两维平面上绘出的颜色的浓淡指示该坐标处第一所关注拍 子区间和第二所关注拍子区间之间的类似概率的程度。例如,第一所关注拍子区间il与和 第一所关注拍子区间il基本相同的第二所关注拍子区间jl之间的类似概率自然显示高 值,并且示出这些拍子区间具有相同的声音内容。当被演奏的乐曲部分到达第二所关注拍 子区间j2时,第一所关注拍子区间il与第二所关注拍子区间j2之间的类似概率再次显示 高值。即,可以看出,很有可能在第二所关注拍子区间j2中正在演奏与第一所关注拍子区 间il的声音内容几乎相同的声音内容。由结构分析单元150以这种方式获得的拍子区间 之间的类似概率输出给稍后描述的小节线检测单元180和和弦进行检测单元190。
此外,在本实施例中,由于对拍子区间中的能量的时间平均被用于对拍子区间特 征量的计算,所以对于由结构分析单元150进行的对乐曲结构的分析,没有考虑拍子区间中的对数谱中有关时间变化的信息。即,即使在两个区间中演奏相同的旋律而该旋律(例
如,由于演奏者的编排)在时间上彼此偏移,所演奏的内容仍被判定为相同,只要该偏移仅
发生在拍子区间内即可。
(2-5.和弦概率计算单元) 和弦概率计算单元160针对由拍子分析单元130检测到的各个拍子,计算和弦概
率,和弦概率指示与各个拍子相对应的拍子区间中各种和弦被演奏的概率。 此外,由和弦概率计算单元160计算出的和弦概率的值是用于由稍后描述的基调
检测单元170进行的基调检测处理的临时值。由稍后描述的和弦进行检测单元190的和弦
概率计算单元196考虑各个拍子区间的基调概率来重新计算和弦概率。 图34是示出和弦概率计算单元160的详细配置的框图。参考图34,和弦概率计算
单元160包括拍子区间特征量计算单元162、根音特征量准备单元164和和弦概率计算单元
166。 (2-5-1.拍子区间特征量计算单元) 与结构分析单元150的拍子区间特征量计算单元152 —样,拍子区间特征量计算 单元162针对由拍子分析单元130检测到的各个拍子来计算相应12个音符的能量,作为表 示与各个拍子相对应的拍子区间中的音频信号的特征的拍子区间特征量。由拍子区间特征 量计算单元162进行的对相应12个音符的能量的计算处理与使用图28至图30描述的由 拍子区间特征量计算单元152进行的处理相同。然而,拍子区间特征量计算单元162以使 用与图30中所示的权重Wp W2, . . . , Wn不同的值,作为用于对12个音符中每一个音符针对 各个八度音阶的平均能量进行加权并且加和到一起的权重的值。拍子区间特征量计算单元 162计算出相应12个音符的能量作为拍子区间特征量,并且将其输出给根音特征量准备单 元164。 (2-5-2.根音特征量准备单元) 根音特征量准备单元164根据从拍子区间特征量计算单元162输入的相应12个
音符的能量,生成用于各个拍子区间的和弦概率的计算的根音特征量。 图35和图36是用于描述由根音特征量准备单元164进行的根音特征量生成处理
的说明性示图。 根音特征量准备单元164首先针对所关注拍子区间BDi,提取所关注拍子区间BDi 以及前后N个区间的相应12个音符的能量(参考图35)。所关注拍子区间BDi以及前后N 个区间的相应12个音符的能量可以被认为是将音符C作为和弦的根音(基音)的特征量。 在图35的示例中,由于N为2,所以将音符C作为根音的5个区间的根音特征量(12X5维) 被提取出。此外,这里N的值可以是与图31中的N的值相同或不同的值。
接着,根音特征量准备单元164通过将将音符C作为根音的5个区间的根音特征 量的12个音符的元素位置转移特定数目,生成11个单独的根音特征量,每个根音特征量针 对5个区间并且每个根音特征量以音符C#至音符B的任何音符为根音(参考图36)。此 外,元素位置被转移的转移数是在音符Cft为根音的情况下为l,在音符D为根音的情况下 为2,……,并且在音符B为根音的情况下为ll。结果,由根音特征量准备单元164针对相 应12个音符生成了根音特征量(分别为12X5维),每个根音特征量将从音符C至音符B 的12个音符中的一个作为根音。
根音特征量准备单元164针对所有拍子区间执行如上所述的根音特征量生成处 理,并且准备用于针对各个区间的和弦概率计算的根音特征量。此外,在图35和图36的示 例中,准备用于一个拍子区间的特征量是12X5X12维向量。由根音特征量准备单元164 生成的根音特征量输出给和弦概率计算单元166。
(2-5-3.和弦概率计算单元) 和弦概率计算单元166通过使用从根音特征量准备单元164输入的根音特征量, 针对各个拍子区间来计算指示各种和弦被演奏的概率的和弦概率。这里的"各种和弦"是 指例如基于根音(C, C#, D,… )、构成音符的数目(三和弦(triad)、七和弦(7th chord)、 九和弦(9th chord))、调性(大调/小调)等来区分的和弦中的各种和弦。例如,通过逻辑 回归分析预先习得的和弦概率公式可以用于和弦概率的计算。 图37是用于描述用于由和弦概率计算单元166进行的和弦概率计算的和弦概率 公式的学习处理的说明性示图。 和弦概率公式的学习是针对每种类型的和弦来执行的。即,例如针对用于大和弦 的和弦概率公式、用于小和弦的和弦概率公式、用于七和弦的和弦概率公式和用于九和弦 的和弦概率公式中的每一个,执行以下描述的学习处理。 首先,提供多个根音特征量(例如,用图36描述的12X5X12维向量)作为用于
逻辑回归分析的独立变量,每个根音特征量是针对正确和弦已知的拍子区间的。 此外,针对各个拍子区间的根音特征量中的每一个,提供用于通过逻辑回归分析
预测生成概率的哑元数据(教师数据)。例如,当学习用于大和弦的和弦概率公式时,如果
已知的和弦是大和弦,则哑元数据的值将为真值(1),并且对于任何其它情况,哑元数据的
值为假值(0)。并且,当学习用于小和弦的和弦概率公式时,如果己知的和弦是小和弦,则哑
元数据的值将为真值(l),并且对于任何其它情况,哑元数据的值为假值(0)。可以说,对于
七和弦和九和弦也是如此。 通过使用上述独立变量和鹏元数据来对足够数目的根音特征量(每个根音特征 量针对一个拍子区间)执行逻辑回归分析,预先获得了用于从各个拍子区间的根音特征量 计算出相应类型的和弦概率的和弦概率公式。 然后,和弦概率计算单元166将预先获得的和弦概率公式应用于从根音特征量准 备单元164输入的根音特征量,并且针对各个拍子区间的相应类型的和弦顺次计算和弦概率。 图38是用于描述由和弦概率计算单元166进行的和弦概率计算处理的说明性示 图。 参考图38(38A),示出了各个拍子区间的根音特征量中,用音符C作为根音的根音 特征量。和弦概率计算单元166将通过学习预先获得的用于大和弦的和弦概率公式例如 应用于用音符C作为根音的根音特征量,并且针对该拍子区间计算和弦为"C"的和弦概率 CPC。此外,和弦概率计算单元166将用于小和弦的和弦概率公式应用于用音符C作为根音 的根音特征量,并且针对该拍子区间计算和弦为"Cm"的和弦概率CPCm。
以类似的方式,和弦概率计算单元166可以将用于大和弦的和弦概率公式和用于 小和弦的和弦概率公式应用于用音符C#作为根音的根音特征量,并且可以计算和弦"Cft" 的和弦概率CPefl和和弦"C#m"的和弦概率CPeflm(38B)。可以说,对和弦"B"的和弦概率CPB和和弦"Bm"的和弦概率CPBm的计算也是如此(38C)。 图39是示出由和弦概率计算单元166计算出的和弦概率的示例的说明性示图。
参考图39,针对某一拍子区间,计算从音符C至音符B的12个音符中每一个音符 的各种和弦的和弦概率,这些和弦例如是"Maj(大和弦)"、"m(/小和弦)"、"7 (七和弦)" 和"m7 (/小七和弦)"。根据图39的示例,和弦概率CPC是0. 88, CPCm是0. 08, CPC7是0. 01, CPCm7是0. 02并且CPB是0. 01。其它和弦概率值都指示0。 此外,在计算多种类型的和弦的和弦概率之后,和弦概率计算单元166以使得每 拍子区间的所计算出的概率值的总和变成l的方式对概率值进行归一化。针对音频信号中 所包括的所有拍子区间重复如上所述由和弦概率计算单元166进行的计算和归一化处理。
在如上所述的由拍子区间特征量计算单元162至和弦概率计算单元166执行的处 理之后,由和弦概率计算单元160进行的和弦概率计算处理结束。由和弦概率计算单元160 计算出的和弦概率输出给接下来所描述的基调检测单元170。
(2-6.基调检测单元) 基调检测单元170通过使用由和弦概率计算单元160针对各个拍子区间计算出的 和弦概率来检测各个拍子区间的基调(调性/基本音阶)。基调检测单元170还在基调检 测的处理中计算各个拍子区间的基调概率。 图40是示出基调检测单元170的详细配置的框图。参考图40,基调检测单元170 包括相对和弦概率生成单元172、特征量准备单元174、基调概率计算单元176和基调确定 单元178。 (2-6-1.相对和弦概率生成单元) 相对和弦概率生成单元172根据从和弦概率计算单元160输入的、各个拍子区间
的和弦概率,生成用于计算各个拍子区间的基调概率的相对和弦概率。 图41是用于描述由相对和弦概率生成单元172进行的相对和弦概率生成处理的
说明性示图。 相对和弦概率生成单元172首先从某一所关注的拍子区间的和弦概率提取出大 和弦和小和弦的和弦概率值。这里所提取的和弦概率值形成总共24维的向量,即,大和弦 的12个音符和小和弦的12个音符。以下,24维向量被视为将音符C假定为基调的相对和 弦概率。 接着,相对和弦概率生成单元172通过将所提取出的大和弦和小和弦的和弦概率 值的12个音符的元素位置转移特定数目,生成11个单独的相对和弦概率。此外,元素位置 被转移的转移数与如使用图36所述生成根音特征量时的转移数相同。结果,由相对和弦概 率生成单元172生成12个单独的相对和弦概率,每个相对和弦概率假定从音符C至音符B 的12个音符中的一个作为基调。 相对和弦概率生成单元172针对所有拍子区间执行如上所述的相对和弦概率生 成处理,并且向特征量准备单元174输出所生成的相对和弦概率。
(2-6-2.特征量准备单元) 特征量准备单元174根据从相对和弦概率生成单元172输入的相对和弦概率来计 算各个拍子区间的和弦出现得分和和弦过渡出现得分,作为用于计算各个拍子区间的基调 概率的特征量。
24
图42是用于描述由特征量准备单元174生成的各个拍子区间的和弦出现得分的 说明性示图。 参考图42,特征量准备单元174首先假定音符C作为基调,针对所关注的拍子区 间以及前后M个拍子区间来提供相对和弦概率CP。然后,特征量准备单元174将所关注的 拍子区间以及前后M个拍子区间上相同位置处的元素的概率值进行加和,这些概率值被包 括在假定音符C作为基调的相对和弦概率中。结果,根据各种和弦的出现概率获得和弦出 现得分(CEc,CECfl,. . . ,CEBm) (24维向量),出现概率是针对所关注的拍子区间和所关注的拍 子区间周围的多个拍子区间的并且是假定音符C作为基调的。特征量准备单元174针对假 定从音符C至音符B的12个音符中的一个作为基调的每种情况,执行上述和弦出现得分计 算。从而,针对一个所关注拍子区间获得12个单独的和弦出现得分。 接着,图43是用于描述由特征量准备单元174生成的各个拍子区间的和弦过渡出 现得分的说明性示图。 参考图43,特征量准备单元174首先关于拍子区间BDi与相邻拍子区间BDi+1之间 的所有和弦对(即,所有和弦过渡),将和弦过渡前后的相对和弦概率彼此相乘,这些相对 和弦概率假定音符C作为基调。这里,"所有的和弦对"是指24X24个对,即,"C" — "C"、 "C" —"C#"、"C,,一"D"、"B" —"B"。接着,特征量准备单元174针对整个所关注的
拍子区间和前后M个区间,对和弦过渡前后的相对和弦概率的相乘结果进行加和。结果, 根据各种和弦过渡的出现概率获得24X24维和弦过渡出现得分(24X24维向量),出现概 率是针对所关注的拍子区间和所关注的拍子区间周围的多个拍子区间的并且是假定音符C 作为基调的。例如,对于所关注的拍子区间BDi,有关从"C"至"Cft"的和弦过渡的和弦过渡 出现得分CTc —Cfl(i)由下式给出。
[等式4] <formula>formula see original document page 25</formula>
特征量准备单元174针对假定从音符C至音符B的12个音符中的一个音符作为 基调的每种情况,执行上述24X24次单独的和弦过渡出现得分CT计算。从而,对于一个所 关注的拍子区间,获得12个单独的和弦过渡出现得分。 此外,与可能因各个小节而变化的和弦不同,例如,乐曲的基调通常在较长一段时 间保持不变。因此,对要用于和弦出现得分或和弦过渡出现得分的计算的相对和弦概率的 范围进行定义的M的值例如是可以包括许多小节(例如,几十个拍子)的合适的值。
特征量准备单元174向基调概率计算单元176输出针对每个拍子区间计算出的24 维和弦出现得分CE和24X24维和弦过渡出现得分,作为用于计算基调概率的特征量。 [O302] (2-6-3.基调概率计算单元) 基调概率计算单元176通过使用从特征量准备单元174输入的和弦出现得分和和
弦过渡出现得分,针对各个拍子区间,计算指示各种基调被演奏的概率的基调概率。这里的
"各种基调"是指例如基于12个音符(C, C#, D,...)或调性(大调/小调)来区分的基调。
例如,通过逻辑回归分析预先获得的基调概率公式可以用于基调概率的计算。 图44是用于描述用于由基调概率计算单元176进行的基调概率的计算的基调概
率公式的学习处理的说明性示图。
基调概率公式的学习是针对大调和小调独立执行的。即,通过学习获得两个公式, 即,大调概率公式和小调概率公式。 首先,提供正确基调已知的各个拍子区间的和弦出现得分和和弦过渡出现得分, 作为逻辑回归分析中的独立变量。 接着,针对所提供的和弦出现得分和和弦过渡出现得分对中的每一对,提供用于 通过逻辑回归分析预测生成概率的哑元数据(教师数据)。例如,当学习大调概率公式时, 如果已知的基调是大调,则哑元数据将为真值(1),并且当是任何其它情况时,哑元数据为 假值(0)。并且,当学习小调概率公式时,如果已知的基调是小调,则鹏元数据将为真值 (1),并且当是任何其它情况时,哑元数据为假值(0)。 通过使用足够数目的独立变量和哑元数据对来执行逻辑回归分析,预先获得用于 从和弦出现得分和和弦过渡出现得分对中计算出大调或小调的概率的基调概率公式。
然后,基调概率计算单元176将基调概率公式中的每一个应用于从特征量准备单 元174输入的一对和弦出现得分和和弦过渡出现得分,并且针对各个拍子区间顺次计算各 种基调的基调概率。 图45是用于描述由基调概率计算单元176进行的基调概率的计算处理的说明性 示图。 参考图45(45A),基调概率计算单元176例如将预先通过学习获得的大调概率公 式应用于假定音符C为基调的一对和弦出现得分和和弦过渡出现得分,并且针对相应拍子 区间计算基调为"C"的基调概率KPe。基调概率计算单元176还将小调概率公式应用于假 定音符C为基调的这一对和弦出现得分和和弦过渡出现得分,并且针对相应拍子区间计算 基调为"Cm"的基调概率KPCm。 类似地,基调概率计算单元176可以将大调概率公式和小调概率公式应用于假定 音符C#为基调的一对和弦出现得分和和弦过渡出现得分,并且可以计算基调概率KPCfl和 KPCflm(45B)。可以说,对基调概率KPB和KPBm的计算同样如此(45C)。 图46是示出由基调概率计算单元176计算出的基调概率的示例的说明性示图。
参考图46,对于从音符C至音符B的12个音符,针对某一拍子区间计算两种类型 的基调概率,即针对"Maj (大调)"和"m(小调)"。根据图46的示例,基调概率KPC是0. 90, 并且基调概率KPCm是0. 03 。此外,其它基调概率值都指示0 。 此外,在计算了所有类型的基调的基调概率之后,基调概率计算单元176以使得 每拍子区间所计算出的概率值的总和为1的方式对概率值进行归一化。针对音频信号中所 包括的所有拍子区间重复如上所述由基调概率计算单元176进行的计算和归一化处理。基 调概率计算单元176以这种方式针对各个拍子区间来计算各个基调的基调概率,并且将基 调概率输出给基调确定单元178。 此外,基调概率计算单元176根据针对从音符C至音符B的12个音符并且针对两
种类型的基调(即,大调和小调)所计算出的基调概率值来计算出不区分大调和小调的简 单基调概率。 图47是用于描述由基调概率计算单元176进行的简单基调概率的计算处理的说 明性示图。 参考图47(47A),由基调概率计算单元176针对某一拍子区间计算出的基调概率KPC、 KPCm、 KPA和KPAm分别是0. 90、0. 03、0. 02和0. 05。其它基调概率值全都指示0。此时, 基调概率计算单元176通过针对从音符C至音符B的12个音符对为平行调关系的基调的基 调概率值进行加和,来计算不区分大调和小调的简单基调概率。例如,简单基调概率SKPc是 基调概率KPc和KP紐的总和,即,SKPc二 0.90+0. 05 = 0.95。这是因为C大调(基调"C") 和A小调(基调"Am")为平行调关系。类似地针对音符C#至音符B执行简单基调概率计 算。 由基调概率计算单元176计算出的12个单独的简单基调概率SKPC至SKPB输出给 和弦进行检测单元190。 [O320](基调确定单元) 基调确定单元178基于由基调概率计算单元176针对各个拍子区间计算出的各个 基调的基调概率,通过路径搜索来确定有可能的基调进行。例如,上述Viterbi算法可以用 作由基调确定单元178进行的路径搜索的方法。 图48是用于描述由基调确定单元178进行的路径搜索的说明性示图。 在将Viterbi算法应用于由基调确定单元178进行的路径搜索的情况中,拍子被
顺次布置在时间轴(图48中的水平轴)上。此外,已经被计算出了基调概率的基调的类型
被用于观测序列(图48中的垂直轴)。S卩,基调确定单元178将所有已经由基调概率计算
单元176计算出了基调概率的拍子和基调类型构成的对中的每一对作为路径搜索的对象节点。 关于上述节点,基调确定单元178沿时间轴顺次选择这些节点中的任何一个,并
且通过使用两个评估值,(1)基调概率和(2)基调过渡概率,来评估由一连串所选择的节点
形成的路径。此外,在由基调确定单元178进行对节点的选择时,不允许跳过拍子。 (1)基调概率是由基调概率计算单元176计算出的上述基调概率。对图48中所示
的各个节点给出基调概率。另一方面,(2)基调过渡概率是对节点间的过渡给出的评估值。
基调过渡概率是基于正确基调已知的乐曲中转调的发生概率,针对各种转调样式预先定义的。 图49是示出基调过渡概率的示例的说明性示图。 与针对过渡的转调量相应的12个单独的值被定义为以下4种样式的基调过渡中 每种样式的基调过渡概率从大调至大调、从大调至小调、从小调至大调和从小调至小调。 图49示出与针对从大调至大调的基调过渡的转调量相应的12个单独的概率值的示例。例 如,当与转调量Ak相关的基调过渡概率是Pr(Ak)时,Pr(O)为0. 9987。这指示乐曲中基 调变化的概率很低。另一方面,Pr(l)为0.0002。这指示基调被升高一个音调(或被降低 11个音调)的概率是0.02%。类似地,Pr (2) 、 Pr (3) 、 Pr (4) 、 Pr (5) 、 Pr (7) 、 Pr (8) 、 Pr (9) 和Pr(lO)分别是0.0001。并且,Pr(6)和Pr(ll)分别是0.0000。与转调量相应的12个 单独的概率值还分别针对以下过渡样式中的每种过渡样式被定义从大调至小调,从小调 至大调以及从小调至小调。 基调确定单元178关于表示使用图48描述的基调进行的各个路径,将路径中所包 括的各个节点的(1)基调概率和对节点间的过渡所给出的(2)基调过渡概率彼此顺次相 乘。然后,基调确定单元178确定使得作为路径评估值的相乘结果最大的路径,作为表示有 可能的基调进行的最优路径。
27
图50是示出由基调确定单元178确定为最优路径的基调进行的示例的说明性示 图。 在图50中,在从乐曲的开始到结束的时间尺度下,示出由基调确定单元178确定 的乐曲的基调进行的示例。首先,从乐曲的开始3分钟,乐曲的基调是"Cm"。之后,乐曲的 基调变为"Cto"并且基调保持不变直到乐曲结束。 在上述由相对和弦概率生成单元172至基调确定单元178进行的处理之后,由基 调检测单元170进行的基调检测处理结束。由基调检测单元170检测到的基调进行和基调 概率输出给稍后描述的小节线检测单元180和和弦进行检测单元190。
(2-7.小节线检测单元) 小节线检测单元180基于拍子概率、拍子区间之间的类似概率、各个拍子区间的
和弦概率、基调进行以及各个拍子区间的基调概率,确定小节线进行(bar progression),
小节线进行指示一连串的拍子中各个拍子对应于哪个节拍中的哪个拍数。 图51是示出小节线检测单元180的详细配置的框图。参考图51,小节线检测单元
180包括第一特征量提取单元181、第二特征量提取单元182、小节线概率计算单元184、小
节线概率校正单元186、小节线确定单元188和小节线重新确定单元189。 (2-7-1.第一特征量提取单元) 第一特征量提取单元181针对各个拍子区间,根据该拍子区间以及前后L个区间 的和弦概率和基调概率来提取第一特征量,作为用于稍后描述的小节线概率的计算的特征 图52是用于描述由第一特征量提取单元181进行的特征量提取处理的说明性示 图。 参考图52,第一特征量包括(1)无和弦变化得分和(2)相对和弦得分,它们是从所 关注的拍子区间BDi以及前后L个拍子区间的和弦概率和基调概率中导出的。其中,无和 弦变化得分是所具有的维数与包括所关注的拍子区间BDi以及前后L个拍子区间在内的区 间的数目相等的特征量。另一方面,相对和弦得分是对于所关注的拍子区间BDi以及前后L 个拍子区间中每个区间具有24维的特征量。例如,当L是8时,无和弦变化得分是17维的 而相对和弦得分是408维(17X24维)的,并且因此,第一特征量总共有425维。以下,将 描述无和弦变化得分和相对和弦得分。
(1)无和弦变化得分 无和弦变化得分是表示乐曲的和弦在特定范围的区间中不改变的程度的特征量。 无和弦变化得分是通过将接下来所要描述的和弦稳定性得分除以和弦不稳定性得分获得 的。 图53是用于描述用于无和弦变化得分的计算的和弦稳定性得分的说明性示图。
参考图53,拍子区间BDi的和弦稳定性得分包括元素CC(i-L)至CC(i+L) , CC(i-L) 至CC(i+L)中的每一个是针对拍子区间BDi以及前后L个拍子区间中的相应区间来确定的。 这些元素中的每一个被计算出,作为目标拍子区间与紧前的拍子区间之间具有相同名称的 和弦的和弦概率的乘积的总和值。例如,通过对拍子区间BD卜h与拍子区间BDh的和弦概 率中具有相同名称的和弦的和弦概率的乘积进行加和,计算出和弦稳定性得分CC(i-L)。以 类似的方式,通过对拍子区间BDi+w与拍子区间BD^的和弦概率中具有相同名称的和弦的和弦概率的乘积进行加和,计算出和弦稳定性得分CC (i+L)。第一特征量提取单元181针对 整个所关注的拍子区间BDi以及前后L个拍子区间执行上述计算,并且计算2L+1个单独的 和弦稳定性得分。 图54是用于描述用于无和弦变化得分的计算的和弦不稳定性得分的说明性示 图。 参考图54,拍子区间BDi的和弦不稳定性得分包括元素CU(i-L)至CU(i+L),这些 元素中的每一个是针对拍子区间BDi以及前后L个拍子区间中的相应区间来确定的。这 些元素中的每一个被计算出,作为目标拍子区间与紧前的拍子区间之间所有具有不同名称 的和弦对的和弦概率的乘积的总和值。例如,通过对拍子区间BD卜h与拍子区间BDh的 和弦概率中具有不同名称的和弦的和弦概率的乘积进行加和,计算出和弦不稳定性得分 CU(i-L)。以类似的方式,通过对拍子区间BDi+h与拍子区间BDi化的和弦概率中具有不同 名称的和弦的和弦概率的乘积进行加和,计算出和弦不稳定性得分CU(i+L)。第一特征量提 取单元181针对整个所关注的拍子区间BDi以及前后L个拍子区间执行上述计算,并且计 算2L+1个单独的和弦不稳定性得分。 此外,第一特征量提取单元181针对所关注的拍子区间BDi,通过针对每组2L+1个
元素将和弦稳定性得分除以和弦不稳定性得分来计算无和弦变化得分。例如,如果对于所
关注的拍子区间BDi,和弦稳定性得分CC是(CCh,. . . ,CCi+J并且和弦不稳定性得分CU是
(CU卜l, . . . , CUi+l),则无和弦变化得分CR是(CC卜l/CU卜l, . . . , CCi+l/CUi+J 。 所关注的拍子区间周围的给定范围内的和弦变化越少,无和弦变化得分指示越高
的值。第一特征量提取单元181计算音频信号中所包括的所有拍子区间的无和弦变化得分。 (2)相对和弦得分 相对和弦得分是表示给定范围内的区间上和弦的出现概率及其样式的特征量。相 对和弦得分是通过根据从基调检测单元170输入的基调进行来转移和弦概率的元素位置 而生成的。 图55是用于描述相对和弦得分的生成处理的说明性示图。 与图50 —样,图55 (55A)示出由基调检测单元170确定的基调进行的示例。根据 基调进行,乐曲的基调在从乐曲的开始起3分钟后从"B"变为"Cto"。此外,还示出所关注 的拍子区间BDi的位置,拍子区间BDi在前后L个区间内包括基调改变的时间点。
此时,第一特征量提取单元181针对基调为"B"的拍子区间生成相对和弦概率, 其中拍子区间的包括大调和小调的24维和弦概率的元素的位置被转移使得和弦概率CPB 在开始处出现。同样,第一特征量提取单元181针对基调为"Cto"的拍子区间生成相对和 弦概率,其中拍子区间的包括大调和小调的24维和弦概率的元素的位置被转移使得和弦 概率CP^在开始处出现。第一特征量提取单元181针对所关注的拍子区间以及前后L个 区间中的每个区间来生成这样的相对和弦概率,并且输出所生成的相对和弦概率的集合 ((2L+1) X24维特征量向量)作为相对和弦得分。 从如上所述的(1)无和弦变化得分和(2)相对和弦得分形成的第一特征量从第一 特征量提取单元181输出到小节线概率计算单元184。
(2-7-2.第二特征量提取单元)
第二特征量提取单元182针对各个拍子区间,根据拍子区间以及前后L个区间上 拍子概率中的变化特征来提取第二特征量,作为用于稍后描述的小节线概率计算的特征 图56是用于描述由第二特征量提取单元182进行的特征量提取处理的说明性示 图。 参考图56,沿时间轴示出从拍子概率计算单元120输入的拍子概率。此外,还示出 通过分析拍子概率检测到的6个拍子以及所关注的拍子区间BDi作为示例。第二特征量提 取单元182关于拍子概率来计算各个小区间SDj的拍子概率的平均值,小区间SDj具有特定 持续时间并且被包括在整个所关注的拍子区间BDi以及前后L个区间上的拍子区间中。
例如,为了主要检测音符值(N/M拍的M)是4的节拍,优选用在拍子间隔的1/4和 3/4的位置处划分拍子间隔的线来将小区间相互划分开。在这种情况中,将针对一个所关注 的拍子区间BDi计算LX4+1个拍子概率的平均值。因此,由第二特征量提取单元182计算 出的第二特征量对于每个所关注的拍子区间将具有LX4+1维。并且,小区间的持续时间是 拍子间隔的1/2。 此外,为了恰当地检测乐曲中的小节线,希望分析至少若干个小节的音频信号的 特征。因此,优选定义用于第二特征量的提取的拍子概率的范围的L的值例如是8个拍子。 当L为8时,由第二特征量提取单元182提取的第二特征量对于每个所关注的拍子区间是 33维的。 上述第二特征量从第二特征量提取单元182输出到小节线概率计算单元184。
(2-7-3.小节线概率计算单元) 小节线概率计算单元184通过使用上述第一特征量和第二特征量来计算各个拍 子的小节线概率。在本说明书中,小节线概率是指各个拍子是X节拍中第Y个拍子的概率 的集合。此外,在本实施例中,各种节拍中的各个拍数成为辨别的对象,各种节拍是1/4节 拍、2/4节拍、3/4节拍和4/4节拍中的任何一种。即,在本实施例中,存在X与Y的10种单 独集合,即,(l,l)、 (2,1)、 (2,2)、 (3,1)、 (3,2)、 (3,3)、 (4,1)、 (4,2)、 (4,3)和(4'4),并且 计算IO种类型的小节线概率。此外,由稍后所述的小节线概率校正单元186考虑乐曲的结 构来校正由小节线概率计算单元184计算出的概率值。S卩,由小节线概率计算单元184计 算出的概率是有待校正的中间数据。通过逻辑回归分析预先习得的小节线概率公式例如可 以用于由小节线概率计算单元184进行的小节线概率的计算。 图57是用于描述用于由小节线概率计算单元184进行的小节线概率的计算的小 节线概率公式的学习处理的说明性示图。 此外,对小节线概率公式的学习是针对上述各种类型的小节线概率来执行的。艮P, 当假定要辨别各个拍子在1/4节拍、2/4节拍、3/4节拍和4/4节拍中的拍数时,要通过学习 获得10个单独的小节线概率公式。 首先,提供多个第一特征量和第二特征量对,作为用于逻辑回归分析的独立变量, 这些第一特征量和第二特征量对是通过对正确节拍(X)和拍子的正确拍数(Y)已知的音频 信号进行分析提取出来的。 接着,提供用于通过逻辑回归分析来预测所提供的第一特征量与第二特征量对中 每一对的生成概率的哑元数据(教师数据)。例如,当学习用于辨别1/4节拍中的第一个拍子以计算拍子为1/4节拍中的第一个拍子的概率的公式时,如果已知的节拍和拍数是(1, l),则哑元数据的值将为真值(l),并且对于任何其它情况,哑元数据的值将为假值(0)。同 样,当学习用于辨别2/4节拍中的第一个拍子以计算拍子是2/4节拍中的第一个拍子的概 率的公式时,例如,如果已知的节拍和拍数是(2,1),则哑元数据的值将为真值(l),并且对 于任何其它情况,哑元数据的值将为假值(0)。可以说,对于其它节拍和拍数同样如此。
通过如上所述使用足够数目的独立变量和哑元数据对来执行逻辑回归分析,预先 获得10种类型的小节线概率公式,这些小节线概率公式用于从一对第一特征量和第二特 征量中计算小节线概率。 然后,小节线概率计算单元184将小节线概率公式应用于分别从第一特征量提取 单元181和第二特征量提取单元182输入的一对第一特征量和第二特征量,并且针对各个 拍子区间顺次计算小节线概率。 图58是用于描述由小节线概率计算单元184进行的小节线概率的计算处理的说 明性示图。 参考图58,小节线概率计算单元184例如将预先获得的用于辨别1/4节拍中的第 一个拍子的公式应用于针对所关注的拍子区间提取的一对第一特征量和第二特征量,并且 计算拍子是1/4节拍中的第一个拍子的小节线概率P^' (l,l)。同样,小节线概率计算单 元184将预先获得的用于辨别2/4节拍中的第一个拍子的公式应用于针对所关注的拍子区 间提取的一对第一特征量和第二特征量,并且计算拍子是2/4节拍中的第一个拍子的小节
线概率P^' (2,1)。可以说,对于其它节拍和拍数同样如此。 小节线概率计算单元184针对所有拍子重复小节线概率计算,并且计算各个拍子 的小节线概率。由小节线概率计算单元184针对各个拍子计算出的小节线概率输出给接下 来所描述的小节线概率校正单元186。
(2-7-4.小节线概率校正单元) 小节线概率校正单元186基于从结构分析单元150输入的拍子区间之间的类似概 率,校正从小节线概率计算单元184输入的小节线概率。 例如,假定第i个所关注的拍子是X节拍中的第Y个拍子的小节线概率(该小节 线概率还有待校正)是& ' (i,x,y),并且第i个拍子区间与第j个拍子区间之间的类似
概率是SP(i, j)。然后,校正后的小节线概率P^(i,X,y)例如由下式给出。[等式5] (/,X,力=(乂,X,力 即,校正后的小节线概率Pb (i, x, y)是通过使用归一化后的类似概率作为权重来 对校正前的小节线概率求加权和而获得的值,其中,类似概率是与所关注的拍子相对应的 配置区间与其它拍子区间之间的类似概率。通过这样的概率值校正,与校正前的小节线概 率相比较,相似声音内容的拍子的小节线概率将具有更接近的值。由小节线概率校正单元 186校正后的各个拍子的小节线概率输出给接下来所描述的小节线确定单元188。
(2-7-5.小节线确定单元)
SP(i,j)
(5)
31
小节线确定单元188基于从小节线概率校正单元186输入的小节线概率,通过路 径搜索来确定有可能的小节线进行,小节线概率指示各个拍子是X节拍中的第Y个拍子的 概率。上述Viterbi算法例如可以用作由小节线确定单元188进行的路径搜索的方法。
图59是用于描述由小节线确定单元188进行的路径搜索的说明性示图。
在将Viterbi算法应用于由小节线确定单元188进行的路径搜索的情况中,拍子 被顺次布置在时间轴(图59中的水平轴)上。此外,小节线概率已被计算出的拍子的类型 (X节拍中的第Y个拍子)被用于观测序列(图59中的垂直轴)。S卩,小节线确定单元188 将从小节线概率校正单元186输入的拍子和拍子类型的所有对中的每一对作为路径搜索 的对象节点。 关于上述节点,小节线确定单元188沿时间轴顺次选择这些节点中的任何节点。 然后,小节线确定单元188使用两个评估值,(1)小节线概率和(2)节拍变化概率,来评估 由 一连串所选择的节点形成的路径。 此外,在由小节线确定单元188进行节点的选择时,例如优选施加下述约束。第
一,禁止跳过拍子。第二,禁止在小节的中间从一种节拍过渡至另一节拍(例如,从四节拍
中的第一个至第三个拍子中的任何拍子或三节拍中的第一个或第二个拍子开始的过渡),
或从一种节拍过渡至另一节拍的小节的中间。第三,禁止不按次序的过渡,例如,从第一个
拍子至第三个或第四个拍子,或从第二个拍子至第二个拍子或第四个拍子。 现在,在用于小节线确定单元188的路径评估的评估值中,(1)小节线概率是通过
由小节线概率校正单元186校正小节线概率而计算出的上述小节线概率。对图59中示出
的各个节点给出小节线概率。另一方面,(2)节拍变化概率是对节点之间的过渡所给出的
评估值。节拍变化概率是通过从许多普通乐曲中收集在小节线的进行期间节拍变化的发生
概率,针对变化前的拍子类型和变化后的拍子类型的每种组合被预先定义的。 图60是用于示出节拍变化概率的示例的说明性示图。 参考图60,示出基于变化前的4种类型的节拍和变化后4种类型的节拍导出的16 种单独的节拍变化概率。在该示例中,针对从四节拍变为单节拍的节拍变化概宰是0. 05,从 四节拍变为二节拍的节拍变化概率是0. 03,从四节拍变为三节拍的节拍变化概率是0. 02, 而从四节拍变为四节拍(即,没有变化)的节拍变化概率是0.90。这指明节拍在乐曲中间 改变的可能性一般不高。 此外,关于单节拍或二节拍,如果所检测到的小节线的位置由于小节线的检测误 差而从其正确的位置偏移,则节拍变化概率可以用来自动恢复小节线的位置。因此,优选将 单节拍或二节拍与另一节拍之间的节拍变化概率值设置为比三节拍或四节拍与另一节拍 之间的节拍变化概率高。 小节线确定单元188关于表示使用图59描述的小节线进行的各个路径,顺次将路 径中所包括的各个节点的(1)小节线概率和对节点间的过渡所给出的上述(2)节拍变化概 率彼此相乘。然后,小节线确定单元188确定使得作为路径评估值的相乘结果最大的路径, 作为表示有可能的小节线进行的最优路径。 图61是示出由小节线确定单元188确定为最优路径的小节线进行的示例的说明 性示图。 在图61中,针对第一至第八个拍子示出被小节线确定单元188确定为最优路径的小节线进行(参见粗线框)。根据该示例,从第一个拍子开始各个拍子的类型顺次是四节
拍中的第一个拍子、四节拍中的第二个拍子、四节拍中的第三个拍子、四节拍中的第四个拍
子、四节拍中的第一个拍子、四节拍中的第二个拍子、四节拍中的第三个拍子、四节拍中的
第四个拍子。由小节线确定单元188确定的、表示小节线进行的最优路径输出给接下来所
描述的小节线重新确定单元189。 (2-7-6.小节线重新确定单元) 在普通乐曲中,拍子类型的三节拍和四节拍很少以混合的方式存在。因此,小节线 重新确定单元189首先判定对于出现在从小节线确定单元188输入的小节线进行中的拍子 类型,三节拍和四节拍是否以混合的方式存在。然后,如果拍子类型的三节拍和四节拍以混 合的方式存在,则小节线重新确定单元189从搜索对象中排除较不经常出现的节拍,并且 再次搜索表示小节线进行的最优路径。根据所述由小节线重新确定单元189进行的路径重 新搜索处理,可以减少可能在路径搜索的结果中局部出现的小节线(拍子类型)识别误差。
在由第一特征量提取单元181至小节线重新确定单元189进行的处理之后,由小 节线检测单元180进行的小节线检测处理结束。由小节线检测单元180检测到的小节线进 行(一连串拍子的类型)输出给接下来所描述的和弦进行检测单元190。
(2-8.和弦进行检测单元) 和弦进行检测单元190基于各个拍子的简单基调概率、拍子区间之间的类似概率
以及小节线进行来针对各个拍子区间确定一连串和弦的有可能的和弦进行。 图62是示出和弦进行检测单元190的详细配置的框图。参考图62,和弦进行检测
单元190包括拍子区间特征量计算单元192、根音特征量准备单元194、和弦概率计算单元
196、和弦概率校正单元197和和弦进行确定单元198。 (2-8-1.拍子区间特征量计算单元) 和和弦概率计算单元160的拍子区间特征量计算单元162 —样,拍子区间特征量 计算单元192首先计算相应12个音符的能量(参见针对相应12个音符的能量的计算处理 的图28至图30)。可替换地,拍子区间特征量计算单元192可以获得并且使用由拍子区间 特征量计算单元162计算出的相应12个音符的能量。 接着,拍子区间特征量计算单元192生成扩展拍子区间特征量,扩展拍子区间特 征量包括所关注的拍子区间以及前后N个区间的相应12个音符的能量以及从基调检测单 元170输入的简单基调概率。 图63是用于描述由拍子区间特征量计算单元192生成的扩展拍子区间特征量的 说明性示图。 参考图63,例如,由拍子区间特征量计算单元192提取出了所关注拍子区间BDi以 及前后N个区间各自的相应12个音符的能量BF卜2、 BF卜p BFi、 BFi+1和BFi+2。此外,这里的 N例如是2。此外,由拍子区间特征量计算单元192获得所关注的拍子区间BDi的简单基调 概率(SKP" . . . , SKPB)。拍子区间特征量计算单元192针对所有的拍子区间,生成扩展拍子 区间特征量,并且将其输出到根音特征量准备单元194,扩展拍子区间特征量包括简单基调 概率和拍子区间以及前后N个区间的相应12个音符的能量。 [(M01] (2-8-2.根音特征量准备单元) 根音特征量准备单元194转移从拍子区间特征量计算单元192输入的扩展拍子区间特征量的元素位置,并且生成12个单独的扩展根音特征量。 图64是用于描述由根音特征量准备单元194进行的扩展根音特征量生成处理的 说明性示图。 参考图64,首先,根音特征量准备单元194将从拍子区间特征量计算单元192输入 的扩展拍子区间特征量作为用音符C作为根音的扩展根音特征量。接着,根音特征量准备 单元194通过将用音符C作为根音的扩展根音特征量的12个音符的元素位置转移特定数 目,生成11个单独的扩展拍子区间特征量,每个扩展拍子区间特征量将音符C#至音符B中 的任何一个作为根音。此外,元素位置被转移的转移数与用于使用图36描述的由根音特征 量准备单元164进行的根音特征量生成处理的转移数相同。 根音特征量准备单元194针对所有的拍子区间执行上述扩展根音特征量生成处 理,并且准备要用于各个区间的和弦概率的重新计算的扩展根音特征量。由根音特征量准 备单元194生成的扩展根音特征量输出给和弦概率计算单元196。 [CMOS] (2-8-3.和弦概率计算单元) 和弦概率计算单元196针对各个拍子区间,通过使用从根音特征量准备单元194 输入的根音特征量来计算指示各种和弦被演奏的概率的和弦概率。如上所述,这里的"各种 和弦"是指例如通过根音(C, C#, D,...)、构成音符的数目(三和弦、七和弦、九和弦)、调性 (大调/小调)等来区分的和弦中的每一个和弦。通过逻辑回归分析预先习得的扩展和弦 概率公式例如可以用于和弦概率的计算。 图65是用于描述对扩展和弦概率公式的学习处理的说明性示图,扩展和弦概率 公式用于由和弦概率计算单元196进行的对和弦概率的重新计算。 此外,和针对和弦概率公式的情况一样,对扩展和弦概率公式的学习是针对每种 和弦类型来进行的。即,以下所描述的学习处理例如是针对以下每种公式来执行的用于大 和弦的扩展和弦概率公式、用于小和弦的扩展和弦概率公式、用于七和弦的扩展和弦概率 公式和用于九和弦的扩展和弦概率公式。 首先,分别针对正确和弦已知的拍子区间提供多个扩展根音特征量(例如,使用 图64描述的12个单独的12X6维向量),作为用于逻辑回归分析的独立变量。
此外,针对各个拍子区间的扩展根音特征量中的每一个,提供用于通过逻辑回归 分析来预测生成概率的哑元数据(教师数据)。当学习用于大和弦的扩展和弦概率公式 时,如果已知的和弦是大和弦,则哑元数据的值将是真值(l),并且对于任何其它情况,哑元 数据的值将是假值(0)。同样,当学习用于小和弦的扩展和弦概率公式时,如果已知的和弦 是小和弦,则哑元数据的值将是真值(1),并且对于任何其它情况,哑元数据的值将是假值 (0)。可以说,对于七和弦和九和弦同样如此。 通过使用上述独立变量和鹏元数据来对足够数目的扩展根音特征量(每个扩展 根音特征量是针对一个拍子区间的)执行逻辑回归分析,预先获得用于从根音特征量中重 新计算各个和弦概率的扩展和弦概率公式。 然后,和弦概率计算单元196将预先获得的扩展和弦概率公式应用于从根音特征 量准备单元194输入的扩展根音特征量,并且针对各个拍子区间顺次计算和弦概率。
图66是用于描述由和弦概率计算单元196进行的对和弦概率的重新计算处理的 说明性示图。
参考图66(66A),示出各个拍子区间的扩展根音特征量中,用音符C作为根音的扩 展根音特征量。和弦概率计算单元196例如将通过学习预先获得的用于大和弦的扩展和 弦概率公式应用于用音符C作为根音的扩展根音特征量,并且针对该拍子区间计算和弦为 "C"的和弦概率CP' e。此外,和弦概率计算单元196将用于小和弦的扩展和弦概率公式应 用于用音符C作为根音的扩展根音特征量,并且针对该拍子区间重新计算和弦为"Cm"的和 弦概率CP' Cm。 以相似的方式,和弦概率计算单元196将用于大和弦的扩展和弦概率公式和用 于小和弦的扩展和弦概率公式应用于用音符C#作为根音的扩展根音特征量,并且重新 计算和弦概率CP' ^和和弦概率CP' eflm(66B)。可以说,对和弦概率CP' b、和弦概率 CP' Bm(66C)以及未示出的其它类型的和弦(包括七和弦、九和弦等)的和弦概率的计算也 是如此。 和弦概率计算单元196针对所有所关注的拍子区间重复如上所述的和弦概率重 新计算处理,并且向接下来描述的和弦概率校正单元197输出所重新计算出的和弦概率。
(2-8-4.和弦概率校正单元) 和弦概率校正单元197基于从结构分析单元150输入的拍子区间之间的类似概 率,校正由和弦概率计算单元196重新计算出的和弦概率。 例如,假定第i个所关注的拍子区间中和弦X的和弦概率是CP' x(i),并且第 i个拍子区间和第j个拍子区间之间的类似概率是SP(i, j)。然后,校正后的和弦概率 CP" x(i)例如由下式给出。
[等式6]
阔O')二i:c尸;(y). S卩,校正后的和弦概率CP" x(i)是通过利用归一化后的类似概率来对和弦概率求 加权和而获得的值,其中与所关注的拍子相对应的拍子区间与另一拍子区间之间的类似概 率中的每一个类似概率被用作权重。通过这样的概率值校正,具有相似声音内容的拍子区 间的和弦概率相比于校正前将具有更接近的值。由和弦概率校正单元197校正后的各个拍 子区间的和弦概率输出给接下来所描述的和弦进行确定单元198。
(2-8-5.和弦进行确定单元) 和弦进行确定单元198基于从和弦概率校正单元197输入的各个拍子位置的和弦 概率,通过路径搜索来确定有可能的和弦进行。上述Viterbi算法例如可以用作由和弦进 行确定单元198进行的路径搜索的方法。 图67是用于描述由和弦进行确定单元198进行的路径搜索的说明性示图。
在将Viterbi算法应用于由和弦进行确定单元198进行的路径搜索的情况中,拍 子被顺次布置在时间轴(图67中的水平轴)上。此外,和弦概率已被计算出的和弦类型被 用作观测序列(图67中的垂直轴)。即,和弦进行确定单元198将所有和弦类型与从和弦 概率校正单元197输入的拍子区间对中的每一对作为路径搜索的对象节点。
关于上述节点,和弦进行确定单元198沿时间轴顺次选择这些节点中的任何节
SP(i,j
(6)
35点。然后,和弦进行确定单元198使用以下四种评估值来对由一连串所选择的节点形成的 路径进行评估(l)和弦概率,(2)依赖于基调的和弦出现概率,(3)依赖于小节线的和弦过 渡概率和(4)依赖于基调的和弦过渡概率。此外,在由和弦进行确定单元198进行对节点 的选择时,不允许跳过拍子。 在用于由和弦进行确定单元198进行的路径评估的评估值中,(1)和弦概率是由 和弦概率校正单元197校正后的上述和弦概率。对图67中所示的各个节点给出和弦概率。
此外,(2)依赖于基调的和弦出现概率是依赖于根据从基调检测单元170输入的 基调进行而针对各个拍子区间指定的基调的、各种和弦的出现概率。依赖于基调的和弦出 现概率是通过针对乐曲中使用的每种类型的基调,对许多乐曲的和弦出现概率进行合计来 预先定义的。例如, 一般,在基调为"C"的乐曲中,和弦"C"、 "F"和"G"中的每种和弦的出 现概率高。对图67中所示的各个节点给出依赖于基调的和弦出现概率。
此外,(3)依赖于小节线的和弦过渡概率是依赖于根据从小节线检测单元180输 入的小节线进行而针对各个拍子规定的拍子类型的和弦过渡概率。依赖于小节线的和弦过 渡概率是通过针对乐曲的小节线进行中相邻拍子的各种类型对,对许多乐曲的和弦过渡概 率进行合计来预先定义的。例如,一般,和弦在小节线变化(过渡后的拍子是第一个拍子) 时或在从四节拍中第二个拍子过渡至第三个拍子时变化的概率比和弦在其它过渡时变化 的概率高。对节点之间的过渡给出依赖于小节线的和弦过渡概率。 此外,(4)依赖于基调的和弦过渡概率是依赖于根据从基调检测单元170输入的 基调进行而针对各个拍子区间规定的基调的和弦过渡概率。依赖于基调的和弦过渡概率是 通过针对乐曲中使用的各种类型的基调,对许多乐曲的和弦过渡概率进行合计来预先定义 的。对节点间的过渡给出依赖于基调的和弦过渡概率。 和弦进行确定单元198关于表示使用图67描述的和弦进行的各个路径,将路径 中所包括的各个节点的上述(1)至(4)的评估值彼此顺次相乘。然后,和弦进行确定单元 198确定使得作为路径评估值的相乘结果最大的路径,作为表示有可能的和弦进行的最优 路径。 图68是示出由和弦进行确定单元198确定为最优路径的和弦进行的示例的说明 性示图。 在图68中,示出和弦进行确定单元198针对第一个至第六个拍子区间和第i个拍 子区间确定为最优路径的和弦进行(参见粗线框)。根据该示例,从第一个拍子区间开始, 拍子区间的和弦顺次是"C"、"C"、"F"、"F"、"Fm"、"Fm"……"C"。 在由上述拍子区间特征量计算单元192至和弦进行确定单元198进行的处理之 后,由和弦进行检测单元190进行的和弦进行检测处理结束。
〈3.根据本实施例的信息处理设备的特征〉 相比于现有技术的方法,根据本实施例的信息处理设备100主要由于接下来所描 述的特征而提供音频信号的高精度分析结果。 第一,小节线检测单元180基于校正后的小节线概率(指示各个拍子对于哪种节 拍中的哪个拍数)来确定音频信号的有可能的小节线进行,校正后的小节线概率是根据由 结构分析单元150计算出的拍子区间之间的类似概率来确定的。具体而言,在确定本实施 例中的小节线进行时,小节线概率可以预先被校正以对于产生类似的声音内容的拍子区间中的拍子具有接近的值。从而,可以基于更精确地反映原始拍子的类型的小节线概率来确 定小节线进行。 此外,小节线检测单元180在使用类似概率来进行校正之前,基于根据各个拍子 区间的和弦类型或基调类型而不同的第一特征量和根据拍子概率而不同的第二特征量来 计算小节线进行。这里,各个拍子的拍数和节拍通常可以是考虑和弦变化和基调变化以及 拍子来确定的。因此,如所描述的基于第一特征量和第二特征量计算出的小节线概率在辨 别有可能的小节线进行方面是有效的。 第二,和弦进行检测单元190基于根据由结构分析单元150计算出的拍子区间之 间的类似概率所确定的校正后和弦概率来确定有可能的和弦进行。具体而言,在确定本实 施例中的和弦进行时,和弦概率可以预先被校正以对于产生类似的声音内容的拍子区间中 的拍子具有接近的值。从而,可以基于更精确地反映实际演奏的和弦的类型的和弦概率来 确定和弦进行。 此外,和弦进行检测单元190除了使用针对所关注的拍子区间以及所关注的拍子 区间周围的拍子区间的相应12个音符的能量以外,还使用包括由基调检测单元170计算出 的简单基调概率的扩展拍子区间特征量来重新计算用于确定和弦进行的和弦概率。从而, 考虑各个拍子区间的基调的特征,确定了更精确的和弦进行。 第三,结构分析单元150基于对应于各个拍子区间的各个音调的平均能量的特征 量之间的相关性来计算上述类似概率。这里,尽管各个音调的平均能量仍然保持诸如演奏 的声音的音量或音调之类的声音特征,但是它们几乎不受速度中时间波动的影响。具体而 言,根据各个音调的平均能量计算出的拍子区间之间的类似概率不受速度中波动的影响, 并且在精确地分析乐曲的拍子、和弦或基调方面有效。 此外,结构分析单元150通过使用特征量来计算拍子区间之间的相关性,每个特 征量是针对所关注的拍子区间以及所关注的拍子区间周围的一个或多个拍子区间的。具体 而言,即使拍子区间的声音特征与另一拍子区间的声音特征相似,如果邻近的多个拍子区 间中的声音特征不同,则所计算出的相关系数也不很大。从而,可以高精度地分析对于各个 拍子区间很少变化的乐曲的基调、和弦、节拍等。 第四,节拍分析单元130的节拍搜索单元136通过使用指示起始点与具有可以设
想到的拍子间隔的拍子的对应程度的拍子得分,选择由示出有可能的速度波动的起始点形
成的最优路径。从而,可以容易地检测到恰当地反映演奏的速度的拍子位置。 此外,当由节拍搜索单元136确定的最优路径的速度中的波动(拍子间隔的方差)
很小时,节拍分析单元130的针对恒定速度的节拍重新搜索单元140将搜索范围限制于最
常出现的拍子间隔周围并且重新搜索最优路径。从而,关于具有恒定速度的乐曲,可以减少
路径搜索的结果中可能局部发生的与拍子位置相关的误差。 此外,不必说,该说明书中所描述的其它特征也对根据本实施例的信息处理设备 100的分析结果的精确度的提高有贡献。
〈4.总结> 之前,已经使用图1至图68描述了根据本发明实施例的信息处理设备100。
此外,最终从信息处理设备100输出的信息可以是包括诸如本说明书中所描述的 拍子位置、拍子区间之间的类似概率、基调概率、基调进行、和弦概率或和弦进行之类的任何信息的任意信息。此外,还可能部分地执行该说明书中所描述的信息处理设备100的操 作。例如,当用户没有必要检测和弦进行时,可以省略上述和弦进行检测单元190,并且信息 处理设备100可以被配置为仅检测小节线的拍子分析设备。 此外,在本实施例中,Viterbi算法被用作以下单元的路径搜索算法节拍搜索单 元136、基调确定单元178、小节线确定单元188、和弦进行确定单元198等。然而,这不限于 这样的示例,并且由上述单元中的各个单元可以使用任何其它路径搜索算法。同样,其它的 统计分析算法也可以用来替代本实施例中所使用的逻辑回归算法。 此外,由节拍搜索单元136、基调确定单元178、小节线确定单元188、和弦进行确 定单元198中两个或更多处理单元进行的路径搜索可以被同时执行。例如,通过同时执行 两个或更多处理单元的路径搜索,可以使所要搜索出的路径的似然全面最大化。然而,在这 种情况中,应当注意,路径搜索的处理成本将增大。此外,通过增加该说明书中未描述的限 制条件,可以使路径搜索时的搜索范围变窄,从而减小处理成本。 此外,如该说明书中所述,预先提供了各种参数以用于根据本实施例的处理。这样 的参数的示例有用于起始点检测的阈值(图7)、用于恒定速度判定的阈值(图1S)、用于 限制与恒定速度相关的路径的重新搜索范围的阈值(图19)、用于在相应12个音符的能量 的计算时求加权和的权重(图30)等。这些参数可以通过例如本地搜索算法、遗传算法或 任何其它的参数最优化算法被预先最优化。 此外,本说明书中所描述的信息处理设备100的各个单元的一连串处理可以被实 现为硬件或软件。例如,当通过软件来执行一连串处理或这一连串处理的一部分时,通过使 用专门的硬件中所内建的计算机或图69中所示的通用计算机来执行构成软件的程序。
在图69中,中央处理单元(CPU)902控制通用计算机的总体操作。只读存储 器(R0M)904存储描述这一连串处理的一部分或全部的数据或程序。随机存取存储器 (RAM) 906临时存储CPU 902在执行处理时所使用的程序或数据。 CPU 902、R0M 904和RAM 906通过总线910互连。总线910连接到输入/输出接 □ 912。 输入/输出接口 912是用于将CPU 902、 ROM 904和RAM 906与输入装置920、输 出装置922、存储装置924、通信装置926和驱动器930连接的接口 。 输入装置920接收用户经由诸如按钮、鼠标或键盘之类的输入装置输入的指令或 信息。输出装置922例如经由诸如阴极射线管(CRT)、液晶显示器、有机发光二极管(OLED) 等的显示装置或诸如扬声器之类的音频输出装置向用户输出信息。 存储装置924例如是由硬盘驱动器或闪存构成的,并且存储程序、程序数据、输入 /输出数据等。通信装置926经由诸如LAN或因特网之类的网络来执行通信处理。驱动器 930在适当时被提供给通用计算机,并且例如,可移除介质932被附接到驱动器930。
由信息处理设备100输出的信息可以用于与音乐有关的各种应用。例如,通过使 用由小节线检测单元180检测到的小节线进行和由和弦进行检测单元190检测到的和弦 进行,可以实现用于使得在可视空间中,角色与音乐同步地运动的应用。并且,通过使用由 和弦进行检测单元190检测到的和弦进行,例如可以实现用于在乐谱上自动写下和弦的应 用。 本领域技术人员应当理解,根据设计需求和其它因素,可以进行各种修改、组合、
38子组合和更改,只要它们在所附权利要求及其等同物的范围以内即可。 例如,流程图中所描述的处理不必按照流程图中所示出的次序被执行。各个处理 步骤可以包括被并行地或独立地执行的处理。 本申请包括与2008年11月21日在日本专利局提交的日本优先权专利申请JP 2008-298567中所公开的主题相关的主题,其全部内容被通过引用结合于此。
权利要求
一种信息处理设备,包括拍子分析单元,所述拍子分析单元用于检测音频信号中所包括的拍子的位置;结构分析单元,所述结构分析单元用于计算类似概率,每个类似概率是用由所述拍子分析单元所检测到的各个拍子位置划分出的拍子区间的声音内容之间相类似的概率;以及小节线检测单元,所述小节线检测单元用于基于根据所述结构分析单元所计算出的类似概率而确定的小节线概率来确定所述音频信号的有可能的小节线进行,所述小节线概率指示各个拍子对应于哪种节拍中的哪个拍数。
2. 根据权利要求l所述的信息处理设备,其中 所述结构分析单元包括特征量计算单元,所述特征量计算单元用于通过使用各个拍子区间的各个音调的平均 能量来计算特定特征量;相关性计算单元,所述相关性计算单元用于针对所述拍子区间来计算由所述特征量计 算单元所计算出的特征量之间的相关性;以及类似概率生成单元,所述类似概率生成单元用于根据由所述相关性计算单元所计算出 的相关性来生成所述类似概率。
3. 根据权利要求1所述的信息处理设备,其中 所述小节线检测单元包括小节线概率计算单元,所述小节线概率计算单元用于基于从所述音频信号提取出的特 定特征量来计算所述小节线概率;小节线概率校正单元,所述小节线概率校正单元用于根据所述类似概率来校正由所述 小节线概率计算单元计算出的小节线概率;以及小节线确定单元,所述小节线确定单元用于基于由所述小节线概率校正单元校正后的 小节线概率来确定所述音频信号的所述有可能的小节线进行。
4. 根据权利要求2所述的信息处理设备,其中所述特征量计算单元通过在多个八度音阶当中对具有相同名称的音符的值求加权和 来计算所述特征量,所述值被包括在各个音调的平均能量中。
5. 根据权利要求2所述的信息处理设备,其中所述相关性计算单元通过使用所述特征量来计算所述拍子区间之间的相关性,每个特 征量是针对所关注的拍子区间以及所述所关注的拍子区间周围一个或多个拍子区间的。
6. 根据权利要求3所述的信息处理设备,其中所述小节线概率计算单元基于根据各个拍子区间的和弦类型或基调类型而不同的第 一特征量和根据拍子概率而不同的第二特征量来计算所述小节线概率,所述拍子概率指示 拍子被包括在所述音频信号的各个特定时间单位中的概率。
7. 根据权利要求3所述的信息处理设备,其中所述小节线确定单元通过以下方式来确定所述有可能的小节线进行从通过在以按时 间顺序布置的拍子以及各个拍子的节拍和拍数所指定的节点中顺次选择节点而形成的路 径中,搜索使根据所述小节线概率而不同的评估值变成最优的路径。
8. 根据权利要求3所述的信息处理设备,其中 所述小节线检测单元还包括小节线重新确定单元,所述小节线重新确定单元用于在由所述小节线确定单元所确定 的小节线进行中包括第一节拍和第二节拍两者的情况中,从搜索的对象中排除所述第一节 拍和所述第二节拍中较不经常出现的节拍而重新执行路径搜索。
9. 根据权利要求1所述的信息处理设备,其中 所述拍子分析单元包括起始点检测单元,所述起始点检测单元用于基于拍子概率来检测所述音频信号中所包 括的起始点,每个起始点是声音产生的时间点,每个拍子概率指示拍子被包括在所述音频 信号中的各个特定时间单位中的概率;拍子得分计算单元,所述拍子得分计算单元用于针对由所述起始点检测单元检测到的 每个起始点来计算拍子得分,拍子得分指示该起始点与具有能设想到的拍子间隔的拍子的 对应程度;拍子搜索单元,所述拍子搜索单元用于基于由所述拍子得分计算单元所计算出的拍子 得分来搜索由示出有可能的速度波动的起始点形成的最优路径;以及拍子确定单元,所述拍子确定单元用于确定所述最优路径上起始点的位置和根据所述 拍子间隔所补充的位置,作为拍子位置。
10. 根据权利要求9所述的信息处理设备,其中 所述拍子分析单元还包括拍子重新搜索单元,所述拍子重新搜索单元用于在由所述拍子搜索单元确定的最优路 径的速度的波动很小的情况中,限制搜索范围并且重新执行对所述最优路径的搜索。
11. 根据权利要求9所述的信息处理设备,其中所述拍子搜索单元通过使用根据所述拍子得分而不同的评估值,来从通过沿时间轴顺 次选择以所述起始点和所述拍子间隔指定的节点而形成的路径中确定最优路径。
12. 根据权利要求11所述的信息处理设备,其中所述拍子搜索单元还通过使用根据过渡前后的节点之间速度的变化量而不同的评估 值来确定所述最优路径。
13. 根据权利要求11所述的信息处理设备,其中所述拍子搜索单元还通过使用根据过渡前后的起始点之间的间隔与过渡前后的节点 处的拍子间隔之间的匹配程度而不同的评估值来确定所述最优路径。
14. 根据权利要求11所述的信息处理设备,其中所述拍子搜索单元还通过使用根据节点之间的过渡中所跳过的起始点的数目而不同 的评估值来确定所述最优路径。
15. 根据权利要求9所述的信息处理设备,其中 所述拍子分析单元还包括速度修正单元,所述速度修正单元用于根据估计速度,对由所述拍子确定单元所确定 的拍子位置进行修正,所述估计速度是使用通过学习预先获得的估计速度辨别公式而从所 述音频信号的波形中估计出的。
16. 根据权利要求15所述的信息处理设备,其中所述速度修正单元通过针对多个乘子中的每一个乘子,使用修正后的拍子位置的平均 拍子概率和所述估计速度来评估修正后的速度的似然,从而确定要用来修正所述拍子位置的用于修正的乘子。
17. —种信息处理设备,包括起始点检测单元,所述起始点检测单元用于基于拍子概率来检测音频信号中所包括的 起始点,每个起始点是声音产生的时间点,每个拍子概率指示拍子被包括在所述音频信号 中的各个特定时间单位中的概率;拍子得分计算单元,所述拍子得分计算单元用于针对由所述起始点检测单元检测到的 每个起始点来计算拍子得分,拍子得分指示该起始点与具有能设想到的拍子间隔的拍子的 对应程度;拍子搜索单元,所述拍子搜索单元用于基于由所述拍子得分计算单元所计算出的拍子 得分来搜索由示出有可能的速度波动的起始点形成的最优路径;以及拍子确定单元,所述拍子确定单元用于确定所述最优路径上起始点的位置和根据所述 拍子间隔所补充的位置,作为拍子位置。
18. —种声音分析方法,包括以下步骤 检测音频信号中所包括的拍子的位置;计算类似概率,每个类似概率是用各个所检测到的拍子位置划分出的拍子区间的声音 内容之间相类似的概率;以及基于根据所计算出的类似概率而确定的小节线概率来确定所述音频信号的有可能的 小节线进行,所述小节线概率指示各个拍子对应于哪种节拍中的哪个拍数。
19. 一种程序,该程序使得控制信息处理设备的计算机用作 拍子分析单元,所述拍子分析单元用于检测音频信号中所包括的拍子的位置; 结构分析单元,所述结构分析单元用于计算类似概率,每个类似概率是用由所述拍子分析单元所检测到的各个拍子位置划分出的拍子区间的声音内容之间相类似的概率;以及 小节线检测单元,所述小节线检测单元用于基于根据由所述结构分析单元所计算出的 类似概率而确定的小节线概率来确定所述音频信号的有可能的小节线进行,所述小节线概 率指示各个拍子对应于哪种节拍中的哪个拍数。
全文摘要
公开了一种信息处理设备、声音分析方法和程序。该信息处理设备包括用于检测音频信号中所包括的拍子的位置的拍子分析单元;用于计算类似概率的结构分析单元,每个类似概率是用由拍子分析单元所检测到的各个拍子位置划分出的拍子区间的声音内容之间相类似的概率;以及小节线检测单元,用于基于根据由所述结构分析单元所计算出的类似概率而确定的小节线概率来确定所述音频信号的有可能的小节线进行,所述小节线概率指示各个拍子对应于哪种节拍中的哪个拍数。
文档编号G10G3/00GK101740010SQ20091022192
公开日2010年6月16日 申请日期2009年11月23日 优先权日2008年11月21日
发明者小林由幸 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1