信号处理装置、信号处理方法和程序的制作方法

文档序号:2831095阅读:198来源:国知局
专利名称:信号处理装置、信号处理方法和程序的制作方法
技术领域
的音乐速度。
音乐的音拍是代表由音频信号所表示的音乐(乐曲、声音等)的音乐特 征的特征量,并被用作用来推荐或搜索音乐的重要特征量。该音拍是进行 预处理以进行复杂的音乐分析并使音乐与机器人舞蹈和其它多媒体同步 所需的,因而具有广泛的应用。
所演奏的声音的长度由音拍和音乐iiJL这两个音乐时间要素来决定。 因此,从所演奏的声音的长度来同时确定音拍和音乐itJL是一种不能从数 学上唯一确定解的不适定问题。进而,当成为音乐速度或音拍的时刻有波 动时难以准确地获得音拍。
在本实施例中,进行使用概率模型的音拍分析,以从音乐等的音频信 号获得音拍。在该音拍分析中,通过对于从音频信号中检测出的发音时刻 而获得最有可能的音拍,从而可以概率方式从音频信号中估计音拍。换句 话说,在根据本发明的音拍分析中,当提供与音频信号的发音时刻相关的 信息时,与该发音时刻T对应的发音是音频信号中的音拍的概率被设置 为目的函数,并获得使该目的函数最大化的音拍。对音乐iUL的存在以概
7率方式进行处置的框架可包括表示从音频信号的功率包络(power envelope)的自相关函数获得的音乐速度的可信度的信息(音乐速度的概率 分布),因而可执行健壮的估计。即使在音乐的音乐速度变化的情况下, 如音乐iUL在一首乐曲内渐渐加快/放慢,也可估计该音乐的音乐速度。
在根据本实施例的概率模型中,以概率方式对从音乐中演奏的音拍和 该演奏中波动的音乐速度而生成发音时刻的序列这一过程进行模型化。在 使用包含音乐速度作为潜在变量的概率模型的音拍估计中,以概率方式考 虑音乐速度的存在获得目的函数的最大值(准最佳解),而不是唯一地限定 作为潜在变量的音乐速度的值。这是使用用于进行使目的函数增加的音拍 更新的辅助函数来实现的。辅助函数(Q函数)是使得从潜在变量的期望值 得到的后验概率的对数单调增加的音拍的更新算法,且具体地例如EM (Expectation-Maximization,期望最大)算法,其中潜在变量是音乐速 度。
在使用该概率模型的音拍分析中,根据具有作为概率的多个要素(发 音时刻、音拍、音乐速度等)的框架,可以以逻辑一致性将多个模型及其 目的函数结合在一起。
下面参照

图1来定义本说明书中的术语。图1是示出了音拍和发音时 刻之间的关系的i兌明图。
"音拍分析"是获得由音频信号所表示的音乐演奏的音乐时刻(单位 "拍")的处理。
"发音时刻"是当音频信号所含的乐声开始时的时刻,并由实际时间 轴上的时刻M示。如图1所示,"发音时刻,,代表音频信号所含的发音 事件的发生时刻。以下,将音频信号所含的各乐声的发音时刻称作t[l、 t[2].....t[N,其统称为"发音时刻T" (T=t[l]、 t[2.....t[N)。
"发音时刻的间隔(Inter-Onset Interval, IOI)"狄音时刻的实际 时间中的时间间隔(单位[秒)。如图1所示,"发音时刻的间隔"代^ 音频信号所含的多个发音事件中、与音拍对应的重要发音事件之间的时 间。以下,将音频信号所含的各乐声之间的发音时刻的间隔称作x[l、
x[2.....x[N],其统称为"发音时刻的间隔X"(或"发音时刻间隔
X" )(X=x[l]、 x[2.....x[N)。
"音拍,,是由从音频信号的基准时刻点(例如,音乐的演奏开始)起计 数的拍所指定的音乐时刻。该音拍代表音频信号所含的乐声在音乐的时间轴上的开始时刻,并由作为音乐时刻的单位的拍来指定,如一拍、两拍等等。
"音拍长度"是音拍的间隔(由音拍指定的音乐时刻点之间的长度), 单位为[拍。该音拍长度代表音乐时间中的时间间隔,且对应于上述实际 时间轴上的"发音时刻的间隔"。以下,将音频信号所含的各乐声之间的
音拍长度称作q[l、q[2.....q[N,其统称为"音拍长度Q" (Q=q[l、
q[2.....q[N])。
"音乐速度"是将发音时刻的间隔[秒除以音拍长度[拍所得的值(单 位[秒/拍),或是将音拍长度[拍除以发音时刻的间隔[秒所得的值(单位 [拍/分钟])。音乐速度的功能是用作将发音时刻的间隔[秒转换成音拍长度 [拍的参数。尽管一般使用[BPM:拍每分或[拍/分],但在本实施例中使
用前者并将秒/拍用作音乐速度的单位。以下,将音频信号所含的各乐声
处的音乐速度称作z[l、z[2.....z[N,其统称为"音乐速度Z" (Z=z[l]、
z[2.....z[N)。
该音乐速度Z是表示发音时刻的间隔(IOI)X和音拍长度Q之间的关 系的^lt(Z-X/Q)。 M音时刻间隔X、音拍长度Q和音乐速度Z的关系 可知如果不提供发音时刻间隔X和音乐速度Z这两者,则一般不能获 得音拍长度Q。然而, 一般很难从音频信号准确地获得发音时刻间隔X 和音乐速度Z这两者。因此在本实施例中,从音频信号中获得发音时刻T 作为发音时刻间隔X的候选,并且不将音乐速度Z限定于预定的固定值 而以概率方式来处置音乐速度Z,从而使得能够针对音乐itJL的时间变化 和音拍的波动估计更健壮的音拍长度Q。
下面说明执行音拍分析处理的信号处理装置的配置。根据本实施例的 信号处理装置可应用于各种电子设备,只要该设备包括用于处理音频信号 的处理器、存储器等。作为具体的实例,信号处理装置可应用于如个人计 算机的信息处理装置,如PDA(个人数字助理)、家用游戏机和DVD/HDD 记录机的记录和再现装置,如电视接收机的信息消费电器,如便携型音乐 播放器、视听组合、便携型游戏设备、便携型电话和PHS的便携终端, 数字照相机、摄影机、车载音响设备、机器人、如电子钢琴的电子乐器、 无线/有线通信设备等。
由信号处理装置处置的音频信号内容不仅是音乐(乐曲、声音等)、讲 话、广播节目等的音频内容所含的音频信号,还可以是电影、电视节目、 视频节目等的视频内容,以及游戏、软件等所含的音频信号。输入信号处理装置的音频信号可以是从包括如音乐CD、 DVD、存储卡的可移动存储 介质、HDD和半导M储器在内的各种存储装置读出的音频信号,或是 经过包括如因特网、电话线路网、卫星通信网和广播通信网的公众线路网、 如L AN(局域网)等的专用线路网在内的网络而接收的音频信号。
下面参照图2来说明根据本实施例的信号处理装置10的硬件配置。 在图2中,示出了信号处理装置10被配置成包括个人计算机等的例子, 但根据本发明的信号处理装置不限于这种例,而是可应用于各种电子设 备。
如图2所示,信号处理装置10包括CPU(中央处理单元)101、ROM(只 读存储器)102、 RAM(随M取存储器)103、主机总线104、桥105、外部 总线106、接口 107、输入装置108、输出装置109、存储装置UO(例如 HDD)、驱动器lll、连接端口112和通信装置113。
CPU 101的功能是用作计算处理装置和控制装置,根据各种程序而工 作并控制信号处理装置10的各单元。该CPU 101根据存储在ROM 102 中的程序或从存储装置110载入RAM 103的程序而执行各种处理。ROM 102存储CPU 101所使用的程序、计算参数等,并还作为减轻从CPU 101 对存储装置110的存取的緩冲器而发挥功能。RAM 103暂时地存储在CPU 101的执行中使用的程序、在该执行中适当变化的参数等。以上这些由被 配置成包括CPU总线等在内的主机总线104相互连接。主机总线104经 过桥105而连接至如PCI(周边元件互连/接口)总线的外部总线106。
输入装置108被配置成包括鼠标、键盘、触摸板、 、开关、控制 杆等。信号处理装置10的用户^Mt该输入装置108从而对信号处理装置 10输入各种数据并指示处理操作。输出装置109被配置成包括如CRT(阴 极射线管)显示装置和液晶显示器(LCD)的显示装置、如扬声器的音频输出 装置等。
存储装置110是用于存储各种数据的装置,并被配置成包括HDD(硬 盘驱动器)等。存储装置110被配置成包括作为存储介质的硬盘、以及用 于驱动多更盘的驱动器,并存储要由CPU 101执行的程序和各种数据。驱 动器111是用于可移动介质的驱动装置,并容纳在或从外部附接至信号处 理装置10。驱动器111关于装载于信号处理装置10上的如CD、 DVD、 蓝光盘和存储卡的可移动介质进行各种数据的写^/读出。例如,驱动器 111对记录在音乐CD、存储卡等上的音乐内容进##出和再现。于是将 音乐内容的音频信号输入信号处理装置10。连接端口 112是用于连接外部周边设备的端口 (例如USB端口 ),并具 有USB、 IEEE1394等的连接端子。连接端口 U2连接至接口 107并经过 外部总线106、桥105、主机总线104等而连接至CPU101等。该连接端 口 112与如USB存储器的带连接器的可移动介质、以及如便携型电影/音 乐播放机、PDA和HDD的外部设备连接。从可移动^h质、外部设备等转 移的音乐内容的音频信号经过该连接端口 112而输入至信号处理装置10。
通信装置113是用于连接至如因特网和LAN的各种网络5的通信接 口,其中通信方式可以是无线/有线通信。该通信装置113与经过网络而 连接的外部设备进行各种数据的发送和接收。例如,通信装置113从内容 分布服务器接收音乐内容、电影内容等。然后将从外部接收的音乐内容的 音频信号输入信号处理装置10。
下面参照图3~5来说明根据本实施例的信号处理装置10的功能配 置。图3是示出了根据本实施例的信号处理装置10的配置的功能框图。 图4是示出了由根据本实施例的信号处理装置10执行的信号处理方法(音 拍和音乐速度分析方法)的概要的说明图。图5是示出了音频信号的功率 包络的自相关函数和音乐速度的概率分布之间的关系的说明图。
如图3所示,根据本实施例的信号处理装置10包括发音时刻检测 单元12,用于基于音频信号的信号水平iM^测发音时刻T;发音时刻存 储单元14,被配置成包括如闪存和RAM的存储器;音乐速度概率分布 设置单元16,用于使用与音频信号的信号水平相关的自相关函数来对音 乐速度Z的初始概率分布Po(Z)进行设置;音拍长度计算单元18,用于基 于与检测出的发音时刻T相关的信息(发音时刻的间隔X)和音乐速度Z的 初始概率分布P。(Z)来计算由音频信号所代表的音乐的音拍长度;音乐速 度计算单元20,用于基于所估计的音拍和检测出的发音时刻的间隔X来 计算由音频信号所代表的音乐的音乐速度;特征量存储单元22,被配置 成包括如闪存和RAM的存储器;以及特征量使用单元24,用于使用如 音拍和音乐速度Z的特征量。
如图4所示,发音时刻检测单元12对从外部输入的音频信号进行分 析,并检测音频信号所含的多个乐声(发音事件)的发音时刻T。例如,发 音时刻检测单元12获得音频信号的功率(信号水平)的时间变化(即,音频 信号的功率包络),提取音频信号所含的多个峰值,并将紧挨在^值之 前的时刻估计为发音时刻T。发音时刻检测单元12将以上述方式检测出 的发音时刻T保存在发音时刻存储单元14中。该发音时刻检测单元12所进行的发音时刻检测处理的详情将在后面说明(参见图7等)。
如图4和图5所示,音乐速度概率分布设置单元16分析音频信号的 信号水平以获得音频信号的功率包络的自相关函数。在该功率包络的自相 关函数中,自相关高的频率具有较高的成为音乐速度的概率。因此,音乐 速度概率分布设置单元16使用自相关函数来计算音乐速度Z的初始概率 分布P。(Z),并将该初始概率分布Po(Z)设置为后面要说明的音乐速度Z 的概率分布P(Z)的初始值。该音乐速度概率分布设置单元16所进行的音 乐速度Z的初始概率分布设置处理的详情将在后面说明(参见图8等)。
音拍长度计算单元18使用包含音乐速度Z作为概率变量的概率模型 来进行音拍分析,并获得音频信号的音拍长度Q。如图4所示,音拍长度 计算单元18针对音频信号的发音时刻间隔X,使用EM算法以概率方式 来估计最有可能的音拍长度Q。如果获得音频信号的各乐声(发音事件)的 音拍长度Q,则可从该音拍长度Q获得音拍或音频信号的乐声的音乐时 刻。
在音拍长度计算单元18所进行的音拍估计处理中,音拍长度计算单 元18通过计算由发音时刻检测单元12检测出的多个发音时刻T的差从 而获得发音时刻的间隔X。音拍长度计算单元18使用由音乐速度概率分 布设置单元16获得的音乐速度Z的初始概率分布P。(Z)来设置目的函数 P(QIX)和辅助函数(Q函数),其中目的函数P(QIX)表示与发音时刻的间隔 X对应的发音是音频信号的音拍的概率,辅助函数(Q函数)用于引导使目 的函数P(QIX)单调增加(单调非减少)的音拍长度Q的更新。音拍长度计
至最大值的更新,以获得目的函数P(QIX)的准最佳解。EM算法包含E 步骤(期望值步骤)和M步骤(最大化步骤)。在E步骤中,音拍长度计算单 元18进行作为潜在变量的音乐速度Z的概率分布P(Z|X, Q)的估计处理, 并获得辅助函数(Q函数)。在M步骤中,音拍长度计算单元18通过维特 比算法等使得辅助函数(Q函数)最大化。通过反复进行E步骤和M步骤, 使得辅助函数(Q函数)收敛,并从收敛的Q函数获得音拍长度Q。
音拍长度计算单元18将如上述估计的音拍长度Q保存在特征量存储 单元22中。该音拍长度计算单元18所进行的音拍(音拍长度Q)的计算处 理的详情将在后面说明(参见图8等)。
音乐速度计算单元20基于由音拍长度计算单元18计算的音拍长度Q 和发音时刻间隔X来计算音乐速度Z。例如,音乐速度计算单元20将音频信号所含的各乐声的发音时刻间隔x[秒除以该各乐声的音拍长度
q[拍,以获得该各乐声中的音乐速度Z[秒/拍(z-x/q)。而且,音乐iiA计 算单元20将如上述计算的音拍长度Q保存在特征量存储单元22中。该 音乐速度计算单元20所进行的音乐速度Z的计算处理的详情将在后面说 明(参见图9等)。
特征量使用单元24使用存储在特征量存储单元22中的音频信号的特 征量(音拍长度Q,音乐速度Z等)对电子设备的用户提供各种应用。使用 如音拍长度Q或音乐速度Z的特征量的方法延伸到很广的范围上,包括 针对音乐内M供元数据、搜索音乐内容、推荐音乐内容、整理音乐作品、
为使机器人随音乐的节拍跳舞而与机器人舞蹈同步、与图片的幻灯片放映 同步、自动记镨、音乐分析等。特征量除了音拍长度Q和音乐速度Z以 外,还可包括通过对音拍自身、音拍长度Q和音乐ilJLZ进行计算和处 理而得的任意信息,只要该信息是表示音频信号所代表的音乐的特征的信 息即可。
以上说明了根据本实施例的信号处理装置10的功能配置。发音时刻 检测单元12、音乐速度概率分布设置单元16、音拍长度计算单元18、音 乐速度计算单元20或特征量使用单元24可部分或全部地由软件来配置或 由硬件来配置。当由软件来配置时,使计算机执行各单元的处理的计算机 程序被安装在信号处理装置10上。该程序例如经过任意的存储介质或任 意的通信介质而提供给信号处理装置10。
下面参照图6来说明根据本实施例的、作为信号处理方法的一例的音 拍分析方法。图6是示出了根据本实施例的音拍分析方法的流程图。
如图6所示,根据本实施例的音拍分析方法包含作为音拍估计处理的 预处理的从音频信号中检测发音时刻T的发音时刻检测处理(SIO)、以及 基于在S10中获得的发音时刻T而以概率方式获得音拍的音拍估计处理 (S20)。
在发音时刻检测处理(S10)中,对音频信号进行处理,检测由音频信 号所代表的音乐(所演奏的乐声)的发音时刻T,并获得发音时刻间隔X。 作为检测发音时刻T的方法,在现有技术中提议了各种方法。在根据本 实施例的音拍分析方法中,以该发音时刻检测处理用作预处理,发音时刻 T的检测处理S10和M音时刻T获得音拍的音拍估计处理S20是独立 的处理。因而,在根据本实施例的音拍分析方法中,使用条件原则上不局 限于与发音时刻检测方法的组合。下面参照图7来说明根据本实施例的发音时刻检测处理(图6的S10) 的具体实例。图7是示出了图6的发音时刻检测处理SIO的实例的流程图。
如图7所示,在发音时刻检测处理S10中,首先,信号处理装置10 的发音时刻检测单元12获得所输入的音频信号的功率(信号水平)的时间 变化(即功率包络),并提取该功率的时间变化的峰值(步骤S11 S13)。更 具体地,发音时刻检测单元12计算音频信号的每一短时间量(例如约几十 微秒)的能量,并生成代表该每一短时间量的音频信号的功率的时间变化 (即功率包络)的水平信号(步骤Sll)。发音时刻检测单元12从音频信号的 功率的时间变化(水平信号)中去除无音区间(步骤S12),并使衰减部分平 滑(步骤S13)。此后,发音时刻检测单元12提取在S12和S13中的处理后 的水平信号的峰值(步骤S14),并将紧挨在峰值之前的水平信号变成最小
值的这一时刻估计为发音时刻T(=t[l、t[2.....t[N)(步骤S15)。接着,
发音时刻检测单元12将在S15中估计的发音时刻T保持在发音时刻存储 单元14中(步骤S16)。
以上说明了发音时刻检测处理。以上检测的发音时刻T可包含与音 拍对应的发音事件(乐声)的发音时刻,但一般来说,有可能检测出不与音 拍对应的发音事件的发音时刻,或者有可能在原本存在音拍的时刻处未检 测出发音时刻。因此,优选地M测出的发音时刻T中选择与音拍对应 的适当的发音时刻T,并在原本存在音拍的时刻处补充发音时刻T。于是, 在以下"i兌明的音拍估计处理中,进行使用概率模型的音拍分析,以将从检 测出的发音时刻T中获得的发音时刻的间隔X(单位[秒)转换成适当的 音拍长度(单位[拍)。
以下说明使用根据本实施例的概率模型的音拍分析的原理。首先,计
算在发音时刻检测处理(S10)中检测出的多个发音时刻T(=t
)间的差,以获得发音时刻间隔(IOI)X(-x[l、x[2.....x[N)。例如,
发音时刻t
和发音时刻t[l之间的差成为发音时刻间隔x[l。将存在不 与音拍对应的发音时刻、以及不存在与音拍对应的发音时刻这样的可能性
包含在内,而获得与发音时刻间隔x[l.....x[N(单位[秒)对应的音
拍长度q的时间系列(单位)。
以概率方式将包括音乐速度Z、音拍模式和演奏的波动在内的各种波
动考虑进去,假设从由音频信号所得的发音时刻间隔X(-x[l].....x[N)
而获得音拍长度Q(=q[l.....q[N])这一问题作为关于检测出的X获得
最有可能的Q这一问题,则可公式化为以下等式(l)。由于P(Q|X) P(XIQ)P(Q),因而进行模型化以提供P(XIQ)P(Q),其中如果可获得其最 大化方法则可获得Q。
5二argmax尸(2l义)^argmax尸(Jn0、尸(0 …(1)
P(Q|X):后验概率 P(XIQ):似然度 P(Q):先验概率
这种估计方法称作最大后验概率(maximum a posteriori probability, MAP),其中P(QIX)"P(XIQ)P(Q)称作后验概率。以下说明反根据本实施 例的音拍分析中,用于M音时刻间隔X获得音拍长度Q的模型化和用 于使用该模型来实际地获得音拍的计算方法。
此处,在各音拍长度q[n]中存在以其演奏音拍的称作音乐速度z[n
的另一音乐要素,因此不考虑音乐速度z就无法考虑发音时刻间隔(音 长)x[n和音拍长度q[ii的关系。即,如果不以包含音乐速度的模型来考虑, 音拍长度Q和发音时刻间隔X之间的关系就无法被模型化。
尽管是对P(X, ZIQ)进行模型化,但在本实施例中要获得的是 P(XIQ)P(Q)。(以下为了筒化,暂时省略"P(XIQ)P(Q)"的"P(Q)"。该 P(Q)将在后面处理。在这种情况下,不进行MAP估计而是进行最大似然 (maximum likelihood, ML)估计。)。在根据本实施例的音拍估计方法中, 应用EM算法作为使用提供了 P(X, ZIQ)的模型来获得使P(XIQ)最大化 的Q的方法。EM算法作为似然度P(XIQ)的估计方法而已知,但即使对 于包含先验概率P(Q)的概率模型,也可使用该方法,其中当包含先验知 识P(Q)时,本方法应用EM算法。
在EM算法中,在以下关系式(2)中使用当假设某音拍长度Q时的 音乐速度Z(潜在变量)的概率分布P(ZIX, Q)来获得log P(X, ZIQ,)的期 望值,其中从数学上证明当获得使辅助函数(Q函数)最大化的Q,时,将 音拍长度从Q更新至Q,时的对数似然度的差"log P(X|Q,) - log P(X|Q)" 的期望值为正(非负)。以式(3)来表达Q函数或辅助函数。EM算法通过重 复获得Q函数的E步骤(期望值步骤)和使Q函数最大化的M步骤(最大 化步骤)从而使对数似然度log P(XIQ)单调增加至最大值。<formula>formula see original document page 16</formula>…(3)
在本实施例中,将该EM算法应用于音拍分析。以下说明以概率方 式来提供给出了 P(X, ZIQ)的音乐速度Z、音拍长度Q和发音时刻间隔X 之间的关系的模型、当使用该模型时的Q函数、以及当使用该Q函数时 的EM算法的具体计算方法。
在概率模型化中,首先对音乐速度Z的波动以概率方式进行模型化。 音乐速度Z具有逐渐波动的特性,才艮据该特性,可进行模型化以使音乐 速度Z成为恒定值的概率高。例如,音乐速度Z的波动可^L模型化为马 尔可夫过程该马尔可夫过程遵循以0为中心的概率分布p(z[n]lz[n-l)(例 如正态分布和对数正态分布)。此处,z[n对应于第n个发音时刻t[n处的 音乐速度。
对发音时刻间隔X(=x[l、x[2.....x[N)的波动进行模型化。发音
时刻间隔x[n的波动提供了依赖于音乐速度z[n和音拍长度q[n的概率。 在音乐速度恒定且没有发音时刻T中的波动和检测中的误差这一理想情 况下,发音时刻间隔(音长)xn](单位秒)等于音乐速度z[n(单位秒/拍) 和音拍长度q[n](单位拍)的乘积(x[n卜z[n].q[n)。然而,由于实际上包 含演奏者的演奏表现所形成的音乐速度Z和发音时刻T中的波动和发音 时刻的检测误差,它们一般并不相等。这种情况的误差可以以概率方式来 考虑。概率分布p(x[nlq[n], z[n])可使用正态分布或对数正态分布来进行 模型化。
考虑到发音时刻T处音频信号的音量, 一般地i^为音量大的声音比 音量小的声音具有更高的成为音拍的倾向。该倾向还可以以音量被加至特 征量的一个而包含在P(XIQ, Z)中,并可祐^:供给概率模型。
将以上两者组^来,当音拍长度为Q=q[l.....q[N时,音乐速
度是Z-z[l.....z[N,且给出发音时刻的间隔(IOI)X为X=xl.....
x[N的概率P(X, Z|Q)。
对于音拍长度的模式q[l.....q[N可考虑出现的概率。例如,考虑
到出现频率高的音拍长度模式和可写在乐镨上但在现实中却未出现的音 拍长度模式,其中自然会想到可由该模式的出现概率的高低来处置这些模 式。因此,通过由N-gram模型对q的时间系列进行模型化,或由N-gram模型对预定的音拍长度的模板模式的出现概率或该模板模式进行模型化, 从而可以以概率方式对音拍长度模式进行模型化。由该模型提供的音拍长
度Q的概率是P(Q)。
考虑到P(Q), Q函ltA如下函数将log P(Q)加至当对似然度应用 EM算法时的Q函数,从而可使用该Q函数作为在MAP估计时引导后 验概率P(QIX)的对数增加的辅助函数。
通过使用该模型所给的P(X, Z|Q),音乐速度Z的概率分布P(ZIX, Q)可由下式(4)给出。然后可计算出上述Q函数。因此,在这种情况下, Q函数由下式(5)给出。
尸(Z關"草观…(4)
G(2,2') = X = z I Z,0 logp(;:["],= z IA + log尸(e') + co"仏
…(5)
具体地期望计算p(z[n^zlX, Q),以计算使式(5)的Q函数最大化的Q,。 以下说明该潜在变量(音乐速度Z)的概率分布的计算方法(对应于E步骤)。
用于使Q函数最大化所需的p(z[n]=z|X, Q)是由以下算法获得的。 这一方法是以HMM(隐马尔可夫模型)来应用称作"Baum-Welch算法" 的方法。使用下式(6)的前向概率a—n(z)和下式(7)的后向概率P_n(z), 可由下式(8 )来计算p(z[n=z|X, Q)。前向概率c^n(z)和后向概率p_n(z) 是使用下式(9)和(10)、由高效的递归计算而获得的。与HMM的 "Baum-Wdch算法"不同点在于g型不以获得迁移概率为目的,而 且M型的潜在变量是取连续值的变量,而不是作为隐含状态而处置的离 散变量。
<formula>formula see original document page 17</formula>然后获得使如上计算出的Q函数G(Q, Q,)最大化的Q,(对应于M步骤)。此处使用的算法依赖于P(Q),并且如果是基于马尔可夫模型,则可 以像在维特比算法中那样、以基于DP(Dynamic Programming,动态编程) 的算法来优化。如果Q,是包含可变数量的音拍长度Q的模板的马尔可夫 模型,则根据如时间同步维特比搜索或2阶段动态编程的给出P(Q)的模 型来选择适当的算法。从而获得使Q函数最大化的音拍长度Q。
因此,如果给出某发音时刻间隔IOI的序列X,则可以通过重复计算 前向概率a和后向概率p的E步骤和基于该a和p来获得使Q函数最大 化的Q的M步骤,使Q函数或辅助函数收敛,以获得与各发音时刻T 对应的音拍长度Q(Q-q[l]、 q[2.....q[M)。
一般地,在EM算法中,收敛的解依赖于为了开始重复的计算而给 出的初始值,因而提供初始值的方式对性能有重要影响。可以对于音乐速 度而不是音拍而获得给出初始值的有希望的线索。当使用音频信号的功率 的时间变化(功率包络)的自相关函数时,认为自相关大的周期具有较高的 该周期是音乐速度的概率,因而可使用使自相关的对象关系反映在概率的 大小关系上的音乐速度的概率分布。使用该音乐速度的初始概率分布Po(Z) 作为初始值,来应用EM算法。
使用如上述获得的音拍长度Q^q[1、q[2.....q[M),基于音拍长
度Q按需要对音拍的发音时刻进行间插,以获得音拍,从而获得每一拍 或每两拍演奏的音拍。
以上说明了根据本实施例的音拍分析方法的原理。根据该音拍分析方 法,即使音频信号的音乐速度Z变化,也可获得音频信号的各位置处的 适当的音拍长度Qeq[l]、 q[2.....q[M)和音拍。
下面参照图8来详细说明使用上述音拍分析的音拍估计处理(图6的 S20)的例子。图8是示出了图6的音拍估计处理S20的例子的流程图。该 音拍估计处理S20可在发音时刻检测处理(S10)后的任意定时处执行。
如图8所示,在发音时刻检测处理S10中,首先,信号处理装置10 的音拍长度计算单元18计算检测出的发音时刻T的间隔X(步骤S21)。具 体地,音拍长度计算单元18从发音时刻存储单元14中读出在发音时刻检 测处理(S10)中检测出的多个发音时刻T(=t[l、t[2]、…、t[N),计算各发
音时刻t之间的差,并获得发音时刻间隔(IOI)X(-x[l、x[2.....x[N)。
例如,通it^UL音时刻t[2中减去发音时刻t[ll,从而获得发音时刻间隔 x[l。音乐速度概率分布设置单元16获得音频信号的功率包络的自相关函 数(参见图5)(步骤S22)。具体地,音乐速度概率分布设置单元16对所输 入的音频信号的功率(信号水平)进行分析,以生成音频信号的功率的时间 变化(即音频信号的功率包络)。该功率包络的生成处理与图7的Sll相似, 因而省略其详细说明。音乐速度概率分布设置单元16可不获得功率包络, 而是使用由发音时刻检测单元12获得的功率包络。然后音乐速度概率分 布设置单元16获得音频信号的功率包络的自相关函数。
而且,音乐iUL概率分布设置单元16使用在S22中获得的音频信号 的功率包络的自相关函数,来计算作为潜在变量的音乐速度Z的初始概 率分布P。(Z),并将该P。(Z)设置为音乐速度Z的概率分布P(Z)的初始值(步 骤S23)。如上所述,利用功率包络的自相关高的周期具有较高的概率能 成为音乐速度Z这一事实,音乐速度概率分布设置单元16将该自相关函 数转换成音乐速度Z的初始概率分布Po(Z)。
然后音拍长度计算单元18设置目的函数P(QIX)和辅助函数(Q函 数)(步骤S24)。目的函数P(QIX)是当提供音频信号所代表的音乐的发音时 刻间隔X时、发音时刻间隔X对应于该音乐的音拍间的音拍长度Q的概 率。换句话说,目的函数P(QIX)是当提供音乐的发音时刻T时、发音时 刻T对应于该音乐的音拍的概率。辅助函数(Q函数)是这样的函数其引 导音拍长度Q的更新,以使目的函数P(QIX)单调增加(单调非减少)。具 体地,辅助函数(Q函数)是使将音乐速度Z作为潜在变量并取潜在变量的 期待值而得的后验概率的对数单调增加(单调非减少)的音拍长度Q的更 新算法。该辅助函数(Q函数)是由上述EM算法而导出的(式(3)),且如 上所述可使用为适应于音拍分析而修正的式(5)。
为了i兌明的方4更,以下式(11)来表达Q函数。对于式(11)的Q 函数中的音乐速度Z(潜在变量)的概率分布P(Z),将在S23中获得的初始 概率分布P。(Z)用作初始值,此后,使用在如后面说明的EM算法的E步 骤S26 ~ S28中获得的P(Z|X, Q)。
。 = J>(Z) logZ I 。必...(11) P(Z) = P0(Z)
尸(z):尸(zi义,e)
然后音拍长度计算单元18通过EM算法,使用辅助函数(Q函数)来
19更新音拍长度Q以将对数似然度log P(XIQ)引导至最大值。EM算法包括 获得使Q函数最大化的Q的M步骤S25和估计音乐速度Z的概率分布 P(Z)并获得Q函数的E步骤S26 ~ S28。
首先,在M步骤中音拍长度计算单元18通过维特比算法或2阶段 DP,如下式(12)那样使辅助函数(Q函数)最大化(步骤S25)。通过获得 使Q函数最大化的Q,可估计与所给的发音时刻间隔X对应的音拍长度 Q。音拍的脱落/插入被包含于在该步骤S中获得的音拍长度Q中,直到 在步骤S29中判断Q函数收敛为止。
^ = argmaxG(e,^') = argmax J>(Z). log尸(Z,Z 10') "Z …(12)
在E步骤S26 ~ S28中,音拍长度计算单元18使用前向概率a和后 向概率p来高效地计算P(Zt|X, Q)。首先,通过前向算法来计算下式(13 ) 所示的前向概率a(步骤S26),然后通过后向算法来计算下式(14)所示 的后向概率P(步骤S27)。此后,音拍长度计算单元18如式(15 )那样将 前向概率a和后向概率p相乘,并获得P(ZtlX, Q)。
A(z)^尸(Z,zlw",② …(13)
A(z) = P(H,...,^,0 …(14) p(A"l义,0xa"(z).A(z)…(15)
此后,音拍长度计算单元18判断Q函lbl否收敛(S29),如果不收敛 则返回步骤S25并重复EM算法,直到Q函数收敛为止(S25 ~ S29)。如 果Q函数收敛,则处理进行到步骤S30,并将收敛的Q函数设为音拍长 度Q(步骤S30)。
以下说明根据本实施例的音拍分析方法。可使用在上述音拍分析处理 中获得的音拍长度Q和发音时刻间隔X来计算音乐速度Z。可根据目的 通过以下方法来获得最佳音乐速度Z。
例如,当想要观察演奏的细微波动时,将各发音时刻间隔X除以与 之对应的音拍长度Q,以准确地获得音乐速度Z作为一拍的时间(Z=X/Q)。
参照图9来说明根据本实施例的、作为信号处理方法的一例的音乐速 度分析方法。图9是示出根据本实施例的音乐速度分析方法的流程图。如图9所示,首先执行发音时刻检测处理(步骤S40),然后执行音拍 估计处理(步骤S41)。该发音时刻检测处理S40与图7的处理S11~S16 相似,而音拍估计处理S41与图8的处理S21 ~ S30相似,因而省略详细 说明。
然后将4发音时刻检测处理S40中检测出的发音时刻T获得的各
发音时刻间隔X(-x[l、x[2.....x[N)除以在音拍估计处理S41中所得
的各音拍长度Q(=q[l、q[2.....q[N),以获得各音乐速度Z(=z[l、
z[2].....z[N)(步骤S42)。
如果在假设概率模型所模型化的音乐速度Z平滑地波动这一特征的 情况下而获得音乐速度Z,则可以通过下式(16)获得模型中最有可能的 音乐速度Z。除了通过使音乐速度Z的波动平滑而获得的方法以外,还可 通过例如使平方误差最小化以使音乐速度与恒定值或模板匹配的各种方 法来获得音乐速度。
Z = argmax尸(义| Z,Q)'尸(Z) …(16) z
下面参照图10来说明由根据本实施例的信号处理方法进行的音拍和 音乐速度的分析结果的具体例子。图10A示出在根据本实施例的信号处 理装置10的显示画面上显示音拍和音乐速度的分析结果的例子。图10A 示出预处理后(发音时刻的检测后、音乐速度色概率音拍分析前)、音拍分 析处理后的显示画面,图IOB示出音拍分析后的显示画面。
如图10A所示,音拍分析前的显示画面显示有音频信号的功率包络、 从功率包络检测出的发音时刻X和从功率包络的自相关获得的音乐速度 Z的初始概率分布。在音拍分析前的图IOA的阶段,不显示音拍的位置, 而音乐速度的概率分布不很明确(以纵轴方向的对比度来表现概率的高 低,白的部分比黑的部分具有更高的概率)。
在音拍分析后的显示画面上,以双点划线来显示由音拍分析所估计的 音拍的位置。所估计的音拍与多个发音时刻X的与音乐的音拍对应的一 部分的发音时刻X相匹配。关于所估计的音乐速度的概率分布,与图10A 相比,概率高的白的部分呈带状清楚地显示。进而,音乐速度随时间流逝 而逐渐降低,可精确地获取数秒中音乐速度的变化。即使音频信号的音乐 速度变化,也可根据该音乐速度的变化而适当地估计音拍。
如上所述,在根据本实施例的音拍分析方法中,对于检测出的发音时刻T获得最有可能的音拍并以概率方式估计音拍,以从音频信号所表示 的音乐获得音拍。即,当给出音乐的发音时刻间隔X时,设置目的函数 P(QIX)和辅助函数,该目的函数P(QIX)表示是音乐的音拍间的音拍长度 Q的概率,该辅助函数引导使该目的函数P(QIX)单调增加的音拍长度Q 的更新。重复使用辅助函数将对数似然度log P(XIQ)引导至最大值的更 新,以获得使目的函数最大化的音拍。这样可准确地获得音乐的音拍。
作为Q函数中包含的音乐速度Z的概率分布的初始值而应用从音频 信号的功率包络的自相关函数获得的音乐速度Z的初始概率分布,因而 可进行健壮的音拍估计。
而且,即使在如音乐速度在一首音乐(例如, 一首乐曲)内渐渐加快/ 放慢的音乐的音乐速度变化的情况下,也可才艮据该音乐速度的变化而获得 适当的音拍。
音拍和音乐速度是音乐的基本特征量,根据本实施例的音拍和音乐速 度分析方法在以下说明的各种应用中有用。
音乐的元数据的提供
如果存在大量的音乐内^!t据(乐曲),则对这些乐曲的所有音乐速度 进行标记是非常繁重的工作。特别地,由于音乐速度一般在歌曲中间变化, 因而需要很大的努力来逐个音拍或逐个小节地对音乐iiA进行标记,il* 实际上不可能。在本实施例中,自动地获得每首乐曲的音乐速度和在乐曲 内变化的音乐速度,并将其作为元数据而添加到音乐内容,因而可减轻劳 动量。
音乐搜索
可以以从音拍分析获得的音乐速度或音拍作为如"音乐速度快的音 乐"、"八拍的音乐"等的问题,应用于音乐内容的搜索。
音乐推荐
还可应用于将喜爱的歌曲推荐给收听者。例如,当制作与用户的喜爱 相匹配的播放列表时,将音乐速度用作音乐的重要特征量。
乐曲的整理
此外,可基于音乐速度来计算乐曲的相似度。期望获得音乐速度和音 拍的信息,以对用户拥有的大量乐曲进行自动分类。
与舞蹈同通过得知音乐的音拍,可创建使得机器人等随音乐的音拍跳舞的程 序。例如,正在开发具有音乐再现功能的机器人,该机器人在对音乐进行 再现的同时自动地进行歌曲分析,并创建动作,且在移动的同时再现音乐
(动作再现)。为了使得该机器人随音乐的音拍跳舞,检测音乐的音拍, 且实际上分布包含音拍检测功能的软件。可以期待根据本实施例的音拍分 析方法进一步强化了在该场景中使用的音拍检测。
与图片的幻灯片放映同步
在随音乐呈现图片的幻灯片放映中,要求使切换图片的定时与切换音 乐的定时一致。根据本实施例的音拍分析,可提供音拍的发音时刻作为切 换图片的定时的候选。
自动记镨
在乐谱中记述的基本要素是音高(音符的高度)和音拍(音符的长度), 因而,通过将音高提取和根据本实施例的音拍估计组^来,可将音乐变 换成乐镨。
音乐分析
如在音乐分析技术的码分析中那样,可将音拍作为音频信号(音乐/声 音信号)的触发而分析各种音乐的特征。例如,以在本实施例中估计的音 拍作为单位、对音高提取和如音色的特征进行分析,并对包含副部
(refrain)和重复模式在内的乐曲的结构进行分析。
本领域技术人员应当理解根据设计需求和其它因素,可出现各种变 形、组合、子组合和修正,只要它们落入权利要求书或其等同物的范围内。
在上述实施例中,说明了使用概率模型来应用EM算法的例子,但 本发明不限于该概率模型的例子。例如,只要可导出基于与概率相同地对 花费进行正规化的参数(对应于概率)、以及对于该模型所设置的目的函数 (对应于后验概率)的凸性(对应于对数函数)来使目的函数单调增加(或单 调减少)的辅助函数(对应于Q函数),就可进行与该实施例相似的应用。
权利要求
1. 一种对音频信号进行处理的信号处理装置,包括发音时刻检测单元,用于基于音频信号的水平来检测发音时刻;和音拍长度计算单元,用于通过设置目的函数P(Q|X)和辅助函数以及重复所述辅助函数的最大化以使得所述辅助函数收敛,来获得音拍长度Q,所述目的函数P(Q|X)表示当给出所述发音时刻的间隔X时该间隔X是所述音拍长度Q的概率,所述辅助函数用于引导造成所述目的函数P(Q|X)的单调增加的所述音拍长度Q和音乐速度z二者的更新。
2. 根据权利要求1所述的信号处理装置,其中所述辅助函数是基于 所述音拍长度Q的更新算法来设置的,其中将所述音频信号的所述音乐 速度Z设为潜在变量,并使得后验概率P(QIX)的对数单调增加,该后验 概率P(QIX)是通过获得所述潜在变量的期望值而获得的。
3. 根据权利要求1所述的信号处理装置,其中所述音拍长度计算单 元从EM算法来导出所述辅助函数。
4. 根据权利要求1所述的信号处理装置,其中所述音拍长度计算单号的所述音乐速度Z的初始概率分布,并将该音乐速度Z的初始概率分 布用作所述辅助函数所含的所述音乐速度Z的概率分布的初始值。
5. 根据权利要求1所述的信号处理装置,进一步包括音乐速度计算 单元,用于基于由所述音拍长度计算单元获得的所述音拍长度Q和所述 间隔X来获得所述音频信号的所述音乐速度Z。
6. —种对音频信号进行处理的信号处理方法,包括以下步骤基于所述音频信号的水平来检测发音时刻;和通过设置目的函数P(QIX)和辅助函数以及重复所述辅助函数的最大 化以使得所述辅助函数收敛,来获得音拍长度Q,所述目的函数P(QIX) 表示当给出所U音时刻的间隔X时该间隔X是所述音拍长度Q的概率, 所述辅助函数用于引导造成所述目的函数P(QIX)的单调增加的所述音拍 长度Q和音乐速度Z 二者的更新。
7. —种用于使计算机执行以下步骤的程序 基于所述音频信号的水平来检测发音时刻;以及通过设置目的函数P(QIX)和辅助函数以及重复所述辅助函数的最大 化以使得所述辅助函数收敛,来获得音拍长度Q,所述目的函数P(QIX)所述辅助函数用于引导造成所述目的函数P(QIX)的单调增加的所述音拍 长度Q和音乐速度Z二者的更新。
全文摘要
本发明提供了一种用于对音频信号进行处理的信号处理装置,该信号处理装置包括发音时刻检测单元,用于基于所述音频信号的水平来检测发音时刻;和音拍长度计算单元,用于通过如下方式来获得音拍长度Q设置目的函数P(Q|X)和辅助函数,该目的函数P(Q|X)表示当给出所述发音时刻的间隔X时该间隔X是所述音拍长度Q的概率,该辅助函数用于引导造成所述目的函数P(Q|X)的单调增加的所述音拍长度Q和音乐速度Z二者的更新;并重复所述辅助函数的最大化以使得所述辅助函数收敛。
文档编号G10H1/40GK101452696SQ200810185718
公开日2009年6月10日 申请日期2008年12月8日 优先权日2007年12月7日
发明者武田晴登 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1