音频处理装置和方法以及程序的制作方法

文档序号:2835944阅读:284来源:国知局
专利名称:音频处理装置和方法以及程序的制作方法
技术领域
本公开涉及音频处理装置和方法以及程序,更具体地,涉及能够高精度地从由乐曲形成的音频信号提取符尾(hook)的音频处理装置和方法以及程序。
背景技术
近来,如移动电话所代表的,无处不在的联网的时代已经到来,其中可以随时随地接入互联网,个人享受方式和生活方式已多样化。其中,如果将目光转向由乐曲等形成的音乐,直到最近,通常使用将购买的音乐专辑致密盘(CD)导入磁带或者迷你盘(MD)并且在诸如地铁或街道的户外使用音频播放器收听音乐的方式。然而,近来,由于已引入包括诸如闪速存储器的大容量存储介质的音频播放器,因此通常使用导入和观看大容量存储介质中的数千首(或数万首)乐曲的方式。具有网络功能并且包括音频播放器的移动装置即便在户外仍可以接入互联网以便收听或购买音乐。通过这种方式,可以随意地保持并且在户外随意地传输大量的乐曲。然而,有必要在没有来自难以衡量的大量的乐曲的压力的情况下容易地搜索期望的乐曲。就是说,当选择乐曲时,用户收听乐曲的开头,并且通过选择歌曲标题或艺术家, 确定用户是否将收听该乐曲。然而,由于大部分乐曲的开头是伴奏,因此难于确定其是否是期望的乐曲。如果存在大量的乐曲,则用户可能遇到他们不能辨别的乐曲,并且可能丧失在期望时间收听期望乐曲的机会。作为用于解决该问题的方法,存在一种通过再现作为乐曲的高潮部分的“符尾”部分来增强可搜索性的方法。由于“符尾”是乐曲的高潮部分,因此符尾给用户强烈的印象。 因而,通过当选择乐曲时高精度地检测符尾并且再现符尾,可以增强乐曲的可搜索性。如音乐排行榜电视节目中的那样,依次再现符尾变为一种音乐享受方法。作为检测符尾的方法,提出了一种通过自相关来计算相似性以提取符尾的方法 (参见日本专利第4243682号)。作为通过将注意力集中在音频信号水平来检测音频变化点并且提取符尾的方法, 提出了一种根据包括作为特征值的均方根等的评估函数的最大值检测音频变化点并且提取符尾的方法(参见日本专利第3886372号)。提出了一种使用音频信号水平作为特征值的方法,即通过区分变化量的阈值或该水平来检测音频变化点,并且从时间分布的相似区间或者音频变化点的间隔的组合提取符尾的方法(参见日本未审专利申请公布第2008-262043号)。

发明内容
然而,日本专利第4243682号的方法基于如下前提“符尾”具有乐曲中最高的出现频率,并且被重复地再现。该方法基于乐曲的性质而有效,但是,依赖于乐曲,重复最多的部分可能不是“符尾”。就是说,存在如下乐曲,其中重复最多的部分是旋律A。此外,用于提取特征值或者计算相似性的处理负担是大的。
日本专利第3886372号和日本未审专利申请公布第2008-262043号的方法基于乐曲的如下性质“符尾”的音频信号水平大于“旋律A”或“间奏”的音频信号水平,但是处理结构比日本专利第4243682号的方法简单,由此增加了处理速度。然而,尽管实际乐曲的时间音频信号水平具有剧烈的起伏,并且曲调或节奏(每分钟的拍数;BPM)取决于乐曲,但是日本专利第3886372号和日本未审专利申请公布第 2008-262043号没有应对这些问题。音频变化点被过度地检测,或者错误地检测突然大的音频信号水平而非符尾,使得符尾易于被错误检测。如果特征值计算的粒度被设定为粗略的 (如果设定了长的处理时间长度),则减小了时间音频信号水平的起伏,但是时间分辨率劣化。因而,有必要适当地调整处理时间长度。此外,有必要考虑突然大的音频信号的处理。期望基于音频信号准确地检测音频变化点并且高精度地高速提取符尾地点。根据本公开的一个实施例,提供了一种音频处理装置,包括音频信号获取单元, 被配置为获取乐曲的音频信号;特征值提取单元,被配置为以时间序列从音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,被配置为检测其中特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元, 被配置为基于特征值提取单元以边界为变化点检测单元检测到的变化点的块为单位提取的特征值,分析音频信号的符尾地点;以及符尾信息输出单元,被配置为输出符尾分析单元分析的符尾地点作为符尾信息。特征值的类型可以包括立体声和信号的均方根、立体声差信号的均方根、立体声和信号的幅度的平方和以及立体声差信号的幅度的平方和中的任何一个或者它们的组合。变化点检测单元可以包括平滑单元,被配置为使时间序列的特征值平滑;变化量计算单元,被配置为计算变化量;变化点确定单元,被配置为重新确定变化量是否为变化点;变化点检测控制单元,被配置为控制变化量的计算地点并且如果检测到变化点,则记录变化点的位置;以及变化点统合单元,被配置为统合多个变化点。变化点检测单元可以进一步包括归一化单元,其被配置为使时间序列的特征值归一化。变化点检测单元可以包括变化点重新检测单元,该变化点重新检测单元被配置为执行如下两个处理中的任何一个或两者如果通过比较变化点的数目和预定阈值,变化点的数目大于预定阈值,则改变预定阈值以便减少变化点的数目;以及通过平滑单元使时间序列的特征值重新平滑并且重新确定变化量是否为变化点。变化点检测单元可以包括变化点重新检测单元,该变化点重新检测单元被配置为如果存在大于预定时间且没有变化点的时段,则改变预定阈值以便增加变化点的数目并且重新确定变化量是否为变化点。平滑单元可以通过预定时段中的运动平均使时间序列的特征值平滑。平滑单元可以通过在基于预先获得的节奏的预定时段中的运动平均来使时间序列的特征值平滑。变化点检测单元可以包括变化点调整单元,该变化点调整单元被配置为统合变化点中的多个相邻变化点。变化点检测单元可以包括变化点调整单元,该变化点调整单元被配置为将变化点中的两个相邻变化点统合到中间点。
符尾分析单元可以包括块分割单元,被配置为在以变化点为边界的块中进行分割;符尾块检测单元,被配置为以块为单位获得特征值的平均值并且将其中特征值的平均值最大的块检测为符尾块;符尾块控制单元,被配置为基于如下约束来控制分析对象的块的位置块与符尾块检测单元检测到的符尾块接续;符尾块分析单元,被配置为对分析对象的块进行分析;以及符尾块确定单元,被配置为基于符尾块分析单元的分析结果确定分析对象的块是否为符尾块。如果其中特征值的平均值最大的块小于预定时段,则符尾块检测单元可以将通过使块单位的特征值的平均值的计算范围扩宽到比块长的预定长度而获得的特征值的平均值设定为特征值的平均值。符尾块分析单元可以对分析对象的块进行分析,并且获得分析对象的块中的特征值的平均值并将其设定为分析结果,并且符尾块确定单元可以基于符尾块检测单元检测到的符尾块中的特征值的平均值和音频信号获取单元获取的乐曲的整个音频信号的特征值的平均值之间的差,计算预定阈值,并且通过将分析对象的块的特征值的平均值和乐曲的整个音频信号的特征值的平均值之间的差与阈值比较来确定分析对象的块是否为符尾块。符尾块分析单元可以包括符尾块校正单元,该符尾块校正单元被配置为如果通过符尾块确定单元确定分析对象的块不是符尾块,则将预定阈值校正为是小的,重新对分析对象的块进行分析并且确定分析对象的块是否为符尾块。符尾块分析单元可以包括符尾块校正单元,该符尾块校正单元被配置为如果通过符尾块确定单元确定分析对象的块不是符尾块,则将分析对象的块的样本数目校正为是减少的,重新对分析对象的块进行分析并且确定分析对象的块是否为符尾块。可以进一步包括符尾信息统合单元,其被配置为通过多个预定类型的特征值统合符尾信息。音频信号获取单元可以输出所获取的乐曲的音频信号的MDCT系数。根据本公开的另一实施例,提供了一种音频处理装置的音频处理方法,该音频处理装置包括音频信号获取单元,被配置为获取乐曲的音频信号;特征值提取单元,被配置为以时间序列从音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,被配置为检测其中特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元,被配置为基于特征值提取单元将以变化点检测单元检测到的变化点为边界的块为单位提取的特征值,分析音频信号的符尾地点;以及符尾信息输出单元,被配置为输出符尾分析单元分析的符尾地点作为符尾信息,该音频处理方法包括在音频信号获取单元中,获取乐曲的音频信号;在特征值提取单元中,从通过以时间序列获取音频信号而获取的音频信号中提取预定类型的特征值;在变化点检测单元中,检测其中通过提取特征值而以时间序列提取的特征值的变化量变为大于预定阈值的变化点;在符尾分析单元中,基于通过将以通过检测变化点而检测到的变化点为边界的块为单位中提取特征值而提取的特征值,分析音频信号的符尾地点;以及在符尾信息输出单元中,输出通过分析符尾地点而分析的符尾地点作为符尾信息。根据本公开的又一实施例,提供了一种在计算机上执行如下处理的程序,该计算机用于控制音频处理装置的音频处理方法,该音频处理装置包括音频信号获取单元,被配置为获取乐曲的音频信号;特征值提取单元,被配置为以时间序列从音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,被配置为检测其中特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元,被配置为基于特征值提取单元以边界为变化点检测单元检测到的变化点的块为单位提取的特征值,分析音频信号的符尾地点;以及符尾信息输出单元,被配置为输出符尾分析单元分析的符尾地点作为符尾信息,该处理包括在音频信号获取单元中,获取乐曲的音频信号;在特征值提取单元中,从通过以时间序列获取音频信号而获取的音频信号中提取预定类型的特征值;在变化点检测单元中,检测其中通过提取特征值而以时间序列提取的特征值的变化量变为大于预定阈值的变化点;在符尾分析单元中,基于通过以边界为通过检测变化点而检测到的变化点的块为单位提取特征值而提取的特征值,分析音频信号的符尾地点;以及在符尾信息输出单元中,输出通过分析符尾地点而分析的符尾地点作为符尾信息。在本公开的实施例中,获取乐曲的音频信号,以时间序列从获取的音频信号中提取预定类型的特征值,检测其中以时间序列提取的特征值的变化量变为大于预定阈值的变化点,基于以边界为检测到的变化点的块为单位提取的特征值,分析音频信号的符尾地点, 并且输出分析的符尾地点作为符尾信息。本公开的实施例的音频处理装置可以是独立的装置或者执行音频处理的块。根据本公开的实施例,可以高精度地从包括输入乐曲的音频信号中提取符尾。


图1是示出根据本公开的实施例的音乐分析设备的配置示例的框图。图2是示出图1的变化点检测单元的配置示例的示图。图3是示出图1的符尾分析单元的配置示例的示图。图4是图示音乐分析处理的流程图。图5是图示变化点检测处理的流程图。图6是图示变化点检测处理的示图。图7是图示变化点检测处理的示图。图8是图示变化点的统合的示图。图9是示出平滑不足的情况下的波形示例的示图。图10是图示符尾分析处理的流程图。图11是图示符尾分析处理的示图。图12是图示符尾分析处理的示图。图13是图示通用个人计算机的配置示例的示图。
具体实施例方式根据本公开的一个实施例,提供了一种音频处理装置,包括音频信号获取单元, 被配置为获取乐曲的音频信号;特征值提取单元,被配置为以时间序列从音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,被配置为检测其中特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元, 被配置为基于特征值提取单元在以边界为变化点检测单元检测到的变化点为边界的块为单位中提取的特征值,分析音频信号的符尾地点;以及符尾信息输出单元,被配置为输出符尾分析单元分析的符尾地点作为符尾信息。根据本公开的另一实施例,提供了一种音频处理装置的音频处理方法,该音频处理装置包括音频信号获取单元,被配置为获取乐曲的音频信号;特征值提取单元,被配置为以时间序列从音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,被配置为检测其中特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元,被配置为基于特征值提取单元将以变化点检测单元检测到的变化点为边界的块为单位提取的特征值,分析音频信号的符尾地点;以及符尾信息输出单元,被配置为输出符尾分析单元分析的符尾地点作为符尾信息,该音频处理方法包括在音频信号获取单元中,获取乐曲的音频信号;在特征值提取单元中,从通过以时间序列获取音频信号而获取的音频信号中提取预定类型的特征值;在变化点检测单元中,检测其中通过提取特征值而以时间序列提取的特征值的变化量变为大于预定阈值的变化点;在符尾分析单元中,基于通过将以通过检测变化点而检测到的变化点为边界的块为单位中提取特征值而提取的特征值,分析音频信号的符尾地点;以及在符尾信息输出单元中,输出通过分析符尾地点而分析的符尾地点作为符尾信息。音乐分析设备的配置示例图1示出了根据本公开的实施例的音乐分析设备的硬件的配置示例。图1的音乐分析设备11接收和获取包括乐曲的音频信号的输入,提取和分析特征值,从乐曲中提取所谓的符尾,并且输出符尾作为符尾信息。这里,符尾是乐曲的高潮部分或者给收听者强烈印象的部分,并且是如下部分当收听者听到乐曲的该部分时,收听者极有可能感知该部分属于哪个音乐,尽管收听者不记得歌曲标题、艺术家等。音乐分析设备11包括获取单元31、特征值提取单元32、变化点检测单元33、变化点统合单元34、符尾分析单元35、符尾统合单元36和符尾信息输出单元37。获取单元31获取包括输入乐曲(音频内容)的音频信号。获取单元31接收具有脉冲编码调制(PCM)格式的音频信号并且将其提供给特征值提取单元32。由于获取单元具有用于将音频信号转化为PCM格式的功能,因此获取单元31接收具有与PCM格式不同的格式的音频信号并且按照需要将该音频信号转化为PCM格式。音频信号的与PCM格式不同的格式可以是例如,诸如运动图片专家组音频层3 (MP; )的压缩格式。在该情况下,获取单元 31可以按照需要执行与压缩格式对应的解码处理并且向特征值提取单元32提供作为解码处理中的音频信号的格式的修正离散余弦变换(MDCT)系数等。由于包括乐曲的音频信号通常具有诸如MP3的压缩格式以便于高效地应对存储器,因此优选的是,处理时间长度(帧长度)因用于存储音频信号的缓冲器的尺寸限制而是固定的。这里,尽管帧长度是固定的(10 个样本/通道),但是帧长度可以自由设定并且不限于此。尽管包括乐曲的音频信号的采样频率或者信道的数目没有限制,但是作为代表性示例,在音频致密盘(⑶)中采样频率通常是44100Hz并且通道的数目被设定为2个通道。特征值提取单元32以时间序列从获取单元31提供的具有PCM格式的音频信号中提取预定类型的特征值并且将时间序列特征值提供给变化点检测单元33作为时间序列特征值。这里描述的特征值包括例如,过零率、频谱质心、频谱变化量、梅尔频率倒谱系数等。 过零率指的是音乐分析或语音识别中常用的作为特征值的时间轴信号中的正/负符号变化次数的比率。频谱质心指的是作为特征值的频谱的中心位置。频谱变化量指的是作为特征值的频谱的变化量。梅尔频率倒谱系数指的是通过使用梅尔标度压缩频谱并且相对于作为其对数的梅尔频谱执行傅立叶变换而获得的系数。特征值提取单元32可以以时间序列提取任何一个上述特征值作为预定特征值或者以时间序列提取多个特征值的组合作为预定特征值。在下面的描述中,为了便于描述,特征值提取单元32以时间序列提取音频信号水平作为预定特征值。特征值的类型可以是任意的并且不限于上述特征值。现在,将描述音频信号水平。通常,符尾具有其音频信号水平大于与符尾不同的被称为旋律A的初始旋律部分、间奏等的音频信号水平的音乐性质。因此,由下式1表述的立体声和信号M(n)被视为用作特征值。符尾是乐曲的高潮部分。此外,在符尾中,由于较之旋律A或间奏,声音的数量(乐器声音、伴唱等)多并且声音在宽的范围中定位,因此由下式2表述的立体声差信号S (η)也被视为用作特征值。式1M (n) = (L (η) +R (η) )/2式2S (η) = (L (η)-R (η) )/2其中L(n)表示左通道的音频信号水平,R(η)表示右通道的音频信号水平,并且η 表示样本编号。作为计算相对于立体声和信号M(η)和立体声差信号S (η)中的每个的音频信号水平的方法,存在幅度的均方根(冊幻或平方和。这里,将描述使用均方根(冊幻作为特征值的示例。均方根RMS(N)由下式3表述。式权利要求
1.一种音频处理装置,包括音频信号获取单元,被配置为获取乐曲的音频信号;特征值提取单元,被配置为以时间序列从所述音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,被配置为检测其中所述特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元,被配置为基于所述特征值提取单元以边界为所述变化点检测单元检测到的变化点的块为单位提取的特征值,分析所述音频信号的符尾地点;以及符尾信息输出单元,被配置为输出所述符尾分析单元分析的符尾地点作为符尾信息。
2.根据权利要求1所述的音频处理装置,其中所述的特征值的类型包括立体声和信号的均方根、立体声差信号的均方根、立体声和信号的幅度的平方和以及立体声差信号的幅度的平方和中的任何一个或者它们的组合。
3.根据权利要求1所述的音频处理装置,其中所述变化点检测单元包括 平滑单元,被配置为使所述时间序列的特征值平滑;变化量计算单元,被配置为计算所述变化量; 变化点确定单元,被配置为确定所述变化量是否为所述变化点; 变化点检测控制单元,被配置为控制所述变化量的计算地点并且如果检测到变化点, 则记录所述变化点的位置;以及变化点统合单元,被配置为统合多个变化点。
4.根据权利要求3所述的音频处理装置,其中所述变化点检测单元进一步包括归一化单元,其被配置为使所述时间序列的特征值归一化。
5.根据权利要求3所述的音频处理装置,其中所述变化点检测单元包括变化点重新检测单元,所述变化点重新检测单元被配置为执行如下两个处理中的任何一个或两者如果通过比较变化点的数目和所述预定阈值,变化点的数目大于所述预定阈值,则改变所述预定阈值以便减少变化点的数目;以及通过所述平滑单元使所述时间序列的特征值重新平滑并且重新确定所述变化量是否为所述变化点。
6.根据权利要求3所述的音频处理装置,其中所述变化点检测单元包括变化点重新检测单元,所述变化点重新检测单元被配置为如果存在大于预定时间且没有变化点的时段, 则改变所述预定阈值以便增加变化点的数目并且重新确定所述变化量是否为所述变化点。
7.根据权利要求3所述的音频处理装置,其中所述平滑单元通过预定时段中的运动平均使所述时间序列的特征值平滑。
8.根据权利要求7所述的音频处理装置,其中所述平滑单元通过在基于预先获得的节奏的预定时段中的运动平均来使所述时间序列的特征值平滑。
9.根据权利要求3所述的音频处理装置,其中所述变化点检测单元包括变化点调整单元,所述变化点调整单元被配置为统合所述变化点中的多个相邻变化点。
10.根据权利要求9所述的音频处理装置,其中所述变化点检测单元包括变化点调整单元,所述变化点调整单元被配置为将所述变化点中的两个相邻变化点统合到中间点。
11.根据权利要求1所述的音频处理装置,其中所述符尾分析单元包括 块分割单元,被配置为在以所述变化点为边界的块中进行分割;符尾块检测单元,被配置为以块为单位获得所述特征值的平均值并且将其中所述特征值的平均值最大的块检测为符尾块;符尾块控制单元,被配置为基于如下约束来控制分析对象的块的位置块与所述符尾块检测单元检测到的符尾块接续;符尾块分析单元,被配置为分析所述分析对象的块;以及符尾块确定单元,被配置为基于所述符尾块分析单元的分析结果确定所述分析对象的块是否为符尾块。
12.根据权利要求11所述的音频处理装置,其中,如果其中所述特征值的平均值最大的块小于预定时段,则所述符尾块检测单元将通过使所述块单位的特征值的平均值的计算范围扩宽到比所述块长的预定长度而获得的特征值的平均值设定为所述特征值的平均值。
13.根据权利要求11所述的音频处理装置,其中所述符尾块分析单元分析所述分析对象的块,并且获得所述分析对象的块中的特征值的平均值并将其设定为分析结果,以及其中所述符尾块确定单元基于所述符尾块检测单元检测到的符尾块中的特征值的平均值和所述音频信号获取单元获取的乐曲的整个音频信号的特征值的平均值之间的差,计算预定阈值,并且通过将所述分析对象的块的特征值的平均值和乐曲的整个音频信号的特征值的平均值之间的差与所述阈值比较来确定所述分析对象的块是否为符尾块。
14.根据权利要求13所述的音频处理装置,其中所述符尾块分析单元包括符尾块校正单元,所述符尾块校正单元被配置为如果通过所述符尾块确定单元确定所述分析对象的块不是符尾块,则将所述预定阈值校正为是小的,重新分析所述分析对象的块并且确定所述分析对象的块是否为符尾块。
15.根据权利要求13所述的音频处理装置,其中所述符尾块分析单元包括符尾块校正单元,所述符尾块校正单元被配置为如果通过所述符尾块确定单元确定所述分析对象的块不是符尾块,则将所述分析对象的块的样本数目校正为是减少的,重新分析所述分析对象的块并且确定所述分析对象的块是否为符尾块。
16.根据权利要求11所述的音频处理装置,进一步包括符尾信息统合单元,被配置为通过多个预定类型的特征值统合符尾信息。
17.根据权利要求1所述的音频处理装置,其中所述音频信号获取单元输出所获取的乐曲的音频信号的修正离散余弦变换MDCT系数。
18.一种音频处理装置的音频处理方法,所述音频处理装置包括 音频信号获取单元,被配置为获取乐曲的音频信号;特征值提取单元,被配置为以时间序列从所述音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,被配置为检测其中所述特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元,被配置为基于所述特征值提取单元以边界为所述变化点检测单元检测到的变化点的块为单位提取的特征值,分析所述音频信号的符尾地点;以及符尾信息输出单元,被配置为输出所述符尾分析单元分析的符尾地点作为符尾信息, 所述音频处理方法包括在所述音频信号获取单元中,获取乐曲的音频信号;在所述特征值提取单元中,从通过以时间序列获取所述音频信号而获取的音频信号中提取所述预定类型的特征值;在所述变化点检测单元中,检测其中通过提取所述特征值而以时间序列提取的特征值的变化量变为大于所述预定阈值的变化点;在所述符尾分析单元中,基于通过以边界为通过检测变化点而检测到的变化点的块为单位提取特征值而提取的特征值,分析所述音频信号的符尾地点;以及在所述符尾信息输出单元中,输出通过分析所述符尾地点而分析的符尾地点作为符尾 fn息ο
19. 一种在计算机上执行如下处理的程序,所述计算机用于控制音频处理装置的音频处理方法,所述音频处理装置包括音频信号获取单元,被配置为获取乐曲的音频信号;特征值提取单元,被配置为以时间序列从所述音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,被配置为检测其中所述特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元,被配置为基于所述特征值提取单元以边界为所述变化点检测单元检测到的变化点的块为单位提取的特征值,分析所述音频信号的符尾地点;以及符尾信息输出单元,被配置为输出所述符尾分析单元分析的符尾地点作为符尾信息, 所述处理包括在所述音频信号获取单元中,获取乐曲的音频信号;在所述特征值提取单元中,从通过以时间序列获取所述音频信号而获取的音频信号中提取所述预定类型的特征值;在所述变化点检测单元中,检测其中通过提取所述特征值而以时间序列提取的特征值的变化量变为大于所述预定阈值的变化点;在所述符尾分析单元中,基于通过以边界为通过检测变化点而检测到的变化点的块为单位提取特征值而提取的特征值,分析所述音频信号的符尾地点;以及在所述符尾信息输出单元中,输出通过分析所述符尾地点而分析的符尾地点作为符尾 fn息ο
全文摘要
本公开涉及音频处理装置和方法以及程序。该音频处理装置包括音频信号获取单元,其获取乐曲的音频信号;特征值提取单元,其以时间序列从音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,其检测其中特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元,其基于特征值提取单元以边界为变化点检测单元检测到的变化点的块为单位提取的特征值,分析音频信号的符尾地点;以及符尾信息输出单元,其输出符尾分析单元分析的符尾地点作为符尾信息。
文档编号G10L11/00GK102456342SQ20111031777
公开日2012年5月16日 申请日期2011年10月11日 优先权日2010年10月18日
发明者井上晃, 内野学, 高桥秀介 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1