音乐信号处理设备和方法、以及程序的制作方法

文档序号：2827464阅读：147来源：国知局

音乐信号处理设备和方法、以及程序的制作方法
【专利摘要】本发明提供了一种音乐信号处理设备和方法、以及程序，该音乐信号处理设备包括频谱变换单元、滤波器、频率特征量生成单元以及旋律特征量序列获取单元。频谱变换单元被配置为将音乐信号变换成频谱，该音乐信号是包含具有旋律的部分的音乐作品的信号。滤波器被配置为去除频谱的陡峭峰。频率特征量生成单元被配置为根据从滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量。旋律特征量序列获取单元被配置为基于频率特征量来获取旋律特征量序列，该旋律特征量序列指定所述部分在每个时间处的基频。
【专利说明】音乐信号处理设备和方法、以及程序
[0001] 相关申请的交叉引用
[0002] 本申请要求2013年5月9日提交的日本优先权专利申请JP2013-099654的权益，其全部内容通过引用结合于此。

【技术领域】
[0003] 本公开内容涉及一种音乐信号处理设备和方法、以及程序，并且更具体地涉及能够在不增加处理负荷的情况下精确地提取歌声的音乐信号处理设备和方法、以及程序。

【背景技术】
[0004] 近年来，对于从许多音乐作品（musical piece)中搜索与歌声相关的旋律的要求日益增加。例如，执行基于用户的歌声或哼唱搜索音乐作品的哼唱搜索、搜索翻唱音乐作品的原版的翻唱歌曲搜索等。
[0005] 作为一种根据音乐作品的语音信号估计与歌声相关的旋律的特征量（即，歌声的基频）的方法，提出了根据频谱的最大峰值估计特征量的方法（例如，参见 M. Goto, 〃A real-time music-scene-description system:predominant-FOestimation for detecting melody and bass line in real-world audio signals"，Speech Communication(ISCA 期刊），第 43 卷，第 4 号，第 311-329 页，2004 年 9 月）
[0006] 另外，还提出了一种通过使用歌声的音高波动来提取歌声的方法（例如，参见 H. Tachibana, T. 0no, N. 0no, S. Sagayama, ^Melody line estimation in homophonic music audio signals based on temporal-variability of melodic source' ICASSP2010会?艮，第 425-428 页，2010年3 月）。
[0007] 在"Melody line estimation in homophonic music audio signals based on temporal-variability of melodic source"的技术中，分析频率方向上的能量和时间方向上的能量以提取歌声的基频的特征量等。

【发明内容】

[0008] 然而，在 "A real-time music-scene-description system:predominant-FOestimation for detecting melody and bass line in real-world audio signals"的技术中，例如，在与乐器相关的旋律的音量大的情况下，频谱的最大峰值对应于乐器的基频，因而很难精确地提取歌声。
[0009] 另夕卜，在"Melody line estimation in homophonic music audio signals based on temporal-variability of melodic source"的技术中，需要分析时间上长的语音信号，并且处理负荷变大。因而，例如，难以在便携式音乐播放器等中实现该技术。
[0010] 鉴于如上所述的状况而公开了本公开内容，并且期望在不增加处理负荷的情况下精确地提取歌声。
[0011] 根据本公开内容的实施例，提供了一种音乐信号处理设备，其包括频谱变换单元、滤波器、频率特征量生成单元以及旋律特征量序列获取单元。频谱变换单元被配置为将音乐信号变换成频谱，该音乐信号是包含具有旋律的部分的音乐作品的信号。滤波器被配置为去除频谱的陡峭峰。频率特征量生成单元被配置为根据从滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量。旋律特征量序列获取单元被配置为基于频率特征量来获取旋律特征量序列，该旋律特征量序列指定所述部分在每个时间处的基频。
[0012] 该部分可包括歌声，并且频率特征量生成单元可被配置为生成歌声的基频分量得到强调的频率特征量。
[0013] 频率特征量生成单元可被配置为对从滤波器输出的信号进行归一化，以生成该部分的基频分量得到强调的频率特征量。
[0014] 频率特征量生成单元可被配置为对从滤波器输出的信号进行归一化并加上谐波分量，以生成该部分的基频分量得到强调的频率特征量。
[0015] 旋律特征量序列获取单元可被配置为基于时间上相邻的频率特征量的差绝对值来对频率特征量（在所述频率特征量中该部分的基频分量得到强调并且所述频率特征量按时间顺序排列）进行分组，以生成特征量序列候选，并且通过动态规划选择特征量序列候选以获取旋律特征量序列。
[0016] 音乐信号处理设备还可包括音高走势（pitch trend)估计单元，其被配置为对该部分的基频分量得到强调的频率特征量的自相关函数进行平均以估计该部分的音高走势，其中旋律特征量序列获取单元可被配置为通过动态规划以及基于音高走势来选择特征量序列候选以获取旋律特征量序列。
[0017] 根据本公开内容的另一实施例，提供了一种音乐信号处理方法，包括：用频谱变换单元将音乐信号变换成频谱，音乐信号是包含具有旋律的部分的音乐作品的信号；用滤波器去除频谱的陡峭峰；用频率特征量生成单元根据从滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量；以及用旋律特征量序列获取单元基于频率特征量来获取旋律特征量序列，所述旋律特征量序列指定所述部分在每个时间处的基频。
[0018] 根据本公开内容的又一个实施例，提供了一种程序，其使得计算机用作音乐信号处理设备，所述设备包括：频谱变换单元，被配置为将音乐信号变换成频谱，音乐信号是包含具有旋律的部分的音乐作品的信号；滤波器，被配置为去除频谱的陡峭峰；频率特征量生成单元，被配置为根据从滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量；以及旋律特征量序列获取单元，被配置为基于频率特征量来获取旋律特征量序列，所述旋律特征量序列指定所述部分在每个时间处的基频。
[0019] 根据本公开内容的实施例，将作为包含具有旋律的部分的音乐作品的信号的音乐信号变换成频谱，去除频谱的陡峭峰，根据从滤波器输出的信号生成该部分的基频分量得到强调的频率特征量，并且基于频率特征量来获取指定所述部分在每个时间处的基频的旋律特征量序列。
[0020] 根据本公开内容，可以在不增加处理负荷的情况下精确地提取歌声。
[0021] 如附图所示，根据以下对本公开内容的最佳模式实施例的详细描述，本公开内容的这些和其它目的、特征和优点将变得更加明显。

【专利附图】

【附图说明】
[0022] 图1是示出根据本公开内容的实施例的旋律检索设备的配置示例的框图；
[0023] 图2是用于描述低通滤波器的特性的图；
[0024] 图3A、图3B、图3C和图3D均是用于详细描述图1的频率特征量提取单元的处理的图；
[0025] 图4是示出在二维空间内按时间顺序标绘（plot)的频率特征量的示例的图；
[0026] 图5是用于描述旋律特征量序列的特定模式（scheme)的图；
[0027] 图6是用于描述旋律特征量序列指定处理的示例的流程图；
[0028] 图7是用于描述频率特征量提取处理的详细示例的流程图；以及
[0029] 图8是示出个人计算机的配置示例的框图。

【具体实施方式】
[0030] 下文中，将参照附图描述本公开内容的实施例。
[0031] 图1是示出根据本公开内容的实施例的旋律检索设备的配置示例的框图。图1所示的旋律检索设备100获取指定与音乐作品中的歌声相关的旋律所需要的信息（例如，稍后将描述的旋律特征量序列）。这里，音乐作品具有包括至少一个部分的结构。例如，假设首乐作品包括歌唱（歌声）部分、弦乐部分、打击乐部分等。
[0032] 图1所示的旋律检索设备100包括短时傅立叶变换单元101、频率特征量提取单元 102、旋律候选提取单元103、音高走势估计单元104和旋律特征量序列选择单元105。
[0033] 短时傅立叶变换单元101对音乐作品的语音信号（下文中，称为音乐信号）的一部分执行傅立叶变换。此时，例如，对音乐作品的语音进行采样以生成音乐信号，并且使由几百毫秒（例如，200毫秒至300毫秒）的时间段内的音乐信号构成的帧经受短时傅立叶变化以生成频谱。
[0034] 频率特征量提取单元102从自短时傅立叶变换单元101输出的频谱中提取稍后将描述的频率特征量。
[0035] 频率特征量提取单元102执行去除从短时傅立叶变换单元101输出的频谱的陡峭峰的滤波处理。例如，使得频谱通过低通滤波器，从而强调频谱的平缓峰。
[0036] 此时，例如，使用具有如图2所示的特性的低通滤波器。在图2中，横轴表示频率 ω，并且纵轴表示与音乐信号相乘的增益的值。如图2所示，在低通滤波器的特性中，在比预定频率高的频率处增益低，而在比预定频率低的频率处增益高。
[0037] 例如，在频谱的频率轴方向上，使用低通滤波器（诸如，具有如图2所示的特性的 FIR(有限脉冲响应）滤波器）执行卷积运算。具体地，低通滤波器的输出值l(x，y)通过以下公式（1)来表示。

【权利要求】
1. 一种音乐信号处理设备，包括：频谱变换单元，被配置为将音乐信号变换成频谱，所述音乐信号是包含具有旋律的部分的音乐作品的信号；滤波器，被配置为去除所述频谱的陡峭峰；频率特征量生成单元，被配置为根据从所述滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量；以及旋律特征量序列获取单元，被配置为基于所述频率特征量来获取旋律特征量序列，所述旋律特征量序列指定所述部分在每个时间处的基频。
2. 根据权利要求1所述的音乐信号处理设备，其中，所述部分包括歌声，并且所述频率特征量生成单元被配置为生成所述歌声的基频分量得到强调的频率特征量。
3. 根据权利要求1所述的音乐信号处理设备，其中，所述频率特征量生成单元被配置为对从所述滤波器输出的信号进行归一化，以生成所述部分的基频分量得到强调的频率特征量。
4. 根据权利要求3所述的音乐信号处理设备，其中，所述频率特征量生成单元被配置为对从所述滤波器输出的信号进行归一化并加上谐波分量以生成所述部分的基频分量得到强调的频率特征量。
5. 根据权利要求1所述的音乐信号处理设备，其中，所述旋律特征量序列获取单元被配置为：基于时间上相邻的频率特征量的差绝对值来对频率特征量进行分组，以生成特征量序列候选，在所述频率特征量中所述部分的基频分量得到强调并且所述频率特征量按时间顺序排列，并且通过动态规划选择特征量序列候选以获取所述旋律特征量序列。
6. 根据权利要求1所述的音乐信号处理设备，还包括音高走势估计单元，其被配置为对所述部分的基频分量得到强调的频率特征量的自相关函数进行平均，以估计所述部分的音高走势，其中所述旋律特征量序列获取单元被配置为通过动态规划以及基于所述音高走势来选择所述特征量序列候选，以获取所述旋律特征量序列。
7. -种音乐信号处理方法，包括：用频谱变换单元将音乐信号变换成频谱，所述音乐信号是包含具有旋律的部分的音乐作品的信号；用滤波器去除所述频谱的陡峭峰；用频率特征量生成单元根据从所述滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量；以及用旋律特征量序列获取单元基于所述频率特征量来获取旋律特征量序列，所述旋律特征量序列指定所述部分在每个时间处的基频。
8. -种程序，其使得计算机用作音乐信号处理设备，所述设备包括：频谱变换单元，被配置为将音乐信号变换成频谱，所述音乐信号是包含具有旋律的部分的音乐作品的信号；滤波器，被配置为去除所述频谱的陡峭峰；频率特征量生成单元，被配置为根据从所述滤波器输出的信号生成所述部分的基频分量得到强调的频率特征量；以及旋律特征量序列获取单元，被配置为基于所述频率特征量来获取旋律特征量序列，所述旋律特征量序列指定所述部分在每个时间处的基频。
【文档编号】G10L19/02GK104143339SQ201410181454
【公开日】2014年11月12日申请日期:2014年4月30日优先权日:2013年5月9日
【发明者】角尾衣未留申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：角尾衣未留
技术所有人：索尼公司
我是此专利的发明人

上一篇：基于子带空间关注测度的可分级音频编码系统及方法
上一篇：控制指向性的水下激光声源及其控制方法