音乐信息搜索方法及其设备的制作方法

文档序号:6519068阅读:253来源:国知局
音乐信息搜索方法及其设备的制作方法
【专利摘要】提供了一种音乐信息搜索方法及其设备,所述音乐信息搜索方法包括:从音频数据提取调制频谱;通过使用与预设峰值点相关的位置信息从提取出的调制频谱产生调制频谱峰值点音频指纹;经由哈希函数将产生的调制频谱峰值点音频指纹转换为指示哈希表的地址的哈希键和存储在哈希表上的哈希值;通过提取与音频查询剪辑相关的哈希键并将提取出的哈希键与哈希表指示的地址进行比较来搜索音乐信息。
【专利说明】音乐信息搜索方法及其设备
[0001]本申请要求于2012年11月13日提交到美国专利商标局的第61/725,666号美国临时专利申请的权益以及于2012年7月12日提交到韩国知识产权局的第10-2013-0082245号韩国专利申请的优先权,其公开通过引用全部合并于此。
【技术领域】
[0002]与本文公开一致的方法和设备涉及一种音乐信息搜索方法及其设备,更具体地,涉及一种使用调制频谱的音乐信息搜索方法及其设备。
【背景技术】
[0003]现有的音乐信息搜索方法通过使用功率谱提取用于搜索音频的特征,其中,作为使用快速傅立叶变换(FFT)将音频信号转换到频域的结果而产生所述功率谱。因此,因为这样的方法不能强大地抗各种噪声环境,所以会发生问题。
[0004]此外,现有的音乐信息搜索方法往往需要过多的时间来通过使用统计方法(诸如,高斯混合模型(GMM)和隐马尔可夫模型(HMM))将用户的查询与存在大数据库中的数据进行匹配来搜索音乐歌曲,因此,这样的方法无法在短时间内提供搜索信息。
[0005]此外,在通过建立音频指纹系统来搜索音乐信息的现有方法中,使用的特征针对噪声环境没有显示出强大性能。因此,当通过使用从真实环境(诸如,街道等)产生的音乐数据来获得音乐信息时,性能可恶化。
[0006]此外,现有的音乐信息搜索方法使用强大频谱平坦度和频谱波峰测量;但是,这些特征针对各种噪音环境也较弱。这样的方法也针对音频指纹索引使用矢量量化方法(VQ)或统计最近邻方法(SNN),因此,针对各种噪声环境,它们可具有较低的搜索信息的操作。
[0007]此外,现有的音乐信息搜索方法的问题在于,由于对通过在实现各种处理的结构中使用波转换提取出调制频谱之后使用最近邻分类方法,因此搜索很缓慢。
[0008]因此,需要一种针对噪声环境显示出强大性能并以高速度搜索音乐信息的新方法。

【发明内容】

[0009]本发明构思的示例性实施例克服上述缺点和上面未描述的其它缺点。此外,本发明构思不需要克服上述缺点,并且本发明构思的示例性实施例可不克服任何上述问题。
[0010]根据示例性实施例,技术目的在于提供一种用于针对噪声环境高速搜索音频信息的方法及其设备,其中,所述方法通过提取针对噪声环境相对较强的调制频谱,将与提取出的调制频谱可清楚区分的调制频谱峰值点相关的位置信息转换为哈希地址和哈希值,并使用哈希表来针对噪声环境高速搜索音频信息。
[0011]根据示例性实施例,另一技术目的在于提供一种用于经由哈希搜索方法来搜索音乐信息的方法及其设备,其中,所述方法根据针对噪声环境相对较强的调制频谱特征,使用调制频谱峰值点或调制频谱峰值点位置。[0012]根据示例性实施例,提供一种音乐信息搜索方法,所述方法可包括:从音频数据提取调制频谱;通过使用与预设峰值点相关的位置信息从提取出的调制频谱产生调制频谱峰值点音频指纹;经由至少一个哈希函数将产生的调制频谱峰值点音频指纹转换为指示哈希表的地址的哈希键和存储在哈希表上的哈希值;提取与音频查询剪辑相关的哈希键,通过将提取出的哈希键与哈希表指示的地址进行比较来搜索音乐信息。
[0013]根据示例性实施例,提供一种音乐信息搜索方法,所述方法可包括:从音频数据提取调制频谱;经由调制频谱归一化处理,对提取出的调制频谱进行归一化,以从提取出的调制频谱删除与不指示音频信号的唯一特征的不必要区域的重叠;将与针对噪声环境比第一阈值弱的第一调制频谱峰值点相关的位置信息和与针对噪声环境比第一阈值强的第二调制频谱峰值点进行区分,并提取第二调制频谱峰值点;将与提取出的第二调制频谱峰值点相关的位置信息转换为调制频谱峰值点音频指纹;通过使用至少一个哈希函数,将分别分配到调制频谱峰值点音频指纹和音乐歌曲的标识号转换为指示哈希表的地址的哈希键和存储在哈希表上的哈希值,并在哈希表上存储转换的结果;从音频查询剪辑提取调制频谱;经由调制频谱归一化处理,对提取出的音频查询调制频谱进行归一化,以从提取出的调制频谱删除与不指示音频查询信号的唯一特征的不必要区域的重叠;将归一化的音频查询调制频谱之中的与针对噪声环境比第二阈值弱的第一音频查询调制频谱峰值点相关的位置信息和与比针对噪声环境比第二阈值强的第二音频查询调制频谱峰值点进行区分,并提取第二音频查询调制频谱峰值点;将与提取出的第二音频查询调制频谱峰值点相关的位置信息转换为与第二音频查询调制频谱峰值点相关的音频指纹;从提取出的音频查询剪辑的调制频谱之中提取与第二音频查询调制频谱峰值点相关的位置信息;将与第二提取出的调制频谱峰值点相关的位置信息转换为调制频谱峰值点音频指纹;通过使用至少一个哈希函数计算哈希键,来从提取出的音频查询剪辑的调制频谱峰值点音频指纹获得分别与地址相应的哈希表的哈希值;通过获得音频索引信息来从获得的哈希值确定最终搜索结果。
[0014]从音频数据提取调制频谱的步骤可包括:通过执行快速傅里叶变换(FFT)来提取音频数据的频谱系数,并经由至少一个调制函数将提取出的频谱系数转换为调制频谱。
[0015]对调制频谱进行归一化的步骤可包括:使用零均值归一化、倒谱均值归一化、分贝标度归一化、通过使用均值的归一化、通过使用中值的归一化和分位数归一化之中的至少一个归一化方法。
[0016]提取调制频谱峰值点的步骤可包括:使用有限脉冲响应滤波器、无限脉冲响应滤波器、卡尔曼滤波器、频谱扣除、用于计算调制频谱的最小分量并通过使用计算出的最小分量计算调制频谱峰值点的方法、用于通过使用能够经使用调制频谱的最高峰值点计算的自适应阈值提取与噪声分量不同的峰值点的方法、用于通过使用过零率和能量来删除噪声的方法之中的至少一个。
[0017]转换为音频查询调制频谱峰值点音频指纹的步骤可包括:通过使用指示提取出的第二调制频谱峰值点的位置的值,将存在于区分的第二调制频谱峰值点之间的预设间隔内的位置信息获得为调制频谱峰值点音频指纹。
[0018]存储在哈希表上的步骤可包括:经由至少一个哈希函数,通过使用与产生的调制频谱峰值点音频指纹相关的信息,计算指示哈希表的各个地址的哈希键和与哈希表相关的哈希值;基于计算出的哈希键和哈希值,通过将调制频谱峰值点音频指纹存储在哈希表上来产生哈希表。
[0019]从音频查询剪辑提取调制频谱的步骤可包括:通过执行音频数据和音频查询剪辑数据中的每一个的各个FFT来提取频谱系数;经由至少一个调制函数将提取出的频谱系数转换为调制频谱。
[0020]从提取出的音频查询剪辑的调制频谱之中提取与第二音频查询调制频谱峰值点相关的位置信息的步骤可包括:使用有限脉冲响应滤波器、无限脉冲响应滤波器、卡尔曼滤波器、频谱扣除、用于计算调制频谱的最小分量并通过使用计算出的最小分量计算调制频谱峰值点的方法、用于通过使用能够经使用调制频谱的最高峰值点计算的自适应阈值提取与噪声分量不同的峰值点的方法、用于通过使用过零率和能量来删除噪声的方法之中的至少一个。
[0021]转换为调制频谱峰值点音频指纹的步骤可包括:通过使用指示提取出的调制频谱峰值点的位置的值,将与两个点相关的位置信息获得为调制频谱峰值点音频指纹。
[0022]获得哈希表的哈希值的步骤可包括:经由至少一个哈希函数,通过使用与产生的音频查询剪辑的调制频谱峰值点音频指纹相关的信息来获得指示哈希表的各个地址的哈希键;通过使用获得的哈希键获得哈希值。
[0023]确定最终搜索结果的步骤可包括:通过使用所述至少一个哈希函数将哈希值转换为音频索引信息;从获得的音频索引信息之中,将最大量的音频索引信息确定为最终的搜索音频信息。
[0024]根据一个或多个上述各种示例性实施例,可提供一种用于针对噪声环境高速搜索音乐信息的方法及其设备,其中,所述方法通过提取针对噪声环境而相对较强的调制频谱,将与关于提取出的调制频谱的区分的调制频谱峰值点相关的位置信息转换为哈希地址和哈希值,并使用哈希表来针对噪声环境高速搜索音乐信息。
[0025]此外,根据一个或多个示例性实施例,可在不使用现有的统计分类方法的情况下,通过使用哈希搜索方法从大量音乐之中高速搜索与提供的查询剪辑匹配的音乐歌曲。
[0026]此外,根据一个或多个示例性实施例,相对低维频谱能量的调制差被提取并被存储来充当高维二进制比特中的音频指纹,在没有使用基于比特误差率(BER)的哈希搜索的方法的情况下,低维音频指纹被提取并被应用于哈希搜索方法。因此,可从大量音乐之中高速搜索与提供的查询剪辑匹配的音乐歌曲。
【专利附图】

【附图说明】
[0027]通过参照附图描述本发明构思的特定示例性实施例,本发明构思的上述和/或其它方面将更加清楚,其中:
[0028]图1是根据示例性实施例的音乐信息搜索设备的框图;
[0029]图2是图1中示出的音乐信息搜索设备的详细框图;
[0030]图3A、图3B、图4A和图4B是示出根据示例性实施例的服务提供方法的示图;
[0031]图5是示出根据示例性实施例的音乐信息搜索方法的流程图;
[0032]图6是示出根据另一示例性实施例的音乐信息搜索方法的流程图。
【具体实施方式】[0033]现在将参照附图更详细地描述本发明构思的特定示例性实施例。
[0034]在下面的描述中,即使在不同的图中,相同的附图参考标号被用于相同的元件。提供在描述中被限定的内容(诸如详细的结构和元件)以帮助对本发明构思的全面的理解。因此,明显的是,在没有那些明确限定的内容的情况下,本发明构思的示例性实施例能被执行。此外,因为公知功能或结构会以不必要的细节模糊本公开,所以不对其进行详细描述。
[0035]图1是根据示例性实施例的音乐信息搜索设备的框图。
[0036]参照图1,音乐信息搜索设备100包括调制频谱音频指纹产生器110和音频数据搜索器120。
[0037]音频指纹产生器110从音频数据和音频信号(“音频数据”)中的至少一个产生音频指纹。
[0038]具体地,音频指纹产生器110从音频数据中提取针对噪声和/或回声而相对较强的调制频谱,并通过使用与提取的调制频谱中的预设峰值点相关的位置信息产生调制频谱峰值点的音频指纹。
[0039]音频数据搜索器120通过使用音频指纹产生器110中产生的音频指纹来搜索相应的音乐信息。
[0040]具体地,音频数据搜索器120经由一个或多个哈希函数,将产生调制频谱峰值点的音频指纹转换为指示哈希表的各个地址的哈希键和存储在哈希表上的哈希值。
[0041]此外,音频数据搜索器120提取与音频查询剪辑相关的调制频谱峰值点音频指纹的哈希键,并通过将提取出的哈希键和哈希表的地址进行比较来搜索音乐信息。下面将参照详细框图描述示例性实施例。
[0042]图2是图1中示出的音乐信息搜索设备的详细框图。
[0043]参照图2,根据示例性实施例的音乐信息搜索设备100包括音频指纹产生器110和音频数据搜索器120。
[0044]音频指纹产生器110从音频数据和音频信号中的至少一个提取调制频谱,并通过从提取出的调制频谱提取与针对噪声和/或回声环境相对较强的调制频谱峰值点相关的位置信息,来产生调制频谱峰值点的音频指纹。
[0045]具体地,音频指纹产生器110包括调制频谱系数提取器111、调制频谱归一化器112、调制频谱峰值点提取器113和音频指纹产生器114,其中,调制频谱峰值点提取器113被配置用于提取针对噪声和/或回声环境相对较强的调制频谱峰值点,音频指纹产生器114被配置用于使用提取出的调制频谱峰值点。
[0046]调制频谱系数提取器111提取经由对音频数据执行快速傅里叶变换(FFT)而获得的频谱的系数,通过使用至少一个调制函数将提取出的频谱系数转换为调制频谱。在调制频谱的分量或系数中,通过使用特定调制函数产生与傅里叶变换频谱系数不对应并且在噪声或回声环境中不失真的各种峰值点。本文中,可用于产生调制频谱的调制函数可包括正弦函数、余弦函数、使用正弦函数和余弦函数的复杂旋转函数、傅里叶变换、小波变换以及Z变换中的一个或多个。
[0047]调制频谱归一化器112从调制频谱系数提取器111中提取的调制频谱系数之中删除重叠分量和非独立分量,并获得分别指示输入的音频信号的唯一特征的各种调制频谱峰值点。具体地,在音频信号之中,与对应于事件的音频信号和音乐信号的频谱在相对较低的频率具有相对大量的能量并在相对较高的频率具有较少的能量。此外,当远离音乐源时,无法听到低音。调制频谱系数中的重叠分量和非独立分量示出低频处的能量分布,并且不包括与其它音频信号不同的峰值点。因此,通过执行调制频谱的归一化删除与未显示出音频信号的特征的不必要区域的重叠,并提供与指示音频信号的唯一特征的峰值点相关的快速提取路径。
[0048]关于调制频谱的归一化,可使用各种归一化方法(诸如,零均值归一化、倒谱均值归一化、分贝标度归一化、使用均值的归一化、使用中值的归一化和分位数归一化)中的任意一个或多个。
[0049]调制频谱峰值点提取器113从经由调制频谱归一化器112产生的归一化的调制频谱之中,将针对噪声和/或回声分量而相对较弱的调制频谱峰值点与针对噪声和/或回声分量而相对较强的调制频谱峰值点进行区分,并提取针对噪声和/或回声分量而相对较强的区分的调制频谱峰值点。例如,调制频谱峰值点提取器可使用阈值来将相对较强的峰值点和相对较弱的峰值点进行区分。
[0050]调制频谱峰值点提取113可应用噪声去除滤波器,以便提取针对噪声和/或回声分量而相对较强的区分的调制频谱峰值点。此外,调制频谱峰值点提取器113可通过假设噪声和/或回声分量,将针对噪声和/或回声分量而相对较强的峰值点与针对噪声和回声分量而相对较弱的峰值点进行区分。在这种情况下,调制频谱峰值点提取器113可通过使用以下项中的至少一个来执行调制频谱峰值点的提取:有限脉冲响应(FIR)滤波器、无限脉冲响应滤波器(IIR)、卡尔曼滤波器、维纳滤波器、频谱扣除方法、用于计算调制频谱的最小分量并通过使用计算出的最小分量计算调制频谱峰值点的方法、用于通过使用自适应阈值(其通过使用调制频谱的最高峰值点计算)提取与噪声和回声分量不同的峰值点的方法、用于通过使用过零率和能量来提取峰值点的方法。
[0051]调制频谱峰值点音频指纹产生器114通过提取与针对噪声和/回声环境而相对较强的调制频谱峰值点的位置相关的信息,来产生调制频谱峰值点的音频指纹。
[0052]在发生噪声和回声的真实环境中,重要的是清楚容易地听到每个频率的每个声音,而当低音远离音频信号的音乐源时,低音无法被安静地听到。此外,使用高音容易掩盖低音;然而,使用低音难以掩盖高音。具体地,当对音乐信号进行分析时,包括基本频率声音的回声被显示为频谱上的峰值点或峰。因此,找到基本频率的最简单的方法是找到频谱上的最大值。当对频谱进行分析时,具有最大峰值点的频率值之间的位置和间隔、区分的峰值点和前述峰值点周围的其它峰值点具有用于定义音频信号(特别是声音)的特征的重要功能。与通过考虑音频信号的上述特征而提取出的调制频谱峰值点的位置相关的信息指示地音频信号中显示出未因噪声和回声环境而失真的音频特征的主要分量。与提取出的调制频谱区分的峰值点和其它峰值点的位置之间的距离相关的信息具有针对噪声和回声环境而相对较强同时几乎不被噪声和回声环境损坏的特征。因此,因为与音频信号的唯一特征的相关性,与提取出的调制频谱峰值点之间的距离相关的信息可适当地用作哈希地址和哈希值。
[0053]调制频谱峰值点音频指纹产生器114通过将与提取出的调制频谱峰值点相关的位置信息进行关联来产生调制频谱峰值点音频指纹。调制频谱峰值点音频指纹由可指示提取出的调制频谱峰值点的位置的值构成。因此,产生器114将一个调制频谱峰值点的帧号、一个调制频谱峰值点的频率索引、连接的其它调制频谱峰值点的频率索引以及一个调制频谱峰值点与其它调制频谱峰值点之间的帧距离进行关联。
[0054]根据示例性实施例的音乐信息搜索设备可减少调制频谱峰值点指纹的大小,并通过根据上述方法产生调制频谱峰值点音频指纹将结果转换为针对噪声和回声环境而相对较强的指纹。因此,音乐信息搜索设备可通过使用哈希表高速搜索提供的查询剪辑。
[0055]音频数据搜索器120搜索与音频指纹产生器114中产生的调制频谱峰值点指纹相应的音频数据,并为用户提供与搜索音频数据相关的信息。音频数据搜索器120包括调制频谱峰值点音频指纹信息存储器130、调制频谱峰值点音频指纹搜索器140和信息提供器150。
[0056]调制频谱峰值点音频指纹信息存储器130包括哈希表131。
[0057]哈希表131是存储通过使用音频指纹产生器110提供的调制频谱峰值点指纹产生的哈希键和哈希值的区域。
[0058]哈希键和哈希值产生器121通过使用调制频谱峰值点音频指纹产生器110中产生的调制频谱峰值点音频指纹,经由至少一个哈希函数来产生指示哈希表的各个地址值的哈希键和存储在哈希表上的哈希值。
[0059]调制频谱峰值点音频指纹信息存储器130将通过使用哈希键和哈希值产生器121中的调制频谱峰值点音频指纹中的每一个产生的哈希键和与哈希键相应的哈希值存储在哈希表131上。
[0060]根据示例性实施例的音频数据搜索器120中的哈希搜索方法按照提供为用于快速搜索音频数据的哈希表的布置来存储音频数据,经由合适的哈希函数将音频查询剪辑的调制频谱峰值点音频指纹转换为指示哈希表的地址的哈希键,并在哈希表131内搜索与查询剪辑的哈希键相同的位置上的哈希值。
[0061]根据示例性实施例的哈希搜索方法的优点在于不论哈希表的大小,搜索时间固定,搜索速度比现有搜索方法(诸如,二进制搜索)明显更快,可容易地执行插入和删除数据。
[0062]当调制频谱峰值点音频指纹被转换为哈希键和哈希值时,使用根据示例性实施例的哈希函数。这些函数将数据从一类调制频谱峰值点音频指纹转换为指示哈希表的地址值的哈希键和存储在哈希表上的哈希值。
[0063]此外,因为调制频谱峰值点音频指纹的可用组合的可能数量远远大于哈希表的相应大小,所以根据示例性实施例的哈希函数成为多对一相应函数。另外,根据示例性实施例的哈希函数在执行计算方面应该较快且简单。
[0064]当音频查询剪辑被输入时,根据示例性实施例的音频搜索方法从调制频谱峰值点音频指纹产生器110产生音频查询剪辑的调制频谱峰值点指纹,并经由哈希键和哈希值产生器121从音频查询剪辑的调制频谱峰值点音频指纹产生哈希键。调制频谱峰值点音频指纹搜索器140获得存储在哈希表上的与音频查询剪辑的哈希键相同位置上的哈希值,将结果转换为调制频谱峰值点音频指纹信息,确定最终搜索结果,并为用户提供搜索结果。
[0065]调制频谱峰值点音频指纹搜索器140包括哈希键比较搜索器和哈希值获得器141、获得的哈希值的音频信息转换器142和最终搜索结果确定器143。
[0066]哈希键比较搜索器和哈希值获得器141通过从音频查询剪辑的调制频谱峰值点音频指纹之中搜索具有与哈希键和哈希值产生器121计算出的哈希键相同地址的哈希表来获得存储在哈希表上的哈希值。
[0067]获得的哈希值的音频信息转换器142经由一个或多个哈希函数将经由哈希键比较搜索器和哈希键获得器141获得的哈希值转换为音频索引信息,诸如,音乐歌曲标识(ID)或音频事件ID。
[0068]最终搜索结果确定器143计算来自获得的哈希值的音频信息转换器142的最频繁的音频索引信息(例如,音乐歌曲ID或音频事件ID),将与最大量的音频索引信息相应的数据确定为最终搜索音频信息。
[0069]信息提供器150为用户提供与在调制频谱峰值点音频指纹搜索器140中搜索的音频数据相关的信息。
[0070]从而,根据示例性实施例的音频信息搜索设备从音频信号和音频数据的调制频谱提取针对噪声和/或回声环境而相对较强的调制频谱峰值点的位置,通过组合提取出的峰值点的位置来产生调制频谱峰值点音频指纹,通过使用一个或多个哈希函数从调制频谱峰值点音频指纹计算指示哈希表的地址值的哈希键和存储在哈希表上的哈希值,并将结果存储在哈希表上。
[0071]此外,根据示例性实施例的音乐信息搜索设备基于区分的调制频谱的峰值点来从音频查询剪辑提取调制频谱峰值点音频指纹,通过使用一个或多个哈希函数计算音频查询剪辑的哈希键,从调制频谱峰值点音频指纹信息存储器130的哈希表获得与上述查询音频文件的哈希键相应的哈希值,并经由一个或多个哈希函数将结果转换为音频索引信息。因此,可高速搜索音乐信息。
[0072]图3A、图3B、图4A和图4B是示出根据示例性实施例的服务提供方法的示图。
[0073]可通过使用图1和图2中示出的音乐信息搜索设备提供图3A和图3B中示出的服务。
[0074]例如,在310,当正观看的电视(TV) 10上的广告(AD)显示指示根据示例性实施例的服务的特定项(例如,“广告捕获”)可被提供时,在320,用于记录相应AD音乐的用户命令可被输入。当与摇动用户终端20相应的运动被输入时,相应的AD音乐经由音乐终端20被记录,记录的音频被发送到数据服务器(未示出),相应的AD可经由搜索被识别。
[0075]具体地,参照图4A,在410,提取与经由终端20记录的AD音乐相关的音频指纹,在420,搜索存储每个AD的音频指纹的数据库,在430,可搜索与提取出的音频指纹(例如,AD标题和ID)相应的信息。例如,可使用诸如图4B中示出的数据库;数据库具有AD音乐的音频指纹被提取、索引和存储的结构。
[0076]再次参照图3A和图3B,在330,识别的AD的附加服务信息(例如,附加信息和优惠券服务)可被提供给用户终端20。例如,当识别出AD指示特定汽车产品时,相应AD的附加服务信息可被提供给用户终端20。这样的附加服务也可被存储在上述数据服务器(未示出)上,和/或存储在外部服务器(例如,相应的产品销售商服务器)上。当相应的附加服务信息被存储在数据服务器(未示出)上时,可使用从相应产品相关服务器接收到的信息定期更新所述信息。
[0077]当在340用于在提供给用户终端20的附加服务上选择特定项的用户命令被输入时,在350,与选择的项相应的详细信息可被提供。例如,当在汽车产品AD上选择了与“展示乘坐可用店”相关的项时,可提供与展示乘坐可用店相关的详细信息。
[0078]上述服务可应用于根据示例性实施例的音乐信息检索方法。
[0079]图5是示出根据示例性实施例的音乐信息搜索方法的流程图。
[0080]根据图5中示出的音乐信息搜索方法,在操作S10,从音频数据提取针对噪声和/或回声环境而相对较强的调制频谱。
[0081]在操作S520,通过使用预设峰值点之间的位置信息从提取出的调制频谱产生调制频谱峰值点音频指纹。
[0082]在操作S530,产生的调制频谱峰值点音频指纹经由一个或多个哈希函数被转换为指示哈希表的地址的哈希键和存储在哈希表上的哈希值。
[0083]在操作S540,提取与音频查询剪辑相关的调制频谱峰值点音频指纹的哈希键,通过将提取出的音频查询剪辑的哈希键与哈希表的地址进行比较来搜索音乐信息。
[0084]图6是示出根据示例性实施例的音乐信息搜索方法的流程图。
[0085]根据图6中示出的音乐信息搜索方法,在操作S610,音频信息搜索设备提取针对噪声和/或回声环境而相对较强的调制频谱的峰值点。
[0086]在操作S615,音频信息搜索设备通过使用与针对噪声和/或回声环境而相对较强的调制频谱峰值点之间的位置相关的信息,从提取出的调制频谱产生调制频谱峰值点音频指纹。
[0087]在操作S620,针对产生的音频指纹,通过使用一个或多个哈希函数来产生指示地址值的哈希键和哈希值。
[0088]在操作S625,通过使用确定的哈希键和哈希值产生哈希表。
[0089]从而,根据示例性实施例的音乐信息搜索方法从调制频谱中提取针对噪声和/或回声环境相对罗强的区分的调制频谱的峰值点。与这样的区分的调制频谱峰值点相关的位置信息在无噪清晰环境和非常嘈杂环境中是统一可提取的,从而,显示出针对噪声和/或回声环境而非常强的特点。
[0090]在操作S630,音频信息搜索设备提取针对与音频查询剪辑相关的噪声和/或回声相对较强的调制频谱峰值点。
[0091]在操作S635,通过使用与关于提取出的调制频谱的区分的峰值点相关的位置信息来从音频查询剪辑产生调制频谱峰值点音频指纹。
[0092]在操作S640,通过针对音频查询剪辑的产生的调制频谱峰值点音频指纹使用一个或多个哈希函数来计算哈希键。
[0093]在操作S645,从哈希表搜索与计算出的哈希键匹配的地址值,其中,所述哈希键指示音频查询剪辑的地址值。
[0094]在操作S650,获得所有从哈希表搜索的地址的哈希值,通过使用一个或多个哈希函数,获得的哈希值被转换并被获得为音频索引信息。
[0095]在操作S655,将最大量的音频索引信息确定为获得的音频索引信息之中的最终搜索音频信息。
[0096]此外,根据各种示例性实施例的音乐信息搜索方法可被实现为可在计算机上运行的程序代码,并可被提供给音频信息搜索设备,从而在被存储在任意一个或更多不同类型的非临时性计算机可读记录介质的同时,由处理器来实现。[0097]与临时地存储数据的介质(诸如,寄存器、高速缓存和内存)相比,非临时性计算机可读记录介质指示存储半永久性数据的介质,并可由装置读取。具体地,上述各种应用或程序可被存储并提供在任意类型的非临时性计算机可读记录介质(诸如,例如,紧凑盘(CD)、数字通用光盘(DVD)、硬盘、蓝光盘、通用串行总线(USB)装置、存储卡或只读存储器(ROM))中。
[0098]此外,上述示例性实施例和优点仅是示例性的,并不被解释为限制示例性实施例。本教导可容易地应用于其它类型的设备。此外,本发明构思的示例性实施例的描述意图说明,而不是限制权利要求的范围。
【权利要求】
1.一种音乐信息搜索方法,包括: 从音频数据提取调制频谱; 通过使用与预设峰值点相关的位置信息从提取出的调制频谱产生调制频谱峰值点音频指纹; 经由至少一个哈希函数将产生的调制频谱峰值点音频指纹转换为指示哈希表的地址的哈希键和存储在哈希表上的哈希值; 提取与音频查询剪辑相关的哈希键,通过将提取出的哈希键与哈希表指示的地址进行比较来搜索音乐信息。
2.—种音乐信息搜索方法,包括: 从音频数据提取调制频谱; 经由调制频谱归一化处理,对提取出的调制频谱进行归一化,以从提取出的调制频谱删除与不指示音频信号的唯一特征的不必要区域的重叠; 将与针对噪声环境比第一阈值弱的第一调制频谱峰值点相关的位置信息和与针对噪声环境比第一阈值强的第二调制频谱峰值点的位置信息进行区分,并提取第二调制频谱峰值点; 将与提取出的第二调制频谱峰值点相关的位置信息转换为调制频谱峰值点音频指纹; 通过使用至少一个哈希函数,将分别分配到调制频谱峰值点音频指纹和音乐歌曲的标识号转换为指示哈希表的地址的哈希键和存储在哈希表上的哈希值,并在哈希表上存储转换的结果; 从音频查询剪辑提取调制频谱; 经由调制频谱归一化处理,对提取出的音频查询调制频谱进行归一化,以从提取出的调制频谱删除与不指示音频查询信号的唯一特征的不必要区域的重叠; 将归一化的音频查询调制频谱之中的与针对噪声环境比第二阈值弱的第一音频查询调制频谱峰值点相关的位置信息和与针对噪声环境比第二阈值强的第二音频查询调制频谱峰值点进行区分,并提取第二音频查询调制频谱峰值点; 将与提取出的第二音频查询调制频谱峰值点相关的位置信息转换为与第二音频查询调制频谱峰值点相关的音频指纹; 从提取出的音频查询剪辑的调制频谱之中提取与第二音频查询调制频谱峰值点相关的位置信息; 将与第二提取出的调制频谱峰值点相关的位置信息转换为调制频谱峰值点音频指纹; 通过使用至少一个哈希函数计算哈希键,来从提取出的音频查询剪辑的调制频谱峰值点音频指纹获得分别与地址相应的哈希表的哈希值; 通过从获得的哈希值获得音频索引信息来确定最终搜索结果。
3.如权利要求2所述的音乐信息搜索方法,其中,从音频数据提取调制频谱的步骤包括:通过执行快速傅里叶变换(FFT)来提取音频数据的频谱系数,并经由至少一个调制函数将提取出的频谱系数转换为调制频谱。
4.如权利要求2所述的音乐信息搜索方法,其中,对调制频谱进行归一化的步骤包括:使用零均值归一化、倒谱均值归一化、分贝标度归一化、通过使用均值的归一化、通过使用中值的归一化和分位数归一化之中的至少一个归一化方法。
5.如权利要求2所述的音乐信息搜索方法,其中,提取调制频谱峰值点的步骤包括:使用有限脉冲响应滤波器、无限脉冲响应滤波器、卡尔曼滤波器、频谱扣除(deduction)、用于计算调制频谱的最小分量并通过使用计算出的最小分量计算调制频谱峰值点的方法、用于通过使用能够经使用调制频谱的最高峰值点计算的自适应阈值提取与噪声分量不同的峰值点的方法、用于通过使用过零率和能量来删除噪声的方法之中的至少一个。
6.如权利要求2所述的音乐信息搜索方法,其中,转换为音频查询调制频谱峰值点音频指纹的步骤包括:通过使用指示提取出的第二调制频谱峰值点的位置的值,将存在于区分的第二调制频谱峰值点之间的预设间隔内的位置信息获得为调制频谱峰值点音频指纹。
7.如权利要求2所述的音乐信息搜索方法,其中,存储在哈希表上的步骤包括: 经由至少一个哈希函数,通过使用与产生的调制频谱峰值点音频指纹相关的信息,计算指示哈希表的各个地址的哈希键和与哈希表相关的哈希值; 基于计算出的哈希键和哈希值,通过将调制频谱峰值点音频指纹存储在哈希表上来产生哈希表。
8.如权利要求2所述的音乐信息搜索方法,其中,从音频查询剪辑提取调制频谱的步骤包括: 通过执行音频数据和音频查询剪辑数据中的每一个的各个FFT来提取频谱系数; 经由至少一个调制函数将提取出的频谱系数转换为调制频谱。
9.如权利要求2所述的音乐信息搜索方法,其中,从提取出的音频查询剪辑的调制频谱之中提取与第二音频查询调制频谱峰值点相关的位置信息的步骤包括:使用有限脉冲响应滤波器、无限脉冲响应滤波器、卡尔曼滤波器、频谱扣除、用于计算调制频谱的最小分量并通过使用计算出的最小分量计算调制频谱峰值点的方法、用于通过使用能够经使用调制频谱的最高峰值点计算的自适应阈值提取与噪声分量不同的峰值点的方法、用于通过使用过零率和能量来删除噪声的方法之中的至少一个。
10.如权利要求2所述的音乐信息搜索方法,其中,转换为调制频谱峰值点音频指纹的步骤包括:通过使用指示提取出的调制频谱峰值点的位置的值,将与两个点相关的位置信息获得为调制频谱峰值点音频指纹。
11.如权利要求2所述的音乐信息搜索方法,其中,获得哈希表的哈希值的步骤包括: 经由至少一个哈希函数,通过使用与产生的音频查询剪辑的调制频谱峰值点音频指纹相关的信息来获得指示哈希表的各个地址的哈希键; 通过使用获得的哈希键获得哈希值。
12.如权利要求2所述的音乐信息搜索方法,其中,确定最终搜索结果的步骤包括: 通过使用所述至少一个哈希函数将哈希值转换为音频索引信息; 从获得的音频索引信息之中,将最大量的音频索引信息确定为最终的搜索音频信息。
13.一种音频信息搜索方法,包括: 从音频数据提取调制频谱; 通过使用与预设峰值点相关的位置信息,从提取出的调制频谱产生音频指纹; 将与产生的音频指纹相关的信息和与至少一个用户选择的音频查询相关的信息进行比较; 基于比较的结果确定搜索结果。
14.如权利要求13所述的音频信息搜索方法,还包括: 对产生的音频指纹应用至少一个哈希函数,以获得与产生的音频指纹相关的信息, 对所述至少一个用户选择的音频查询应用所述至少一个哈希函数,以获得与所述至少一个用户选择的音频查询相关的信息。
15.—种用于执行音频信息搜索的设备,包括: 提取器,被配置用于从音频数据提取调制频谱; 音频指纹产生器,被配置用于通过使用与预设峰值点相关的位置信息从提取出的调制频谱产生音频指纹; 音频数据搜索器,被配置用于将与产生的音频指纹相关的信息和与至少一个用户选择的音频查询相关的信息进行比较,并基于比较的结果确定搜索结果。
【文档编号】G06F17/30GK103810236SQ201310571089
【公开日】2014年5月21日 申请日期:2013年11月13日 优先权日:2012年11月13日
【发明者】严基完, 金炯局, 金光基 申请人:三星电子株式会社, 光云大学校产学协力团
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1