基于音频指纹特征的音乐检索系统的制作方法

文档序号:6509025阅读:495来源:国知局
基于音频指纹特征的音乐检索系统的制作方法
【专利摘要】本发明属于信息检索【技术领域】,具体为一种基于音频指纹特征的音乐检索系统。该系统由预处理模块、特征提取模块、倒排索引模块和精匹配模块四部分组成。预处理模块主要完成音频信号的转换、重采样、滤波;特征提取模块是对音频文件的表示,采用音频指纹特征,通过两次基于动态阈值的筛选来选取频谱中最为稳定的点作为特征点,用一个点对表示一个特征;倒排索引模块是将特征作为关键词,由歌曲库的特征建立倒排索引,根据相同关键词多少返回索引结果;精匹配模块是结合音频特征间的时序关系,采用改进的编辑距离作为两个特征序列的相似度,以此优化索引结果。本系统适用海量音乐检索,尤其能对录音查询片段进行有效检索。
【专利说明】基于音频指纹特征的音乐检索系统 【技术领域】
[0001]本发明属于信息检索【技术领域】,具体涉及音频信号处理和多媒体信息检索系统, 进一步涉及一种基于首频指纹特征的首乐检索系统。
【背景技术】
[0002]早前,由于音乐信息是非结构化数据,其检索系统一般通过基于文本描述来实现 检索。例如在互联网中检索一首歌曲,以歌曲的名字、歌唱者、作歌者、歌曲存取格式等来检 索。该方法具有很多的缺点:数据量越来越大,从而人工注释工作量也随之加大;音频感知 难以用文字注释表达清楚;信息描述具有一定的主观性。而基于内容的音乐检索系统是根 据信息本身的特征参数而非外部属性对内容进行检索,其提取过程由程序自动完成。因此, 其不存在对信息描述的主观性,能更好的表示音乐信息,从而使检索更加有效。
[0003]音频特征是音频信息的结构化表示,是基于内容的音频检索系统中较为关键的一 步,音频特征的好坏直接影响系统性能。音频特征分为时域音频特征和变换域音频特征,时 域音频特征较为容易提取,但抗噪能力较差;变换域特征提取过程较复杂,抗噪能力良好, 使用较多。在变换域特征中,较为常见的是基于傅里叶和小波变换的特征。早期,Mel倒谱 系数(MFCC)和线性预测倒谱系数(LPCC)特征较为经典,特别是MFCC,由于其特征是根据人 的听觉模型生成的,应用较为广泛。随着音频指纹特征的出现,由于其特征鲁棒性较好,使 得大量学者投入在这方面进行研究,发展较快。
[0004]目前,基于音频指纹特征的音乐检索系统以Shazam公司和Philips公司的音乐检 索系统较为经典。Shazam公司的音乐检索系统是在频谱上选取局部极值点作为特征点,然 后把相邻的两个特征点组成一个点对来表示一个特征;采用hash索引实现检索;查询时, 使用直方图统计相同特征点的时间差,一般目标歌曲的时间差是统一的,将会集中出现在 某处,从而检索到该歌曲。该系统查询方式并不适用海量音频检索,而且局部极值点非常 多,导致特征数据非常多,很多特征抗噪能力差。在Philips公司的音乐检索系统中,特征 是在频谱上计算各频段能量,根据相邻帧的能量大小,将各频段量化成0或1,所有频段 组成一个二进制序列,通过哈希(hash)函数,得到最终特征。采用哈希表实现检索,通过统 计词频数来进行检索排序。在海量音乐数据下,hash冲突会非常多,也不适用,同时在特征 性能上不如前一种指纹特征。

【发明内容】

[0005]本发明的目的在于提供一种基于音频指纹特征的音乐检索系统,该系统能够在海 量音乐信息下进行快速准确的检索,且能够对录音查询片段进行有效检索。
[0006]本发明提供的基于音频指纹特征的音乐检索系统,包括预处理模块,特征提取模 块,倒排索引模块和精匹配模块四个部分。其中:
所述的预处理模块,用于音频文件格式统一,音频重采样和音频滤波。
[0007]所述的特征提取模块,用于对音乐文件的结构化表示,采用基于动态阈值的音乐指纹特征。首先对歌曲序列进行分帧,帧之间有较高重叠率,对每帧进行快速傅里叶变换 (FFT),处理完所有帧,得到频谱矩阵;接着,对频谱矩阵进行平滑处理;然后,在矩阵中选 取极值点,并根据动态阈值对这些点进行两次筛选,取大于阈值的点作为特征点;最后,用 一个点对来表示一个特征,并经哈希(Hash)函数变换,一个哈希值即为一个特征。对于每 个特征点,在其后续频段的邻近区域内,选取最多P个最近邻的特征点与该特征点一一组 成特征,所有特征按帧的先后顺序和特征点的筛选顺序组成一个特征序列。
[0008]所述的倒排索引模块,用于系统的初次检索,以一个特征作为一个关键词,以歌曲 库的所有特征建立倒排索引表;当查询时,通过倒排索引表统计查询片段每个关键词在各 歌曲中出现的次数,并将所有关键词在各个歌曲中出现的次数求和,然后对求和的结果进 行排序,排序结果所对应的歌曲作为初次检索结果。为了防止查询片段较短或者较为偏僻, 在倒排索引中并未加入权重,即各词项在各歌曲中权重是一样的。但这样可能降低目标歌 曲与其他歌曲的区分度,对于较长的歌曲,需要对歌曲进行分段,以歌曲片段为单位加入倒 排索引表中。
[0009]所述的精匹配模块,用于系统的二次检索,先根据倒排索引返回的结果选定候选 歌曲,接着读取各候选歌曲的特征序列,并对特征序列按查询特征序列长度进行分段,对每 首歌曲筛选出最为相似的Q个特征序列片段(与查询特征序列具有最多的相同特征个数), 然后,对这Q个片段与查询特征序列进行改进的编辑距离计算(特征值只错一位认为是相 同的),取最小的编辑距离作为该歌曲片段与查询片段的相似度,最后,根据相似度对候选 歌曲进行排序,得到最终的检索排名,作为系统检索结果。如果某首歌在排名中出现多条记 录,只保留第一条记录。
[0010]本发明的优点为:系统所用的特征鲁棒性好且数据量小;采用现阶段较为成熟的 倒排索引技术作为系统初始检索,可适用于海量音乐检索;精匹配作为系统二次检索,能有 效的找出目标歌曲且可以并行计算。
【专利附图】

【附图说明】
[0011]图1为本发明系统结构示意图。
[0012]图2为本发明系统音乐指纹特征提取流程图。
[0013]图3为本发明系统特征表示示意图。
[0014]图4为本发明系统倒排索引结构示意图。
[0015]图5为本发明系统精匹配流程图。
【具体实施方式】
[0016]图1显示了系统结构,包括预处理模块,特征提取模块,倒排索引模块和精匹配模 块四个部分。预处理模块主要完成音频信号的转换、重采样和滤波;特征提取模块是对音频 文件的结构化表示,采用基于两次阈值筛选的音频指纹特征;倒排索引模块是根据歌曲库 的特征建立倒排索引,当查询时,通过倒排索引统计各歌曲片段与查询片段相同关键词个 数多少,并对个数和进行排序,作为初次检索结果;精匹配模块在初次检索的基础上,结合 音频特征间的时序关系,采用改进的编辑距离作为两个特征序列的相似度,优化索引结果。 对于数据库中每首歌,通过预处理和特征提取,将特征保存于特征库中,用于建倒排索引和精匹配;对于查询片段,做相同的预处理和特征提取,其特征用于查询和精匹配。
[0017]所述的特征提取模块,其特征提取过程如图2所示,采用基于两次阈值筛选的音频指纹特征。首先,对音频序列X=Ix1, x2,…, }进行分帧,L为音频序列长度,帧之间有较高的重叠率,共分成M帧;接着,对每一帧进行N点快速傅里叶变换,即取N个频段点,处理完所有帧后,得到N*M维的频谱矩阵S,并对频谱矩阵i=l,2,…,N; j=l,2,…,M]进行平滑处理,平滑计算公式如下:
【权利要求】
1.一种基于音频指纹特征的音乐检索系统,其特征在于包括预处理模块,特征提取模块,倒排索引模块和精匹配模块四个部分;其中:所述的预处理模块,用于音频文件格式统一,音频重采样和音频滤波;所述的特征提取模块,用于对音乐文件的结构化表示,采用基于动态阈值的音乐指纹特征;首先对歌曲序列进行分帧,对每帧进行快速傅里叶变换,处理完所有帧,得到频谱矩阵;接着,对频谱矩阵进行平滑处理;然后,在矩阵中选取极值点,并根据动态阈值对这些点进行两次筛选,取大于阈值的点作为特征点;最后,用一个点对表示一个特征,并经哈希函数变换,输出一个哈希值为一个特征;对于每个特征点,在其后续频段的邻近区域内,选取最多P个最近邻的特征点与该特征点一一组成特征;所有特征按帧的先后顺序和首次特征点筛选顺序组成一维特征序列;所述的倒排索引模块,用于系统的初次检索,以一个特征作为一个关键词,对数据库中的每首歌曲的特征建立倒排索引表;当查询时,通过倒排索引表统计查询片段每个关键词在各歌曲中出现的次数,并将所有关键词在各个歌曲中出现的次数求和,然后对求和的结果进行排序,排序结果所对应的歌曲作为初次检索结果;所述的精匹配模块,用于系统的二次检索,先根据初次检索返回的结果选定候选歌曲, 接着读取各候选歌曲的特征序列,并对特征序列按查询特征序列长度进行分段,对每首歌曲筛选出最为相似的Q个特征序列片段,即其与查询特征序列具有最多的相同特征个数; 然后,对这Q个片段与查询特征序列进行改进的编辑距离计算,取最小的编辑距离作为该歌曲片段与查询片段的相似度;最后,根据相似度对候选歌曲进行排序,得到最终的检索排名。
2.根据权利要求1所述的音乐检索系统,其特征在于:在特征提取模块中,所述的采用基于动态阈值的音乐指纹特征,具体实现过程为:首先,对音频序列X=Ix1, x2,…,xj 进行分帧,L为音频序列长度,帧之间有较高的重叠率,共分成M帧;接着,对每一帧进行 N点快速傅里叶变换,处理完所有帧后,得到N*M维的频谱矩阵S,并对频谱矩阵S=[Si,」 i=l, 2,…,N ; j=l, 2,...,M]进行平滑处理,平滑计算公式如下:
3.根据权利要求1所述的音乐检索系统,其特征在于:所述的倒排索引模块由两部分组成,一部分为字典,字典由词项组成,所有哈希值相同的特征组成一个词项;另一部分是倒排索引表,其中,每一个词项都对应一个属于自己的“倒排链表”,该表记录了包含该词项的歌曲编号或者歌曲片段编号。
4.根据权利要求1所述的音乐检索系统,其特征在于:所述的精匹配模块,采用多个步骤实现精匹配,首先,根据初次检索返回的结果,寻找一“拐点”,假定倒排索引表返回的第i 首歌曲中与查询片段具有的相同特征个数之和为nmv如果存在一点K,使得:
【文档编号】G06F17/30GK103440313SQ201310378000
【公开日】2013年12月11日 申请日期:2013年8月27日 优先权日:2013年8月27日
【发明者】俞鹏飞, 杨夙 申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1