一种利用声音方式检索歌曲的方法及系统装置的制作方法

文档序号：2830168阅读：657来源：国知局

专利名称：一种利用声音方式检索歌曲的方法及系统装置的制作方法
技术领域：
本发明涉及文件搜索领域，尤其涉及一种歌曲搜索的方法及系统装置。
背景技术：
搜索引擎是常用的资源获取方式，在数字多媒体领域，目前要获得特定资源采用的是与该资源相关的关键字符进行检索。随着近几年对基于内容检索方法的研究，在音频识别检索领域内的应用才初步展开，基于内容音频识别与检索技术是处理音频海量数据的一项重要技术，与图像检索、视频检索已并列成为当今基于内容检索研究的热点。将音频的识别和检索技术与传统的文本检索相结合可以大大提高音频数据检索的效率和准确度，降低检索成本。基于内容的音乐检索也成为一个新兴的研究领域，随着大规模数字音乐文件的出现，实现基于内容的音乐检索的需求得到凸显。数字音乐的急剧增加以及用户期望采用多种音乐检索手段的需求，使得人们在处理音乐作品时遇到了瓶颈首先，互联网上海量的音乐数据通过人工方式实现分类和标注变得艰难；其次由于人工信息的介入，使得歌曲的某些标注加入了主观偏见，不具有普遍性；人们无法通过部分歌曲的旋律实现对未知歌曲信息的检索；歌曲的大量增加也对歌曲的版权保护提出要求；音乐爱好者的增加对于音乐类娱乐工具也有迫切需求。基于内容的音乐检索方式不依赖于标注信息，从乐曲内容本身出发来认定乐曲，根据音乐中的旋律、音高、节奏等信息来实现检索、分类，进而管理音乐信息。它在音乐数据库管理、hternet音乐检索以及生活娱乐方面都具有非常重要的意义。在娱乐方面一个典型应用就是KTV点歌系统、音乐娱乐网站及移动终端等的歌唱搜索。通常人们在KTV唱歌时都是通过输入字符信息查找歌手名称或者歌曲名称，以此获得所需歌曲，然而一个常见的情况是用户对某首歌的某几句的旋律比较熟悉，歌词记忆不准确，歌手和歌名信息并不掌握，这时传统的歌曲检索方法就无法帮助用户找到其希望的歌曲，在网页上检索歌曲也同样面临这个问题，网上歌曲的检索也同样以歌曲元数据作为关键字开展，少有的几个网站也仅以歌曲的节奏、声调和音色的宏观特征检索某一类歌曲，在这种状况下，通过歌曲自身旋律变化的特征实现检索成为必要。同时随着3G技术的上市，越来越多基于移动终端的娱乐型业务需求也在增加，这也对快速、便捷、多渠道查找目标音乐提出新需求。1995年，(ihias (人名)对单音轨的MIDI音乐的哼唱检索进行了开创性研究，采用时域自相关算法提取音高信息，然后使用字符串近似匹配的方式实现对单声部音乐的检索。新西兰Waikato (大学名称)大学的RodgerJ. McNab (人名)和新西兰数字音乐图书馆合作开发了一套名为MT(Melody Transcript)和MELDEX系统，但是MELDEX系统无法正确切割音符，用户在哼唱时，必须在音符与音符之间自行留下短暂的停顿或插入特定断句声音，用户使用起来不方便，也不自然。Tomonari(人名)等提出同时使用音长和音高作为旋律特征，然后采用基于“动态闭值调整”的匹配方法，采用了先粗选后细选的匹配策略。Kosugi (人名)提出同时使用音高变化和音高分布来提高系统的性能。他们开发出了一套名为SoimdComPass (系统名称)的系统，在使用时需配合乐器的节拍哼唱。韩国kimgmin (人名)等改进基音提取算法，在传统检索算法的基础上增加了访问频度索引功能，采用基于遗传算法的相关反馈机制，使得算法的检索正确率有了一定提升。台湾清华大学的张智星等在哼唱式音乐检索方面起步较早，他们在提取基音值之后，采用分级过滤算法对音高进行处理，首先排除掉一部分候选音乐，然后采用DTW算法进行精确匹配，并开发出了一套名为“Super MBox”的点歌系统。纵观上述内容，音乐检索虽已经历多年发展，但还存在许多重要问题1).目前虽然有多个试验系统，但都有一定的限制，如用户需要哼唱固定符号，或加入辅助手段，对用户来说难以使用；2).特征选取方面仍有很多完善空间，基音的提取缺乏后处理，无法使基音序列能直接参与匹配；3).在搜索算法上音乐检索多使用基于传统的字符串近似匹配算法，没有考虑到音乐特征之特性，用户哼唱的旋律曲线与库存标准曲线只能在外形轮廓上相似，不能保证每一小部分都相似；4).将检索过程中的匹配没有调整为按照小短句进行，人们一般是以短句为单位进行哼唱的，而一般的检索方法没有考虑音乐的这种特性；5).缺乏一种标准音乐数据库或者创建标准音乐特征库的方法。目前还没有一个普适的以句为单位保存音乐歌谱特征和歌词的数据库。

发明内容
为解决以上问题，本发明目的在于设计一种通过声音与计算机进行交互，实现计算机主动识别声音音调变化信息，进行音乐歌曲检索的方法，同时将该技术在计算机上实现，生成一种可用于KTV点歌、娱乐网站构建和移动终端的音乐检索系统。为了实现本发明的目的之一，提供一种利用声音方式检索歌曲的方法，包括以下步骤(a)搭建交互界面；(b)搭建传输通道；(c)搭建后台处理流程模块；(d)音乐特征数据库的创建。进一步地，上述方法还可具有以下特点在所述步骤(a)交互界面由输入、输出两部分构成，完成用户与系统之间的数据交流，交互界面一输入为用户提供了多种数据类型、多种形式的输入方式，通过音频采集设备，可以接收用户歌唱、哼唱、口哨声、演奏声音、音乐播放等声音信号。通过键盘、屏幕触控装置等可以实现字符输入。这两种输入方式满足了检索歌曲时歌曲旋律的实时输入和歌曲元数据的采集。在该系统中采用的音频格式是 wave文件，所用参数为采样率22. 05K, 8位，单声道。进一步地，上述方法还可具有以下特点在所述步骤(b)中，传输通道因具体应用环境的不同而有所变化，如果是实现单机音乐检索，则输入的声音、字符和输出的音频信号均可直接传输，如果应用于KTV环境，可通过电脑式或嵌入式两种方法实现，电脑式相当于单机应用，嵌入式采用单片机技术由主服务器完成歌曲库的维护，实现与各终端的数据交流。网站是使用互联网发送和传输数据。移动终端采用无线通讯方式实现。
进一步地，上述方法还可具有以下特点在所述步骤(C)中后台处理流程模块是整个系统的核心处理部分，音频采集部件得到的音频文件通过传输通道在该模块会经过一系列的处理形成可与数据库内容相匹配的序列，检索之后返回曲目相似度列表。输入的字符信息也会被送至数据库检索，返回相应结果。进一步地，上述方法还可具有以下特点在所述步骤(C)中进一步分为以下步骤(Cl)旋律特征提取；(c2)音频特征搜索引擎构建；(c3)后台媒体库构建。进一步地，上述方法还可具有以下特点在所述步骤(Cl)中旋律特征提取通过以下过程完成基音检测是音频信号处理的常用技术，基音值描述了音频时域信号在频域内音调的变化特征，现采用时域的自相关法，对一查询片段进行加窗分帧，重叠移动形成多帧，然后对每帧数据作自相关基音提取操作。自相关函数是对信号进行短时相关分析时常用到的特征函数。人声哼唱信号s (m) 经窗口长度为N的窗口截取为加窗帧信号，定义每帧的自相关函数I n(k)为及《⑷二￡ (m)S (m + 众)m=0 (1)其中k = (-N+1) (N-I)。由于信号的自相关函数在基音周期的整数倍位置上会出现峰值，因此可通过检测峰值的位置来提取基音周期值，最终得到代表音调变化的基音序列。完成基音提取后，获得了较好的基音曲线。该曲线的轮廓真实展示了哼唱片断中的音高变化状况，然而因为人的声门发音毕竟不像钢琴，在固定的音符表现上，音调并不能够保持稳定，小幅跳变仍比较明显，这是人在哼唱/歌唱时的真实信息，但要实现与标准音乐旋律变化的比对就需要对基音序列进行后处理。进行基音序列后处理的另一个原因是，除了人声存在的不规则跳变外，人声采集过程中也不可避免的加入了环境噪声、电流噪声、气流噪声等的干扰，使得基音序列中存在若干个基音周期估计值远远偏离了正常轨迹的点(被称作“野点”)，所以需要对基音曲线进行平滑处理。有多种平滑算法可以用来去除这些野点，其中被使用频率最多的是均值或中值滤波平滑算法，中值平滑虽能有效地去除少量的野点，但因其无法分辨滤波区间中基音值大小分布状况，容易在特定情况下产生较大误差。均值平滑在纠正输入信号中野点的同时，也对各邻近样点的值做了修改，虽加大窗长可以增强平滑的效果，但极易使两个平滑段之间应该保留的跳变的模糊程度加重。实现哼唱式的音乐检索需要匹配的是由哼唱得到的特征序列和由MIDI得到的特征序列，采用MIDI文件的方式创建音乐特征数据库时，其特征序列是非常规整的，每个音阶在短时发音区间是完全水平的，音阶之间的跳变是突变，没有过渡过程；而人声哼唱/歌唱无法达到这样的效果，因此有必要在去除基音序列中野点的同时，还要加强音阶之间的突变。为此，提出一种“小阁”后处理技术，既能够有效去除“野点”干扰，又能完成保持同一音阶的平稳和音阶之间显著跳变的阶跃。进一步地，上述方法还可具有以下特点在所述步骤(Cl)中，将基音序列表示为X (m)，滤波宽度定义为L，基音值波动范围是Range，定义一个二维数组A [Range, L]，并定义 Y(m)保存滤波之后的数据，具体实施步骤如下Stepl 创建一个二维数组A [Range，L]，以滤波宽度作为其横坐标，基音值波动范围作为其纵坐标；乂印2:申请一个和基音序列数组等大的数组空间，作为滤波之后数值的保存空间；St印3 截取基音序列的前L个基音值，并将其按照值的大小，分别放入到数组A 中，A中的每一列代表一个小阁；St印4 统计数组A中每个小阁中存入数据的个数，找到数据数目最多的那一列，并计算其均值；St印5 将该均值作为滤波之后的基音值写入到新的基音序列空间对应位置；St印6 清空二维数组A ；St印7 将滤波指针向后移动一个位置；StepS 对基音次序在
权利要求
1.一种利用声音方式检索歌曲的方法，包括以下步骤(a)搭建交互界面；(b)搭建传输通道；(c)搭建后台处理流程模块；(d)创建音乐特征数据库；其特征在于在所述步骤(c)中，搭建后台处理流程模块进一步分为以下步骤(Cl)旋律特征提取；(c2)音频特征搜索引擎构建；(c3)后台媒体库构建；进一步的，在所述步骤(d)中音乐特征库的构建采用MIDI分析方法建立数据库，并提出一种新的自动断句的旋律切分方法，所述方法进一步分为以下步骤 (dl)MIDI预处理； (d2)MIDI文件分析； (d3)旋律切分。
2.根据权利要求1所述的一种利用声音方式检索歌曲的方法，其特征在于在所述步骤(U)中，音频特征搜索引擎构建进一步分为以下步骤(c21)首先须明确实施匹配的两组数据的格式，查询序列是经过旋律特征提取的规整数值变化序列，在匹配之前，需要把该序列转化一个二维标准的形式，以(音高，音长)的形式描述其变化规律；音乐特征数据库中的数据是对MIDI文件进行分析得到的描述音高变化和持续时间的数据，同样也以(音高，音长)的形式表示，二者的生成过程必须保证每秒钟生成约100个基音值，这样，同样的歌曲，通过wave和midi两种文件格式的分析，均可得到相似的音高变化曲线。(c22)确定了待匹配的二组数据之后，提出了一种具有动态时间规划思想的基于几何相似性的弹性匹配方法，用这种方法检索到序列在每首歌曲中最可能出现的位置及与该位置的相似程度，之后比较每首歌曲所得到的相似度，并排序，即可得到检索结果。
3.根据权利要求2所述一种利用声音方式检索歌曲的方法，其特征在于所述步骤 (c22)中的检索方法，进一步包括以下步骤Stepl 按顺序从音乐特征数据库中获取一首事先已经实现断句划分的歌曲； Step2 将待匹配指针指向该歌曲句首位置；St印3 参照查询序列的长度，以短句为最小单位从库中该歌曲上指针位置裁取与查询序列长度相当的序列，满足所裁取得片断长度介于0. 7-1. 3倍于查询序列长度； St印4 将所裁片断与查询片断进行拉伸使之等长、等幅； St印5 采用线性对齐算法，将二者相近的音高转折点拉伸对齐； St印6 对二者进行差运算，计算差序列的均方差，保存； Step7 将指向该歌曲的指针向后移动一个短句； StepS 重复执行3-7操作，直至该歌曲结束； St印9 重复执行1-8操作，直至该库歌曲取尽。
4.根据权利要求1所述一种利用声音方式检索歌曲的方法，其特征在于在所述步骤 (c3)中，后台媒体库是检索成功之后向用户返回的媒体资源的集合，库中包括了音乐特征数据库中的所有曲目的数字资源文件和该曲目的元数据，数字资源文件包括歌曲的声音文件、视频文件、伴奏文件等，曲目元数据包括歌曲名称、演唱者、词作者、曲作者、发行年代、专辑名称、音乐风格、歌词信息等。
5.根据权利要求1所述一种利用声音方式检索歌曲的方法，其特征在于在所述步骤 (c3)中，所述后台媒体库还包括文本特征搜索引擎，文本特征搜索引擎采用字符的模糊匹配方法，用户只需输入歌名或演唱者，或歌词中的任意部分都可以得到相似度由高到低的歌曲排名，能帮助用户很快找到目标歌曲。
6.根据权利要求5所述一种利用声音方式检索歌曲的方法，其特征在于所述模糊匹配方法采用动态规划算法，将查询字符串与库中歌曲名称、歌手名称、歌词信息同时做等长度最长公共子串的匹配，该匹配算法目前已经发展成熟，不再赘述，经过上述匹配过程，能够得到每首歌各种信息与该查询字串的相似度。
7.一种利用声音方式检索歌曲的系统装置，包括用户端、交互界面、后台处理流程、音乐特征库创建和传输通道五个模块，其中用户端、交互界面、传输通道和后台处理流程依次相连，其特征在于所述交互界面包括交互界面一输入端和交互界面一输出端，其中，交互界面一输入端采用歌唱、哼唱、口哨声、演奏声音、音乐播放的输入方式，通过音频采集设备接收用户声音信号，通过文本信息录入可采集字符，音符信息。
8.根据权利要求7所述的一种利用声音方式检索歌曲的系统装置，其特征在于所述后台处理流程模块包含WAVE滤波模块、旋律特征提取模块，音乐信息及音频特征库模块、音频特征搜索引擎模块，文本信息模块、文本特征搜索引擎模块，检索结果模块和后台媒体库模块，其中，WAVE滤波模块连接旋律特征提取模块，所述旋律特征提取模块连接音频特征搜索引擎模块，所述音频特征搜索引擎模块与音乐信息及音频特征库模块相连，另外文本信息模块连接文本特征搜索引擎模块，且也与音乐信息及音频特征库模块相连。
9.根据权利要求7所述的一种利用声音方式检索歌曲的系统装置，其特征在于所述音乐特征库创建模块包括两部分，即MIDI文件库模块和音高分析模块，其中，MIDI文件库模块连接音高分析模块，音高分析模块与音乐信息及音频特征库模块相连。
全文摘要
本发明提供一种利用声音方式检索音乐的方法及系统装置，本发明目的在于设计一种通过声音与计算机进行交互，实现计算机主动识别声音音调变化信息，进行音乐歌曲检索的方法，同时将该技术在计算机上实现，生成一种可用于KTV点歌、娱乐网站构建和移动终端的音乐检索系统。音乐检索系统主要包括交互界面、后台处理流程、音乐特征库创建和传输通道四个模块，用户可以在单击按钮之后现场唱歌，系统实时记录人声输入，并在录音结束之后保存录音文件，并进行处理，最终按相似度排序歌曲名称，单击歌曲即可实现播放，并显示该歌曲相关信息。如果第一次检索未成功，可以追加检索，在上次检索的基础之上哼唱/歌唱歌曲的另外一段旋律，进行累积检索。
文档编号G10L15/02GK102053998SQ200910235990
公开日2011年5月11日申请日期2009年11月4日优先权日2009年11月4日
发明者周明全, 李鹏申请人:周明全, 李鹏

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周明全;李鹏
技术所有人：周明全;李鹏
我是此专利的发明人

上一篇：一种语音信号增强的方法和装置的制作方法
上一篇：基于共振峰频率的汉语普通话单韵母语音可视化方法