一种基于哼唱的乐曲自动选择装置和方法

文档序号：2829654阅读：193来源：国知局

专利名称：一种基于哼唱的乐曲自动选择装置和方法
技术领域：
本发明涉及一种基于哼唱的乐曲自动选择装置和方法，具体来说，涉及了一种用户在只记得乐曲的主旋律，而忘记乐曲的名字和歌手的信息等情况下，通过哼唱旋律来选择歌曲的装置和方法。
背景技术：
1、基于内容的音频检索技术介绍计算机检索音频片段，可使用基于标题或文件名的文本标注方式，如对音频数据标注成“音乐”、“演讲”等。但由于文件名和文本描述的不完整性和主观性，人们很难找到满足具体要求的音频片段。为解决上述问题，基于内容的音频检索技术应运而生。基于内容的音频检索就是通过音频特征分析，对不同音频数据赋予不同的语义，使具有相同语义的音频在听觉上保持相似。最简单的基于内容的音频检索使用查询和存储的音频片段之间的样本到样本之间的比较。但由于音频信号是可变的，且不同的音频片段可由不同的采样率来表达，每个样本可使用不同的比特数，所以该方法效果不一定好。因此，基于内容的音频检索通常通过平均振幅和频率分布等提取音频特征集为基础。
同时语音识别技术也有助于基于内容的音频搜索的实现。如果用于匹配的音频段存在歌词，可以运用语音识别技术把语音信号转化为文本，然后应用IR技术进行索引和检索。除实际的发声词汇外，包含在语音中的其它信息，如发音者的身份和情绪等，都有助语音索引和检索。
2、现有的手工选歌模式介绍现在消费者到卡拉OK相似的场所，消费者一般会选择许多背景播放，作为唱歌时的伴奏音乐。选歌的方法通常有以下几种1、根据歌曲名字的字数来选择歌曲；2、根据歌手的名字字数来选择歌曲；3、根据男、女、合唱类型把歌曲分为3类，然后再根据歌曲名、歌手名的字数进行二次搜索；4、根据歌曲的语言把歌曲分类，然后进行二次搜索。
由于每次搜索都是根据歌曲名字数、歌手名字数等非常容易重复的条件来进行搜索，每次搜索结果都包含大量非目的信息，这样就进行二次搜索、三次搜索等。而且常常最终搜索结果也包含大量的乐曲，而显示终端一次显示的结果条数非常有限，就不得不分页显示，这样每次用户搜索的时候，都要进行大量的浏览，用人眼进行筛选才能选到自己想要的乐曲。
3、相关产品和专利目前有许多研究单位在对基于内容的音频搜索进行研究。
新加坡国立大学的基于内容的音频匹配研究是由Jonathan Foote完成的，首先，这项研究要求积累一定规模的音频文件样本库，并且要经过自动处理，形成特征向量；其次，这个样本库中的音频文件都要经过人工标注，也就是说每一个文件都要归入一类。
德国曼海姆大学对这个方面进行研究主要目的是对电视节目中广告进行分析。研究人员首先用响度等音频特征对事先录制好的电视广告节目的音频部分进行粗略分割，得到音乐和环境音响(噪音)的音频文件。然后用基频序列提取法对分割出来的音乐文件进行自动分析，提取相应的基频时间序列，并以此对相应的音乐文件进行标引。
MIT、南加州大学等都展开了音频检索研究，通过哼唱查询、音频分类、结构化音频表示和基于说话人的分割和索引等方面的研究。
但是现在基于内容的音频搜索技术还不完善，我们的系统在研究现有技术的同时，将会采取一种更优的基于搜索算法，使匹配精确度更高。但是由于现有技术发展的限制，系统的匹配精度仍然不可能完全满足人们的需求，因而我们采取传统手动搜索和哼唱搜索结合的方法，来对乐曲数据库进行搜索。这样我们的系统在哼唱搜索不能检索出满意结果的时候将采取传统的手动搜索方法。
本发明的装置将解决以往传统搜索麻烦费时的缺点，同时解决基于内容搜索技术不成熟的问题，具有商业化实用价值。

发明内容
针对以前技术输入搜索条件时间长，搜索方式复杂等缺点，而且人们普遍存在这样一种情况，只记得乐曲的主旋律，但是忘乐曲的名字和歌手等信息，在这种情况下，传统的搜索方式完全不能满足人们的需求，本发明提出了一种基于哼唱的乐曲自动选择装置和方法。
基于哼唱的乐曲自动选择装置它包括音频采集设备、服务器、输出设备和输出设备。
所述音频采集设备负责采集使用者哼唱的乐曲和采集使用者口述的乐曲基本属性，同时将集到的数据发送到系统的服务器。
所述服务器负责存储乐曲，接收音频采集设备采集的数据，并与之进行匹配，将匹配的结果传送回输出终端，并对输入终端传送过来的各种命令进行分析。
所述输出终端负责显示服务器匹配的结果和显示响应用户的各种输入。
所述输入终端负责输入匹配条件和向服务器发送各种命令。
一种基于哼唱的乐曲自动选择方法，它包括通过哼唱选歌和通过口述乐曲基本属性选歌所述通过哼唱选歌的步骤具体为1)使用者通过输入终端，向服务器发送准备哼唱选择乐曲的命令；2)打开音频采集设备的开关，使用者向音频采集设备哼唱乐曲；3)服务器分析音频采集设备发送过来的音频数据，和乐曲数据库中的乐曲进行匹配；4)匹配结果为一条或者多条时，服务器把匹配结果传送到输出终端，如果只有一条结果，则等待使用者对结果进行确认，如果有多条结果，则等待使用者对结果进行选择和确认，如果使用者认为所有匹配结果都不是他想要的结果，转入步骤6)；如果用户认为匹配结果中有他想要的结果，转入步骤7)；5)匹配结果为零条时，服务器把匹配失败的结果返回给输出终端，系统并自动转入步骤6)；6)系统进入传统手动选歌模式，使用者通过输入终端输入演唱者名称、演唱者性别，歌曲名称等条件，进行手动筛选；7)系统播放响应的乐曲。
所述通过口述乐曲基本属性选歌的步骤具体为1)使用者通过输入终端，向服务器发送准备口述乐曲属性进行选择乐曲的命令；2)打开音频采集设备的开关，使用者向音频采集设备说出乐曲的某个属性；3)服务器分析音频采集设备发送过来的音频数据，和乐曲数据库中的乐曲进行匹配；4)匹配结果为一条或者多条时，服务器把匹配结果传送到输出终端，如果只有一条结果，则等待使用者对结果进行确认，如果有多条结果，则等待使用者对结果进行选择和确认；如果使用者认为所有匹配结果都不是他想要的结果，转入步骤6)；如果用户认为匹配结果中有他想要的结果，转入步骤7)；5)匹配结果为零条时，服务器把匹配失败的结果返回给输出终端，系统并自动转入步骤6)；6)系统进入传统手动选歌模式，使用者通过输入终端输入演唱者名称、演唱者性别，歌曲名称等条件，进行手动筛选；7)系统播放响应的乐曲。
与以往技术相比，本发明具有以下特点1)使用者只用哼唱带歌词或者不带歌词的歌曲，系统即可根据使用者哼唱的旋律(旋律中可含有歌词)和音乐数据库中的乐曲进行匹配，把匹配成功的歌曲名返回给使用者进行选择。解决了使用者需要记住歌曲名字才能选择出想要的歌曲的不便，同时哼唱方式也提高了歌曲选择效率。
2)使用者哼唱部分歌曲或音乐即可选择乐曲，即使用者不需把歌曲完整地在麦克风前哼唱完毕，通常哼唱歌曲的高潮部分即能满足要求。
3)使用者可以输入限制条件来提高哼唱方式选择歌曲的精度。限制条件可以通过麦克风以声音形式输入到系统，也可以通过外接键盘输入到系统。这些限制条件可以是歌曲名的某一个词或一个字，也可以是歌手名的某一个字。
4)系统保留了手工选择歌曲的方式。当使用者通过哼唱不能选择出想要的歌曲时，手工选择方式可以作为系统的一个补充。

图1为该装置基本体系结构图；图2为使用者哼唱选歌流程图；图3为使用者口述乐曲属性选歌流程图；图4为该装置实施案例图。
具体实施例方式
下面结合附图对本发明进行进一步阐述。
如图1所示一种基于哼唱的乐曲自动选择装置包括音频采集设备、服务器、输出设备和输出设备。
音频采集设备是指麦克风或者是与麦克风具有同等功能的，可以采集周围环境声音的设备。音频采集设备在系统中用于采集使用者哼唱的乐曲和采集使用者口述的乐曲基本属性，音频采集设备还具有向系统的服务器传送采集到的数据的能力，可以是边采集边输送，也可以是采集完成后输送。同时该设备也应该具有开和关两种状态，只有在开启状态时，才能采集周围环境的声音。
服务器是一个包含乐曲数据库的，可以在上面进行乐曲的存取和分析的计算机。通过音频采集设备采集到信息传送到服务器中，服务器分析使用者哼唱的部分或使用者口述的乐曲基本属性，与数据库中的乐曲进行匹配，匹配的计算在服务器上完成，服务器把匹配的结果传送回输出终端。服务器还对输入终端传送过来的各种命令进行分析，这些命令包括哼唱选歌前使用者输入的匹配条件；匹配完成后，输送结果到输出终端后，使用者再次进行选择的命令；全手动筛选时输入的命令。服务器匹配乐曲的具体实现步骤1)把采集到的使用者哼唱音频传送到服务器。
2)对音频进行预处理。预处理使音频在以后的步骤中更易于被计算机处理。音频的均值相当于一个直流分量，音频x(n)的均值μx由下式估计μ-x=1NΣn=0N-1Xn(n)]]>其中Xn(n)是X(n)的N个点的纪录，μx是X(n)对的真正均值μx的估计值。
3)音频特征提取。特征声音是一种随机数据，在随机的动力学参量的数据处理中，描述这些特征声音，需要先计算音频的均方差，得到幅域的统计，然后再通过自相关函数得出时域的统计结果，最后再通过自功率谱密度函数得出频域的统计结果。得到音频的幅域特征A、时域特征T和频域特征F的统计结果后，即认为得到了采集音频的有用特征。
4)通过音频的特征与数据库中的音乐的特征进行比较。假设数据库中有n个音乐，我们预先计算出数据库中每个音乐i(i＝1，2，...，n)的幅域特征Ai、时域特征Ti和频域特征Fi，求出所有Di(i＝1，2，...，n)，Dj表示值最小的Di，那么音乐j即为我们的匹配最佳结果。
其中Di=(A-Ai)2+(T-Ti)2+(F-Fi)2]]>5)求出集合k＝{k|Dk≤Dj+Δ}，其中Δ为一个控制匹配结果范围的系数。返回集合k，即所有匹配成功的音乐。
输出终端可以是一般的显示器、投影机等具有显示功能的设备，用于显示服务器返回的结果和显示响应用户的各种输入。
输入终端可以是一种特定或者通用的键盘、触摸屏等具有写入功能的设备，用于使用者输入匹配条件和向服务器发送各种命令。
一种基于哼唱的乐曲自动选择方法包括通过哼唱选歌和通过口述乐曲基本属性选歌。
如图2所示为用户通过哼唱选歌的步骤。
如图3所示为用户通过口述乐曲基本属性选歌的步骤。
如图4所示这里举例说明我们的自动选歌系统的实现。系统实施案例图和系统结构图不同，系统结构图只是简要说明系统的组成部分，系统应该是一个服务器可以同时处理多套自动乐曲选择设备发送过来的请求的，同时把结果返回给它们。
现在一位使用者来到了我们其中一套乐曲选择设备前，想进行乐曲的选择操作。他由于忘记了乐曲的名字和原唱歌手名，所以无法通过传统手工查询得到结果，但是他仍记得歌曲的主旋律，于是向麦克风哼唱了部分他记得的乐曲段。由于用户哼唱的音调和节拍并不是十分准确，所以系统匹配有多个结果返回显示到显示器上，使用者由于有结果的提示，回忆起乐曲名字，从结果中选择了他想要乐曲。他再选则下一个乐曲，仍然是通过哼唱的方式，这次他先输入了乐曲原唱是男歌手这个筛选条件，然后进行哼唱，由于哼唱实在是太不准确，于是匹配失败，提示使用者进入手工选歌模式，使用者这时根据乐曲名和原唱歌手进行搜索。使用者再次选择第三首乐曲，这次他记得乐曲的全名，于是他通过向麦克风说出乐曲名字的方法进行选歌，系统根据用户的话语和数据库中的歌曲名字进行匹配，同样由于各种原因的干扰，匹配不能完全精确进行，系统返回了几条匹配成功的乐曲名字等待使用者进行人工选择，使用者通过键盘从返回结果中选择了他想要的乐曲。
通过这样一个流程，一位使用者就通过了本系统选择了3首乐曲进行播放操
权利要求
1.一种基于哼唱的乐曲自动选择装置，它包括音频采集设备负责采集使用者哼唱的乐曲和采集使用者口述的乐曲基本属性，同时将集到的数据发送到系统的服务器；服务器负责存储乐曲，接收音频采集设备采集的数据，并与之进行匹配，将匹配的结果传送回输出终端，并对输入终端传送过来的各种命令进行分析；输出终端负责显示服务器匹配的结果和显示响应用户的各种输入；输入终端负责输入匹配条件和向服务器发送各种命令。
2.根据权利要求1所述的基于哼唱的乐曲自动选择装置，其特征在于，所述音频采集设备具有开和关两种状态，只有在开启状态时，才能采集周围数据。
3.根据权利要求1所述的基于哼唱的乐曲自动选择装置，其特征在于，所述音频采集设备可以是麦克风或者是与麦克风具有同等功能的设备。
4.根据权利要求1所述的基于哼唱的乐曲自动选择装置，其特征在于，所述服务器是一个包含乐曲数据库，可以在上面进行乐曲的存取和分析的计算机。
5.根据权利要求1所述的基于哼唱的乐曲自动选择装置，其特征在于，所述输出终端可以是一般的显示器、投影机等具有显示功能的设备。
6.根据权利要求1所述的基于哼唱的乐曲自动选择装置，其特征在于，所述输入终端可以是一般的键盘、触摸屏等具有写入功能的设备。
7.一种基于哼唱的乐曲自动选择方法，其特征在于它包括通过哼唱选歌和通过口述乐曲基本属性选歌。
8.根据权利要求7所述的基于哼唱的乐曲自动选择方法，其特征在于，所述通过哼唱选歌的步骤具体为1)使用者通过输入终端，向服务器发送准备哼唱选择乐曲的命令；2)打开音频采集设备的开关，使用者向音频采集设备哼唱乐曲；3)服务器分析音频采集设备发送过来的音频数据，和乐曲数据库中的乐曲进行匹配；4)匹配结果为一条或者多条时，服务器把匹配结果传送到输出终端，如果只有一条结果，则等待使用者对结果进行确认，如果有多条结果，则等待使用者对结果进行选择和确认，如果使用者认为所有匹配结果都不是他想要的结果，转入步骤6)；如果用户认为匹配结果中有他想要的结果，转入步骤7)；5)匹配结果为零条时，服务器把匹配失败的结果返回给输出终端，系统并自动转入步骤6)；6)系统进入传统手动选歌模式，使用者通过输入终端输入演唱者名称、演唱者性别，歌曲名称等条件，进行手动筛选；7)系统播放响应的乐曲。
9.根据权利要求7所述的基于哼唱的乐曲自动选择方法，其特征在于，所述通过口述乐曲基本属性选歌的步骤具体为1)使用者通过输入终端，向服务器发送准备口述乐曲属性进行选择乐曲的命令；2)打开音频采集设备的开关，使用者向音频采集设备说出乐曲的某个属性；3)服务器分析音频采集设备发送过来的音频数据，和乐曲数据库中的乐曲进行匹配；4)匹配结果为一条或者多条时，服务器把匹配结果传送到输出终端，如果只有一条结果，则等待使用者对结果进行确认，如果有多条结果，则等待使用者对结果进行选择和确认；如果使用者认为所有匹配结果都不是他想要的结果，转入步骤6)；如果用户认为匹配结果中有他想要的结果，转入步骤7)；5)匹配结果为零条时，服务器把匹配失败的结果返回给输出终端，系统并自动转入步骤6)；6)系统进入传统手动选歌模式，使用者通过输入终端输入演唱者名称、演唱者性别，歌曲名称等条件，进行手动筛选；7)系统播放响应的乐曲。
全文摘要
本发明公开了一种基于哼唱的乐曲自动选择装置和方法，解决了用户在只记得乐曲的主旋律，而忘记乐曲的名字和歌手的信息等情况下，而通过哼唱旋律来选择歌曲。基于哼唱的乐曲自动选择装置包括音频采集设备、服务器、输出设备和输出设备，该方法包括通过哼唱选歌和通过口述乐曲基本属性选歌。用户只用哼唱或者口述乐曲的基本属性，音频采集设备采集音频数据并传送给服务器，服务器分析音频数据，并与数据库中的数据进行匹配寻找满足条件的乐曲，最后通过输出设备显示响应结果。
文档编号G10L15/08GK1953046SQ200610122430
公开日2007年4月25日申请日期2006年9月26日优先权日2006年9月26日
发明者凌若天, 罗笑南申请人:中山大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：凌若天;罗笑南
技术所有人：中山大学
我是此专利的发明人

上一篇：一种基于midi文件的乐器演奏提示和检测系统及方法
上一篇：机器人乐手的吹奏系统的制作方法