一种基于动态规划的哼唱旋律提取匹配检索方法

文档序号:9304550阅读:189来源:国知局
一种基于动态规划的哼唱旋律提取匹配检索方法
【技术领域】
[0001]本发明涉及一种基于动态规划的哼唱旋律提取匹配检索方法
【背景技术】
[0002]目前网络爬虫只爬取文本,不能爬取音乐、图片和视频等多媒体文件,原因主要是多媒体数据量巨大;如何下载传输多媒体文件;如何索引多媒体文件;进而对处理过的多媒体文件进行检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
[0003]在检索方式上,音频检索可以采用哼唱、节拍拍打、演奏输入、乐谱录入等多种方式提交查询请求进行检索。哼唱检索是指用户哼唱歌曲的某个片段作为查询从数据库中检索音频,它是最方便、最容易被用户接受的音乐检索方式。
[0004]但这种功能的自动实现却是一项很有挑战性的工作。主要难点包括如何从网络音频文件和哼唱查询中提取旋律等关键特征;如何对网络音频文件和查询之间的相似度进行计算;如何对用户不准确的哼唱进行容错;如何提高系统的计算效率等。
[0005]本发明提供了一种基于动态规划的哼唱旋律提取匹配检索方法,用户通过麦克风哼唱的一段歌曲以音频信号的形式进行采集后被分割成片段,每个片段和一个哼唱的音符对应;接着估计每个片段内音符的基音频率,取得哼唱的旋律;然后将哼唱旋律,与已索引的网络音频文件进行旋律匹配;最后将相似程度总分最高的若干首网络音频文件作为检索结果返回给用户。

【发明内容】

[0006]本发明的目的在于提供一种基于动态规划的哼唱旋律提取匹配检索方法。本发明包括以下特征:
[0007]发明技术方案
[0008]一种基于动态规划的哼唱旋律提取匹配检索方法,其具体步骤如下:
[0009]I)用户通过麦克风哼唱的一段歌曲以音频信号的形式进行采集;
[0010]2)求出输入信号的对数能量曲线并对其平滑后,根据曲线极大值和极小值动态地估测有声区的能量阈值,切割出连续有声的片段,每个片段和一个哼唱的音符对应;
[0011]3)基于时域自相关方法,求出每一帧哼唱信号的基频,然后通过下式转换成半音单位;
[0012]4)采用基于规则的方法计算音频帧的音高,然后进行旋律曲线平滑以去掉噪声段,最终获得有效的哼唱旋律;
[0013]5)针对3级音高轮廓线旋律表示,基于一种递归式音高轮廓线间最小编辑距离计算方法,与已索引的网络音频文件进行旋律匹配;
[0014]6)将相似程度总分最高的若干首网络音频文件作为检索结果返回给用户。
【附图说明】
[0015]图1是基于动态规划的哼唱旋律提取匹配检索流程图。
【具体实施方式】
[0016]这种基于动态规划的哼唱旋律提取匹配检索方法,包括如下步骤:
[0017]I)用户通过麦克风哼唱的一段歌曲以音频信号的形式进行采集;
[0018]2)求出输入信号的对数能量曲线并对其平滑后,根据曲线极大值和极小值动态地估测有声区的能量阈值,切割出连续有声的片段,每个片段和一个哼唱的音符对应;
[0019]3)基于时域自相关方法,求出每一帧哼唱信号的基频,然后通过下式转换成半音单位;
[0020]4)采用基于规则的方法计算音频帧的音高,然后进行旋律曲线平滑以去掉噪声段,最终获得有效的哼唱旋律;
[0021]5)针对3级音高轮廓线旋律表示,基于一种递归式音高轮廓线间最小编辑距离计算方法,与已索引的网络音频文件进行旋律匹配;
[0022]6)将相似程度总分最高的若干首网络音频文件作为检索结果返回给用户。
【主权项】
1.一种基于动态规划的哼唱旋律提取匹配检索方法,其具体步骤如下: 1)用户通过麦克风哼唱的一段歌曲以音频信号的形式进行采集; 2)求出输入信号的对数能量曲线并对其平滑后,根据曲线极大值和极小值动态地估测有声区的能量阈值,切割出连续有声的片段,每个片段和一个哼唱的音符对应; 3)基于时域自相关方法,求出每一帧哼唱信号的基频,然后通过下式转换成半音单位; 4)采用基于规则的方法计算音频帧的音高,然后进行旋律曲线平滑以去掉噪声段,最终获得有效的哼唱旋律; 5)针对3级音高轮廓线旋律表示,基于一种递归式音高轮廓线间最小编辑距离计算方法,与已索引的网络音频文件进行旋律匹配; 6)将相似程度总分最高的若干首网络音频文件作为检索结果返回给用户。
【专利摘要】本发明公开了一种基于动态规划的哼唱旋律提取匹配检索方法,其具体步骤如下:用户通过麦克风哼唱的一段歌曲以音频信号的形式进行采集;求出输入信号的对数能量曲线并对其平滑后,根据曲线极大值和极小值动态地估测有声区的能量阈值,切割出连续有声的片段,每个片段和一个哼唱的音符对应;基于时域自相关方法,求出每一帧哼唱信号的基频,然后通过下式转换成半音单位;采用基于规则的方法计算音频帧的音高,然后进行旋律曲线平滑以去掉噪声段,最终获得有效的哼唱旋律;针对3级音高轮廓线旋律表示,基于一种递归式音高轮廓线间最小编辑距离计算方法,与已索引的网络音频文件进行旋律匹配;将相似程度总分最高的若干首网络音频文件作为检索结果返回给用户。
【IPC分类】G06F17/30
【公开号】CN105022744
【申请号】CN201410171206
【发明人】张军, 宋惟忠
【申请人】上海京知信息科技有限公司
【公开日】2015年11月4日
【申请日】2014年4月24日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1