一种固定音频检索方法

文档序号：6353779阅读：373来源：国知局

专利名称：一种固定音频检索方法
技术领域：
本发明涉及多媒体技术领域，尤其涉及ー种固定音频检索方法。
背景技术：
伴随信息时代的发展、多媒体资料的增多，日益呈现海量化的規模。当人们在浏览和理解这些内容时，作为多媒体数据中标志性部分的音频，为人们的感知提供了重要的线索。为了从这些资料获取感兴趣的内容，需要进行信息提取和检索查询，其中固定音频检索就是ー种比较实用的技木。固定音频检索是指在待检音频中检测和定位与给定查询音频同源的音频片段，它是多媒体检索中的基本问题之一。固定音频检测技术涉及模式识别、音频信号处理，语音处理等多项技木。该项技术具有非常广泛的应用前景，可以广泛应用于节目、音乐、广告等的检索和定位，版权保护和评价音频的压缩质量及某些具有军事用途的音频信号解码与监听等方面。随着技术的不断成熟以及计算机硬件水平的发展，可以预见，在不久的将来，该技术将迅速走进大众的生活，它将改变人们学习、工作和生活娱乐的方式，从而产生巨大的经济效益和社会效益。在音频检索领域，基于音频指纹检索系统是常用的ー种系统。它主要通过信号处理的方法，将音频中每隔ー个固定时间的音频信号转为个固定字节大小的音频指纹，用这种方法将音频数据转化成ー个音频指纹数据。然后系统对所有音频指纹数据建立索引表，从而对音频数据建立了快速检索。基于音频指纹检索系统在音频数据比较少的情况下，可以将所有的指纹数据调入内存中，进行索引后，可方便地进行快速检索。在实际情况下，音频数据的量很大，而且数量还在不断的增长，同时固定音频检索系统，当查询的模板数比较多时，或者查询的模板长度比较长时，计算复杂度就会高，效率就会直线下降，面对海量查询库时更明显。固定音频检索查询库在建立时没有考虑到数据的特性，导致查询库本身很大，同时没有考虑检索目标数据特性，当检索目标较长时，检索时间会变得很长。

发明内容
本发明的目的在于提出ー种固定音频检索方法，能够极大地减少计算复杂度，提高音频数据查询的效率。为达此目的，本发明采用以下技术方案
ー种固定音频检索方法，包括以下步骤
A、通过静音段对音频数据进行分段，形成非静音的音频数据检测段；
B、对音频数据检测段进行谐波检测，并对音频数据检测段进行分类，形成音频数据指纹段分类索引； C、将音频数据检测段分成固定长度的音频数据指纹段，根据信息量对音频数据指纹段进行标识分类，形成音频数据指纹段索引；D、对每个音频数据指纹段提取音频数据指纹特征，建立音频数据指纹索引；
E、通过静音段对待检索音频数据进行分段，形成非静音的待检索音频数据检测段，从中选取不少于一段时间最长的待检索音频数据检测段作为查询音频数据检测段；
F、对查询音频数据检测段进行谐波检测，确定查询音频数据检测段的类别，通过音频指纹段分类索引，找到查询音频数据检测段对应的音频数据检测段；
G、将查询音频数据检测段分成固定长度的查询音频数据指纹段，逐段评估查询音频数据指纹段的信息量，选取信息量超过预设阈值的最长连续查询音频数据指纹段作为查询音频数据段；
H、在所述的对应的音频数据检测段中，通过音频数据指纹段索引，获得查询音频数据段在所述对应的音频数据检测段中的候选位置；
I、通过音频数据指纹索引，将查询音频数据段与所述对应的音频数据检测段中的候选位置进行匹配，获得音频检索结果。步骤B中，对包含谐波结构的音频数据检测段分成语音段或者音乐段，对不包含谐波结构的音频数据检测段分成噪音段或者无效音段。步骤F中，对包含谐波结构的查询音频数据检测段分成语音段或者音乐段，对不包含谐波结构的查询音频数据检测段分成噪音段或者无效音段。步骤A中，通过音频数据当前段的能量与总体能量的比值，判断是否静音段还是有效声音段。步骤E中，通过待检索音频数据当前段的能量与总体能量的比值，判断是否静音段还是有效声首段。采用了本发明的技术方案，通过对音频数据库进行高质量索引，查询时采用粗细结合分级别查询方式，可以大大减少计算复杂度，提高查询效率。

图I是本发明具体实施方式
中固定音频检索流程图。
具体实施例方式下面结合附图并通过具体实施方式
来进一步说明本发明的技术方案。本发明技术方案的主要思想是基于音频数据指纹检索系统，首先对音频数据进行一个预处理，对音频数据按检测段进行分类，比如音乐、说话声、静音和其它声音等；然后对音频数据检测段按固定时间段按信息量进行一个简单的分类。在建立音频数据检索数据库时，首先按检测段提取音频数据的特征建立索引表，然后对音频数据指纹段中信息量比较高的音频段建立二级索引。在检索目标音频数据阶段先根据目标音频数据的分类对待检索的目标音频数据进行分段，对信息量比较高的音频数据段进行快速查询得到可能的候选位置，然后用目标音频数据在候选位置附近进行精细查询。图I是本发明具体实施方式
中固定音频检索流程图。如图I所示,该固定音频检索流程包括以下步骤
第一阶段是建设音频数据库过程，即将容量庞大的音频库转换成多级索引音频指纹库。
步骤101、通过音频数据当前段的能量与总体能量的比值，判断是否静音段还是有效声音段，再通过静音段对音频数据进行分段，形成非静音的音频数据检测段。步骤102、对音频数据检测段进行谐波检测，对音频数据检测段进行分类，形成音频数据指纹段分类索引。其中，对包含谐波结构的音频数据检测段分成语音段或者音乐段，对不包含谐波结构的音频数据检测段分成噪音段或者无效音段。步骤103、将音频数据检测段分成固定长度的音频数据指纹段，根据信息量对音频数据指纹段进行标识分类，形成音频数据指纹段索引。即对固定长度的音频数据指纹段逐段评估信息量，然后对其中信息量比较高的段做标识。步骤104、对每个音频数据指纹段提取音频数据指纹特征，建立音频数据指纹索引。第二阶段是音频检索过程，是基于输入的待检索音频数据进行匹配检索，从音频数据库中获得用户所需要的音频数据。步骤105、通过待检索音频数据当前段的能量与总体能量的比值，判断是否静音段还是有效声音段，再通过静音段对待检索音频数据进行分段，形成非静音的待检索音频数据检测段，从中选取不少于一段时间最长的待检索音频数据检测段作为查询音频数据检测段。步骤106、对查询音频数据检测段进行谐波检测，确定查询音频数据检测段的类另IJ，对包含谐波结构的查询音频数据检测段分成语音段或者音乐段，对不包含谐波结构的查询音频数据检测段分成噪音段或者无效音段。通过音频指纹段分类索引，找到查询音频数据检测段对应的音频数据检测段。步骤107、将查询音频数据检测段分成固定长度的查询音频数据指纹段，逐段评估查询音频数据指纹段的信息量，选取信息量超过预设阈值的最长连续查询音频数据指纹段作为查询音频数据段。步骤108、在所述的对应的音频数据检测段中，通过音频数据指纹段索引，获得查询音频数据段在所述对应的音频数据检测段中的候选位置。这里一般会给ー个比较宽松的门限，让候选结果尽可能包含其中。步骤109、通过音频数据指纹索引，将查询音频数据段与所述对应的音频数据检测段中的候选位置进行匹配，获得音频检索結果。以上所述，仅为本发明较佳的具体实施方式
，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。
权利要求
1. 一种固定音频检索方法，其特征在于，包括以下步骤 A、通过静音段对音频数据进行分段，形成非静音的音频数据检测段； B、对音频数据检测段进行谐波检测，并对音频数据检测段进行分类，形成音频数据指纹段分类索引； C、将音频数据检测段分成固定长度的音频数据指纹段，根据信息量对音频数据指纹段进行标识分类，形成音频数据指纹段索引； D、对每个音频数据指纹段提取音频数据指纹特征，建立音频数据指纹索引； E、通过静音段对待检索音频数据进行分段，形成非静音的待检索音频数据检测段，从中选取不少于一段时间最长的待检索音频数据检测段作为查询音频数据检测段； F、对查询音频数据检测段进行谐波检测，确定查询音频数据检测段的类别，通过音频指纹段分类索引，找到查询音频数据检测段对应的音频数据检测段； G、将查询音频数据检测段分成固定长度的查询音频数据指纹段，逐段评估查询音频数据指纹段的信息量，选取信息量超过预设阈值的最长连续查询音频数据指纹段作为查询音频数据段； H、在所述的对应的音频数据检测段中，通过音频数据指纹段索引，获得查询音频数据段在所述对应的音频数据检测段中的候选位置； I、通过音频数据指纹索引，将查询音频数据段与所述对应的音频数据检测段中的候选位置进行匹配，获得音频检索结果。
2.根据权利要求I所述的一种固定音频检索方法，其特征在于，步骤B中，对包含谐波结构的音频数据检测段分成语音段或者音乐段，对不包含谐波结构的音频数据检测段分成噪音段或者无效音段。
3.根据权利要求I所述的一种固定音频检索方法，其特征在于，步骤F中，对包含谐波结构的查询音频数据检测段分成语音段或者音乐段，对不包含谐波结构的查询音频数据检测段分成噪音段或者无效音段。
4.根据权利要求I所述的一种固定音频检索方法，其特征在于，步骤A中，通过音频数据当前段的能量与总体能量的比值，判断是否静音段还是有效声音段。
5.根据权利要求I所述的一种固定音频检索方法，其特征在于，步骤E中，通过待检索音频数据当前段的能量与总体能量的比值，判断是否静音段还是有效声音段。
全文摘要
本发明公开了一种固定音频检索方法，在建立音频数据检索数据库时，首先按检测段提取音频数据的特征建立索引表，然后对音频数据指纹段中信息量比较高的音频段建立二级索引。在检索目标音频数据阶段先根据目标音频数据的分类对待检索的目标音频数据进行分段，对信息量比较高的音频数据段进行快速查询得到可能的候选位置，然后用目标音频数据在候选位置附近进行精细查询。采用了本发明的技术方案，通过对音频数据库进行高质量索引，查询时采用粗细结合分级别查询方式，可以大大减少计算复杂度，提高查询效率。
文档编号G06F17/30GK102622353SQ201110028979
公开日2012年8月1日申请日期2011年1月27日优先权日2011年1月27日
发明者刘赵杰申请人:天脉聚源(北京)传媒科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘赵杰
技术所有人：天脉聚源(北京)传媒科技有限公司
我是此专利的发明人

上一篇：一种以计算机网络技术实现知识产权证券化国际化的方法
上一篇：转换网络页面类型的方法、装置和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。