一种音频比较方法

文档序号：6570496阅读：353来源：国知局

专利名称：一种音频比较方法
技术领域：
本发明涉及ー种音频比较方法，属于计算机音频、多媒体信息技术以及模式匹配等领域，特别涉及一种在音频数据库中基于能量信息提取特征的两段音频数据的快速比较。
背景技术：
随着计算机技术的发展，特别是海量存储设备和大容量内存在PC机上的实现，对音频媒体进行数字化处理便成为可能。数字化处理的核心是对音频信息的采样，通过对采集到的样本进行加工，达成各种效果，这是音频媒体数字化处理的基本含义。为了检查处理过后的音频文件和原始文件之间有哪些区别，如何快速、准确地从两段音频中找到相同和不同之处是影视后期编辑中最基本也是最重要的问题之一。解决这个问题的有效手段便是音频比较技术。常用的音频技术主要可分为基于采样数据的和基于音频内容的ニ种。其中，·基于采样数据的音频比较技术通常通过直接在比较两段音频的每个采样点来实现。这种技术存在两个明显不足首先，音频采样点数据的海量性决定了对于两段较长的音频文件逐点比较这样的问题是NP的，不可能很快的得出结果，没有现实性的意义。其次，基于逐点比较的方法会使音频中存在大量的破碎段落，使得比较的结果过于零碎，不能提供直观可见的结果。基于音频内容的音频比较技术主要是对音频本身的各种特征进行分析和比较的技木。目前常用的音频特征有波形、音质和MFCC等。但基于波形的比较方法过于依赖波形图的拟合方程，使得比较结果的存在很大误差。而基于的音质方法存在音质标准和接受器材约束的问题，使得比较的精度和效率也都不够好。基于MFCC特征的方法由于需要将音频按照语句划分出来，无法大規模快速进行。还有些音频比较方法采用了半监瞀的反馈技木，通过与用户的交互来改善比较的结果，直到用户满意。这种方法通常会给用户带来较大的负担和时间开销。

发明内容
发明目的本发明所要解决的技术问题是针对现有技术的不足，并且为影视后期制作公司提供一个新的解决方案，提供ー种音频比较方法。技术方案本发明公开了ー种音频方法，所述音频快速比较部分包括以下步骤步骤1，将待比较的音频p和音频q，分别按照其音频的长度划分出长度相等的两组音频数据特征段，其中音频P划分为特征段集合Cp, Cp=Icp1, CPfCP^HCPuJ ,音频q划分为特征段集合Cq, Cq=Icq1, cq^“ cq/“ cqu},其中Cpi表示特征段集合Cp中第i个音频数据特征段，I ^ i ^ Lp, Lp为特征段集合Cp的长度，Cqj特征段集合Cq中第j个音频数据特征段，Lq, Lq为特征段集合Cq的长度，因为音频是无损音频，所以其毎秒采样值数目比较大，通常都为每秒48000个采样点(即特征点)，如音频p有8000个采样数据，音频q有6000个采样数据，则将p，q划分成长度为100个采样点的音频数据特征段，则音频P有80个音频数据特征段，每个音频数据段有100个特征点，音频q有60个音频数据特征段，每个音频数据特征段有100个特征点；步骤2,利用CUDA (通用计算架构)方法,将音频P的特征段集合Cp和音频q的特征段集合Cq中姆个特征段中的音频数据导入到GPlXGraphic Processing Unit,图形处理器，)上并行计算，得到音频P的特征段集合Cp的能量特征值序列Wp和音频q的特征段集合Cq的能量特征值序列Wq ；步骤3,将音频p的能量特征值序列Wp和音频q能量特征值序列Wq通过差值方法构建出ー个 Lp 行 Lq 列能量矩阵 Mat,其中 Wp={wp1; wp2*** Wpi--tWpLpI, Wq= (Wq1, wq2*** Wqj---wqLq},即将能量特征值序列Wp中Wp1作为与Wq=Iwq1, Wq2--Wqj---wqLq}中的姆ー个能量特征值做差值后作为一行，同理为wp2，wp3-wqLq中的每ー个能量特征值都做差值得到对应行，组合后即得到Lp行Lq列能量矩阵Mat。能量矩阵Mat可以采用如下所示矩阵结构
权利要求
1.ー种音频比较方法，其特征在于包括以下步骤步骤1，将待比较的音频P和音频q，分别按照其音频的长度划分出长度相等的两组音频数据特征段，其中音频P划分为特征段集合Cp, Cp=Icp1, CPfCP^HCPuJ ,音频q划分为特征段集合Cq, Cq=Icq1, cq^“ cq/“ cqu},其中Cpi表示特征段集合Cp中第i个音频数据特征段，I < i < Lp, Lp为特征段集合Cp的长度，Cqj特征段集合Cq中第j个音频数据特征段，I ^ j ^ Lq, Lq为特征段集合Cq的长度；步骤2，将音频p的特征段集合Cp和音频q的特征段集合Cq中每个特征段中的音频数据导入到GPU上并行计算，得到音频P的特征段集合Cp的能量特征值序列Wp和音频q的特征段集合Cq的能量特征值序列Wq ；步骤3，将音频p的能量特征值序列Wp和音频q能量特征值序列Wq通过差值方法构建出ー个Lp行Lq列能量矩阵Mat ；步骤4，利用变形的后缀数组查找公共子串算法，查找出步骤3中所得的能量特征值序列Wp和能量特征值序列Wq中的公共部分，公共部分即是音频P和音频q相同区域段落的集合Seg ；步骤5，将能量矩阵Mat中元素数值小于设定阈值的区域连通，得到连通区域集合Vres,阈值取值范围为0 1的实数；步骤6，将步骤5中所得的连通区域集合Vres作为结果，用波形表示；步骤7，结束。
2.根据权利要求I所述的ー种音频比较方法，其特征在于，步骤2中，在GPU上使用CUDA方法计算音频数据特征段CPi的能量特征值WPi和音频数据特征段cq^的能量特征值wqj;并将能量特征值Wpi和能量特征值Wqj分布到GPU的线程上能量特征值Wpi的计算方法如下
3.根据权利要求I所述的ー种音频比较方法，其特征在于，步骤4中，利用变形的后缀数组查找公共子串的算法，算法中查找的时间复杂度为O(nlgn)，将音频数据特征段的能量特征值作为变形的后缀数组查找公共子串的算法的字符串中的一个字符，得到若干段长度大于k的字符串，k为设定的最小区别长度，将字符串对应的位置转换为音频数据特征段的位置，得出比较結果。
4.根据权利要求2所述的ー种音频比较方法，其特征在于，步骤5中，相同连通区域的判定标准为音频数据特征段的能量特征值同时满足以下两个条件，则音频P的能量特征值序列Wp和音频q能量特征值序列Wq中第S、s+1、s+2三段数据是相同的并且可连通条件 I wp(s)=wq(s)且 wp(s+2)=wq(s+2)；条件 2 wp(s+1)=wq(s+1)或者 wp(s+1) — wq(s+1) | 彡 T, T 为阈值；其中wp(s)是音频p的能量特征值序列Wp的第S、s+1、s+2段数据,其中wq(s)是音频q的能量特征值序列Wq的第S、s+1、s+2段数据。
全文摘要
本发明公开了一种快速音频比较的方法，其所述音频比较部分包括以下步骤读取音频p和音频q，划分出音频p的特征段集合Cp和音频q的特征段集合Cq；利用GPU(显示卡)上CUDA(通用设备计算架构)功能快速的计算出音频p的特征段集合Cp的能量特征值序列Wp和音频q的特征段集合Cq的能量特征值序列Wq；将各个特征段的特征值按照特征段的顺序构成能量矩阵；利用后缀数组的变形算法找出两个特征值序列的公共特征段集合Seg；快速扫描公共特征段集合Seg，找出连通区域，返回连通区域的集合Vres作为音频比较的结果；在波形图上标识比较结果。
文档编号G06F17/30GK102789500SQ20121024678
公开日2012年11月21日申请日期2012年7月17日优先权日2012年7月17日
发明者余宗乔, 董萱明, 蒋安东, 郭延文, 金国平, 顾学明申请人:南京特雷多信息科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭延文;金国平;余宗乔;蒋安东;顾学明;董萱明
技术所有人：南京特雷多信息科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。