一种基于沃尔什-哈达码变换的音频实时比对方法

文档序号：8923603阅读：532来源：国知局

一种基于沃尔什-哈达码变换的音频实时比对方法
【技术领域】
[0001] 本发明属于数字音频处理技术领域，涉及一种对两音频信号进行比较的方法，具体为一种基于沃尔什-哈达码变换的音频实时比对方法，该方法可应用于广播音频的实时比对。
【背景技术】
[0002] 当前，音频广播已成为最为普及的大众宣传和娱乐媒体。广播电台的节目播出及媒体资源管理等都涉及到音频比对方面的需求，即对两个音频进行比较，判断二者是否相同或相似。例如在节目监播中，需要对实际发射播出的音频信号进行在线实时接收和查询，涉及到将接听到的音频流与欲播出的原音频进行比对，从而判断整个开环播出通路是否正常；又如在广告统计管理中，也需要对每日播出记录与原广告音频进行比对查找，统计各广告实际播出的时间和次数，从而判断广告播出是否存在漏播、多播或错播等情况。
[0003] 音频比对一般包括音频提取特征和特征匹配两个环节。特征提取是用代表原始信号的结构化数据来表达音频信号。常用的音频特征主要可以分为两大类：声学级特征和语义级特征。声学特征是音频信号本身的特征（如时频域特征），是其它类型音频特征的基础。常用的声学特征主要包括梅尔倒谱系数（MFCC)、基音频率、短时能量、过零率、LPC等等；语义级特征则是对音频的概念级描述，它是在声学级特征的基础上，通过模型化处理，抽取出来的更高级的感知特征，如音乐的旋律、音色和叙事感情等等。在提取特征之后，特征匹配环节则是通过计算提取的两音频特征之间的距离来判断两音频是否相同或相似。该过程相对简单，常用的特征距离有标准欧几里德距离、曼哈顿距离、汉明距离等等。
[0004] 传统的音频比对方法针对普通音频的比对，一般不太适用于广播音频，其原因主要有如下两个方面：一方面，在比对容错性上，众多音频特征皆以准确描述音频为目标，追求高的内容辨识度，故音频的细微变化，均能反应在特征上。这样，如果音频受到噪声干扰，或经过一些常规音效处理，如均衡（EQ)调节，再将处理后的音频与原音频进行比较，传统比对方法往往判定两音频不相似甚至完全不同，而噪声干扰、音效处理等在广播中是很常见的。如在广播监测中，我们需要将播出原音频与接听到的音频进行比对，而接听到的音频并非如原音频一般纯净，常常含有噪声；又如为了达到更好的播出主观收听效果，在广播发射前，通常使用音频均衡器来对播出音频的频谱进行调节。这些处理，使得被处理音频相对于原音频发生了较大的变化。在这种情况下，传统的比对方法往往不能适用，因为广播音频比对需要判定播出的音频内容本身是否相同，而非听觉效果上是否一致，即某音频即使在受到一定噪声干扰、频谱调节等处理后，算法仍应该判定该音频与其原音频是相似的（或互为相似音频）。虽然文献中也出现了对音频变化不敏感的比对方法，如基于Philips音频指纹的比对方法，但这些方法中，处理前后两音频间的距离与真正完全不同的两音频间的距离相差不大，故判别上容易混淆，尤其是在强噪声干扰或音频处理的变化幅度较大时，会出现判别错误；另一方面，在比对的计算效率上，现有方法的计算复杂度相对较高，比对所需的时间相对较长，不利于实时处理。

【发明内容】

[0005] 本发明的目的在于针对【背景技术】存在的问题，采用新的音频提取特征和特征匹配方法，提供一种适合广播音频的比对方法。
[0006] 本发明采用技术方案为：一种基于沃尔什-哈达码变换的音频实时比对方法，包括以下步骤：
[0007]S1.特征提取：对待比对的两个音频，分别进行以下操作：
[0008]S11.预处理：将音频从原采样频率下采样到fs= 4000Hz，将下采样后的数据按固定长度划分为各音频帧，相邻帧间有重叠，其中帧长L取为2的整数次方，即L= 2m(m为整数）；将每一帧数据排列成一列矢量，并将矢量中各元素除以列矢量中元素绝对值的最大值进行归一化，将归一化处理后的帧数据保存在数据矩阵A中；设总的音频帧数目为M，则A =[a^a2,a3, . . .，aM]，其中A的每一列表示第i帧的数据；
[0009]S12.读取音频帧：取一帧音频ai;设定初始值为0的帧计数器，每取一音频帧，帧计数器加1 ;
[0010] S13.沃尔什-哈达码（Walsh-Hadamard)变换：对音频帧数据进行加窗处理，设Xi代表加窗后第i帧的帧数据，对xi进行沃尔什-哈达码变换，得到变换后的数据yi:
[0012] 其中，HL为相应的L阶变换矩阵；
[0013] S14.计算音频帧特征：设&代表第i帧的音频帧特征，其维数（或特征个数）设定为Z，fik代表f i的第k个元素，对k = 1，2, 3,. . .，Z的每个k计算
[0015] 其中y/代表yi的第j个元素；b,(r= 0, 1，2,. . .，Z)为划分帧特征矢量&的第r 个分界点位置下标，其计算公式为
[0017] 其中L*」代表向下取整运算；
[0018]S15.若帧计数器的当前计数值小于M，则转至步骤S12;
[0019]S16.生成音频特征：将各音频帧的特征矢量排列成一矩阵F= [f\，f2,f3, . . .，fM]，该矩阵即为当前音频信号的特征矩阵；
[0020] S2?特征匹配：
[0021] 设待比对的两个音频信号的特征矩阵分别为F和F,将两矩阵的对应列（帧）特征矢量进行以下比较：
[0022] S21.设&和^分别表示第一个和第二个音频的第i帧特征矢量，计算参数yi
[0024]其中 < 代表f?和f二者中值较大者，#代表f?和7T二者中值较小者，M100 < 140)为设定某阈值，b〇〇l( ?)为二值函数，其定义为
[0026] S22?对i从1到M，计算第i帧的距离di:
[0028] 其中运算符< ?，? >为矢量的内积，| | ? | |2为矢量的2范数，即矢量各元素平方和再开方；
[0029]S23.将待比对两个音频的所有帧的距离进行平均，将该平均值作为两音频信号的距离；
[0030]S3.相似度判定：将求得的待比对两个音频信号距离除以单位距离得到相对距离比，若该距离比小于设定的阈值Td(0. 2 <Td< 0. 5)，则判定两个音频信号相似，否则不相似。
[0031] 本发明的有益效果：本发明提供一种音频实时比对方法，该方法具有较高的比对容错性，在音频受到噪声干扰，或进行了音效处理的等情况下均能实现正确的比对；同时，该方法算法简单、处理快速，能够广泛应用于广播电台的节目监播、广告监测和管理等。
【附图说明】：
[0032] 图1为EQ处理均衡器设置图。其中，（a)为流行风格均衡器设置、（b)为摇滚风格均衡器设置、（c)为经典风格均衡器设置。
[0033] 图2为特征提取过程流程图。
[0034] 图3为音频比对流程图。
【具体实施方式】
[0035] 仿真实验共选择了 16个音频作为测试音频。其中前6个音频为未经处理的原广播音频，均为单声道，48k采样率，包含广告、乐曲和歌曲各两个，其具体信息如表1描述；后 10个音频对歌曲1作均衡（EQ)、压缩、加噪等处理得到的音频，其音频具体信息如表2描述，EQ处理的均衡器设置如图1所示。
[0036] 表1原测试音频信息

[0038] 表2歌曲1处理后的各音频信息
[0041] 本实施例以"歌曲1"与对其加入高斯白噪声（信噪比为_5db)处理后的"歌曲 1-SNR-5 "这对音频为例，对其进行比对，具体步骤如下：
[0042] S1.特征提取：对待比对的两个音频，分别进行如下操作：
[0043] S11.预处理：将音频从原采样频率下采样到fs= 4000Hz，将下采样后的数据按256个采样点的长度等分为各音频帧，相邻帧间有半帧长度的重叠，总的音频帧数目M为935 ;将每一帧数据排列成一列矢量，并将矢量中各元素除以列矢量中元素绝对值的最大值进行归一化，将归一化处理后的帧数据保存在数据矩阵A中；设，则A= [a^a2,a3, ? ? ?，a935]，其中A的每一列不第i帧的数据；
[0044] S12.读取音频帧：取一帧音频ai;设定初始值为0的帧计数器，每取一音频帧，帧计数器加1 ;
[0045] S13.沃尔什-哈达码（Walsh-Hadamard)变换：对音频帧ai的数据进行加汉明窗处理，设Xi代表加窗后第i帧的帧数据，对X1进行哈达码变换，得到变换后的数据yi:
[0047] 其中，H256为256阶哈达码矩阵，可由如下的递推关系得到：最低阶（2阶）的哈达玛矩阵为
[0049]由此可得到其他阶次为2的整次幂的高阶哈达玛矩阵
[0051] 式中，N= 2n，n为正整数。
[0052] S14.计算音频帧特征：设&代表第i帧的音频帧特征，其维数（或特征个数）设定为Z = 10, fik代表f i的第k个元素，对k = 1，2, 3,. . .，10的每个k计算
[0054]其中y〖代表yi的第j个元素；bJr= 0, 1，2, ? ?

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：甘涛;何艳敏;黄晓革;兰刚;周南;
技术所有人：电子科技大学;北京英夫美迪数字技术有限公司;
我是此专利的发明人

上一篇：硬盘装置及数据刷新方法
上一篇：一种基于感知滤波的音频实时比对方法