一种实时音频比对方法

文档序号:2828154阅读:786来源:国知局
一种实时音频比对方法
【专利摘要】本发明的实时音频比对方法,用于判断两路信号是否为同样的内容:两路音频信号的初始同步和两路音频的周期比对;对两路音频信号分别读取N秒钟的音频,采样得到两组待同步的音频采样序列;通过移动延时值,将两路音频采样序列对齐,本次移动延时值是为粗同步;然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,得到两个同步测试音频序列的特征值序列,延时值分别为D0、D1和D2;分别计算这两个同步测试音频序列特征值的相关性值L0、L1和L2;定期的对两路音频进行音频信号采样,计算两列采样音频序列的MEL倒谱特征值并相关性;如果相关性仍然大于门限A,说明这段时间内两路音频还是保持内容一致的。
【专利说明】一种实时音频比对方法

【技术领域】
[0001 ] 本发明涉及一种判断两路实时音频信号的内容是否相同的比对方法。

【背景技术】
[0002]两路实时音频信号一般是经过不同的传输通道传入的,因为信道传输的延时,会造成两路信号在到达时间上的不同步。因此对这两路实时音频要做的第一件事情是进行同步计算,找出两路信号的延时大小。同步的结果会极大影响后续比对的准确度。
[0003]所以在实时音频的比对中,同步算法是最关键的模块。
[0004]现有技术中,判断两路音频信号是否同步,具有多种方法:
I)有辅助信息的同步,例如“音频水印”技术,是在原始音频中插入一些额外的辅助信息,依靠这些辅助信息进行同步。这些特定的信息耳朵听不到,但是设备可以检测出来,用这些信息辅助进行同步。但这种方法一定程度上会降低声音的质量,另外前端需要安装特殊设备,提闻了成本。
[0005]2)无辅助信息的同步,可以再细分为
a.时间域上的同步计算:根据音频信号的时间特性的相关性来计算延时。可以使用的时间特性包括时域的信号包络,或者是音频能量的变化趋势等。这类算法的优点是计算量小,因为不需要变换到频域。缺点是很容易受到噪声、信道衰减的影响,准确率低,难以收敛。
[0006]b.变换域上的同步计算:把音频信号变换到频域(或其他变换域),根据频域特征值的相关性来计算延时。这类算法的优点是准确性较高。由于利用了频域的特性,符合人耳辩声的原理,受噪声和衰减的影响小。缺点是涉及到时频变换,计算量大。
[0007]因此,现有的各种技术都存在缺陷,有待于进一步改进和发展。


【发明内容】

[0008]本发明的目的是提供一种计算量小,精度高的两路实时音频信号的对比方法。
[0009]为了实现上述目的,本发明采用如下技术方案:
一种实时音频比对方法,用于对两路实时的音频信号进行比较分析,判断两路信号是否为同样的内容,具体包括:
两路首频/[目号的初始同步和两路首频的周期比对;
所述两路音频信号的初始同步,包括以下步骤:
对第一路音频信号和第二路音频信号,分别读取N秒钟的音频,对两段音频进行采样得到两组待同步的音频采样序列;首先假设两路音频信号的延时值为D为D0,D0=0,进入第一级同步,也就是粗同步的过程;
通过假设的延时值D0,移动两路音频采样序列,使其在时间上对齐;然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列; 对假定的延时值D0,减去和加上一个搜索步长S以后,分别得到两个新的假定延时值Dl和D2。在延时值分别为DO、Dl和D2时,分别计算这两个同步测试音频序列特征值的相关性值L0、L1和L2 ;
根据所述相关值,判断下一步搜索方向继续搜索,一直搜索到确定了最终的取值区间范围;
在这个区间内,缩小每一次搜索的步长S,也就是进入第二次同步即细同步,细同步的搜索步长小于粗同步;
最后找出具体的满足条件(相关性大于门限A)的延时值D值;
所述两路音频的周期比对包括以下步骤:
定期的对两路音频进行音频信号采样,计算两列采样音频序列的MEL倒谱特征值,然后比较他们的相关性;如果相关性仍然大于门限A,说明这段时间内两路音频还是保持内容一致的。
[0010]所述的实时音频比对方法,其中,所述计算这两个同步测试音频序列特征值的相关性值L0、LI和L2包括以下步骤:
以DO为假设延时,对齐所述两路音频采样序列,然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;计算这两个特征值序列的相关性值L0。
[0011]所述的实时音频比对方法,其中,所述计算这两个同步测试音频序列特征值的相关性值L0、LI和L2包括以下步骤:
假设两路音频信号的延时值为Dl=DO - S秒,以Dl为延时对齐两列音频序列,然后从对齐后的两路音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;对这两个MEL倒谱特征值序列计算相关性得到相关值LI。
[0012]所述的实时音频比对方法,其中,所述计算这两个同步测试音频序列特征值的相关性值L0、LI和L2包括以下步骤:
假设两路音频信号的延时值为D2=D0+S秒,以D2为延时对齐两列音频序列,然后从对齐后的两个音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列。计算这两个序列计算相关性值L2。
[0013]所述的实时音频比对方法,其中,根据所述相关值判断下一步搜索方向,具体包括以下步骤:
当出现L1〈L0且L2〈L0的情况,实际的延时值D —定就在D1~D2之间,表示第一级同步完成,将进入第二级同步;
当出现L2>L0>L1时,可判断D>D2,这时候应当继续向右侧搜索,取DO = D2,重复第一级同步的步骤;
当出现L2〈L0〈L1时,可判断D〈D1,这时候应当继续向左侧搜索,取DO = D1,重复第一级同步的步骤。
[0014]本发明提供的实时音频对比方法,使用了频域的特征值(MEL倒谱)来进行比对。而普通的利用MEL倒谱比对的算法,在提高了精度的同时,计算量也增大了,相应的对硬件平台的要求也提高了。如果要降低硬件的成本,就必须有效的降低同步算法的计算量。本发明使用的“双向搜索”方法,可以只对少数假设点进行计算,就快速的判断出实际延时值所在的方向,进而定位取值区间。然后利用“两级同步”的方法,在找到的区间内缩小步长再次进行快速搜索,直到找到真实的延时值。整个方法避免了一个一个采样点去计算和比较,极大的节省了计算资源。

【专利附图】

【附图说明】
[0015]图1为本发明实时音频比对方法的流程示意图;
图2为本发明延时值D落在了(D1,D2)区间内时,延时值同相关性的曲线图;
图3为本发明延时值D大于D2时,延时值同相关性的曲线图;
图4为本发明延时值D小于Dl时,延时值同相关性的曲线图。

【具体实施方式】
[0016]下面对本发明做进一步详细说明。
[0017]本发明的实时音频比对方法,可以对两路实时的音频信号进行比较分析,判断两路信号是否为同样的内容,包括初始同步和周期性比对两个步骤。
[0018]第一个步骤,两路音频的初始同步。
[0019]本发明的初始同步算法采用“频域特征值求相关性”、“双向搜索”、“两级同步”的独创性方法,算法的流程,如图1所示,包括以下步骤:
步骤101、对第一路音频信号和第二路音频信号,分别读取N秒钟的音频,对两段音频进行采样,得到两组待同步的音频采样序列。首先假设两路音频信号的延时值为D为D0,(DO=O)0开始进入第一级同步,也就是粗同步,搜索步长为S。
[0020]步骤102,在假设延时值的基础上,移动两路音频采样序列,使其在时间上对齐。然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列,计算这两个同步测试音频序列特征值的相关性值L0;
再假设两路音频信号的延时值为DO - S秒(Dl= D0-S)。以Dl为延时对齐两列音频序列。然后从对齐后的两路首频序列的同一时间点处开始向后各取长度为M的首频米样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;对这两个MEL倒谱特征值序列计算相关性得到相关值LI;
假设两路音频信号的延时值为D0+S秒(D2= D0+S)。以D2为延时对齐两列音频序列。然后从对齐后的两个音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列。计算这两个序列之间的相关性值L2;
步骤103,根据所述相关值,判断下一步搜索方向。
[0021]在步骤102中,本发明等距离的假设了三个可能的延时值Dl DO和D2,并在这三个假设下计算了两个序列对应的相关性大小LI LO和L2,相关性大小LI LO和L2存在下面几种情况: (I)实际的延时值D落在了(D1,D2)区间内,如图2所示,
假设这两个音频序列的内容是完全相同的,只是存在一个延时D秒。那么两路同步测试音频序列的MEL倒谱特征值的相关性(纵坐标)与计算相关性的时候所假设的延时大小(横坐标)之间的关系如图2中的曲线。假设的延时值越接近实际的延时D,相关性就越大,反之越小。
[0022]利用这种特点,本发明可以判断,当出现L1〈L0且L2〈L0的情况,那么实际的延时值D—定就在D1~D2之间某个地方。出现这种情况,表示第一级同步(粗同步)完成,将进入步骤104进行第二级同步(细同步)。
[0023](2)实际的延时值D要大于D2,如图3所示,
当出现L2>L0>L1时,可判断D>D2。这时候应当继续向右侧搜索,取DO = D2,重复步骤
102。
[0024](3)实际的延时值D要小于D1,如图4所示,
当出现L2〈L0〈L1时,可判断D〈D1。这时候应当继续向左侧搜索,取DO = D1,重复步骤
102。
[0025]步骤104,通过前面的搜索,已经找到了延时值D所在的目标区间。为了找出具体的延时值D值,缩小每一次搜索的步长S,然后以目标区间的中间点开始进行第二级同步(细同步)搜索。搜索的判断方式与步骤103里的第一级同步搜索(粗同步)相同。当最终找到一个点Dx,对应的相关性值Lx大于某一个设定的门限A时,可以认为Dx就是真实的延时值。并且同时可以判定这两个序列是完全相同的。
[0026]如果搜索完了整个N秒的采样序列,都没有找到有符合要求的延时值,那么可以认为两组音频的内容不同(或者实际延时超出了最大可处理的延时范围)。
[0027]第二个步骤,两路音频信号的周期比对。
[0028]在完成了同步以后,至少可以说明同步时所用的两段音频采样序列内容相同。但是本发明的目标是对两路音频不间断的进行实时的比较,因此同步之后,还需要定期的对两路音频进行音频信号采样,计算两列采样音频序列的MEL倒谱特征值,然后比较他们的相关性。如果相关性仍然大于门限A,说明这段时间内两路音频还是保持内容一致的。如果相关性低于门限值A,有两种可能性:一是同步丢失了。因为传输信道存在延时抖动,两路音频之间的延时值并不是固定的,而是在不断变化中。另一种可能性就是两路音频现在的内容不一样了(比如某一路被插播了非法内容)。
[0029]不论是上述哪种原因造成的相关性过低,都需要重新进行同步计算。如果同步计算后能重新得到满足条件的延时值,说明音频是相同的,只是延时值发生了变化,不需要对外告警;否则,说明音频内容不同了,需要设备向外发出相应的告警信息。
[0030]本发明采用MEL倒谱序列作为音频的特征值,通过特征值的相关性判断两列音频是否内容相同。MEL倒谱序列是模拟了人耳的听觉特点之后,对声音的频谱所做的分段特征提取。这种特征值对于语音、音乐都有很好的代表性,即使在声音经过了压缩处理或者是传输信道较恶劣的情况下,都可以保证比对结果的准确性。
[0031]本发明的主要创新点在于,采用了一种独创的“频域特征值求相关性”、“双向搜索”和“两级同步”的算法来实现快速的同步。
[0032]由于本发明使用了频域的特征值(MEL倒谱)来进行比对,在提高了精度的同时,计算量也增大了。如果要降低硬件的成本,就必须有效的降低同步算法的计算量。本发明使用的“双向搜索”方法,可以只对少数假设点进行计算,就快速的判断出实际延时值所在的方向,进而定位取值区间。然后利用“两级同步”的方法,在找到的区间内缩小步长再次进行快速搜索,直到找到真实的延时值。整个方法避免了一个一个采样点去计算和比较,极大的节省了计算资源。实际使用效果良好,可以在一些嵌入式的硬件平台上实现完整的两路实时音频比对。
[0033]以上内容是对本发明的优选的实施例的说明,可以帮助本领域技术人员更充分地理解本发明的技术方案。但是,这些实施例仅仅是举例说明,不能认定本发明的【具体实施方式】仅限于这些实施例的说明。
【权利要求】
1.一种实时音频比对方法,用于对两路实时的音频信号进行比较分析,判断两路信号是否为同样的内容,具体包括: 两路首频彳目号的初始同步和两路首频的周期比对; 所述两路音频信号的初始同步,包括以下步骤: 对第一路音频信号和第二路音频信号,分别读取~秒钟的音频,对两段音频进行采样得到两组待同步的音频采样序列;首先假设两路音频信号的延时值为0为00,00=0,进入第一级同步,也就是粗同步的过程; 基于假设的延时值00,移动两路音频采样序列,使其在时间上对齐;然后从两路音频采样序列的同一时间点开始向后各取长度为1的同步测试音频序列,分别计算这两路同步测试音频序列的1此倒谱特征值,得到两个同步测试音频序列的特征值序列; 对假定的延时值00,减去和加上一个搜索步长3以后,分别得到两个新的假定延时值01 和 02 ; 在延时值分别为00、01和02时,分别计算这两个同步测试音频序列特征值的相关性值10,11 和 12 ; 根据所述相关值,判断下一步搜索方向继续搜索,一直搜索到确定了最终的取值区间范围; 在这个区间内,缩小每一次搜索的步长3,也就是进入第二次同步即细同步,细同步的搜索步长小于粗同步; 最后找出具体的延时值0值; 所述两路音频的周期比对包括以下步骤: 定期的对两路音频进行音频信号采样,计算两列采样音频序列的1此倒谱特征值,然后比较他们的相关性;如果相关性仍然大于门限八,说明这段时间内两路音频还是保持内容一致的。
2.根据权利要求1所述的实时音频比对方法,其特征在于,所述计算这两个同步测试音频序列特征值的相关性值⑶、11和12包括以下步骤: 以00为假设延时,对齐所述两路音频采样序列,然后从两路音频采样序列的同一时间点开始向后各取长度为1的同步测试音频序列,分别计算这两路同步测试音频序列的121倒谱特征值,得到两个同步测试音频序列的特征值序列;计算这两个特征值序列的相关性值10。
3.根据权利要求2所述的实时音频比对方法,其特征在于,所述计算这两个同步测试音频序列特征值的相关性值⑶、11和12包括以下步骤: 假设两路音频信号的延时值为01=00 - 8秒,以01为延时对齐两列音频序列,然后从对齐后的两路音频序列的同一时间点处开始向后各取长度为1的音频采样序列,分别计算这两路同步测试音频序列的1此倒谱特征值,得到两个同步测试音频序列的特征值序列;对这两个121倒谱特征值序列计算相关性得到相关值11。
4.根据权利要求3所述的实时音频比对方法,其特征在于,所述计算这两个同步测试音频序列特征值的相关性值⑶、11和12包括以下步骤: 假设两路音频信号的延时值为02=00+3秒,以02为延时对齐两列音频序列,然后从对齐后的两个音频序列的同一时间点处开始向后各取长度为1的音频采样序列,分别计算这两路同步测试音频序列的1此倒谱特征值,得到两个同步测试音频序列的特征值序列;根据两个同步测试音频序列的特征值序列,计算这两个序列计算相关性值12。
5.根据权利要求4所述的实时音频比对方法,其特征在于,根据所述相关值判断下一步搜索方向,具体包括以下步骤: 当出现11化0且12化0的情况,实际的延时值0 —定就在01~02之间,表示第一级同步完成,将进入第二级同步; 当出现12凡0凡1时,可判断0?02,这时候应当继续向右侧搜索,取00 = 02,重复第一级同步的步骤; 当出现12化0化1时,可判断1X01,这时候应当继续向左侧搜索,取00 = 01,重复第一级同步的步骤。
【文档编号】G10L25/51GK104505101SQ201410814218
【公开日】2015年4月8日 申请日期:2014年12月24日 优先权日:2014年12月24日
【发明者】张丹, 胡志琳, 李佳骅, 石建 申请人:北京巴越赤石科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1