数字音频信号处理方法与流程

文档序号:14072799阅读:1130来源:国知局

本发明涉及一种数字音频信号处理方法,尤其是一种在数字音频编码中嵌入和读取数据的方法,属于音视频处理技术。



背景技术:

数字音频信号来携带信息是业界广为关注并投入相当人力和财力进行研究和开发的技术。利用这样的技术,人们可以一边正常地收听音乐、收看电视节目,一边利用具有音频信号处理能力的设备,例如:移动通信终端,来获取前述的音乐或者电视节目中所携带的数据信息。本发明的申请人曾经就数字音频信号中嵌入数据进行过大量的分析和研究,并且提出了201510447092.2号中国专利申请。

在上述的中国专利申请中请求保护的一种在未经压缩、编码的音频数据中嵌入数据的技术方案。但是,众所周知:目前广为应用的是大量经过压缩、编码的音频文件或数据,例如:采用mpeg1-layer3(以下简称:mp3)帧结构的音频数据。虽然可以将压缩、编码的音频文件或数据先进行转换,使之具备采用前述发明嵌入数据的条件后再进行数据嵌入的处理。但是,这样做一方面,会增加大量不必要的转换操作,另一方面,会导致音频数据的格式不可避免地被强制改变,不利于使用、存储,更会给相关的设备带来资源的无谓浪费。因此,需要一种能够针对经过压缩、编码的音频文件或数据实现数据嵌入操作的技术。



技术实现要素:

本发明的第一个方面是提供了一种数字音频信号处理方法,具体包括:基于mp3的帧结构,选择的颗粒组编号为“0”的音频帧(以下简称为:“0帧”)作为嵌入音频帧;选择帧边信息的缩放因子尺度值为“0”、位于音频帧非短窗内预定频段所对应的一个以上比例因子;将前述比例因子预定嵌入位的数值设置为与所要嵌入的数据值所对应的数值;前述的预定嵌入位为一个以上。

本发明的另一个方面是提供了一种数字音频信号处理方法,具体包括:基于mp3的帧结构,选择“0帧”;并且,选择帧边信息的缩放因子尺度值为“0”的音频帧;以及,选择前述音频帧的非短窗内预定频段所对应的一个以上比例因子;读取该比例因子预定嵌入位的数值;前述的预定嵌入位为一个以上。

本发明的第一个方面所提供的数字音频信号处理方法,能够针对采用基于mp3的帧结构的数字音频数据执行数据嵌入的处理,使得不必做复杂的处理,就能够对前述这类经过压缩、编码的音频文件或数据实现数据嵌入的操作。

本发明的另一个方面所提供的数字音频信号处理方法,能够对采用前述技术方案嵌入数据的数字音频数据执行解码处理,并有效地从音频文件或数据中恢复获得嵌入的数据信息。

具体实施方式

以下将结合各种实施例对本发明的技术方案进行说明,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,可以根据下述的各种实施方式进行归纳和总结,其结果必然和本发明的技术方案是相同的。

在本发明的一类具体实施方式中,音频数据是采用基于mp3的帧结构进行编码的。但是,并不是所有的音频帧都适于使用本发明的技术方案;在本发明的一个具体实施方式中,只选择帧边信息的缩放因子尺度值为“0”的“0帧”来执行嵌入数据的操作。在前述的“0帧”中选择其中的非短窗内某个预定的频段所对应的一个或者多个比例因子作为嵌入数据的操作对象。然后,将前述比例因子中预定嵌入位的数值设置为与所要嵌入的数据值所对应的数值。

在前述的方案中,选择“0帧”是为了确保后续所选取的比例因子具有稳定性。通常,对于颗粒组编号为“1”的音频帧(以下简称为:“1帧”),由于它的比例因子有时会共用“0帧”中的比例因子。因此,只有“0帧”中的比例因子具有稳定的特征。所以,在本发明的所有的具体实施方式中,均采用“0帧”作为嵌入的对象。

在mp3的音频帧中,通常包含多种窗,即:长窗、起始窗、结束窗和短窗。其中,长窗、起始窗和结束窗在时域中的敏感度要低于短窗。因此,在本发明的一些具体的实施方式中,不选择短窗内的比例因子作为嵌入的对象。长窗、起始窗和结束窗的比例因子则都可以作为数据嵌入的对象,但究竟如何使用,可以由相关的设计人员在具体的实施方案中自行设定。

作为被嵌入数据的对象,一个比例因子中通常具有一个以上的数据位。在具体嵌入时,既可以选择其中的一个数据位作为预定嵌入位,也可以选择多个数据位作为预定嵌入位。就具体的嵌入而言,就是将预定嵌入位的数据设置为所要嵌入的数据的操作。例如:当需要嵌入的数据值为“0”时,则将被选择的比例因子的预定嵌入位的数据值设置为“0”;同样,当需要嵌入的数据值为“1”时,则将被选择的比例因子的预定嵌入位的数据值设置为“1”。

有的时候,基于一些特定的需要,嵌入的数据值可能会是反逻辑的,即原本要嵌入的数据值为“0”,而在实际嵌入的时候,根据反逻辑的要求,将预定嵌入位设置为数据值“1”;反之,在反逻辑的前提下,对于所要嵌入的数据值为“1”的情况,则是将预定嵌入位设置为数据值“0”。

尽管一个比例因子中可以设置一个以上的预定嵌入位,并且每个预定嵌入位都可以被嵌入数据。但是,有时充分地使用所有的预定嵌入位有可能会导致音频质量受到影响。因此,一个优化的方案是:对于任何一个比例因子,只选择使用其中的一个预定嵌入位。更为优化的方案是:在一个比例因子中只选择使用该比例因子中的最低位为预定嵌入位。在这种情形下,嵌入数据后的音频质量与原音频质量之间的差别,人耳是无法辨别到的。

众所周知:人类能够感知的音频频率范围为20-20000hz。对于本发明的技术方案而言,可以适用到上述的整个音频范围中。

但是,在整个人类能够感知的音频频率范围中,频率相对较低的频段和频率相对较高的频段中嵌入数据,其鲁棒性都不太理想,需要另外采取技术措施进行补偿。这虽然可行,但无疑会增加处理数据时的设备资源开销和成本。因此,本发明在上述可行的、较大的频率范围基础上,提供了更为优化的频率范围,即:将预定的频段确定在80-5120hz的范围。这样就使得鲁棒性和嵌入数据的不可闻性都得到了保证。

相对于本发明技术方案中前述嵌入数据的各类具体的实施方式,在从使用该技术方案嵌入数据的音频信号中读出被嵌入数据时,显然需要采用如下的若干实施方式:

如前所述,由于在嵌入数据时,只选择帧边信息的缩放因子尺度值为“0”的“0帧”来执行嵌入数据的操作。因此,在读出数据时,也要选择前述的“0帧”,而忽略其他音频帧。在此基础之上,同样要选择其中的非短窗内某个预定的频段所对应的一个或者多个比例因子作为嵌入数据的读出对象。然后,读取这些比例因子预定嵌入位的数值。基于前述敏感度的原因,非短窗实际上是指:长窗、起始窗或这结束窗。

与前面有关一个比例因子中预定嵌入位的选择方案相对应,在读出数据时,需要与嵌入数据时所采用的方案所对应。一个相对比较优化的方案是:在一个比例因子中只选择该比例因子中的最低位为预定嵌入位,读取该预定嵌入位的数据值。在读出预定嵌入位的数据值后,可以根据整体嵌入方案为正逻辑还是反逻辑来进一步处理读出的数据。

基于与嵌入数据方案相同的原因,尽管本发明的技术方案而言,可以适用到人类能够感知的整个音频频率范围:20-20000hz。但是,考虑到前述的鲁棒性等方面的因素,本发明的一个更为优化的频率范围是80-5120hz。即:将预定的频段确定在80-5120hz这样的范围中,只读取这个频段内比例因子中的嵌入数据。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1