数字音频信号处理的方法与流程

文档序号:11136031阅读:1752来源:国知局

本发明涉及一种数字音频信号处理技术,尤其涉及一种基于心理声学,利用掩蔽效应的,数字音频信号处理的方法。



背景技术:

利用数字音频信号来携带信息是业界广为关注并投入相当人力和财力进行研究和开发的技术。利用这样的技术,人们可以一边正常地收听音乐、收看电视节目,一边利用具有音频信号处理能力的设备,例如:移动通信终端,来获取前述的音乐或者电视节目中所携带的数据信息。评价这种技术是否成熟和适于应用的一个重要特性就是:这种技术应当既要保证被携带的数据能够被准确地采集、传递,又要保证数字音频信号本身被播放时,不会产生人类能够感受到的干扰音或者噪音。

中国专利申请201410301832.7公开这样的一种技术:将需要传输的数字信息经过编码调制形成声音编码信号;将该声音编码信号与预选的音视频节目中的音频信号进行混音后输出。虽然,利用该技术能够将“需要传输的数字信息”以混音的方式加入到正常的声音之中;但是,由于“需要传输的数字信息”的不可预知性,“需要传输的数字信息”经过编码调制所形成的声音编码信号在相当多的情况下可能是声音中的噪音。在另外的一些情况下,可能是能够对正常播放的声音造成干扰的其他声音。为了避免这样的问题,在上述专利申请的说明书部分提出了如下的改进方案:

“将需要传输的数字信息经过编码调制形成声音编码信号。该声音编码信号可以写成数字声音信号文件,也可以经过数模转换器转换成声音模拟信号,该声音模拟信号的频率可选择位于18kHz以上、20kHz以下的频段,该频段人耳难以察觉,不会影响原有电视伴音或音乐信号的正常播放。因为在后续的步骤中,需要由用户本地的接收设备进行接收和提取需要传输的数字信息,所以该声音编码信息需具有一定的特征,该特征是信 号能量分布仅在一定频率范围内:18kHz以上,20kHz以下。”

显然,上述的方案为了避免人耳察觉用“需要传输的数字信息”形成的声音编码,而必须使这部分声音编码信息的能量分布被设置在18kHz~20kHz这个频率范围之内。

众多周知:人耳能够听到的声音的整个范围是20Hz~20kHz。听觉良好的成年人能听到的声音频率常在30Hz~16kHz之间;听力较差的老年人能听到的声音频率则常在50Hz~10kHz之间。然而,儿童能听到的声音频率通常会更高。上述技术方案中所采用的18Hz~20kHz频率范围的声音是许多儿童能够听到的。因此,即使选择性地将声音编码信息的能量分布在18Hz~20kHz这个频率范围之内,也会使得相当多的人,特别是儿童还能听到;这使得这些人,特别是儿童在聆听含有使用该技术进行声音编码电视、广播节目时,依然会受到噪音或者干扰音的困扰。

另一方面,选择性地将声音编码信息的能量分布在人耳能够听到频率范围(20Hz~20kHz)之外虽然能够实现,但由于绝大多数音响设备的频率响应特性是依据人耳能听到的声音范围设计制造的,对于20Hz~20kHz频率范围之外的音频信号,一般都会被当作杂音或者噪音滤掉,因此,声音编码信息即使能够被混音到正常的音频信号之中,却并不能被音响设备所播放,因而也不可能被接受设备所获取。

综上,上述的各种技术显然并不成熟,因此也不可能得到广泛的应用。



技术实现要素:

本发明的目的是提供一种数字音频信号处理的方法,利用心理声学原理来对所述的数字音频信号进行处理,将需要传送的信息,以特定的目标数据嵌入到该数字音频信号之中,使得该数字音频信号被音响设备播出时,被嵌入的目标数据也能一并被播出,在不为人耳所察觉的情况下,却能被具有音频信号处理能力的设备所接收和提取。

本发明的上述目的是采用这样的技术方案实现的:

将第一数字音频信号分帧为多个音频帧数据并进行加窗处理;对前述 多个音频帧数据分别进行频域离散傅立叶(Fourier)变换,得到与前述多个音频帧数据分别对应的多个第一频谱数据;

将前述多个第一频谱数据映射到听觉临界频带(Bark域),并计算听觉临界频带中各个子带的掩蔽阈值;该掩蔽阈值的数量与前述的子带的数量是一一对应的;

在前述多个第一频谱数据中选取小于前述掩蔽阈值的频率点作为嵌入位置;

采用可对量化结果实现盲检测的量化器对目标数据进行量化处理,并用量化处理的结果赋值前述的嵌入位置处的离散傅里叶系数,因此获得与前述多个第一频谱数据对应的多个第二频谱数据;

对前述多个第二频谱数据进行离散傅立叶逆变换,获得第二数字音频信号。

采用本发明的上述方法,可以根据心理声学的原理,在第一数字音频信号的合适位置,嵌入需要传递的目标数据。当该第一数字音频信号被播放时,能够掩蔽掉嵌入位置上所嵌入的用于表达有关目标数据的信号,使其不为人耳所察觉,但是,这些被嵌入的信号却能被具有音频信号处理能力的设备所侦听和还原。

本发明的另一个目的是提供一种从数字音频信号中提取数据的方法;利用该方法,能够在数字音频信号被音响设备播出时,对接收到的数字音频信号进行处理,利用心理声学原理提取嵌入其中的目标数据。

将接收到的第一数字音频信号分帧为多个音频帧数据,并进行加窗处理;对前述多个音频帧数据进行频域离散傅立叶变换,得到与前述多个音频帧数据分别对应的多个第一频谱数据;

将前述多个第一频谱数据映射到听觉临界频带,并计算听觉临界频带中各子带的掩蔽阈值;前述的掩蔽阈值的数量与前述的子带的数量一一对应;

选取前述多个第一频谱数据中小于相应的掩蔽阈值的频率点作为嵌入位置;

采用可对量化结果实现盲检测的量化器对前述嵌入位置处的离散傅里叶系数进行反量化处理,获得前述第一数字音频信号中嵌入的目标数据序列;其中,该目标数据序列是由一个以上特定的音频数据和/或编码数据按照预定的顺序串行排列而成;该等特定的音频频域信号与特定的响度和/或特定的音高和/或音色相对应。

本发明上述的方法,能够在接收到的第一数字音频信号时,利用心理声学原理从中提取出利用掩蔽效应通过该第一数字音频信号携带的目标数据序列,并进一步恢复出相应的目标数据;而在这一过程中,尽管被嵌入的目标数据序列能够与该数字音频信号一并被音响设备播出,但却不为人耳所察觉。

具体实施方式

在本发明的第一类具体实施方式中,需要向目标数字音频信号中嵌入一些目标数据。

为了在一个数字音频信号中嵌入上述的目标数据,需要将数字音频信号分帧为多个音频帧数据,并在此基础上对各个音频帧数据进行加窗处理。然后,对经过加窗处理的各个音频帧数据进行频域离散傅立叶变换,能够得到与前述各个音频帧数据分别一一对应的多个第一频谱数据。

在得到前述多个第一频谱数据后,需要将这些第一频谱数据分别映射到听觉临界频带,并计算该听觉临界频带中各子带的掩蔽阈值;这些掩蔽阈值的数量与听觉临界频带的子带的数量是对应的。

在上述多个第一频谱数据中,均选取其中小于前述掩蔽阈值的频率点作为目标数据的嵌入位置;然后,采用可对量化结果实现盲检测的量化器对前述的目标数据进行量化处理,并用量化处理后得到的结果,对前述嵌入位置的离散傅里叶系数赋值(替换),因此可以获得与前述各个第一频谱数据分别对应的各个第二频谱数据;

对该等多个第二频谱数据进行离散傅立叶逆变换,就可以获得第二数字音频信号。这个新获得的第二数字音频信号中嵌入有上述的目标数据。

需要说明的是:在对第一数字音频信号进行分帧、加窗等处理时,可以由相关的技术人员根据具体的设计要求来确定各音频帧的长度和窗的大小,至少可以有两种方案选择。例如:一种方案与语音识别技术相类似,即采用帧与帧之间有重叠(overlap)的方式;在这种方式下,一般的窗长为25~35ms,帧移为10ms(当然也可以大于或者小于10ms)。另一种方案则是采用帧与帧之间没有重叠的方式,而窗长直接指定为时域上采样点的个数,一般为2的N(N为正整数)次方;比如:以256或者512个采样点为一窗数据。

另外,前述的“映射”具体是指:将线性频率转换为Bark域频率;例如,一个可用的转换公式如下:

z=13arctan(0.00076f)+3.5arctan[(f/7500)2]

其中,f为线性Hz频率,z取整即为Bark域的序号。

有关线性Hz频率和Bark域的对应关系,可以参照:美国声学学会杂志(The Journal of the Acoustical Society of America)第33卷第2期第248页所刊登的Zwicker,E.有关《可听频率范围临界频带细分》(Subdivision of the Audible Frequency Range into Critical Bands)一文,以及该杂志第88卷97–91中所刊载Traunmüller,H.(1990)有关《对于音质的感官尺度的解析表达式》(Analytical expressions for the tonotopic sensory scale)一文。

众所周知:当信号x通过量化器Q时,可以将信号x量化为量化水平y,即:y=Q(x);反之,由量化水平y获得信号x’的过程为反量化,即x’=Q-1(y)。由于量化误差的存在,前述的信号x与信号x’不可能精确一致。

在本发明中,上述的量化器是无法使用的。本发明中所使用的量化器是能够自适应步长,并且可以对量化结果可以实现盲检测的量化器。这实际上指的是一种隐写信息盲检测的效果,即:通过可对量化结果实现盲检测的量化器量化的隐密数据序列被写入载体后,在提取(解码)阶段,无需原始载体数据的参与,即可从载密数据中由可对量化结果实现盲检测的量化器提取出写(嵌)入的数据。对于本领域技术人员而言,只要是能够 实现上述效果的可对量化结果实现盲检测的量化器都是可以使用的。

采用本发明上述一类具体的实施方式,对于上述第一数字音频信号中的每个音频帧都执行上述的操作,就可以在具有一定时间长度的第一数字音频信号中嵌入所需要传递的数据信息。

除了上述第一类具体的实施方式之外,本发明后续的各个具体的改进内容或者增加的内容,都可以在上述第一类具体的实施方案的基础上,任意地相互组合,可以因不同的设计需要而构成各有区别的具体技术方案。

在本发明上述一类具体的实施方式中,所谓采用可对量化结果实现盲检测的量化器对前述的目标数据进行量化处理,并用量化处理后得到的结果,对前述嵌入位置的离散傅里叶系数赋值(替换)的一个优选的方式是:

基于上述的一个嵌入位置,根据在该嵌入位置的音频帧数据的能量值或者功率谱参数来计算出在该嵌入位置的嵌入强度系数,这个嵌入系数强度系数决定了前述相应的音频帧数据中所能嵌入的目标数据的数据量;

根据上述步骤所计算得到的嵌入强度系数,采用可对量化结果实现盲检测的量化器对目标数据进行量化处理,并用量化处理的结果赋值(替换)前述嵌入位置的离散傅里叶系数。

采用这样的一个优选方案的好处是:可以根据不同嵌入位置的音频帧数据的信号具体情况,来自动地调整所嵌入的数据量;例如:在音频数据较多且能量较高的音频信号中可以在确保掩蔽效果的同时,尽量增加所嵌入的数据量;在音频数据较少且能量较低的音频信号(例如:静场的情形)中可以相应地减少所嵌入的数据量以确保掩蔽的效果。

有关根据音频帧数据的能量值或者功率谱计算嵌入强度系数的过程,本质上就是在计算量化步长。在本发明中,为了更好的通过听觉掩蔽来体现载密音频的不可感知性,可以采用非均匀的量化步长,量化步长自适应于每帧的掩蔽阈值,并保证隐写信息不能被听到。在一类具体的实施方式中,代表嵌入强度的量化步长可以采用如下的公式来计算:

Δ’=Δ+lbLTmin/50

其中,Δ’为嵌入强度的量化步长,Δ为基础量化步长,LTmin是待嵌入 隐秘信息的音频帧的掩蔽阈值。显然,该掩蔽阈值越大,则可取得较大的量化步长。lb为针对量化步长增量的缩放因子,取值在0和1之间,通常取1值。

尽管目标数据的嵌入位置都位于掩蔽阈值所对应的频率点,但是,由于临界频带的各个子带的掩蔽阈值通常各不相同,为了能够彻底、绝对地将嵌入的目标数据掩蔽掉,而不会被人类听到,优选的一类实施方式是:在本发明中上述第一类具体实施方式的基础上,选取各个子带中最小的掩蔽阈值所对应的频率点作为嵌入位置,将要嵌入的目标数据嵌入到该最小的掩蔽阈值所对应的嵌入位置处。

众所周知:对于人类而言,整个音频频率范围是20Hz~20kHz;事实上,并不是所有的人都能够听到前述整个音频频率范围内的所有闻域的声音信号。为此,业界在设计、制造音频播放的设备、系统时,从降低数据传输量,提高设备或者系统的性能等多方面考虑,往往会消弱,甚至滤除高频段的音频信号,增强中低频信号;因此,如果在采用本发明第一类具体实施方式的技术方案中将目标数据嵌入到高频段的信号时,在使用前述的那些系统或者设备播放相应的音频信号时,有可能会导致被嵌入到高频段的目标数据难于提取和恢复;有时甚至可能根本无法被接收到。为了解决这样的问题,确保采用本发明技术方案的鲁棒性,可以在上述各类具体实施方式的基础上,优选位于中、低频段的频率点作为目标数据的嵌入位置。

具体而言,本发明中的低频段为30~150Hz,中低频段为30~500Hz);中高频段(500~5000Hz);综合而言,以30~4000Hz为本发明最为优选的目标数据嵌入的频率范围。当然,本领域的技术人员也可以根据具体的设计要求选择其他的频段作为目标数据嵌入的频率范围。

尽管使用上述的各类方案可以实现本发明前述的基本目的。但是,在一些情形下还需要如下的措施,以使本发明的方案能够进一步优化:本发明的技术方案的本质是在原先的数字音频信号中嵌入了特定的目标数据,这些被嵌入的目标数据可以被看作是嵌入后所得到的新的数字音频信号的噪音信号。众所周知:当噪音信号的强度足够大时,会影响到新的数字 音频信号的质量,也会影响到目标数据的传输和提取。因此,有必要对嵌入目标数据以后得到的新的数字音频信号的质量进行评估,然后再确定是否使用、输出。

为此,在采用本发明上述的任一类具体实施方式,获得了上述的第二数字音频信号时,还可以进一步对该第二数字音频信号的信噪比进行计算,根据该计算的结果来评估嵌入目标数据以后的第二数字音频信号的质量。如果,计算得到的信噪比小于预先设定的一个比值(阈值,可以由有关的技术人员视具体的设计要求自行设置,例如:17dB、20dB、23dB等),说明该第二数字音频信号的质量不符合预定的信噪比要求。此时,可以按照本发明上述的方案,重新确定目标数据的嵌入位置、傅里叶系数等参量,重新执行本发明前述各类具体实施方式的步骤,直到最终获得的第二数字音频信号的信噪比达到预定的要求时,再输出该符合信噪比要求的第二数字音频信号。

在本发明上述所有具体实施方式中,被嵌入的目标数据,实际上是由一个以上特定的音频数据和/或编码数据按照预定的顺序串行排列为一个目标数据序列。具体而言:前述的特定的音频数据与特定的响度和/或特定的音高和/或音色相对应;而前述的编码数据则是以计算机记数方式表达的数字。一个具体的目标数据序列可以单纯地由一个以上特定的音频数据按照预定的顺序串行排列所构成;也可以单纯地由一个以上特定的编码数据按照预定的顺序串行排列所构成;还可以按照预定的规则,由一个以上特定的音频数据和一个以上特定的编码数据相互交错,并按照预定的顺序串行排列所构成。

事实上,一个目标数据序列单纯地由一个以上特定的编码数据顺序串行排列构成的好处是:能够使目标数据被高速地嵌入和接收、提取,适于应用在需要频繁且较快传递数据的场合,例如:直播互动等场景。

在一些对数据传输的实时性和速度不敏感,且需要较大数据量传输的场合,一个目标数据序列单纯地由一个以上特定的音频数据顺序串行排列构成更为适当。

在本发明的具体实施方式中,优选的方案是:任何一个特定的音频数 据都与特定的响度和/或特定的音高和/或音色相对应。所谓响度又称音量,是指人耳感受到的声音强弱;它是人对声音大小的一个主观感觉量。其客观评价尺度是声音的振幅大小。所谓音高是指声音的高度,它由振动频率决定,因此,音高与振动频率成正比关系。所谓音色又称音品,是指听觉感受到的声音的特色。音色主要决定于声音的频谱,即基音和各次谐音的组成。

在发明上述的各个实施方式中,可以使一个目标数据序列包含规定数量的、特定的音频数据;由于任何一个具体的音频数据,都可以使用上述的响度、音高和音色来确定,因此,可以使前面各个技术方案中述及的所有由规定数量的、特定的音频数据所构成的目标数据序列与一个信息码本对应,用于传递涵盖较大信息码本的数据。

例如:不同的音高具有不同的频率值;假定选取n个不同的频率值,其中,这n个音高分别可以用A、B、C、D、E、F、G、H、I、J......表示;不同的响度具有不同的声音强度值;假定选取m个不同的声音强度值,其中,这m个响度分别可以用a、b、c、d、e、f、g、h......表示;不同的音色具有不同的声音频谱;假定选取k个不同的声音频谱,其中,这k个声音频谱分别可以用1、2、3......k表示;在此基础上,任何一个音频数据都可以采用如下的形式来描述:

其中,X为音高,其数量为n;Y为响度,其数量为m;Z为音色,其数量为k;

因此,本发明中的任何一个音频数据的信息码本容量W可用下式计算:

W=n×m×k

假定:本发明的一个目标数据序列中,单纯地由5个音频数据构成一个单元音频组;则任一单元音频数据组的信息码本容量由下式计算:

W=(n×m×k)5

当n=10,m=8,k=8时,

W的值为:230×105>1014

当然,上述的整数n、m和k的取值都是自然数,且相关的技术人员在实施本发明的时候,可以根据所需的信息码本容量来选择或者确定。

如上所述:在本发明上述各类具体的实施方式中,可以完全单一的目标数据形式来构建一个目标数据序列,例如:单纯地使用音频数据或者单纯地使用编码数据来构建一个目标数据序列。但是,在一些情况下,有可能需要采用音频数据和编码数据混合的方式来构建一个目标数据序列。为了能够在接收时能够采用正确的手段将数据信息从本发明的第一数字音频信号提取出来,就需要在该目标数据序列的预定位置中插入预先确定的标识数据序列,使得接收设备在解析并识别到标识数据序列后,能够根据该标识数据序列的指示采用相应的识别方案,来提取对应的数据。例如:采用模式识别方案来识别目标数据序列中的音频数据。

当然,即使一个目标数据序列是由音频数据和编码数据混合而成的,但只要在一个完全封闭的信息体系内使用,也可以用协议好的方式来构建任何目标数据序列,而无需在其中插入任何标识数据序列;相反,在一个开放的信息体系中,标识数据序列则几乎是必须的。因此,是否采用标识数据序列,应当由有关的技术人员在设计相关的系统时根据具体的需求来决定。

在本发明上述各种具体的实施方式中,如果采用标识数据序列,则该标识数据序列优选地使用编码数据来构成。但是,有关的技术人员也可以根据具体的设计需求选择使用音频数据,以及音频数据和编码数据的组合来构成标识数据序列。

综上,本发明的一个重要的优点就是:由于上述的目标数据序列是在数字音频信号的掩蔽阈值以下的位置插入,在插入目标数据序列之后的数字音频信号被播放时,由于掩蔽效应的存在,插入的音频信号序列不会被人耳感知。

此外,由于本发明中采用了多种维度的音频信号(响度、音高和音色)来构成音频数据序列的方案,这种方式使得构成信息码本的容量具有极大的空间,可以利用有限的音频数据来传递足够多的信息。

为了接收和获取采用本发明前述各个方案在数字音频信号中嵌入的目标数据序列,本发明还提供了如下的若干技术方案:

在使用一些设备(例如:手机、具有麦克风和音频处理能力的智能设备等)接收到嵌入有音频信号序列的数字音频信号时,将接收到的数字音频信号分帧为多个音频帧数据并进行加窗处理;对前述多个音频帧数据进行频域离散傅立叶变换,得到与这些音频帧数据分别对应的多个频谱数据;

将这些频谱数据映射到听觉临界频带(Bark域),并计算听觉临界频带中各子带的掩蔽阈值;该掩蔽阈值的数量与前述的子带的数量是一一对应的;

在前述多个频谱数据中选取小于前述掩蔽阈值的频率点作为嵌入位置;采用可对量化结果实现盲检测的量化器对前述嵌入位置的离散傅里叶系数进行反量化处理,获得前述数字音频信号中嵌入的一维数据序列;参见本发明上述数字音频信号处理的各个具体实施方式的内容,前述的目标数据序列由一个以上特定的音频数据和/或编码数据按照预定的顺序串行排列而成;其中,特定的音频频域信号与特定的响度和/或特定的音高和/或音色相对应。

采用本发明上述从数字音频信号中提取数据的具体实施方式,能够从嵌入有目标数据序列的数字音频信号提取到相应的一维数据序列。但是,如前所述:当一维数据序列是由音频数据构成,或者由音频数据和编码数据混合构成时;或者,这个数字音频信号是在一个开放的信息体系中传递时,需要在提取到的一维数据序列中查找预定的标识数据序列,并且根据这些标识数据序列的指示,对提取到的一维数据序列中与这些标识数据序列相关位置的音频数据进行模式识别,最终获得相应的目标数据序列。

在一些情况下,获得目标数据序列,就意味着获得了实际的信息,例如:当目标数据序列仅由编码数据所构成时;但还有一些情况下,例如:当目标数据序列由音频数据,或者由音频数据和编码数据混合构成时,即使根据前述的标识数据序列的指示,采用模式识别的方式提取到目标数据序列后,可能还需要利用预定的编码表,对该等目标数据序列进行变换, 最终得到嵌入到前述数字音频信号中的目标数据。

当然,在本发明中,获得前述的一维数据序列或者目标数据序列以后,可以利用接收设备,例如:手机、具有麦克风和音频处理能力的智能设备等,将这些一维数据序列或者目标数据序列发送到服务器端,由服务器端来具体完成查找预定的标识数据序列,根据该标识数据序列的指示,采用模式识别的方式提取到目标数据序列,以及利用预定的编码表,对目标数据序列进行变换,最终得到嵌入到前述数字音频信号中的目标数据等操作。

一个具体的应用实例是:在采用上述的各个具体实施方式将嵌入到数字音频信号内的目标数据序列提取出来以后,如果该目标数据序列单纯地由音频数据所构成,就可以对该目标数据序列中的各个具体的特定音频数据及其组合进行编码匹配,即可以在预定的编码表中查询到该音频信号序列对应的数据信息。

上述预定的编码表中通常至少含有如下的相互一一对应的信息:音频数据序列和与之相对应的特定信息;例如:根据上述有关由响度、音高以及音色所组成的一个音频数据序列的例子,一个规定长度的音频数据序列可以对应于字母“A”,对应于词语“能量”,对应于短句“频谱数据”,对应于一种物品对象“手机”,对应于一个网页链接地址“www.baidu.com”等等。这样传递信息的方式与电报码的方式有些类似;但是,如前所述,如果信息码本容量足够大,则本发明传递信息的方式就能够脱离前述的电报码的方式,而可以直接传递数据。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1