一种音频信号的采样和重建方法、装置及系统与流程

文档序号:12837733阅读:349来源:国知局
一种音频信号的采样和重建方法、装置及系统与流程

本发明涉及信号处理技术领域,尤其涉及一种音频信号的采样和重建方法、装置及系统。



背景技术:

压缩采样(compressivesampling)也被称为压缩感知(compressedsensing,cs),或稀疏采样(sparsesampling),由于采用压缩采样可以在对信号采样的同时完成对信号压缩,因此,压缩采样广泛应用在图像信号压缩和音频信号的压缩过程中。

在压缩采样中,信号的稀疏表示是信号采样和重建的前提条件,大多数信号通过不同的基函数都可以有效地稀疏表示(即进行稀疏分解),然而,音频信号具有较强的时变特性,例如,一段音频信号中包含的种类可能是随时间变化的,因此,对音频信号的稀疏分解较为困难。

而目前在利用上述压缩采样对音频信号进行采样时,编码端通过一个低速(小于奈奎斯特采样率)采样过程对音频信号进行降维采样,即使用测量矩阵对输入的音频信号进行降维线性投影,得到降维后的采样信号,并对该采样信号进行量化后发送至解码端;解码端则根据测量矩阵使用相应的稀疏字典进行稀疏分解,并基于相应的重建算法对采样信号进行重建,以尽可能的恢复出采样前的音频信号。

由于测量矩阵和稀疏字典通常是对应的,而编码端对所有音频信号采样时通常使用相同的测量矩阵,导致解码端对这些音频信号重建时也只能使用统一的稀疏字典对这些音频信号进行稀疏分解,而这并不能满足不同种类、不同特性的音频信号的稀疏特性,从而造成音频信号在重建的过程中发生失真。



技术实现要素:

本发明的实施例提供一种音频信号的采样和重建方法、装置及系统,可解决现有技术中由于使用统一的稀疏字典对音频信号进行稀疏分解,造成音频信号在重建的过程中发生失真等问题。

为达到上述目的,本发明的实施例采用如下技术方案:

第一方面,本发明的实施例提供一种音频信号的采样方法,包括:编码端确定待采样的音频信号的音频种类;该编码端根据该音频种类,从预先设置的n(n为大于1的整数)个测量矩阵中为该音频信号选择与其音频种类对应的目标测量矩阵(该目标测量矩阵为上述n个测量矩阵中的任一个),该目标测量矩阵用于对该音频信号进行降维采样;该编码端使用该目标测量矩阵对该音频信号进行降维采样,得到采样信号。

由于不同音频种类的音频信号之间具有不同的频谱特性,因此,本发明实施例提供的一种音频信号的采样方法,正是基于不同音频种类的音频信号的频谱特性,为不同音频种类的音频信号选择可以稀疏表示该音频信号的测量矩阵(即目标测量矩阵),并根据该目标测量矩阵对音频信号进行采样,使得后续解码端可以针对不同音频种类的音频信号,选择与自身频谱特性相符的目标稀疏字典进行稀疏表示,从而更加准确的还原采样前的音频信号。

在一种可能的设计中,编码端内预先存储有每种音频种类与上述n个测量矩阵中任一测量矩阵之间的对应关系;此时,编码端根据音频种类,从预先设置的n个测量矩阵中为该音频信号选择目标测量矩阵,包括:编码端根据上述每种音频种类与n个测量矩阵中任一测量矩阵之间的对应关系,从上述n个测量矩阵中选择与该音频信号的音频种类对应的测量矩阵为目标测量矩阵。

在一种可能的设计中,编码端根据音频种类,从预先设置的n个测量矩阵中为该音频信号选择目标测量矩阵,包括:编码端根据该音频种类,确定采样帧中包含的采样点数;进而,编码端根据该采样点数,从n个测量矩阵中为该音频信号选择目标测量矩阵,其中,该目标测量矩阵中列向量的个数与确定的采样点数相同。

具体的,该音频种类包括语音和乐音两种,当音频种类为语音时,编码端确定该采样帧中包含的采样点数为k,k为大于1的整数;当音频种 类为乐音时,编码端确定该采样帧中包含的采样点数为m,其中,m为大于k的整数。

由于音频信号的音频种类可以划分为语音和乐音,而乐音类型的音频信号在时域内变化相对缓慢,且变化具有规律,具有较强的旋律特性,因此,对于乐音类型的音频信号,可以设置长度较长的采样帧,即采样帧中包含的采样点数较多,如此,利用较少的采样帧即可对音频信号进行采样;而语音的在时域内变化相对较快,且变化无规则,因此,对于语音类别的音频信号,可以设置长度较短的采样帧,即采样帧中包含的采样点数较少,以便尽可能的捕捉到音频信号中的变化,从而提高解码端重建音频信号的成功率。

进一步地,该乐音包括谐音和冲击音两种音频种类,当音频种类为冲击音时,编码端确定该采样帧中包含的采样点数为z,z为大于1的整数;当音频种类为谐音时,编码端确定该采样帧中包含的采样点数为p,其中,p为大于z的整数。

由于乐音可以划分为谐音和冲击音,与冲击音相比,谐音的音频信号在时域内变化相对缓慢,且变化具有规律,有较强的旋律特性,因此,对于谐音类型的音频信号,可以设置长度较长的采样帧,即采样帧中包含的采样点数较多,如此,利用较少的采样帧即可对音频信号进行采样;而冲击音的音频信号在时域内变化相对较快,且变化无规则,因此,对于冲击音类型的音频信号,可以设置长度较短的采样帧,即采样帧中包含的采样点数较少,以便尽可能的捕捉到音频信号中的变化,从而提高解码端重建音频信号的成功率。

在一种可能的设计中,在该编码端使用该测量矩阵对该音频信号进行降维采样,得到采样信号之后,包括:该编码端将用于指示该音频种类的标识添加至该采样信号。

示例性的,当音频种类为谐音时,编码端从n个测量矩阵中选择第一部分mdct矩阵为目标测量矩阵,该第一部分mdct(modifieddiscretecosinetransform,修正离散余弦变换)矩阵包括1365个mdct行向量和4096个mdct列向量;当音频种类为冲击音时,编码端从n个测量矩阵中选择部分fft(fastfouriertransformation,快速傅氏变换)矩阵 为目标测量矩阵,该部分fft矩阵包括341个fft行向量和1024个fft列向量;当音频种类为语音时,编码端从n个测量矩阵中选择第二部分mdct矩阵为目标测量矩阵,第该二部分mdct矩阵包括171个mdct行向量和512个mdct列向量。

第二方面,本发明的实施例提供一种音频信号的重建方法,包括:解码端根据待重建的采样信号中携带的音频种类的标识,确定该采样信号的音频种类;该解码端根据预置的音频种类、稀疏字典以及测量矩阵之间的对应关系,查找与该采样信号的音频种类对应的目标稀疏字典和目标测量矩阵;该解码端根据该目标测量矩阵和目标该稀疏字典,使用重建算法对该采样信号进行重建,以得到重建的音频信号。

这样,解码端可以根据谐音、冲击音、清音和浊音等不同音频种类的音频信号,选择对应的目标测量矩阵和目标稀疏字典进行信号重建,这样可以使得不同音频种类的音频信号选择与自身频谱特性相符的稀疏字典(即目标稀疏字典)进行稀疏表示,从而更加准确的还原采样前的音频信号。

在一种可能的设计中,在该解码端根据该目标测量矩阵和该稀疏字典,使用重建算法对该采样信号进行重建之前,还包括:该解码端根据该音频种类,设置重建帧中包含的重建点数。

示例性的,当音频种类为谐音时,解码端根据上述预置的音频种类、稀疏字典以及测量矩阵之间的对应关系,确定目标稀疏字典为包含4096个样点数的mdct基;当音频种类为冲击音时,解码端根据上述预置的音频种类、稀疏字典以及测量矩阵之间的对应关系,确定目标稀疏字典为包含1024个样点数的gabor(伽柏)基;当音频种类为语音时,解码端根据上述预置的音频种类、稀疏字典以及测量矩阵之间的对应关系,确定目标稀疏字典为包含512个样点数的mdct基。

第三方面,本发明实施例提供了一种编码端,包括:确定单元,用于确定待采样的音频信号的音频种类;选择单元,用于根据该音频种类,从预先设置的n个测量矩阵中为该音频信号选择与该音频种类对应的目标测量矩阵,该目标测量矩阵用于对该音频信号进行降维采样,该目标测量矩阵为该n个测量矩阵中的任一个,n为大于1的整数;采样单元,用于 使用该目标测量矩阵对该音频信号进行降维采样,得到采样信号。

在一种可能的设计中,该编码端内预先存储有每种音频种类与该n个测量矩阵中任一测量矩阵之间的对应关系。

此时,该选择单元,具体用于根据该每种音频种类与该n个测量矩阵中任一测量矩阵之间的对应关系,从该n个测量矩阵中选择与该音频信号的音频种类对应的测量矩阵为该目标测量矩阵。

在一种可能的设计中,该选择单元,具体用于根据该音频种类,确定采样帧中包含的采样点数;根据该采样点数,从该n个测量矩阵中为该音频信号选择目标测量矩阵,该目标测量矩阵中列向量的个数与该采样点数相同。

在一种可能的设计中,该选择单元,具体用于:当该音频种类为语音时,确定该采样帧中包含的采样点数为k,k为大于1的整数;当该音频种类为乐音时,确定该采样帧中包含的采样点数为m,m为大于k的整数。

在一种可能的设计中,该选择单元,具体用于:当该音频种类为冲击音时,确定该采样帧中包含的采样点数为z,z为大于1的整数;当该音频种类为谐音时,确定该采样帧中包含的采样点数为p,p为大于z的整数。

在一种可能的设计中,该编码端还包括:添加单元,用于将用于指示该音频种类的标识添加至该采样信号。

第四方面,本发明实施例提供了一种解码端,包括:确定单元,用于根据待重建的采样信号中携带的音频种类的标识,确定该采样信号的音频种类;确定单元,用于根据预置的音频种类、稀疏字典和测量矩阵之间的对应关系,确定与该采样信号的音频种类对应的目标稀疏字典和目标测量矩阵;重建单元,用于根据该目标测量矩阵和该稀疏字典,使用重建算法对该采样信号进行重建,以得到重建的音频信号。

在一种可能的设计中,该解码端还包括:设置单元,用于根据该音频种类,设置重建帧中包含的重建点数。

第五方面,本发明实施例提供了一种编码端,包括:处理器、存储器、总线和通信接口;该存储器用于存储计算机执行指令,该处理器与该存储器通过该总线连接,当该编码端运行时,该处理器执行该存储器存储的该 计算机执行指令,以使该编码端执行第一方面中的任一种音频信号的采样方法。

第六方面,本发明实施例提供了一种解码端,包括:处理器、存储器、总线和通信接口;该存储器用于存储计算机执行指令,该处理器与该存储器通过该总线连接,当该解码端运行时,该处理器执行该存储器存储的该计算机执行指令,以使该解码端执行第二方面中的任一种音频信号的重建方法。

第七方面,本发明实施例提供了一种计算机存储介质,用于储存为上述编码端所用的计算机软件指令,其包含用于执行上述方面为编码端所设计的程序。

第八方面,本发明实施例提供了一种计算机存储介质,用于储存为上述解码端所用的计算机软件指令,其包含用于执行上述方面为解码端所设计的程序。

第九方面,本发明实施例提供了一种压缩采样系统,其特征在于,包括上述任一项所述的编码端,以及上述任一项所述的解码端。

本发明中,编码端以及解码端的名字对设备本身不构成限定,在实际实现中,这些设备可以以其他名称出现。只要各个设备的功能和本发明类似,属于本发明权利要求及其等同技术的范围之内。

另外,第二方面至第九方面中任一种设计方式所带来的技术效果可参见第一方面中不同设计方式所带来的技术效果,此处不再赘述。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种压缩采样系统的系统架构图;

图2为本发明实施例提供的一种音频信号的采样和重建方法的交互示意图;

图3为本发明实施例提供的一种音频信号的采样方法的流程示意图;

图4为本发明实施例提供的一种音频信号的重建方法的流程示意图;

图5为本发明实施例提供的一种编码端的结构示意图;

图6为本发明实施例提供的一种解码端的结构示意图;

图7为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

另外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。

为方便阐述本发明实施例分别提供的一种音频信号的采样方法和重建方法,首先解释本发明实施例中涉及到的几个概念。

压缩采样,是一种新的采样理论,它通过开发信号的稀疏特性,可在远小于nyquist(奈奎斯特)的采样率的条件下,获取信号的离散样本,得到采样信号,然后通过非线性重构算法,对采样信号进行重构。

其中,应用上述压缩采样进行信号采样和重建的前提是信号在某种变换下可以稀疏表示,即信号可基于某种变换进行稀疏分解,通常,在信号采样时可以默认信号为稀疏的,而在信号重建的过程中需要利用稀疏字典(也可称为稀疏基)进行稀疏分解,某一种稀疏字典可以与采样时使用的一种测量矩阵对应,例如,使用高斯矩阵(即测量矩阵为高斯矩阵)进行信号采样,那么,在信号重建时可以使用与高斯矩阵对应的离散余弦变换基(即稀疏字典为离散余弦变换基)进行重建。

其中,稀疏字典是指:当信号在某个基(或字典)下具有稀疏的表示形式时,则该基(或字典)即为该信号的稀疏基(字典)。

进一步地,音频信号具有较强的时变特性,例如,音频信号按照音频种类可以分为语音和乐音。

而语音按照音频种类又可以进一步划分为清音和浊音,其中,将发音时声带振动的音称为浊音,声带不振动的音称为清音,浊音具有明显的周期性,基音是其最主要的低频周期成分;而清音没有明显的周期性,更类似于噪声。

相应的,乐音按照音频种类又可以进一步划分为谐音和冲击音,其中,谐音的音频信号在时域中进行相对平稳的变化,包含较多的正弦成分,具有频域稀疏特性;而冲击音的音频信号在时域中进行短暂的快速变化,持续时间通常较短。

可以看出,一段连续的音频信号中可能包含不同音频种类的音频信号,不同音频种类的音频信号具有不同的频谱特性,那么,基于上述压缩采样的理论,如果按照现有技术中那样对任意音频信号都使用相同的测量矩阵和稀疏字典进行采样和重建,则会导致在重建的过程中恢复出的某些音频信号与采样前的音频信号差距太大,发生音频信号失真现象。

对此,本发明实施例提供的一种音频信号的采样和重建方法,正是基于不同音频种类的音频信号的频谱特性,为不同音频种类的音频信号选择可以稀疏表示该音频信号的稀疏字典(本发明实施例中称为目标稀疏字典)和测量矩阵(本发明实施例中称为目标测量矩阵),并根据该目标测量矩阵和该目标稀疏字典对音频信号进行采样和重建,从而实现对不同音频种类的音频信号进行有针对性的稀疏分解,从而提高音频信号重建过程中的准确性。

具体的,基于上述压缩采样的理论,本发明实施例分别提供的一种音频信号的采样方法和音频信号的重建方法,均可应用于图1所示的压缩采样系统中,该系统由编码端01和解码端02组成。

其中,编码端01用于对待采样的音频信号进行采样,即实现信号压缩过程,而解码端02用于对编码端01已经采样得到的采样信号进行重建,以尽可能地恢复出编码端01采样前的音频信号,提高音频信号经过采样和重建后的保真度。

需要说明的是,上述编码端01和解码端02可以分别设置在两个实体设备中,或者,编码端01和解码端02也可以集成在一个实体设备内,例如,可以将编码端01和解码端02集成在手机内,又或者,编码端01和 解码端02本身就可以分别作为两个实体设备使用,本发明实施例对此不作任何限定,并且,可以理解的是,上述系统中的任意一种功能节点,例如,编码端01和解码端02,都可能是实体设备内的一个逻辑功能模块,也可能是由多个实体设备组成的一个逻辑功能模块。

在下述的本发明实施例中,可以由一个实体设备执行本发明实施例提供的方法中的各个步骤,可以由多个实体设备协作执行本发明实施例提供的方法中的各个步骤,对此本发明不作限定。

基于图1所示的压缩采样系统,本发明的实施例提供一种音频信号的采样和重建方法,如图2所示,包括:

101、编码端判断待采样的音频信号的音频种类。

102、编码端根据该音频种类,从预先设置的n个测量矩阵中为该音频信号选择目标测量矩阵,该目标测量矩阵用于对该音频信号进行降维采样。

103、编码端使用该目标测量矩阵对该音频信号进行降维采样,得到采样信号,该采样信号携带有该音频种类的标识。

104、编码端将该采样信号发送至解码端。

105、解码端接收编码端发送的采样信号。

106、解码端根据该采样信号中携带的该音频种类的标识,确定该采样信号的音频种类。

107、解码端根据预置的音频种类、稀疏字典以及测量矩阵之间的对应关系,确定与该音频种类对应的目标稀疏字典和目标测量矩阵。

108、解码端根据该目标测量矩阵和目标稀疏字典,使用重建算法对该采样信号进行重建,以得到重建的音频信号。

在步骤101中,待采样的音频信号可以以数据帧的形式存储在编码端,编码端获取到一帧音频信号后,可以基于一定算法判断该音频信号的音频种类,例如,可以通过能量分类算法或者决策树分类算法判断该音频信号的音频种类。

具体的,编码端可以先判断该帧音频信号的音频种类为语音或乐音,进一步地,若音频信号为语音,还可以进一步判断该音频信号的音频种类为清音或浊音,类似的,若音频信号为乐音,还可以进一步判断该音频信 号的音频种类为谐音或冲击音。

在步骤102中,编码端根据步骤101中判断出的音频种类,从预先设置的n个测量矩阵中,为该音频信号选择相应的目标测量矩阵,即确定需要使用的目标测量矩阵的类别和大小,其中,该测量矩阵用于对上述音频种类的音频信号进行降维采样。

基于压缩采样理论,由于不同音频种类的音频信号的频谱特性不同,为了使每个音频种类的音频信号在采样和重建过程中,能够在某种变换下具有较好的稀疏表示,则可以在采样过程中,选择与该音频信号的音频种类对应的目标测量矩阵进行采样,在重建过程中选择与该音频信号的音频种类对应的目标稀疏字典和目标测量矩阵进行重建。

例如,该目标测量矩阵的类型具体可以为mdct(modifieddiscretecosinetransform,修正离散余弦变换)矩阵、fft(fastfouriertransformation,快速傅氏变换)矩阵、伯努利矩阵或dct(discretecosinetransform,离散余弦变换)矩阵等类型的矩阵,而该目标测量矩阵的大小(即目标测量矩阵中列向量和行向量的个数)可以根据采样时采样帧内包含的采样点数确定,本发明实施例对此不做限定。

具体的,如表1所示,编码端内部可以预先建立每种音频种类与n个测量矩阵内任一测量矩阵之间的对应关系,这样,结合表1,编码端便可以根据步骤101中判断出的音频种类,从上述n个测量矩阵中为该音频信号选择与其音频种类对应的测量矩阵为目标测量矩阵。

表1

在步骤103中,编码端使用步骤102中确定的目标测量矩阵,例如,谐音测量矩阵ab,对音频信号进行降维采样,得到采样信号。

其中,音频信号可以视为一个高维信号,那么,对音频信号进行降维采样,即将该音频信号投影到一个低维空间上,这样便可以同时实现音频信号的采样和压缩,后续解码端可以通过一定的重建算法,从这些低维空间的投影中以高成功率重构采样前的音频信号,得到重构的音频信号。

具体的,使用测量矩阵对音频信号进行降维采样的过程,可以用数学表达式:a*x=y(1)来表示。

其中,x为上述音频信号的矩阵形式,例如,x为行数为z的z维列向量,即音频信号x的维度为z,a为与上述音频信号的音频种类对应的目标测量矩阵(例如上述av、au、ab或at),y为降维采样后得到的采样信号,其中,目标测量矩阵a的行数远小于音频信号x的行数z,由于得到的采样信号y的维度与测量矩阵a的行数相同,因此,可以实现对音频信号x的降维采样。

目标测量矩阵a中的每一行向量可以看作是一个传感器(sensor),它与音频信号x相乘,表示拾取(acquisition)了音频信号x的一部分信息,当目标测量矩阵a中列向量的数目越多时,一次性能够采样的信息越多,这一部分信息可以代表音频信号x,以便于后续解码端根据该信息通过重建算法重建音频信号。

在本方案中,对于不同音频种类的音频信号,可以使用与其对应的目标测量矩阵a,例如,对于谐音类型的音频信号,在使用测量矩阵ab对音频信号x采样时,测量矩阵ab中的每一行向量可以拾取出代表该谐音类型的音频信号的部分信息,以便于后续解码端根据每一行向量拾取的部分信息高保真的重建该音频信号,得到重建的音频信号,那么,对于每一种音频种类的音频信号,均可以根据上述方法进行采样,以便于实现后续重建过程。

进而,在步骤104中,编码端将上述降维采样后的采样信号发送至解码端,以便于解码端根据该采样信号重建该音频信号。

另外,编码端还可以将用于指示音频种类的标识携带在步骤103中得到的采样信号中,并将该携带有音频种类的标识的采样信号发送至解码端。

那么,在步骤105中,解码端接收编码端发送的上述采样信号。

进而,在步骤106中,解码端根据该采样信号中携带的该音频种类的标识,确定该采样信号的音频种类。

例如,可以使用2比特位指示音频种类的标识,其中,00表示清音,01表示浊音,10表示谐音,11表示冲击音。

这样,解码端根据采样信号中携带的音频种类的标识,便可以确定该采样信号的音频种类。

进一步地,假设音频信号x在某种变换下是可以稀疏表示的,即x=ψ*s,其中,ψ为某一稀疏字典,s为稀疏系数,那么,结合上述表达式(1)可以得到:

y=a*x=a*ψ*s

由于测量矩阵与稀疏字典之间是具有对应关系的,那么,与步骤102中确定的目标测量矩阵对应的稀疏字典即为目标稀疏字典,也就是说,每种音频种类都有与其对应的测量矩阵和稀疏字典,如表2所示,解码端内可以预先建立各个音频种类、各个测量矩阵以及各个稀疏矩阵之间的对应关系,这样,在步骤107中,解码端可以根据预置的音频种类、稀疏字典以及测量矩阵之间的对应关系,查找与该采样信号的音频种类对应的目标稀疏字典和目标测量矩阵。

这里,目标稀疏字典ψ具体可以为正(余)弦基、离散余弦变换基、小波基、fft基、gabor基或dwt(discretewavelettransform,离散小波变换)基等,本发明实施例对此不做限定。

表2

例如,当步骤106中确定采样信号的音频种类为谐音时,则可根据表2所示的各个音频种类、各个测量矩阵以及各个稀疏矩阵之间的对应关系,确定与谐音对应的目标稀疏字典为:谐音稀疏字典db,与谐音对应的目标测量矩阵为:谐音测量矩阵ab。

进而,在步骤108中,解码端根据上述目标测量矩阵和目标稀疏字典,使用重建算法对该采样信号进行重建,得到重建的音频信号。

这里,重建算法可以采用近似信息传递(amp,approximatemessagepassing)算法,当然,本领域技术人员还可以根据实际经验设置其他重建 算法,本发明实施例对此不作任何限制。

或者,还可以根据不同的音频种类,还可以选择不同的重建算法对不同音频种类的采样信号进行重建,以提高音频信号重建的准确度。

经过步骤101-108,编码端可以根据音频信号的音频种类选择对应的目标测量矩阵进行降维采样,而解码端可以根据音频信号的音频种类确定对应的目标测量矩阵和目标稀疏字典进行信号重建,这样可以使得不同音频种类的音频信号使用与自身频谱特性相符的目标稀疏字典进行稀疏表示,从而更加准确的还原采样前的音频信号。

下面,将基于上述音频信号的采样和重建方法,分别阐述编码端进行音频信号的采样方法以及解码端进行音频信号的重建方法。

如图3所示,基于上述压缩采样理论,本发明的实施例提供一种音频信号的采样方法,该方法以采样一帧音频信号为例进行说明,该方法包括:

201、编码端获取一帧音频信号。

具体的,编码端接收到待采样的音频信号后可存储在缓存内,进而一帧一帧的进行信号采样。

其中,待采样的音频信号可以为数字信号,例如,对用户发出的模拟音频信号以48khz采样得到的数字音频信号,该数字音频信号即为上述待采样的音频信号,假设一帧音频信号的长度为1秒,那么,这一帧音频信号由采样得到的48000个数字音频信号组成。

202、编码端判断该音频信号的音频种类,该音频种类为谐音、冲击音、清音或浊音。

具体的,编码端可以先判断该帧内的音频信号为语音或乐音,进一步地,若音频信号为语音,还可以进一步判断该音频信号为清音或浊音,类似的,若音频信号为乐音,还可以进一步判断该音频信号为谐音或冲击音。

此时,若该音频信号的音频种类为谐音,则执行步骤203a-205a,若该音频信号的音频种类为冲击音,则执行步骤203b-205b,若该音频信号的音频种类为清音,则执行步骤203c-205c,若该音频信号的音频种类为浊音,则执行步骤203d-205d。

203a、若该音频信号的音频种类为谐音,则编码端设置采样帧长,该采样帧内包含的采样点数为第一采样点数。

当音频信号的音频种类为谐音时,由于谐音的音频信号在时域中进行相对平稳的变化,因此,可以设置采样帧内的采样点数目较多,例如设置采样帧由第一采样点数构成,该第一采样点数可以为4096点。

其中,采样帧的长度小于上述一帧音频信号的长度,也就是说,对于每一帧音频信号,编码端以采样帧为单位长度进行采样。例如,上述一帧音频信号包含采样得到的48000个数字音频信号,而一帧采样帧中包括4096个采样点,即以4096为采样单位对上述一帧内的音频信号(即48000个数字音频信号)进行采样。

另外,还可以给该音频信号加载数据窗,此时,该数据窗内的采样点数也为第一采样点数,例如,给音频数据加载4096个采样点的数据窗,例如,汉宁窗(hann窗)。

204a、编码端根据第一采样点数,确定该谐音类型的音频信号的目标测量矩阵为第一测量矩阵ab,该第一测量矩阵中列向量的个数等于第一采样点数。

具体的,编码端可以根据第一采样点数,确定该谐音类型的音频信号的目标测量矩阵为第一测量矩阵ab,其中,该第一测量矩阵中列向量的个数等于第一采样点数,例如,第一测量矩阵ab为第一部分mdct矩阵,该第一部分mdct矩阵的大小为1365*4096,即该第一部分mdct矩阵包括1365个mdct行向量和4096个mdct列向量。

其中,该第一部分mdct矩阵可以采用如下方法生成:首先,可以生成大小为4096*4096的正交mdct矩阵,即该正交mdct矩阵中包含4096个mdct行向量和4096个mdct列向量,进而,在该正交mdct矩阵中随机选取1365个mdct行向量,最后,对所得的大小为1365*4096的矩阵进行列向量归一化处理,即得到上述第一部分mdct矩阵。

这里,由于音频信号的音频种类可以划分为语音和乐音,而乐音类型的音频信号在时域内变化相对缓慢,且变化具有规律,具有较强的旋律特性,因此,对于乐音类型的音频信号,可以设置长度较长的采样帧,即采样帧中包含的采样点数较多,例如,该采样点数为m(m为大于1的整数),如此,可以利用较少的采样帧即可对音频信号进行采样;而语音的在时域内变化相对较快,且变化无规则,因此,对于语音类别的音频信号,可以 设置长度较短的采样帧,即采样帧中包含的采样点数较少,例如,该采样点数为k(k为小于m的整数),以便尽可能的捕捉到音频信号中的变化,从而提高解码端重建音频信号的成功率。

进一步地,由于乐音可以划分为谐音和冲击音,与冲击音相比,谐音的音频信号在时域内变化相对缓慢,且变化具有规律,有较强的旋律特性,因此,对于谐音类型的音频信号,可以设置长度较长的采样帧,即采样帧中包含的采样点数较多,例如,该采样点数为p(p为大于1的整数),如此,利用较少的采样帧即可对音频信号进行采样;而冲击音的音频信号在时域内变化相对较快,且变化无规则,因此,对于冲击音类型的音频信号,可以设置长度较短的采样帧,即采样帧中包含的采样点数较少,例如,该采样点数为z(z为小于p的整数),以便尽可能的捕捉到音频信号中的变化,从而提高解码端重建音频信号的成功率。

205a、编码端使用第一测量矩阵ab,对该音频信号进行降维采样,得到采样信号。

具体的,将第一测量矩阵ab乘以该音频信号,即可得到降维采样后的采样信号,即采样信号=第一测量矩阵ab*音频信号。

203b、若该音频信号的音频种类为冲击音,则编码端设置采样帧长,该采样帧内包含的采样点数为第二采样点数。

与步骤203a类似的,当音频信号的音频种类为冲击时,由于冲击音的音频信号在时域中进行短暂的快速变化,因此,可以设置采样帧内的采样点数目为第二采样点数,例如,第二采样点数为1024点。

类似的,可以给该音频数据并加载1024个采样点的hann窗。

204b、编码端根据第二采样点数,确定该冲击音类型的音频信号的目标测量矩阵为第二测量矩阵at,该第二测量矩阵中列向量的个数等于第二采样点数。

示例性的,第二测量矩阵at为部分fft矩阵,该部分fft矩阵的大小为341*1024,即该部分fft矩阵包括341个fft行向量和1024个fft列向量。

类似的,该部分fft矩阵可以采用如下方法生成:首先,可以生成大小为1024*1024的正交fft矩阵,即该正交fft矩阵中包含1024个fft 行向量和1024个fft列向量,进而,在该正交fft矩阵中随机选取341个fft行向量,最后,对所得的大小为341*1024的矩阵进行列向量归一化处理,即得到上述部分fft矩阵。

205b、编码端使用第二测量矩阵at,对该音频信号进行降维采样,得到采样信号。

即:采样信号=第二测量矩阵at*音频信号。

203c、若该音频信号的音频种类为清音,则编码端设置采样帧长,该采样帧内包含的采样点数为第三采样点数。

示例性的,当音频信号的音频种类为清音时,可以设置采样帧内的采样点数目为第三采样点数,例如,第三采样点数为512点,并给该音频数据并加载512个采样点的hann窗。

204c、编码端根据第三采样点数,确定该清音类型的音频信号的目标测量矩阵为第三测量矩阵av,该第三测量矩阵中列向量的个数等于第三采样点数。

示例性的,第三测量矩阵av为部分mdct矩阵,该部分mdct矩阵的大小为171*512,即该第二部分mdct矩阵包括171个mdct行向量和512个mdct列向量。

类似的,该第二部分mdct矩阵可以采用如下方法生成:首先,可以生成大小为512*512的正交mdct矩阵,即该正交mdct矩阵中包含512个mdct行向量和512个mdct列向量,进而,在该正交mdct矩阵中随机选取171个mdct行向量,最后,对所得的大小为171*512的矩阵进行列向量归一化处理,即得到上述第二部分mdct矩阵。

205c、编码端使用第三测量矩阵av,对该音频信号进行降维采样,得到采样信号。

即:采样信号=第三测量矩阵av*音频信号。

203d、若该音频信号的音频种类为浊音,则编码端设置采样帧长,该采样帧内包含的采样点数为第四采样点数。

204d、编码端根据第四采样点数,确定该浊音类型的音频信号的目标测量矩阵为第四测量矩阵au,该第四测量矩阵中列向量的个数等于第四采样点数。

205d、编码端使用第四测量矩阵au,对该音频信号进行降维采样,得到采样信号。

当音频信号的音频种类为浊音时,可以采用与清音相同的采样点数和测量矩阵进行降维采样,即第四采样点数为512点,第四测量矩阵au为上述第二部分mdct矩阵,该第二部分mdct矩阵的大小为171*512。

206、编码端将音频信号的音频种类的标识添加至上述采样信号。

例如,可以使用2比特位指示音频种类的标识,其中,00表示清音,01表示浊音,10表示谐音,11表示冲击音。

这样,解码端根据采样信号中携带的音频种类的标识,便可以确定该采样信号的音频种类。

207、编码端对该采样信号进行量化,并发送至解码端。

至此,经过步骤201-207,编码端可以根据谐音、冲击音、清音以及浊音这不同音频种类的音频信号,选择对应的目标测量矩阵进行降维采样,使得后续解码端可以针对不同音频种类的音频信号,选择与自身频谱特性相符的目标稀疏字典进行稀疏表示,从而更加准确的还原采样前的音频信号。

如图4所示,基于上述压缩采样理论,本发明的实施例提供一种音频信号的重建方法,该方法以重建一帧音频信号为例进行说明,该方法包括:

301、解码端接收编码端发送的采样信号,该采样信号携带有音频种类的标识。

302、解码端根据该音频种类的标识确定该采样信号的音频种类,该音频种类为谐音、冲击音、清音或浊音。

具体的,解码端通过解析该采样信号,得到音频种类的标识,进而根据音频种类的标识确定该采样信号的音频种类。

303、解码端根据该采样信号的音频种类,设置重建帧中包含的重建点数。

示例性的,若该采样信号的音频种类为谐音,则可设置重建帧中包含的重建点数为第一采样点数,由于编码端对音频信号采样时使用的采样帧内包含的采样点数,也是根据音频种类设置的,因此,该重建帧中包含的重建点数,与编码端设置的采样帧内包含的采样点数相同。

类似的,当该采样信号的音频种类为冲击音、清音或浊音时,可采用相同的方法设置的重建帧中包含的重建点数。

304a、若该音频信号的音频种类为谐音,则解码端根据预置的音频种类、稀疏字典以及测量矩阵之间的对应关系,确定与谐音对应的目标稀疏字典为第一稀疏字典,与谐音对应的目标测量矩阵为第一测量矩阵。

如表2所示,由于解码端内部建立有各个音频种类、各个测量矩阵以及各个稀疏矩阵之间的对应关系,这样,在步骤304a中,若该音频信号的音频种类为谐音,则解码端可根据表2中预置的音频种类、稀疏字典以及测量矩阵之间的对应关系,确定与谐音对应的目标稀疏字典为第一稀疏字典为,即谐音稀疏字典db,与谐音对应的目标测量矩阵为第一测量矩阵,即谐音测量矩阵ab。

其中,谐音测量矩阵ab为mdct矩阵,mdct矩阵的大小为1365*4096;谐音稀疏字典db为mdct基,谐音稀疏字典db的包含的样点数为4096点,可以看出,解码端步骤303中设置的重建帧中包含的重建点数,与目标稀疏字典中包含的样点数相同。

305a、解码端根据第一测量矩阵和第一稀疏字典,使用重建算法对该采样信号进行重建,以恢复该采样信号采样前的音频信号。

这里,重建算法可以采用amp算法,当然,解码端还可以根据音频种类,即谐音,选择其他的重建算法对该采样信号进行重建。

304b、若该音频信号的音频种类为冲击音,则解码端根据预置的音频种类、稀疏字典以及测量矩阵之间的对应关系,确定与冲击音对应的目标稀疏字典为第二稀疏字典,与冲击音对应的目标测量矩阵为第二测量矩阵。

如表2所示,第二稀疏字典为:冲击稀疏字典dt;第二测量矩阵为:冲击测量矩阵at。

其中,冲击稀疏字典dt为gabor基,冲击稀疏字典dt内包含的样点数为1024点;冲击测量矩阵at为fft矩阵,冲击测量矩阵at的大小为341*1024。

305b、解码端根据第二测量矩阵和第二稀疏字典,使用重建算法对该采样信号进行重建,以恢复该采样信号采样前的音频信号。

304c、若该音频信号的音频种类为清音,则解码端根据预置的音频种类、稀疏字典以及测量矩阵之间的对应关系,确定与清音对应的目标稀疏字典为第三稀疏字典,与清音对应的目标测量矩阵为第三测量矩阵。

如表2所示,第三稀疏字典为:清音稀疏字典dv;第三测量矩阵为:清音测量矩阵av。

其中,清音稀疏字典dv为mdct基,清音稀疏字典dv内包含的样点数为512点;清音测量矩阵av为mdct矩阵,清音测量矩阵av的大小为171*512。

305c、解码端根据第三测量矩阵和第三稀疏字典,使用重建算法对该采样信号进行重建,以恢复该采样信号采样前的音频信号。

304d、若该音频信号的音频种类为浊音,则解码端根据预置的音频种类、稀疏字典以及测量矩阵之间的对应关系,确定与浊音对应的目标稀疏字典为第四稀疏字典,与浊音对应的目标测量矩阵为第四测量矩阵。

如表2所示,第四稀疏字典为:浊音稀疏字典du;第三测量矩阵为:浊音测量矩阵au。

其中,浊音稀疏字典du为mdct基,浊音稀疏字典du内包含的样点数为512点;浊音测量矩阵au为mdct矩阵,浊音测量矩阵au的大小为171*512。

305d、解码端根据第四测量矩阵和第四稀疏字典,使用重建算法对该采样信号进行重建,以恢复该采样信号采样前的音频信号。

至此,经过步骤301-305,解码端可以根据谐音、冲击音、清音和浊音等不同音频种类的音频信号,确定对应的目标测量矩阵和目标稀疏字典进行信号重建,这样可以使得不同音频种类的音频信号使用与自身频谱特性相符的目标稀疏字典进行稀疏表示,从而更加准确的还原采样前的音频信号。

图5为本发明实施例提供的一种编码端01的结构示意图,本发明实施例提供的编码端01可以用于实施上述图1-图4所示的本发明各实施例实现的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照图1-图4所示的本发明各实施例。

其中,该编码端01可以具体为具有压缩采样功能的任意设备,例如 手机等,本发明对此不作任何限制,可满足运算能力需求的所有硬件产品都适用。

具体的,该编码端01包括:

确定单元11,用于确定待采样的音频信号的音频种类;

选择单元12,用于根据所述音频种类,从预先设置的n个测量矩阵中为所述音频信号选择与所述音频种类对应的目标测量矩阵,所述目标测量矩阵用于对所述音频信号进行降维采样,所述目标测量矩阵为所述n个测量矩阵中的任一个,n为大于1的整数;

采样单元13,用于使用所述目标测量矩阵对所述音频信号进行降维采样,得到采样信号。

其中,所述编码端内预先存储有每种音频种类与所述n个测量矩阵中任一测量矩阵之间的对应关系;

此时,所述选择单元12,具体用于根据所述每种音频种类与所述n个测量矩阵中任一测量矩阵之间的对应关系,从所述n个测量矩阵中选择与所述音频信号的音频种类对应的测量矩阵为所述目标测量矩阵。

又或者,所述选择单元12,具体用于根据所述音频种类,确定采样帧中包含的采样点数;根据所述采样点数,从所述n个测量矩阵中为所述音频信号选择目标测量矩阵,所述目标测量矩阵中列向量的个数与所述采样点数相同。

例如,当所述音频种类为语音时,所述选择单元12具体用于确定所述采样帧中包含的采样点数为k,k为大于1的整数;当所述音频种类为乐音时,所述选择单元12具体用于确定所述采样帧中包含的采样点数为m,m为大于k的整数。

当所述音频种类为冲击音时,所述选择单元12具体用于确定所述采样帧中包含的采样点数为z,z为大于1的整数;当所述音频种类为谐音时,所述选择单元12具体用于确定所述采样帧中包含的采样点数为p,p为大于z的整数。

进一步地,仍如图5所示,所述编码端01还包括:

添加单元14,用于将用于指示所述音频种类的标识添加至所述采样信号。

图6为本发明实施例提供的一种解码端02的结构示意图,本发明实施例提供的解码端02可以用于实施上述图1-图4所示的本发明各实施例实现的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照图1-图4所示的本发明各实施例。

其中,该解码端02可以具体为具有压缩采样功能的任意设备,例如手机等,本发明对此不作任何限制,可满足运算能力需求的所有硬件产品都适用。

具体的,该解码端02包括:

确定单元21,用于根据待重建的采样信号中携带的音频种类的标识,确定所述采样信号的音频种类;以及根据预置的音频种类、稀疏字典和测量矩阵之间的对应关系,确定与所述采样信号的音频种类对应的目标稀疏字典和目标测量矩阵;

重建单元22,用于根据所述目标测量矩阵和所述目标稀疏字典,使用重建算法对所述采样信号进行重建,以得到重建的音频信号。

进一步地,仍如图6所示,所述解码端02还包括:

设置单元23,用于根据所述音频种类,设置重建帧中包含的重建点数。

示例性的,当所述音频种类为谐音时,所述确定单元21具体用于根据预置的音频种类、稀疏字典以及测量矩阵之间的对应关系,确定所述目标稀疏字典为包含4096个样点数的mdct基;当所述音频种类为冲击音时,所述确定单元21具体用于根据预置的音频种类、稀疏字典以及测量矩阵之间的对应关系,确定所述目标稀疏字典为包含1024个样点数的gabor基;当所述音频种类为语音时,所述确定单元21具体用于根据预置的音频种类、稀疏字典以及测量矩阵之间的对应关系,确定所述目标稀疏字典为包含512个样点数的mdct基。

进一步地,如图7所示,图5中的编码端01或图6中的解码端02可以以图7中的计算机设备(或系统)的方式来实现。

图7所示为本发明实施例提供的计算机设备示意图。计算机设备100包括至少一个处理器31,通信总线32,存储器33以及至少一个通信接口34。

处理器31可以是一个通用中央处理器(cpu),微处理器,特定应用集成电路(application-specificintegratedcircuit,asic),或一个或多个用于控制本发明方案程序执行的集成电路。

通信总线32可包括一通路,在上述组件之间传送信息。所述通信接口34,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(ran),无线局域网(wirelesslocalareanetworks,wlan)等。

存储器33可以是只读存储器(read-onlymemory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(randomaccessmemory,ram)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasableprogrammableread-onlymemory,eeprom)、只读光盘(compactdiscread-onlymemory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器33可以是独立存在,通过总线与处理器相连接。存储器33也可以和处理器集成在一起。

其中,所述存储器33用于存储执行本发明方案的应用程序代码,并由处理器31来控制执行。所述处理器31用于执行所述存储器33中存储的应用程序代码。

在具体实现中,作为一种实施例,处理器31可以包括一个或多个cpu,例如图7中的cpu0和cpu1。

在具体实现中,作为一种实施例,计算机设备100可以包括多个处理器,例如图7中的处理器31和处理器38。这些处理器中的每一个可以是一个单核(single-cpu)处理器,也可以是一个多核(multi-cpu)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中,作为一种实施例,计算机设备100还可以包括输出设备35和输入设备36。输出设备35和处理器31通信,可以以多种方式来 显示信息。例如,输出设备35可以是液晶显示器(liquidcrystaldisplay,lcd),发光二级管(lightemittingdiode,led)显示设备,阴极射线管(cathoderaytube,crt)显示设备,或投影仪(projector)等。输入设备36和处理器31通信,可以以多种方式接受用户的输入。例如,输入设备36可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的计算机设备100可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中,计算机设备100可以是台式机、便携式电脑、网络服务器、掌上电脑(personaldigitalassistant,pda)、移动手机、平板电脑、无线终端设备、通信设备、嵌入式设备或有图7中类似结构的设备。本发明实施例不限定计算机设备100的类型。

在本发明提供的实施例中,编码端01内的确定单元11、选择单元12、采样单元13以及添加单元14的具体功能,可以由图7所示的计算机设备100中处理器31调用存储器33中存储的执行本发明方案的应用程序代码来实现。解码端02内的确定单元21、重建单元22以及设置单元23的具体功能,也可以由图7所示的计算机设备100中处理器31调用存储器33中存储的执行本发明方案的应用程序代码来实现。

至此,本发明实施例提供一种编码端和解码端,编码端可以根据音频信号的音频种类选择对应的目标测量矩阵进行降维采样,而解码端可以根据音频信号的音频种类确定对应的目标测量矩阵和目标稀疏字典进行信号重建,这样可以使得不同音频种类的音频信号使用与自身频谱特性相符的目标稀疏字典进行稀疏表示,从而更加准确的还原采样前的音频信号。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分, 实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1