一种基于稀疏化表示的空间音频编解码方法

文档序号:9218173阅读:303来源:国知局
一种基于稀疏化表示的空间音频编解码方法
【技术领域】
[0001] 本发明涉及一种音频编解码方法。特别是涉及一种基于稀疏化表示的空间音频编 解码方法。
【背景技术】
[0002] 随着多媒体技术的发展,数字音频在消费电子、网络音频、便携终端等领域得到 了广泛应用。空间音频具有接近真实的空间感,能使人们产生身临其境的感觉,从而为人们 提供沉浸式的听觉体验。空间音频技术可分为声场采集和声场重现两个过程。声场分布的 采集是重建声场的前提,在声场采集过程中,需要引入传声器阵列,阵列中传声器分布越 密集,感知到的声场分布越精确,但传声器数量越多意味着声道数越多,所需传输的数据量 越大,需要的比特数也就越多。在保证声音质量的前提下我们希望所用的传声器数目尽可 能地少。
[0003]目前已有的方法主要利用通道内信号在时间轴上的相关性采集信号,但是由于声 音信号的不稳定性,在时间轴上相关性并不好,导致稀疏处理后的效果不理想。

【发明内容】

[0004] 本发明所要解决的技术问题是,提供一种能够利用更少的传输通道精确重构出原 始信号的基于稀疏化表示的空间音频编解码方法。
[0005] 本发明所采用的技术方案是:一种基于稀疏化表示的空间音频编解码方法,包括 如下步骤:
[0006] 1)连续采集不同时刻的音频信号矩阵MXNXt,其中,每一时刻的音频信号矩阵 是由该时刻所有声道的声音信号值组成的MXN维的音频信号矩阵,其中,M和N都是大于 零的整数,t是采样时刻数;
[0007] 2)令X = MXN,对XX t音频信号矩阵进行编码,得到维数小于XX t的音频信号 矩阵;
[0008] 3)将维数小于XX t的音频信号矩阵传输到解码端;
[0009] 4)解码端利用压缩感知对维数小于XX t的音频信号矩阵进行解码重构,恢复出 原音频信号。
[0010] 步骤1)所述的每一时刻的音频信号矩阵都是由MXN的拾音器面阵采集,得到的 MXN维的音频信号矩阵。
[0011] 步骤2)所述的对XX t音频信号矩阵利用压缩感知进行编码,是对XX t音频信号 矩阵首先利用经典的字典训练K-SVD算法进行稀疏表示,再进行编码测量,编码测量中测 量矩阵米用尚斯矩阵。
[0012] 步骤4)所述的利用压缩感知对维数小于XX t的音频信号矩阵进行解码重构,是 对维数小于xxt的音频信号矩阵利用基追踪算法进行重构。
[0013] 本发明的一种基于稀疏化表示的空间音频编解码方法,是一种更有效的空间音频 编解码方法,简化传输信号所需的传声器阵列。本发明采集到的信号具有更强的相关性,可 以有效解决目前已有的编码方法存在的信号相关性差、稀疏化结果不理想、所需的传输数 据量大等问题,更高效的完成空间音频编码任务。
【附图说明】
[0014] 图1是本发明所使用的拾音器面阵的示意图;
[0015] 图2是本发明方法的流程图。
【具体实施方式】
[0016] 下面结合实施例和附图对本发明的一种基于稀疏化表示的空间音频编解码方法 做出详细说明。
[0017] 本发明的一种基于稀疏化表示的空间音频编解码方法,是针对空间音频编解码提 出一种更有效的方法和配置,使传声器阵列采集到的信号具有更强的空间相关性,进而通 过稀疏化去掉冗余的信号,使传声器数量减少,达到简化传声器阵列的目的。
[0018]所述稀疏是指(物体、声音等)在空间或时间上的间隔远,很稀少。稀疏理论的核 心思想是:将高维信号用低维信号来描述。本文中稀疏化是指当声道数目很多时利用它们 之间的相关性对其进行简化,使声道数目减少。而针对多媒体信号,压缩感知在稀疏化方面 取得了很好的效果。所以本发明利用压缩感知对信号进行稀疏化。
[0019] 压缩感知包括:信号的稀疏表示、编码测量(投影)、重构算法。
[0020] 1、信号的稀疏表示可表示为
或x=Ws。
[0021]其中屯e RNXN是稀疏基矩阵(正交变换基),s为N维稀疏系数(稀疏向量)。
[0022] 常用的稀疏基有:正(余)弦基、小波基、FFT基等等。彳目号x的稀疏表不:s = WTx
[0023]2、编码测量:构造一个测量矩阵〇 GRmxn,使得y=Ox=〇 Ws=@S,@ GRnxn 称为传感矩阵,y并不是信号本身,而是一个M维投影值(测量值)M〈〈N,通过降维,信号得 到了压缩。
[0024] 3、重构算法:重构算法就是已知测量值y和测量矩阵〇的基础上,求解欠定方程 y= C>x得到原信号X。
[0025]需要求解如下最优化问题
,使得y = ? s。得到s的逼近值多后, 令i=屮.?
[0026] 本发明利用此方法对传声器阵列采集到的相关性很强的信号进行处理,得到较少 的采样信号对声场进行重构。
[0027]本发明的一种基于稀疏化表示的空间音频编解码方法,包括如下步骤:
[0028] 1)连续采集不同时刻的音频信号矩阵MXNXt,其中,每一时刻的音频信号矩阵 是由该时刻所有声道的声音信号值组成的MXN维的音频信号矩阵,其中,M和N都是大于 零的整数,t是采样时刻数;
[0029] 所述的每一时刻的音频信号矩阵都是由MXN的拾音器面阵采集,得到的MXN维 的音频信号矩阵。
[0030] 在(X,y)平面上设计一个如图1所示的MXN的面阵,对应面阵的每个交点处放一 拾音器。将MXN的面阵放置在房间内,将一声源放置于房间内面阵之外的位置,声源发出 的声音信号被拾音器采集。
[0031] 2)令X = MXN,对XX t音频信号矩阵进行编码,得到维数小于XX t的音频信号 矩阵,就得到了更简化的空间音频编码,即可以将采集到的信号通过更少的声道传输出去。
[0032]所述的对XX t音频信号矩阵利用压缩感知进行编码,是对XX t音频信号矩阵首 先利用经典的字典训练K-SVD算法进行稀疏表示,再进行编码测量,编码测量中测量矩阵 采用高斯矩阵。
[0033]3)将维数小于XX t的音频信号矩阵传输到解码端;
[0034]4)解码端利用压缩感知对维数小于XX t的音频信号矩阵进行解码重构,恢复出 原音频信号。所述的利用压缩感知对维数小于xxt的音频信号矩阵进行解码重构,是对维 数小于xxt的音频信号矩阵利用基追踪算法进行重构。
[0035]下面给出一个实例:
[0036] 参数设置:声源选用一段男生语音,传声器组成的面阵维数:16X8,利用 MCRoomSim配置实验环境及声源、拾音器的类型、位置,通过拾音器采集声源发出的信号,将 128个拾音器在同一时刻的信号值组成一 128 X 1维的矩阵,采集129个时刻的信号值,即将 源信号组成一 128X129的二维矩阵信号。
[0037]对此信号矩阵首先利用一种经典的字典训练K-SVD算法进行稀疏表示,测量矩阵 采用高斯矩阵进行编码测量,最后利用BP(基追踪)算法进行重构。稀疏度取3,当测量值 为15即压缩比为15/128时重构误差可达到1(T 5,压缩比越高,重构误差越小。而在相同条 件下,根据通道内信号在时间轴上的相关性采集时间轴信号进行处理重构误差级为10'充 分证明了本发明所采用的方法的有效性。
[0038]相信利用本发明所使用的方法还会有更好的算法能够更加精确的重构出信号。
【主权项】
1. 一种基于稀疏化表示的空间音频编解码方法,其特征在于,包括如下步骤: 1) 连续采集不同时刻的音频信号矩阵MXNXt,其中,每一时刻的音频信号矩阵是由 该时刻所有声道的声音信号值组成的MXN维的音频信号矩阵,其中,M和N都是大于零的 整数,t是采样时刻数; 2) 令X=MXN,对XXt音频信号矩阵进行编码,得到维数小于XXt的音频信号矩阵; 3) 将维数小于XXt的音频信号矩阵传输到解码端; 4) 解码端利用压缩感知对维数小于XXt的音频信号矩阵进行解码重构,恢复出原音 频信号。2. 根据权利要求1所述的一种基于稀疏化表示的空间音频编解码方法,其特征在于, 步骤1)所述的每一时刻的音频信号矩阵都是由MXN的拾音器面阵采集,得到的MXN维的 音频信号矩阵。3. 根据权利要求1所述的一种基于稀疏化表示的空间音频编解码方法,其特征在于, 步骤2)所述的对XXt音频信号矩阵利用压缩感知进行编码,是对XXt音频信号矩阵首先 利用经典的字典训练K-SVD算法进行稀疏表示,再进行编码测量,编码测量中测量矩阵采 用高斯矩阵。4. 根据权利要求1所述的一种基于稀疏化表示的空间音频编解码方法,其特征在于, 步骤4)所述的利用压缩感知对维数小于XXt的音频信号矩阵进行解码重构,是对维数小 于XXt的音频信号矩阵利用基追踪算法进行重构。
【专利摘要】一种基于稀疏化表示的空间音频编解码方法,包括:连续采集不同时刻的音频信号矩阵M×N×t,其中,每一时刻的音频信号矩阵是由该时刻所有声道的声音信号值组成的M×N维的音频信号矩阵,其中,M和N都是大于零的整数,t是采样时刻数;令X=M×N,对X×t音频信号矩阵进行编码,得到维数小于X×t的音频信号矩阵;将维数小于X×t的音频信号矩阵传输到解码端;解码端利用压缩感知对维数小于X×t的音频信号矩阵进行解码重构,恢复出原音频信号。本发明能够简化传输信号所需的传声器阵列,采集到的信号具有更强的相关性,可以有效解决信号相关性差、稀疏化结果不理想、所需的传输数据量大等问题,更高效的完成空间音频编码任务。
【IPC分类】G10L19/008
【公开号】CN104934038
【申请号】CN201510312015
【发明人】张涛, 孙书婷, 张彩霞, 高新意
【申请人】天津大学
【公开日】2015年9月23日
【申请日】2015年6月9日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1