一种全景声处理方法

文档序号:10536409阅读:318来源:国知局
一种全景声处理方法
【专利摘要】本发明公开了一种全景声处理方法,包括:获取声场空间的声音对象;以监听点为为原点建立三维坐标系,确定声音对象的三维坐标值原点建立三维坐标系,确定声音对象的三维坐标值;将声音对象的三维坐标值按时间顺序划分为参考块和预测块;对参考块的三维坐标值进行直接编码,对预测块的三维坐标值进行差分编码;根据编码前或解码后的声音对象三维坐标值确定声音对象的有效作用区域。本发明提供了三维声场的声音对象在录音制作、编码、解码和渲染回放时的坐标定义、运动轨迹和作用区域表示方法,编码效率高、声音表现力好且声音制作方便。
【专利说明】
一种全景声处理方法
技术领域
[0001] 本发明涉及声音编码技术领域,具体涉及一种全景声处理方法。
【背景技术】
[0002] 随着计算能力和网络的快速发展,在电影、电视、音乐、游戏、虚拟现实和网络视频 等应用领域,能表现真实三维声场的音频录制、缩混编辑、编码、解码、渲染和回放技术,有 着重要的应用价值。"全景声"是对三维声场的形象描述。
[0003] 目前,MPEG推出了MPEG H的三维声编码技术,Dolby公司推出了Atmos全景声编码 技术,都在传统多声道信号编码的基础上,提出了声音对象编码的概念。其中,Dolby Atmos 采用直接记录声音对象的三维运动轨迹的方式,对声音对象的三维坐标(x、y、z)进行编码, 并且对声音对象的渲染和回放方式,划分为9个矩形区域。MPEG H则不直接对声音对象编 码,而是采用参数立体声的编码技术,将多个声音混合成一个单声道信号,并对每个声音对 象的空间感知信息(相位、强度和相关性)编码;在解码时,先解码单声道和信号,再利用声 音对象的空间感知信息,恢复出每个声音对象。
[0004] 在高质量应用场合,如电影等领域,Dolby Atmos能够获得比MPEG H更高的声音质 量。但是Dolby Atmos的空间坐标体系、坐标表示方法、声音对象坐标编码方法、声音对象分 区表示方法都存在编码效率低、声音表现力差和声音制作不方便等局限。
[0005] DolbyAtmos在描述声场时,将坐标原点定于前方左侧屏幕扬声器高度位置,从原 点到右墙为X轴,从原点到后墙为Y轴,从原点到房顶为Z轴;同时,将房间划分为左侧屏幕扬 声器区域、中间屏幕扬声器区域、右侧屏幕扬声器区域、左墙扬声器区域、右墙扬声器区域、 后墙左侧扬声器区域、后墙右侧扬声器区域、左房顶扬声器区域和右房顶扬声器区域等九 个区域。以如上的位置坐标和区域划分来编码声音对象。
[0006] DolbyAtmos的坐标原点定义和区域是分离的,对点声源、面声源和扩散声源等声 音对象的表达效率不高。另外,Do 1 by Atmos的扬声器区域和实际声音对象的有效作用区域 不是等价关系,后者是实际物理声场的更准确描述。
[0007] 从声音编码效率的角度看,一般来说在表达完整的信息的前提下力争用更少的码 流,从而达到更高的编码效率。现有的坐标定义方法是用一个固定的比特数来对坐标进行 编码,比如DolbyAtmos就是将位置坐标的映射到单位立方体中,得到一个范围在[0,1]的小 数,然后用12比特来储存这个无符号小数。这样编码的结果是无论位置坐标是否变化都要 用12比特来存储,从而产生了大量的码流的浪费。实际上,声音对象的位置大多变化缓慢, 在相邻帧或相邻块之间的位置坐标数据间存在较大冗余。
[0008] 从声音表现力来看,现有的空间区域划分都是采用的固定划分的方式,例如 DolbyAtmos将空间划分为左侧屏幕扬声器区域、中间屏幕扬声器区域、右侧屏幕扬声器区 域、左墙扬声器区域、右墙扬声器区域、后墙左侧扬声器区域、后墙右侧扬声器区域、左房顶 扬声器区域和右房顶扬声器区域等九个区域。这样对于声音对象的定位就缺乏弹性,可选 择的余地较少,从而使声音表现不够灵活。

【发明内容】

[0009] 发明目的:针对现有技术的不足,本发明提供一种全景声处理方法,编码效率高, 声音表现力好。
[0010] 技术方案:本发明所述的全景声处理方法,包括:
[0011] 获取声场空间的声音对象;
[0012] 以监听点为原点建立三维坐标系,确定声音对象的三维坐标值;
[0013] 将声音对象的三维坐标值按时间顺序划分为参考块和预测块;
[0014] 对参考块的三维坐标值进行直接编码,对预测块的三维坐标值进行差分编码;
[0015] 根据编码前或解码后的声音对象三维坐标值确定声音对象的有效作用区域。
[0016] 进一步完善上述技术方案,所述原点定义为声场空间水平切面中心、与录音师双 耳连线中心等高的位置。
[0017] 进一步地,所述声音对象的位置轨迹以帧为单位,每帧包括若干个块,每帧的第一 个块为所述参考块、后续块为所述预测块。
[0018]进一步地,所述声音对象每个块的三维坐标值为(Xi,yi,Zi),(Xi,yi,Zi)映射为 (pIDi,Axi,Ayi,Azi),pIDi为象限标识符,41^}^^:1为位置坐标的绝对值。
[0019] 进一步地,所述参考块对 采用3比特,Axi、Ayi、Azi在范围[0,1]内编码为4~16比特的无符号数Dxj、Dyj、Dzi;所述预测 块对当前块与前一块的坐标值差值(A Xk,A yk,A Zk)进行编码,其中,A处是当前块与前一 块x轴坐标的差分值,A yk是当前块与前一块y轴坐标的差分值,A Zk是当前块与前一块z轴 坐标的差分值,且差值(AXk,Ay k,Azk)被映射为(pIDk,| Axk|,| Ayk|,| Azk| ),其中pIDk 是A xk,A yk,A zk的象限标识符,| A xk |、| A yk |、| A zk |分别对应A xk、A yk、A zk的绝对值, A xk |、| A yk |、| A zk |在[0,2]内编码为4~17比特的无符号数Dxk、Dyk、Dzk。
[0020] 进一步地,所述无符号数Dxk、Dyk、Dzk采用DIF(n)编码方法:取无符号位置坐标 Dxk、Dyk、Dzk中的任意一个DIFdata与(2~n-l)的大小相比较,如果小于(2~n-l),则用n比特 储存它;否则将n比特全部置1,然后紧跟2n比特;以此类推,直至(2~(kn)-l)>DIFdata(k为 正整数)。
[0021 ] 进一步地,采用4比特或8比特或12比特存储所述无符号位置坐标DIFdata。
[0022] 进一步地,所述扬声器的有效作用区域为锥形(f,0,y),其中为声音对象和原 点连线在xoy平面上的投影与x轴的夹角、范围[0,231),0为声音对象和原点连线与z轴的夹 角,Y是描述锥面张开大小的、定义为锥面母线和中轴线的夹角,范围[0,V2]。
[0023] 进一步地,根据所述声音对象的坐标(Xi,yi,Zi)得到(_f,0):

[0026] Y编码为4比特的无符号数B,
[0027] 映射关系为:y =ji/2XB/(2~4-1),0〈 = B〈 = (2~4-1)。
[0028] 有益效果:与现有技术相比,本发明的优点:本发明在传统多声道立体声声场的基 础上,引入了声音对象的三维声技术,提供了三维声场的声音对象在录音制作、编码、解码 和渲染回放时的坐标定义、运动轨迹和作用区域表示方法,引入了声音对象有效作用区域, 并用锥形表示,将声音对象的坐标(x,y,z)和有效作用区域(tP,0,Y)统一到一个坐标系统, 点源可以仅用三维坐标值表示,面源不仅需要三维坐标值,还需要区域信息,更有效的表示 点源声音对象、面源声音对象,实现更高效率的空间表示和更好的声场效果,更加完善的三 维声场;编码效率高、声音表现力好且声音制作方便。
[0029]本发明采用了差分编码的方法,这种编码方式保证了对于大多数声音对象都能用 较少的比特进行编码,比如对移动时速不高于53km/h的低速对象都能只用4个比特进行编 码,大大节约了码流空间。而对于少数高速对象,用DIF(n)方式对其进行拓展,也能完成编 码。对于低速对象这种编码大大节约了码流空间,而对高速对象,虽然将会使用更多的比特 数,但是考虑到大多数对象是低速对象,总体来说是提高了编码效率。
[0030] 而本发明提出了一种新的划分方式,以对象与原点的连线为中轴来得到一个圆 锥,圆锥的张角可调,圆锥所笼罩的区域就是对象的有效作用区域。现有的区域划分是从扬 声器的角度出发对扬声器的分布进行区域划分,而本发明是从对象的角度出发划分出对象 的有效作用区域,有利于录音师定义自己理想的有效作用区域,而在进行对象呈现时可以 根据实际声场的扬声器布置和所采用的呈现算法来灵活地决定扬声器的取舍,这样形成的 区域划分将使得对声音对象的重建更加具有表现力。
[0031] 从声音的制作的角度来看,通过灵活的定义了声音对象的位置以及声场空间的区 域划分,在声音制作的环节上能够方便地在传统的3D立体声基础上随意添加声音对象,使 得无论录音还是声音制作的环节都充满了灵活性。
【附图说明】
[0032] 图1为本发明的扬声器的区域划分示意图。
【具体实施方式】
[0033]下面结合附图对本发明技术方案进行详细说明。
[0034] 实施例1:以一个立方体来描述声场空间为例,典型应用是扬声器布置于立方体的 边界面。声音对象的空间坐标定义:将坐标原点定义为水平切面的中心、高度与录音师监听 时耳朵齐平的位置,并令X轴指向右侧(墙),y轴指向前方(通常为屏幕),Z轴垂直指向上方 (房顶)。
[0035] 对声场空间采用归一化坐标表示,x轴、y轴和z轴的最大绝对坐标值为l,z轴较短 一侧为地面,其归一化绝对坐标值为a(a〈l ),则此声场空间的8个坐标为:
[0036] (1,1,1)--表示区域前方右上角;
[0037] (-1,1,1) 表不区域前方左上角;
[0038] (l,l,-a)--表示区域前方右下角;
[0039] (_l,l,_a) 表不区域前方左下角;
[0040] (1,_1,1) 表不区域后方右上角;
[0041] (_1,_1,1)--表不区域后方左上角;
[0042] (l,_l,_a) 表不区域后方右下角;
[0043] (_l,-l,_a)--表不区域后方左下角。
[0044] 声音对象的位置轨迹编码以帧为单位划分,每帧进一步分为若干块。为和压缩编 码兼容,采用1024个样本为一帧:48kHz采样频率时,每个块为256个样本,时间间隔为 5.3ms; 96kHz采样频率时,每个块为512个样本,时间间隔为5.3ms。第i块的某一声音对象的 位置坐标表示为(x(i),y(i),z(i)),i = l、2、3、4。声音对象的位置坐标(x,y,z)可以映射为 用四个量(PID,Ax,Ay,Az)来描述,即象限标识符p ID和位置坐标的绝对值Ax、Ay、Az (取值范 围为[0,1])。
[0045] 声音对象的象限标识符pID是对坐标(x,y,z)的象限位置的描述,与(x,y,z)的符 号位信息(signb(x),signb(y),signb(z))相对应,其中signb(x)是取符号位运算
[0046] signb(x) =0 当 x> = 0;
[0047] signb(x) = 1 当 x〈0;
[0048] 象限标识符可取如下值:
[0049] 表1象限标识符pID表
[0051]每帧的第一个块为参考块,对该块的声音对象空间位置信息采用直接编码;后续 的块为预测块,对该块的声音对象空间位置信息采用差分编码。
[0052] 第一个块直接对化104147^)编码410用三个比特,如表1所示41^ 7^2在范 围[0,1]内编码为10比特的无符号数〇^〇7、〇2,,它们满足的映射关系为:
[0056]后续块做差分编码,即对当前块与前一块的坐标值的差值(A x,A y,A z)进行编 码,其中,Ax是当前块和前一块X轴坐标的差分值,Ay是当前块和前一块y轴坐标的差分 值,A z是当前块和前一块z轴坐标的差分值;满足如下关系:
[0057] x(k) =x(k~l)+A x,-2 < Ax<2;
[0058] y(k) =y(k-l)+A y ,-2 < Ay<2;
[0059] z(k) =z(k~l)+A z ,-2 < Az<2;
[0060] 与前述过程类似,差值(AX,Ay,AZ)也被映射为用四个量(PID,| AX|,| Ay|, A z | )来描述。pID是(A x,A y,A z)的象限标识符,| Ax|、| Ay|和| Az|分别对应A x、A y、 八2的绝对值,取值范围为[0,2]<^10用三个比特,如表1所示,|&刻、|&7|和|& 2|可映射 为11比特的无符号数Dx、Dy和Dz,它们满足的映射关系为:
[0064] 而对于无符号数Dx、Dy和Dz采用DIF(n)编码方法,DIF(n)编码的编码过程为:首先 比较待编码的无符号位置坐标DIFdata(DIFdata为Dx,Dy,Dz中的任意值)和(2~n_l)的大 小,如果小于(2~n-l),则用n个比特储存它;否则将n个比特全部置1,然后紧跟2n个比特;以 此类推直至(2~ (kn)-l )>DIFdata(k为正整数)。以DIF(4)编码为例,对无符号数Dx、Dy和Dz 采用DIF(4)编码时,可能出现的k值为1、2和3,具体码流结构如下: DIF(4) DiFdala 4 ir(DIFdala==0XF)| DiFdala 8
[0065] I i、(D I Fdata==0XFF) | DiFdala 12 \ return (DiFdala) }0
[0066] 声音对象的差分编码过程中,要给坐标值的差分留足够的空间,以便于使得它的 储存精度足够和第一个块中位置坐标的储存精度一致。于是有如下公式:
[0068]其中R为房间的半边长,L为相邻两个块中对象的位移,n为储存差分值所用的比特 数。
[0069]对于一个10m见方的房间,首先选取4比特来储存这个差分值,那么它最多能够储 存的值为:
[0071] 于是解得L〈0.0781,那么此时声音对象的最大速度为:
[0073] 在实际录音当中,对于大多数声音对象,其时速大多低于53km/h,采用4个比特储 存就够了,这个效率非常高。至于高速运动的声音对象,即速度大于53km/h,可扩展为8比特 储存。此时即便快如飞机(假设l〇〇m/s),也有:L= 100X0.0053 = 0.53(m);L为相邻两个块 的距离,此时由于L/2 ~8〈5/2 ~ 10,可见8个比特完全能够容纳。
[0074] 而当房间扩大到100米时,由10比特储存,其精度为50/2~ 10,此时储存残差的精度 更是足够的。下表定义了不同比特和房间尺寸时能够存储的最大声像速度:
[0075] 表2不同情况下能够储存的对象速度
[0077]在一个三维区域内,对于声音对象的重构,有一些区域内的声音对象作用显著,而 另一些声音对象可能毫无作用。从这个角度来看,对于某一特定的声音对象,对其作用区域 进行划分,只使用区域内一部分声音对象,从而可以使得计算模型和混音操作更简单。典型 的声音对象除了点声源,还有面声源(可以理解为距离很远的点声源)和扩散声源(可以是 很距离的扩散式声源,如爆炸声等),声音对象有效作用区域是用于描述面声源的。该有效 作用区域实际是为录音师在录音监听时提供的,录音师将自己理想的有效作用区域以元数 据的方式提供给编码器,再由编码器按所述的方式写入到码流中。因在解码端只能拿到解 码三维坐标值,因此,编码时可用解码三维坐标值确定有效作用区域,以使编码前的有效作 用区域和解码后的作用区域一致。实际上,在一定的精度内,编码前的三维坐标值和解码后 的三维坐标值非常接近,其差即三维坐标值的量化误差。
[0078] 划分方法见图1,当声音对象的方位确定时,以原点和声音对象连线为轴,展开一 个圆椎,原点是圆锥的顶点。此时圆锥所笼罩的扬声器便是有效扬声器。
[0079] 对于这种划分,为了方便表达,采用极坐标的形式,用三个参数来表示这个划分,( 9,0,y )。其中押,9)组成了声音对象的方位角,为对象和原点连线在xoy平面上的投影与X 轴的夹角,范围[0,231),0为对象和原点连线与z轴的夹角。而第三个参数Y是用来描述锥面 张开大小的,定义为锥面母线和中轴线的夹角,范围[0^/2]。由此,整个锥面就被确定下 来,随之三维空间的区域划分就完成了。
[0080] 对于(9,0),前面已经定义了对象的位置,声音对象的位置坐标表示为(x,y,z),于 是很容易求得。
[0081 ]以上声音对象编码的伪代码: Syntax of ObjectDefiiiitionlO ! f?r(sb=0:sb<Nu mPi3nSubB!ocks;sb++) { if(sb ==0) Panlnfo^xists = 1 else Piinlnfor.xists 1 } if(Panlnl'oEsists = l) { if(sb==0){ plD|sb| 3 position\jsb| 10 position% |sb| 10
[0082] p〇siti?n/|shj 10 :} else ! pID|sb| 3 pf>sition\|sb| OIT(4) position% jsbj OIF(4) position/|sb| DU'(4) } ObjectSnap|sb| 1 if(()bjiH:tSn?p|sb| == 1){ Rcser\cdfset m (J) 2 } < )b j cc iZo n eCo n r rol | s b I 1 if(<)bjoctZ?ncC'?ntrrtl|sb] 1){ \n?rle?;iimmii|sb| 4 K
[0083]以上方法给出了三维声场的声音对象在录音制作、编码、解码和渲染回放时的坐 标定义、运动轨迹、作用区域等表示方法。在三维声编码时,除了声音对象轨迹和作用区域 等信息编码外,还需要对声音对象的波形做编码。
[0084] 考虑到声音对象彼此的独立性,高质量的声音对象波形可采用独立的编码方式, 包括各种已知的无损编码和有损音频编码技术,如4?£、?1^^?3^4(:^¥3等。在对带宽要 求很高的低码率场合,亦可采用参数编码的方式,将多个声音对象混合成一个和声道,并采 用参数编码方法,来有效表示多个声音对象。此类的参数编码方法包括SAC(Spatial Audio Coding)、BBC(Binaural Cue Coding)、MPEG Surround等。
[0085] 因声音波形编码的方法较为成熟,在此不作赘述。
[0086] 如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释 为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对 其在形式上和细节上作出各种变化。
【主权项】
1. 一种全景声处理方法,其特征在于,包括: 获取声场空间的声音对象; 以监听点为原点建立三维坐标系,确定声音对象的三维坐标值; 将声音对象的三维坐标值按时间顺序划分为参考块和预测块; 对参考块的三维坐标值进行直接编码,对预测块的三维坐标值进行差分编码; 根据编码前或解码后的声音对象三维坐标值确定声音对象的有效作用区域。2. 根据权利要求1所述的全景声处理方法,其特征在于:所述原点定义为声场空间水平 切面中心与录音师双耳连线中心等高的位置。3. 根据权利要求1所述的全景声处理方法,其特征在于:所述声音对象的位置轨迹以帧 为单位,每帧包括若干个块,每帧的第一个块为所述参考块、后续块为所述预测块。4. 根据权利要求3所述的全景声处理方法,其特征在于:所述声音对象每个块的三维坐 标值为(Xi,yi,Zi),(Xi,yi,Zi)映射为化]^,厶11,厶5^,厶2:1)4瓜为象限标识符411、厶5^、厶2:1为 位置坐标的绝对值。5. 根据权利要求4所述的全景声处理方法,其特征在于:所述参考块对(PlD1,Ax1 ,Ay1, Azi)直接编码成(?%,〇1^07^^),?%采用3比特411^7^4在范围[0,1]内编码为4 ~16比特的无符号数Dxi、Dyi、Dzi;所述预测块对当前块与前一块的坐标值差值(Δ Xk,Δ yk, A zk)进行编码,其中,△ xk是当前块与前一块x轴坐标的差分值,△ yk是当前块与前一块y轴 坐标的差分值,Δ Zk是当前块与前一块z轴坐标的差分值,且差值(Δ Xk,Δ yk,Δ zk)被映射 为(pIDk,I Δ xk I,I Δ yk I,I Δ zk I ),其中pIDk是 Δ xk,Δ yk,Δ Zk的象限标识符,I Δ xk|、I Δ yk 、|八&|分别对应八&、八5^、八21{的绝对值,|八 &|、|八5^|、|八21{|在[〇,2]内编码为4~17 比特的无符号数Dxk、Dyk、Dzk。6. 根据权利要求5所述的全景声处理方法,其特征在于:所述无符号数Dxi、Dyi、DzdPI Dxk、Dyk、Dzk 采用 DIF(n)编码方法:取 Dxi、Dyi、Dzi 或 Dxk、Dyk、Dzk中的任意一个的值 DIFdata 与(2~n-l)的大小相比较,如果小于(2~n-l),则用η比特储存它;否则将η比特全部置1;然后 紧跟2η比特,以此类推,直至(2~(kn)-l)>DIFdata,k为正整数。7. 根据权利要求6所述的全景声处理方法,其特征在于:采用4比特、8比特、10比特、12 比特中任一单位存储所述无符号位置坐标DIFdata。8. 根据权利要求6所述的全景声处理方法,其特征在于:所述扬声器的有效作用区域为 锥形(φ,θ , γ ),其中Φ为声音对象和原点连线在xoy平面上的投影与X轴的夹角、范围[0, 2π),Θ为声音对象和原点连线与z轴的夹角,γ是描述锥面张开大小的、定义为锥面母线和 中轴线的夹角,范围[〇,V2]。9. 根据权利要求8所述的全景声处理方法,其特征在于:根据所述声音对象的坐标(Xl, yi,Zi)得到(φ,Θ): ^ I --J I g V ^映射关系为:γ =ν2ΧΒ/(2Λ4-1),0〈 = Β〈=(2Λ4-1)。
【文档编号】G10L19/008GK105895108SQ201610157032
【公开日】2016年8月24日
【申请日】2016年3月18日
【发明人】潘兴德, 吴超刚
【申请人】南京青衿信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1