混合模式空间声生成系统与方法

文档序号:10597679阅读:374来源:国知局
混合模式空间声生成系统与方法
【专利摘要】本发明公开了一种混合模式空间声生成系统与方法,所述混合模式空间声生成方法包括输入一路或多路音频对象;检测音频对象的个数,当音频对象的个数大于第一阈值A时,激活ambisonic域分支,采用ambisonic方法处理音频对象,得到虚拟环绕空间声;否则激活单独对象渲染分支,使用单独对象渲染方法处理音频对象,得到虚拟环绕空间声。所述混合模式空间声生成系统与方法增加了渲染控制模块来对音频对象渲染进行控制,能够有效且高质量地生成虚拟环绕声音,可以在产生高品质的3D音效的同时保持低复杂度。
【专利说明】
混合模式空间声生成系统与方法
技术领域
[0001] 本发明涉及信号处理技术领域,具体涉及一种混合模式空间声生成系统与方法。
【背景技术】
[0002] 在用虚拟现实头戴设备(Head-Mounted Display,HMD)向用户呈现内容时,采用虚 拟3D音频技术,通过立体声耳机向用户播放音频内容,这时需要面临提高虚拟环绕声效果 的问题。在虚拟现实应用中,当通过立体声耳机播放音频内容时,虚拟3D音频的目的是想要 达到一种效果让用户就像用扬声器阵列(如5.1或7.1)听一样。
[0003] 在制作虚拟现实音频内容时,通常需要几种声音元素。一种提高临场感的方法是 跟踪用户的头部动作(head tracking),对声音进行相应的处理。比如,如果原始声音被用 户感知为来自正前方,当用户向左转头90度后,声音应被处理使得用户感知声音来自正右 方90度。
[0004] 在这里虚拟现实设备可以有很多种类,比如带头部跟踪的显示设备,或者只是一 部带头部跟踪传感器的立体声耳机。
[0005] 实现头部跟踪也有多种方法。比较常见的是使用多种传感器。运动传感器套件通 常包括加速度计、陀螺仪和磁力传感器。在运动跟踪和绝对方向方面每种传感器都有自己 固有的强项和弱点。因此常用做法是采用传感器"融合"(sensor fusion)将来自各传感器 的信号组合在一起,产生一个更加精确的运动检测结果。
[0006] 在得到头部旋转角度后,需要对声音进行相应的变化。
[0007] 对于音频对象通常的做法是使用HRTF(Head Related Transfer Function,头相 关变换函数)滤波器进行滤波,得到虚拟环绕声。HRTF在时间域所对应的名称是HRIR(Head Related Impulse Response,与头部相关联的冲激响应),或者将音源与双耳房间脉冲响应 (Binaural Room Impulse Response,BRIR)做卷积。双耳房间脉冲响应由三个部分组成:直 达声、一些离散的早期反射声和晚期混响(混响尾)。
[0008] 直接将音频对象和BRIR卷积这种做法的缺点是如果场景复杂,含有大量的音频对 象,则复杂度会变得非常高,对于很多音频播放终端,这将导致功耗过大,甚至无法播放。在 虚拟现实设备上,还需要根据头部的动作对音频对象位置实时调整,这更极大地加大了运 算量,使得在移动虚拟现实设备上应用传统做法变的不切实际。
[0009] 另一种方式是将声音转到ambisonic域,然后再通过使用旋转矩阵对信号做变换。 具体做法是将音频转为B格式信号,将该B格式信号转换为虚拟扬声器阵列信号,将虚拟扬 声器阵列信号通过HRTF滤波器进行滤波,得到虚拟环绕声。但这种方法在声音渲染灵活性 有所欠缺,而且无法对单独音源进行精准的控制。
[0010] 可以看到,以上两种方法在效率以及效果上各有优缺点。
[0011] 有鉴于此,在本领域需要一种有效且高质量生成虚拟环绕声音的解决方案。

【发明内容】

[0012] 本发明的目的在于提供一种混合模式空间声生成系统与方法,用以解决现有技术 中在产生高品质的3D音效的同时无法保持低运算复杂度的问题。
[0013] 为实现上述目的,本发明所述的混合模式空间声生成系统包括渲染控制模块、 ambi sonic编码器、双耳转码器和耳机与头部跟踪装置,所述渲染控制模块分别与 ambisonic编码器和双耳转码器连接,所述ambisonic编码器与双耳转码器连接,所述耳机 与头部跟踪装置分别与ambisonic编码器和双耳转码器连接;所述渲染控制模块用于接收 一路或多路音频对象,检测音频对象的个数,当音频对象的个数大于第一阈值A时,激活 ambi sonic编码器构成的ambi sonic域分支,采用ambi sonic方法处理音频对象,得到虚拟环 绕空间声并传输到ambi sonic编码器,由ambi sonic编码器输出虚拟环绕空间声的双耳输出 虚拟环绕声信号;否则激活双耳转码器构成的单独对象渲染分支,使用单独对象渲染方法 处理音频对象,得到虚拟环绕空间声并输出虚拟环绕空间声的双耳输出虚拟环绕声信号。 [00 14]所述植染控制模块还进一步用于检测音频对象的元数据(metadata),所述元数据 包括时间和对应的音频对象在三维空间的位置,还包括发散度;所述渲染控制模块根据音 频对象的发散度决定该音频对象的处理方式,如果音频对象的发散度大于第二阈值B,则将 该音频对象暂时分配到ambi sonic域分支;暂时分配结束后,根据音频对象处理设备的当前 状况,计算运算复杂度,根据运算复杂度确定是否重新分配音频对象;运算复杂度通过统计 音频对象处理设备的运算周期得出;当运算复杂度允许N个音频对象的时候,如果当前音频 对象有M个,单独对象植染分支能够处理0至N-T个音频对象,ambisonic域分支能够处理M-N + T个音频对象,如果分配给单独对象渲染分支的音频对象的个数H小于N-T个,则将 ambi sonic域分支中的1至N-T-H个音频对象中的任意多个音频对象重新分配给单独对象植 染分支;所述N大于T,M大于0,H大于或等于0;如果N小于T,则全部使用单独对象植染分支; 如果N等于T,则全部使用ambi sonic域分支,或者全部使用单独对象植染分支。
[0015] 所述渲染控制模块根据音源的发散度确定音频对象的分配;如果音源的发散度高 于X,则在满足复杂度情况下,把音频对象分配到ambisonic域分支,反之,把音频对象分配 到单独对象渲染分支;其中X由用户指定。
[0016] 本发明还提供一种混合模式空间声生成方法,包括以下步骤:
[0017]输入一路或多路音频对象;
[0018]检测音频对象的个数,当音频对象的个数大于第一阈值A时,激活ambisonic域分 支,采用ambisonic方法处理音频对象,得到虚拟环绕空间声;否则激活单独对象植染分支, 使用单独对象渲染方法处理音频对象,得到虚拟环绕空间声。
[0019] 所述混合模式空间声生成方法进一步包括检测音频对象的元数据,所述元数据包 括时间和对应的音频对象在三维空间的位置,还包括音频对象的发散度。
[0020] 所述混合模式空间声生成方法进一步包括根据音频对象的发散度决定该音频对 象的处理方式,如果音频对象的发散度大于第二阈值B,则将该音频对象暂时分配到 ambisonicij^分支。
[0021] 暂时分配结束后,根据音频对象处理设备的当前状况,计算运算复杂度,根据运算 复杂度确定是否重新分配音频对象。
[0022]运算复杂度通过统计音频对象处理设备的运算周期得出;1个ambisonic域分支相 当于T个单独音频分支的复杂度;当运算复杂度允许N个音频对象的时候,如果当前音频对 象有M个,单独对象植染分支能够处理0至N-T个音频对象,ambisonic域分支能够处理M-N+T 个音频对象,如果分配给单独对象植染分支的音频对象的个数H小于N-T个,则将ambi sonic 域分支中的1至N-T-H个音频对象中的任意多个音频对象重新分配给单独对象植染分支;所 述N大于T,M大于0,H大于或等于0。如果N小于T,则全部使用单独对象渲染分支;如果N等于 T,则全部使用ambi sonic域分支,或全部使用单独对象植染分支。
[0023] 在另一个优选实施例中,根据音源的发散度确定音频对象的分配,如果音源的发 散度高于X,则在满足复杂度情况下,把音频对象分配到ambi sonic分支,反之,把音频对象 分配到单独音源渲染分支;其中X由用户指定。
[0024] 所述混合模式空间声生成方法采用静态模式或者动态模式检测音频对象的个数 和检测音频对象的元数据;所述静态模式是指仅在最开始检测一次音频对象的个数和音频 对象的元数据;所述动态模式是指随着时间的推移,动态地调整如何将音频对象分配到单 独对象植染分支和ambi sonic域分支这两路分支。
[0025] 所述动态模式的具体做法是采用固定时间间隔采样或非固定时间采样;所述固定 时间间隔采样是指每间隔固定的时间段;检测一次音频对象的个数和音频对象的元数据; 所述非固定时间采样是指基于音频对象的起始时间,在每个新的音频对象开始和结束的时 刻检测一次音频对象的个数和音频对象的元数据。
[0026] 本发明具有如下优点:本发明所述混合模式空间声生成系统与方法增加了渲染控 制模块来对音频对象渲染进行控制,可以在产生高品质的3D音效的同时保持低复杂度。
【附图说明】
[0027] 图1是本发明所述混合模式空间声生成系统的结构示意图。
【具体实施方式】
[0028] 以下实施例用于说明本发明,但不用来限制本发明的范围。
[0029] 如图1所示,本发明提供一种混合模式空间声生成系统,包括渲染控制模块、 ambi sonic编码器、双耳转码器和耳机与头部跟踪装置,所述渲染控制模块分别与 ambisonic编码器和双耳转码器连接,所述ambisonic编码器与双耳转码器连接,所述耳机 与头部跟踪装置分别与ambisonic编码器和双耳转码器连接;所述渲染控制模块用于接收 一路或多路音频对象,检测音频对象的个数,当音频对象的个数大于第一阈值A时,激活 ambi sonic编码器构成的ambi sonic域分支,采用ambi sonic方法处理音频对象,得到虚拟环 绕空间声并传输到ambi sonic编码器,由ambi sonic编码器输出虚拟环绕空间声的双耳输出 虚拟环绕声信号;否则激活双耳转码器构成的单独对象渲染分支,使用单独对象渲染方法 处理音频对象,得到虚拟环绕空间声并输出虚拟环绕空间声的双耳输出虚拟环绕声信号。
[0030] 所述耳机与头部跟踪装置用于获取用户的头部旋转角度并将用户的头部旋转角 度分别传输给ambisonic编码器和双耳转码器;所述ambisonic编码器和双耳转码器分别根 据用户的头部旋转角度处理音频对象,得到虚拟环绕空间声。
[0031]根据用户的头部旋转角度处理音频对象是指根据用户的头部旋转角度,将音频对 象的B-格式信号旋转得到旋转后的B-格式信号;具体来说,是根据旋转角度生成旋转矩阵, 再根据所述旋转矩阵,对音频对象的所述B-格式信号(即待调整信号)进行旋转。所谓旋转, 即将旋转矩阵与待调整信号矩阵相乘,旋转不改变音频信号矩阵分量的大小,只改变分量 的方向。旋转矩阵的阶数与音频信号矩阵相适应。例如,当待调整信号矩阵为[w2x2Y2] T时, "1 〇 0 - 旋转矩阵为〇c〇s(6〇-sin((?) 当待调整信号矩阵为[W2X2Y2Z2] T时,旋转矩阵为 〇 siri(//) J . J 1 o o 〇 〇 cos(6〇 -sinp) 〇 〇 sin(0) cos(0) 〇 _〇 〇 0 丨 _ 〇
[0032]所述渲染控制模块还进一步用于检测音频对象的元数据,所述元数据包括时间和 对应的音频对象在三维空间的位置,还包括音频对象的发散度;所述渲染控制模块根据音 频对象的发散度决定该音频对象的处理方式,如果音频对象的发散度大于第二阈值B,则将 该音频对象暂时分配到ambisonic域分支;暂时分配结束后,根据音频对象处理设备的当前 状况,计算运算复杂度,根据运算复杂度确定是否重新分配音频对象;运算复杂度通过统计 音频对象处理设备的运算周期得出。
[0033]发散度(diffusivity)在这里表示声音是否在空间里是有明确的空间方位(如某 一点声源),还是比较发散如趋于环境声。发散度的范围是[0,1],如果是0,则代表音频对象 的发散度低,趋近于点声源。如果是1,则代表无方向的环境声。
[0034] 1个ambisonic域分支相当于T个单独音频分支的复杂度,而且无论1个ambisonic 域分支中分配了多少个音频对象,1个ambisonic域分支都相当于T个单独音频分支的复杂 度。通常情况下,T = 8,即1个ambisonic域分支相当于8个单独音频分支的复杂度。但是T的 具体取值需要根据实际的音频对象处理设备确定,不同的音频对象处理设备的T值取值有 可能不同。
[0035] 当运算复杂度允许N个音频对象的时候,如果当前音频对象有M个,单独对象渲染 分支能够处理0至N-T个音频对象,ambisonic域分支能够处理M-N+T个音频对象,如果分配 给单独对象植染分支的音频对象的个数H小于N-T个,则将ambisonic域分支中的1至N-T-H 个音频对象中的任意多个音频对象重新分配给单独对象植染分支;所述N大于T,M大于0,H 大于或等于0。如果N小于T,则全部使用单独对象渲染分支;如果N等于T,则全部使用 ambisonic域分支,或全部使用单独对象植染分支。
[0036] 例如,当运算复杂度允许8个音频对象的时候,如果当前音频对象有8个,暂时分配 到单独对象植染分支的音频对象的个数为3个,暂时分配到amb i soni c域分支中的音频对象 的个数为5个,由于1个ambisonic域分支相当于T(T = 8)个单独音频分支的复杂度,而且无 论1个ambisonic域分支中分配了多少个音频对象,1个ambisonic域分支都相当于T(T = 8) 个单独音频分支的复杂度,因此"暂时分配到单独对象渲染分支的音频对象的个数为3个, 暂时分配到ambisonic域分支中的音频对象的个数为5个"表示运算复杂度需要允许3+8 = 11个音频对象,而实际情况是这个示例中运算复杂度只允许8个音频对象。因此需要将 ambisonic域分支中的5个音频对象重新分配给单独对象植染分支(这样相当于8个音频对 象全部分给单独对象渲染分支,满足运算复杂度允许8个音频对象的要求),或者将单独对 象植染分支中的3个音频对象重新分配给ambisonic域分支(这样相当于将8个音频对象全 部分给ambisonic域分支,由于1个ambisonic域分支都相当于T(T = 8)个单独音频分支的复 杂度,因此也满足运算复杂度允许8个音频对象的要求)。
[0037]当运算复杂度允许8个音频对象的时候,如果当前音频对象有14个,暂时分配到单 独对象植染分支的音频对象的个数为3个,暂时分配到ambi soni c域分支中的音频对象的个 数为11个,由于"暂时分配到单独对象渲染分支的音频对象的个数为3个,暂时分配到 ambi sonic域分支中的音频对象的个数为11个"表示运算复杂度需要允许3+T个音频对象 (通常情况下T = 8,即3+T=ll个音频对象,实际运算复杂度只允许8个音频对象),因此需要 重新分配。将0至N-T个音频对象(N指运算复杂度允许N个音频对象,这个示例中N = 8,通常 情况下T = 8)分配给单独对象渲染分支,由于这里的N-T = 8-8 = 0,即将0个音频对象分配给 单独对象渲染分支,因此需要将暂时分配到单独对象渲染分支的3个音频对象重新分配给 ambi sonic域分支,实际分配给ambi sonic域分支的音频对象的个数为M-N+T个(M指当前音 频对象的个数,这个示例中M= 14,M-N+T即14-8+8= 14个),即实际分配给ambisonic域分支 的音频对象的个数为14个。也就是说,重新分配的结果是将暂时分配到单独对象渲染分支 的3个音频对象重新分配给ambi sonic域分支,使得当前14个音频对象都分配到ambisonic 域分支。
[0038]当运算复杂度允许12个音频对象的时候,如果当前音频对象有20个(即M = 20),暂 时分配到单独对象植染分支的音频对象的个数为3个,暂时分配到ambisonic域分支中的音 频对象的个数为17个,由于"暂时分配到单独对象渲染分支的音频对象的个数为3个,暂时 分配到ambisonic域分支中的音频对象的个数为17个"表示运算复杂度需要允许3+T个音频 对象(通常情况下T = 8,即3+T=ll个音频对象,实际运算复杂度允许12个音频对象),因此 可以进行重新分配。由于分配给单独对象渲染分支的音频对象的个数为3个(即H=3),小于 N-T 即12-8 = 4个,因此可以将ambi soni c域分支中的1至N-T-H即12-8-3 = 1个音频对象中的 任意多个音频对象重新分配给单独对象植染分支,即可以将ambisonic域分支中的1个音频 对象重新分配给单独对象植染分支。
[0039] 在另一个实施例中,根据发散度确定音频对象的分配。
[0040] 如果音频对象的发散度高于X(0<X<1),则在满足复杂度情况下,把音源分配到 ambisonic分支,反之,把音频对象分配到单独音频对象植染分支。
[0041] 在一个优选实施例中,X = 0.5,即如果音源的发散度高于0.5(实际上并不限于这 个值,X可以在0-1之间取值,或者X由用户指定),则在满足复杂度情况下,把音源分配到 ambisonic分支,反之,把音源分配到单独音源植染分支。
[0042] 本发明还提供一种混合模式空间声生成方法,包括以下步骤:
[0043]输入一路或多路音频对象;
[0044] 检测音频对象的个数,当音频对象的个数大于第一阈值A时,激活ambisonic域分 支,采用ambisonic方法处理音频对象,得到虚拟环绕空间声;否则激活单独对象植染分支, 使用单独对象渲染方法处理音频对象,得到虚拟环绕空间声。
[0045] 在一个优选实施例中,所述第一阈值A等于8。在其他的实施例中,第一阈值A可以 由技术人员根据实际需求任意指定。
[0046] 所述混合模式空间声生成方法进一步包括检测音频对象的元数据,所述元数据包 括时间和对应的音频对象在三维空间的位置,还包括音频对象的发散度。
[0047] 所述混合模式空间声生成方法进一步包括根据音频对象的发散度决定该音频对 象的处理方式,如果音频对象的发散度大于第二阈值B,则将该音频对象暂时分配到 ambisonicij^分支。
[0048] 在一个优选实施例中,所述第二阈值B等于0.5。在其他的实施例中,第二阈值B可 以由技术人员根据实际需求任意指定。
[0049] 暂时分配结束后,根据音频对象处理设备的当前状况,计算运算复杂度,根据运算 复杂度确定是否重新分配音频对象。
[0050] 运算复杂度通过统计音频对象处理设备的运算周期可以得出。当运算复杂度允许 N个音频对象的时候,如果当前音频对象有M个,单独对象渲染分支能够处理0至N-T个音频 对象,ambi sonic域分支能够处理M-N+T个音频对象,如果分配给单独对象植染分支的音频 对象的个数H小于N-T个,则将ambi soni c域分支中的1至N-T-H个音频对象中的任意多个音 频对象重新分配给单独对象渲染分支;所述N大于或等于T,M大于0,H大于或等于0。如果N小 于T,则全部使用单独对象渲染分支;如果N等于T,则根据音频对象发散度,全部使用 ambisonic域分支,或全部使用单独对象植染分支。
[0051]在另一个优选实施例中,根据音源的发散度确定音频对象的分配,如果音源的发 散度高于X,则在满足复杂度情况下,把音源分配到ambisonic分支,反之,把音源分配到单 独音源植染分支;其中X由用户指定。
[0052]根据前面的描述,单独对象植染方法和ambi sonic方法处理音频对象在效率以及 效果上各有优缺点。单独对象渲染方法的优点是定位准确;单独对象渲染方法的缺点是如 果场景复杂,含有大量的音频对象,则复杂度会变得非常高,对于很多音频播放终端,这将 导致功耗过大,甚至无法播放。ambi sonic方法的优点是运算复杂度基本保持稳定, ambisonic方法的缺点是在声音植染灵活性有所欠缺,及无法对单独音源进行精准的控制。
[0053] 因此本发明所述混合模式空间声生成方法需要在单独对象植染方法和ambisonic 方法之间做出选择,确定将多少个音频对象分配给单独对象渲染分支,将多少个音频对象 分配给ambi sonic域分支。比如在需要定位准确的时候,在满足运算复杂度要求的前提下, 将尽可能多的音频对象分配给单独对象渲染分支。在运算量非常大的时候,则将更多的音 频对象分配给ambi sonic域分支。
[0054] 本发明所述混合模式空间声生成方法采用静态模式或者动态模式检测音频对象 的个数和检测音频对象的元数据。所述静态模式是指仅在最开始检测一次音频对象的个数 和音频对象的元数据。但是由于在空间声生成的过程中,每个时刻音频对象的个数是不一 样的,环境因素也在发生变化,因此静态模式并不是最优的解决方案,但是优点是比较简 单。
[0055] 所述动态模式是指随着时间的推移,动态地调整如何将音频对象分配到单独对象 渲染分支和ambisonic域分支这两路分支。具体的做法可以采用固定时间间隔采样或非固 定时间采样。所述固定时间间隔采样是指每间隔固定的时间段(例如每间隔一秒钟)检测一 次音频对象的个数和音频对象的元数据。所述非固定时间采样是指基于音频对象的起始时 间,在每个新的音频对象开始和结束的时刻检测一次音频对象的个数和音频对象的元数 据。
[0056]虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本 发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此, 在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
【主权项】
1. 一种混合模式空间声生成系统,其特征在于,所述混合模式空间声生成系统包括渲 染控制模块、ambisonic编码器、双耳转码器和耳机与头部跟踪装置,所述渲染控制模块分 别与ambisonic编码器和双耳转码器连接,所述ambisonic编码器与双耳转码器连接,所述 耳机与头部跟踪装置分别与ambisonic编码器和双耳转码器连接;所述渲染控制模块用于 接收一路或多路音频对象,检测音频对象的个数,当音频对象的个数大于第一阈值A时,激 活ambisonic编码器构成的ambisonic域分支,采用ambisonic方法处理音频对象,得到虚拟 环绕空间声并传输到ambisonic编码器,由ambisonic编码器输出虚拟环绕空间声的双耳输 出虚拟环绕声信号;否则激活双耳转码器构成的单独对象渲染分支,使用单独对象渲染方 法处理音频对象,得到虚拟环绕空间声并输出虚拟环绕空间声的双耳输出虚拟环绕声信 号。2. 如权利要求1所述混合模式空间声生成系统,其特征在于,所述渲染控制模块还进一 步用于检测音频对象的元数据,所述元数据包括时间和对应的音频对象在三维空间的位 置,还包括发散度;所述渲染控制模块根据音频对象的发散度决定该音频对象的处理方式, 如果音频对象的发散度大于第二阈值B,则将该音频对象暂时分配到ambisonic域分支;暂 时分配结束后,根据音频对象处理设备的当前状况,计算运算复杂度,根据运算复杂度确定 是否重新分配音频对象;运算复杂度通过统计音频对象处理设备的运算周期得出。 3 ·如权利要求2所述混合模式空间声生成系统,其特征在于,1个ambisonic域分支相当 于T个单独音频分支的复杂度;当运算复杂度允许N个音频对象的时候,如果当前音频对象 有M个,单独对象植染分支能够处理0至N-T个音频对象,ambisonic域分支能够处理M-N+T个 音频对象,如果分配给单独对象植染分支的音频对象的个数H小于N-T个,则将ambisonic域 分支中的1至N-T-H个音频对象中的任意多个音频对象重新分配给单独对象植染分支;所述 N大于T,M大于0,H大于或等于0;如果N小于T,则全部使用单独对象渲染分支;如果N等于T, 则根据音频对象发散度,全部使用ambisonic域分支,或全部使用单独对象植染分支。4. 如权利要求1所述混合模式空间声生成系统,其特征在于,所述渲染控制模块根据音 频对象的发散度确定音频对象的分配;如果音频对象的发散度高于X,则在满足复杂度的情 况下,把音频对象分配到ambisonic域分支,反之,把音频对象分配到单独对象植染分支;其 中X由用户指定。5. -种混合模式空间声生成方法,其特征在于,所述混合模式空间声生成方法包括以 下步骤: 输入一路或多路音频对象; 检测音频对象的个数,当音频对象的个数大于第一阈值A时,激活amb i soni c域分支,采 用ambisonic方法处理音频对象,得到虚拟环绕空间声;否则激活单独对象植染分支,使用 单独对象渲染方法处理音频对象,得到虚拟环绕空间声。6. 如权利要求5所述混合模式空间声生成方法,其特征在于,所述混合模式空间声生成 方法进一步包括检测音频对象的元数据,所述元数据包括时间和对应的音频对象在三维空 间的位置,还包括音频对象发散度。7. 如权利要求6所述混合模式空间声生成方法,其特征在于,所述混合模式空间声生成 方法进一步包括根据音频对象的发散度决定该音频对象的处理方式,如果音频对象的发散 度大于第二阈值B,则将该音频对象暂时分配到ambisonic域分支。8. 如权利要求7所述混合模式空间声生成方法,其特征在于,暂时分配结束后,根据音 频对象处理设备的当前状况,计算运算复杂度,根据运算复杂度确定是否重新分配音频对 象;运算复杂度通过统计音频对象处理设备的运算周期得出;当运算复杂度允许N个音频对 象的时候,如果当前音频对象有M个,单独对象植染分支能够处理O至N-T个音频对象, ambi sonic域分支能够处理M-N+T个音频对象,如果分配给单独对象植染分支的音频对象的 个数H小于N-T个,则将ambi sonic域分支中的1至N-T-H个音频对象中的任意多个音频对象 重新分配给单独对象渲染分支;所述N大于T,M大于0,H大于或等于0;如果N小于T,则全部使 用单独对象植染分支;如果N等于T,则根据音频对象发散度,全部使用ambi sonic域分支,或 全部使用单独对象渲染分支。9. 如权利要求6所述混合模式空间声生成方法,其特征在于,根据音源的发散度确定音 频对象的分配,如果音源的发散度高于X,则在满足复杂度情况下,把音频对象分配到 ambi sonic分支,反之,把音频对象分配到单独音源植染分支;其中X由用户指定。10. 如权利要求8或9所述混合模式空间声生成方法,其特征在于,所述混合模式空间声 生成方法采用静态模式或者动态模式检测音频对象的个数和检测音频对象的元数据;所述 静态模式是指仅在最开始检测一次音频对象的个数和音频对象的元数据;所述动态模式是 指随着时间的推移,动态地调整如何将音频对象分配到单独对象植染分支和ambi sonic域 分支这两路分支;所述动态模式的具体做法是采用固定时间间隔采样或非固定时间采样; 所述固定时间间隔采样是指每间隔固定的时间段;检测一次音频对象的个数和音频对象的 元数据;所述非固定时间采样是指基于音频对象的起始时间,在每个新的音频对象开始和 结束的时刻检测一次音频对象的个数和音频对象的元数据。
【文档编号】H04S7/00GK105959905SQ201610268371
【公开日】2016年9月21日
【申请日】2016年4月27日
【发明人】孙学京, 张晨
【申请人】北京时代拓灵科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1