本公开总体涉及沉浸式语音和音频上下文中的音频处理。
背景技术:
1、语音和音频编码器/解码器(“编解码器”)标准开发最近专注于开发用于沉浸式语音和音频服务(ivas)的多通道编解码器。ivas预计将支持一系列音频服务能力,包括但不限于单声道到立体声上混和完全沉浸式音频编码、解码和渲染。ivas预期得到广泛的设备、端点和网络节点的支持,包括但不限于:移动和智能手机、电子平板电脑、个人电脑、会议电话、会议室、虚拟现实(vr)和增强现实(ar)设备、家庭影院设备和其他合适的设备。这些设备、端点和网络节点可以具有用于声音捕获和渲染的各种声学接口。多通道编解码器在解码器输出处重新生成编码器输入音频场景的能力取决于被编码的下混通道的数量、单声道编解码器引入的编码伪像、解码器中使用的去相关器相对于主下混通道输出不相关下混通道的能力、以及被编码的辅助信息的正确性。在由于缺少比特而导致的低比特率下,通常需要在保留音频本质和保留输入场景的背景噪声环境之间进行权衡。保持音频本质在感知上更重要,因此它会导致背景噪声环境崩溃。
技术实现思路
1、公开了用于多通道编解码器中的空间噪声填充的实施例。在一个实施例中,空间噪声填充包括:生成具有期望空间和频谱形状的多通道噪声,其中来自编码器的附加信息最少或没有附加信息;将多通道噪声添加到解码器的最终上混输出,以重新生成背景噪声环境并填充空间空洞。多通道噪声的频谱形状由主下混通道确定,该主下混通道是例如一阶高保真度立体声响复制(foa)输入信号格式的w通道的表示,以及中央侧(m/s)输入信号格式的中通道的表示。多通道噪声的空间形状由来自输入空间音频场景的空间信息确定。该空间信息可以从编码器发送的辅助信息(提取的空间元数据)中提取,或者从解码器处的上混输出的空间特性中提取,或者从两者中提取。在一个实施例中,多通道噪声的空间形状是从编码器发送的辅助信息(空间元数据)和解码器处的上混输出的空间特性两者中提取的。
2、本文公开的其他实施例涉及系统、装置和计算机可读介质。所公开的实施例的细节在附图和下面的描述中阐述。其他特征、目的和优点从说明书、附图和权利要求中显而易见。
3、本文公开的特定实施例提供了以下优点中的一个或多个。所公开的空间噪声填充技术通过改善多通道音频信号的感知环境,解决了多通道编解码器中在低比特率下噪声环境崩溃的问题。
1.一种通过生成空间空洞填充噪声在多通道编解码器中重新生成背景噪声环境的方法,包括:
2.根据权利要求1所述的方法,其中在一阶高保真度立体声响复制信号的w通道或中央侧(m/s)信号的中央通道的表示中,基于背景噪声环境的频谱形状执行频谱整形。
3.根据权利要求1或2所述的方法,其中,多通道噪声信号的不相关通道中的每个通道具有与其它通道相似的频谱形状。
4.根据权利要求1至3中任一项所述的方法,其中,对多通道噪声信号进行空间整形是基于所述多通道编解码器的解码输出的协方差估计的。
5.根据权利要求1至4中任一项所述的方法,其中,对多通道噪声信号进行空间整形是基于从输入音频信号中提取的空间元数据的。
6.根据权利要求1至5中任一项所述的方法,还包括通过随时间平滑多通道噪声信号的增益来获得所述多通道噪声信号的频谱形状。
7.根据权利要求1至6中任一项所述的方法,其中基于一个或多个可调阈值来限制多通道噪声信号的动态范围。
8.根据权利要求1至7中任一项所述的方法,其中,将多通道噪声信号添加到解码的多通道输出以便合成输入背景噪声环境以掩蔽空间环境崩溃。
9.根据权利要求1至8中任一项所述的方法,其中,多通道噪声信号仅被添加到参数化上混的多通道输出。
10.根据权利要求1至9中任一项所述的方法,其中,多通道编解码器是沉浸式语音和音频服务(ivas)编解码器。
11.根据权利要求1至10中任一项所述的方法,其中,多通道噪声信号空间整形和噪声添加是在频带域或宽带域中进行的。
12.根据权利要求1至11中任一项所述的方法,其中多通道噪声信号仅被添加到高频。
13.一种音频处理系统,包括:
14.一种非暂态计算机可读介质,其存储指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1-12中任一项的操作。