基于对象的音频编解码器中不连续传输的方法和设备与流程

文档序号:42297036发布日期:2025-06-27 18:35阅读:45来源:国知局

本公开涉及声音编解码(code),具体地但非排他地涉及基于对象的音频编解码器中的不连续传输(dtx)的方法和设备。在本公开和所附权利要求中:(a)术语“音频”可以与语言、音乐和任何其他声音有关。(b)术语“多声道”可以与两个或更多个声道有关。(c)术语“立体声(stereo)”是“立体声(stereophonic)”的缩写。(d)术语“单声道(mono)”是“单声道(monophonic)”的缩写。(e)术语“基于对象的音频”旨在将听觉场景表示为单个元素(也称为音频对象)的集合。此外,“基于对象的音频”可以包括例如语言、音乐和包括一般音频声音的任何其他声音。(f)术语“音频对象”旨在指定具有相关联的元数据的音频流。例如,在本公开中,“音频对象”被称为具有元数据的独立音频流(ism)。(g)术语“音频流”旨在以比特流表示音频波形,例如语言、音乐和/或包括一般音频声音的任何其他声音,并且可以由一个声道(单声道)组成,尽管也可以考虑包括两个声道(立体声)的多声道。(h)术语“元数据”旨在表示描述例如用于将原始或编解码音频对象翻译到再现系统的音频流和艺术(artistic)意图的信息的集合。元数据通常描述每一单个音频对象的空间属性,例如位置、定向、音量、宽度等。作为非限制性示例,在本公开的上下文中,考虑元数据的两个集合:-输入元数据:用作编解码器的输入的未量化的元数据表示;本公开不限于输入元数据的特定格式;和-编解码的元数据:形成从编码器传输到解码器的比特流的一部分的量化和编解码的元数据。(i)术语“音频格式”旨在指定实现沉浸式音频体验的方法。(j)术语“再现系统”旨在指定解码器中的元素,该元素能够在再现侧使用所传输的元数据和艺术意图来渲染音频对象,例如但不排他地在收听者周围的3d(三维)音频空间中的音频对象。可以对目标扬声器布局(例如5.1环绕)或耳机执行渲染,同时可以例如响应于来自头部跟踪设备的反馈来动态地修改元数据。可以设想其他类型的渲染。


背景技术:

1、不连续传输(dtx)在移动通信系统中用于在语言或一般音频暂停期间关闭无线电发送机。dtx的使用节省了移动站中的功率并且增加了电池再充电之间所需的时间。它还降低了一般干扰水平,从而提高了传输质量。然而,在语言或一般音频暂停期间,如果信道被完全切断,则通常与语言或一般音频一起传输的背景噪声也消失。结果是在通信的接收端产生不自然的发声音频信号(静音)。

2、代替在语言或一般音频暂停期间完全关闭传输,已经开发了许多技术,其中生成表征背景噪声的参数并以低比特速率在静音插入描述符(sid)帧比特流中传输。然后可以在接收器侧(解码器)使用这些参数,通常称为舒适噪声(cn)参数,以尽可能多地在发送器侧(编码器)重新生成背景噪声,该背景噪声与背景噪声的频谱和时间内容有关。重新生成背景噪声的过程被称为舒适噪声生成(cng)。

3、历史上,会话电话是用单声道手机来实施的,单声道手机仅具有一个换能器,以仅向用户的一只耳朵输出声音。因此,单声道编解码器的sid可以实现低比特速率。在过去的十年中,用户已经开始结合耳机使用他们的便携式手机来通过他们的两只耳朵接收声音,主要是听音乐,但有时也听语言。然而,当使用便携式手机来发送和接收会话语言时,内容仍然是单声道的,但是当使用耳机时呈现给用户的两只耳朵。

4、利用3gpp(第三代合作伙伴计划)语音编解码标准实施用于增强语言服务(evs)的编解码器,如参考文献[1](其全部内容通过引用并入本文)中所述,编解码音频声音(例如语言、音乐和通过便携式手机发送和接收的任何其他声音)的质量已经显著提高。下一个自然步骤是传输立体声信息,使得接收器尽可能接近在通信链路的另一端捕获的现实生活音频场景。

5、此外,在过去几年中,音频的生成、记录、表示、编解码、传输和再现正在朝着收听者的增强的、交互式的和沉浸式的体验发展。沉浸式体验可以被描述为例如在声音来自所有方向时深度参与或牵涉到音频场景中的状态。在沉浸式音频(也称为3d(三维)音频)中,声音映像(image)在收听者周围的所有三个维度中被再现,考虑到广泛的声音特性,如音色、方向性、混响、透明度和准确性的(听觉)宽敞度。沉浸式音频被产生用于特定音频回放或再现系统,诸如基于扬声器的系统、集成再现系统(条形音箱)或耳机。然后,音频再现系统的交互性可以包括例如调整声级、改变声音的位置或选择不同语言用于再现的能力。

6、有三种基本方法(下面也称为音频格式)来实现沉浸式音频体验。

7、第一种方法是基于声道的音频,其中使用多个间隔开的麦克风来捕获来自不同方向的声音,而一个麦克风对应于特定扬声器布局中的一个音频声道。每个记录的声道被提供给特定位置中的扬声器。基于声道的音频的示例包括例如立体声、5.1环绕声、5.1+4等。

8、第二种方法是基于场景的音频(sba),其通过维度分量的组合将局部化空间上的期望声场表示为时间的函数。表示基于场景的音频的信号独立于声源位置,而声场必须在渲染再现系统处变换为所选择的扩音器布局。基于场景的音频的示例是高保真度立体声响复制。

9、最后的第三沉浸式音频方法是基于对象的音频,其将听觉场景表示为单独的音频元素(例如歌手、鼓、吉他)的集合,伴随有关于例如它们在音频场景中的位置的信息,使得它们可以在再现系统处被渲染到它们的预期位置。这给予基于对象的音频很大的灵活性和交互性,因为每个对象保持离散并且可以被单独操纵。

10、除了基本方法之外,正在开发新的多声道编解码技术,诸如例如参考文献[5]中描述的元数据辅助空间音频(masa),参考文献[5]的全部内容通过引用并入本文。在masa方法中,在masa分析器中生成masa元数据(例如方向、能量比、扩展相干性、距离、环绕相干性,所有这些都在若干时频时隙中),其被量化、编解码并传入到比特流中,而masa音频声道被视为由核心编码器编解码的(多)单声道或(多)立体声传送信号。在masa解码器处,masa元数据然后引导解码和渲染过程以重建输出空间声音。

11、用于实现沉浸式体验的上述音频方法中的每一个都存在优点和缺点。因此,常见的是,代替仅一种音频方法,在复杂的音频系统中组合若干音频方法以创建沉浸式听觉场景。示例可以是将基于场景的音频(sba)或masa与基于对象的音频(例如sba或masa与几个离散音频对象)组合的音频系统。

12、近年来,3gpp开始致力于基于如参考文献[1]中描述的evs编解码器开发如参考文献[2]中描述的用于被称为ivas(沉浸式语音和音频服务)的沉浸式服务的3d音频编解码器,参考文献[2]的全部内容通过引用并入本文。ivas编解码器是多信道编解码器,其中比特速率通常随着经编解码及发送信道的数量增加而要求更高。

13、因此,多信道编解码器中的dtx操作需要解决(a)保持低sid比特速率与(b)使用要表示的大量信道之间的权衡。例如,如果每个信道将由其自己的sid表示,则总编解码器sid比特速率将太高。因此,需要有效的dtx方法和sid编解码。


技术实现思路

1、根据第一方面,本公开涉及一种用于基于对象的音频编解码器中的音频对象的不连续传输(dtx)的方法,所述音频对象包括各自的音频流,所述方法包括:分析音频流以产生关于音频对象的语音或信号活动信息;响应于关于所述音频对象的所述活动信息,检测所述音频对象的dtx信号段和所述dtx信号段内的sid帧,其中,所述段和帧检测包括(a)更新非活动帧的全局sid计数器,以及(b)取决于所述全局sid计数器的值,用信号通知所述dtx信号段内检测到的sid帧;以及使用sid帧编解码对所述用信号通知的、检测到的sid帧进行编码(encode)。

2、根据另一方面,本公开涉及一种用于基于对象的音频编解码器中的音频对象的不连续传输(dtx)的设备,所述音频对象包括各自的音频流,所述设备包括:音频流的分析器,用于产生关于音频对象的语音或信号活动信息;dtx控制器,用于响应于关于音频对象的活动信息,检测音频对象的dtx信号段和dtx信号段内的sid帧,其中dtx控制器(a)更新非活动帧的全局sid计数器,以及(b)取决于全局sid计数器的值,用信号通知dtx信号段内检测到的sid帧;以及使用sid帧编解码的用信号通知的、检测到的sid帧的编码器。

3、根据另一方面,本公开描述了一种用于解码不连续传输(dtx)操作期间的音频对象的方法,每个音频对象包括具有元数据(md)的音频流,md包括至少一个md参数,该方法包括:对元数据进行解码,包括调整md参数的值以降低帧之间的所述md参数的差异;以及解码所述音频流。

4、根据第四方面,本公开公开了一种用于解码不连续传输(dtx)操作期间的音频对象的设备,每个音频对象包括具有元数据(md)的音频流,md包括至少一个md参数,该设备包括:元数据解码器,用于对元数据进行解码,其中元数据解码器调整md参数的值以降低帧之间的所述md参数的差异;以及音频流解码器,用于解码音频流。

5、(a)用于基于对象的音频编解码器中的音频对象的不连续传输(dtx)的方法和设备以及(b)用于解码不连续传输(dtx)操作期间的音频对象的方法和设备的前述和其他目的、优点和特征将在阅读仅通过示例的方式参考附图给出的其说明性实施例的以下非限制性描述时变得更加显而易见。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1