在音频编解码器中维持感觉不和谐和声音定位提示的不变性的制作方法

文档序号:33964832发布日期:2023-04-26 17:57阅读:53来源:国知局
在音频编解码器中维持感觉不和谐和声音定位提示的不变性的制作方法

实施例涉及编码音频流。


背景技术:

1、音频编码器(例如,mp3编码器、opus编码器)通常具有两个量化目标。第一目标是匹配信号(例如,通过选择时间窗和其他量化决策),并且第二目标是尊重听力阈值(例如,利用频率和时间掩蔽两者)。

2、量化包括使用诸如窗口化dct的积分变换,从而产生实值系数。系数以整数形式存储。系数的整数化产生误差,其有时被称为量化误差。为了最大的压缩节省,将量化的量最大化。


技术实现思路

1、在一个一般方面中,一种设备、系统、非暂时性计算机可读介质(其上存储有可以在计算机系统上执行的计算机可执行程序代码)和/或方法可以利用一种方法来执行过程,该方法包括:接收基于音频流的多个音频通道,将基于至少一个声学感知算法的模型应用于所述多个音频通道以生成第一模型化音频流,使用第一组量化参数对所述多个音频通道进行量化,使用第一组量化参数对量化的多个音频通道进行去量化,将基于至少一个声学感知算法的模型应用于去量化的多个音频通道以生成第二模型化音频流,对第一模型化音频流和第二模型化音频流进行比较,响应于确定第一模型化音频流和第二模型化音频流的比较不符合准则,生成第二组量化参数,以及使用第二组量化参数对所述多个音频通道进行量化。

2、在另一个一般方面中,一种设备、系统、非暂时性计算机可读介质(其上存储有可以在计算机系统上执行的计算机可执行程序代码)和/或方法可以利用一种方法来执行过程,该方法包括:接收音频流,将基于至少一个声学感知算法的模型应用于音频流以生成第一模型化音频流,使用第一组量化参数来压缩音频流,使用第一组量化参数将压缩的音频流解压缩,将基于至少一个声学感知算法的模型应用于解压缩的音频流以生成第二模型化音频流,对第一模型化音频流和第二模型化音频流进行比较,响应于确定第一模型化音频流和第二模型化音频流的比较不符合准则,生成第二组量化参数,以及使用第二组量化参数来压缩音频流。

3、实施方式可以包括以下特征中的一个或多个。例如,基于至少一个声学感知算法的模型可以是不和谐模型。基于至少一个声学感知算法的模型可以是定位模型。基于至少一个声学感知算法的模型可以是显著性模型。基于至少一个声学感知算法的模型可以是使用监督学习算法和无监督学习算法中的至少一个来训练的经过训练的机器学习模型。基于至少一个声学感知算法的模型可以是基于在频域中应用于音频通道的频率和水平算法。基于至少一个声学感知算法的模型可以是基于至少两个频率分量之间的掩蔽水平的计算。基于至少一个声学感知算法的模型可以是基于时间增量比较、水平增量比较以及应用于与左音频通道和右音频通道相关联的瞬态的传递函数中的至少一个。基于至少一个声学感知算法的模型可以是基于在频域中应用于音频通道的频率、水平以及耳蜗放置算法。



技术特征:

1.一种方法,包括:

2.根据权利要求1所述的方法,其中,所述基于至少一个声学感知算法的模型是不和谐模型。

3.根据权利要求1所述的方法,其中,所述基于至少一个声学感知算法的模型是定位模型。

4.根据权利要求1所述的方法,其中,所述基于至少一个声学感知算法的模型是显著性模型。

5.根据权利要求1至4中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是使用监督学习算法和无监督学习算法中的至少一个来训练的经过训练的机器学习模型。

6.根据权利要求1至5中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是基于在频域中应用于所述音频通道的频率和水平算法。

7.根据权利要求1至6中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是基于至少两个频率分量之间的掩蔽水平的计算。

8.根据权利要求1至7中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是基于时间增量比较、水平增量比较以及应用于与左音频通道和右音频通道相关联的瞬态的传递函数中的至少一个。

9.根据权利要求1至7中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是基于在频域中应用于所述音频通道的频率、水平以及耳蜗放置算法。

10.一种方法,包括:

11.根据权利要求10所述的方法,其中,所述基于至少一个声学感知算法的模型是不和谐模型。

12.根据权利要求10所述的方法,其中,所述基于至少一个声学感知算法的模型是定位模型。

13.根据权利要求10所述的方法,其中,所述基于至少一个声学感知算法的模型是显著性模型。

14.根据权利要求10至13中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是使用监督学习算法和无监督学习算法中的至少一个来训练的经过训练的机器学习模型。

15.根据权利要求10至14中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是基于在频域中应用于所述音频通道的频率和水平算法。

16.根据权利要求10至15中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是基于至少两个频率分量之间的掩蔽水平的计算。

17.根据权利要求10至16中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是基于时间增量比较、水平增量比较以及应用于与左音频通道和右音频通道相关联的瞬态的传递函数中的至少一个。

18.根据权利要求10至17中任一项所述的方法,其中,所述基于至少一个声学感知算法的模型是基于在频域中应用于所述音频通道的频率、水平以及耳蜗放置算法。

19.一种装置,包括一个或多个处理器和存储指令的存储器,所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1至9和/或权利要求10至18中任一项所述的方法。

20.一种包含指令的非暂时性计算机可读介质,所述指令在被执行时使计算机系统的处理器执行根据权利要求1至9和/或权利要求10至18中任一项所述的方法的步骤中的任何步骤。


技术总结
一种方法包括:接收基于音频流的多个音频通道,将基于至少一个声学感知算法的模型应用于多个音频通道以生成第一模型化音频流,使用第一组量化参数对多个音频通道进行量化,使用第一组量化参数对量化的多个音频通道进行去量化,将基于至少一个声学感知算法的模型应用于去量化的多个音频通道以生成第二模型化音频流,对第一模型化音频流和第二模型化音频流进行比较,响应于确定第一模型化音频流和第二模型化音频流的比较不符合准则,生成第二组量化参数,以及使用第二组量化参数对多个音频通道进行量化。

技术研发人员:于尔基·安特罗·阿拉奎加拉,马丁·布鲁斯
受保护的技术使用者:谷歌有限责任公司
技术研发日:
技术公布日:2024/1/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1