音频编码方法、装置、计算机可读介质及电子设备与流程

文档序号：38034733发布日期：2024-05-17 13:18阅读：28来源：国知局

本申请属于人工智能，具体涉及一种音频编码方法、音频编码装置、计算机可读介质以及电子设备。

背景技术：

1、音频信号在时域和频域上具有相关性，也就是存在数据冗余，音频编码时将原始采集到的原始音频信号的数据冗余进行压缩，从而降低语音传输带宽和存储空间，同时保持较好的音频质量。

2、目前音频编码方案是一种固定配置方案，选用的编码器是固定不变的，编码参数等不会因为信号特点而做策略性的改变，但是不同的音频编码器有其各自的适用场景和适用范围，并且在相同的音质目标下，不同信号编码时所需要的编码参数是不同的，如果采用固定的音频编码方案，会导致编码压缩比和编解码后的音频质量不是综合最优的。

技术实现思路

1、本申请的目的在于提供一种音频编码方法、音频编码装置、计算机可读介质以及电子设备，能够克服相关技术中存在的音频压缩比低、音质较差的问题。

2、本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

3、根据本申请实施例的一个方面，提供一种音频编码方法，该方法包括：获取音频信号，对所述音频信号进行预处理以获取与所述音频信号中各音频帧对应的功率谱特征；根据所述功率谱特征中各频点对应的功率谱值获取与各所述音频帧对应的有效采样率；将所述功率谱特征输入至分类模型，通过所述分类模型对所述功率谱特征进行特征提取，以获取与各所述音频帧对应的声音信号类型；根据所述有效采样率、所述声音信号类型和所述音频帧对应的声道数确定与各所述音频帧对应的编码策略。

4、根据本申请实施例的一个方面，提供一种音频编码装置，该装置包括：预处理模块，用于获取音频信号，对所述音频信号进行预处理以获取与所述音频信号中各音频帧对应的功率谱特征；采样率确定模块，用于根据所述功率谱特征中各频点对应的功率谱值获取与各所述音频帧对应的有效采样率；信号类型识别模块，用于将所述功率谱特征输入至分类模型，通过所述分类模型对所述功率谱特征进行特征提取，以获取与各所述音频帧对应的声音信号类型；编码策略确定模块，用于根据所述有效采样率、所述声音信号类型和所述音频帧对应的声道数确定与各所述音频帧对应的编码策略。

5、根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的音频编码方法。

6、根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的音频编码方法。

7、根据本申请实施例的一个方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行如以上技术方案中的音频编码方法。

8、本申请实施例提供的音频编码方法，首先获取音频信号并对该音频信号进行预处理以获取与该音频信号中各音频帧对应的功率谱特征；接着根据功率谱特征中各频点对应的功率谱值获取与各音频帧对应的有效采样率；将所述功率谱特征输入至分类模型，通过该分类模型对功率谱特征进行特征提取，以获取与各音频帧对应的声音信号类型；最后根据有效采样率、声音信号类型和音频帧对应的声道数确定与各音频帧对应的编码策略。本申请能够基于音频信号中各音频帧对应的功率谱特征确定各音频帧的有效采样率和对应的声音信号类型，并根据有效采样率、声音信号类型和音频帧对应的声道数确定与各音频帧对应的编码策略，通过确定与每个音频帧对应的编码策略并对各音频帧进行编码，能够避免采用固定不变的编码方案对音频信号中的所有音频帧进行编码，进而能够提高音频编码的质量，增加编码压缩比，节省带宽和存储空间。

9、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

技术特征：

1.一种音频编码方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述音频信号进行预处理以获取与所述音频信号中各音频帧对应的功率谱特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据各所述音频帧对应的频域特征确定与各所述音频帧对应的功率谱特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述功率谱特征中各频点对应的功率谱值获取与各所述音频帧对应的有效采样率，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述功率谱中各频点对应的功率谱值进行平滑处理，以获取与各所述频点对应的功率谱平滑值，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述根据各频点对应的功率谱平滑值确定高频截止频率值，包括：

7.根据权利要求6所述的方法，其特征在于，所述有效采样率是所述高频截止频率值的两倍。

8.根据权利要求1所述的方法，其特征在于，所述分类模型包括依次连接的输入层、卷积单元、门控循环单元模块、全连接层、softmax层和输出层；

9.根据权利要求8所述的方法，其特征在于，所述卷积单元包括多个串连的卷积层，同时各所述卷积层之间还跳层连接，并且所述功率谱特征既是所述卷积单元中第一卷积层的输入特征，又是所述卷积单元中第二卷积层的输入特征。

10.根据权利要求1所述的方法，其特征在于，所述根据与各所述音频帧对应的所述有效采样率、所述声音信号类型和声道数确定与各所述音频帧对应的编码策略，包括：

11.根据权利要求10所述的方法，其特征在于，所述根据所述音质mos目标值在所述目标三维数据表中确定目标编码器和目标编码码率，包括：

12.根据权利要求10所述的方法，其特征在于，所述根据所述目标编码器和目标编码码率确定所述编码策略，包括：

13.根据权利要求12所述的方法，其特征在于，所述根据所述历史编码码率和所述目标编码码率确定所述编码策略，包括：

14.根据权利要求1所述的方法，其特征在于，所述方法还包括：

15.根据权利要求14所述的方法，其特征在于，所述对各所述音频帧对应的各声道信号进行一致性判断，包括：

16.根据权利要求14或15所述的方法，其特征在于，所述方法还包括：

17.一种音频编码装置，其特征在于，包括：

18.一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至16中任意一项所述的音频编码方法。

19.一种电子设备，其特征在于，包括：

20.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行权利要求1至16中任意一项所述的音频编码方法。

技术总结
本申请属于人工智能技术领域，涉及一种音频编码方法、装置、计算机可读介质及电子设备，包括：获取音频信号，对所述音频信号进行预处理以获取与所述音频信号中各音频帧对应的功率谱特征；根据所述功率谱特征中各频点对应的功率谱值获取与各所述音频帧对应的有效采样率；将所述功率谱特征输入至分类模型，通过所述分类模型对所述功率谱特征进行特征提取，以获取与各所述音频帧对应的声音信号类型；根据各所述音频帧对应的所述有效采样率、所述声音信号类型和声道数确定与各所述音频帧对应的编码策略。本申请能够针对不同阶段的音频信号切换编码策略，提高了音频编码压缩比和音频质量，并且还节省了带宽和存储空间。

技术研发人员：梁俊斌
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：
技术公布日：2024/5/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梁俊斌
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种基于分光光度法的识别水平井压裂有效性的方法与流程
上一篇：一种雾化组件及雾化器的制作方法