音频压缩方法、解压缩方法及其计算机设备和存储介质与流程

文档序号：31732880发布日期：2022-10-05 02:29阅读：194来源：国知局

1.本发明属于音频处理技术领域，尤其涉及一种音频压缩方法、解压缩方法及其计算机设备和存储介质。

背景技术：

2.对于音频的传输或存储，一般都需要对音频数据进行压缩以及解压缩，其中，音频压缩指的是对原始数字音频信号流(pcm编码)运用适当的数字信号处理技术，在不损失有用信息量，或所引入损失可忽略的条件下，降低(压缩)其码率，也称为压缩编码，同时压缩编码必须具有相应的逆变换，称为解压缩或解码。
3.目前，现有技术中对于音频压缩的方案一般主要是利用语音波形的相关性，使用线性预测编码(lpc)及类似技术，实现语音信号的压缩和重建。
4.但是，现有的音频压缩方案对音频数据的压缩比较低。

技术实现要素：

5.本发明实施例的目的在于提供一种音频压缩方法，旨在解决现有的音频压缩方案对音频数据的压缩比较低的问题。
6.本发明实施例是这样实现的，所述音频压缩方法包括：
7.获取音频数据；
8.确定所述音频数据对应的梅尔频率倒谱系数；
9.根据所述梅尔频率倒谱系数，通过预设的音素识别模型确定所述音频数据对应的音素流，从而将所述音频数据压缩为所述音素流，所述音素流为包含所述音频数据对应音素特征信息的字符串。
10.本发明实施例的另一目的在于提供一种音频解压缩方法，所述音频解压缩方法，包括：
11.获取音频压缩数据和所述音频数据的声纹特征，所述音频压缩数据为上述的音频压缩方法压缩得到的音频压缩数据；
12.根据所述音频压缩数据和所述声纹特征，通过预设的音频重建模型确定所述音频数据。
13.本发明实施例的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述的音频压缩方法的步骤，或者执行上述的音频解压缩方法的步骤。
14.本发明实施例的另一目的在于提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述的音频压缩方法的步骤，或者执行上述的音频解压缩方法的步骤。
15.本发明实施例提供的一种音频压缩方法，其通过计算音频数据对应的梅尔频率倒谱系数可以提取人的听力能够听到频段的音频数据，滤除无效音频数据，减少数据量，同时
通过音素识别模型识别音频数据对应的音素特征信息，以得到的音素流作为压缩后的音频数据，音素可以看成对音频信息的矢量化，其相比于波形特征的矢量化更抽象，相比于现有技术中主要利用语音波形的相关性来压缩音频，有效提高压缩比。
附图说明
16.图1为本发明实施例提供的一种音频压缩方法的流程图；
17.图2为本发明实施例提供的一段音频数据的示意图；
18.图3为本发明实施例提供的一种音素识别模型训练步骤的流程图；
19.图4为本发明实施例提供的一种根据所述梅尔频率倒谱系数，通过预设的音素识别模型确定所述音频数据对应的音素流的流程图；
20.图5为本发明实施例提供的一种音频解压缩方法的流程图
21.图6为一个实施例中计算机设备的内部结构框图。
具体实施方式
22.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
23.可以理解，本技术所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本技术的范围的情况下，可以将第一xx脚本称为第二xx脚本，且类似地，可将第二xx脚本称为第一xx脚本。
24.如图1所示，在一个实施例中，提出了一种音频压缩方法，所述音频压缩方法包括：
25.步骤s202，获取音频数据。
26.在本技术实施例中，对获取音频数据的具体方法不做限制，这里获取的音频数据为转换为数字信号的音频数据，例如可以从音频数模转换器获取。音频数模转换器可以持续采集和转换音频信号，形成一16位或者8位的序列，称为pcm(pulse code modulation)信号序列，为了方便处理，可以只取一个音频声道，并将此pcm信号序列，分割成固定的有限长度的数据帧，称为pcm帧，如图2所示，pcm帧的长度可以根据处理器的缓存能力自由定义，本实施例中我们可以选取50ms长度的采样点作为一帧的长度，同时为了更准备地识别，前后帧之间可以保留5ms的交叠区，这样，在16位精度，16ksps采样率的场景，每一帧的数据长度lf为：
27.帧缓冲区可定义为：short audioframe(音频帧)[800]。
[0028]
步骤s204，确定所述音频数据对应的梅尔频率倒谱系数。
[0029]
在本技术实施例中，由于人耳对不同频率的声波有不同的听觉敏感度。从200hz到5000hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，所以通过确定音频数据对应的梅尔频率倒谱系数，相当于在音频数据中提取了人耳听力相关的
音频信息，进而可以提取声纹和识别音素。
[0030]
在本技术实施例中，对确定音频数据对应的梅尔频率倒谱系数的具体方法不做限制，例如，可以通过以下方法计算得到：
[0031]
对每一pcm帧进行傅里叶变换，并取幅值，得到线性谱：
[0032]fk
＝ft(audioframe)；
[0033]
其中，audioframe为pcm帧数据，ft指对pcm数据傅里叶变换处理，fk为傅里叶变换后得到的音频频谱。
[0034]
对线性谱进行梅尔刻度的加权求和，得到梅尔倒频谱：
[0035][0036]
其中，bk为第k组梅尔遮罩系数，其中f
m-1
为第k组滤波器的最低频率，f
m+1
为第k组滤波器最高频率。
[0037]
对梅尔倒频谱取log10，得到f
bank
：
[0038]fbank
＝log(f
mel
)；
[0039]
其中，fbank为梅尔倒频谱的对数表示形式
[0040]
对f
bank
取离散余弦变换，得到梅尔频率倒谱系数：
[0041]cx
(n)＝idct(f
bank
)。
[0042]
其中，idct为反离散余弦变换，c
x
为梅尔频率倒谱系数，
[0043]
步骤s206，根据所述梅尔频率倒谱系数，通过预设的音素识别模型确定所述音频数据对应的音素流，从而将所述音频数据压缩为所述音素流，所述音素流为包含所述音频数据对应音素特征信息的字符串。
[0044]
在本技术实施例中，对预设的音素识别模型的具体结构不做限制，预设的音素识别模型为预先训练好的音素识别模型。预设的音素识别模型用于识别音频数据中的音素，输出音素流。例如，音素识别模型可以包括wavenet网络模型。
[0045]
在本技术中实施例中，以音素识别模型为wavenet网络模型为例说明，其中预设的音素识别模型可以通过以下训练步骤得到，如图3所示：
[0046]
步骤s302，获取若干音频样本以及所述音频样本对应的标注音素流。
[0047]
在本技术实施例中，对音频样本的获取方式以及具体数量不做限制。音频样本对应的标注音素流，即该音素样本对应的实际音素流。
[0048]
步骤s304，通过所述音素识别模型对所述音频样本进行音素识别，确定所述音频样本对应的预测音素流。
[0049]
在本技术实施例中，通过音素识别模型对音频样本进行音素识别，即将音频样本数据输入到wavenet网络模型中，wavenet网络模型对音频样本进行音素识别，输出预测音素流。
[0050]
步骤s306，根据所述标注音素流和所述预测音素流，通过损失函数确定所述音素识别模型的预测误差。
[0051]
在本技术实施例中，对于音素识别模型的训练可以预先设置一个预测误差阈值，当通过损失函数得到的音素识别模型的预测误差在预测误差阈值范围内，则可以结束训练，得到训练好的音素识别模型即预设的音素识别模型。
[0052]
在本技术实施例中，其中损失函数的具体公式可以为以下公式：
[0053][0054]
其中，m为音素的种类数量，yi为第i个音素的符号函数，设正样本为1，负样本为0，pi为预测是正类(正类是指预测为目标的样本)的概率值。本实施例中基于音素之间的相关性，使用三音素模型(或者更多的音素)进行因素识别的精度高于单音素模型，因此，在设计神经网络时，使用多个语音帧进行联合识别，就可以满足三音素或多音素模型的需求。
[0055]
在本技术实施例中，对根据所述梅尔频率倒谱系数，通过预设的音素识别模型确定所述音频数据对应的音素流的具体实现方法不做限制，其中，例如，如图4所示，步骤s204具体可以包括以下步骤：
[0056]
步骤s402，根据所述梅尔频率倒谱系数确定所述音频数据中的音频特征信息，所述音频特征信息至少包括音素特征信息；
[0057]
在本技术实施例中，音频特征信息指音频的音素、声纹等特征信息。将音频数据对应的梅尔频率倒谱系输入预设的音素识别模型，音素是被模型会先提取该音频的音频特征信息，其中包括音素特征信息。
[0058]
步骤s404，对所述音频特征信息进行分类处理，从所述音频特征信息中获取所述音素流。
[0059]
在本发明实施例中，由于音频特征信息中除音素特征信息外还把包括其他种类的特征信息，通过对这些特征信息进行分类，从而得到整个音频数据的音素特征信息，不同的音素音信可以用不同的字符表示，从而得到整个音频数据的音素特征信息对应的音素流。例如，可以通过分类器进行分类。
[0060]
本技术实施例提供的一种音频压缩方法，其通过计算音频数据对应的梅尔频率倒谱系数可以提取人的听力能够听到频段的音频数据，滤除无效音频数据，减少数据量，同时通过音素识别模型识别音频数据对应的音素特征信息，以得到的音素流作为压缩后的音频数据，音素可以看成对音频信息的矢量化，其相比于波形特征的矢量化更抽象，相比于现有技术中主要利用语音波形的相关性来压缩音频，有效提高压缩比。
[0061]
在本技术的另一个实施例中，所述音频压缩方法还包括：
[0062]
将所述音频数据的音量信息进行量化，并统计所述音频数据中量化后的所述音量信息的值，确定所述音量信息的统计值，压缩后的所述音频数据包括所述音素流和所述音量信息的统计值。
[0063]
在本技术实施例中，为了在语音重建过程中体现人类语音所具备的音调、音量和语速的变化，可以将原始数据中的音量进行量化，本实施例对对音量信息进行量化的具体方法不做限制，例如，可以通过以下公式来进行量化：
[0064]
其中，si是原始语音的采样点数值，k是语音帧的长度，是该帧的采样点平均值，s为每一帧数据的音量统计值，在语音重建时将会参考s来进行调整，获得音量和语调的变化。
[0065]
本技术实施例提供的一种音频压缩方法，通过将音频数据的音量信息进行量化，在进行语音重建过程中，体现人类语音所具备的音调、音量和语速的变化，有效保障了音频压缩方法对音频的压缩质量。
[0066]
在本技术的另一个实施例中，所述音频压缩方法还包括：
[0067]
提取所述音频信息对应的声纹特征信息。
[0068]
在本技术实施例中，对声纹特征信息提取的具体方法不做限制，例如提取声纹特征信息的网络模型可以包括三个卷积网络层，例如，三层卷积网络层可以为causalcnn1、causalcnn2、causalcnn3。
[0069]
在本技术实施例中，为了获得不同人的说话声纹特征向量，可以使用wavenet骨干网，重新设计以下损失函数来约束模型：
[0070][0071]
其中，n为样本中不同人的数量，yp为符号函数，正样本(第p个人)为1，负样本(其他人)为0，pp为预测正类(第p个人)的概率值。
[0072]
在本技术实施例中，声纹特征数据标注标签可以由音素识别中的“音频数据
–
音素id”改为“音频数据
–
人员id”标注，其中音素id和人员id分别为表示不同音素和不同人员的字符标识信息，例如可以是字母或数字。在训练完成后可以将网络的最后分类器(softmax)去掉，取分类器之前的全连接层作为个人声纹的特征向量。
[0073]
本技术实施例提供的一种音频压缩方法，通过提取音频数据的声纹特征信息，在将本方案中音频压缩方法压缩后的音频数据进行解压缩时，可以使用对应的声纹特征进行重建，可以使得语音的重建更加精确和自然，同时也符合人的听觉习惯，一般对话开始时首先关注的是说话人的特征，在后续对话中主要关注说话人表述的内容，可见本技术提供的音频压缩方法，进一步保障了音频压缩方法对音频的压缩质量。
[0074]
如图5所示，在本技术方案中还提供了一种音频解压缩方法，主要应用于对上述包含提取音频信息对应的声纹特征信息处理的音频压缩方法所压缩的音频数据，所述音频解压缩方法，包括：
[0075]
步骤s502，获取音频压缩数据和所述音频数据的声纹特征，所述音频压缩数据为上述的音频压缩方法压缩得到的音频压缩数据。
[0076]
在本技术实施例中，这里获取的音频压缩数据即音素流。当音频压缩方法中包含了提取所述音频信息对应的声纹特征信息的处理过程，音频数据的声纹特征信息可以直接和音素流一起获取。本实施例对获取音频压缩数据和音频数据的声纹特征信息的具体方法不做限制，例如，可以通过从音频数据的压缩装置接收，或者直接从存储装置上读取。
[0077]
步骤s504，根据所述音频压缩数据和所述声纹特征，通过预设的音频重建模型确定所述音频数据。
[0078]
在本技术实施例中，语音重建是语音识别的反向过程，对音频重建模型的具体结构不做限制，例如，音频重建模型可以为生成对抗网络模型。
[0079]
在本技术实施例中，由于获取了声纹特征信息，可以将获取的声纹特征向量作为音频重建模型的输入，并一起进行训练和学习在通用的音频重建基础上加入个性化声纹特征向量输入。为了保证神经网络能够正确恢复个体特征的语音，除了在网络的输入出加入声纹特征向量之外，还在网络中使用了双重的损失函数进行语音重建。包括：语音重建损失(失真度)l1和声纹重建损失l2：
[0080][0081]
其中，k为每个音素语音波形的采样点数，si为原始语音采样点，pi为预测得到的采样点；
[0082][0083]
其中，n为样本中不同人的数量，yp为符号函数，正样本(第p个人)为1，负样本(其他人)为0，pp为预测正类(第p个人)的概率值。
[0084]
总体损失函数为：
[0085]
l
total
＝l
sample
+α*l
person
，其中α应取小于1的正小数，例如可以取α＝0.1。
[0086]
在本技术实施例中，由于在音频压缩过程中对音量信息进行了量化统计，得到音量量化系数s，所以在重建过程中，将量化系数作为参数一起送入重建网络，一起得到更精准的重建效果，从而能够在语音重建过程中体现人类语音所具备的音调、音量和语速的变化。
[0087]
图6示出了一个实施例中计算机设备的内部结构图。如图6所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现音频压缩方法或音频解压缩方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行音频压缩方法或音频解压缩方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0088]
本领域技术人员可以理解，图6中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0089]
在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
[0090]
步骤s202，获取音频数据；
[0091]
步骤s204，确定所述音频数据对应的梅尔频率倒谱系数；
[0092]
步骤s206，根据所述梅尔频率倒谱系数，通过预设的音素识别模型确定所述音频
数据对应的音素流，从而将所述音频数据压缩为所述音素流，所述音素流为包含所述音频数据对应音素特征信息的字符串。
[0093]
在一个实施例中，提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：
[0094]
步骤s202，获取音频数据；
[0095]
步骤s204，确定所述音频数据对应的梅尔频率倒谱系数；
[0096]
步骤s206，根据所述梅尔频率倒谱系数，通过预设的音素识别模型确定所述音频数据对应的音素流，从而将所述音频数据压缩为所述音素流，所述音素流为包含所述音频数据对应音素特征信息的字符串。
[0097]
应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0098]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0099]
以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0100]
以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。
[0101]
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周士杰周学武
技术所有人：周学武
我是此专利的发明人

上一篇：一种切口整齐的载带裁切机构的制作方法
上一篇：一种中药材种植的幼苗喷药装置的制作方法