基于KSVD算法的多声道音频处理方法与流程

文档序号：13737747阅读：1072来源：国知局

本发明涉及压缩感知技术、多声道音频处理技术等多种领域，特别是涉及一种基于ksvd算法的多声道音频处理方法。

背景技术：

随着信息时代进程的不断推进，压缩感知(compressivesensing，cs)理论于2006年正式被提出，为人们提供了一种处理信号的新思路。压缩感知作为一个新的采样理论，通过对信号稀疏特性的开发，使得能够在远小于nyquist采样率的情况下进行离散采样，最终通过一系列非线性重建算法实现信号的完美重建。一经提出，引起了学术界和工业界的广泛关注，在图像处理、地球科学、微波成像、无线通信等多个领域中实现了广泛的应用。

寻求信号的稀疏表示是压缩感知原理的一个重要部分，也就是说，需要选取合适的稀疏基对原始信号进行降采样处理。因此，近年来，如何找到最适合各类信号稀疏表示的方法引起了学术界广泛的兴趣。一系列常见的稀疏基如正弦基、小波基、curvelet基、dct基被先后提出。然而，由于常见稀疏基具有不能够很好地适应各类信号的缺点，k-svd字典算法应运而生。

在日常生活中，音频信号作为一种常见的重要信号，引起了人们的广泛关注。包含语音信号、音乐信号的诸多音频信号，因其由多个谐音(例如正弦波)组成，具有良好的稀疏性(或者在频域中具有可稀疏性)，因此是一种非常适用于用压缩感知技术处理的信号。基于此，本发明提出了一种基于k-svd算法的多声道音频处理方法。

技术实现要素：

为了克服现有技术的不足，本发明提出了一种基于k-svd算法的多声道音频处理方法，通过大量样本进行字典训练，得出性能较佳、更符合样本特点的k-svd字典，利用该字典对待检测的信号进行降采样处理，通过重构算法进行恢复后得出音频信号处理结果。

本发明的一种基于压缩感知的语音信号重构方法，该方法通过以下步骤实现：

步骤101，收集杜比数字5.1环绕声音测试音频，组成样本数据集；对样本数据集中的音频信号进行筛选，将筛选得到的音频信号截取成长度相同的音频信号文件；

步骤102，设定初始字典d0∈r^n×k，设字典为dj，其中j表示字典的更新次数；r^n×k表示字典属于一个n×k的向量空间，n和k分别表示字典的行数和列数；

步骤103，对样本数据集中各样本i进行稀疏编码：即利用匹配算法计算每个音频样本yi的表示向量xi，求解方程为i＝1,2,…,n,||xi||0≤t0，该方程旨在找到一个最多有t0个非零项的信号，并且使得限制条件t0最小；其中t0是一个固定的预设数量的非零项；

步骤104，更新字典原子，每次更新一列dk；

步骤105，更新该列的表达系数，每一个表达系数分别与字典中的一列相对应，随着字典中的一列发生了改变，其对应的表达系数也会发生相应的变化，使其最大限度的减少均方误差，均方误差即为步骤103中)的值)，直到满足收敛条件，收敛条件即为均方误差最小，停止更新，得到训练好的k-svd字典；

步骤106，判断是否满足收敛条件？

步骤107，利用上述字典对需要处理的多音频信号进行降采样处理；

步骤108，将采样后的数据通过cosamp算法进行恢复重构；

步骤109，获得重构信号，即在已知y、φ、d的情况下，通过cosamp算法求解公式y＝φda中α的值，再通过计算d、α的值得到重构信号

与现有技术相比，本发明在保证准确率的基础上一定程度上提高了重构的速度，实现了多声道音频信号的降采样处理以及高概率重构；实现了降低多声道音频存储空间的功能；具有简单、高效的特点。

附图说明

图1为本发明的一种基于k-svd算法多声道音频处理方法的整体流程示意图。

具体实施方式

下面将结合附图对本发明的实施方式作进一步的详细描述。

本发明的整体思路是采用基于k-svd字典算法的方法，。

如图1所示，本发明基于ksvd算法的多声道音频处理方法的整体流程包括以下步骤：

步骤101，收集具有代表性的杜比数字5.1环绕声音测试音频，组成本发明的样本数据集；对样本数据集中的音频信号进行筛选，利用专业软件进行截取，使其变成长度相同的音频信号文件，便于后期处理；

步骤102，设定初始字典d0∈r^n×k，以便后续对于x的求解和字典的不断更新，设字典为dj，其中j表示字典的更新次数；r^n×k表示字典属于一个n×k的向量空间，n和k分别表示字典的行数和列数；

步骤103，对样本数据集中各样本i进行稀疏编码：即利用匹配算法计算每个音频样本yi的表示向量xi，求解方程为i＝1,2,…,n,||xi||0≤t0，该方程旨在找到一个最多有t0个非零项的信号，并且使得限制条件t0最小)；其中t0是一个固定的预设数量的非零项；

步骤104，更新字典原子，每次更新一列dk，目的是为了寻找一个更优化的字典；

步骤105，更新与该列相对应的表达系数，由于压缩感知的基本原理可以用公式y＝φda表示，其中y为经过压缩感知处理的信号，φ为测量矩阵，d为字典，α为在该稀疏字典映射下的n×1维的稀疏信号，其中每一行的元素即为表达系数，每一个表达系数分别与字典中的一列相对应，随着字典中的一列发生了改变，其对应的表达系数也会发生相应的变化，使其最大限度的减少均方误差，均方误差即为步骤103中)的值)，直到满足收敛条件，收敛条件即为均方误差最小，停止更新，得到训练好的k-svd字典；

步骤106，判断是否满足收敛条件？

步骤107，利用上述字典对需要处理的多音频信号进行降采样处理；

步骤108，将采样后的数据通过cosamp算法进行恢复重构，压缩采样匹配追踪(compressivesamplingmp)为压缩感知重构技术mp算法的改进算法，其每次迭代选择多个原子，并且每次迭代已经选择的原子会一直保留，是一种具有较高恢复质量且速度较快的恢复算法)，cs理论的研究内容大致可分为三个方面：信号的稀疏表示、测量值获取和对原始信号重构。重构算法是cs理论的关键技术之一，直接决定了此理论能否在实际系统中得以应用。

国内外研究学者们提出了一系列求解次优解的算法，主要包括匹配追踪系列算法、最小l1范数法等。其中，正交匹配追踪算法omp(orthogonalmatchingpursuit)是应用最为广泛的算法之一。本发明中采用的cosamp算法建立在omp算法的基础上，在重构精度上有了很大程度的提高，同时又具有匹配追踪类算法运算复杂度低的优点，是一种较为理想的重构算法。

步骤109，获得重构信号，即在已知y、φ、d的情况下，通过cosamp算法求解公式y＝φda中α的值，再通过计算d、α的值得到重构信号

将重构信号与原始信号进行对比，分析实验结果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘昱;翟丽
技术所有人：天津大学
我是此专利的发明人