基于单比特压缩感知的语音压缩方法

文档序号:9454222阅读:1594来源:国知局
基于单比特压缩感知的语音压缩方法
【技术领域】
[0001] 本发明属于语言信号压缩领域,具体涉及一种基于单比特压缩感知的语音压缩方 法。
【背景技术】
[0002] 为了更方便的存储或者传输,必须对语音信号进行压缩。语音信号能够进行压缩 的基本依据是语音信号中存在的冗余和人类的听觉感知系统的独特性。语音信号存在多种 多样的冗余,可分别从时间域和频率域描述。从时间域分析,幅度的非均匀分布,即语音中 的小幅度样本出现的概率高,信息主要集中在低功率上;采样数据间的相关,相邻的语音信 号间有很强的相关性。从频率域分析,非均匀的长时功率谱密度,从相当长的时间内统计平 均,语音信号的功率谱呈现强烈的非平坦性,这说明语音信号对给定的频段利用的不充分, 存在固定的冗余度。语音压缩的第二个依据是人的听觉生理和心理特性对语音的感知,人 的听觉对低频端比较敏感,而对高频端不太敏感,这主要是因为浊音的周期和共振峰在这 里。此外,人耳对语音信号的相位变化不敏感,人耳的听觉不像人的视觉对感知的信号相位 那样敏感,一定程度的相位失真对听觉来说是可以容忍的。人耳听不到或感知极不灵敏的 语音信号都可以认为是冗余,可以利用这些特性进行语音压缩。
[0003] 传统的信号采集以奈奎斯特采样定理作为理论依据,即信号的采样频率必须高于 信号最高频率的两倍。近年来,E. J. Candes,J. Romberg,T. Tao和D. L. Donoho等学者提出 了压缩感知理论(Compressed sensing, CS),该理论指出,对于稀疏信号,米样时可以以远 低于奈奎斯特采样频率进行信号采样,实现信号的压缩。由于语音信号在频域是可稀疏的, 故可以通过压缩感知理论对其进行压缩和重构。
[0004] 现有技术的技术方案
[0005] ①对一段连续的语音信号采样N个点,得到长度为N的离散语音信号;
[0006] ②对离散的语音信号进行DCT变换,将时域信号变换到频域,得到了长度为N的稀 疏的语音信号;
[0007] ③利用高斯分布生成M行N列的矩阵,2K彡M〈〈N ;
[0008] ④观测矩阵与频域信号相乘,由矩阵乘法易知,最后得到了 M个语音信号,由于 M〈〈N,故实现了语音信号的压缩。
[0009] 现有技术的缺点
[0010] 1、现有的基于压缩感知的语音压缩常见的为"非lbit压缩"方式,单比特的语音 压缩还很少见;2、没有巧妙的应用基于压缩感知方式的心理声学模型,保存的数据存在冗 余;3、重构精度难以保证;4、观测矩阵没有针对性。
[0011] 缩略语和关键术语定义
[0012] 稀疏度K :一帧频域语音信号中幅度不为0的个数;
[0013] AD:模数转换器;
[0014] DCT :Discrete Cosine Transform,离散余弦变换,简称 DCT变换,由N.Ahmed 等人 在1974年提出的正交变换方法,它常被认为是对语音和图像信号进行变换的最佳方法;
[0015] IDCT变换:DCT变换的逆变换;
[0016] N:-帧离散语音信号的长度,因为语音是离散的,所以长度也即采样点的个数;
[0017] M :压缩后语音信号的长度,一般2K彡M〈〈N。

【发明内容】

[0018] 本发明针对现有技术语音信号压缩时为"非lbit"且重构精度低而提出了一种基 于单比特压缩感知的语音压缩方法。
[0019] 为解决以上问题,本发明的技术方法是提供一种基于单比特压缩感知的语音压缩 方法,包括以下步骤:
[0020] S1.将已采样的离散的N个语音信号从时域信号变换到频域信号,得到长度为N的 稀疏的语音信号;
[0021] S2.将低于静音门限的信号幅度置0 ;
[0022] S3.查找幅度不为0的信号,记录其个数和位置,总个数即为稀疏度K,位置信息的 集合记为I,并根据构造更优的观测矩阵;
[0023] S4.将S3生成的更优的观测矩阵与频域信号相乘,再对乘积结果取符号即可得到 压缩语音信号,此时的信号长度由N变成了 M,且每个信号占用lbit存储;
[0024] S5.将稀疏度K、位置信息的集合I与压缩的语音信号中的"1"登记在一起,组帧 为数据流;
[0025] S6.将S5得到的数据流进行霍夫曼编码,进一步压缩。
[0026] 作为优选,S1所述的将语音信号从时域信号变换到频域信号采用的方法为DCT变 换、小波变换或者傅里叶变换。
[0027] 作为优选,S3所述的记录语音信号位置信息的方法如下:以一帧长为N = 2048语 音信号为例,如果要直接记录位置,那么记录一个位置则使用l〇bit,假设最后一个非0信 号的位置为P,通过〇, 1标识则需要P个bit,记录位置则需要10K个bit,若10K>P,则采用 方式〇,反之采用方式1。
[0028] 作为优选,S3所述的利用信号的位置信息,构造更优的观测矩阵方法如下:
[0029] S31.输入:稀疏基D,随机矩阵的行M,随机矩阵巾,位置集合I ;
[0030] S32.初始化:感知矩阵F =仰,迭代次数为n,i = 0
r , i 是用来记录后续步骤中迭代次数的,大于n就结束迭代,否则继续;FT是F的共辄转置矩阵, 实数范围内即为F的转置矩阵;
[0031] S33.对F'每一列归一化,并把F'的值赋给F,F = F' ;
[0032] S34?计算矩阵,G = FTF;
[0033]S35.在位置集合I中任取其中的两个元素IJP Ij,令G(i,j) = 0,要求集合I中 的所有元素取遍;
[0034] S36.约束G中对角线外的元素大小:
[0035] 如果G(i,j)的绝对值小于
则保持不变,否则, L/1N丄UD乙UU乙// A *1 * 〇/v
sign表示取符号,如果G(i,j)大于0,则 sign(G2(i, j)) = 1,如果 G(i, j)小于 0,则 sign(G2(i, j)) = -1,如果 G(i, j)等于 0,则 sign(G2(i, j)) = 0 ;
[0036] S37. SVD 分解,G = UQV ;
[0037] S38?更新 G,将 G的秩降为M :G = UQUt;
[0038] S39?计算 S = Q1/2Ut,
[0039]S310. F' = S',更新多=F_DT,表示矩阵D的伪逆;
[0040] S311. i = i+1, i从0变为1,当i>n,则进入下一步,否则返回S33 ;
[0041] S312.迭代结束,输出优选之后的观测矩阵巾。
[0042] 为解决以上问题,本发明还提出了一种基于单比特压缩感知的语音压缩方法的解 压方法,包括以下步骤:
[0043] S7.对压缩的数据进行霍夫曼解码,得到0和1的数据流;
[0044] S8.根据压缩时组帧数据流的方法从数据流中取出稀疏度K和位置信息,构造观 测矩阵;
[0045] S9.将信号的位置信息加入重构算法BITH,重构出频域的语音信号;
[0046] S10.将频域的语音信号从频域信号变换到时域信号。
[0047] 作为优选,S9的具体步骤如下:
[0048] S91.输入一个M行1列的元素只有0,1的观测矩阵Y,即可得出更新步长a值, 位置集合I和最大迭代次数t;
[0049] S92.初始化稀疏信号X,即X为一个N行1列的零矩阵;
[0050] S93?迭代更新X = X+ a (}> '(Y-sign (巾X)),巾'为巾的转置矩阵;
[0051] S94. X中位置集合I位置以外的元素都置零;
[0052] S95.若n < t,则重复以上步骤,每迭代一次,n就加1,即n = n+1 ;
[0053] S96.当n>t时,根据单位能量约束条件X = X/ | | X | 12,输出X的最优估计值。
[0054] 本发明的有益效果如下:
[0055] 1、语音信号的采样速率要求并不高,用于语音采样的AD并不是语音信号采样的 瓶颈问题。其他需要利用压缩感知进行采样以降低AD采样速率的场景为高速采样场景,语 音信号采样不属于高速采样,故可以不改变系统原有的采样器件与采样结构,只需要进行 软件的修改,大大节约了系统改造的成本;
[0056] 2、目前流行的mp3技术,仅能压缩10余倍,而利用本发明的方法,可轻易地将语音 压缩32倍以上,其音质也能达到近似于mp3标准音质。譬如电信领域的录音系统,需要存 储海量的语音数据,如果利用本发明的压缩方法将会十分有利。
【附图说明】
[0057] 图1为现有技术流程示意图;
[0058] 图2为压缩流程示意图;
[0059] 图3为重构流程示意图;
[0060] 图4为记录语音信号位置的流程示意图;
[0061] 图5为改进的BITH算法流程示意图。
【具体实施方式】
[0062] 为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对 本发明做进一步详细说明。
[0063] 压缩部分:如图2所示
[0064] ①压缩部分的处理对象是已采样的离散语音信号,对离散的N个语音信号进行 DCT变换,将时域信号变换到频域,得到长度为N的稀疏的语音信号;
[0065] ②人的耳朵对声音的感知能力是有限的,有许多声音是人耳无法感知的。根据心 理声学模型中的静音门槛曲线可知,低于静音门限的声音人耳是感知不到的,所以将低于 静音门限的信号幅度置零,这样既不会影响音质,也实现了信号的压缩;
[0066] ③查找幅度不为0的信号,记录其个数和位置,总个数即为稀疏度K,位置信息的 集合I则是生成更优的观测矩阵的关键信息,也是高精度重构的重要保障。
[0067] ④将生成的更优的观测矩阵与频域信号相乘,再对乘积结果取符号即可得到压缩 语音信号,此时的信号不仅长度由N变成了 M,而且每个信号
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1