一种可实现语音重构的彩色复语谱图构建方法

文档序号：2828052阅读：488来源：国知局

一种可实现语音重构的彩色复语谱图构建方法
【专利摘要】一种可实现语音重构的彩色复语谱图构建方法，本发明属于语音信号处理【技术领域】，本发明利用两个色彩通道分别表达傅里叶变换的实部和虚部，在R-G-B彩色空间中，R-B合成颜色的位置坐标对应傅里叶变换的实部和虚部，G值代表实部和虚部的符号组合。由R-G-B颜色配比可以解析出对应复数值的实部与虚部及其符号，通过对语谱图进行图像处理，然后重构语音，实现用图像处理技术对语音增强等目的，进行傅里叶逆变换，近而实现语音重构。<b/><b/>
【专利说明】一种可实现语音重构的彩色复语谱图构建方法
[0001]

【技术领域】
[0002] 本发明属于语音信号处理领域，涉及一种可实现语音重构的可视化彩色语谱图构建方法。
[0003]

【背景技术】
[0004] 语谱图作为语音分析和语音学的有利工具，它是研究语音信息的一种可读符号系统。它将密切相关的时域与频域特征及其相互关系同时展现出来，这是单纯的时域信号或频域信号以及两种信号的简单并列所做不到的。所以，语谱图所承载的信息量远远大于单纯时域信号和单纯频域信号承载信息量的总和。近期，可见研究包括利用图像处理技术进行纹理特征提取，结合其后的分类器实现特定人特定词汇的语音身份鉴别确认；利用语谱图纹理进行背景音乐下的歌声识别；基于语谱图局部梯度计算进行语音识别等。北京理工大学赵胜辉等提出了"一种用于语音可视化的语谱图彩色增强方法"，并获专利授权 (200910235643. 3)。
[0005]但在以往研究中，语谱图大多数作为直观显示语谱特征而存在的，实际分析的数据源仍然是原有的语音信号数据而不是语谱图本身。特别是由于语谱图是对语音幅频特性的可视化表达，缺乏相位信息，因而无法基于语谱图进行语音重构。彩色语谱图虽然基于三个色彩通道，但它是灰度语谱图的伪彩色图像，并没有因为色彩而增加信息维度。
[0006]

【发明内容】

[0007](-）要解决的技术问题本发明的目的，是要提供一种可实现语音重构的可视化彩色语谱图构建方法，能够利用RGB彩色模型中的R通道和B通道分别代表语音时频分析的实部和虚部，RGB彩色模型中的G通道标志语音时频分析的实部和虚部符号组合，形成具有三维信息结构的复语谱图。这种语谱图可以通过提取R通道和B通道数据而获得语音时频分析的实部大小和虚部大小，通过G通道解码分别获得实部和虚部的符号，生成语音时频分析复数矩阵，进而通过傅里叶逆变换实现语音重构。
[0008]本发明不限于人类语音的分解与重构，也不限于音频范围（20Hz?20kHz)的声音信号。
[0009](二）技术方案为达到上述目的，本发明采用以下方案： 1、对原始语音信号加窗分帧，形成语音信号分帧NXM矩阵Z，矩阵行数N为每帧信号点数，矩阵列数N为原语音信号分帧的帧数； 2、对信号分帧矩阵中的各列进行N点DFT，其中第i列结果为：

【权利要求】
1. 一种可实现语音重构的彩色复语谱图构建方法，运用语音分帧技术，首先对语音信号进行加窗分巾贞，分为N点的巾贞信号，设共分为M巾贞，构成NXM分巾贞信号矩阵，应用FFT对 NXM分帧信号矩阵的各列进行DFT计算，得出相应列的N点DFT，构成NXM时频分析矩阵 Jr，每个元素对应某时刻、某频带的频率特性的实部和虚部，其特征是： 1) 、子矩阵形成模块：设I矩阵所有元素实部或虚部最大绝对值为d，构造2个矩阵
JO和Λ是分别对应于JT矩阵中实部?和虚部Z的绝对值归一化子阵，用d作为归一化常数，是为了使和Jl动态范围一致； 2) 、符号编码矩阵形成模块：用符号函数分别提取I=I式中JT矩阵中实部? 和虚部J的符号
函数的功能是,X小于0时输出-Ι,χ，大于0时输出+Ι,χ等于0时输出 0,方
i两式求加权和，即得到实部Λ和虚部J的符号组合编码
上式的符号组合编码结果见表1，表1中9个计算结果标志了实部和虚部符号组合的9 种状态，为了利用G通道将符号组合编码可视化，还要将表1结果零点平移并归一化，归一化由下式
由上式式可知，J5O的取值在0?0. 01之间，结果见表2,用800做归一化常数，是使G 通道的最大值远小于R通道和B通道的值，使在语谱图可视化时G通道的绿色在视觉上不干扰R-B二原色图像的效果；表1实部Ji和虚部Jr符号组合编码
表2实部Jt和虚部J符号组合的归一化编码
3) 、RGB彩色模型驱动矩阵形成及可视化模块：构造一个3维矩阵Γ，实部绝对值归一化子矩阵Jll作为层数维的第1层，虚部绝对值归一化子矩阵Λ作为层数维的第3层，符号组合编码矩阵^作为层数维的第2层，将3维矩阵Γ作为RGB彩色模型的驱动矩阵，形成彩色复语谱图，其中实部归一化绝对值子矩阵对应红色通道R，虚部归一化绝对值子矩阵/1对应蓝色通道B，符号组合编码矩阵PO对应绿色通道G，由于G通道数值远小于R通道和B通道，所以彩色复语谱图在视觉上体现为R-B二原色彩色图； 4) 、频域子阵提取模块：将图像处理后的二原色复语谱图所对应的3维矩阵中的第1层和第3层分别提取为JH和Λ两个矩阵待用； 5) 、符号解码模块：将G通道符号组合编码取出形成归一化符号组合编码矩阵Λ (1) 实部符号解码：首先由下式实现符号组合编码矩阵复原 Pl = (PO 0.005) XSOO 则实部符号矩阵 Pr = u (Pl -1.01)-u(-1.01-Pl) 上式中/(*)二叫）是阶跃函数，当*时，/(X) = O，当时，= ，当 JC=JC0 时，/(1) = 0-5 , Pr = U(Fl-I-Ol)--.u(-1.-01-Pl)八的结果是：当列=2,3=4 时对应实部符号为正，Λ·的结果为+1 ;当1>1 = -2 = 时对应实部符号为负，JV的结果为_1 ;当J*! = _H + 1时对应头部付号为零，的结果为〇 ; (2) 虚部符号解码：利用实部符号解码结果 JPi - jPI - 3 X Pr 分析上式的结果，当M = 2时对应虚部符号为正，此时iV=+h〇,-1,这样 Λ = _3xiV式的计算结果分别为（4-3)、（1-0)和（-2-(-3)),均为+1，余类推； 6) 、时频特性矩阵形成模块：实部子矩阵和虚部子矩阵分别由JV = JVxiil和 Γ? = Λχ/1生成，则频域特性矩阵 J =Jr + JTi . 应用FFT对.F =JTr +jTi进行列傅里叶逆变换，形成处理后的语音信号分帧矩阵Z1，将21各列首尾相接，构成一维语音序列，能够实现语音重构。
【文档编号】G10L21/06GK104392728SQ201410688088
【公开日】2015年3月4日申请日期:2014年11月26日优先权日:2014年11月26日
【发明者】王双维, 李广岩, 梁士利, 王春蕾, 曹晓林, 郑彩侠申请人:东北师范大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王双维;李广岩;梁士利;王春蕾;曹晓林;郑彩侠;
技术所有人：东北师范大学;
我是此专利的发明人

上一篇：一种汽车电喇叭的制作方法
上一篇：一种ktv点歌的方法、点歌系统及移动终端的制作方法