一种可实现语音重构的彩色复语谱图构建方法

文档序号:2828052阅读:488来源:国知局
一种可实现语音重构的彩色复语谱图构建方法
【专利摘要】一种可实现语音重构的彩色复语谱图构建方法,本发明属于语音信号处理【技术领域】,本发明利用两个色彩通道分别表达傅里叶变换的实部和虚部,在R-G-B彩色空间中,R-B合成颜色的位置坐标对应傅里叶变换的实部和虚部,G值代表实部和虚部的符号组合。由R-G-B颜色配比可以解析出对应复数值的实部与虚部及其符号,通过对语谱图进行图像处理,然后重构语音,实现用图像处理技术对语音增强等目的,进行傅里叶逆变换,近而实现语音重构。<b/><b/>
【专利说明】一种可实现语音重构的彩色复语谱图构建方法
[0001]

【技术领域】
[0002] 本发明属于语音信号处理领域,涉及一种可实现语音重构的可视化彩色语谱图构 建方法。
[0003]

【背景技术】
[0004] 语谱图作为语音分析和语音学的有利工具,它是研究语音信息的一种可读符号系 统。它将密切相关的时域与频域特征及其相互关系同时展现出来,这是单纯的时域信号或 频域信号以及两种信号的简单并列所做不到的。所以,语谱图所承载的信息量远远大于单 纯时域信号和单纯频域信号承载信息量的总和。近期,可见研究包括利用图像处理技术 进行纹理特征提取,结合其后的分类器实现特定人特定词汇的语音身份鉴别确认;利用语 谱图纹理进行背景音乐下的歌声识别;基于语谱图局部梯度计算进行语音识别等。北京 理工大学赵胜辉等提出了"一种用于语音可视化的语谱图彩色增强方法",并获专利授权 (200910235643. 3)。
[0005]但在以往研究中,语谱图大多数作为直观显示语谱特征而存在的,实际分析的数 据源仍然是原有的语音信号数据而不是语谱图本身。特别是由于语谱图是对语音幅频特性 的可视化表达,缺乏相位信息,因而无法基于语谱图进行语音重构。彩色语谱图虽然基于三 个色彩通道,但它是灰度语谱图的伪彩色图像,并没有因为色彩而增加信息维度。
[0006]


【发明内容】

[0007](-)要解决的技术问题 本发明的目的,是要提供一种可实现语音重构的可视化彩色语谱图构建方法,能够利 用RGB彩色模型中的R通道和B通道分别代表语音时频分析的实部和虚部,RGB彩色模型中 的G通道标志语音时频分析的实部和虚部符号组合,形成具有三维信息结构的复语谱图。 这种语谱图可以通过提取R通道和B通道数据而获得语音时频分析的实部大小和虚部大 小,通过G通道解码分别获得实部和虚部的符号,生成语音时频分析复数矩阵,进而通过傅 里叶逆变换实现语音重构。
[0008]本发明不限于人类语音的分解与重构,也不限于音频范围(20Hz?20kHz)的声音 信号。
[0009](二)技术方案 为达到上述目的,本发明采用以下方案: 1、对原始语音信号加窗分帧,形成语音信号分帧NXM矩阵Z,矩阵行数N为每帧信号点数,矩阵列数N为原语音信号分帧的帧数; 2、 对信号分帧矩阵中的各列进行N点DFT,其中第i列结果为:

【权利要求】
1. 一种可实现语音重构的彩色复语谱图构建方法,运用语音分帧技术,首先对语音信 号进行加窗分巾贞,分为N点的巾贞信号,设共分为M巾贞,构成NXM分巾贞信号矩阵,应用FFT对 NXM分帧信号矩阵的各列进行DFT计算,得出相应列的N点DFT,构成NXM时频分析矩阵 Jr,每个元素对应某时刻、某频带的频率特性的实部和虚部,其特征是: 1) 、子矩阵形成模块:设I矩阵所有元素实部或虚部最大绝对值为d,构造2个矩阵
JO和Λ是分别对应于JT矩阵中实部?和虚部Z的绝对值归一化子阵,用d作为归一 化常数,是为了使和Jl动态范围一致; 2) 、符号编码矩阵形成模块:用符号函数分别提取I=I式中JT矩阵中实部? 和虚部J的符号
函数的功能是,X小于0时输出-Ι,χ,大于0时输出+Ι,χ等于0时输出 0,方
i两式求加权和,即得到实部Λ和虚部J的符号组合编码
上式的符号组合编码结果见表1,表1中9个计算结果标志了实部和虚部符号组合的9 种状态,为了利用G通道将符号组合编码可视化,还要将表1结果零点平移并归一化,归一 化由下式
由上式式可知,J5O的取值在0?0. 01之间,结果见表2,用800做归一化常数,是使G 通道的最大值远小于R通道和B通道的值,使在语谱图可视化时G通道的绿色在视觉上不 干扰R-B二原色图像的效果; 表1实部Ji和虚部Jr符号组合编码
表2实部Jt和虚部J符号组合的归一化编码
3) 、RGB彩色模型驱动矩阵形成及可视化模块:构造一个3维矩阵Γ,实部绝对值归一 化子矩阵Jll作为层数维的第1层,虚部绝对值归一化子矩阵Λ作为层数维的第3层,符号 组合编码矩阵^作为层数维的第2层,将3维矩阵Γ作为RGB彩色模型的驱动矩阵,形成 彩色复语谱图,其中实部归一化绝对值子矩阵对应红色通道R,虚部归一化绝对值子矩 阵/1对应蓝色通道B,符号组合编码矩阵PO对应绿色通道G,由于G通道数值远小于R通 道和B通道,所以彩色复语谱图在视觉上体现为R-B二原色彩色图; 4) 、频域子阵提取模块:将图像处理后的二原色复语谱图所对应的3维矩阵中的第1层 和第3层分别提取为JH和Λ两个矩阵待用; 5) 、符号解码模块: 将G通道符号组合编码取出形成归一化符号组合编码矩阵Λ (1) 实部符号解码:首先由下式实现符号组合编码矩阵复原 Pl = (PO 0.005) XSOO 则实部符号矩阵 Pr = u (Pl -1.01)-u(-1.01-Pl) 上式中/(*)二叫)是阶跃函数,当*时,/(X) = O,当时,= ,当 JC=JC0 时,/(1) = 0-5 , Pr = U(Fl-I-Ol)--.u(-1.-01-Pl)八的结果是:当列=2,3=4 时对应实部符号为正,Λ·的结果为+1 ;当1>1 = -2 = 时对应实部符号为负,JV的结 果为_1 ;当J*! = _H + 1时对应头部付号为零,的结果为〇 ; (2) 虚部符号解码:利用实部符号解码结果 JPi - jPI - 3 X Pr 分析上式的结果,当M = 2时对应虚部符号为正,此时iV=+h〇,-1,这样 Λ = _3xiV式的计算结果分别为(4-3)、(1-0)和(-2-(-3)),均为+1,余类推; 6) 、时频特性矩阵形成模块:实部子矩阵和虚部子矩阵分别由JV = JVxiil和 Γ? = Λχ/1生成,则频域特性矩阵 J =Jr + JTi . 应用FFT对.F =JTr +jTi进行列傅里叶逆变换,形成处理后的语音信号分帧矩阵Z1, 将21各列首尾相接,构成一维语音序列,能够实现语音重构。
【文档编号】G10L21/06GK104392728SQ201410688088
【公开日】2015年3月4日 申请日期:2014年11月26日 优先权日:2014年11月26日
【发明者】王双维, 李广岩, 梁士利, 王春蕾, 曹晓林, 郑彩侠 申请人:东北师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1