一种声气信号分离与合成的方法及系统的制作方法

文档序号:9912692阅读:555来源:国知局
一种声气信号分离与合成的方法及系统的制作方法
【技术领域】
[0001]本发明涉及信号处理领域,尤其是一种声气信号分离与合成的方法及系统。
【背景技术】
[0002]语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段,也是人类进行思维的一种依托。人类开始进入了信息化时代,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储和获取语音信息,这对于促进社会的发展具有十分重要的意义。最近几十年,对语音的研究使科学家和工程师们走到一起,从而形成了一门重要的学科:语音信号处理。语音信号处理技术简称语音处理,它与语言学、语音学、心理学、声学、计算机学以及人工智能等学科都有着紧密的联系,极大地推动了社会的科技进步,我们可以用自动语音识别技术,使手写文稿和手工打印文本变成自动听写机操作;把人工查阅各种书面文字资料的操作变为口呼自动查阅各种各样的数据库;可以采用语音合成技术,将存储的语音或文字资料转化为语音高质量的回放,甚至自动翻译成另一种语言的语音回放或进行文字显示。总而言之,语音信号处理技术的研究对于信息化社会的发展具有极其重要的意义。
[0003]然而,目前对人声的语音信号处理技术大多只能根据基频与共振峰的关系提取出声带与口腔共鸣发出的声音信号,尚未能从人声语音信号中提取出唇齿发出的气音信号,无法单独对声音信号或气音信号进行修改等后续处理。

【发明内容】

[0004]为解决上述问题,本发明的目的在于:提供一种能将声音信号和气音信号进行分离的,声气信号分离与合成的方法。
[0005]本发明的另一目的在于:提供一种能将声音信号和气音信号进行分离的,声气信号分离与合成的系统。
[0006]本发明所采取的技术方案是:
一种声气信号分离与合成的方法,包括:
A、将采样的人声语音信号由时域转换到频域,得到原始的频谱图;
B、根据原始的频谱图测定人声语音信号的基频;
C、在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置,以两峰之间的位置作为谷值的位置;
D、从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来,进而得到峰值的位置信息对应的声音信息频谱图以及谷值的位置信息对应的气音信息频谱图;
E、分别对声音信息频谱图中的声音信息和气音信息频谱图中的气音信息进行处理;
F、将处理后的声音信息和处理后的气音信息频进行合成,得到最终的人声语音信号。
[0007]进一步,所述步骤A,其具体为:
采用至少0.02322*a点的重叠加窗快速傅里叶变换对采样的人声语音信号进行处理,得到原始的频谱图,其中,a为设定的采样频率。
[0008]进一步,所述步骤B,其具体为:
通过分片段重叠加窗测定时域信号周期序列的方法,准确测定出人声语音信号的信号流在不同时间点的基频,其中,片段的长度在快速傅里叶变换窗口长度的I到4倍的范围内,重叠加窗的间距小于等于快速傅里叶变换的窗间距。
[0009]进一步,所述步骤D,其包括:
将峰值的位置信息从原始的频谱图中提取出来,进而得到声音信息频谱图;
将峰谷的位置的信息从原始的频谱图中提取出来,进而得到声音信息频谱图。
[0010]进一步,所述将峰值的位置信息提取出来,得到声音信息频谱图这一步骤,其包括:
D11、计算快速傅里叶变换结果中的理论峰值位置P,所述理论峰值位置P的计算公式为:p=2nz/a*m,其中,2n为快速傅里叶变换的点数,η和m均为正整数,z为快速傅里叶变换窗口对应位置所测定的基频,0〈p〈2n—1;
D12、判断理论峰值位置P是否为整数,若是,则以理论峰值位置P对应的信息作为提取出的声音信息;反之,则采用四舍五入法或线性插值法进行处理,得到提取出的声音信息。
[0011]进一步,所述步骤D12中采用四舍五入法或线性插值法进行处理,得到提取出的声音信息这一步骤,其具体为:
若采用四舍五入法,则对理论峰值位置P进行四舍五入,然后以P四舍五入后的结果对应的信息作为提取出的声音信息;
若采用线性插值法,则提取出的声音信息X的计算公式为:x=(l-(p-q))*fq+(p-q)*fp,其中,q为P向下取整的结果,fjPfP分别为快速傅里叶变换结果中位置q和位置P对应的分量。
[0012]进一步,所述将峰谷的位置的信息从原始的频谱图中提取出来,进而得到声音信息频谱图这一步骤,其包括:
D21、计算快速傅里叶变换结果中的理论谷值位置s,所述理论谷值位置s的计算公式为:s=2nz/a* (m-0.5),其中,2n为快速傅里叶变换的点数,η和m均为正整数,z为快速傅里叶变换窗口对应位置所测定的基频,0<s<2n-1;
D22、判断理论谷值位置s是否为整数,若是,则以理论谷值位置s对应的信息作为提取出的气音信息;反之,则采用四舍五入法或线性插值法进行处理,得到提取出的气音信息。
[0013]进一步,所述步骤D22中采用四舍五入法或线性插值法进行处理,得到提取出的气音信息这一步骤,其具体为:
若采用四舍五入法,则对理论谷值位置s进行四舍五入,然后以s四舍五入后的结果对应的信息作为提取出的气音信息;
若采用线性插值法’则提取出的气音信息沾勺计算公式为:!^=!^-^-!.))*;^+^-!.)*;^,其中,r为S向下取整的结果,fdPfr分别为快速傅里叶变换结果中位置S和位置r对应的分量。
[0014]进一步,所述步骤D在将峰值的位置信息和谷值的位置信息提取出来得到两张频谱图后,还需对这两张频谱图分别执行插值处理才能得到完整的声音信息频谱图和气音信息频谱图。
[0015]本发明所采取的另一技术方案是:
一种声气信号分离与合成的系统,包括:
转换模块,用于将采样的人声语音信号由时域转换到频域,得到原始的频谱图;
测定模块,用于根据原始的频谱图测定人声语音信号的基频;
标记模块,用于在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置,以两峰之间的位置作为谷值的位置;
提取模块,用于从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来,进而得到峰值的位置信息对应的声音信息频谱图以及谷值的位置信息对应的气音信息频谱图;
单独处理模块,用于分别对声音信息频谱图中的声音信息和气音信息频谱图中的气音信息进行处理;
合成模块,用于将处理后的声音信息和处理后的气音信息频进行合成,得到最终的人声语音信号;
所述转换模块的输出端依次通过测定模块、标记模块、提取模块和单独处理模块进而与合成模块的输入端连接。
[0016]本发明的方法的有益效果是:根据测定的基频来确定波峰和波谷的位置,然后根据波峰和波谷的位置将声音信号和气音信号从人声语言信号中分离出来,解决了现有技术只能提取声音信号而未能从人声语音信号中提取出唇齿发出的气音信号的问题,能单独对声音信号或气音信号进行修改等后续处理;能将处理后的气音信号和声音信号重新合成正常的人声语音信号,更加方便和全面。进一步,在提取声音信息频谱图以及气音信息频谱图时,能根据效率或精度的要求选择采用四舍五入法或线性插值法得到完整的频谱图,更加灵活。
[0017]本发明的系统的有益效果是:根据测定的基频来确定波峰和波谷的位置,然后提取模块根据波峰和波谷的位置将声音信号和气音信号从人声语言信号中分离出来,解决了现有技术只能提取声音信号而未能从人声语音信号中提取出唇齿发出的气音信号的问题,能单独对声音信号或气音信号进行修改等后续处理;合成模块能将处理后的气音信号和声音信号重新合成正常的人声语音信号,更加方便和全面。
【附图说明】
[0018]图1为本发明一种声气信号分离与合成的方法的整体流程图;
图2为本发明一种声气信号分离与合成的系统的结构框图;
图3为本发明实施例一的整体流程图。
【具体实施方式】
[0019]参照图1,一种声气信号分离与合成的方法,包括:
A、将采样的人声语音信号由时域转换到频域,得到原始的频谱图;
B、根据原始的频谱图测定人
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1