一种声气信号分离与合成的方法及系统的制作方法_3

文档序号：9912692阅读：来源：国知局

较高精度。在使用时，可根据实际的效率或精度要求进行灵活选取。
[0044](2)将谷值位置的信息提取出来，可以得到相应的气音信息频谱图。
[0045]具体来说，设FFT窗对应位置的基频被测定为z赫兹，FFT的点数为2n^lJFFT结果中的多个位置s=2nz/a*(m-0.5)均为谷值所在的位置，其中，m>0，m为整数，(KsUn+1，Ef!，f2，fr..为FFT结果的各个分量。由上述公式计算出的位置s不一定为整数，而FFT结果中的分量位置为整数，故还应采取一定方法进行取数，以得到所需的气音信息，本发明所采用的方法有以下两种:
方法1:使用四舍五入法取整下标，则取得的数值(即提取出的气音信息)为k =f[s]，其中[S]表示对S进行四舍五入。
[0046]方法2:如图3所示，使用线性插值取数方式，记rSs向下取整的结果；则取得的数值卿提取出的气音信息)*!^!-^-!.))*;^+^-!.)*;^。
[0047]以上两种方法中，方法I的效率较高，而方法2则能获得较高精度。在使用时，可根据实际的效率或精度要求进行灵活选取。
[0048](五)分别对声音信息和气音信息进行修改。
[0049]经过步骤(四)可以得到两张独立的频谱图，可根据实际需要在这两张频谱图上分别对声音信息和气音信息进行修改。
[0050](六)合成修改后的声音信息和气音信息，得到最终的人声语音信号。
[0051]声音信息和气音信息的单独修改结束后，可根据声音信息和气音信息相互之间的位置关系进行排序将两张频谱图合成，以还原为语音信号。
[0052]本实施例具有的有益效果是:
I)能够将声音信息与气音信息进行分离，从而能实现对这两者的单独修改操作。
[0053]2)可以将修改后的声音信息与气音信息合成，以恢复成正常的人类声音语音信号，更加方便和全面。
[0054]以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
【主权项】
1.一种声气信号分离与合成的方法，其特征在于:包括: A、将采样的人声语音信号由时域转换到频域，得到原始的频谱图； B、根据原始的频谱图测定人声语音信号的基频； C、在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置，以两峰之间的位置作为谷值的位置； D、从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来，进而得到峰值的位置信息对应的声音信息频谱图以及谷值的位置信息对应的气音信息频谱图； E、分别对声音信息频谱图中的声音信息和气音信息频谱图中的气音信息进行处理； F、将处理后的声音信息和处理后的气音信息频进行合成，得到最终的人声语音信号。2.根据权利要求1所述的一种声气信号分离与合成的方法，其特征在于:所述步骤A，其具体为: 采用至少0.02322*a点的重叠加窗快速傅里叶变换对采样的人声语音信号进行处理，得到原始的频谱图，其中，a为设定的采样频率。3.根据权利要求2所述的一种声气信号分离与合成的方法，其特征在于:所述步骤A，其具体为:所述步骤B，其具体为: 通过分片段重叠加窗测定时域信号周期序列的方法，准确测定出人声语音信号的信号流在不同时间点的基频，其中，片段的长度在快速傅里叶变换窗口长度的I到4倍的范围内，重叠加窗的间距小于等于快速傅里叶变换的窗间距。4.根据权利要求2所述的一种声气信号分离与合成的方法，其特征在于:所述步骤D，其包括: 将峰值的位置信息从原始的频谱图中提取出来，进而得到声音信息频谱图；将峰谷的位置的信息从原始的频谱图中提取出来，进而得到声音信息频谱图。5.根据权利要求4所述的一种声气信号分离与合成的方法，其特征在于:所述将峰值的位置信息提取出来，得到声音信息频谱图这一步骤，其包括: D11、计算快速傅里叶变换结果中的理论峰值位置P，所述理论峰值位置P的计算公式为:p=2nz/a*m，其中，2n为快速傅里叶变换的点数，η和m均为正整数，z为快速傅里叶变换窗口对应位置所测定的基频，0〈p〈2n—1; D12、判断理论峰值位置P是否为整数，若是，则以理论峰值位置P对应的信息作为提取出的声音信息;反之，则采用四舍五入法或线性插值法进行处理，得到提取出的声音信息。6.根据权利要求5所述的一种声气信号分离与合成的方法，其特征在于:所述步骤D12中采用四舍五入法或线性插值法进行处理，得到提取出的声音信息这一步骤，其具体为: 若采用四舍五入法，则对理论峰值位置P进行四舍五入，然后以P四舍五入后的结果对应的信息作为提取出的声音信息；若采用线性插值法，则提取出的声音信息1的计算公式为^=(1-(口-9))*€9+(口-9)*仇，其中，q为P向下取整的结果，fjPfP分别为快速傅里叶变换结果中位置q和位置P对应的分量。7.根据权利要求4所述的一种声气信号分离与合成的方法，其特征在于:所述将峰谷的位置的信息从原始的频谱图中提取出来，进而得到声音信息频谱图这一步骤，其包括: D21、计算快速傅里叶变换结果中的理论谷值位置s，所述理论谷值位置s的计算公式为:s=2nz/a* (m-0.5)，其中，2n为快速傅里叶变换的点数，η和m均为正整数，z为快速傅里叶变换窗口对应位置所测定的基频，0<s<2n-1; D22、判断理论谷值位置s是否为整数，若是，则以理论谷值位置s对应的信息作为提取出的气音信息;反之，则采用四舍五入法或线性插值法进行处理，得到提取出的气音信息。8.根据权利要求7所述的一种声气信号分离与合成的方法，其特征在于:所述步骤D22中采用四舍五入法或线性插值法进行处理，得到提取出的气音信息这一步骤，其具体为: 若采用四舍五入法，则对理论谷值位置s进行四舍五入，然后以s四舍五入后的结果对应的信息作为提取出的气音信息；若采用线性插值法’则提取出的气音信息沾勺计算公式为:!^=!^-^-!.))*;^+^-!.)*;^，其中，r为S向下取整的结果，fdPfr分别为快速傅里叶变换结果中位置S和位置r对应的分量。9.根据权利要求1-8任一项所述的一种声气信号分离与合成的方法，其特征在于:所述步骤D在将峰值的位置信息和谷值的位置信息提取出来得到两张频谱图后，还需对这两张频谱图分别执行插值处理才能得到完整的声音信息频谱图和气音信息频谱图。10.一种声气信号分离与合成的系统，其特征在于:包括: 转换模块，用于将采样的人声语音信号由时域转换到频域，得到原始的频谱图；测定模块，用于根据原始的频谱图测定人声语音信号的基频；标记模块，用于在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置，以两峰之间的位置作为谷值的位置；提取模块，用于从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来，进而得到峰值的位置信息对应的声音信息频谱图以及谷值的位置信息对应的气音信息频谱图；单独处理模块，用于分别对声音信息频谱图中的声音信息和气音信息频谱图中的气音信息进行处理；合成模块，用于将处理后的声音信息和处理后的气音信息频进行合成，得到最终的人声语音信号；所述转换模块的输出端依次通过测定模块、标记模块、提取模块和单独处理模块进而与合成模块的输入端连接。
【专利摘要】本发明公开了一种声气信号分离与合成的方法及系统，方法包括：将采样的人声语音信号由时域转换到频域，得到原始的频谱图；根据原始的频谱图测定人声语音信号的基频；在原始的频谱图上将与基频成整数倍距离的位置标记为峰值的位置，以两峰之间的位置作为谷值的位置；从原始的频谱图中分别将峰值的位置信息和谷值的位置信息提取出来，进而得到对应的声音信息频谱图以及对应的气音信息频谱图；分别对声音信息和气音信息进行处理；将处理后的声音信息和处理后的气音信息频进行合成，得到最终的人声语音信号。本发明能将声音信息与气音信息进行分离，以单独对声音信号或气音信号进行修改等后续处理，可广泛应用于信号处理领域。
【IPC分类】G10L21/028, G10L25/18, G10L13/07, G10L21/0272
【公开号】CN105679331
【申请号】CN201511033483
【发明人】滕少华, 霍颖翔, 张巍
【申请人】广东工业大学
【公开日】2016年6月15日
【申请日】2015年12月30日

完整全部详细技术资料下载

当前第3页1 2 3