语音信号处理方法和装置制造方法

文档序号：2828054阅读：311来源：国知局

语音信号处理方法和装置制造方法
【专利摘要】本发明公开了一种语音信号处理方法和装置，属于音频处理【技术领域】。所述方法包括：获取麦克风采集的语音信号；检测语音信号是否属于清音信号，清音信号包括正常清音信号和喷麦信号，喷麦信号是指气流从发声者嘴巴喷至麦克风而产生的语音信号；若语音信号属于清音信号，则检测语音信号是否属于喷麦信号；若语音信号属于喷麦信号，则对语音信号进行抑制处理，该抑制处理包括能量衰减处理、删除处理和静默处理中的至少一种。本发明解决了相关技术中针对喷麦的处理方式存在实时性差和效率低的问题；提高了喷麦处理的实时性和效率，且无需人工后期修复，达到了自动检测抑制喷麦的效果。
【专利说明】语音信号处理方法和装置

【技术领域】
[0001] 本发明涉及音频处理【技术领域】，特别涉及一种语音信号处理方法和装置。

【背景技术】
[0002] 在人们的日常工作和生活中经常会用到麦克风。在使用麦克风说话或唱歌时，却常常会遇到喷麦的困扰。
[0003] 针对喷麦，常用的处理方式包括如下两种：第一，人们在使用麦克风时，控制嘴巴和麦克风之间的距离、角度，以尽可能地减少喷麦情况的发生；第二，采用后期人工修复的方式，由技术人员从录制的音频中找出喷麦位置，并进行手动衰减处理。
[0004] 在实现本发明的过程中，发明人发现上述技术至少存在以下问题：上述第一种方式无法完全避免喷麦情况的发生，而上述第二种方式在处理实时性和处理效率方面也存在很大不足。

【发明内容】

[0005] 为了解决上述技术中针对喷麦的处理方式存在实时性差和效率低的问题，本发明实施例提供了一种语音信号处理方法和装置。所述技术方案如下：
[0006] 第一方面，提供了一种语音信号处理方法，所述方法包括：
[0007] 获取麦克风采集的语音信号；
[0008] 检测所述语音信号是否属于清音信号，所述清音信号包括正常清音信号和喷麦信号，所述喷麦信号是指气流从发声者嘴巴喷至所述麦克风而产生的语音信号；
[0009] 若所述语音信号属于所述清音信号，则检测所述语音信号是否属于所述喷麦信号；
[0010] 若所述语音信号属于所述喷麦信号，则对所述语音信号进行抑制处理，所述抑制处理包括能量衰减处理、删除处理和静默处理中的至少一种。
[0011] 可选的，所述对所述语音信号进行抑制处理之前，还包括：
[0012] 将所述语音信号的频带划分为N个子频带，N彡2且N为整数；
[0013] 计算所述语音信号在所述N个子频带内的能量分布；
[0014] 根据所述能量分布确定所述语音信号的喷麦类型。
[0015] 可选的，所述对所述语音信号进行抑制处理，包括：
[0016] 若所述语音信号的喷麦类型为带正常清音的喷麦信号，则根据所述能量分布将所述N个子频带划分为清音频段、衔接频段和喷麦频段；计算所述衔接频段中每个子频带内各个频点的平均能量；根据所述平均能量的最小值对所述喷麦频段内各个频点的能量进行衰减；
[0017]或者，
[0018] 若所述语音信号的喷麦类型为不带正常清音的轻喷麦信号，则根据所述能量分布将所述N个子频带划分为高频喷麦频段和低频喷麦频段；计算所述高频喷麦频段内各个频点的平均能量；根据所述平均能量对所述低频喷麦频段内各个频点的能量进行衰减；
[0019]或者，
[0020] 若所述语音信号的喷麦类型为不带正常清音的强喷麦信号，则根据预设衰减系数对所述语音信号中各个频点的能量进行衰减。
[0021] 可选的，所述检测所述语音信号是否属于所述喷麦信号，包括：
[0022] 获取所述语音信号的频域分布特性；
[0023] 根据所述频域分布特性检测所述语音信号是否属于所述喷麦信号。
[0024] 可选的，当所述频域分布特性为能量谱重心时，所述获取所述语音信号的频域分布特性，包括：
[0025] 按照如下公式计算所述语音信号的能量谱重心WF(i):

【权利要求】
1. 一种语音信号处理方法，其特征在于，所述方法包括：获取麦克风采集的语音信号；检测所述语音信号是否属于清音信号，所述清音信号包括正常清音信号和喷麦信号，所述喷麦信号是指气流从发声者嘴巴喷至所述麦克风而产生的语音信号；若所述语音信号属于所述清音信号，则检测所述语音信号是否属于所述喷麦信号；若所述语音信号属于所述喷麦信号，则对所述语音信号进行抑制处理，所述抑制处理包括能量衰减处理、删除处理和静默处理中的至少一种。
2. 根据权利要求1所述的方法，其特征在于，所述对所述语音信号进行抑制处理之前，还包括：将所述语音信号的频带划分为N个子频带，N> 2且N为整数；计算所述语音信号在所述N个子频带内的能量分布；根据所述能量分布确定所述语音信号的喷麦类型。
3. 根据权利要求2所述的方法，其特征在于，所述对所述语音信号进行抑制处理，包括：若所述语音信号的喷麦类型为带正常清音的喷麦信号，则根据所述能量分布将所述N个子频带划分为清音频段、衔接频段和喷麦频段；计算所述衔接频段中每个子频带内各个频点的平均能量；根据所述平均能量的最小值对所述喷麦频段内各个频点的能量进行衰减；或者，若所述语音信号的喷麦类型为不带正常清音的轻喷麦信号，则根据所述能量分布将所述N个子频带划分为高频喷麦频段和低频喷麦频段；计算所述高频喷麦频段内各个频点的平均能量；根据所述平均能量对所述低频喷麦频段内各个频点的能量进行衰减；或者，若所述语音信号的喷麦类型为不带正常清音的强喷麦信号，则根据预设衰减系数对所述语音信号中各个频点的能量进行衰减。
4. 根据权利要求1所述的方法，其特征在于，所述检测所述语音信号是否属于所述喷麦信号，包括：获取所述语音信号的频域分布特性；根据所述频域分布特性检测所述语音信号是否属于所述喷麦信号。
5. 根据权利要求4所述的方法，其特征在于，当所述频域分布特性为能量谱重心时，所述获取所述语音信号的频域分布特性，包括：按照如下公式计算所述语音信号的能量谱重心WF(i):
其中，i表示所述语音信号在语音序列中的帧序号，i> 0且i为整数；L表示第i帧语音信号的帧长，L彡1且L为整数；k表示所述第i帧语音信号中第k个频点，ke[0,L-1] 且k为整数；|Y(k，i) |2表示所述第i帧语音信号中第k个频点的能量；所述根据所述频域分布特性检测所述语音信号是否属于所述喷麦信号，包括：检测所述语音信号的能量谱重心WF(i)是否小于能量谱重心阈值；若小于所述能量谱重心阈值，则确定所述语音信号属于所述喷麦信号。
6. 根据权利要求1至5任一所述的方法，其特征在于，所述检测所述语音信号是否属于清音信号，包括：检测所述语音信号是否属于非浊音信号，所述非浊音信号包括所述清音信号和非人声信号；若所述语音信号属于所述非浊音信号，则计算所述语音信号的第一特征值，所述第一特征值为能量或者倒谱距离；根据所述第一特征值检测所述语音信号是否属于所述清音信号。
7. 根据权利要求6所述的方法，其特征在于，所述检测所述语音信号是否属于非浊音信号，包括：计算所述语音信号的第二特征值，所述第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种；根据所述第二特征值检测所述语音信号是否属于所述非浊音信号；或者，检测所述语音信号是否存在预定特性，所述预定特性为基音周期、谐波、共振峰中的任意一种；若所述语音信号不存在所述预定特性，则确定所述语音信号属于所述非浊音信号。
8. 根据权利要求1至5任一所述的方法，其特征在于，所述检测所述语音信号是否属于清音信号，包括：计算所述语音信号的第一特征值，所述第一特征值为能量或者倒谱距离；根据所述第一特征值检测所述语音信号是否属于所述人声信号，所述人声信号包括所述清音信号和浊音信号；若所述语音信号属于所述人声信号，则计算所述语音信号的第二特征值，所述第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种；根据所述第二特征值检测所述语音信号是否属于所述清音信号。
9. 根据权利要求1至5任一所述的方法，其特征在于，所述检测所述语音信号是否属于清音信号，包括：计算所述语音信号的第一特征值，所述第一特征值为能量或者倒谱距离；根据所述第一特征值检测所述语音信号是否属于所述人声信号，所述人声信号包括所述清音信号和浊音信号；若所述语音信号属于所述人声信号，则检测所述语音信号是否存在预定特性，所述预定特性为基音周期、谐波、共振峰中的任意一种；若所述语音信号不存在所述预定特性，则确定所述语音信号属于所述清音信号。
10. -种语音信号处理装置，其特征在于，所述装置包括：语音获取模块，用于获取麦克风采集的语音信号；清音检测模块，用于检测所述语音信号是否属于清音信号，所述清音信号包括正常清音信号和喷麦信号，所述喷麦信号是指气流从发声者嘴巴喷至所述麦克风而产生的语音信号；喷麦检测模块，用于当所述语音信号属于所述清音信号时，检测所述语音信号是否属于所述喷麦信号；喷麦抑制模块，用于当所述语音信号属于所述喷麦信号时，对所述语音信号进行抑制处理，所述抑制处理包括能量衰减处理、删除处理和静默处理中的至少一种。
11. 根据权利要求10所述的装置，其特征在于，所述装置还包括：频带划分模块，用于将所述语音信号的频带划分为N个子频带，N> 2且N为整数；能量计算模块，用于计算所述语音信号在所述N个子频带内的能量分布；类型确定模块，用于根据所述能量分布确定所述语音信号的喷麦类型。
12. 根据权利要求11所述的装置，其特征在于，所述喷麦抑制模块，包括：第一频段划分单元，用于当所述语音信号的喷麦类型为带正常清音的喷麦信号时，根据所述能量分布将所述N个子频带划分为清音频段、衔接频段和喷麦频段；第一能量计算单元，用于计算所述衔接频段中每个子频带内各个频点的平均能量；第一能量衰减单元，用于根据所述平均能量的最小值对所述喷麦频段内各个频点的能量进行衰减；或者，第二频段划分单元，用于当所述语音信号的喷麦类型为不带正常清音的轻喷麦信号时，根据所述能量分布将所述N个子频带划分为高频喷麦频段和低频喷麦频段；第二能量计算单元，用于计算所述高频喷麦频段内各个频点的平均能量；第二能量衰减单元，用于根据所述平均能量对所述低频喷麦频段内各个频点的能量进行衰减；或者，第三能量衰减单元，用于当所述语音信号的喷麦类型为不带正常清音的强喷麦信号时，根据预设衰减系数对所述语音信号中各个频点的能量进行衰减。
13. 根据权利要求10所述的装置，其特征在于，所述喷麦检测模块，包括：频域分布获取单元和喷麦检测单元；所述频域分布获取单元，用于获取所述语音信号的频域分布特性；所述喷麦检测单元，用于根据所述频域分布特性检测所述语音信号是否属于所述喷麦信号。
14. 根据权利要求13所述的装置，其特征在于，所述频域分布获取单元，还用于当所述频域分布特性为能量谱重心时，按照如下公式计算所述语音信号的能量谱重心WF(i):
其中，i表示所述语音信号在语音序列中的帧序号，i> 0且i为整数；L表示第i帧语音信号的帧长，L彡1且L为整数；k表示所述第i帧语音信号中第k个频点，ke[0,L-1] 且k为整数；|Y(k，i) |2表示所述第i帧语音信号中第k个频点的能量；所述喷麦检测单元，还包括：重心检测子单元和喷麦确定子单元；所述重心检测子单元，用于检测所述语音信号的能量谱重心WF(i)是否小于能量谱重心阈值；所述喷麦确定子单元，用于当所述语音信号的能量谱重WWF(i)小于所述能量谱重心阈值时，确定所述语音信号属于所述喷麦信号。
15. 根据权利要求10至14任一所述的装置，其特征在于，所述清音检测模块，包括：非浊音检测单元、第一特征值计算单元和第一清音检测单元；所述非浊音检测单元，用于检测所述语音信号是否属于非浊音信号，所述非浊音信号包括所述清音信号和非人声信号；所述第一特征值计算单元，用于当所述语音信号属于所述非浊音信号时，计算所述语音信号的第一特征值，所述第一特征值为能量或者倒谱距离；所述第一清音检测单元，用于根据所述第一特征值检测所述语音信号是否属于所述清音信号。
16. 根据权利要求15所述的装置，其特征在于，所述非浊音检测单元，包括：第二特征值计算子单元，用于计算所述语音信号的第二特征值，所述第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种；非浊音检测子单元，用于根据所述第二特征值检测所述语音信号是否属于所述非浊音信号；或者，特性检测子单元，用于检测所述语音信号是否存在预定特性，所述预定特性为基音周期、谐波、共振峰中的任意一种；非浊音确定子单元，用于当所述语音信号不存在所述预定特性时，确定所述语音信号属于所述非浊音信号。
17. 根据权利要求10至14任一所述的装置，其特征在于，所述清音检测模块，包括：第一计算单元、人声检测单元、第二计算单元和第二清音检测单元；所述第一计算单元，用于计算所述语音信号的第一特征值，所述第一特征值为能量或者倒谱距离；所述人声检测单元，用于根据所述第一特征值检测所述语音信号是否属于所述人声信号，所述人声信号包括所述清音信号和浊音信号；所述第二计算单元，用于当所述语音信号属于所述人声信号时，计算所述语音信号的第二特征值，所述第二特征值为谱熵值、过零率、相关性、分形维数中的任意一种；所述第二清音检测单元，用于根据所述第二特征值检测所述语音信号是否属于所述清音信号。
18. 根据权利要求10至14任一所述的装置，其特征在于，所述清音检测模块，包括：第一计算单元、人声检测单元、特性检测单元和清音确定单元；所述第一计算单元，用于计算所述语音信号的第一特征值，所述第一特征值为能量或者倒谱距离；所述人声检测单元，用于根据所述第一特征值检测所述语音信号是否属于所述人声信号，所述人声信号包括所述清音信号和浊音信号；所述特性检测单元，用于当所述语音信号属于所述人声信号时，检测所述语音信号是否存在预定特性，所述预定特性为基音周期、谐波、共振峰中的任意一种；所述清音确定单元，用于当所述语音信号不存在所述预定特性时，确定所述语音信号属于所述清音信号。
【文档编号】G10L25/93GK104409081SQ201410692947
【公开日】2015年3月11日申请日期:2014年11月25日优先权日:2014年11月25日
【发明者】肖纯智申请人:广州酷狗计算机科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖纯智;
技术所有人：广州酷狗计算机科技有限公司;
我是此专利的发明人

上一篇：一种用于语音识别系统的中心子带模型自适应方法
上一篇：一种汽车电喇叭的制作方法