一种麦克风阵列语音检测方法及装置的制造方法

文档序号:9565603阅读:641来源:国知局
一种麦克风阵列语音检测方法及装置的制造方法
【技术领域】
[0001] 本发明涉及语音处理技术,尤其涉及一种麦克风阵列语音检测方法及装置。
【背景技术】
[0002] 在语音通信和人机语音交互中,语音检测是一个重要的环节,准确检测语音信号 对语音的识别、增强、编码等等都有重要影响。传统的单通道语音检测通常都W某种特征为 检测依据,通过对输入的信号进行特征分析,然后用分类器进行检测。由于实时性的要求, 特征分析和分类器检测都相对简单,特征分析所常用的特征包括短时能量、过零率或其他 的谱特征等,而分类器也W阔值判定、线性分离器等为主。送些检测方法在复杂噪声条件下 检测性能极其有限,噪声环境下语音检测的基本假设是噪声与语音信号的特征不同,送在 实际当中存在如下困难;检测阔值的确定不够准确,特别是变化的噪声环境,检测阔值更是 难W确定。

【发明内容】

[0003] 有鉴于此,本发明提供一种麦克风阵列语音方法及装置,在复杂噪声条件下能够 准确确定检测阔值,提高噪声检测的准确度。
[0004] 基于上述目的本发明提供的麦克风阵列语音检测方法,包括如下步骤:
[0005] 根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入 信号的最大子带功率比;
[0006] 根据预先设定的判断条件,采用所述最大子带功率比和当前检测阔值判断当前所 处的语音状态;
[0007] 当判断当前转入的语音状态为预设的检测阔值调整状态时,对检测阔值进行调 整。
[0008] 可选的,计算阵列语音输入信号的最大子带功率比和检测阔值的步骤具体包括:
[0009] 采用顿间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功 率谱,并采用顿间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱;
[0010] 根据所述固定波束输出功率谱和平均功率谱的比值计算各个频点功率比;
[0011] W频点功率比最大的频点为中必,在设定宽度的子带范围内,根据所述子带范围 内的平均功率比,采用顿间回归平滑的方式估计最大子带功率比。
[0012] 可选的,所述固定波束输出功率谱计算公式为:
[0014] 其中,k为频点编号;A为短时顿编号;托(/U.)为短时顿编号为A时的当前顿 波束输出信号功率谱:?为第一回归系数;Il为预设定频点数;
[0015] 所述阵列语音输入信号的平均功率谱的计算公式为:
[0017]含为短时顿编号为A时的当前顿的平均功率谱;ay为第二回归系数;
[0018] 所述各个频点功率比的计算公式为:
[0019] 所述最大子带功率谱比的计算公式为:
[0020] r ( A ) = aft (入-l) + (l-ar):T (入);
[0021] r(A-l)为r(A)的上次计算结果,其初始值为设定宽度的子带范围内的平均功 率比;Sf为第H回归系数。
[0022] 可选的,所述检测阔值调整状态包括有语音状态。
[0023] 可选的,根据预先设定的判断条件,采用所述最大子带功率比和检测阔值判断当 前所处的语音状态的步骤具体包括:
[0024] 若当前处于语音开始状态且最大子带功率大于当前检测阔值、且连续处于语音开 始状态的顿数大于设定的第一顿数阔值,则判断转入有语音状态;
[0025] 和/或,若当前处于语音结束状态且最大子带功率大于当前检测阔值,则判断转 入有语音状态。
[0026] 可选的,根据预先设定的判断条件,采用所述最大子带功率比和检测阔值判断当 前所处的语音状态的步骤还包括:
[0027] 若当前处于无语音状态且最大子带功率比大于当前检测阔值,则判断转入语音开 始状态;
[0028] 若当前处于语音开始状态且最大子带功率小于等于当前检测阔值,则判断转入无 语音状态;
[0029] 若当前处于有语音状态且最大子带功率小于等于当前检测阔值,则判断转入语音 结束状态;
[0030] 若当前处于有语音状态且最大子带功率小于等于当前检测阔值、且连续处于语音 结束状态的顿数大于设定的第二顿数阔值,则判断转入无语音状态。
[0031] 可选的,根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语 音输入信号的最大子带功率比的步骤之前,还包括:
[0032] 接收通过语音采集设备输入的阵列语音输入信号;
[0033] 对所述阵列语音输入信号进行加窗截短,并进行短时傅里叶变换处理,得到所述 阵列语音输入信号的时频表示信号;
[0034] 根据所述时频表示信号计算频域固定波束输出;
[0035] 根据所述频域固定波束输出计算阵列当前顿平均功率谱和当前顿波束输出信号 功率谱;
[0036] 根据所述阵列当前顿平均功率谱计算阵列语音输入信号的固定波束输出功率谱; 并根据所述当前顿波束输出信号功率谱计算阵列语音输入信号的平均功率谱。
[0037] 可选的,所述固定波束输出采用所述原始阵列语音信号的时频表示信号乘W相应 的预设波束参数;
[0038] 所述预设波束参数通过下述公式进行确定:
[0039] A(/() =argmmAii(/〇r(/i:)A(/();约束条件为AH似d(k) =1,并且, A(.表.> Jjk);
[0040]r似为目标语音信号的理想扩散场归一化相干矩阵,该矩阵为NXN矩阵,其第 rii行ri2列元素为:
[004引上述关于r似的公式中,^/,,,."^为第ni个麦克风和第ri2个麦克风之间的距离,C 是声速,K是短时傅里叶变换的长度;
[004引WNGmi。似是白噪声增益;
[0044] d似为目标声源到语音采集设备的空间导向矢量,其计算公式为:
[0046] 上述公式中,0为目标声源到语音采集设备的方位角沖……山是第1到N个数 字语音采集设备到数字语音采集设备阵列中必的距离;fs是采样频率。
[0047] 可选的,当判断当前转入的语音状态为预设的检测阔值调整状态时,依据下述公 式对检测阔值进行调整:
[004引其中,0 '(A)为调整后的检测阔值;0,、0H分别为预设的语音检测阔值下限和 上限;为有语音状态时对最大子带功率谱比进行缓慢回归平滑的值。
[0050] 进一步,本发明提供一种麦克风阵列语音检测装置,包括:
[0051] 第一计算模块:用于根据阵列语音输入信号的固定波束输出功率谱和平均功率谱 计算阵列语音输入信号的最大子带功率比;
[0052] 状态判断模块:用于根据预先设定的判断条件,采用所述最大子带功率比和当前 检测阔值判断当前所处的语音状态;
[0053] 阔值调整模块:用于当判断当前转入的语音状态为预设的检测阔值调整状态时, 对检测阔值进行调整。
[0054] 可选的,第一计算模块具体包括:
[0055] 第一计算单元:用于采用顿间回归平滑和频域平滑的方式估算阵列语音输入信号 的固定波束输出功率谱,并采用顿间平滑和频域平滑的方式估算阵列语音输入信号的平均 功率谱;
[0056] 第二计算单元:用于根据所述固定波束输出功率谱和平均功率谱的比值计算各个 频点功率比;
[0057] 第H计算单元;用于W频点功率比最大的频点为中必,在设定宽度的子带范围内, 根据所述子带范围内的平均功率比,采用顿间回归平滑的方式估计最大子带功率比。
[0058] 可选的,所述固定波束输出功率谱计算公式为:
[0060]其中,k为频点编号;A为短时顿编号;於(6,)为短时顿编号为A时的当前顿 波束输出信号功率谱:?为第一回归系数;Ii为预设定频点数;
[0061] 所述阵列语音输入信号的平均功率谱的计算公式为:
[0063] ^^^(&,^)为短时顿编号为A时的当前顿的平均功率谱;曰,为第二回归系数;
[0064] 所述各个频点功率比的计算公式为:
[0065] 所述最大子带功率谱比的计算公式为:
[0066] r(A) =a^r(A-1) + (l-a^)r(A);
[0067] r(A-I)为r(A)的上次计算结果,其初始值为设定宽度的子带范围内的平均功 率比;Sf为第H回归系数。
[0068] 可选的,所述检测阔值调整状态包括有语音状态。
[0069] 可选的,所述状态判断模块具体包括:
[0070] 第一判断单元;用于在当前处于语音开始状态且最大子带功率大于当前检测阔 值、且连续处于语音开始状态的顿数大于设定的第一顿数阔值时,判断转入有语音状态;
[0071] 和/或,第二判断单元;用于在当前处于语音结束状态且最大子带功率大于当前 检测阔值时,判断转入有语音状态。
[0072] 可选的,所述状态判断模块还包括:
[0073] 第H判断单元;用于在前处于无语音状态且最大子带功率比大于当前检测阔值 时,判断转入语音开始状态;
[0074] 第四判断单元:用于在当前处于语音开始状态且最大子带功率小于等于当前检测 阔值时,判断转入无语音状态;
[0075] 第五判断单元:用于在当前处于有语音状态且最大子带功率小于等于当前检测阔 值是,判断转入语音结束状态;
[0076] 第六判断单元:用于在当前处于有语音状态且最大子带功率小于等于当前检测阔 值、且连续处于语音结束状态的顿数大于设定的第二顿数阔值时,判断转入无语音状态。
[0077] 可选的,所述装置还包括:
[0078] 信号接收模块;用于接收通过语音采集设备输入的阵列语音输入信号;
[0079] 信号变换模块:用于对所述阵列语音输入信号进行加窗截短,并进行短时傅里叶 变换处理,
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1