一种语音端点检测方法及装置的制作方法

文档序号：2824015阅读：269来源：国知局

专利名称：一种语音端点检测方法及装置的制作方法
技术领域：
本发明属于视频监控领域，尤其涉及一种语音端点检测方法及装置。
背景技术：
目前，在实时视频监控中，利用拾音器拾取监控场景中的异常声音，从而调节摄像机光轴指向异常声音处，可以实现异常事件的实时监控。由于全向性拾音器可以拾取各个方向上的声音，因此可以有效解决传统视频监控中由于异常事件发生在监控摄像机视场盲区，不能迅速捕捉到异常事件发生的弊端。在视频监控中，利用拾音器拾取监控场景中的异常声音，最为关键的第一步就是语音端点检测技术。传统的端点检测方法，如短时能量、过零率等算法，基于熵、零能积、熵与能量结合的改进算法，在平稳噪声或者高信噪比时性能较好。在低信噪比或者非平稳环境下，语音的短时能量容易与噪声混淆，过零率容易区分清音和噪声，但难以区分浊音和噪声，短时零能积方法在一定程度上可以提高端点检测的稳健性，但短时零能积特征参数抗噪声性能不及信息熵，从某种程度上讲，谱熵对噪声具有一定的稳健性，但当信噪比下降时，虽然谱熵的形状保持不变，但谱熵降低，而且传统基于谱熵的方法只考虑当前帧的频谱信息，在非平稳的噪声环境下噪声频谱信息熵波动范围很大，这给阈值选取带来了困难。

发明内容
本发明的目的在于提供一种可以有效的区分语音和非语音帧，对于低信噪比环境也有较好的检测效果的语音端点检测方法。本发明实施例是这样实现的，一种语音端点检测方法，所述检测方法包括对输入语音信号进行数据采样，并对采样后的语音信号进行预处理；对预处理过的语音信号加入汉明窗进行分帧处理，记为Rn(0 < η ^ N), N是帧的总数；计算第η帧语音信号的频谱信息熵；如果第η帧语音信号的频谱信息熵大于设定的阈值，将该帧判定为语音帧，否则判定为非语音帧。本发明的目的还在于提供一种语音端点检测装置，其特征在于，所述检测装置包括语音信号采样处理单元，用于对输入语音信号进行数据采样，并对采样后的语音信号进行预处理；语音信号分帧处理单元，对预处理过的语音信号加入汉明窗进行分帧处理，记为 Rn(0<n彡Ν)，Ν是帧的总数；频谱信息熵计算单元，用于计算第η帧语音信号的频谱信息熵；语音帧确定单元，用于如果第η帧语音信号的频谱信息熵大于设定的阈值，将该帧判定为语音帧，否则判定为非语音帧。
本发明的优点和积极效果是本发明应用了频谱熵作为语音和非语音的区分特征，可以有效的区分语音帧和非语音帧，对于低信噪比环境也有较好的检测效果，克服了传统的基于频谱熵的算法只考虑当前帧的频谱信息，在非平稳的噪声环境下噪声频谱信息熵波动很大，增加了阈值选择的难度的问题。

图1是本发明实施例提供的语音端点检测方法的实现流程图；图2是本发明的第一实施例的实现流程图；图3是本发明实施例提供的语音端点检测装置的结构框图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。本发明实施例提出了一种监控领域低信噪比下语音端点检测方法。该方法以子带频谱熵作为语音和非语音帧的区分特征，首先对每帧语音信号进行小波分解，获得不同频段的子带信号，然后对这些子带信号进行FFT变换，分别计算出各个子带的频谱熵，把前后相距若干帧的子带频谱熵通过一组顺序统计滤波器进行平滑处理，计算得到每帧的频谱熵，根据其值和设定的阈值判定语音帧和非语音帧，为了提高算法的精度，对阈值进行自适应修改。图1示出了本发明实施例提供的语音端点检测方法的流程图。该方法包括在步骤SlOl中，对输入语音信号进行数据采样，并对采样后的语音信号进行预处理；在步骤S102中，对预处理过的语音信号加入汉明窗进行分帧处理，记为Rn(0 <n彡N)，N是帧的总数；在步骤S103中，计算第η帧语音信号的频谱信息熵；在步骤S104中，如果第η帧语音信号的频谱信息熵大于设定的阈值，将该帧判定为语音帧，否则判定为非语音帧。在步骤S105中，如果η > N则算法结束，否则返回到第2步。作为本发明的第一实施例，如图2所示，一种语音端点检测方法，具体包括以下步骤在步骤S201中，对输入语音信号进行数据采样，由于语音信号主要集中在8kHz以下，在本发明实施例中采用11. 025kHz作为语音信号的采样频率。在步骤S202中，采样后的语音信号进行一些预处理，进行预加重可以提升高频部分，使信号频谱变的平坦，便于进行频谱分析。减小低电平影响是因为拾音器采集的语音信号为负值，使其减去中值，语音中心轴靠近零点。语音时域幅度进行归一化。在步骤S203中，对预处理过的语音信号加入汉明窗进行分帧处理，帧长一般20 30ms，帧移一般10 20ms，记为Rn(0 < η ^ N)，N是帧的总数。其中汉明窗表达式是
权利要求
1.一种语音端点检测方法，首先对输入语音信号进行数据采样，并对采样后的语音信号进行预处理，接着对预处理过的语音信号加入汉明窗进行分帧处理，记为Rn(0 < η < N)， N是帧的总数，其特征在于，所述检测方法还包括计算第η帧语音信号的频谱信息熵；如果第η帧语音信号的频谱信息熵大于设定的阈值，将该帧判定为语音帧，否则判定为非语音帧。
2.如权利要求1所述的检测方法，其特征在于，所述对采样后的语音信号进行预处理的实现方法包括对采样后的语音信号进行一些预处理进行预加重，提升高频部分，使信号频谱变的平坦，便于进行频谱分析；对采样后的语音信号进行减小低电平影响，使语音信号减去中值，语音中心轴靠近零点。对采样后的语音信号的语音时域幅度进行归一化。
3.如权利要求1所述的检测方法，其特征在于，所述计算第η帧语音信号的频谱信息熵包括以下步骤对第η帧RH吾音信号选用小波基函数进行五层分解，获取不同频段的子带信号；对各子带信号进行FFT变换后得到对应的功率谱；计算每个子带信号的能量、每个子带信号每个点的概率以及每个子带信号的频谱熵；把前后相距若干帧的子带频谱熵通过一组顺序统计滤波器进行平滑处理；计算得到每帧的频谱熵。
4.如权利要求1所述的检测方法，其特征在于，所述阈值的初始阈值取前10帧子带信号的频谱熵的均值乘以一个修正系数得到。
5.如权利要求1所述的检测方法，其特征在于，当从语音帧进入非语音帧时，所述阈值通过重新取若干帧语音信号频谱熵的均值乘以一个系数来进行自适应修改。
6.一种语音端点检测装置，其特征在于，所述检测装置包括语音信号采样处理单元，用于对输入语音信号进行数据采样，并对采样后的语音信号进行预处理；语音信号分帧处理单元，对预处理过的语音信号加入汉明窗进行分帧处理，记为Rn(0 <n≤N)，N是帧的总数；频谱信息熵计算单元，用于计算第η帧语音信号的频谱信息熵；语音帧确定单元，用于如果第η帧语音信号的频谱信息熵大于设定的阈值，将该帧判定为语音帧，否则判定为非语音帧。
7.如权利要求6所述的检测装置，其特征在于，所述语音信号采样处理单元包括语音信号预加重模块，用于对采样后的语音信号进行一些预处理进行预加重，提升高频部分，使信号频谱变的平坦，便于进行频谱分析；减小低电平影响模块，用于对采样后的语音信号进行减小低电平影响，使语音信号减去中值，语音中心轴靠近零点；时域幅度归一模块，用于对采样后的语音信号的语音时域幅度进行归一化。
8.如权利要求6所述的检测装置，其特征在于，所述频谱信息熵计算单元包括语音信号分解模块，用于对第η帧Rn语音信号选用db3系列小波基函数进行五层分解，获取不同频段的子带信号；FFT变换模块，用于对各子带信号进行FFT变换后得到对应的功率谱；子带信号计算模块，用于计算每个子带信号的能量、每个子带信号每个点的概率以及每个子带信号的频谱熵；频谱熵平滑处理模块，用于把前后相距若干帧的子带频谱熵通过一组顺序统计滤波器进行平滑处理；频谱熵计算模块，用于计算得到每帧的频谱熵。
9.如权利要求6所述的检测装置，其特征在于，所述检测装置还包括阈值设定单元，用于当从语音帧进入非语音帧时，所述阈值通过重新取若干帧语音信号频谱熵的均值乘以一个系数来进行自适应修改。
全文摘要
本发明属于视频监控领域，提供了一种语音端点检测方法及装置，包括对输入语音信号进行数据采样，并对采样后的语音信号进行预处理；对预处理过的语音信号加入汉明窗进行分帧处理，记为Rn(0＜n≤N)，N是帧的总数；计算第n帧语音信号的频谱信息熵；如果第n帧语音信号的频谱信息熵大于设定的阈值，将该帧判定为语音帧，否则判定为非语音帧。本发明应用了频谱熵作为语音和非语音的区分特征，可以有效的区分语音帧和非语音帧，对于低信噪比环境也有较好的检测效果，克服了传统的基于频谱熵的算法只考虑当前帧的频谱信息，在非平稳的噪声环境下噪声频谱信息熵波动很大，增加了阈值选择的难度的问题。
文档编号G10L11/00GK102097095SQ20101060950
公开日2011年6月15日申请日期2010年12月28日优先权日2010年12月28日
发明者苏伟博申请人:天津市亚安科技电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏伟博
技术所有人：天津市亚安科技电子有限公司
我是此专利的发明人

上一篇：一种基于语音的控制方法及系统的制作方法
上一篇：一种基于比特平面的感知音频分级编码系统及方法