一种检测静音帧的方法及装置及可读存储介质与流程

文档序号：18840711发布日期：2019-10-09 06:58阅读：281来源：国知局

本发明涉及语音识别技术领域，特别是一种检测静音帧的方法及其应用该方法的装置。

背景技术：

随着人机交互技术的发展，语音识别技术显示出其重要性。在语音识别系统中，语音端点检测技术是非常重要的一项技术，通常也称为语音活动性检测技术(voiceactivitydetection，vad)。语音端点检测是指在连续音频信号中找出语音段的起始点和终止点。在具体实现时，对音频信号进行分帧处理，基于传统的信号处理方法提取每个音帧的能量和过零率等特征，然后根据人为制定的一些规则，判读每个音帧为语音帧或者噪音帧，最后，将连续多个语音帧中的首个语音帧作为语音段的起点，将最后一个语音帧作为语音段的终点。

音频数据的特点是：大部分时间内可能都是静音和噪音数据，只有少数时间内包含真正有用的语音信息。为了对音频进行浓缩摘要，通常需要进行去静音处理。

然而，现有的基于vad算法的静音检测方法，有的是比较简单方法，例如根据音频段的能量与能量门限进行比较，当音频段的能量小于能量门限时，则判定为静音，该算法运算量小，但是不能很有效地去除音量较小的噪声段；还有的比较复杂的静音检测方法，需要采集大量的语音样本和静音样本输入神经网络进行训练声音检测模型，并且在训练过程中或者检测过程中需要对样本进行特征提取和特征处理等工作，不仅计算量大，而且算法复杂，效率较低。

技术实现要素：

本发明为解决上述问题，提供了一种检测静音帧的方法及装置及可读存储介质，不仅算法运算量小，而且能够较有效地检测出静音段和音量较小的噪声段。

本发明的目的之一，在于提供一种检测静音帧的方法，其包括以下步骤：

对待检测音频段进行分帧处理，得到一个以上的子帧；

计算每个子帧中的每个采样点的能量值，并对每个采样点的能量值进行绝对值处理，将最大绝对值作为该子帧的能量代表值fn；

根据所述能量代表值fn进行计算所述子帧的能量平均值m0；

将每个子帧的能量代表值fn与所述能量平均值m0进行比对，当能量代表值fn小于所述能量平均值m0，则该子帧为无效帧；否则为有效帧。

优选的，所述能量平均值m0的计算方法，是通过统计所有子帧的能量代表值fn之和，再除以子帧的数量，得到所述子帧的能量平均值m0。

优选的，当所述子帧为有效帧，则进一步统计有效帧的数量；若连续的有效帧的数量小于预设的数量阈值，则该有效帧改为无效帧。

本发明的目的之二，在于提供一种检测静音帧的方法，其包括以下步骤：

对待检测音频段进行分帧处理，得到一个以上的子帧；

计算第0至i个子帧的每个子帧中的每个采样点的能量值，并对每个采样点的能量值进行绝对值处理，将最大绝对值作为该子帧的能量代表值fn；

根据所述能量代表值fn进行计算所述第0至i个子帧的能量平均值mi和第0至i-1个子帧的能量平均值mi-1；

计算所述能量平均值mi-1与所述能量平均值mi的差值di，即：di＝mi-1-mi，i＝1,2,3...n；

计算所述差值的变化值δ，即：δ＝di/di+1；

将所述变化值δ与预设的变化阈值进行比对，当所述变化值δ小于预设变化阈值，且子帧的能量代表值fn小于能量平均值mi，则该第0至i个子帧为无效帧；否则为有效帧。

优选的，所述能量平均值mi的计算方法，是通过统计第0至i个子帧的能量代表值fn之和，再除以子帧的数量i，得到所述子帧的能量平均值mi。

或者，所述能量平均值mi的计算方法为：

(当fn<mi-1,cn＝fn,dn＝1，否则cn＝0，dn＝0；其中i>＝1)。

优选的，当所述子帧为有效帧，则进一步统计有效帧的数量；若连续的有效帧的数量小于预设的数量阈值，则该有效帧改为无效帧。

优选的，所述预设的变化阈值取1.5。

本发明的目的之三，在于提供一种检测静音帧的装置，其包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过执行所述存储器中存储的计算机程序使得所述装置实现上述任一项所述的检测静音帧的方法。

本发明的目的之四，在于提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述装置执行所示计算机程序使得所述装置实现上述任一项所述的检测静音帧的方法。

本发明的有益效果是：

(1)本发明通过取每个子帧中的采样点的绝对值最大值作为子帧的能量代表值，根据该能量代表值进行均值计算和无效帧判断，不仅算法运算量小，而且能够较有效地检测出静音段和音量较小的噪声段；

(2)本发明根据能量均值的差值的变化情况来判断各个子帧的能量波动情况，当差值变化较小时，则说明当前统计的各个子帧的能量波动较小，并结合与能量均值的比对分析，从而能够更准确的判断出静音段或者音量较小的噪声段；

(3)本发明还进一步对有效帧的连续的数量进行阈值判断，当连续的有效帧的数量较小时，说明为异常帧，从而将其判定为无效帧，能够更有效的排除异常噪声。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合具体实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

第一实施例：

本实施例提供一种检测静音帧的方法，其包括以下步骤：

对待检测音频段进行分帧处理，得到一个以上的子帧；

计算每个子帧中的每个采样点的能量值，并对每个采样点的能量值进行绝对值处理，将最大绝对值作为该子帧的能量代表值fn；

根据所述能量代表值fn进行计算所述子帧的能量平均值m0；

将每个子帧的能量代表值fn与所述能量平均值m0进行比对，当能量代表值fn小于所述能量平均值m0，则该子帧为无效帧；否则为有效帧。

本实施例中，所述能量平均值m0的计算方法，是通过统计所有子帧的能量代表值fn之和，再除以子帧的数量，得到所述子帧的能量平均值m0。

例如，待检测音频采用8000采样率，每个子帧的帧长采用10ms，则每个子帧具有80个采样点，对该80个采样点的每个采样点的能量值做绝对值处理，最大的作为该子帧的能量代表值fn，具体计算方法如下：

fn＝max|si|，(i＝n*m,...,n*m-1),其中m为10ms的采样点数，n>＝0。

并且，当所述子帧为有效帧，则进一步统计有效帧的数量；若连续的有效帧的数量小于预设的数量阈值，则该有效帧改为无效帧。

因此，采用本实施例的方法，当子帧的能量代表值fn小于统计得到的能量平均值m0，则可判断出该子帧为静音帧或者音量较小的噪声帧(例如说话人所处环境的背景噪音)；或者，当子帧的能量代表值fn大于或等于统计得到的能量平均值m0但连续数量小于预设的数量阈值，也同样判定该子帧为无效帧(例如说话人所处环境的异常噪音)。

第二实施例：

本实施例提供一种检测静音帧的方法，其包括以下步骤：

对待检测音频段进行分帧处理，得到一个以上的子帧；

计算第0至i个子帧的每个子帧中的每个采样点的能量值，并对每个采样点的能量值进行绝对值处理，将最大绝对值作为该子帧的能量代表值fn；

根据所述能量代表值fn进行计算所述第0至i个子帧的能量平均值mi和第0至i-1个子帧的能量平均值mi-1；

计算所述能量平均值mi-1与所述能量平均值mi的差值di，即：di＝mi-1-mi，i＝1,2,3...n；

计算所述差值的变化值δ，即：δ＝di/di+1；

将所述变化值δ与预设的变化阈值进行比对，当所述变化值δ小于预设变化阈值，且子帧的能量代表值fn小于能量平均值mi，则该第0至i个子帧为无效帧；否则为有效帧。本实施例中，所述预设的变化阈值取1.5，该变化阈值可根据不同场景设置为不同的值，例如，对于室内较安静的说话背景，可设置较低的变化阈值；对于闹市吵杂的说话背景，需设置较高的变化阈值。

其中，所述子帧的能量代表值fn的具体计算方法如下：

fn＝max|si|，(i＝n*m,...,n*m-1),其中m为10ms的采样点数，n>＝0。

例如，待检测音频采用8000采样率，每个子帧的帧长采用10ms，则每个子帧具有80个采样点，对该80个采样点的每个采样点的能量值做绝对值处理，最大的作为该子帧的能量代表值fn。

其中，所述能量平均值mi的计算方法可采用以下两种：

(1)，是通过统计第0至i个子帧的能量代表值fn之和，再除以子帧的数量i，得到所述子帧的能量平均值mi；同理，所述能量平均值mi-1的计算方法，是通过统计第0至i-1个子帧的能量代表值fn之和，再除以子帧的数量i-1，得到所述子帧的能量平均值mi-1。

(2)，所述能量平均值mi的计算方法还可采用以下计算公式：

(当fn<mi-1,cn＝fn,dn＝1，否则cn＝0，dn＝0；其中i>＝1)；同理，所述能量平均值mi-1的计算方法与能量平均值mi的计算方法相似，在此不进行赘述。

并且，当所述子帧为有效帧，则进一步统计有效帧的数量；若连续的有效帧的数量小于预设的数量阈值，则该有效帧改为无效帧。

因此，采用本实施例的方法，当子帧的能量平均值mi-1与mi的差值di的变化幅度较小时，则说明当前统计的各个子帧的能量波动较小，且该子帧的能量代表值fn小于能量平均值mi，则可判断出该子帧为静音帧或者音量较小的噪声帧；或者，该子帧的能量波动较小但其能量代表值fn大于或等于统计得到的能量平均值m0，只是其连续数量小于预设的数量阈值，也同样判定该子帧为无效帧(例如说话人所处环境的异常噪音)。

第三实施例：

本实施例提供一种检测静音帧的装置，其包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过执行所述存储器中存储的计算机程序使得所述装置实现上述任一项所述的检测静音帧的方法。

第四实施例：

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述装置执行所示计算机程序使得所述装置实现上述任一项所述的检测静音帧的方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例和介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：洪国强;肖龙源;李稀敏;蔡振华;刘晓葳;谭玉坤
技术所有人：厦门快商通信息咨询有限公司
我是此专利的发明人

上一篇：磁盘装置及磁盘装置的控制方法与流程
上一篇：一种薄形耳机用振动器的制作方法