一种实时的音频信号分类方法及设备的制作方法

文档序号：2836131阅读：197来源：国知局

专利名称：一种实时的音频信号分类方法及设备的制作方法
技术领域：
本发明涉及音频编解码与传输领域，尤其涉及一种实时的音频信号分类方法及设
- -O
ニ背景技术：
在音频信号进行编码、传输或其他处理前对信号进行分类，可以有效地提高编码和传输的效率，由于多媒体音频信号的传输是在基于实时传输的模式框架下，对音频信号的实时分类是ー个重要的研究内容。国内外对音频信号分类的研究大多集中在长时间的分类上，如1秒或10秒时长的低能量率分类和1秒或10秒时长的短时能量进行分类等。在分类器的设计上普遍采用基于统计的分类方法，如支持向量机的分类器，神经网络分类器等。由于处理时间比较长，这些方法在音频实时分类上实用性不高。目前对音频分类的算法基本是在时域或频域中实现的，而现在流行的编码方式，如MP3，AAC等都利用MDCT变换处理，为了减少额外运算操作，直接提取MDCT域和时域上的特征进行分析，能有效地提高特征提取效率。配合适当的分类规则可以设计出快速音频信号实时分类的分类设备。

发明内容
1、发明目的本发明的目的是提供一种实时的音频信号分类方法及设备，进行快速的实时分类，减少额外运算，提高音频信号实时分类的精确度，发挥音频信号分类对音频编码与音频传输重要作用。2、技术方案为实现上述发明目的，本发明公开ー种实时的音频信号分类方法，包括对输入的音频信号进行分帧及高通滤波处理后，进行当前帧静音检测，计算MDCT 变换，在时域和MDCT域提取音频特征，当所述当前帧处于分类的收敛时间帧I内采用单个音频特征分类，若所述当前帧处于分类的收敛时间帧I之后则采用粗細分级规则的分类方法进行分类，且所述当前帧经过粗細分级规则分类后，根据所述当前帧之前的信号帧分类类型历史状态更新所述当前帧分类类别。进ー步地，上述方法中，采用短时过零率进行当前帧静音检测，所述当前帧短时过零率大于所述第一设定值，设置当前帧为非静音帧。通过对处理后的每帧音频信号进行MDCT变换，在时域与MDCT域中提取一系列的音频特征，音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个參数绝对值之和。进ー步地所述方法中，当所述当前帧处于分类的收敛时间帧I内时采用単一特征分类，单一特征采用MDCT频谱子带能量，所述当前帧单ー特征第一能量子带大于所述第二设定值，设置当前帧为语音帧。所述当前帧处于分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类，多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、 MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个參数绝对值之和。所述当前帧进行粗分类，粗分类特征采用MDCT频谱子带能量的第一子带进行判别，大于所述第二设定值，设置当前帧为类语音帧，反之设置所述当前帧为类音乐帧。进ー步地，所述方法中，对粗分类后的信号帧按照多特征结合的方法进行精細分类，精細分类每级判断的音频特征分別与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断順序。所述通过存储分类结果的历史状态，结合当前帧的分类结果，利用出现频率最高的分类类型作为当前帧的分类結果，若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类結果。所述的第一设定值和第二设置是给定的阈值，相应设定值是一系列给定的阈值。本发明还提供一种实时的音频信号分类设备，包括彼此连接的预处理模块、特征提取模块、粗細分级规则分类模块和分类结果修正模块，其中所述预处理模块，它包括对音频信号进行预处理与静音检测；所述特征提取模块，它包括对处理后的音频信号在时域与MDCT域中进行实时特征提取；所述粗细分级规则分类模块，它包括将获取的音频特征按照一定规则放置，按照基于粗细分级规则的方法进行分类；所述分类结果修正模块，它包括对所述的原分类结果进行修正，最后输出精确地音频信号分类結果。进ー步地，上述设备中，所述预处理模块采用短时过零率进行当前帧静音检测，所述当前帧短时过零率大于所述第一设定值，设置当前帧为非静音帧。进ー步地，上述设备中，所述特征提取模块通过对处理后的每帧音频信号进行 MDCT变换，在时域与MDCT域中提取一系列的音频特征，音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个參数绝对值之和。进ー步地，上述设备中，所述粗细分级规则分类模块通过对前帧处于分类的收敛时间帧I内时采用単一特征分类，单一特征采用MDCT频谱子带能量，所述当前帧单ー特征第一能量子带大于所述第二设定值，设置当前帧为语音帧。所述当前帧处于分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类，多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、 MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个參数绝对值之和。所述当前帧进行粗分类，粗分类特征采用MDCT频谱子带能量的第一子带进行判别，大于所述第二设定值，设置当前帧为类语音帧，反之设置所述当前帧为类音乐帧。所述对粗分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分別与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断顺序。。
进ー步地，上述设备中，所述分类结果修正模块通过存储分类结果的历史状态，结合当前帧的分类结果，利用出现频率最高的分类类型作为当前帧的分类結果，若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类結果。所述的第一设定值和第二设置是给定的阈值，相应设定值是一系列给定的阈值。本发明技术方案通过简单的粗细分级规则提高音频信号实时分类准确性，从而大大提高音频编解码效率，本发明技术方案可以用于实时双向通信如无线、IP会议电视和实时广播业务等音频编解码领域的音频信号分类判決。
四

图1是用于语音频编码器的音频信号分类应用框图。图2是ー种实时的音频信号分类设备结构框图。图3是音频信号静音判断框图。图4是分类的收敛时间帧I内单ー特征分类框图。图5是分类的收敛时间帧I后単一特征粗分类框图。图6是类语音信号分级规则分类框图。图7是类音乐信号分级规则分类框图。图8是分类结果修正模块框图。
五具体实施例方式本发明的主要构思是，对语音频编解码器可以采用一种实时的音频信号分类方法进行编码前语音频信号类别判决(如图1)，在此基础上根据判决类似选择适用于语音或者音频的编码器，从而提高语音频编解码器的对不同类型信号的编码效率，具体过程如下步骤1、信号分帧及高通滤波处理，滤除不必要低频信号；静音检测，采用短时过零率进行当前帧静音检测，当所述当前帧短时过零率大于所述第一设定值，设置当前帧为非静音帧。；步骤2、MDCT变换，在时域与MDCT域中提取一系列的音频特征，音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、 MDCT频谱子带能量和MDCT频谱系数前四个參数绝对值之和；步骤3、信号分类的收敛时间帧I内时单ー特征信号类别分类；步骤4、信号分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类，多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个參数绝对值之和；步骤5、信号类别粗分类，粗分类特征采用MDCT频谱子带能量的第一子带进行判别，大于所述第二设定值，设置当前帧为类语音帧，反之设置所述当前帧为类音乐帧。步骤6、信号类别粗分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分別与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断順序。步骤7、通过存储分类结果的历史状态，结合当前帧的分类结果，利用出现频率最高的分类类型作为当前帧的分类結果，若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类結果。下面结合附图及实施例对本发明方案做进ー步详细说明。一种实时的音频信号分类设备，如图2所示，包括彼此连接的预处理模块、特征提取模块、粗細分级规则分类模块和分类结果修正模块。下面介绍各模块的功能。预处理模块，首先是将音频流χ (η)进行信号分帧和高通滤波，其次是采用短时平均过零率进行静音检测，如图3所示，当短时平均过零率大于第一设定值吋，判断该帧为非静音帧，短时平均过零率计算采用如下公式1
权利要求
1.一种实时的音频信号分类方法，其特征在干，包括对输入的音频信号进行分帧及高通滤波处理后，进行当前帧静音检测，计算MDCT变换，在时域和MDCT域提取音频特征，当所述当前帧处于分类的收敛时间帧I内采用单个音频特征分类，若所述当前帧处于分类的收敛时间帧I之后则采用粗細分级规则的分类方法进行分类，且所述当前帧经过粗細分级规则分类后，根据所述当前帧之前的信号帧分类类型历史状态更新所述当前帧分类类型。
2.根据权利要求1所述的方法，其特征在于，采用短时过零率进行当前帧静音检测，所述当前帧短时过零率大于所述第一设定值，设置当前帧为非静音帧。
3.根据权利要求1所述的方法，其特征在干，通过对处理后的每帧音频信号进行MDCT 变换，在时域与MDCT域中提取一系列的音频特征，音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个參数绝对值之和。
4.根据权利要求1所述的方法，其特征在干，当所述当前帧处于分类的收敛时间帧I内时采用単一特征分类，单一特征采用MDCT频谱子带能量，所述当前帧单ー特征第一能量子带大于所述第二设定值，设置当前帧为语音帧。
5.根据权利要求1所述的方法，其特征在干，当所述当前帧处于分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类，多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个參数绝对值之和。
6.根据权利要求5所述的方法，其特征在干，将所述当前帧进行粗分类，粗分类特征采用MDCT频谱子带能量的第一子带进行判別，大于所述第二设定值，设置当前帧为类语音帧，反之设置所述当前帧为类音乐帧。
7.根据权利要求5或6所述的方法，其特征在于，对粗分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分別与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断順序。
8.根据权利要求1所述的方法，其特征在干，通过存储分类结果的历史状态，结合当前帧的分类结果，利用出现频率最高的分类类型作为当前帧的分类結果，若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类結果。
9.根据权利要求1或2或4或7所述的方法，其特征在干，第一设定值和第二设置是给定的阈值，相应设定值是一系列给定的阈值。
10.一种实时的音频信号分类设备，其特征在干，该设备包括彼此连接的预处理模块、特征提取模块、粗細分级规则分类模块和分类结果修正模块，其中所述预处理模块，它包括对音频信号进行预处理与静音检测；所述特征提取模块，它包括对处理后的音频信号在时域与MDCT域中进行实时特征提取；所述粗细分级规则分类模块，它包括将获取的音频特征按照一定规则放置，按照基于粗細分级规则的方法进行分类；所述分类结果修正模块，它包括对所述的原分类结果进行修正，最后输出精确的音频信号分类結果。
11.根据权利要求10所述的方法，其特征在于，采用短时过零率进行当前帧静音检测，所述当前帧短时过零率大于所述第一设定值，设置当前帧为非静音帧。
12.根据权利要求10所述的方法，其特征在干，通过对处理后的每帧音频信号进行 MDCT变换，在时域与MDCT域中提取一系列的音频特征，音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个參数绝对值之和。
13.根据权利要求10所述的方法，其特征在干，当所述当前帧处于分类的收敛时间帧I 内时采用単一特征分类，单一特征采用MDCT频谱子带能量，所述当前帧单ー特征第一能量子带大于所述第二设定值，设置当前帧为语音帧。
14.根据权利要求10所述的方法，其特征在干，当所述当前帧处于分类的收敛时间帧I 后时采用粗细分级规则进行多级特征分类，多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT 频谱系数前四个參数绝对值之和。
15.根据权利要求14所述的方法，其特征在干，将所述当前帧进行粗分类，粗分类特征采用MDCT频谱子带能量的第一子带进行判別，大于所述第二设定值，设置当前帧为类语音帧，反之设置所述当前帧为类音乐帧。
16.根据权利要求14或15所述的方法，其特征在于，对粗分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分別与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断順序。
17.根据权利要求10所述的方法，其特征在干，通过存储分类结果的历史状态，结合当前帧的分类结果，利用出现频率最高的分类类型作为当前帧的分类結果，若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类結果。
18.根据权利要求10或11或13或16所述的方法，其特征在干，第一设定值和第二设置是给定的阈值，相应设定值是一系列给定的阈值。
全文摘要
本发明公开了一种实时的音频信号分类方法及设备，涉及音频编解码与传输领域。本发明公开的实时音频信号分类方法，包括对输入的音频信号进行预处理，在时域和MDCT域提取多级音频特征，对当前帧处于分类的收敛时间帧I内采用单个音频特征分类；对处于分类的收敛时间帧I之后则采用粗细分级规则的分类方法进行分类，分类特征采用多级特征判断；当前帧经过粗细分级规则分类后，根据当前帧之前的信号帧分类类型历史状态更新当前帧信号分类类别。本发明使得简单实时的信号分类也具有较高的准确性。
文档编号G10L15/08GK102543079SQ20111043096
公开日2012年7月4日申请日期2011年12月21日优先权日2011年12月21日
发明者孔庆胜, 林志斌申请人:南京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林志斌;孔庆胜
技术所有人：南京大学
我是此专利的发明人

上一篇：一种可控语音控制系统的制作方法
上一篇：语音处理装置、车载终端设备及语音处理方法