音频信号的分类方法及装置的制作方法

文档序号:2823431阅读:241来源:国知局
专利名称:音频信号的分类方法及装置的制作方法
技术领域
本发明涉及通信技术领域语音频技术,尤其涉及一种音频信号的分类方法及装置。
背景技术
语音编码器擅长于在中低码率下对语音类型的音频信号进行编码,而对音乐类型的音频信号编码效果则欠佳;音频编码器适用于在高码率下对语音类型和音乐类型的音频信号进行编码,但在中低码率下对语音类型的音频信号编码效果不够理想。在现有技术当中,在中低编码速率下,目前还没有一种编码器能够完全适用于mixed contents ofspeech and music。针对该问题,MPEG音频组提出一个新的适用于中低编码速率的编码器 USAC (unified speech and audiocoding),USAC 编码器的处理流程为1)首先利用信号分类模块(Signal Classifier)判别信号属于 speech-likecontent,或是属于 music-like content ;2)根据信号类型的不同,在frame-per-frame基础上选择不同的编码方法对于speech-like content,选择基于ACELP/TCX的语音编码器;对于music-like content,选择基于心理声学模型的音频编码器。由此可以充分利用现有的语音编码器及音频编码器的优点,利用单一编码器就能为mixed contents of speech and music提供较好的编石马质量。其中,USAC编码器对于信号分类模块的要求主要有1)识别正确率较高,以便在后续编码过程中能够充分发挥语音编码器及音频编码器的作用;2)实时分类,不为编码器引入额外延时;3)低复杂度,不为编码器引入过多的计算复杂度。现有技术中一种实时识别语音信号与音乐信号的方法包括1)利用窗函数将输入信号划分为一系列的overlapped frame ;2)利用FFT变换计算每帧的频谱系数;3)基于频谱系数,对于每个segment,计算五个方面的特征参数harmony、noise、 tail、drag out 及 rhythm ;4)基于上述特征参数,把音频信号分为六类SPEECH_TYPE、MUSIC_TYPE、NOISE_ TYPE、SH0R_SEGM、UNDETER_TYPE 及 SH0R_UNDETER_TYPE。在实现上述判别音频信号的类型的过程中,发明人发现现有技术中至少存在如下问题该技术提取了较多的特征参数,对于信号的分类较为全面,但也会导致分类算法复杂度较高,难以满足实时编码低复杂度的需求;该技术将音频信号分为六类,不能完全满足 USAC编码器的需求
发明内容
本发明的实施例提供一种音频信号的分类方法及装置,在满足编码低复杂度情况下提高音频信号分类的准确性。根据本发明的一实施例,提供一种音频信号的分类方法,包括获得待分类音频信号的音调特征;根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;对当前帧进行初始边界分析,获得当前帧边界信息;利用分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结^ ο根据本发明的另一实施例,提供一种音频信号的分类装置,包括特征获得单元,用于获得待分类音频信号的音调特征;初步分类单元,用于根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;边界信息获得单元,用于对当前帧进行初始边界分析,获得当前帧边界信息;平滑单元,用于利用分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结果。本发明实施例根据音调特征对音频信号进行初始分类,算法复杂度低,选取的音频特征能较好的反应语音信号与音乐信号的区别,分类准确性较高;同时利用边界信息对初始分类结果进行平滑处理,在同一边界区域内进行平滑处理,降低误判率,进一步提高分类准确度和适用范围。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明提供的音频信号的分类方法一个实施例的流程示意图;图2为本发明提供的音频信号的分类方法另一个实施例的流程示意图;图3为频谱倾斜度均方差示意图;图4为音调个数均值示意图;图5为音调分量在低频的分布比率示意图;图6为频谱倾斜度波动情况示意图;图7为本发明提供的初始分类的一个实施例的流程示意图;图8为本发明提供的初始分类的另一个实施例的流程示意图;图9为本发明提供的初始分类的另一个实施例的流程示意图;图10为本发明提供的初始分类的另一个实施例的流程示意图;图11为本发明提供的初始分类的另一个实施例的流程示意图;图12为本发明提供的平滑处理的一个实施例的流程示意图;图13为本发明提供的音频信号的分类装置一个实施例的结构示意图14为本发明提供的初步分类单元的一个实施例的结构示意图;图15为本发明提供的平滑单元的一个实施例的结构示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。参照图1所示,一种音频信号的分类方法的一个实施例,该方法包括如下步骤SlOl 获得待分类音频信号的音调特征。一般情况下,对当前帧音频信号及前若干帧音频信号作为待分类音频信号,进行分类。对每一帧音频信号,获得该音频信号的音调特征并进行分类。在一个实施例中音调特征包括音调个数均值、音调分量在低频的分布比率。在另一个实施例中音调特征包括 音调分量在不同频带的分布比值。S102:根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果。初步分类可以有多种方法,在一个实施例中,采用如下方法进行分类音调个数均值大于第一门限值的音频信号,初步判定结果为音乐信号;音调分量在低频的分布小于第二门限值的音频信号,初步判定结果为音乐信号;其他信号为语音信号。其中,第一门限值和第二门限值一般根据经验值设定,例如第一门限值为15,第二门限值为0. 935。在另一种实施例中,在采用上述方法进行分类后,还可以采用较为严格的门限值将分类结果中的语音信号或音乐信号标示为确定类型。例如音调个数均值大于第一确定门限值的音频信号,为音乐信号,标示为确定类型;音调个数均值小于第二确定门限值的音频信号,为语音信号,标示为确定类型;音调分量在低频的分布小于第三确定门限值的音频信号,为音乐信号,标示为确定类型。其中,第一确定门限值大于第一门限值,第二确定门限值小于第一门限值,第三确定门限值小于第二门限值。一般根据经验值设定,例如第一确定门限值为17,第二确定门限值为3,第三确定门限值为0.91。S103 根据提取到的特征对当前帧进行初始边界分析,获得当前帧边界信息。边界信息表示音频信号类型变化的边界。边界信息包括三类BORDER_SPEECH_MUSIC(语音音乐边界),由语音信号切换为音乐信号的边界;BORDER_MUSIC_SPEECH(音乐语音边界),由音乐信号切换为语音信号的边界;N0_B0RDER(非边界),非信号切换处。获取边界信息的一个实施例如下利用长短时特征的相对变化情况进行初始边界分析如果长时音调个数均值保持音乐特征,而短时音调个数均值出现语音特征,则边界分析结果为 BORDER_MUSIC_SPEECH ;进一步的,可以根据初始分类结果修正边界信息如果当前帧的初始分类结果为MUSIC_DEFINITE,并且当前帧之前的若干帧均为语音信号,则边界分析结果为BORDER_SPEECH_MUSIC ;如果当前帧的初始分类结果为SPEECH_DEFINITE,并且当前帧之前的若干帧均为音乐信号,则边界分析结果为BORDER_MUSIC_SPEECH。S104 利用待编码帧的分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结果。在音频编码中,当前帧不会立即被编码,需要经过若干帧编码延时后才会被编码。 例如,编码延时为5帧,当前帧为第η帧,那么待编码帧就是第(η-5)帧。平滑处理不能越过边界,用于避免误判扩散。一个实施例中,利用前若干帧的初始分类结果和边界信息对待编码帧的初始分类结果进行平滑处理。将待编码帧及位于同一边界区域内的前若干帧信息组成待平滑区域进行平滑处理分别统计该区域内初始分类结果为语音的帧个数和初始分类结果为音乐的帧个数。如果音乐帧个数大于语音帧个数,则将分类结果修正为音乐信号;如果音乐帧个数小于语音帧个数,则将分类结果修正为语音信号。分为三种情况说明1.如果待编码帧离边界帧较远,则可以在待编码帧和边界帧之间选取固定数量的信号帧组成待平滑区域。例如,待编码帧与边界帧之间大于100帧,那么就可以取待编码帧及前90帧组成一个待平滑区域,如下图标注有底纹的区域
边界待编码帧2.如果待编码帧离边界较近,则可以将待编码帧和边界帧之间所有信号帧组成待平滑区域。例如,待编码帧与边界帧之间小于100帧,只有30帧,那么就取这30帧组成待
平滑区域,如下图标注有底纹的区域
ΨΦ—-
边界待编码帧3.如果待编码帧就是边界帧,则不进行平滑处理,直接将初始分类结果作为最终分类结果。进一步的,当初始分类结果包含确定标识时,首先判断该音频信号初始分类结果是否包含确定标识,如果包含确定标识则不进行平滑处理;如果不包含确定标识,则进行平
滑处理。在另一个实施例中,利用前若干帧的初始分类结果和边界信息对待编码帧的初始分类结果进行平滑处理,输出初次平滑结果;利用位于待编码帧和当前帧之间若干帧的边界信息和能量信息对待编码帧的初始分类结果进行平滑处理,输出分类结果如果过去若干帧(属于经验数据,可以灵活设置)内存在静音帧,且待编码帧与当前帧之间出现边界的情况下,需要对初次平滑结果进行修正如果该边界信息为B0RDER_ MUSIC_SPEECH,则将待编码帧的分类结果修正为语音;否则,将待编码帧的分类结果修正为
曰尔O
本发明实施例中,根据音调特征对音频信号进行初始分类,算法复杂度低,选取的音频特征能较好的反应语音信号与音乐信号的区别,分类准确性较高;同时利用边界信息对初始分类结果进行平滑处理,在同一边界区域内进行平滑处理,降低误判率,提高分类准确度和适用范围。进一步的,在初始分类过程中,分别设置较为严格的门限和较为宽松的门限,对较为严格门限值判断出来的初始分类结果,不进行平滑处理,进一步提高分类准确度。参照图2所示,一种音频信号的分类方法的另一个实施例,该方法包括如下步骤S201 将当前帧及前若干帧数据作为待分析数据,提取音调特征及频谱倾斜度特征;一般情况下,对当前帧音频信号及前若干帧音频信号作为待分类音频信号,进行分类。对每一帧音频信号,获得该音频信号的音调特征。在一个实施例中音调特征包括音调个数均值、音调分量在低频的分布比率。在另一个实施例中音调特征包括音调个数均值、音调分量在不同频带的分布比值。频谱倾斜度特征可以包括频谱倾斜度均方差。S202:根据音调特征值和频谱倾斜度特征对当前帧进行初始分类,输出初始分类结果;初步分类可以有多种方法,在一个实施例中,采用如下方法进行分类频谱倾斜度均方差小于第三门限的,为音乐信号;音调个数均值大于第一门限值的,为音乐信号;音调分量在低频的分布小于第二门限值的,为音乐信号;音频信号的频谱均方差在预设的时间内取值小于第四门限值的,为音乐信号,其中第四门限值大于第三门限值;其他信号为语音信号。其中,第一门限值、第二门限值和第三门限值一般根据经验值设定,例如第一门限值为15,第二门限值为0. 935,第三门限值为0. 0002。在另一种实施例中,在采用上述方法进行分类后,还可以采用较为严格的门限值将分类结果中的语音信号或音乐信号标示为确定类型。例如音调个数均值大于第一确定门限值的,为音乐信号,标示为确定类型;音调个数均值小于第二确定门限值的,为语音信号,标示为确定类型;音调分量在低频的分布小于第三确定门限值的,为音乐信号,标示为确定类型;频谱倾斜度均方差小于第四确定门限值的,为音乐信号,标示为确定类型;频谱倾斜度均方差大于第五确定门限值的,为语音信号,标示为确定类型。其中,第一确定门限值大于第一门限值,第三确定门限值小于第二门限值,第四确定门限值小于第三门限值,,第五确定门限值大于第三门限值。一般根据经验值设定各门限值,例如第一确定门限值为17,第二确定门限值为3,第三确定门限值为0. 91 ;第四确定门限值为0. 00004 ;第五确定门限值为0. 01。S203 根据提取到的特征对当前帧进行初始边界分析,获得当前帧边界信息。边界信息表示音频信号类型变化的边界。边界信息包括三类BORDER_SPEECH_MUSIC(语音音乐边界),由语音信号切换为音乐信号的边界;BORDER_MUSIC_SPEECH(音乐语音边界),由音乐信号切换为语音信号的边界;N0_B0RDER(非边界),非信号切换处。获取边界信息的一个实施例如下利用长短时特征的相对变化情况进行初始边界分析如果长时频谱倾斜度均方差保持语音特征,而短时频谱倾斜度均方差出现音乐特征,则边界分析结果为BORDER_SPEECH_MUSIC ;在相对较长的时间内保持音乐特征后,如果长/短时频谱倾斜度均方差均出现语音特征,则边界分析结果为BORDER_MUSIC_SPEECH ;如果长时音调个数均值保持音乐特征,而短时音调个数均值出现语音特征,则边界分析结果为 BORDER_MUSIC_SPEECH。进一步的,可以根据初始分类结果修正边界信息如果当前帧的初始分类结果为MUSIC_DEFINITE,并且当前帧之前的若干帧均为语音信号,则边界分析结果为BORDER_SPEECH_MUSIC ;如果当前帧的初始分类结果为SPEECH_DEFINITE,并且当前帧之前的若干帧均为音乐信号,则边界分析结果为BORDER_MUSIC_SPEECH。S204:利用过去的初始分类结果及边界信息对待编码帧的初始分类结果进行平滑处理;在音频编码中,当前帧不会立即被编码,需要经过若干帧编码延时后才会被编码。 例如,编码延时为5帧,当前帧为第η帧,那么待编码帧就是第(η-5)帧。平滑处理不能越过边界,用于避免误判扩散。将待编码帧及位于同一边界区域内的前若干帧信息组成待平滑区域进行平滑处理分别统计该待平滑区域内初始分类结果为语音的帧个数和初始分类结果为音乐的帧个数。如果音乐帧个数大于语音帧个数,则将分类结果修正为音乐信号;如果音乐帧个数小于语音帧个数,则将分类结果修正为语音信号。进一步的,当初始分类结果包含确定标识时,首先判断该音频信号初始分类结果是否包含确定标识,如果包含确定标识则不进行平滑处理,直接将待编码帧的初步分类结果作为待编码帧的分类结果输出;如果不包含确定标识,则进行平滑处理。S205:相对于待编码帧而言,位于待编码帧与当前帧之间的若干帧初始分类结果均可被视为未来的信息。利用未来的初始分类结果及能量信息对待编码帧平滑结果进行进一步修正,得到待编码帧的分类结果。如果过去若干帧内存在静音帧,且待编码帧与当前帧之间出现边界的情况下,需要对初次平滑结果进行修正,如果该边界信息为BORDER_MUSIC_SPEECH,则将待编码帧的分类结果修正为语音信号;否则,将待编码帧的分类结果修正为音乐信号。本发明实施例中,根据音调特征和频谱倾斜度均方差对音频信号进行初始分类, 能较好的反应语音信号与音乐信号的区别,相比于音调特征值分类方法进一步提高分类准确性;同时利用边界信息对初始分类结果进行平滑处理,在同一边界区域内进行平滑处理, 降低误判率,提高分类准确度和适用范围。进一步的,在初始分类过程中,分别设置较为严格的门限和较为宽松的门限,对较为严格门限值判断出来的初始分类结果,不进行平滑处理,进一步提高分类准确度。进一步的,在平滑处理过程中利用位于待编码帧和当前帧之间若干帧的边界信息和能量信息对待编码帧的初始分类结果进行平滑处理,可以在一定程度上减少实际分类结果与理想分类结果之间的延时。在一个实施例中,需要提取的音调特征包括长时音调个数均值,短时音调个数均值;音调分量在低频的分布比率。为了计算音调特征,首先需要利用1024点FFT运算得到功率密度谱,再利用功率密度谱检测出当前帧的音调分量。长时音调个数均值,表示最近N1帧的音调分量个数的均值,其中N1是计算音调长时特征所需的长时区间的帧长,该特征用于表征长时区间内的音调分量是否丰富。如果长时区间内的音调分量较为丰富,则长时音调个数均值较大;反之较小。采用如下公式计算获得长时音调个数均值
权利要求
1.一种音频信号的分类方法,其特征在于,包括 获得待分类音频信号的音调特征;根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;对当前帧进行初始边界分析,获得当前帧边界信息;利用分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结果。
2.根据权利要求1所述的方法,其特征在于,根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果包括音调个数均值大于第一门限值的音频信号,初步判定结果为音乐信号; 音调分量在低频的分布小于第二门限值的音频信号,初步判定结果为音乐信号; 其他信号为语音信号。
3.根据权利要求2所述的方法,其特征在于,根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果还包括音调个数均值大于第一确定门限值的音频信号,为音乐信号,标示为确定类型; 音调个数均值小于第二确定门限值的音频信号,为语音信号,标示为确定类型; 音调分量在低频的分布小于第三确定门限值的音频信号,为音乐信号,标示为确定类型;其中第一确定门限值大于第一门限值,第二确定门限值小于第一门限值,第三确定门限值小于第二门限值。
4.根据权利要求2所述的方法,其特征在于,对当前帧进行初始边界分析获得当前帧边界信息包括如果长时音调个数均值保持音乐特征,而短时音调个数均值出现语音特征,则边界分析结果为音乐语音边界;否则为非边界。
5.根据权利要求1所述的方法,其特征在于,还包括获得待分类音频信号的频谱倾斜度特征;根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果包括根据该音调特征值和频谱倾斜度特征判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果。
6.根据权利要求5所述的方法,其特征在于,根据该音调特征值和频谱倾斜度特征判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果包括频谱倾斜度均方差小于第三门限的,为音乐信号; 音调分量在低频的分布小于第二门限值的,为音乐信号;音频信号的频谱均方差在预设的时间内取值小于第四门限值的,为音乐信号,其中第四门限值大于第三门限值; 其他信号为语音信号。
7.根据权利要求6所述的方法,其特征在于,根据该音调特征值和频谱倾斜度特征判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果还包括音调个数均值大于第一确定门限值的,为音乐信号,标示为确定类型; 音调个数均值小于第二确定门限值的,为语音信号,标示为确定类型;音调分量在低频的分布小于第三确定门限值的,为音乐信号,标示为确定类型; 频谱倾斜度均方差小于第四确定门限值的,为音乐信号,标示为确定类型; 频谱倾斜度均方差大于第五确定门限值的,为语音信号,标示为确定类型;其中第一确定门限值大于第一门限值,第三确定门限值小于第二门限值,第四确定门限值小于第三门限值,第五确定门限值大于第三门限值。
8.根据权利要求5所述的方法,其特征在于,根据该音调特征值和频谱倾斜度特征判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果包括音频信号的音调分量分布于频带0的比率大于第六确定门限值且分布于频带2的比率小于第七确定门限值,则初始分类结果为语音信号,并标示为确定类型;频谱倾斜度均方差小于第四确定门限值的,为音乐信号,标示为确定类型; 频谱倾斜度均方差大于第五确定门限值的,为语音信号,标示为确定类型; 音频信号的频谱倾斜度均方差小于第三门限值,则初始分类结果为音乐信号; 音频信号的音调分量分布于频带0的比率大于第五门限值且分布于频带2的比率小于第六门限值,则初始分类结果为语音信号;其他信号为语音信号;其中,第四确定门限值小于第三门限值,第五确定门限值大于第三门限值,第六确定门限值大于第五门限值,第七确定门限值大于第六门限值。
9.根据权利要求5所述的方法,其特征在于,对当前帧进行初始边界分析获得当前帧边界信息包括如果长时音调个数均值保持音乐特征,而短时音调个数均值出现语音特征,则边界分析结果为音乐语音边界;如果长时频谱倾斜度均方差保持语音特征,而短时频谱倾斜度均方差出现音乐特征, 则边界分析结果为语音音乐边界;在相对较长的时间内保持音乐特征后,如果长/短时频谱倾斜度均方差均出现语音特征,则边界分析结果为音乐语音边界; 否则为非边界。
10.根据权利要求3或7或8所述的方法,其特征在于,对当前帧进行初始边界分析获得当前帧边界信息还包括利用初始分类结果确定边界信息,具体为如果当前帧的初始分类结果为音乐信号并标示确定类型,并且当前帧之前的若干帧均为语音信号,则边界分析结果为语音音乐边界;如果当前帧的初始分类结果为语音信号并表示确定类型,并且当前帧之前的若干帧均为音乐信号,则边界分析结果为音乐语音边界。
11.根据权利要求1所述的方法,其特征在于,利用分界信息对初始分类结果进行平滑处理包括将待编码帧及位于同一边界区域内的前若干帧信息组成待平滑区域,进行平滑处理。
12.根据权利要求1所述的方法,其特征在于,利用分界信息对初始分类结果进行平滑处理包括将待编码帧及位于同一边界区域内的前若干帧信息组成待平滑区域,进行平滑处理; 如果过去若干帧内不存在静音帧且或者位于待编码帧与当前帧之间的若干帧内未出现边界,则将前述步骤中的平滑结果作为分类结果输出;如果过去若干帧内存在静音帧且位于待编码帧与当前帧之间的若干帧内出现边界,则获得边界信息;如果该边界信息为音乐语音边界,则将待编码帧的分类结果修正为语音信号;否则,将待编码帧的分类结果修正为音乐信号。
13.根据权利要求3或8或9所述的方法,其特征在于,利用分界信息对初始分类结果进行平滑处理还包括判断待编码帧是否标示确定类型,如果未标示确定类型则进行平滑处理。
14.一种音频信号的分类装置,其特征在于,包括特征获得单元,用于获得待分类音频信号的音调特征;初步分类单元,用于根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;边界信息获得单元,用于对当前帧进行初始边界分析,获得当前帧边界信息;平滑单元,用于利用分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结果。
15.根据权利要求14所述的装置,其特征在于,所述特征获得单元还用于获得待分类音频信号的频谱倾斜度特征;所述初步分类单元,用于根据该音调特征值和频谱倾斜度特征判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果。
16.根据权利要求14或15所述的装置,其特征在于,所述初步分类单元包括第一分类单元,用于根据第一类门限值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;第二分类单元,用于根据第二类门限值判定所述待分类音频信号的类型,输出标示确定类型的音乐信号或标示确定类型的语音信号的初步判定结果,其中,第二类门限值比第一类门限值严格。
17.根据权利要求14所述的装置,其特征在于,所述平滑单元,包括第一平滑处理单元,用于将待编码帧及位于同一边界区域内的前若干帧信息组成待平滑区域,进行平滑处理,将平滑处理结果作为待编码帧的分类结果输出。
18.根据权利要求17所述的装置,其特征在于,所述平滑单元还包括第二平滑处理单元,用于接收第一平滑处理单元的输出,如果过去若干帧内存在静音帧且位于待编码帧与当前帧之间的若干帧内出现边界,则获得该边界信息;如果该边界信息为音乐语音边界,则将待编码帧的分类结果修正为语音;如果该边界信息为语音音乐边界否则,将待编码帧的分类结果修正为音乐。
19.根据权利要求17所述的装置,其特征在于,所述平滑单元还包括判断单元,用于判断待编码帧是否标示确定类型,如果未标示确定类型则通知第一平滑处理单元进行平滑处理。
全文摘要
本发明实施例公开了一种音频信号的分类方法和装置。该分类方法包括获得待分类音频信号的音调特征;根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;对当前帧进行初始边界分析,获得当前帧边界信息;利用分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结果。该分类方法算法复杂度低,分类准确性较高,适用性较广。
文档编号G10L15/08GK102237085SQ20101016032
公开日2011年11月9日 申请日期2010年4月26日 优先权日2010年4月26日
发明者张清, 杜正中, 许丽净 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1