音乐/非音乐的实时检测方法和装置的制作方法

文档序号:2830809阅读:420来源:国知局

专利名称::音乐/非音乐的实时检测方法和装置的制作方法
技术领域
:本发明涉及通信领i或,具体而言,涉及一种音乐/非音乐的实时才企测方法和装置。
背景技术
:在语音通信领域中,常常因为传输带宽的约束需要进行非连续4专丰lT(DiscontinuedTransmission,DTX),其中最关4建的步骤t尤是i吾音活动才企观'J(VoiceActivityDetection,VAD)。随着多々某体业务的不断丰富,通信中除了语音和环境声学噪声之外,常常有彩铃等音乐信号加入,而在DTX传输条件下,一般的VAD会把部分音乐信号当作噪声进行处理,使得音乐信号无法正常传输,并且音乐信号的编码方式也有别于非音乐(包括噪声、语音、和静音等),因此必须及时一企测出这些音乐信号,进而采用合适的编码算法进4亍传输。另外,噪声抑制(NoiseReduction,NR)中,如果音乐信号也采用非音乐的方式进行处理,会使音乐信号严重失真,因此也有必要做音乐/非音乐的判断。在音频通信应用中,音乐/非音乐的检测难度在于音乐的多变以及语音中的噪声的多变。许多研究内容都分析了音乐与语音的差异,但因为音乐的多变使得这些差异只对部分音乐有效。通常语音的静默片断出现的概率大、能量变化大,但在节奏4艮快的音乐中也有类似现象;许多音乐的高频信息丰富,但在歌唱时也并非如此;音乐的基音频率要么变化小、要么突变,但和声和复调音乐使基音频率的提取有时非常困难;音乐有节奏感,但却并非简单的周期重复。使问题更为棘手的是语音中包含的噪声,尤其是谐波噪声,这些谐波噪声在较短的时间内与乐声很像,只是因为持续时间长才成为噪声。目前的音乐/非音乐分类方案主要存在以下不足(1)从音频信号短时处理出发提取的短时特征仅仅利用了很少量的信息,不足以反映两类信号的差异。实际上在较短的时间内看,音乐、语音和噪声常常没有明显的界限;(2)长时分析缺乏有力的特征描述,要么时间片要求较长,例如对整个音频文件的分类,不适于实时通信领域的要求,要么是从音频动态特征衍生出来新的统计特征,但其分类能力却无法保证;(3)常常需要获得音乐和语音及噪声的精细结构及其变化,对采样率和计算量要求较高,难以满足在嵌入式平台上应用;(4)所用的测试lt据不充分,很难满足复杂的通信环境的要求。在实现本发明过程中,发明人发现总之,实际应用对音乐/非音乐检测的要求是实时、稳健性、有效,能够为后续处理奠定基础,而目前的问题是——短时分析有用信息太少,难以反映两者的差异;长时分析可以较好地反映两者差异,但是计算量大,延时长;特征不够稳健,对音乐和语音及噪声内在的区别没有充分的反映。
发明内容本发明旨在提供一种音乐/非音乐的实时检测方法和装置,能够解决现有的短时分析和长时分析上述各自存在的问题。在本发明的实施例中,提供了一种音乐/非音乐的实时检测方法,包括以下步骤对信号进行预处理;计算预处理过的信号的短时特征;达到一个分析步长之后,计算累计短时能量均方根,以判定4言号是否为静默状态;如果确定为非静默状态,则才艮据短时分斗斤参数计算长时特征参数;根据计算的长时特征参数进行统计分类,根据混合高斯模型确定当前分析区间内的声音类别是音乐/非音乐;以及对信号进行后处理,以消除突变状态。优选的,对信号进行预处理具体包括入口参数控制、模型库加载、输入文件或数据格式处理,以及预加重、分帧力口窗、参数和H冲区初始化。优选的,入口参数控制包括设置语音信号或噪声信号检测得分的额外加分spS和nsS;4莫型库加载包括加载事先经过大量凄U居训练过的语音、噪音、音乐三者的统计模型,静音是以短时能量判断;输入文件或数据4各式处理采用8kHz采样16比特量化;预加重系翁:取系数为-0.80;分帧加窗取帧长为32毫秒,256个采样点;参数和緩冲区初始化为帧移10毫秒,80个采样点,窗函凄t采用256点的海明窗。优选的,计算预处理过的信号的短时特4正具体包括计算时域*短时能量特征、幅度谱以及频谱特征、实倒谱、谱起伏程度参数、Mel域子带能量以及短时调性强度特征,并标记当前帧的调性。优选的,设加窗之后的各帧信号为data,帧长为N,时域短时特征是指短时能量均方根,记为feaRMS,贝'JfeaRMS定义/eaiMS=f^ato2(");幅度i普定义=,其中F()表示离散付立叶变换;对凄史功率i普定义/ogPoww=log(|F(ttoto)|2);实倒i普定义^7=re"/(F-l(I。g(|F(&/")|)》;在对数幅度i普基础上,计算i普重心位置,记为feaCenSP,i普重心定义为功率i普的某一频率,小于该频率的镨能量与大于该频率的谱能量相等;在实倒谱基础上,计算谱起伏程度参数,记为RcPr,其釆用实倒谱314个系数绝对值之和与1~2系数绝对值之和的比值的对数;计算Mel域子带能量,采用40个Mel域子带,用三角滤波器组计算每个子带内功率谱能量并耳又对H,最后对40个子带能量进行归一化和零均^直化,得到的新矢量记为spBP;计算短时调性强度特征/eaic/^l;i^p(yt)1,其中1是求和起始点,该实施例选4奪1=14;标i己当前帧的调性包4舌取xr=max(rcp(1:N)),长口果xr〉tonThres,则才示i己为调寸生;否则才示i己为非调性,其中tonThres为调性门限,取0.14。优选的,达到一个分析步长之后,计算累计短时能量均方才艮,以判定信号是否为静默状态具体包括每个分析步长进行一次类别判定,队列长度取100帧,分析步长为10帧;到达一个分析步长后,计算累计调性参数trc,该参数是队列内所有帧的feaRcp之和;进行静音判断,静音判断的依据是分析步长内最大的feaRMS参数,如果ifmax(log(feaRMS))<Thr—sil,则是静音状态,否则为非静音状态,其中Thr—sil是静音4企测门限,取-3。优选的,如果确定为非静默状态,则根据短时分析参数计算长时特征参数包括计算调性帧平均能量与平均能量之比Deng:冲艮据短时分析中得到的调性/非调性标记结果,对于队列内的所有帧信号,Deng定义为=附^"(/eaiMS(/))Z附^"(/ea/MSG')),O是戶斤有i周寸生帧,All是分析区间内所有帧;计算调性强度特征^=幼附(>"/"),其中sum()是对整个緩沖队列内所有帧求和的求和函数;计算feaRMS方差对数特征logVRMS,/ogWMS=log(var(/e"7MS/mea"(/ea及MS)));i十算i普重心方差只于凄t4争4正logVCenSpec,其是队列内所有feaCenSP的方差的对数;计算谱起伏度对凄t方差特4正logVRcPr,其是队列内所有RcPr的方差的对凄t;计算4Hz调制能量特征f4Hzmelbp,包括才艮据Mel域子带能量,对于队列内所有帧,计算各子带的4Hz调制能量,其中计算各子带的4Hz调制能量包括采用2阶全极点滤波器,计算滤波器输出能量和原始能量之比,然后将40个子带的比值相加再取对数,得到4Hz调制能量,其中对于第k个子带,该子带的比值计算为扁(),其中()是对整个緩冲队列内所有帧求s調(^;5i^)和的求和函数,filter()是滤波函数;计算态范围特征Dong,其是队列内最大能量和最小能量之比的对数,即Dong=log(m^(/eWMS(/))^/m^(/e。iMS(_/)));将计算的上述7种特4正参凄t组成7维特征矢量,并对各特征参数进行平移和放缩处理,使其数值都分布在相近的范围内。优选的,根据计算的长时特征参数进行统计分类,根据混合高斯模型确定当前分析区间内的声音类别是音乐/非音乐具体包括根据贝叶斯极大似然分类法则确定当前分析区间内的声音类别;检测中,每类信号都用一个GMM来表示,或者用模型义表示;在GMM当中,高斯混合概率密度是M个高斯分量概率密度之和,用公式表示为台,其中^是一个D维随机变量,6,切是第i个高斯分量的概率密度函数,a是第i个高斯分量的权重,"l,…,m;每个高斯分量的概率密度是一个D维高斯函数、丄|1/2叫卩4(5-A)、「'(f-式中A和2,表示第i个高斯(2冗)〔2J分量的均值和协方差矩阵;所有的高斯分量权重之和满足归一化条件5^p,i;—个高斯混合概率密度用三种参数表示各分量的权重,各分量的均值和协方差矩阵;这些参数放到一起,统称为才莫型参数,记为义—a,A,2^/=l,...,M;首先对训练数据进4t特征分析,得到音乐、语音、噪声三类训练数据的特征矢量集合,然后分别训练三组64个分量的GMM才莫型,包4舌MUgmm、SPgmm、NSgmm,对应的模型用U、。人表示;GMM模型的训练采用的期望值最大化算法;在进行检测分类时,对于新输入的一个特征矢量x,在模型义下的对数似然得分为5"cw^(x卜bg^(x^)),对于三个模型而言,最后的分类结^仑为C/D(x)=argmax(Scw(x)+^S,5bcrem(x)+附S,&wem(x)),其中spS是给语音模型的加分,nsS是给噪声模型的得分。优选的,对信号进行后处理,以消除突变状态具体包括在音频类型改变持续ls才认为类型改变有效,否则^L为突变状态,音频类型维持突变前的状态。在本发明的实施例中,还提供了一种音乐/非音乐的实时检测装置,包括预处理模块,用于对信号进行预处理;短时特征计算模块,用于计算预处理过的信号的短时特征;静默状态判断模块,用于达到一个分析步长之后,计算累计短时能量均方才艮,以判定信号是否为静默状态;长时特征计算模块,用于如果确定为非静默状态,则根据短时分析参数计算长时特征参数;确定模块,用于根据计算的长时特征参数进行统计分类,根据混合高斯模型确定当前分析区间内的声音类别是音乐/非音乐;以及后处理模块,用于对信号进行后处理,以消除突变3犬态。本发明实现了音乐/非音乐的稳健而有效的实时检测或分割,与"i吾音活动^r测(VoiceActivityDetection,VAD)才目结合,能够纟且成完整的声音活动4企测(SoundActivityDetection,SAD)方案。此处所说明的附图用来4是供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1示出了根据本发明实施例的音乐/非音乐的实时检测方法的流禾呈图;图2示出了才艮据本发明实施例的M个高斯分量的GMM拓朴图;图3示出了根据本发明实施例的音乐/非音乐的实时检测装置的方冲医图;以及图4示出了根据本发明优选实施例的音频传输系统的示意图。具体实施方式下面将参考附图并结合实施例,来详细i兌明本发明。图1示出了根据本发明实施例的音乐/非音乐的实时检测方法的流程图,包括以下步骤步骤SIO,对信号进4于预处理;步艰《S20,计算预处理过的4言号的短时特4正;步骤S30,达到一个分析步长之后,计算累计短时能量均方根,以判定信号是否为静默状态;步骤S40,如果确定为非静默状态,则根据短时分析参数计算长时特征参数;步骤S50,一艮据计算的长时特征参#:进行统计分类,纟艮据混合高斯模型确定当前分析区间内的声音类别是音乐门一音乐;以及步驶《S60,只^f言号进4于后处理,以消除突变一犬态。该实施例实现了音乐/非音乐的稳健而有效的实时才企测或分割,与语音活动;f企测相结合,能够组成完整的声音活动才企测方案。该实施例4巴音频信号先分为语音、噪音、音乐和静音,然后语音、噪音和静音合并为非音乐类。因此在计算4企测准确度时语音、噪音和静音之间相互误4企算准确4企测。方案各个部分的实施细节描述如下1)信号预处理信号预处理包括入口参数控制、模型库加载、输入文件(或数据)格式处理,以及预加重、分帧加窗、参数和緩沖区初始化等步骤。在入口参数控制中可以设置语音信号或噪声信号检测得分的额外加分spS和nsS。因为该方案采用的是极大似然得分的分类4企测方法,而不同的应用领域中对语音、噪音、音乐三类信号的误才企代《介要求不同,因此可以通过这两个参^:对最后的似然4寻分进^亍^"正,以额外降低某类信号的误检率。才莫型库加载是指加载事先经过大量数据训练过的语音、噪音、音乐三者的统计模型,静音是以短时能量判断。关于模型问题在下文统计才莫型和似然4寻分判断中i兌明。另夕卜,由于音频通信中通常采用8kHz采样16比特量化的单声道音频教j居,因此该实施例以该才各式〗匕凄t才居为处理乂寸象。如果应用于其他格式数据,那么在此预处理阶段需要完成格式转换工作,例如降低采样率。预加重系数与常规语音信号处理类似,取系数为-0.80。帧长为32毫秒(256个采样点,为了进行快速付立叶变换),帧移10毫秒(80个采样点),即帧间重叠22毫秒(172个采样点)。该帧长选择也符合常用的语音信号处理要求。窗函数采用256点的海明窗。2)计算时域短时能量特征、幅度语以及频谱特征、实倒谱、i普起伏程度参数、Mel域子带能量以及短时调性强度特征,并标记当前帧的调性。时域短时特征是指短时能量均方根,记为feaRMS。设力。窗之后的各帧4言号为data,帧长为N,则feaRMS定义i口下=甚to2")(1)短时特征的计算主要基于幅度谱,对数功率谱,实倒谱,Mel域子带能量几个基本概念。设加窗之后的各帧信号为data,则幅度i普定义如式(2):(2)其中F()表示离散付立叶变换。在计算出幅度i普之后,对小于100Hz的低频数据进4亍衰减,避免直流偏置和〗氐频噪声对后续处理的影响。对凄t功率i普定义如式(3)<formula>formulaseeoriginaldocumentpage16</formula>(3)实倒i普定义^口式(4)<formula>formulaseeoriginaldocumentpage16</formula>(4)在对数幅度谱基础上,计算语重心位置(记为feaCenSP)。谱重心定义为功率谱的某一频率,小于该频率的^"能量与大于该频率的谱能量相等。在实倒i普基础上,计算i普起伏程度参数,记为RcPr,其采用实倒谱3~14个系数绝对值之和与1~2系数绝对值之和的比值的对数;(此部分为了计算达到一个分析步长之后的谱起伏度对数方差特征logVRcPr)计算Mel域子带能量,采用40个Mel域子带,用三角滤波器组计算每个子带内功率谱能量并:f又对tt,最后对40个子带能量进4亍归一化和零均值化,得到的新矢量记为spBP;(此部分为了计算达到一个分析步长之后的4Hz调制能量特征f4Hzmelbp)除了上述几种短时特征之外,还有一个基于实倒谱的重要特征,记为短时调性强度特4正feaRcp,定义如下其中l是求和起始点,该实施例选择1=14。求出短时特征后,还要标记当前帧的调性,如下方法<formula>formulaseeoriginaldocumentpage17</formula>ifxr>tonThres才示i己为调'l"生;else标i己为非调'l"生;end其中tonThres为调性门限,取0.14。3)达到一个分析步长之后,计算累计调性参数,接着判定是否静默音状态。分析步长是进行信号类型判决的延时长度。由于从一帧信号中很难区分信号类型,因此必须进行长时特征分析,而长时特征一般在1秒钟甚至更长的时间内才具备分类能力。为了满足实时性的要求,该方案采用队列和分析步长相结合的办法,即每个分析步长进行一次类别判定,而判定所依据的长时特征则是在整个队列范围内才是取的。这里队列长度耳又100帧,即1秒,分析步长为10帧,即100毫秒。使用队列可以保证长时特征的连续性。到达一个分析步长后,计算累计调性参数trc,该参凄t是队列内所有帧的feaRcp之#口。接着进行静音判断。静音判断的依据是分析步长内最大的feaRMS参数,具体判断方法如下ifmax(log(fea腹S))<Thr_sil静音状态;else非静音状态;end其中Thr—sil是静音才企测门限,这里取-3。4)对非静音状态,根据短时分析参数计算7个长时特征参数。如果当前分析步长内信号为非静默状态,则开始计算7个长时特征参数。特征一调性帧平均能量与平均能量之比Deng。才艮据短时分析中得到的调性/非调性标记结果,对于队列内的所有帧信号,Deng定义为所有调性帧的平均能量与整个队列内平均能量之比,即<formula>formulaseeoriginaldocumentpage19</formula>G)是所有调性帧,All是分析区间内所有帧iHM正二计算调性强度iNM正frc-s謂(/eaicp),其中sum()是只t整个緩冲队列内所有帧求和的求和函数。特征三feaRMS方差对数特征logVRMS。一般来说feaRMS对数方差特征就是对队列内所有帧的feaRMS求方差再求对数,但是为了避免特征受到信号能量的影响,对该特征进行能量归一化,用一个区间内的平均feaRMS来归一化,即<formula>formulaseeoriginaldocumentpage19</formula>(7)净争4正四-潜重心方差y于l史4争4正logVCenSpec。语重心方差对数就是队列内所有feaCenSP的方差的对数。特征五谱起伏度对数方差特征logVRcPr。谱起伏度对数方差就是队列内所有RcPr的方差的对数。特征六4Hz调制能量特征f4Hzmelbp。4Hz调制能量是语音/音乐检测中常用的特征之一,一般说来语音的4Hz调制能量要大于音乐信号。这里的计算步骤是在前文Mel域子带能量基础上,对于队列内所有帧,计算各子带的4Hz调制能量。我们采用了一个2阶全极点滤波器,计算滤波器输出能量和原始能量之比,然后将40个子带的比值相加再取对数,结果就是4Hz调制能量。以第k个子带为例,该子带的比值计算如下,—画(舞如^))(8)其中sum()是求和函数,注意此处不是对一个分析区间内的所有帧求和,而是对整个緩冲队列内所有帧求和。式(8)中的filter()是滤波函数。特;f正七动态范围特4正Dong动态范围是队列内最大能量和最小能量之比的对数,即=1og(m^(如iM5('〕yi^(;^認S(乂)))(9)计算完上述7种特征参数之后,将其組成7维特征矢量。为了避免各特征之间量纲差距太大,对各特征还进4亍了平移和》文缩处理,4吏其凄^f直都分布在相近的范围内。5)根据特征参数进行统计分类,根据贝叶斯极大似然分类法则确定当前分析区间内的声音类别。该采用的分类才莫型是GMM,分类方法是才及大似然分类思想。在GMM当中,高斯混合概率密度是M个高斯分量概率密度之和。图2示出了根据本发明实施例的M个高斯分量的GMM拓朴图,该方案采用的分类^^莫型是GMM,该模型对文中提取的连续分布的特征矢量的分类能力4交好,用/>式可以表示为其中f是一个D维随机变量,6,(刁是第i个高斯分量的概率密度函数,^是第i个高斯分量的权重,/",…,M。每个高斯分量的概率密度实际上就是一个D维高斯函数式中A和i:,表示第i个高斯分量的均值和协方差矩阵。所有的高斯分量权重之和满足归一化条件2^p,=1。一个高斯混合概率密度可以用三种参数表示各分量的权重,各分量的均值和协方差矩阵。为了后面描述方便,我们把这些参凄史;故到一起,统称为才莫型参凄t,记为<formula>formulaseeoriginaldocumentpage21</formula>检测中,每类信号都用一个GMM来表示,或者用模型A表示。<formula>formulaseeoriginaldocumentpage21</formula>(11)首先对训练数据进行特征分析,得到音乐、语音、噪声三类训练凄t据的特征矢量集合,然后分别训练三组64个分量的GMM模型,即MUgmm,SPgmm,NSgmm,只于应的才莫型用4^、,;^表示。GMM模型的训练采用的期望^直最大化(expectation-maximum,EM)算法,EM算法的思想是不断地寻找新的才莫型参数U吏其对应的似然值比旧的义对应的似然值大,然后用7替换A,并不断i也重复下去,直到达到某一收敛阈值。EM为经典算法,此处不做赘述。注意全部GMM的训练都是事先完成的,在算法一开始时加载。在进行检测分类时,对于新输入的一个特征矢量x,在模型义下的对^t似然得分为<formula>formulaseeoriginaldocumentpage22</formula>(13)其中spS是给语音模型的加分,nsS是给噪声模型的得分。可以根据不同的应用适当调整。6)后处理,消除突变状态。得到当前分析步长内信号的判决类型之后,还需要进行后处理,以消除突变状态。在实际通信中音乐/非音乐持续时间很少短于ls,因此在音频类型改变持续ls才认为类型改变有效,否则视为突变状态,音频类型维持突变前的状态。则对于三个^^莫型而言,最后的分类结论为:(14)图3示出了根据本发明实施例的音乐/非音乐的实时检测装置的方冲匡图,包括预处理才莫块10,用于对信号进4亍预处理;短时特征计算模块20,用于计算预处理过的信号的短时特征;静默状态判断模块30,用于达到一个分析步长之后,计算累计短时能量均方根,以判定信号是否为静默状态;长时特征计算模块40,用于如果确定为非静默状态,则根据短时分析参数计算长时特征参数;确定才莫块50,用于^f艮据计算的长时特征参ft进行统计分类,才艮据混合高斯模型确定当前分析区间内的声音类别是音乐/非音乐;以及后处理才莫块60,用于对信号进4于后处理,以消除突变状态。该实施例实现了音乐/非音乐的稳健而有效的实时检测或分割,与语音活动检测相结合,能够组成完整的声音活动检测方案。检测效果评测图4示出了根据本发明优选实施例的音频传输系统的示意图,该系统可以区分音乐和非音乐,并对音乐信号进4亍专门的编码,而对非音乐进行VAD、增强,编码和DTX传输。图4中的音乐/非音乐才企测方法为该实施例的方法。1)测试数据测试源数据来源由两部分构成,一部分^U居来自Slaney和Scheirer搜集的数据库。该数据库中语音和音乐两个集合各有20分钟凄t据,其中每个集合中由80个15秒的音频片断组成。音频信号格式属于调频广纟番级(16比特量化,单声道,22.05kHz采样频率),包4舌了不同的广4番站、内容风才各、p桑声水平等等。Scheier等人尽力将所能收集到的各种音乐风格和语音风格数据整理到一起。对于语音,说话者包括男性和女性,有会议室的讨论也有电话交谈,有自然的静默也有不同背景噪声;对于音乐,其风格有爵士乐、流行乐、乡村音乐、萨尔萨舞曲、瑞格舞舞曲、交响乐、不同的西部风冲各音乐、不同类型的摇滚乐、新世纪音乐(newagemusic)等等,有单纯的音乐,也有带伴唱的。另一部分数据来自实际的彩铃信号和各种实际通信环境中的含噪语音,不仅包括了各种常见噪声,而且信噪比和语音音量也有4艮大差异。该部分数据包括25个音乐文件,共约17分钟,58个含p桑语音文件,共约8.7分钟。根据上述的原始数据,我们拼接组成了专门的测试数据集合。凄丈才居总共分两个目录CLN—mix和ZX—mix。CLN_mix目录下包括「了20个混合文件,每个混合文件由Slaney数据库中的两段音乐和两段语音拼接而成;ZX—mix下包括了11个混合文件,每个文件由实测数据集合中的两段音乐和两段语音拼接而成。参照对象是人工标记的分类结果。2)测试结果(计算检测准确度(Accuracy)时语音、噪音和静音之间相互误检算准确检测,并把语音、噪音和静音作为非音乐)<table>tableseeoriginaldocumentpage25</column></row><table>ZXmix目录<table>tableseeoriginaldocumentpage26</column></row><table>3)测i式结果i兌明由于该方案不包4舌i吾音部分的噪声VAD才全测,因此只于i吾音间的停顿(噪声)未做检测,只有长时的静默或噪声才予以4全测。测试数据尤其是含噪语音多属上述情况,因此噪声Noise检测成Noise得分很低,但Noise才企测成非音乐的准确度达到90%以上。经过对检测错误的音乐进行分析发现,出现检测错误的音乐片断大都是非常嘈杂的摇滚片断,这部分片断单纯用人耳也难以分辨(在一个队列长度内)。尽管如此,语音和音乐的平均检测成功率都在90%以上,i兌明了该方法的有效性。该实施例实现了音乐/非音乐的稳健而有效的实时检测或分割,与语音活动一佥测相结合,能够组成完整的声音活动;险测方案。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可才丸4于的程序^K码来实现,从而,可以将它们存亏诸在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。权利要求1.一种音乐/非音乐的实时检测方法,其特征在于,包括以下步骤对信号进行预处理;计算预处理过的所述信号的短时特征;达到一个分析步长之后,计算累计短时能量均方根,以判定所述信号是否为静默状态;如果确定为非静默状态,则根据短时分析参数计算长时特征参数;根据计算的所述长时特征参数进行统计分类,根据混合高斯模型确定当前分析区间内的声音类别是音乐/非音乐;以及对所述信号进行后处理,以消除突变状态。2.根据权利要求1所述的实时检测方法,其特征在于,对信号进行预处理具体包括入口参数控制、才莫型库加载、输入文件或数据格式处理,以及预加重、分帧力口窗、参凄t和緩冲区初始讦匕。3.根据权利要求2所述的实时检测方法,其特征在于,入口参数控制包括设置语音信号或噪声信号检测得分的虐贞夕卜力口分spS和nsS;模型库加载包括加载事先经过大量数据训练过的语音、噪音、音乐三者的统计模型,静音是以短时能量判断;输入文件或数据格式处理采用8kHz采样16比特量化;预加重系数取系数为-0.80;分帧加窗耳又帧长为32毫秒,256个采样点;参数和緩冲区初始化为帧移10毫秒,80个采样点,窗函凄t采用256点的海明窗。4.根据权利要求3所述的实时检测方法,其特征在于,计算预处理过的所述信号的短时特;f正具体包括计算时域短时能量特4正、幅度谱以及频-潜特;f正、实倒i普、谱起伏程度参HMel域子带能量以及短时调性强度特4正,并标记当前帧的调性。5.根据权利要求4所述的实时才佥测方法,其特征在于,设力口窗之后的各帧信号为data,帧长为N,时域短时特征是指短时能量均方才艮,记为feaRMS,贝'JfeaRMS定义加iMS=麵2(");幅度i普定义lF(如")l,其中F()表示离散付立叶变换;对数功率谱定义/og尸。,=log(|F,a)|2);实,Ji普定义rc;^m7/(F-'(log(lF(^,a)l)));在对凄丈幅度i普基础上,计算谱重心4立置,记为feaCenSP,i普重心定义为功率i普的某一频率,小于该频率的:^普能量与大于该频率的镨能量相等;在实倒语基础上,计算镨起伏程度参数,记为RcPr,其采用实倒i普3~14个系^数绝对^直之和与1~2系凄史绝对4直之和的比值的对凄t;计算Mel域子带能量,采用40个Mel域子带,用三角滤波器组计算每个子带内功率i普能量并取对数,最后对40个子带能量进4于归一化和零均4直化,得到的^斤矢量i己为spBP;计算短时调性强度特征加~=|;|,("|,其中l是求和起始点,该实施例选4奪1=14;标记当前帧的调性包4舌取xr=max(rcp(1:N)),长口果xr〉tonThres,则标记为调性;否则标记为非调性,其中tonThres为调性门限,耳又0.14。6.才艮据权利要求5所述的实时才企测方法,其特征在于,达到一个分析步长之后,计算累计短时能量均方4艮,以判定所述信号是否为静默状态具体包括每个分析步长进行一次类别判定,队列长度取100帧,分碎斤步长为10帧;到达一个分析步长后,计算累计调性参数trc,该参凄史是队列内所有帧的feaRcp之和;进行静音判断,静音判断的依据是分析步长内最大的feaRMS参凄史,^口果ifmax(log(feaRMS))<Thr—sil,贝'J是静音状态,否则为非静音状态,其中Thr—sil是静音检测门限,取-3。7.根据权利要求6所述的实时检测方法,其特征在于,如果确定为非静默状态,则根据短时分析参数计算长时特征参数包括计算调性帧平均能量与平均能量之比Deng:根据短时分析中得到的调性/非调性标记结果,对于队列内的所有帧4言号,Deng定义为Z)e"g=mea"(/ea及MS(/))/wra"(/efl^MS(力),G)是戶斤有i周<formula>formulaseeoriginaldocumentpage4</formula>性帧,All是分析区间内所有帧;计算调性强度特4正加^,(/e"化/),其中sum()是又于整个緩冲队列内所有帧求和的求和函数;计算feaRMS方差对数特征logVRMS,计算i普重心方差对凄t特4正logVCenSpec,其是队列内所有feaCenSP的方差的只于H计算谱起伏度对数方差特征logVRcPr,其是队列内所有RcPr的方差的对凄t;计算4Hz调制能量特征f4Hzmdbp,包括根据Mel域子带能量,对于队列内所有帧,计算各子带的4Hz调制能量,其中计算各子带的4Hz调制能量包括采用2阶全极点滤波器,计算滤波器输出能量和原始能量之比,然后将40个子带的比值相加再取对数,得到所述4Hz调制能量,其中对于第k个子带,该子带的比值计算为,其中()是对整个緩沖队列内所有帧求和的求和函凄t,filter()是滤波函数;计算态范围特征Dong,其是队列内最大能量和最小能量之t匕6勺^t"凄史,即Dong=log(max(/ea/MS(/))/min(yk^MS()))l;将计算的上述7种特4正参数组成7维特4正矢量,并7于各特征参数进行平移和放缩处理,使其数值都分布在相近的范围内。8.根据权利要求7所述的实时检测方法,其特征在于,根据计算的所述长时特征参数进行统计分类,根据混合高斯模型确定当前分析区间内的声音类别是音乐/非音乐具体包括才艮据贝叶斯极大似然分类法则确定当前分析区间内的声音类别;检测中,每类信号都用一个GMM来表示,或者用才莫型义表示;在GMM当中,高斯混合概率密度是M个高斯分量概率=5]A力,("密度之和,用公式表示为S,其中^是一个D维随机变量,6,切是第i个高斯分量的概率密度函数,p,是第i个高斯分量的权重,hl,…,M;每个高斯分量的概率密度是一个D维高斯函数'.^^^expf4(f-Z2,)'S,-'(;f-式中A和i:,表示第i个高斯分量的均值和协方差矩阵;所有的高斯分量权重之和满足归一化条件S:p,=i;一个高斯混合概率密度用三种参数表示各分量的4又重,各分量的均值和协方差矩阵;这些参数》文到一起,统称为冲莫型参数,记为A+',A,5:,〉'、1,…,M;首先对训练数据进行特征分析,得到音乐、语音、噪声三类训练数据的特征矢量集合,然后分别训练三组64个分量的GMM才莫型,包4舌MUgmm、SPgmm、NSgmm,3于应的才莫型用1,、,&表示;GMM模型的训练采用的期望值最大化算法;在进行检测分类时,对于新输入的一个特征矢量x,在模型义下的对数似然得分为&weA(X)=log(p(x|A》,对于三个才莫型而言,最后的分类结论为C7D(x)=argmax(Scw、(x)+印S,(x)+"^S",ScwemK,其中spS是给语音才莫型的加分,nsS是给噪声模型的得分。9.根据权利要求8所述的实时检测方法,其特征在于,对所述信号进4于后处理,以消除突变状态具体包才舌在音频类型改变持续ls才认为类型改变有,丈,否则^L为突变状态,音频类型维持突变前的状态。10.—种音乐/非音乐的实时检测装置,其特征在于,包括预处理才莫块,用于对信号进行预处理;短时特征计算模块,用于计算预处理过的所述信号的短时特征;静默状态判断模块,用于达到一个分析步长之后,计算累计短时能量均方根,以判定所述信号是否为静默状态;长时特征计算模块,用于如果确定为非静默状态,则4艮据短时分析参数计算长时特征参数;确定模块,用于根据计算的所述长时特征参数进行统计分类,根据混合高斯模型确定当前分析区间内的声音类别是音乐/非音乐;以及后处理模块,用于对所述信号进行后处理,以消除突变状太全文摘要本发明提供了一种音乐/非音乐的实时检测方法和装置,方法包括以下步骤对信号进行预处理;计算预处理过的信号的短时特征;达到一个分析步长之后,计算累计短时能量均方根,以判定信号是否为静默状态;如果确定为非静默状态,则根据短时分析参数计算长时特征参数;根据计算的长时特征参数进行统计分类,根据混合高斯模型确定当前分析区间内的声音类别是音乐/非音乐;以及对信号进行后处理,以消除突变状态。本发明实现了音乐/非音乐的稳健而有效的实时检测或分割,与语音活动检测相结合,能够组成完整的声音活动检测方案。文档编号G10L19/00GK101236742SQ200810083110公开日2008年8月6日申请日期2008年3月3日优先权日2008年3月3日发明者付中华,刘开文申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1