一种根据频域能量对音频信号进行检测的方法和装置的制造方法_3

文档序号:9581906阅读:来源:国知局
,音频质量评估(Voice QualityMonitor,VQM)模型的应用场合,该应用场合中待分析信号中可能会包括非语音信 号,比如铃音信号等。这样在将待分析信号输入至VQM之前,应先对其进行信号分类。如果 识别出该段序列为铃音信号等,则不送入VQM模块进行质量评估;否则,VQM会将其视为语 音信号,给出错误的质量评估结果。针对该问题,本发明实施例提供的根据频域能量对音频 信号进行检测的方法,可W通过对音频信号的频域能量变化进行分析,从而检测出铃音信 号。
[0112] 进----步地,还可W将本发明实施例提供的根据频域能量对音频信号进行检测的方 法还可化应用于杂音检测。在某些应用场合,铃音与语音均会出现异常。举例说明,某通用 媒体网关(UniversalMediaGateway,UMG)的话音处理(VoiceProcessingUnit,VPU)单 板上的某芯片出现问题,只要通过该芯片的呼叫必现异常,铃音及语音均严重变形,这样就 会产生杂单,听不清楚。与异常语音相比,异常铃音更容易被检测出来。因此,可W通过检 测异常铃音来检测出杂音。
[0113] 如图3所述,上述方法可W包括W下步骤:
[0114] 301,接收音频信号峽。
[0115] 本实施例W检测铃音信号为例说明。但是本技术方案不限于检测铃音信号,也适 用于其它多种信号,如DTMF信号、FSK信号等。
[0116] 不同国家及地区的铃音具有不同的规格。在时域上,一个完整铃音信号可能包括 一段周期信号,也可能包括两段周期信号;在频域上,周期信号段可能是单频信号或是双频 信号的。
[0117]W图4所示的标准铃音序列为例说明,该序列由英国、美国、德国、日本、香港及法 国铃音组合而成。其中,图4a为时域波形图,横轴为样本点,纵轴为归一化后的幅度。图4b 为语谱图,横轴为顿数,在时域上与图4a的样本点是对应的;纵轴为频率。
[0118] 由图4a可W看出,不同国家及地区的铃音在时域上的表现是不同的。其中,对于 第一组英国铃音及第五组香港铃音,一个完整铃音信号包括两段周期信号;对于第组美 国铃音、第H组德国铃音、第四组日本铃音及第六组法国铃音,一个完整铃音信号包括一段 周期信号。
[0119] 由图4b可W看出,不同国家及地区的铃音在频域上的表现也是不同的。其中,第 一组英国铃音、第且美国铃音、第四组日本铃音及第五组香港铃音是双频序列,在语谱 图上能够看到两处明显的"亮线",也就是包括两个频率成份;第H组德国铃音及第六组法 国铃音是单频序列,在语谱图上只能够看到一处明显的"亮线",也就是只包含一个频率成 份。不同国家及地区铃音的频率值是不同的。举例说明;双频序列中,英国铃音的频率值为 400化及450化;单频序列中,德国铃音的频率值为42甜Z。
[0120] 302,获取所述音频信号帧的频域能量分布,其中,所述频域能量分布表示所述音 频信号峽在频域上的能量分布特性。
[0121] 可选的,步骤402可W首先对音频信号进行快速傅里叶变换(FastFourier Transformation,FFT),得到音频信号的频域表示形式。然后获取音频信号峽的频域能量分 布比值。音频信号顿的频域能量分布比值用于表征当前顿能量在频域上的分布特性。
[0122] 设上述音频信号顿为某个音频信号的当前顿,该当前峽为第k顿,当前顿信号的 频域能量分布比值的----般性公式为:
[0124] 其中,f表示谱线数,fG[0,Fiiui-U。设FFT的变换大小为F,《F/2。Re_ fftG)表示第k顿的FFT变换结果的实部,G)表示第k峽的FFT变换结果的虚部。 示第k顿在iG[0,所对应的频域范围内的能量总
表示第k帧在iG[0,円所对应的频率范围内的能量总和
[0125] Fiim的取值可W根据经验i受定,例如可W设置为F'iim=F/2,则公式(1)转换为公式 口)。
[0127] 其中,
表示第k峽的总能量;
I表示第k顿在iG[0,円所对应的频率范围内的能量总和。
[0128] 图4b中的六条白色虚线所标示的第190顿、第1000峽、第1600峽、第1980顿、第 2160顿及第3100峽分别处于六种不同的铃音序列中。针对图4所示的铃音序列,由上至 下,图5的六个子图分别给出第190顿、第1000顿、第1600顿、第1980峽、第2160顿及第 3100峽的频域能量分布曲线。其中,每个子图的横轴为谱线,取值范围为[1,(F/2-1)]。纵 轴为百分比值,取值为0至Ij100%。在本实施例中,设采样率为8陆z,FFT变换大小为1024, 每根谱线所对应的频率分辨率为7. 8125Hz。为了便于显示,横轴仅显示谱线取值为1到128 之间的频域能量分布曲线。
[0129] 由图5可见,如果铃音为单频信号,能量分布比值会在特定谱线附近从0%突变 至100%。W第H个子图中的德国铃音为例,能量分布比值在谱线55处左右从0%突变 至100%。已知德国铃音规定的频率值为42畑Z,谱线55对应的频率值约为425.細Z,位于 425化的临近区域内。如果铃音为双频信号,能量分布比值会在第- '个特定谱线附近从0% 突变至50%左右,会在第.r.个特定谱线附近从50%左右突变至100%。W第一个子图中的 英国铃音为例,能量分布比值在谱线52左右从0 %突变至50 %左右,在谱线58左右从50 % 左右突变至100%。已知英国铃音规定的频率值为400化及450化,谱线52及58对应的频 率值约为402. 3化及449. 2化,位于400化及450化的临近区域内。
[0130] 其中,谱线所对应的频率值之所W与规定的频率值之间存在一个较小的偏差,主 要有两方面的原因。首先,铃音序列本身在特定频率分量处的分布具有一定的宽度;其次, 受FFT变换精度所限。但是,谱线所对应的频率值一定会分布在该特定频率分量的邻近区 域内,不会影响信号检测的效果。
[0131] 303,根据所述音频信号峽的所述频域能量分布,得到所述音频顿信号的频域能量 极大值分布特征。
[0132] 步骤303为了进一步突出音频信号当前峽在频域上的分布特性,可L义汁算音频信 号当前顿的频域能量分布比值的导数。计算频域能量分布比值的导数可W有很多方法,在 此W拉格朗日(Lagrange)数值微分方法为例进行说明。
[0133] 设上述音频信号为某一音频信号的当前顿,该当前峽为第k顿,利用Lagrange数 值微分方法计算当前峽频域能量分布比值的导数的一般性公式为:
[0135] 其中,N表示数值微分阶数;ratio^energy'k(f)表示第k帧的频域能量分布比 值的导数;ratio_energyk(n)表示第k峽的能量分布比值,
[0136]N的取值可W根据经验巧定,例如可W设置为N二7,则公式(3)转换为下式。
阳 13引 其中,fe[3,(F/2-4)]。当fe[0, 2]或fe[(F/2-3),(F/2-1)]时,ratio, energy'k(f)设置为 0。
[0139] 针对图5所示的第190顿、第1000顿、第1600顿、第1980帧、第2160峽及第3100 顿频域能量分布曲线,由上至下,图6的六个子图分别给出频域能量分布曲线的导数。其 中,横轴为谱线。为了便于显示,横轴仅显示谱线取值为45到70之间的频域能量分布曲线 的导数。纵轴为导数值。
[0140] 对照图5及图6可见,如果频域能量分布比值曲线在某一谱线处的能量分布比值 显著增大,频域能量分布比值的导数一定会在该谱线处出现极大值。针对单频信号,化第H 个子图中的德国铃音为例,频域能量分布比值在谱线55处左右从0 %突变至100 %;相对应 地,频域能量分布比值的导数最大值出现在谱线55处。针对双频信号,W第一个子图中的 英国铃音为例,能量分布比值在谱线52左右从0 %突变至50 %左右,在谱线58左右从50 % 左右突变至100%;相对应地,频域能量分布比值的导数最大值及第二大值也出现在谱线52 及58处。
[0141] 基于音频信号顿的频域能量分布比值的导数,进一步提取频域能量分布比值的导 数极大值分布参数。频域能量分布比值的导数极大值分布参数用参数P〇sjmxJ^7表示, 其中n表示频域能量分布比值的导数的第n大的值,POSjmx表示频域能量分布比值 的导数的第n大的值所处的谱线位置。
[0142] 在本实施例中,仅W提取音频信号当前峽的频域能量分布比值的导数最大值及第 -大值的分布参数为例进行说明,即仅提取P〇s_jnax___L7__l及pos_jnax___L7__2。posjiiax___L7___l 及pos-max-L7-2
[0143] 针对图4给出的标准铃音序列,图7给出pos_max_L7_l及pos_max_L7_2分布特 征曲线。其中,实线表示pos_max_L7_l,虚线表示pos_max_L7_2 ;横轴为顿;纵轴为谱线位 置,取值为[1,(F/2-1)]。为了便于显示,仅显示谱线取值为40到70之间的POSjmx 及posjnax_J..7___2分布特征曲线。
[0144]由图7可见,针对单频信号,W第H个铃音序列德国铃音为例,与规定的频率值 4巧化相对应,pos_max_L7_l始终位于谱线55处,pos_max_L7_2位于相邻的谱线54处。 针对双频信号,W第一个铃音序列英国铃音为例,与规定的频率值400化及450化相对应, posjnax_J..7__J.与posjnax___L7___2交替位于谱线52或是谱线58处。因此,通过步骤302及步 骤303,将音频信号频域能量分布上的特征W频域能量分布比值的导数极大值分布特征体 现出来。 阳14引304,将所述音频顿信号及所述音频帧预设邻域范围内的每一峽作为一个峽集合, 该峽集合包括待检测峽。
[0146]对音频信号进行检测时,虽然是对音频信号中的每--顿进行检测,但是需耍使用 每一顿及其相邻的若干顿的相关参数共同进行分析,才能够得到每一峽的检测结果。因此, 需要通过步骤302及步骤303,得到顿集合中每一顿,包括待检测峽的频域能量分布比值的 导数极大值分布特征。 阳147] 305,根据所述顿集合的频域能量分布导数的极大值分布特征对所述待检测顿进 行检测。
[0148]之所W能够将待检测音频信号与其它音频信号区分开来,是因为待检测音频信号 在频域能量分布方面具有不同于其它音频信号的特征。进一步地,该特征也会体现在频域 能量分布比值的导数极大值的分布特征上。因此,可W通过分析频域能量分布比值的导数 极大值
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1