基于声纹识别帮助失聪患者判断声音类别的方法

文档序号:10472278阅读:175来源:国知局
基于声纹识别帮助失聪患者判断声音类别的方法
【专利摘要】本发明涉及一种基于声纹识别帮助失聪患者判断声音类别的方法,其包括如下步骤:步骤1、对每个模板声音进行特征矢量提取,以得到每个模板声音对应的模板声音特征矢量;步骤2、对环境声音进行特征矢量提取,以得到环境声音的环境声音特征矢量;步骤3、将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过DTW动态时间规整方法进行一一比对,以得到若干声音比对欧式距离;步骤4、确定上述声音比对欧式距离中的最小声音比对欧式距离以及与最小声音比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的模板声音。本发明能有效识别声音的类别,有助于失聪患者对语音识别的能力,适应范围广,安全可靠。
【专利说明】
基于声纹识别帮助失聪患者判断声音类别的方法
技术领域
[0001] 本发明设及一种方法,尤其是一种基于声纹识别帮助失聪患者判断声音类别的方 法,属于声纹识别的技术领域。
【背景技术】
[0002] 声纹识别(VoicePrint Reco即ition,VR),即说话人识别(Speaker Reco即ition SR),属于生物特征识别技术的一种,是一项根据语音波形中反映声纹生理和行为的特征的 语音参数,自动识别声纹身份的技术。声纹识别是具有较好鲁棒性和自适应的声纹识别算 法的研究。与语音识别不同的是,声纹识别利用语音信号中的声纹声音本身的特征,而不考 虑语音中的字词意思,它强调声纹的个性;而语音识别的目的是识别出语音信号的内容,并 不考虑声纹是谁,强调声纹的共性。
[0003] 对有听力障碍的患者来说,提高听力能力的传统方法是通过助听器来帮助患者听 清声音,具体方法是通过拾音器获得外部声音,再通过声音放大器把获得的声音放大,进而 让患者听到声音。由于失聪患者对声音大小已经不再敏感,失去了判断声音大小的能力,因 此通过助听器等传统方法放大声音已经不适用了,对运类患者来说不能通过传统意义上的 方法进行治疗。

【发明内容】

[0004] 本发明的目的是克服现有技术中存在的不足,提供一种基于声纹识别帮助失聪患 者判断声音类别的方法,其操作方便,能有效识别声音的类别,有助于失聪患者对语音识别 的能力,适应范围广,安全可靠。
[0005] 按照本发明提供的技术方案,一种基于声纹识别帮助失聪患者判断声音类别的方 法,所述判断声音类别的方法包括如下步骤:
[0006] 步骤1、提供若干所需的模板声音,并对每个模板声音进行特征矢量提取,W得到 每个模板声音对应的模板声音特征矢量,所有模板声音的模板声音特征矢量构成模板声音 特征矢量库;
[0007] 步骤2、采集环境声音,并对所述环境声音进行特征矢量提取,W得到环境声音的 环境声音特征矢量;
[000引步骤3、将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过 DTW动态时间规整方法进行一一比对,W得到若干声音比对欧式距离;
[0009] 步骤4、确定上述声音比对欧式距离中的最小声音比对欧式距离W及与最小声音 比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的模板 声音。
[0010] 所述模板声音包括室内声音W及室外声音,所述室内声音包括哭声、嘟嘟声、扫靑 扫地声、咬咬作响的口声、关口声、Π 铃声、脚步声、吹风声、敲口声、铃声、水声或哨声;
[0011] 所述室外声音包括飞机声、掌声、鸟声、汽车卿趴声、拥挤声、狗或猫叫声、发动机 启动声、尖叫声、雷声、火车的运动声或风吹声。
[0012] 所述步骤1中,对每个模板声音进行特征矢量提取,W得到每个模板声音对应模板 声音特征矢量的过程包括如下步骤:
[0013] 步骤1.1、对模板声音进行分帖,并对分帖后的模板声音进行预加重处理;
[0014] 步骤1.2、对上述预加重的模板声音进行加窗,并对加窗后的模板声音进行端点检 测;
[0015] 步骤1.3、对上述端点检测后的模板声音进行傅立叶变换,W得到模板声音的线性 频谱;
[0016] 步骤1.4、对得到的线性频谱通过Mel频率滤波器组,W得到Mel频谱,对所述Mel频 谱通过对数能量处理,W得到对数频谱;
[0017] 步骤1.5、将得到的对数频谱经过DCT变换到倒频谱域,W得到MFCC特征参数,并将 MFCC特征参数W及所述MFCC特征参数的一阶差分作为特征参数,W提取得到模板声音的模 板声音特征矢量。
[001引对模板声音进行分帖时,使用的分帖帖长为30ms,帖移为10ms。
[0019]对模板声音采用化mming窗进行力幡处理,采用双Π 限比较法进行端点检测。
[0020] 本发明优点:对模板声音进行特征矢量提取,W得到每个模板声音对应的模板声 音特征矢量,对环境声音进行特征矢量提取,W得到环境声音的环境声音特征矢量;将环境 声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过DTW动态时间规整方法进 行一一比对,W得到若干声音比对欧式距离,确定上述声音比对欧式距离中的最小声音比 对欧式距离W及与最小声音比对欧式距离对应的模板声音,贝环境声音的类别为与最小声 音比对欧式距离对应的模板声音,能有效识别声音的类别,有助于失聪患者对语音识别的 能力,适应范围广,安全可靠。
【附图说明】
[0021] 图1为本发明的数据流图。
[0022] 图2为本发明得到MFCC特征参数的流程图。
【具体实施方式】
[0023] 下面结合具体附图和实施例对本发明作进一步说明。
[0024] 如图1所示:为了能有效识别声音的类别,有助于失聪患者对语音识别的能力,本 发明判断声音类别的方法包括如下步骤:
[0025] 步骤1、提供若干所需的模板声音,并对每个模板声音进行特征矢量提取,W得到 每个模板声音对应的模板声音特征矢量,所有模板声音的模板声音特征矢量构成模板声音 特征矢量库;
[0026] 具体地,所述模板声音包括室内声音W及室外声音,所述室内声音包括哭声、嘟嘟 声、扫靑扫地声、咬咬作响的口声、关口声、Π 铃声、脚步声、吹风声、敲口声、铃声、水声或哨 声;所述室外声音包括飞机声、掌声、鸟声、汽车卿趴声、拥挤声、狗或猫叫声、发动机启动 声、尖叫声、雷声、火车的运动声或风吹声。具体实施时,模板声音还可W为其他形式的声音 类型,具体为本技术领域人员所熟知,此处不再寶述。
[0027] 如图2所示,对每个模板声音进行特征矢量提取时,先对模板声音进行预处理,并 对预处理后进行特征矢量的提取,W得到每个模板声音对应模板声音特征矢量,具体过程 包括如下步骤:
[0028] 步骤1.1、对模板声音进行分帖,并对分帖后的模板声音进行预加重处理;
[0029] 本发明实施例中,分帖的目的是将连续语音信号划分为段,W便于进行后续的处 理;由于人耳所听到的声音在20~30ms内是稳定的,即在20~30ms的时间内,声音的变化不 大且比较有规律,故设定帖的长度为20ms左右。同时,帖与帖之间需保证一定的重叠(即帖 移),W减小由于强行划分导致信息损失的可能。本发明实施例中,使用的分帖帖长为30ms, 帖移为10ms。
[0030] 本发明实施例中,经过预加重处理W提高信号的高频部分的幅度,采用一阶数字 滤波器进行预加重,预加重系数为0.97。
[0031] 步骤1.2、对上述预加重的模板声音进行加窗,并对加窗后的模板声音进行端点检 测;
[0032] 为了平滑信号W减少每帖信号两端的预检测误差,避免频谱出现"破碎"的现象, 采用加窗处理。每帖用窗函数相乘W减少帖起始和结束处的信号的不连续性。在语音信号 的时域分析来说,窗函数很重要,虽然矩形窗平滑比较好,但容易使波形细节丢失,并且产 生泄露现象,本发明实施例中,采用Hamming窗函数,具体地
[0033]
[0034] 其中,N为对模板声音进行采样量化的采样点数,η为关于采样点数N的变量,W(n) 为窗函数。
[0035] 端点检测是声纹识别中的一个重要环节,有效的端点检测方法不仅可W减少数据 的存储量和处理时间,而且可W排除无声段的噪声干扰,从而使得声纹识别更加准确,本发 明实施例中,采用基于短时能量和短时过零率的检测算法,即双口限比较法进行端点检测。
[0036] 步骤1.3、对上述端点检测后的模板声音进行傅立叶变换,W得到模板声音的线性 频谱;
[0037] 本发明实施例中,在经过上述的端点检测后,得到每个声音模板的时域信号x(n), 将时域信号x(n)后补若干个0已形成长为B(-般取B为512)的序列,经过DFT(Discrete Fourier Transform、离散傅里叶变换)后得到线性频谱X化),变换公式为:
[00;3 引
[0039] 在具体实施时,也可W采用快速傅立叶变换进行处理,W得到所需的线性频谱X 化),采用快速傅立叶变换的过程为本技术领域人员所熟知,此处不再寶述。
[0040] 步骤1.4、对得到的线性频谱通过Mel频率滤波器组,W得到Mel频谱,对所述Mel频 谱通过对数能量处理,W得到对数频谱;
[0041] 本发明实施例中,Mel频率滤波器组是一组Ξ角带通滤波器,0含m含M,M为滤波器 的个数,每个滤波器具有Ξ角形滤波特性,其中屯、频率为f(m),当m值小时相邻f(m)之间的 间隔也小,随着m的增加相邻f(m)的间隔逐渐变大。每个带通滤波器的传递函数如下:
[0045] 步骤1.5、将得到的对数频谱经过DCT变换到倒频谱域,W得到MFCC特征参数,并将 MFCC特征参数W及所述MFCC特征参数的一阶差分作为特征参数,W提取得到模板声音的模 板声音特征矢量。
[0046] 本发明实施例中,将上述对数频谱S(m)经过DCT变换到倒频谱域即可得到MFCC特 征参数C(n):
[0047]
[004引由于人耳对动态特性更为敏感,为更好地拟合人声和人耳听觉的动态特性,本发 明实施例中,对得到MFCC特征参数进行一阶差分,W得到Δ MFCC,并把MFCC+ A MFCC作为特 征参数的提取,得到模板声音的模板声音特征矢量。
[0049] 在具体实施时,将所有模板声音的模板声音特征矢量集合后得到模板声音特征矢 量库。
[0050] 步骤2、采集环境声音,并对所述环境声音进行特征矢量提取,W得到环境声音的 环境声音特征矢量;
[0051] 通过录音设备或传感设备能采集得到所需的环境声音,本发明实施例中,环境声 音是指失聪患者所在环境中的声音。对环境声音提取特征矢量得到环境声音特征矢量的过 程可W参考上述模板声音特征矢量的提取过程,具体不再寶述。
[0052] 步骤3、将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过 DTW动态时间规整方法进行一一比对,W得到若干声音比对欧式距离;
[0053] 本发明实施例中,模板声音特征矢量库作为参考模板,环境声音特征矢量作为测 试模板,利用DTW动态时间规整方法将环境声音特征矢量与模板声音特征矢量库中的所有 模板声音特征矢量进行一一比对,比对后得到相应的声音比对欧式距离,具体的比对过程 为本技术领域人员所熟知,此处不再寶述。
[0054] 步骤4、确定上述声音比对欧式距离中的最小声音比对欧式距离W及与最小声音 比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的模板 声音。
[0055] 本发明实施例中,得到声音比对欧式距离的数量与模板声音特征矢量库中的模板 声音特征矢量的数量相一致。在所有的声音比对欧式距离中存在最小声音比对欧式距离, 在确定最小声音比对欧式距离后,能确定与最小声音比对欧式距离对应的模板声音,卯J环 境声音可W认为与最小声音比对欧式距离对应的模板声音相同的声音类别。具体使用时, 在判别环境声音的类别后,将所述判别结果显示在移动设备上,所述移动设备包括智能手 机等失聪患者能使用的终端。
[0056]本发明对模板声音进行特征矢量提取,W得到每个模板声音对应的模板声音特征 矢量,对环境声音进行特征矢量提取,W得到环境声音的环境声音特征矢量;将环境声音特 征矢量与模板声音特征矢量库内的模板声音特征矢量通过DTW动态时间规整方法进行一一 比对,W得到若干声音比对欧式距离,确定上述声音比对欧式距离中的最小声音比对欧式 距离W及与最小声音比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对 欧式距离对应的模板声音,能有效识别声音的类别,有助于失聪患者对语音识别的能力,适 应范围广,安全可靠。
【主权项】
1. 一种基于声纹识别帮助失聪患者判断声音类别的方法,其特征是,所述判断声音类 别的方法包括如下步骤: 步骤1、提供若干所需的模板声音,并对每个模板声音进行特征矢量提取,以得到每个 模板声音对应的模板声音特征矢量,所有模板声音的模板声音特征矢量构成模板声音特征 矢量库; 步骤2、采集环境声音,并对所述环境声音进行特征矢量提取,以得到环境声音的环境 声音特征矢量; 步骤3、将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过DTW动 态时间规整方法进行一一比对,以得到若干声音比对欧式距离; 步骤4、确定上述声音比对欧式距离中的最小声音比对欧式距离以及与最小声音比对 欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的模板声 音。2. 根据权利要求1所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是: 所述模板声音包括室内声音以及室外声音,所述室内声音包括哭声、嘟嘟声、扫帚扫地声、 吱吱作响的门声、关门声、门铃声、脚步声、吹风声、敲门声、铃声、水声或哨声; 所述室外声音包括飞机声、掌声、鸟声、汽车喇叭声、拥挤声、狗或猫叫声、发动机启动 声、尖叫声、雷声、火车的运动声或风吹声。3. 根据权利要求1所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是: 所述步骤1中,对每个模板声音进行特征矢量提取,以得到每个模板声音对应模板声音特征 矢量的过程包括如下步骤: 步骤1.1、对模板声音进行分帧,并对分帧后的模板声音进行预加重处理; 步骤1.2、对上述预加重的模板声音进行加窗,并对加窗后的模板声音进行端点检测; 步骤1.3、对上述端点检测后的模板声音进行傅立叶变换,以得到模板声音的线性频 谱; 步骤1.4、对得到的线性频谱通过Mel频率滤波器组,以得到Mel频谱,对所述Mel频谱通 过对数能量处理,以得到对数频谱; 步骤1.5、将得到的对数频谱经过DCT变换到倒频谱域,以得到MFCC特征参数,并将MFCC 特征参数以及所述MFCC特征参数的一阶差分作为特征参数,以提取得到模板声音的模板声 音特征矢量。4. 根据权利要求3所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是: 对模板声音进行分帧时,使用的分帧帧长为30ms,帧移为10ms。5. 根据权利要求3所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是: 对模板声音采用Hamming窗进行加窗处理,采用双门限比较法进行端点检测。
【文档编号】G10L17/02GK105825857SQ201610141941
【公开日】2016年8月3日
【申请日】2016年3月11日
【发明人】钦赛勇
【申请人】无锡吾芯互联科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1