一种语音识别方法及系统与流程

文档序号:14131293阅读:258来源:国知局
本申请属于语音识别
技术领域
,尤其涉及一种语音识别方法及系统。
背景技术
:目前语音识别技术已经得到广泛的应用,基于语音识别技术能够为用户提供更加便捷的服务。但是,申请人发现,基于目前的语音识别技术存在一些问题:对于某些用户,语音识别的识别准确率较高,但是对于另外一些用户,语音识别的识别准确率比较低。因此,亟需一种能够准确对用户的语音进行识别的实现方案。技术实现要素:申请人发现,在进行语音识别的过程中,用户的声音特质会影响语音识别的识别率,如果采用一视同仁的方式针对不同的用户进行语音识别,必然会出现部分用户的识别准确率较低的问题。有鉴于此,本申请提出,针对获得的音频信息执行差异化的语音识别,从而使得针对用户群的语音识别均具有较高的识别准确率。为实现上述目的,本申请提供如下技术方案:本申请提供了一种语音识别方法,包括:获得待识别的音频信息;若所述待识别的音频信息满足第一条件,执行第一处理方式,以供语音识别使用;若所述待识别的音频信息满足第二条件,执行与所述第一处理方式不同的第二处理方式,以供语音识别使用;其中,所述第一条件和所述第二条件能够反映所述音频信息的语音者的属性。上述方法,优选地:所述第一条件配置为:所述待识别的音频信息的主频率处于第一频率范围,所述第二条件配置为:所述待识别的音频信息的主频率处于与所述第一频率范围不同的第二频率范围;或者,所述第一条件配置为:所述待识别的音频信息的强度处于第一强度范围,所述第二条件配置为:所述待识别的音频信息的强度处于与所述第一强度范围不同的第二强度范围。上述方法,优选地,所述语音者的属性包括:语音者的性别、语音者的年龄和语音者的音色特征中的一种或多种。本申请还提供了另一种语音识别方法,包括:获得待识别的音频信息;确定所述待识别的音频信息中位于预设频段内的音频信息的能量占比;判断所述能量占比是否满足第一条件;如果所述能量占比满足所述第一条件,对所述待识别的音频信息执行第一处理方式,以供语音识别使用。上述方法,优选地,还包括:如果所述能量占比不满足所述第一条件或者所述能量占比满足第二条件,对所述待识别的音频信息进行语音识别。上述方法,优选地,所述确定所述待识别的音频信息中位于预设频段内的音频信息的能量占比,包括:确定所述待识别的音频信息中位于预设的第一频率范围内的音频信息的能量占比;其中,判断所述能量占比是否满足第一条件,包括:判断所述能量占比是否小于预设的第一阈值;或者所述确定所述待识别的音频信息中位于预设频段内的音频信息的能量占比,包括:确定所述待识别的音频信息中位于预设的第二频率范围内的音频信息的能量占比;其中,判断所述能量占比是否满足第一条件,包括:判断所述能量占比是否大于所述第一阈值。上述方法,优选地,所述第一处理方式包括:对所述待识别的音频信息的特定频段范围内的音频进行增益放大处理。本申请还提供了一种语音识别系统:所述系统,用于获得待识别的音频信息;若所述待识别的音频信息满足第一条件,执行第一处理方式,并对执行所述第一处理方式的音频信息进行语音识别;若所述待识别的音频信息满足第二条件,执行与所述第一处理方式不同的第二处理方式,并对执行所述第二处理方式的音频信息进行语音识别;其中,所述第一条件和所述第二条件能够反映所述音频信息的语音者的属性。本申请还提供了另一种语音识别系统;所述系统,用于获得待识别的音频信息;确定所述待识别的音频信息中位于预设频段内的音频信息的能量占比;判断所述能量占比是否满足第一条件;如果所述能量占比满足所述第一条件,对所述待识别的音频信息执行第一处理方式,以供语音识别使用。由此可见,本申请的有益效果为:在获得待识别的音频信箱之后,对不同语音者属性的音频信息采用不同的处理方式进行处理,再对处理后的音频信息进行语音识别,从而对音频信息进行差异化识别,从而使得对于包含多种用户的使用群进行语音识别具有较高的识别准确率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为现有麦克风的频率与相对灵敏度的示意图;图2为本申请实施例一提供的一种语音识别方法的流程图;图3~图5分别为本申请实施例二提供的一种语音识别方法的流程图;图6及图7分别为本申请实施例三提供的一种语音识别系统的应用示例图。具体实施方式当前语音识别的软件或应用已经越来越多的走入消费者的生活中,例如进行语音解锁或者语音支付等。但是在实际使用过程中,音频识别对于所有用户均采用同一种识别算法,导致对于不同用户的识别率不同。例如,以女生和男生同时使用语音识别进行手机解锁为例,在进行语音解锁的应用中,女生进行语音解锁时的语音识别率在92%~99%之间,而男生进行语音解锁时的语音识别率只在80%~85%之间,这样导致对于男生用户的用户体验较差,影响品牌形象。申请人为了找到存在以上问题的语言,对男生和女生的声音衰减进行测试实验:如表1中所示,对5个男生和5个女生分别进行声音衰减分析,发现男生的声音在50厘米的距离上衰减普遍高于女生:表1通过研究以上男生和女生使用者的声音频谱特点可以发现:女生声音的频率成分中1000~5000hz的比例要高于男生,而男生声音的频率成分中100~800hz的比例更高些。而对于当前进行语音识别的微机电系统mems(micro-electro-mechanicalsystem)麦克风来说,对1000hz以上的声音识别灵敏度要高于对1000hz以下的声音识别灵敏度,如图1中所示,综合这两个原因,才出现了mems麦克风在声音识别中对男生声音的识别率要低于对女生声音的识别率,如表2中不同频段下对男生声音和女生声音的识别率所示:表2frequencyfemalemale100-800hz35.81%56.30%1000-5000hz58.20%41.20%5000-20khz5.99%2.54%申请人在发现男生女生识别率不同的原因之后,推广到其他的场景,如不同人种、不同年龄及不同音色特征的用户进行语音识别的场景,同一种麦克风等终端在对多种用户的声音进行语音识别时,均会出现这种语音识别准确率不高的问题。为此,申请人提出针对获得的音频信息执行差异化的语音识别的技术方案,例如,对收集到的声音,进行实时频率成分占比分析,分析后,如果1000~5000hz的频率成分占比低于55%,那么在mic增益频率响应中实时将1000~5000hz的频段进行3~6db的提升,从而对于男生和女生的声音均能够识别,而将该技术方案推广至更多的声音识别应用中,得到以下技术方案,从而使得针对用户群的语音识别均具有较高的识别准确率。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。参考图2,为本申请实施例一提供的一种语音识别方法的流程图,应用于能够进行音频处理的终端上,如手机、pad、服务器等终端。在本实施例中,该方法可以包括以下步骤:步骤201:获得待识别的音频信息。其中,本实施例中可以通过麦克风等设备来采集音频信息,并通过相应的数据传输接口来获得麦克风所采集到的音频信息,用于后续进行识别。步骤202:判断待识别的音频信息所满足的条件,如果待识别的音频信息满足第一条件,那么执行步骤203,如果待识别的音频信息满足第二条件,那么执行步骤204。其中,第一条件和第二条件是能够反映音频信息的语音者的属性。音频信息的语音者是指发出该音频信息的人或物。也就是说,待识别的音频信息满足不同的条件,表征不同的音频信息的语音者的不同属性,例如,待识别的音频信息满足第一条件能够表明该音频信息的语音者属于相应的属性,而待识别的音频信息满足第二条件能够表明该音频信息的语音者属于另外的属性。步骤203:执行第一处理方式,并对待识别的音频信息进行语音识别。其中,该第一处理方式可以为对待识别的音频信息进行相应的操作,以得到能够进行准确识别的音频信息,再进行语音识别。步骤204:执行第二处理方式,以供语音识别使用。其中,第二处理方式是指区别于第一处理方式的执行手段,在本实施例中执行第二处理方式可以为空操作,也可以为有实际功能的操作,将执行第二处理方式后的音频信息进行语音识别。需要说明的是,本实施例可以将执行第一处理方式或第二处理方式之后的音频信息发送给本地的服务器或者云端的服务器进行语音识别,得到识别结果。由上述方案可知,本申请实施例一提供的一种语音识别方法中,在获得待识别的音频信箱之后,对不同语音者属性的音频信息采用不同的处理方式进行处理,再对处理后的音频信息进行语音识别,从而对音频信息进行差异化识别,从而使得对于包含多种用户的使用群进行语音识别具有较高的识别准确率。需要说明的是,在步骤203及步骤204中完成语音识别之后,还可以返回步骤201,继续对后续的音频信息进行重新获得并进行处理,达到实时高识别准确率的语音识别的目的。在一种实现方式中,第一处理方式中可以包括有以下实现手段:对待识别的音频信息的特定频段范围内的音频进行增益放大处理。其中,音频信息的特定频段范围可以根据第一条件所反映的音频信息的语音者来设置,例如,如果音频信息满足第一条件,那么可以确定音频信息所反映的语音者为男生,那么可以确定特定频段范围为音频信息中的1000hz~5000hz频段,由此,本实施例中将音频信息中1000hz~5000hz频段的音频进行增益放大处理,例如,提升3~6db的强度,之后,再对增益后的音频信息进行语音识别,得到识别结果。具体的,本实施例中可以对待识别的音频信息的特定频段范围内的音频衰减状态进行分析,确定衰减程序达到预设阈值的部分,对这一部分进行增益放大,如提升3~6db的强度。或者,第一处理方式中也可以为以下实现手段:对待识别的音频信息的特定频段范围内的音频进行增益降低的处理。具体的,本实施例中可以对待识别的音频信息的特定频段范围内的音频强度进行识别,对强度超出特定强度阈值的部分进行增益降低处理。或者,第一处理方式中也可以为以下实现手段:对待识别的音频信息的特定频段范围内的音频进行滤波和整流,得到音频信息在特定频段内的目标谐波,对该谐波进行增益放大处理,如提升3~6db的强度。而第二处理方式中可以为空操作,也就是说,对于满足第二条件的音频信息不进行任何操作处理,直接进行语音识别,得到识别结果,例如,如果音频信息满足第二条件,那么可以确认音频信息所反映的语音者为女生,那么可以直接对该音频信息进行语音识别,得到识别结果。在一种实现方式中,本实施例中的第一条件可以配置为:待识别的音频信息的主频率处于第一频率范围,例如,待识别的音频信息中能量占比最高的频段处于第一频率范围100hz~800hz,而第二条件则可以配置为:待识别音频信息的主频率处于第二频率范围,第二频率范围与第一频率范围不同,例如,待识别的音频信息中能量占比最高的频段处于第二频率范围1000hz~5000hz。需要说明的是,第一频率范围与第二频率范围可以根据采集音频信息的麦克风的采集性能进行设置。具体的,本实施例中通过对待识别的音频信息进行频谱分析,得到该音频信息所包含的所有频段及每个频段所对应的能量占比,将能量占比最高的频段的频率确定为主频率,再判断该主频率是处于第一频率范围还是处于第二频率范围,如果处于第一频率范围,如100hz~800hz,那么表明该音频信息的语音者的特点,例如为男生,那么对待识别的音频信息执行第一处理方式如对特定频段范围1000hz~5000hz的音频进行增益放大处理之后,对音频信息进行语音识别,得到识别结果;而如果能量占比最高的主频率处于第二频率范围,如1000hz~5000hz,那么表明该音频信息的语音者的特点,如女生,那么对待识别的音频信息执行第二处理方式如空操作之后,直接对音频信息进行语音识别,得到识别结果。或者,在另一种识别方式中,第一条件可以配置为:待识别的音频信息的强度处于第一强度范围,例如,待识别的音频信息在麦克风的常用识别频段1000hz~5000hz的强度处于第一强度范围如较低的强度范围,而第二条件可以配置为:待识别的音频信息的强度处于与第一强度范围不同的第二强度范围,例如,待识别的音频信息在麦克风的常用识别频率1000hz~5000hz的强度处于第二频率范围如较高的强度范围。需要说明的是,第一强度范围与第二强度范围可以根据采集音频信息的麦克风的采集性能与麦克风与语音者之间的距离来进行设置。具体的,本实施例中通过对待识别的音频信息进行强度分析,得到该音频信息的强度,如在采集该音频信息的麦克风的常用识别频段上的强度,如能量占比,再判断该强度是处于第一强度范围还是处于第二强度范围,如果处于第一强度范围,如较小的强度范围,那么表明该音频信息的语音者的特点,那么对待识别的音频信息执行第一处理方式如对特定频段范围1000hz~5000hz的音频进行增益放大处理之后,对音频信息进行语音识别,得到识别结果;而如果音频信息的强度处于第二强度范围,如明显高于第一强度范围的较高的强度范围,那么表明该音频信息的语音者的特点,那么对待识别的音频信息执行第二处理方式如空操作之后,直接对音频信息进行语音识别,得到识别结果。或者,在另一种实现方式中,本实施例中的第一条件可以配置为:待识别的音频信息在预设频率范围内的能量占比是否处于第一占比范围,例如,待识别的音频信息中1000hz~5000hz内的能量占比处于第一占比范围,如小于55%的范围,而第二条件则可以配置为:待识别音频信息在预设频率范围内的能量占比是否处于第二占比范围,第二占比范围与第一占比范围不同,例如,待识别的音频信息中1000hz~5000hz内的能量占比处于第二占比范围,如大于55%的范围。需要说明的是,第一占比范围与第二占比范围可以根据采集音频信息的麦克风的采集性能进行设置。具体的,本实施例中通过对待识别的音频信息进行频谱分析,得到该音频信息所包含的所有频段及在每个频段所对应的能量占比,将1000hz~5000hz频段内的能量占比进行判断,如果该能量占比处于第一占比范围,如0~55%的范围,那么表明该音频信息的语音者的特点,例如为男生,那么对待识别的音频信息执行第一处理方式如对预设频段范围1000hz~5000hz的音频进行增益放大处理之后,对音频信息进行语音识别,得到识别结果;而如果1000hz~5000hz的能量占比处于第二占比范围,如55%~100%,那么表明该音频信息的语音者的特点,如女生,那么对待识别的音频信息执行第二处理方式如空操作之后,直接对音频信息进行语音识别,得到识别结果。在一种实现方式中,音频信息的语音者的属性是指能够将语音者与其他用户明显区分的属性,如语音者的性别:男或者女;语音者的年龄:婴儿或者中年;语音者的音色特性:低音音色或者高音音色等。本实施例中通过对音频信息进行音频分析、强度分析或者能量占比分析,来识别出音频信息的语音者是属于哪一种属性或者哪几种属性的组合,即满足第一条件还是满足第二条件,从而来根据语音者的不同属性执行不同的处理方式,得到能够准确识别的音频信息进行语音识别,得到识别结果,由此,本实施例能够针对不同用户的差异性来进行差异化语音识别,提高识别的准确率。参考图3,为本申请实施例二提供的一种语音识别方法的实现流程图,该方法可以应用于电子设备,如能够进行音频处理的终端上,如手机、pad、服务器等终端。在本实施例中,该方法可以包括以下步骤:步骤301:获得待识别的音频信息。其中,本实施例中可以通过麦克风等设备来采集音频信息,并通过相应的数据传输接口来获得麦克风所采集到的音频信息,用于后续进行识别。步骤302:确定待识别的音频信息中位于预设频段内的音频信息的能量占比。其中,本实施例中可以通过对待识别的音频信息进行快速傅里叶变换及频谱分析等处理,从而得到该音频信息所包含的所有频段及每个频段所对应的能量占比,如100hz~800hz的能量占比和1000hz~5000hz的能量占比及高于5000hz的频段的能量占比等。步骤303:判断能量占比是否满足第一条件,如果是,执行步骤304。其中,能量占比满足第一条件可以反映音频信息的语音者的属性,如性别、年龄、音色特性等属性。步骤304:对待识别的音频信息执行第一处理方式,再对音频信息进行语音识别。也就是说,本实施例中在判断出音频信息处于预设频段内的音频能量占比满足第一条件,那么可以得出音频信息的语音者的属性,如性别是男还是女,那么就可以采用相应的第一处理方式进行处理,之后对经过第一处理方式的音频信息进行语音识别,得到识别结果。在一种实现方式中,第一处理方式中可以包括有以下实现手段:利用增益放大器对待识别的音频信息在该预设频段内的音频进行增益放大处理。例如,将音频信息中1000hz~5000hz频段的音频提升3~6db的强度。由上述方案可知,本申请实施例二提供的一种语音识别方法,通过确定待识别的音频信息位于预设频段内的音频信息的能量占比,来判断是否满足第一条件,从而对满足第一条件的音频信息执行第一处理方式,以供语音识别使用,而不满足第一条件的音频信息不需要执行第一处理方式,由此,对不同的音频信息采用不同的处理方式进行语音识别,实现差异化识别,从而使得对于包含多种用户的使用群进行语音识别具有较高的识别准确率。另外,在步骤303判断出能量占比不满足第一条件时,本实施例中的方法还可以包括以下步骤,如图4中所示:步骤305:对待识别的音频信息进行语音识别。其中,本实施例在判断出音频信息处于预设频段内的音频能量占比不满足第一条件,那么也可以得出音频信息的语音者的属性不是第一条件所对应的属性,那么就可以直接对待识别的音频信息进行语音识别,得到识别结果。或者,在步骤302之后,本实施例中的方法还可以包括以下步骤,如图5中所示:步骤306:判断能量占比是否满足第二条件,如果是,执行步骤307。步骤307:执行第二处理方式,以供语音识别。其中,第二条件与第一条件不同,均能反映出音频信息的语音者的属性,因此,在能量占比满足第二条件时,可以得出音频信息的语音者的属性不是第一条件所对应的属性,而是第二条件所对应的属性,那么对音频信息进行第二处理方式。需要说明的是,第二处理方式可以为空操作,也就是说,对满足第二条件的音频不进行任何操作处理,直接进行语音识别得到识别结果。在一种实现方式中,步骤302可以通过以下方式实现:确定待识别的音频信息中位于预设的第一频率范围内的音频信息的能量占比,例如,确定音频信息中位于1000hz~5000hz内的能量占比。相应的,步骤303在判断能量占比是否满足第一条件时,可以通过判断能量占比是否小于预设的第一阈值来实现。例如,判断音频信息中位于1000hz~5000hz内的能量占比是否小于55%,如果是,那么可以表征音频信息的语音者可能是男生,此时,可以对音频信息执行第一处理方式,如对音频信息在1000hz~5000hz内的强度提升3~6db,之后,再进行语音识别,得到识别结果。在另一种实现方式中,步骤302还可以通过以下方式实现:确定待识别的音频信息中位于预设的第二频率范围内的音频信息的能量占比,例如,确定音频信息中位于100hz~800hz内的能量占比。相应的,步骤303在判断能量占比是否满足第一条件时,可以通过判断能量占比是否大于预设的第一阈值来实现。例如,判断音频信息中位于100hz~800hz内的能量占比是否大于55%,如果是,那么可以表征音频信息的语音者可能是男生,此时,可以对音频信息执行第一处理方式,如对音频信息在1000hz~5000hz内的强度提升3~6db,之后,再进行语音识别,得到识别结果。本申请实施例三还提供了一种语音识别系统,该系统可以为手机、pad、服务器或这些终端所组成的组合终端等。在本实施例中,该系统可以用于:获得待识别的音频信息;若所述待识别的音频信息满足第一条件,执行第一处理方式,并对执行所述第一处理方式的音频信息进行语音识别;若所述待识别的音频信息满足第二条件,执行与所述第一处理方式不同的第二处理方式,并对执行所述第二处理方式的音频信息进行语音识别;其中,所述第一条件和所述第二条件能够反映所述音频信息的语音者的属性。在一种实现方式中,该系统可以通过本地端的电子设备如服务器等实现:获得待识别的音频信息,若所述待识别的音频信息满足第一条件,执行第一处理方式,若所述待识别的音频信息满足第二条件,执行与所述第一处理方式不同的第二处理方式。之后,该系统可以通过云端的服务器对执行第一处理方式或第二处理方式的音频信息进行语音识别,得到识别结果,而云端的服务器再将识别结果返回给本地的服务器,如图6中所示;或者该系统可以通过本地端的服务器对执行第一处理方式或第二处理方式的音频信息进行语音识别,得到识别结果。其中,该系统中执行第一处理方式或者第二处理方式的本地服务器与进行语音识别的本地服务器可以为同一服务器,也可以为不同的服务器,如图7中所示。需要说明的是,本实施例中的语音识别系统的具体实现方式可以参考前文中图2的相应内容,此处不再详述。由上述方案可知,本申请实施例三提供的一种语音识别系统中,在获得待识别的音频信箱之后,对不同语音者属性的音频信息采用不同的处理方式进行处理,再对处理后的音频信息进行语音识别,从而对音频信息进行差异化识别,从而使得对于包含多种用户的使用群进行语音识别具有较高的识别准确率。本申请实施例四还提供了另一种语音识别系统,该系统可以手机、pad、服务器或这些终端所组成的组合终端等。在本实施例中,该系统可以用于:获得待识别的音频信息;确定所述待识别的音频信息中位于预设频段内的音频信息的能量占比;判断所述能量占比是否满足第一条件;如果所述能量占比满足所述第一条件,对所述待识别的音频信息执行第一处理方式,以供语音识别使用。在一种实现方式中,该系统可以通过本地端的电子设备如服务器等实现:获得待识别的音频信息;确定所述待识别的音频信息中位于预设频段内的音频信息的能量占比;判断所述能量占比是否满足第一条件;如果所述能量占比满足所述第一条件,对所述待识别的音频信息执行第一处理方式。之后,该系统可以通过云端的服务器对执行第一处理方式的音频信息进行语音识别,得到识别结果,而云端的服务器再将识别结果返回给本地的服务器;或者该系统可以通过本地端的服务器对执行第一处理方式的音频信息进行语音识别,得到识别结果。其中,该系统中执行第一处理方式的本地服务器与进行语音识别的本地服务器可以为同一服务器,也可以为不同的服务器。需要说明的是,本实施例中的语音识别系统的具体实现方式可以参考前文中图3~图5的相应内容,语音识别系统的实现结构可以参考图6及图7,此处不再详述。由上述方案可知,本申请实施例四提供的一种语音识别系统,通过确定待识别的音频信息位于预设频段内的音频信息的能量占比,来判断是否满足第一条件,从而对满足第一条件的音频信息执行第一处理方式,以供语音识别使用,而不满足第一条件的音频信息不需要执行第一处理方式,由此,对不同的音频信息采用不同的处理方式进行语音识别,实现差异化识别,从而使得对于包含多种用户的使用群进行语音识别具有较高的识别准确率。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1