一种应用于家庭网络的语音识别方法

文档序号:2825036阅读:220来源:国知局
专利名称:一种应用于家庭网络的语音识别方法
技术领域
本发明涉及ー种语音识别方法,尤其是一种通过语音识别机器来进行语音识别的方法。
背景技术
随着网络技术的发达,使用ー个输入/输出装置来控制由网络连接在一起的远程机器的系统也随之上市。 不仅如此,以语音指令来控制由网络所连接的机器的系统也日益
以往技术中的语音识别系统存在杂音影响机器控制及特定语音者语音识别率降低等缺陷和极限。就特定语音者语音识别率降低这一点来说,虽然可以通过适应化来弥补这ー缺陷,但给用户带来诸多的不便。不仅如此,为了通过语音来控制多个机器,需要在每个机器内储存不同的指令,从而导致指令过多、过于繁琐,致使识别率降低。

发明内容
本发明所要解决的技术问题是提供ー种应用于家庭网络的语音识别方法,语音识别方法通过语音识别来控制由网络连接的机器,可随时输入语音,无需其他特别准备,即可通过语音识别即时准确地识别指令及非指令的其他声音,从而減少错误识别的频率,并自动适应语音者的语音;不仅如此,还可以提高特定语音者的语音识别率,同时可实现多个机器的控制指令统ー化,并提高语音识别的准确率。本发明解决上述技术问题的技术方案如下语音识别方法,包括即时接收语音输入的阶段SI ;測定上述SI阶段中所输入的所述语音的強弱及持续时间的阶段S2 ;将所述S2阶段中所測定的所述语音的強弱及持续时间与任意值相比,并按默音、弱音、强音对所述语音进行分类的阶段S3 ;根据所述S3阶段中的分类,若为默音,则计算默音的持续时间,并持续维持语音输入待机状态,若为弱音或強音,则进行语音识别处理的阶段S4 ;根据所述S4阶段进行的语音识别处理,进行制定单位语音识别处理的阶段S5 ;根据所述S5阶段的結果,决定是否对整体语音进行语音识别处理,并进行处理准备的阶段S6 ;根据所述S6阶段,若决定执行整体语音的语音识别处理,则对整体语音进行语音识别处理的阶段S7 ;根据所述S7阶段的結果,决定是否认证语音识别处理的结果,并控制机器,进行识别语音适应化的阶段S8 ;在所述S6阶段中,不对所述整体语音进行语音识别时,或根据所述S8阶段,不认证所述语音的识别结果时,则根据所述S3阶段中所決定的语音分类,若为弱音时,则转换为噪音模式,若为强音吋,则转换为拒绝模式的阶段S9。进一歩,最好还包括在所述S3阶段中,根据事先制定的強弱,可将所述语音分为三个等级,在所述S2阶段中所測定的语音音量若为最低的第一等级时,则所述语音分到默音类;若所述语音的音量属于高于所述第一等级的第二等级,且所述语音的音长为任意值吋,则所述语音分到弱音类;若所述语音的音量为最高的第三等级,且所述语音的音长满足任意值时,则所述语音分到强音类的SlO阶段。
进一歩,最好还包括在所述S5阶段的所述制定単位的语音识别处理进行的过程中,若识别关键字时,将所述关键字最末音素传向虚拟机的对数似然比与各自的声学模型对比,记忆具有最高值的声学模型的阶段S11。最好还包括在所述S6阶段中,所述语音识别结果与已存指令一致,并决定对所述整体语音进行第二次识别的阶段S12。最好还包括在所述S12阶段中,决定进行所述第二次语音识别时,将所述Sll阶段中所记忆的所述声学模型换为第二次识别模式的准备阶段S13。最好还包括在所述S13阶段中,将所述已准备的声学模型用于数据库,并进行第二次语音识别的阶段S14。最好还包括在所述S8阶段中,若所述第二次语音识别结果被认证,根据所述认证结果控制机器的阶段S15 ;及在所述S8阶段中,储存语音,并进行所储存语音的适应化作 业,更新具有发音的语音者的音色特征的声学模型的阶段S16。进一歩,最好还包括在所述S16阶段中,检查是否有具有所述语音者音色特征的数据库的阶段S17 ;及在所述S16阶段中,若未有所述音色的数据库时,在所述语音适应化的作业中,更新所述已识别的语音音色数据库的阶段S18。最好还包括在所述S17阶段中,检查所述Sll阶段中,与所述各自的声学模型对比后,是否存在具有最高值的所述声学模型的阶段S19 ;及在所述S19阶段中,若检查到在所有的声学模型中不存在具有最高值的所述声学模型吋,记录没有具有与所述SI阶段中所输入的所述语音类似音色的声学模型的阶段S20。最好还包括在所述S15阶段的所述机器控制中,将事前语音识别所设置的区域用户名记为控制区域用户名的阶段S21 ;及判断在所述S8阶段中,所认证的所述识别结果是区域选择指令还是机器控制指令的阶段S22 ;以及在所述S22阶段中,若判定为区域选择指令吋,将所述区域用户名变更记为所述控制区域用户名的阶段S23 ;及在所述S22阶段中,若判定为机器控制指令时,控制所述控制区域用户名所属区域机器的阶段S24。进一歩,最好还包括在所述S23阶段中,在变更记忆所述控制区域用户名后,在一定时间后,将所述所设置的区域用户名复原为所述控制区域用户名的阶段S25。进一歩,最好还包括在所述S9阶段中,在不认证所述S8阶段中的所述识别结果时,根据所述Sio阶段所分类的语音种类另行划分计算点,増加各种类所述计算点的阶段S26 ;及在所述S26阶段中,若各个计算点先到达所定的任意值时,识别机的状态若为所述弱音时则变更为噪音模式,若为所述強音时则变更为拒绝模式的阶段S27 ;以及在所述S4阶段中,若所述默音计算点先到达所定临限值时,变为基本模式的阶段S28。最好还包括根据所述S28阶段所变更的模式,若为拒绝模式时,拒绝除所述基本模式变换指令外的所有指令的识别,若为噪音模式时,人为地降低所输入语音的強弱,控制所述SlO阶段中的属于第二等级的噪音,若为基本模式时,进行正常识别的阶段S29 ;及在所述S8阶段的所述拒绝模式状态下,若先定的基本模式复原指令的识别被认证时,将所述语音识别机的模式变更为所述基本模式的阶段S30。本发明的有益效果是语音识别机的模式可根据周边状况进行变更,即时处理语音识别,降低对非指令语音的错误识别,在噪音环境中提高指令的识别率,可自动适应语音识别数据库中未有的语音者的音色,记录声学模型并对其进行识别,从而提高识别率,可统ー多个区域中的同种指令,減少繁多的指令,使语音识别的准确率大大提高,同时有效地减少错误识别。


图I是本发明实施方式的家庭网络系统的概述结构图;图2是本发明实施方式的语音识别方法的整体流程图;图3是图2的语音识别处理过程的详细流程图;
图4是图2的第一次识别结果处理过程的详细流程图;图5是图2的第二次识别结果处理进行过程的详细流程图;图6是图2的模式转换处理过程的详细流程图;图7是本发明实施方式的根据控制用户名变更的机器控制过程的流程图。
具体实施例方式以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。图I是本发明实施方式的家庭网络系统的概述结构图。如图I所示,本发明的语音识别家庭网络系统可在每个区域设置语音识别机器,每个语音识别机器通过有线或无线与控制照明等装置的控制机连接。控制机根据用户的操作来控制机器,分析由语音识别机所传送的指令,从而来控制机器。各区域的语音识别机具有固有的位置用户名,控制机分析上述用户名,并控制所属区域内所设置的相应语音识别机位置上的机器。图2是本发明实施方式的语音识别方法的整体流程图。如图2所示,系统开始运作后,语音识别机可即时持续地接收所输入的语音200。语音识别机将持续输入的语音201的強弱和音长与既定的任意值进行比较,并按照默音、弱音、強音三个种类进行分类202。语音识别机根据所分类的语音种类,对于默音不进行处理,对于弱音及強音进行语音识别处理。语音识别机进行识别处理时,可分为第一次识别203和第二次识别205。在进行第一次识别203后,对其识别结果进行处理204,若第一次识别203的识别结果与既定的条件相符时,则进行第二次识别205 ;若不相符,则停止识别,并转换为语音输入待机阶段200。第一次识别结果满足条件,进行第二次识别205,且根据第二次识别结果控制机器或将语音识别模式转换为基本模式206,在对语音进行分类的阶段202中,根据所分类的语音,将语音识别机的状态转换为噪音模式或拒绝模式207。图3是图2的语音识别处理过程的详细流程图。图3详细图示了对于语音输入待机200中所输入的语音,按种类分类,井根据种类判断是否进行语音识别处理的处理过程。图2中的语音识别家庭网络系统中的语音识别机可即时接收所输入的语音200,井根据语音的強弱和音长进行分类201。如图3所示,就语音种类分类处理过程进行详细说明。首先测定语音的強弱301和语音的音长302。语音识别机将所測定的语音音量及音长与既定任意值进行比较,并按默音、弱音、強音三个种类对语音进行分类303。举例说明,若所測定的语音音量未满50dB吋,将该语音种类分至默音类;若所測定的语音音量为50至60dB,语音的音长在2秒以上时,该语音分至弱音类;若语音音量在60dB以上,且音长超过2秒时,该语音分至強音类。
语音的种类分为默音、弱音、強音。根据语音的种类,若为默音则无需进行语音识别处理,在增加默音计算点306的同时,持续维持语音输入待机状态200。若所増加的默音计算点到达既定的任意值307时,语音识别机确认目前的语音识别模式,若为基本模式吋,则在默音计算点初始化310后,維持语音输入待机状态;若为噪音模式308或拒绝模式309吋,将语音识别模式变更为基本模式311,在默音计算点初始化310后,維持语音输入待机状态200。若语音的种类判断为弱音类或强音类时,在默音计算点初始化310后进行第一次识别304。图4是图2的第一次识别结果处理204过程的详细流程图。如图4所示,进行第一次识别203后,所识别的结果非拒绝词语或拒绝语句,且属于既定指令时,与在第一次识别处理中所记忆的各声学模型的对数似数比进行对比,分辨出具有最高值的声学模型402。记忆在第一次识别203中所使用的声学模型的对数似数比的过程具体如下首先在语音识别家庭网络系统开始前,在内存容量限度范围内,根据语音者的人数复制多个声学模型,并准备多个声学模型;接下来,在开始操作语音识别家庭网络系统后,在进行第一次识别203的过程中,在识别特定词语后,记忆传向虚拟机的所属模式的对数似数比。

举例来说,在语音识别过程中,在识别各词语后,经过虚拟节点(du_y node)后再扩张为其他词语。如“baobao”一 dummy 主卧”一dummy — “开灯”。在各虚拟节点上,分别计算向着各自方向的所有词语的概率值,并将具有最高概率值的词语记为识别候选对象。在此过程中,在语音识别家庭网络系统开始操作前,若复制3个声学模型并事先准备的话,在虚拟节点上则存在着自“baobao”、“baobao2”、“baobao3”的结尾音素,如“ao-b+ao”,“ao2-b2-ao2”,“ao3-b3-ao3”向着各虚拟节点的节点,并计算有关上述各节点的对数似数比,并记住此时所计算的对数似数比。第一次识别203的结果属于既定指令,如上述举例所说明的过程,在所被记忆的对数似数比中,含具有最高值的声学模型被确定402时,在第二次识别数据库中具有最高对数似数比的数据库被登入内存403。在403的过程中对登入的数据库进行第二次识别205。若第一次识别203的结果非既定指令时,语音识别机则放弃第二次识别,井清除内存,同时转换到语音输入待机状态200,进行相关作业。图5是图2的第二次识别结果处理206进行过程的详细流程图。如图5所示,在第二次识别进行的过程中,如图4所述,在第一次识别过程中所计算的各声学模型的对数似数比中,具有最高值的声学模型被登入,并用于第二次识别的数据库。如上所述,结束第二次识别后,在处理识别结果时,首先检查识别结果是否属于既定指令,并检查其是否属于拒绝词语或语句501。若识别结果属于拒绝词语或语句,在清除内存后回到语音输入待机状态200。若识别结果属于指令,则判断是否存在与语音者音色类似的数据库502。若所有的语音数据库的声学模型都一祥,则判定无与语音者音色类似的语音数据,若存在具有最高值的声学模型吋,则判定存在与语音者音色类似的语音数据。若识别结果属于指令吋,储存语音503,并使用所储存的语音,同时因在第二次识别205中进行对声学模型的适应化504,从而进ー步更新与语音者的音色近似的声学模型505。图6是图2的模式转换处理207过程的详细流程图。如图6所示,在第二次识别结果处理206阶段,判断是否认证识别结果601。若不认证识别結果,则在判别语音种类的阶段202判别所分类的语音属于弱音还是强音。若语音属于弱音,则判别语音识别机当前的模式是否为噪音模式610,若为噪音模式,则清除使用的内存,进入语音输入待机处理200阶段。若所输入的语音为弱音,但当前语音识别机的模式非噪音模式时,则增加噪音计算点611,并判别所増加的计算点是否到达既定的任意值612,若到达任意值时,则将语音识别机的状态变更为噪音状态613。若语音识别机变更为噪音模式,语音识别机调节所输入的音量,将一定音量大小的语音视为默音,并对超出上述一定音量大小的语音进行处理。另外,在第二次识别结果未被认证,且语音的种类为強 音吋,则确认当前语音识别机的模式是否为拒绝模式614。若为拒绝模式时,则清除语音识别机中所使用的内存,并进行语音输入待机处理200。若非拒绝模式时,则增加拒绝计算点615。检查所増加的拒绝计算点是否到达既定任意值616,若到达即定任意值,则将语音识别机的模式转换为拒绝模式617。当语音识别机变更为拒绝模式吋,第一次识别结果处理阶段204及第二次识别结果处理阶段中的机器控制指令则不被识别认证,同时进入拒绝阶段。第二次识别结果处理阶段206中的识别结果被认证时,如图6所示,在识别结果被认证时,确认当前语音识别机的模式是否为拒绝模式602。若为拒绝模式,检查当前所识别的指令是否为转换基本模式的指令603。若当前所识别的指令为转换基本模式的指令吋,则将当前模式变更为基本模式604,并进入语音输入待机处理阶段200。若第二次识别结果被认证,但当前模式非拒绝模式时,确认所识别的指令是机器控制指令,还是场所变换指令605,607。若为机器控制指令吋,则控制相关机器606,并回到语音输入待机处理阶段200。若为场所变换指令吋,识别作业中的语音识别机的控制区域用户名变更记到所定场所用户名上608。如上所变更的控制区域用户名经过一定时间后,再复原到设置区域的用户名上。图7是本发明实施方式的根据控制用户名变更的机器控制过程的流程图。如图7所示,在语音识别家庭网络开始启动时,在进行语音识别过程前,将所设置的区域用户名记为控制区域用户名701,例如,语音识别机上所记的控制区域用户名如表I所示进行设定。[表 I]
权利要求
1.一种应用于家庭网络的语音识别方法,其特征在于,所述语音识别方法包括即时接收语音输入的阶段Si ;测定上述SI阶段中所输入的所述语音的强弱及持续时间的阶段S2;将所述S2阶段中所测定的所述语音的强弱及持续时间与任意值相比,并按默音、弱音、强音对所述语音进行分类的阶段S3;根据所述S3阶段中的分类,若为默音,则计算默音的持续时间,并持续维持语音输入待机状态,若为弱音或强音,则进行语音识别处理的阶段S4;根据所述S4阶段进行的语音识别处理,进行制定单位语音识别处理的阶段S5;根据所述S5阶段的结果,决定是否对整体语音进行语音识别处理,并进行处理准备的阶段S6;根据所述S6阶段,若决定执行整体语音的语音识别处理,则对整体语音进行语音识别处理的阶段S7;根据所述S7阶段的结果,决定是否认证语音识别处理的结果,并控制机器,进行识别语音适应化的阶段S8;在所述S6阶段中,不对所述整体语音进行语音识别时,或根据所述S8阶段,不认证所述语音的识别结果时,则根据所述S3阶段中所决定的语音分类,若为弱音时,则转换为噪音模式,若为强音时,则转换为拒绝模式的阶段S9。
2.根据权利要求I所述的应用于家庭网络的语音识别方法,其特征在于,所述语音识别方法还包括在所述S3阶段中,根据事先制定的强弱,将所述语音分为三个等级,在所述S2阶段中所测定的语音音量若为最低的第一等级时,则所述语音分到默音类;若所述语音的音量属于高于所述第一等级的第二等级,且所述语音的音长为任意值时,则所述语音分到弱音类;若所述语音的音量为最高的第三等级,且所述语音的音长满足任意值时,则所述语音分到强音类的SlO阶段。
3.根据权利要求I所述的应用于家庭网络的语音识别方法,其特征在于,所述语音识别方法还包括在所述S5阶段的所述制定单位的语音识别处理进行的过程中,若识别关键字时,将所述关键字最末音素传向虚拟机的对数似然比与各自的声学模型对比,记忆具有最高值的声学模型的阶段Sll ;及 在所述S6阶段中,所述语音识别结果与已存指令一致,并决定对所述整体语音进行第二次识别的阶段S12 ;及 在所述S12阶段中,决定进行所述第二次语音识别时,将所述Sll阶段中所记忆的所述声学模型换为第二次识别模式的准备阶段S13 ;及 在所述S13阶段中,将所述已准备的声学模型用于数据库,并进行第二次语音识别的阶段S14。
4.根据权利要求I所述的应用于家庭网络的语音识别方法,其特征在于,所述语音识别方法还包括在所述S8阶段中,若所述第二次语音识别结果被认证,根据所述认证结果控制机器的阶段S15 ;及 在所述S8阶段中,储存所述语音,并进行所储存语音的适应化作业,更新具有发音的语音者的音色特征的声学模型的阶段S16。
5.根据权利要求4所述的应用于家庭网络的语音识别方法,其特征在于,所述语音识别方法还包括在所述S16阶段中,检查是否有具有所述语音者音色特征的数据库的阶段S17 ;及 在所述S16阶段中,若未有所述音色的数据库时,在所述语音适应化的作业中,更新所述已识别的语音音色数据库的阶段S18。
6.根据权利要求5所述的应用于家庭网络的语音识别方法,其特征在于,所述语音识别方法还包括在所述S17阶段中,检查所述Sll阶段中,与所述各自的声学模型对比后,是否存在具有最高值的所述声学模型的阶段S19;及 在所述S19阶段中,若检查到在所有的声学模型中不存在具有最高值的所述声学模型时,记录没有具有与所述SI阶段中所输入的所述语音类似音色的声学模型的阶段S20。
7.根据权利要求4所述的应用于家庭网络的语音识别方法,其特征在于,所述语音识别方法还包括在所述S15阶段的所述机器控制中,将事前语音识别机所设置的区域用户名记为控制区域用户名的阶段S21 ;及 判断在所述S8阶段中,所认证的所述识别结果是区域选择指令还是机器控制指令的阶段S22;以及在所述S22阶段中,若判定为区域选择指令时,将所述区域用户名变更记为所述控制区域用户名的阶段S23;及 在所述S22阶段中,若判定为机器控制指令时,控制所述控制区域用户名所属区域机器的阶段S24。
8.根据权利要求4所述的应用于家庭网络的语音识别方法,其特征在于,所述语音识别方法还包括在所述S23阶段中,在变更记忆所述控制区域用户名后,在一定时间后,将所述所设置的区域用户名复原为所述控制区域用户名的阶段S25。
9.根据权利要求I所述的应用于家庭网络的语音识别方法,其特征在于,所述语音识别方法还包括在所述S9阶段中,在不认证所述S8阶段中的所述识别结果时,根据所述SlO阶段所分类的语音种类另行划分计算点,增加各种类所述计算点的阶段S26;及 在所述S26阶段中,若各个计算点先到达所定的任意值时,识别机的状态若为所述弱音时则变更为噪音模式,若为所述强音时则变更为拒绝模式的阶段S27;以及在所述S4阶段中,若所述默音计算点先到达所定临限值时,变为基本模式的阶段S28。
10.根据权利要求9所述的应用于家庭网络的语音识别方法,其特征在于,所述语音识别方法还包括根据所述S28阶段所变更的模式,若为拒绝模式时,拒绝除所述基本模式变换指令外的所有指令的识别,若为噪音模式时,人为地降低所输入语音的强弱,控制所述SlO阶段中的属于第二等级的噪音,若为基本模式时,进行正常识别的阶段S29。
11.根据权利要求I所述的应用于家庭网络的语音识别方法,其特征在于,所述语音识别方法还包括在所述S8阶段的所述拒绝模式状态下,若先定的基本模式复原指令的识别被认证时,将所述语音识别机的模式变更为所述基本模式的阶段S30。
全文摘要
本发明涉及一种应用于家庭网络的语音识别方法,尤其是一种应用于家庭网络的通过语音识别机器来进行语音识别的方法。在本发明中,因语音识别机的模式可根据周边状况进行变更,即时处理语音识别,降低对非指令语音的错误识别,因此可在噪音环境中提高指令的识别率,可自动适应语音识别数据库中未有的语音者的音色,记录声学模型并对其进行识别,从而提高识别率,还可统一多个区域中的同种指令,减少过于繁多的指令,使语音识别的准确率大大提高,同时有效地减少错误识别。
文档编号G10L15/08GK102682767SQ201110065918
公开日2012年9月19日 申请日期2011年3月18日 优先权日2011年3月18日
发明者方英奎, 林东伸 申请人:株式公司Cs
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1