语音识别方法、装置及终端的制作方法

文档序号:10554000阅读:518来源:国知局
语音识别方法、装置及终端的制作方法
【专利摘要】本公开是关于一种语音识别方法、装置及终端。该方法包括:获取输入的待识别语音;根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音。应用本公开实施例的方案,能更准确识别用户的语音。
【专利说明】
语音识别方法、装置及终端
技术领域
[0001]本公开涉及移动通信技术领域,尤其涉及一种语音识别方法、装置及终端。
【背景技术】
[0002]目前,语音识别技术在现阶段得到了广泛应用,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。
[0003]为了适应用户的不同需求,语音识别技术中开始增加方言适配,例如:粵语、四川话等。但是,对于有标准发音字母结构的语种,例如普通话和英语,在语音识别系统中都是设置了默认字母标准语音,如果用户发出的语音是带地方口音的拼读方式,且口音相差很大,就会导致语音识别率极低,语音识别功能几乎失效。

【发明内容】

[0004]本公开提供了一种语音识别方法、装置及终端,能更准确识别用户的语音。
[0005]根据本公开实施例的第一方面,提供一种语音识别方法,包括:
[0006]获取输入的待识别语音;
[0007]根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
[0008]可选的,所述根据文字校准语音识别所述待识别语音,包括:
[0009]使用所述字母校准语音组成新的文字校准语音;
[0010]根据所述文字校准语音识别所述输入的待识别语音。
[0011 ]可选的,所述根据文字校准语音识别所述待识别语音,包括:
[0012]获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音;
[0013]根据所述获取的文字校准语音识别所述输入的待识别语音。
[0014]可选的,所述字母校准语音替换系统默认字母标准语音包括:
[0015]通过录制字母表所有字母的发音采集字母校准语音;
[0016]将所述采集的字母标准语音替换系统默认字母标准语音。
[0017]可选的,所述根据所述文字校准语音识别输入的待识别语音,包括:
[0018]获取所述文字校准语音和所述待识别语音的语音特征信息;
[0019]根据所述文字校准语音与所述待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。
[0020]可选的,所述语音特征信息可包括下述一项或多项:语音的音色、音高、音长和音强。
[0021 ]可选的,所述使用所述字母校准语音组成新的文字校准语音包括:
[0022]通过单个字母校准音拼读得到新的文字校准语音;或,
[0023]通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。
[0024]可选的,所述字母校准语音中的设定字母之间设置模糊近似关系。
[0025]根据本公开实施例的第二方面,提供一种语音识别装置,包括:
[0026]获取模块,用于获取输入的待识别语音;
[0027]语音识别模块,用于根据字母校准语音或文字校准语音识别所述获取模块的待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
[0028]可选的,所述语音识别模块包括:
[0029]第一识别子模块,用于使用所述字母校准语音组成新的文字校准语音,根据所述文字校准语音识别所述输入的待识别语音;或者,
[0030]第二识别子模块,用于获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音,根据所述获取的文字校准语音识别所述输入的待识别语音。
[0031]可选的,所述装置还包括:
[0032]字母语音替换模块,用于通过录制字母表所有字母的发音采集字母校准语音,将所述采集的字母标准语音替换系统默认字母标准语音。
[0033]可选的,所述语音识别模块获取所述文字校准语音和所述待识别语音的语音特征信息,根据所述文字校准语音与所述待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。
[0034]可选的,所述第一识别子模块通过单个字母校准音拼读得到新的文字校准语音或通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。
[0035]可选的,所述装置还包括:
[0036]模糊设置模块,用于在所述字母校准语音中的设定字母之间设置模糊近似关系。
[0037]根据本公开实施例的第三方面,提供一种移动终端,包括:
[0038]处理器和用于存储处理器可执行指令的存储器;
[0039]其中,所述处理器被配置为:
[0040]获取输入的待识别语音;
[0041]根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
[0042]本公开的实施例提供的技术方案可以包括以下有益效果:
[0043]本公开在获取输入的待识别语音后,可以根据字母校准语音或文字校准语音来识别所述待识别语音,其中所述字母校准语音替换了系统默认字母标准语音,这样就使得用户即使语音带有地方口音也可以被准确识别,提高语音识别能力。
[0044]进一步的,本公开还可以有两种处理方式,可以是使用所述字母校准语音组成新的文字校准语音,根据所述文字校准语音识别所述输入的待识别语音;还可以是获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音;根据所述获取的文字校准语音识别所述输入的待识别语音,因此就可以根据文字校准语音识别输入的待识别语音,这样也可以提高语音识别能力和识别效率。
[0045]进一步的,本公开可以通过录制字母表所有字母的发音作为字母校准语音。
[0046]进一步的,本公开可以根据所述文字校准语音与所述待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。
[0047]进一步的,本公开可以通过单个字母校准音拼读得到新的文字校准语音,或者通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。
[0048]进一步的,本公开可以将字母校准语音中的设定字母之间设置模糊近似关系,可以解决一些地方口音的个别字母发音相似的问题。
[0049]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
【附图说明】
[0050]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0051 ]图1是本公开根据一示例性实施例示出的一种语音识别方法的流程图。
[0052]图2是本公开根据一示例性实施例示出的另一种语音识别方法的流程图。
[0053]图3是本公开根据一示例性实施例示出的一种语音识别装置的框图。
[0054]图4是本公开根据一示例性实施例示出的另一种语音识别装置的框图。
[0055]图5是本公开根据一示例性实施例示出的一种移动终端的一结构框图。
[0056]图6是本公开根据一示例性实施例示出的一种设备的一结构框图。
【具体实施方式】
[0057]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0058]在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0059]应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
[0060]本公开提供了一种语音识别方法、装置及终端,能更准确识别用户的语音。
[0061 ]图1是本公开根据一示例性实施例示出的一种语音识别方法的流程图。
[0062]该方法可以应用于终端中,如图1所示,该方法可以包括以下步骤:
[0063]在步骤101中,获取输入的待识别语音。
[0064]在步骤102中,根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
[0065]该步骤可以使用所述字母校准语音组成新的文字校准语音,根据所述文字校准语音识别所述输入的待识别语音;或者,获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音,根据所述获取的文字校准语音识别所述输入的待识别语音。
[0066]其中,该步骤可以通过录制字母表所有字母的发音采集字母校准语音;将采集的字母标准语音替换系统默认字母标准语音。
[0067]该步骤可以获取所述文字校准语音和所述待识别语音的语音特征信息,根据所述文字校准语音与所述待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语
■~>V.曰O
[0068]该步骤使用所述字母校准语音组成新的文字校准语音可以包括:通过单个字母校准音拼读得到新的文字校准语音;或,通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。
[0069]该步骤可以获取文字校准语音和待识别语音的语音特征信息;根据文字校准语音与待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。其中,语音特征信息可包括下述一项或多项:语音的音色、音高、音长和音强。
[0070]由该实施例可见,本公开的实施例提供的技术方案可以包括以下有益效果:本公开在获取输入的待识别语音后,可以根据字母校准语音或文字校准语音来识别所述待识别语音,其中所述字母校准语音替换了系统默认字母标准语音,这样就使得用户即使语音带有地方口音也可以被准确识别,提高语音识别能力。
[0071 ]图2是本公开根据一示例性实施例示出的另一种语音识别方法流程图。
[0072]该方法可以应用于终端中,该实施例相对于图1更详细描述了本公开的技术方案。
[0073]以下结合图2详细描述技术方案。如图2所示,该方法可以包括以下步骤:
[0074]在步骤201中,采集用户将字母表所有的字母发音一一自行录制所得到的字母校准语音。
[0075]本公开将用户录制的所有字母发音称为字母校准语音。本公开提供针对标准发音字母的自行录入功能,用户将所有发音字母自行录制一遍,得到字母校准语音,后续以字母校准语音作为标准,这样可以解决有标准发音字母结构的发音的口音问题。
[0076]其中,上述字母例如可以为英文字母、中文字母或其他语言的字母等。
[0077]在步骤202中,将获取的用户录制的字母校准语音替换系统原来的默认字母标准语音。
[0078]因为系统的默认字母标准语音是很难识别带有地方口音的字母发音,因此本公开将获取的用户录制的字母校准语音替换系统原来的默认字母标准语音,这样系统设置的字母发音标准将以采集的字母校准语音作为识别标准,带有地方口音的字母发音就很容易被识别。
[0079]在步骤203中,使用字母校准语音组成新的文字校准语音。
[0080]考虑到人在朗读任何一个字或单词的发音时,都是通过单个字母发出发音或组合多个单字母并根据相应连读规则发出发音,语音识别系统也可以学习人的这种连读行为。因此本公开该步骤可以通过单个字母校准音拼读得到新的文字校准语音;或,通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。[0081 ]例如:苹果的拼音为pingguo,可以组合单个字母或字母组合p、ing、g、u、o并按照连读方式p-1ng-g-u-o来拼读,从而可得到新的文字标准语音。也就是说,语音识别系统使用用户自行录制的字母校准语音替换掉默认配置的字母标准语音后,再用相同的连读规则重新组合多个字母校准语音或直接使用单个字母校准音(例如有些是单个字母组成一个字)得到新的文字校准语音,并可以将新的文字校准语音替换系统自带的根据字母标准语音得到的文字语音。
[0082]其中,所说的连读,是指例如在英语的同一意群中,前一词以辅音音素结尾,后一词以元音音素开头,在说话或朗读句子时,习惯上很自然地将这两个音素合拼在一起读出来,这种语音现象叫连读。连读所构成的音节一般都不重读,只需顺其自然地一带而过,不可读得太重。连读规则,是指连读的习惯,例如对于“辅音+元音”型连读的情况,连读规则是如果相邻两词中的前一个词是以辅音结尾,后一个词是以元音开头,这就要将辅音与元音拼起来连读。
[0083]需说明的是,系统一般可以自带文字语音库,将一些常用单词或词汇按默认字母标准语音拼读并存储。本公开可以将系统自带的所有文字语音用字母校准语音重新拼读得到新的文字标准语首后,替换掉原来的文字语首。
[0084]在步骤204中,根据文字校准语音识别用户所说的待识别语音。
[0085]该步骤,获取文字校准语音和待识别语音的语音特征信息;根据文字校准语音与待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。其中,语音特征信息可包括下述一项或多项:语音的音色、音高、音长和音强。
[0086]需说明的是,根据语音特征信息识别输入的待识别语音,可以采用现有的识别算法进行识别,本公开不加以限定。
[0087]还需说明的是,考虑到地方口音会存在一些发音混淆的发音,本公开可以在字母校准语音中的设定字母之间设置模糊近似关系,将可能会存在发音混淆的发音关联起来,例如:设置字母发音s = sh,c = ch等。
[0088]本公开的方案,用户根据自己口音情况设置字母校准语音,将所有发音字母自行录制一遍作为字母校准语音,替换系统的字母标准语音,再用使用字母校准语音组成新的文字校准语音来识别输入的待识别语音,这样可以解决有标准发音字母结构的发音的口音问题,可以提升语音输入的识别度。
[0089]还需说明的是,本公开还可以根据字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音,然后就可以直接获取存储的文字校准语音,根据所述获取的文字校准语音识别所述输入的待识别语音。
[0090]与前述应用功能实现方法实施例相对应,本公开还提供了一种语音识别装置、终端及相应的的实施例。
[0091 ]图3是本公开根据一示例性实施例示出的一种语音识别装置的框图。
[0092]该装置可以是设置在终端中。如图3所示,在一种语音识别装置中可以包括:获取模块31、语音识别模块32。
[0093]获取模块31,用于获取输入的待识别语音。
[0094]语音识别模块32,用于根据字母校准语音或文字校准语音识别所述获取模块的待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
[0095]其中,语音识别模块32可以使用所述字母校准语音组成新的文字校准语音,根据所述文字校准语音识别所述输入的待识别语音;或者,获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音,根据所述获取的文字校准语音识别所述输入的待识别语音。
[0096]由该实施例可见,本公开在获取输入的待识别语音后,可以根据字母校准语音或文字校准语音来识别所述待识别语音,其中所述字母校准语音替换了系统默认字母标准语音,这样就使得用户即使语音带有地方口音也可以被准确识别,提高语音识别能力。
[0097]图4是本公开根据一示例性实施例示出的多方通话的装置的另一框图。
[0098]该装置可以是设置在终端中。如图4所示,在一种语音识别装置中可以包括:获取模块31、语音识别模块32、字母语音替换模块33、模糊设置模块34。
[0099 ]获取模块31、语音识别模块32的功能可参见图3中的描述。
[0100]其中,语音识别模块32可以包括:第一识别子模块321或第二识别子模块322。
[0101]第一识别子模块321,用于使用所述字母校准语音组成新的文字校准语音,根据所述文字校准语音识别所述输入的待识别语音。
[0102]第二识别子模块322,用于获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音,根据所述获取的文字校准语音识别所述输入的待识别语音。
[0103]其中,根据文字校准语音识别输入的待识别语音可以包括:获取文字校准语音和待识别语音的语音特征信息;根据文字校准语音与待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。其中,语音特征信息可包括下述一项或多项:语音的音色、音高、音长和音强。
[0104]其中,所述装置还可以包括:字母语音替换模块33。
[0105]字母语音替换模块33,用于通过录制字母表所有字母的发音采集字母校准语音,将所述采集的字母标准语音替换系统默认字母标准语音。因为系统的默认字母标准语音是很难识别带有地方口音的字母发音,因此本公开将获取的用户录制的字母校准语音替换系统原来的默认字母标准语音,这样系统设置的字母发音标准将以采集的字母校准语音作为识别标准,带有地方口音的字母发音就很容易被识别。
[0106]其中,所述语音识别模块32获取所述文字校准语音和所述待识别语音的语音特征信息,根据所述文字校准语音与所述待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语音。
[0107]其中,所述第一识别子模块321通过单个字母校准音拼读得到新的文字校准语音或通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。
[0108]其中,所述装置还可以包括:模糊设置模块34。
[0109]模糊设置模块34,用于在字母校准语音中的设定字母之间设置模糊近似关系。考虑到地方口音会存在一些发音混淆的发音,本公开可以在字母校准语音中的设定字母之间设置模糊近似关系,将可能会存在发音混淆的发音关联起来,例如:设置字母发音s = sh,c=ch 等。
[0110]因此,本公开的方案,用户根据自己口音情况设置字母校准语音,将所有发音字母自行录制一遍作为字母校准语音,替换系统的字母标准语音,再用使用字母校准语音组成新的文字校准语音来识别输入的待识别语音,这样可以解决有标准发音字母结构的发音的口音问题,可以提升语音输入的识别度。
[0111]上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0112]对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0113]图5是本公开根据一示例性实施例示出的一种框图。
[0114]如图5所示,包括:处理器501和用于存储处理器可执行指令的存储器502;
[0115]其中,处理器501被配置为:
[0116]获取输入的待识别语音;
[0117]根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
[0118]还需说明的是,存储器502存储的其他程序,具体参见前面方法流程中的描述,此处不再赘述,处理器501还用于执行存储器502存储的其他程序。
[0119]图6是本公开根据一示例性实施例示出的一种设备的一结构框图。
[0120]例如,设备600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0121]参照图6,设备600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口 612,传感器组件614,以及通信组件616。
[0122]处理组件602通常控制设备600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
[0123]存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在设备600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
[0124]电源组件606为设备600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为设备600生成、管理和分配电力相关联的组件。
[0125]多媒体组件608包括在设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0126]音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当设备600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
[0127]I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0128]传感器组件614包括一个或多个传感器,用于为设备600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如组件为设备600的显示器和小键盘,传感器组件614还可以检测设备600或设备600—个组件的位置改变,用户与设备600接触的存在或不存在,设备600方位或加速/减速和设备600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0129]通信组件616被配置为便于设备600和其他设备之间有线或无线方式的通信。设备600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
[0130]在示例性实施例中,设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0131]在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由设备600的处理器620执行以完成上述方法。例如,非临时性计算机可读存储介质可以是R0M、随机存取存储器(RAM)、⑶-R0M、磁带、软盘和光数据存储设备等。
[0132]—种非临时性计算机可读存储介质,当存储介质中的指令由终端设备的处理器执行时,使得终端能够执行语音识别方法,方法包括:
[0133]获取输入的待识别语音;
[0134]根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
[0135]本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0136]应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
【主权项】
1.一种语音识别方法,其特征在于,包括: 获取输入的待识别语音; 根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音。2.根据权利要求1所述的方法,其特征在于,所述根据文字校准语音识别所述待识别语首,包括: 使用所述字母校准语音组成新的文字校准语音; 根据所述文字校准语音识别所述输入的待识别语音。3.根据权利要求1所述的方法,其特征在于,所述根据文字校准语音识别所述待识别语音,包括: 获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音; 根据所述获取的文字校准语音识别所述输入的待识别语音。4.根据权利要求1所述的方法,其特征在于,所述字母校准语音替换系统默认字母标准语音包括: 通过录制字母表所有字母的发音采集字母校准语音; 将所述采集的字母标准语音替换系统默认字母标准语音。5.根据权利要求1所述的方法,其特征在于,所述根据所述文字校准语音识别输入的待识别语音,包括: 获取所述文字校准语音和所述待识别语音的语音特征信息; 根据所述文字校准语音与所述待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语首。6.根据权利要求5所述的方法,其特征在于,所述语音特征信息可包括下述一项或多项:语音的音色、音高、音长和音强。7.根据权利要求2所述的方法,其特征在于,所述使用所述字母校准语音组成新的文字校准语音包括: 通过单个字母校准音拼读得到新的文字校准语音;或, 通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。8.根据权利要求1至7任一项所述的方法,其特征在于: 所述字母校准语音中的设定字母之间设置模糊近似关系。9.一种语音识别装置,其特征在于,包括: 获取模块,用于获取输入的待识别语音; 语音识别模块,用于根据字母校准语音或文字校准语音识别所述获取模块的待识别语音,其中所述字母校准语音替换系统默认字母标准语音。10.根据权利要求9所述的语音识别装置,其特征在于,所述语音识别模块包括: 第一识别子模块,用于使用所述字母校准语音组成新的文字校准语音,根据所述文字校准语音识别所述输入的待识别语音;或者, 第二识别子模块,用于获取存储的文字校准语音,其中所述存储的文字校准语音是根据所述字母校准语音识别出历史待识别语音后,由识别出的语音组成的新的文字校准语音,根据所述获取的文字校准语音识别所述输入的待识别语音。11.根据权利要求9所述的装置,其特征在于,还包括: 字母语音替换模块,用于通过录制字母表所有字母的发音采集字母校准语音,将所述采集的字母标准语音替换系统默认字母标准语音。12.根据权利要求9所述的装置,其特征在于: 所述语音识别模块获取所述文字校准语音和所述待识别语音的语音特征信息,根据所述文字校准语音与所述待识别语音的语音特征信息之间的匹配关系,识别输入的待识别语■~>V.曰O13.根据权利要求10所述的装置,其特征在于: 所述第一识别子模块通过单个字母校准音拼读得到新的文字校准语音或通过组合多个字母校准语音并按照连读规则拼读得到新的文字校准语音。14.根据权利要求9至13任一项所述的装置,其特征在于,所述装置还包括: 模糊设置模块,用于在所述字母校准语音中的设定字母之间设置模糊近似关系。15.一种移动终端,其特征在于,包括: 处理器和用于存储处理器可执行指令的存储器; 其中,所述处理器被配置为: 获取输入的待识别语音; 根据字母校准语音或文字校准语音识别所述待识别语音,其中所述字母校准语音替换系统默认字母标准语音。
【文档编号】G10L15/02GK105913841SQ201610509372
【公开日】2016年8月31日
【申请日】2016年6月30日
【发明人】伍亮雄, 刘鸣, 王乐
【申请人】北京小米移动软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1