一种语音识别的方法、装置的制作方法

文档序号:2834967阅读:207来源:国知局
专利名称:一种语音识别的方法、装置的制作方法
一种语音识别的方法、装置技术领域
本发明实施例涉及语音处理技术领域,尤其涉及一种语音识别的方法及装置。
背景技术
用户在手机等终端设备上一般使用语音助手软件用来进行语音识别。用语音助手 等软件进行语音识别的过程为,用户开启语音助手软件,获取语音数据;语音数据送到降噪 模块进行降噪处理;降噪处理后的语音数据送给语音识别引擎;语音识别引擎返回识别结 果给语音助手;语音助手为减少误判,根据置信度阈值判断识别结果的正确性,然后呈现。
目前,语音助手类软件通常是在办公室等安静环境下使用效果相对较好,但在噪 声环境下(如车载环境下)的使用效果不佳;业界普遍采用软件降噪的方法来提升语音识 别率,但提升效果并不明显,有时甚至会降低识别率。发明内容
本技术方案提供一种语音识别的方法和装置,用以提升语音识别率,同时提升用 户感受。
第一方面,提供一种语音识别的方法所述方法包括获取语音数据;根据所述语 音数据,获取第一置信度值;根据所述语音数据,获取噪声场景;根据所述第一置信度值, 获取与所述噪声场景对应的第二置信度值;如果所述第二置信度值大于或者等于预先存储 的置信度阈值,则处理所述语音数据。
结合第一方面,在第一方面的第一种可能的实现方式中,所述噪声场景具体包括 噪声类型;噪声大小。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式 中,所述噪声场景包括噪声类型,所述根据语音数据获取噪声场景,具体包括根据所述语 音数据,获取所述语音数据中的噪声的频率倒谱系数;根据所述噪声的频率倒谱系数和预 先建立的噪声类型模型,获取所述语音数据的噪声类型。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式 中,所述噪声类型模型的建立方法具体包括获取噪声数据;根据所述噪声数据,获取所述 噪声数据的频率倒谱系数;根据EM算法处理所述频率倒谱系数,建立所述噪声类型模型。
结合第一方面的第三种可能的实现方式或者第一方面的第二种可能的实现方式, 在第一方面的第四种可能的实现方式中,所述噪声类型模型是,高斯混合模型。
结合第一方面的第一种可能的实现方式,在第一方面的第六种可能的实现方式 中,所述噪声场景包括噪声大小,所述根据语音数据获取噪声场景,具体包括根据所述语 音数据,获取所述语音数据的特征参数;根据所述特征参数,进行语音激活检测;根据所述 语音激活检测的结果,获取所述噪声大小。
结合第一方面的第一种可能的实现方式或者第一方面的第二种可能的实现方式 或者第一方面的第三种可能的实现方式或者第一方面的第四种可能的实现方式或者第一方面的第五种可能的实现方式或者,在第一方面的第六种可能的实现方式中,所述噪声大 小具体包括信噪比;述噪声能量水平。
结合第一方面或者第一方面的第一种可能的实现方式或者第一方面的第二种可 能的实现方式或者第一方面的第三种可能的实现方式或者第一方面的第四种可能的实现 方式或者第一方面的第五种可能的实现方式或者第一方面的第六种可能的实现方式或者, 在第一方面的第七种可能的实现方式中,所述根据第一置信度值,获取与所述噪声场景对 应的第二置信度值,具体包括根据所述噪声场景和预先存储的置信度值调整值的经验数 据的对应关系,获取与所述噪声场景对应的置信度值调整值;根据所述置信度值调整值, 调整所述第一置信度值,获取所述第二置信度值;其中,所述调整包括调大、调小、保持不 变。
结合第一方面或者第一方面的第一种可能的实现方式或者第一方面的第二种可 能的实现方式或者第一方面的第三种可能的实现方式或者第一方面的第四种可能的实现 方式或者第一方面的第五种可能的实现方式或者第一方面的第六种可能的实现方式或者 第一方面的第七种可能的实现方式或者,在第一方面的第八种可能的实现方式中,如果所 述第二置信度值小于所述置信度阈值,则提示用户。
第二方面,提供一种语音识别装置,其特征在于,所述装置包括获取单元,用于获 取语音数据;并根据所述语音数据获取第一置信度值第一置信度值单元,用于接收所述获 取单元获取的所述语音数据,并根据所述语音数据获取第一置信度值;噪声场景单元,用于 接收所述获取单元获取的所述语音数据,并根据所述语音数据获取噪声场景;第二置信度 值单元,用于接收所述噪声场景单元的所述噪声场景和所述第一置信度值单元的所述第一 置信度值,并根据所述第一置信度值,获取与所述噪声场景对应的第二置信度值;处理单 元,用于接收所述第二置信度值单元获取的所述第二置信度值,如果所述第二置信度值大 于或者等于预先存储的置信度阈值,则处理所述语音数据。第二置信度值单元如果所述第 二置信度值大于或者等于预先存储的置信度阈值
结合第二方面,在第二方面的第一种可能的实现方式中,所述装置还包括建模单 元,用于获取噪声数据,根据所述噪声数据,获取所述噪声数据的频率倒谱系数,根据EM算 法处理所述频率倒谱系数,建立噪声类型模型。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式 中,所述噪声场景单元具体包括噪声类型单元,用于根据所述获取单元的所述语音数据, 获取所述语音数据中的噪声的频率倒谱系数,根据所述噪声的频率倒谱系数和所述建模单 元的所述噪声类型模型,获取所述语音数据的噪声类型。
结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可 能的实现方式,在第二方面的第三种可能的实现方式中,所述噪声场景单元还包括噪声大 小单元,用于根据所述获取单元的语音数据,获取所述语音数据的特征参数,根据所述特征 参数,进行语音激活检测;根据所述语音激活检测的结果,获取所述噪声大小。
结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可 能的实现方式或者第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方 式中,所述装置还包括存储单元,用于存储的置信度阈值和置信度值调整值的经验数据。。
结合者第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式中,所述第二置信度值单元,具体用于,
根据所述噪声场景和所述经验数据的对应关系,获取与所述噪声场景对应的置信 度值调整值;
根据所述置信度值调整值,调整所述第一置信度值,获取所述第二置信度值;
其中,所述调整包括调大、调小、保持不变。
置信度值调整值的经验数据根据所述第一置信度值,获取与所述噪声场景对应的 第二置信度值第三方面,提供移动终端,包括处理器、麦克风,其特征在于,所述麦克风,用 于获取语音数据;所述处理器,用于根据所述语音数据,获取第一置信度值,根据所述语音 数据,获取噪声场景,根据所述第一置信度值,获取与所述噪声场景对应的第二置信度值, 如果所述第二置信度值大于或者等于预先存储的置信度阈值,则处理所述语音数据。
结合第三方面,在第二方面的第一种可能的实现方式中所述移动终端还包括存 储器,用于存储置信度值调整值的经验数据和所述置信度阈值。
结合第三方面的第一种可能的实现方式,在第三方面的第二种可能的实现方式 中,所述处理器具体用于,根据所述语音数据,获取第一置信度值;根据所述语音数据,获取 噪声场景;根据所述噪声场景和所述经验数据的对应关系,获取与所述噪声场景对应的置 信度值调整值;根据所述置信度值调整值,调整所述第一置信度值,获取所述第二置信度 值;如果所述第二置信度值大于或者等于所述置信度阈值,则处理所述语音数据。
本发明技术方案提供了一种语音识别的方法以及装置,该方法和装置,通过获取 噪声场景,并根据预先存储的置信度值调整值的经验数据和所述噪声场景,获取第二置信 度值。这种根据噪声场景,灵活调整置信度值的方法和装置,大大提升了噪声环境下的语音 识别率。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例, 对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获 取其他的附图。
图1为本发明实施例1提供的一种语音识别的方法流程图2为本发明实施例1提供的一种语音识别的方法的另一种实现方式的流程图
图3为本发明实施例2提供的一种语音识别的方法的另一种实现方式的流程图
图4为本发明实施例2提供的一种语音识别的方法的另一种实现方式的流程图
图5为本发明实施例4提供的一种语音识别装置的结构示意图6为本发明实施例4提供的一种语音识别装置的另一种可能的结构示意图
图7为本发明实施例4提供的一种语音识别装置的另一种可能的结构示意图
图8为本发明实施例4提供的一种语音识别装置的另一种可能的结构示意图
图9为本发明实施例5提供的一种移动终端的结构示意图10为本发明实施例5提供的一种移动终端的另一种可能的结构不意图11为本发明实施例提供的手机的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人 员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明实施例保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制 本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该” 也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语 “和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。进一步应当 理解,本文中采用的术语“包括”规定了所述的特征、整体、步骤、操作、元件和/或部件的存 在,而不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或它们的组的存在或 附加。
在本发明实施例中,装置包括但不限于手机、个人数字助理(Personal Digital Assistant, PDA)、平板电脑、便携设备(例如,便携式计算机)车载设备,ATM机(Automatic Teller Machine,自动柜员机)等设备,本发明实施例并不限定。
实施例1
图1为本发明实施例1提供的一种语音识别的方法流程图。
如图1所示,本发明实施例1提供一种语音识别的方法具体可以包括
S100,获取语音数据;
用户开启装置上的语音助手等语音识别类软件,通过麦克风获取用户输入的语音 数据。应当理解的是,所述语音数据也可以不是用户输入的,也可以是机器输入的,包括任 何包含信息的数据。
S101,根据所述语音数据,获取第一置信度值。该第一置信度值是指特定个体对 待特定命题真实性相信的程度。在本发明实施例中,是装置等对该语音数据识别结果的真 实性相信的程度。即,该第一置信度值用来表示语音识别结果的可信程度的数值。举例来 说,用户输入的语音数据为“给张三打电话”,则在该语音数据识别过程中,返回的第一置信 度值包含句置信度NI (“给张三打电话”的总体置信度),前置命令词置信度N2 (“给”为 前置命令词,即“给”的置信度值为N2),人名置信度N3 (“张三”为人名,即“张三”的置信 度值为N3),后置命令词置信度N4( “打电话”为后置命令词,即“打电话”的置信度为N4) ο 通常,句置信度NI是由N2、N3、N4综合得到的。在某次实验中,经测试得到,用户输入“给 张三打电话”该语音数据的第一置信度值分别为Nl=62,N2=50, N3=48, N4=80。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述各种置信度 值,但这些置信度值不应限于这些术语。这些术语仅用来将置信度值彼此区分开。例如,在 不脱离本发明实施例范围的情况下,第一置信度值也可以被称为第二置信度值,类似地,第 二置信度值也可以被称为第一置信度值。并且该第一置信度值和第二置信度值都是置信度 值。
S102,根据所述语音数据,获取噪声场景;
根据用户输入的语音数据,获取噪声场景。所述噪声场景是用户输入语音数据时所处的噪声状态。即可以理解为,用户是在马路上的噪声环境,还是在办公室的噪声环境或 者是在车载的噪声环境中输入该语音数据,以及用户所处的相应环境中噪声是大还是小。
应当理解的是,所述步骤S102可以在步骤SlOl之前,所述步骤S102也可以在步 骤SlOl之后,或者所述步骤S102可以和步骤SlOl同时执行,本发明实施例对此不做限制
S103,根据所述第一置信度值,获取与所述噪声场景对应的第二置信度值。
该第二置信度值是根据所述获取的第一置信度值获取的。该第二置信度值不是根 据用户输入的语音数据直接得到的,而是根据该第一置信度值获得的。在获取该语音数据 所处的噪声场景之后,可以根据所述第一置信度值,获取与所述噪声场景对应的第二置信 度值。
S104,如果所述第二置信度值大于或者等于预先存储的置信度阈值,则处理所述 语音数据;
该预先存储的置信度阈值作为第二置信度值是否可接受的评价指标,如第二置信 度值大于此置信度阈值,则认为识别结果正确,如果第二置信度值小于此置信度阈值,则认 为识别结果错误,结果是不可相信的。
如果所述第二置信度值大于或者等于预先存储的置信度阈值,则认为该语音数据 识别的结果是正确的,即处理相应的语音数据。举例来说,如步骤S103中获取的第二置信 度值N3=48,步骤S104中预先存储的置信度阈值步骤S104中预先存储的置信度阈值=40, 则所述第二置信度值大于所述置信度阈值,该语音数据识别结果是正确的。进一步举例说 明,当该语音数据是“打电话给张三” “发短信给张三” “打开应用程序”等包含命令词的语 音数据时,该语音识别属于命令词识别,则所述装置执行相应命令,如打电话、发短信、打开 应用程序等操作。如果该语音数据识别属于文本听写识别,则显示识别结果文本。即如果 所述第二置信度值大于或者等于预先存储的置信度阈值,则处理所述语音数据。
本发明技术方案提供了一种语音识别的方法,该方法通过获取噪声场景,并根据 预先存储的置信度值调整值的经验数据和所述噪声场景,获取第二置信度值。这种根据噪 声场景,灵活调整置信度值的方法,大大提升了噪声环境下的语音识别率。
可选的,
图2为本发明实施例1提供的一种语音识别的方法的另一种实现方式的流程图。
如图2所示,所述方法还包括
S1041,如果所述第二置信度值小于所述置信度阈值,则提示用户。
如果所述第二置信度值小于所述置信度阈值,则认为该语音数据识别结果是错误 的,则提示用户。举例来说,如步骤S103中获取的第二置信度值N3=48,步骤S104中预先存 储的置信度阈值=50,则所述第二置信度值小于所述置信度阈值,所述语音数据识别结果是 错误的。进一步举例说明,当该语音数据是“给张三打电话”时,则装置判断该语音数据的 识别结果错误,系统提示用户重新说一遍和/或者告知用户错误。即,如果所述第二置信度 值小于所述置信度阈值,则提示用户重新输入或者纠正错误等。
本发明技术方案提供了一种语音识别的方法,该方法通过获取噪声场景,并根据 预先存储的置信度值调整值的经验数据和所述噪声场景,获取第二置信度值。这种根据噪 声场景,灵活调整置信度值的方法,大大提升了噪声环境下的语音识别率。
实施例2
图3为本发明实施例2提供的一种语音识别的方法的另一种实现方式的流程图。
本发明实施例2是在本发明实施例1的基础之上进行描述的。如图3所示,在实施例I中的步骤S102中,所述噪声场景具体包括噪声类型;噪声大小。
该噪声类型是指用户输入语音数据时所处的噪声环境,即可以理解为用户是在马路上的噪声环境,还是在办公室的噪声环境或者是在车载的噪声环境。
该噪声大小表示用户输入语音数据该时所处噪声环境中噪声的大小。可选的,该噪声大小包括信噪比和噪声能量水平。该信噪比是语音数据与噪声数据功率的比值,常常用分贝数表示,一般信噪比越高表明噪声数据功率越小,否则则相反。该噪声能量水平是用来反应用户语音数据中噪声数据能量的大小。信噪比和噪声能量水平结合起来,表示该噪声大小。
所述噪声场景包括噪声类型,在实施例1中的步骤S102,所述根据语音数据获取噪声场景,具体包括
S1021,根据所述语音数据,获取所述语音数据中的噪声的频率倒谱系数;
根据用户输入的语音数据,通过语音激活检测(Voice activity detection, VAD) 判断语音数据帧和噪声数据帧,在获取噪声数据帧之后,获取该噪声数据帧的频率倒谱系数。Mel (美尔)是主观音高的单位,而Hz (赫兹)则是客观音高的单位,Mel频率是基于人耳听觉特性提出的,它与Hz频率成非线性对应关系。频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)是Mel频率上的倒谱系数,具有良好的识别性能,被广泛应用于语音识别、声纹识别、语种识别等领域。
S1022,根据所述噪声的频率倒谱系数和预先建立的噪声类型模型,获取所述语音数据的噪声类型。
将该频率倒谱系数分别代入预先建立的每一个噪声类型模型中进行计算,如果某一噪声类型模型的计算结果值最大,则认为用户输入该语音数据时处于该噪声类型的环境中,即获取该语音数据的噪声类型。
在步骤S1022中的该预先建立的噪声类型模型是高斯混合模型。
高斯密度函数估计是一种参数化模型,有单高斯模型(Single GaussianModel, SGM)和高斯混合模型(Gaussian mixture model, GMM)两类。高斯模型是一种有效的聚类模型,它根据高斯概率密度函数参数的不同,每一个已经建立的高斯模型可以看作一种类别,输入一个样本X,即可通过高斯概率密度函数计算其值,然后通过一个阈值来判断该样本是否属于已经建立的该高斯模型。由于GMM具有多个模型,划分更为精细,适用于复杂对象的划分,广泛应用于复杂对象建模,例如语音识别中利用GMM对不同噪声类型的分类和建模。
在本发明实施例中,某一噪声类型的GMM建立的过程可以是,输入多组同一类型噪声数据,根据所述噪声数据反复训练GMM模型,并最终获得该噪声类型的GMM。
高斯混合模型可用下式表达
p(x) = Σili iN(x; PiJi),其中,Sli1Wi= 1
其中,高斯模型Ν(χ ;μ,Σ )可用下式表达
N(χ; μ, Σ) = -J== exp [-^ (χ- μ)τΣ—Hx - μ)
其中,N为GMM模型的混合度,即由N个高斯模型组合而成,ai为第i个高斯模型的权值,μ为均值,Σ为协方差矩阵。理论上,空间中的任意形状都可以使用一个GMM模型来建模。由于高斯模型的输出是1个0-1之间的小数,为了便于计算,一般会对结果进行取自然对数(ln),从而变成小于0的浮点数。
在步骤S1022中的该预先建立的噪声类型模型的建立方法包括
获取噪声数据。获取多组同一类型噪声,如,车载噪声,街道噪声,办公室噪声等, 的噪声数据。用于建立该种类型噪声数据的GMM,即该种噪声数据的噪声类型模型。应当理解的是,本发明还可以获得其他种类的噪声数据,并针对每一种类型噪声数据建立相应的噪声类型模型,本发明实施例对此不做限制。
根据所述噪声数据,获取所述噪声数据的频率倒谱系数。从该噪声数据中,提取该噪声的频率倒谱系数。Mel (美尔)是主观音高的单位,而Hz (赫兹)则是客观音高的单位, Mel频率是基于人耳听觉特性提出的,它与Hz频率成非线性对应关系。频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)是Mel频率上的倒谱系数,具有良好的识别性能, 被广泛应用于语音识别、声纹识别、语种识别等领域。
根据EM算法处理所述频率倒谱系数,建立所述噪声类型模型。EM算法 (Expectation-maximization algorithm,最大期望算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。在统计计算中,最大期望(EM)算法是在GMM中寻找参数最大似然估计或者最大后验估计的算法,其中GMM依赖于无法观测的隐藏变量(Latent Variable)。
EM算法经过两个步骤交替进行计算第一步是计算期望(E),估计未知参数的期望值,给出当前的参数估计。;第二步是最大化(M),重新估计分布参数,以使得数据的似然性最大,给出未知变量的期望估计。总体来说,EM的算法流程如下1,初始化分布参数;2, 重复直到收敛。简单说来EM算法就是,假设我们估计知道A和B两个参数,在开始状态下二者都是未知的,并且知道了 A的信息就可以得到B的信息,反过来知道了 B也就得到了 A。 可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A 的取值,这个过程一直持续到收敛为止。EM算法可以从非完整数据集中对参数进行最大可能性估计,是一种非常简单实用的学习算法。通过交替使用E和M这两个个步骤,EM算法逐步改进模型的参数,使参数和训练样本的似然概率逐渐增大,最后终止于一个极大点。直观地理解EM算法,它也可被看作为一个逐次逼近算法事先并不知道模型的参数,可以随机的选择一套参数或者事先粗略地给定某个初始参数,确定出对应于这组参数的最可能的状态,计算每个训练样本的可能结果的概率,在当前的状态下再由样本对参数修正,重新估计参数,并在新的参数下重新确定模型的状态,这样,通过多次的迭代,循环直至某个收敛条件满足为止,就可以使得模型的参数逐渐逼近真实参数。
将获取的频率倒谱系数代入EM算法进行训练,通过训练过程,获取高斯混合模型中的N、Qi, μ、Σ等参数,根据这些参数和
权利要求
1.一种语音识别方法,其特征在于,所述方法包括获取语音数据;根据所述语音数据,获取第一置信度值;根据所述语音数据,获取噪声场景;根据所述第一置信度值,获取与所述噪声场景对应的第二置信度值;如果所述第二置信度值大于或者等于预先存储的置信度阈值,则处理所述语音数据。
2.根据权利要求1所述的方法,其特征在于,所述噪声场景具体包括噪声类型;噪声大小。
3.根据权利要求2所述的方法,其特征在于,所述噪声场景包括噪声类型,所述根据语音数据获取噪声场景,具体包括根据所述语音数据,获取所述语音数据中的噪声的频率倒谱系数;根据所述噪声的频率倒谱系数和预先建立的噪声类型模型,获取所述语音数据的噪声类型。
4.根据权利要求3所述的方法,其特征在于,所述噪声类型模型的建立方法具体包括: 获取噪声数据;根据所述噪声数据,获取所述噪声数据的频率倒谱系数;根据EM算法处理所述频率倒谱系数,建立所述噪声类型模型。
5.根据权利要求3或4所述的方法,其特征在于,所述噪声类型模型是,高斯混合模型。
6.根据权利要求2所述的方法,其特征在于,所述噪声场景包括噪声大小,所述根据语音数据获取噪声场景,具体包括根据所述语音数据,获取所述语音数据的特征参数;根据所述特征参数,进行语音激活检测;根据所述语音激活检测的结果,获取所述噪声大小。
7.根据权利要求2或者6所述的方法,其特征在于,所述噪声大小具体包括信噪比;噪声能量水平。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述根据第一置信度值,获取与所述噪声场景对应的第二置信度值,具体包括根据所述噪声场景和预先存储的置信度值调整值的经验数据的对应关系,获取与所述噪声场景对应的置信度值调整值;根据所述置信度值调整值,调整所述第一置信度值,获取所述第二置信度值;其中,所述调整包括调大、调小、保持不变。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述方法还包括如果所述第二置信度值小于所述置信度阈值,则提示用户。
10.一种语音识别装置,其特征在于,所述装置包括获取单元,用于获取语音数据;第一置信度值单元,用于接收所述获取单元获取的所述语音数据,并根据所述语音数据获取第一置信度值;噪声场景单元,用于接收所述获取单元获取的所述语音数据,并根据所述语音数据获取噪声场景;第二置信度值单元,用于接收所述噪声场景单元的所述噪声场景和所述第一置信度值单元的所述第一置信度值,并根据所述第一置信度值,获取与所述噪声场景对应的第二置信度值;处理单元,用于接收所述第二置信度值单元获取的所述第二置信度值,如果所述第二置信度值大于或者等于预先存储的置信度阈值,则处理所述语音数据。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括建模单元,用于获取噪声数据,根据所述噪声数据,获取所述噪声数据的频率倒谱系数,根据EM算法处理所述频率倒谱系数,建立噪声类型模型。
12.根据权利要求11所述的装置,其特征在于,所述噪声场景单元具体包括噪声类型单元,用于根据所述获取单元的所述语音数据,获取所述语音数据中的噪声的频率倒谱系数,根据所述噪声的频率倒谱系数和所述建模单元的所述噪声类型模型,获取所述语音数据的噪声类型。
13.根据权利要求10至12任一项所述的方法,其特征在于,所述噪声场景单元还包括噪声大小单元,用于根据所述获取单元的语音数据,获取所述语音数据的特征参数,根据所述特征参数,进行语音激活检测,根据所述语音激活检测的结果,获取所述噪声大小。
14.根据权利要求10至13任一项所述的方法,其特征在于,所述装置还包括存储单元,用于存储的置信度阈值和置信度值调整值的经验数据。
15.根据权利要求14所述的方法,其特征在于,所述第二置信度值单元具体用于,根据所述噪声场景和所述经验数据的对应关系,获取与所述噪声场景对应的置信度值调整值;根据所述置信度值调整值,调整所述第一置信度值,获取所述第二置信度值;其中,所述调整包括调大、调小、保持不变。
16.一种移动终端,包括处理器、麦克风,其特征在于,所述麦克风,用于获取语音数据;所述处理器,用于根据所述语音数据,获取第一置信度值,根据所述语音数据,获取噪声场景,根据所述第一置信度值,获取与所述噪声场景对应的第二置信度值,如果所述第二置信度值大于或者等于预先存储的置信度阈值,则处理所述语音数据。
17.根据权利要求16所述的移动终端,其特征在于,所述移动终端还包括存储器,用于存储置信度值调整值的经验数据和所述置信度阈值。
18.根据权利要求17所述的移动终端,其特征在于,所述处理器具体用于,根据所述语音数据,获取第一置信度值;根据所述语音数据,获取噪声场景;根据所述噪声场景和所述经验数据的对应关系,获取与所述噪声场景对应的置信度值调整值;根据所述置信度值调整值,调整所述第一置信度值,获取所述第二置信度值;如果所述第二置信度值大于或者等于所述置信度阈值,则处理所述语音数据。
全文摘要
本发明实施例提供一种语音识别的方法,包括获取语音数据;根据所述语音数据,获取第一置信度值;根据所述语音数据,获取噪声场景;根据所述第一置信度值,获取与所述噪声场景对应的第二置信度值;如果所述第二置信度值大于或者等于预先存储的置信度阈值,则处理所述语音数据。以及一种装置。这种根据噪声场景,灵活调整置信度值的方法和装置,大大提升了噪声环境下的语音识别率。
文档编号G10L21/02GK103065631SQ20131002732
公开日2013年4月24日 申请日期2013年1月24日 优先权日2013年1月24日
发明者蒋洪睿, 王细勇, 梁俊斌, 郑伟军, 周均扬 申请人:华为终端有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1