处理语音识别的稀疏表示特征的方法和系统的制作方法

文档序号：2835912阅读：588来源：国知局

专利名称：处理语音识别的稀疏表示特征的方法和系统的制作方法
技术领域：
本发明一般地涉及语音识别，更具体地说，涉及用于生成和使用稀疏表示特征提高语音识别性能的技术。
背景技术：
众所周知，高斯混合模型(GMM) —直以来非常广泛地用于语音识别类问题。尽管 GMM允许快速的模型训练和评分，但是训练样本被汇集在一起进行参数估计，从而导致个别训练样本中存在的信息丢失。另一方面，基于样例的技术使用与实际训练实例有关的信息。尽管基于样例的方法已被证实较之GMM提升了分类任务的准确性，但是对于识别任务而言并非如此。如公知的，语音分类是将语音信号分类为先验已知的给定类别或类型集合中的给定类别或类型的任务，而语音识别是对语音信号进行解码以生成识别结果的任务。应该理解，尽管可以在语音识别任务中执行语音分类，但是在这种情况下，通常无法先验地获知类别或类型。

发明内容
本发明的原理提供了用于生成和使用稀疏表示特征提高语音识别性能的技术。具体地说，本发明的原理提供了基于稀疏表示样例的识别技术。例如，在一个方面中，一种方法包括以下步骤。获取与语音识别系统关联的测试向量和训练数据集。选择所述训练数据集的子集。将所述测试向量与所述训练数据集的选定子集一起映射为由稀疏约束加权的线性组合以便形成新的测试特征集，其中由于所述稀疏约束而使所述训练数据集移动到更靠近所述测试向量。针对所述新的测试特征集训练声学模型。针对所述新的测试特征集训练的声学模型可用于对输入所述语音识别系统的用户语音进行解码。有利地，通过使训练数据集受稀疏约束的影响而移动到更靠近测试向量，提高了语音识别性能，例如，帧准确性、字错误率等。当结合附图阅读本发明的示例性实施例的以下详细描述之后，本发明的这些和其他目标、特征和优点将变得显而易见。

图IA示出根据本发明的一个实施例的稀疏表示训练系统；图IB示出根据本发明的一个实施例的语音识别系统；图2示出根据本发明的一个实施例的基于稀疏表示样例的训练方法；图3示出用于实现根据本发明的一个或多个实施例的一个或多个步骤和/或组件的计算机系统。
具体实施方式
在此将在用于提供语音识别功能的方法、装置、制品和系统的示例性实施例的上下文中描述本发明的原理。但是应理解，本发明的原理不限于此处示例性示出和描述的特定方法、装置、制品和系统。相反，本发明的原理广泛地涉及语音识别技术，借助此技术，可通过在基于样例的训练方法中生成和使用稀疏表示特征来提高识别性能。为此，在本发明的范围内，可以对所示的实施例做出大量修改。也就是说，并非旨在对此处所述的具体实施例做出任何限制或者不应推断任何限制。已认识到现有基于样例的识别任务方法的不成功可归因于以下原因。第一，与评估一组高斯混合相比，通过搜索大量训练数据(例如，对于大型词汇表，通常大于50个小时)来表征测试样本的计算量更大。第二，分类和识别的目标都是确定最佳表示测试样本的类别。在分类中，提前获知与每个类别相关的段，因此可以使用基于样例的技术直接计算每个段的决策评分。在识别中，无法提前获知类别界限，因此必须通过动态编程方法(例如，隐马尔可夫模型或HMM)确定。这需要估计可以跨帧比较的类别概率，而现有基于样例的方法无法轻易做到这一点。根据本发明的示例性原理，提供了基于稀疏表示样例的训练方法以便创建新的特征集，同时利用HMM的优点有效地跨帧比较评分。这与尝试利用来自基于样例的分类器自身的决策评分生成概率的现有基于样例的方法形成对照。在以下将详细说明的本发明的一个稀疏表示(SR)实施例中，给定测试向量和来自训练数据集的一组样例，通过求解受给定稀疏约束影响的给定特征而将测试向量表示为训练实例的线性组合。所述给定特征可被视为将测试向量映射回训练实例的线性范围。下面将在图2的上下文中描述生成此类特征的基于稀疏表示样例的训练方法的一个示例性实施例。首先参考图1A，其中示出根据本发明的一个实施例的稀疏表示训练系统。如图所示，稀疏表示(SR)训练引擎102接收一个或多个测试向量以及训练数据集。引擎102然后使用将在下面详细描述的基于稀疏表示样例的训练方法产生SR训练后的声学模型。该模型可存储在存储单元104中。如公知的，训练数据通常被理解为用于典型地在非实时(脱机)过程中初始训练声学模型的语音数据。测试数据通常被理解为在实时(联机)解码或识别期间被提供给语音识别系统的语音数据。图IB示出根据本发明的一个实施例的语音识别系统。将理解，语音识别系统106 利用存储单元104中存储(并且根据图IA中的训练引擎102生成)的SR训练后的声学模型对输入系统106的用户语音进行解码。这是实际的解码或识别任务，通过这些任务，输入用户的语音并将语音进行解码以生成表示输入语音的转录(即，识别结果)。将认识到，可以在根据本发明的实施例的基于样例的训练方法中通过生成和使用稀疏表示特征来提高识别性能。尽管未具体示出，但是应该理解，语音识别系统106可包括诸如语音发声预处理器和特征提取器之类的前端处理组件。语音发声预处理器接收通常形式为测试或实时发声的用户语音，并且生成代表性语音波形(即，语音信号)。语音发声预处理器可以包括例如音频转换器(例如，麦克风)和数模转换器，它们分别在操作上将所接收的发声转换为模拟电子信号，然后优选地将模拟信号转换为所接收发声的数字信号表示。此外，语音发声预处理器可以以预定间隔对语音信号进行采样并将信号分为重叠帧，以便系统的其余部分能够单独处理每个帧。来自语音发声预处理器的输出信号是采样后的语音波形或语音信号，所述语音波形或语音信号优选地被记录并被提供给特征提取器。特征提取器接收语音信号并且如本领域中公知的那样，以预定(例如，定期)间隔 (例如每隔10毫秒)从信号中提取倒谱特征。倒谱特征优选地采取语音或特征向量(信号)的形式。与实时语音发声的至少一部分关联的特征向量由特征提取器输出并被传递到语音识别引擎，该引擎使用SR训练后的声学模型对实时应用(用户语音)期间接收的语音数据进行解码以生成识别结果。现在转到对根据本发明的基于稀疏表示(SR)样例的训练方法的描述，图2示出此类基于稀疏表示样例的训练方法的一个实施例。方法200从步骤202开始，其中获取测试向量和训练数据集。在步骤204，选择所述训练数据集的子集以形成词典。所述训练数据集的子集可称为样例。在步骤206，将测试向量与训练数据集的选定子集一起映射为通过稀疏约束值加权的线性组合。所述映射形成新的测试特征集。根据此新的测试特征集，训练数据受某种预定稀疏度的影响而移动到更靠近测试数据。在步骤208，针对所述新的特征集训练语音识别系统所使用的声学模型(多个)。如上所述，这些SR训练后的声学模型然后被语音识别引擎用于以提高的识别性能对输入的用户语音进行解码。例如，给定测试向量y和来自训练集的样例集hi;将这些样例集放入词典H = Lh1 ； h2... ；hn]中，通过求解受施加于β的稀疏约束影响的y = Hi3，将y表示为训练实例的线性组合。可以将特征Ηβ视为将测试样本y映射回H中的训练实例的线性范围(图2中的步骤206)。已证明与GMM相比，SR方法的帧分类准确性更高，其中不仅Ηβ表示使测试特征移动到更靠近训练，而且它还使这些特征移动到更靠近正确的类别。给定这些新的Ηβ 特征集，针对这些特征充分训练HMM(即，SR训练后的声学模型104)并执行识别(即，在语音识别系统106中)。为了创建SR特征集，首先考虑获取类别i中的所有训练实例Iii并将它们串接成
矩阵氏作为列，S卩，代=[Wu，+++，\ ,>Rmx"'其中x e Rm表示类别为i的训练集中的特
‘- 」 )
征向量且维度为m。给定来自类别i的充足训练实例，来自同一类别的测试样本y e Γ可以表示为Hi中的表项的线性组合，所述线性组合通过β进行加权，也就是说J=Z^ixU+从 2xu+…+ 从“产… (1)但是，由于y的类别成员资格未知，因此将矩阵H定义为包括来自训练集中k个不同类别的训练实例，即，H的列被定义为好=[代万2，...，巧；| = [Wu，…八^eRmxw此处m
ο
为每个特征向量X的维度，N为来自所有类别的所有训练实例的总数。H可被视为过完备词典，其中m<<N。然后可以将测试向量y写为所有训练实例的线性组合，即y = Hi3。理想地，最佳β应是稀疏的，并且仅对于H中与y属于同一类别的元素为非零值。因此理想地，y将自身指定为位于它所属的正确类别的训练集实例的线性范围内。例如，假设H由来自五个类别的特征组成并且y属于类别0。然后，H中与类别0对应的β值将很高，而属于不正确类别的其他β值将接近0。因此，根据本发明的一个实施例，求解受施加于β的稀疏约束影响的问题y = Ηβ。将理解，施加于β的稀疏约束充当正则化项以防止过拟合，并且通常允许优于没有稀疏的分类性能。可以使用各种SR方法求解β。例如，本领域的技术人员将理解，可以使用诸如 Lasso方法、弹性网络方法、Dantzig Selector方法、OMP方法以及Cosamp方法之类的各种方法计算β。根据本发明的一个实施例，使用向β施加I1和I2正则化组合的近似贝叶斯压缩感知(ABCS)方法求解β。在ABCS方法中，使用CS (压缩感知)求解下面的问题y = H β，使得满足对于 β，IMIi < (2)此处|/f<0表示稀疏性提升半高斯约束，将在下文对其进行详细描述。此外，y是来自测试集的数据帧，使得y e Rm，其中m为特征向量y的维度。H为训练实例的矩阵并且 He Rmxn，其中m<< n。假设y满足线性模型y = Ηβ + ζ，其中ζ N(0，R)。这允许将 P(y| β)表示为高斯分布ρ (y I β ) μ exp (-1/2 (y-H β ) tIT1 (y-H β ))(3)假设β为具有某个先验值ρ(β)的随机参数，可以在给定y的情况下获取β的最大后验(MAP)估计，如下所示β* = arg max0p(^ | y) = max0p(y| β)ρ(β)0 在 ABCS 公式中，假设Ρ(β)实际上是两个先验约束(即，一个高斯约束Pe( β)和一个半高斯约束 PSG(^))的乘积。下面，提供两步解决方法来求解ABCS框架中的以下问题。β* =^%max^(y \β)ρα {P)pso {β) (衫在步骤1中，求解最大化以下表达式的β。方程5等价于求解方程y = Ηβ，只是没有向β施加稀疏约束。β* =^m^p{y\p)pG(p)⑶假设PG(i3)为高斯约束，即pG(i3) =Ν(β β0,Ρ0)ο此处β。和P。是在算法中使用的初始化后的统计动差。可以证明，方程5的解具有由方程6给出的闭合形式的解。β * = β ！ = (I-PqHt (HPtlHkRr1H) β 0+P0HT (HP0HT+R)(6)类似地，可以将的方差表示为P1 = Ε[(β-β1) (β-β1)1]，此方差由方程7更显式地给出。P1 = (I-PciHt (HPtlHhRr1H) Ptl (7)步骤1本质上求解y = H β的伪逆矩阵，该矩阵具有很多解。在步骤2，施加额外的约束，以便β具有稀疏提升半高斯先验值，如方程8给出的那样。此处ο2是控制β的稀疏度的恒定参数。
f Μ、
2σ2
ν yPSG{P) = exP
/Tl
(8)给定步骤1中方程6和方程7的解，可以简单地将方程5改写为另一高斯约束P' (β y) =P(y| β)Ρ(;(β) =Ν(β I β ^P1)。因此，现在假设在约束为半高斯约束的情况下求解β的MAP估计，换言之
权利要求
1.一种方法，包括获取与语音识别系统关联的测试向量和训练数据集；选择所述训练数据集的子集；将所述测试向量与所述训练数据集的选定子集一起映射为由稀疏约束加权的线性组合以便形成新的测试特征集，其中由于所述稀疏约束而使所述训练数据集移动到更靠近所述测试向量；以及针对所述新的测试特征集训练声学模型。
2.如权利要求1中所述的方法，还包括使用针对所述新的测试特征集训练的声学模型对输入所述语音识别系统的用户语音进行解码。
3.如权利要求1中所述的方法，其中选择步骤进一步包括选择所述训练数据集的所述子集作为所述测试向量在所述训练数据集中的k个最近邻。
4.如权利要求1中所述的方法，其中选择步骤进一步包括根据三元语言模型选择所述训练数据集的所述子集。
5.如权利要求1中所述的方法，其中选择步骤进一步包括根据一元语言模型选择所述训练数据集的所述子集。
6.如权利要求1中所述的方法，其中选择步骤进一步包括仅根据声学信息选择所述训练数据集的所述子集。
7.如权利要求6中所述的方法，其中声学信息选择步骤进一步包括使用具有唯一音素身份的声学信息。
8.如权利要求6中所述的方法，其中所述声学信息包括给定数量的最高得分高斯混合模型。
9.如权利要求1中所述的方法，其中选择步骤进一步包括根据高斯均值选择所述训练数据集的所述子集。
10.如权利要求1中所述的方法，其中选择步骤进一步包括根据随机采样选择所述训练数据集的所述子集。
11.如权利要求1中所述的方法，其中选择步骤进一步包括根据余弦相似度采样选择所述训练数据集的所述子集。
12.如权利要求1中所述的方法，其中映射步骤进一步包括求解方程y= Ηβ，其中y 是所述测试向量，H是所述训练数据集的选定子集，并且β是稀疏约束值。
13.如权利要求12中所述的方法，其中使用近似贝叶斯压缩感知方法计算β。
14.一种装置，包括存储器；以及处理器，所述处理器在操作上耦合到所述存储器并被配置为执行以下步骤获取与语音识别系统关联的测试向量和训练数据集；选择所述训练数据集的子集；将所述测试向量与所述训练数据集的选定子集一起映射为由稀疏约束加权的线性组合以便形成新的测试特征集，其中由于所述稀疏约束而使所述训练数据集移动到更靠近所述测试向量；以及针对所述新的测试特征集训练声学模型。
15.如权利要求14中所述的装置，其中所述处理器还被配置为使用针对所述新的测试特征集训练的声学模型对输入所述语音识别系统的用户语音进行解码。
16.如权利要求14中所述的装置，其中选择步骤进一步包括选择所述训练数据集的所述子集作为所述测试向量在所述训练数据集中的k个最近邻。
17.如权利要求14中所述的装置，其中选择步骤进一步包括根据三元语言模型选择所述训练数据集的所述子集。
18.如权利要求14中所述的装置，其中选择步骤进一步包括根据一元语言模型选择所述训练数据集的所述子集。
19.如权利要求14中所述的装置，其中选择步骤进一步包括仅根据声学信息选择所述训练数据集的所述子集。
20.如权利要求14中所述的装置，其中选择步骤进一步包括根据高斯均值选择所述训练数据集的所述子集。
21.如权利要求14中所述的装置，其中选择步骤进一步包括根据随机采样选择所述训练数据集的所述子集。
22.如权利要求14中所述的装置，其中选择步骤进一步包括根据余弦相似度采样选择所述训练数据集的所述子集。
23.如权利要求14中所述的装置，其中映射步骤进一步包括求解方程y= Ηβ，其中y 是所述测试向量，H是所述训练数据集的选定子集，并且β是稀疏约束值。
24.如权利要求23中所述的装置，其中使用近似贝叶斯压缩感知方法计算β。
全文摘要
本发明涉及一种处理语音识别的稀疏表示特征的方法和系统。披露了用于生成和使用稀疏表示特征来提高语音识别性能的技术。具体地说，本发明的原理提供了基于稀疏表示样例的识别技术。例如，所述方法包括以下步骤。获取与语音识别系统关联的测试向量和训练数据集。选择所述训练数据集的子集。将所述测试向量与所述训练数据集的选定子集一起映射为由稀疏约束加权的线性组合以便形成新的测试特征集，其中由于所述稀疏约束而使所述训练数据集移动到更靠近所述测试向量。针对所述新的测试特征集训练声学模型。针对所述新的测试特征集训练的声学模型可用于对输入所述语音识别系统的用户语音进行解码。
文档编号G10L19/00GK102419974SQ20111028282
公开日2012年4月18日申请日期2011年9月22日优先权日2010年9月24日
发明者B·拉马巴德兰, D·卡涅夫斯基, D·纳哈莫, T·N·赛纳斯申请人:国际商业机器公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D·卡涅夫斯基;D·纳哈莫;B·拉马巴德兰;T·N·赛纳斯
技术所有人：国际商业机器公司
我是此专利的发明人

上一篇：一种卡拉ok延时回声处理电路及方法
上一篇：鲁棒性活动语音检测方法