使用隐含语者自适应的语音识别系统的制作方法

文档序号:2837532阅读:282来源:国知局
专利名称:使用隐含语者自适应的语音识别系统的制作方法
技术领域
本发明涉及语音信号的处理。更具体的说,本发明涉及通过非监督式训练来 获得性能改善的新颖语音识别方法和装置。技术背景语音识别是最重要的技术之一,它可赋予机器以模拟智能,用于识别用户的 语音命令且便于作为人类与机器的接口。采用从声学语音信号中恢复语言信息的技 术的系统被称为语音识别(VR)系统。

图1显示了基本的VR系统,它包括预 加重滤波器102,声学特征提取(AFE)单元104,以及模式匹配引擎110。 AFE 单元104将一系列数字语音样本转变为一组测量数值(例如,被提取的频率分量), 该测量数值可称之为声学特征矢量。模式匹配引擎iio将一系列声学特征矢量与在 VR声学模型112中所包含的模板相匹配。VR模式匹配引擎一般采用动态时间规 整(DTW, Dynamic Timing Warping)或隐马尔可夫(Markov)模型(HMM)技 术。DTW或HMM都是在本领域中所熟悉的,并且在Rabiner, L.R和Juang, B.H 编著的《语音识别的基础》(Prentic Hall出版,1993年出版)中详细讨论了。当 一系列声学特征与在声学模型112中所包含的一个模板相匹配时,可用该被识别的 模板产生所希望的输出格式,例如,对应于输入语音的语言词汇的识别序列。正如以上所指出的,声学模型112—般是HMM模型或者DTW模型。DTW 声学模型可以认为是与需要识别的各种词汇有关的模板数据库。 一般来说,DTW 模板包括特征矢量的序列,该特征矢量序列是根据许多相关词汇的例子加以平均 的。DTW模式匹配一般会涉及到将具有最小距离的存储模板置于表示输入语音的 输入特征矢量序列中。在基于HMM的声学模型中使用的模板包含了对相关语音发被指定到所述至少 一个操纵器。当演奏者在乐器上演奏一段音乐的时候,演奏者操纵所述至少 一个操纵 器用于通过将演奏者的力施加到其上而指定所产生乐音的属性。所述至少一 个传感器将演奏者的力转换为检测信号,该检测信号的量级相当于演奏者力 的量级。控制器确定演奏者的意图,也就是演奏者通过所述至少一个操纵器 的移动希望达到的目的。当控制器确定了演奏者的意图,控制器读取为演奏 者意图准备的多个关系中的一个,并且确定与物理量的量级相关联的驱动动 力的量级。然后,控制器调整驱动动力到一定量级,并且将该驱动信号供应 到所述至少一个作动器。当控制器收到另 一种演奏者意图的时候,控制器访问指定给另 一种演奏 者意图的多个关系中的另 一个,并且确定根据另 一个关系的驱动动力的量 级。正如从前面的描述中可以理解的,为不同种类的演奏者意图下的至少一 个操纵器准备了多个关系。辅助力的最佳量级在不同种类的演奏者意图下是 不同的,因此协助系统为演奏者提供最佳的辅助。第一实施例首先参考附图1,体现本发明的萨克斯管主要包括管状主体1、音键机构2以及协助系统3。管状主体1中限定了空气柱,演奏者引起管状主体1 中空气柱振动。通过空气柱的振动从管状主体1中发出乐音。在管状主体l 的外表面上设置音键机构2,演奏者用手指在音键机构2上演奏以改变空气 柱的长度,即乐音的音高。设置协助系统3与音键机构2关联,并且辅助在 音键机构2上用手指演奏的演奏者。由于这个原因,即使演奏者在用手指非 常弱的演奏的时候,他或者她仍然能够在协助系统3的辅助下快速地改变乐 音的音高。管状主体1包括圓锥形金属管1 a、颈部11 、带有簧片的吹口 ( mouthpiece ) 12以及上翻的喇叭口 (flared bell) 13。音孔形成在圓锥形金属管la、颈部 ll和上翻的喇叭口 13中,并且在图1中用"lb"标记了几个音孔。吹口 12 被放入演奏者的嘴中。当演奏者在吹口 12上吹气的时候,簧片引起管状主 体l中空气柱振动。颈部11连接在吹口 12和圆锥形金属管la之间,且上翻的喇叭口 13连 接到圆锥形金属管la的另外一端。颈部11的内部空间延续到圓锥形金属管 la的内部空间,而圓锥形金属管la的内部空间延续到上翻的喇叭口 13的内绿色和蓝色(RGB)象素数据信号、时钟信号以及控制信号。根据前述TTL数据,该定时控制器300产生控制信号,并发送给该栅极驱 动器202以及源极驱动器204。在本发明的一个实施例中,该定时控 制器300使用低摆幅差分信号(RSDS)输出接口,相应地,该TTL 数据被转换成RSDS信号,该RSDS信号为对源极驱动器204以及栅 极驱动器202的串行信号。该栅极驱动器202以及源极驱动器204用以驱动该LCD面板 206,该LCD面板206包括多个用以接收该栅极驱动器202的栅极电 压的栅极线,该栅极电压用作扫描信号;多个与栅极线相交的用以接 收该源极驱动器204的数据电压的源极线,该数据电压用作数据信 号。该源极驱动器204通过RSDS信号存储来自定时控制器300的 RGB数据,同时接收一个将数字数据转换成模拟信号的指令信号。 一旦接收该指令信号,该源极驱动器204输出一个模拟信号,该模拟 信号与该LCD面板206的各独立象素相对应。该栅极驱动器202包括一个移位寄存器、 一个电平转移电路以及 一个缓存器(图2中未示出)。该栅极驱动器202接收一个栅极时钟 信号以及一个来自定时控制器300的垂直线起始信号。此外,该栅极 驱动器202还接收来自该Vcom发生器214的电压,并输出栅极电压, 用以给该LCD面板206的各独立象素提供相应电压值。动态画面的显示是以建立帧来实现。每个帧包括多个扫描线,当 扫描完一个帧的所有扫描线后,下一帧进入定时控制器300。本发明 的一个实施例中,TFT-LCD面板206的刷新频率为60 Hz,或者说,图5是示出使用语者无关(SI)和语者特定(SD)匹配评价两者来进行语音 识别(测试)方法的流程图;图6示出用于从语者无关(SI)和语者特定(SD)匹配评价中产生组合匹配评价的方法。具体实施方法图2显示了可以在无线远程站202中实现的混合语音识别(VR)系统的示例 性实施例。在该示例性实施例中,远程站202通过无线信道(未显示)与无线通信 网络(未显示)通信。例如,远程站202可以是与无线电话系统通信的无线电话。 在本领域的专业人士会意识到,本文所讨论的技术可以同样应用于固定(不是便携 的)的VR系统或者不包括无线信道。在所示的实施例中,来自用户的语音信号在麦克风(MIC) 210中转换成电信 号,并且在模拟数字变换器(ADC) 212转换成数字语音样本。该数字样本流随后 使用预加重(PE)滤波器214进行滤波,例如,可以采用衰减低频信号分量的有 限脉冲响应(FIR)滤波器。滤波后的样本随后在声学特征提取(AFE)单元216中进行分析。该AFE单 元216将数字语音样本转换成声学特征矢量。在示例性实施例中,AFE单元216 对具有连续的数字样本的片段进行傅立叶变换,以产生对应于不同频率箱的信号强 度的矢量。在示例性实施例中,频率箱可以根据巴克标度(barkscale)来变化带宽。 在巴克标度中,各个频率箱的带宽具有与箱的中心频率有关的关系,使得更高频率 箱可具有比较低频率箱更宽的频率带宽。在Rabiner, L.R和Juang, B.H编著的《语音识别的基础》(PrenticHall出版,1993年出版)讨论了巴克标度。在示例性实施例中,各个声学特征矢量是从在固定时间间隔中所收集的一系 列语音样本中提取的。在示例性实施例中,这些时间间隔是重叠的。例如,声学特 征可以从每个10毫秒开始的语音数据的20毫秒间隔中获得,使得每两个连续的间 隔都可以公用IO毫秒的片段。在本领域中的专业人士都会意识到,可以在不脱离 本文所揭示实施例的范围的条件下,时间间隔可以被替换成非重叠的或者具有非固 定的周期。由AFE单元216所产生的声学特征矢量可提供给VR引擎220,该引擎进行 模式匹配,以便根据一个和多个声学模型230、 232和234的内容表征声学特征矢量的特征。在图2所示的示例性实施例中,显示了三个声学模型语者无关(SI)隐马尔可夫模型(HMM)的模型230,语者无关动态时间规整(Dynamic Time Warping) (DTW)模型232,以及语者特定(SD)声学模型234。本领域的专业人士将会 意识到,在其它实施例中可以使用SI声学模型的不同组合。例如,远程站202可 以仅包括SIHMM声学模型230和SD声学模型234,而省去了 SIDTW声学模型 232。另外,远程站202可以包括单个的SIHMM声学模型230, 一个SD声学模型 234和两个不同的SIDTW声学模型232。另外,本领域的专业人士将会意识到, SD声学模型234可以是HMM类型的或者是DTW类型的或者是两者的组合。在 示例性实施例中,SD声学模型234是DTW声学模型。正如以上所讨论的,VR引擎220进行模式匹配,以确定在声学特征矢量和一 个或多个声学模型230、 232和234的内容之间的匹配程度。在示例性实施例中, VR引擎220根据声学特征的矢量与在各个声学模型230、 232和234中的不同声 学模板的匹配来产生匹配的评价。例如,VR引擎220根据一组声学特征矢量与在 SIHMM声学模型230中的多个HMM模板的匹配来产生HMM匹配的评价。同样, VR引擎220根据声学特征的矢量与在SIDTW声学模型232中的多个DTW模板 的匹配来产生DTW匹配的评价。VR引擎220根据声学特征矢量与在SD声学模 型234中的模板的匹配来产生匹配的评价。正如以上所讨论的,在声学模型中的各个模板是与发音种类有关的。在一个 示例性实施例中,VR引擎220组合了与相同发音种类有关的模板的评价,以产生 将在非监督式训练中使用的组合匹配评价。例如,VR引擎220组合了通过使一 组输入的声学特征矢量相关所获得的SIHMM和SIDTW的评价,从而产生组合的 SI评价。根据该组合的匹配评价,VR引擎220确定是否存储该组输入的声学特征 矢量作为在SD声学模型234中的SD模板。在一个示例性实施例中,使用独特的 SI匹配评价来进行用于更新SD声学模型234的非监督式训练。这就防止了在对其 本身进行非监督式训练而使用扩展的SD声学模型234所引发的其它差错。进行非监督式训练的示例性方法将在下文中作更详细的讨论。除了非监督式训练之外,VR引擎220在测试过程中使用了各种声学模型(230,232和234)。在示例性实施例中,VR引擎220从声学模型(230, 232和234) 中检索匹配的评价,并且产生适用于各个发音种类的组合匹配评价。组合匹配评价 可用于选择最佳匹配于输入语音的发音种类。VR引擎220根据需要将连续发音种 类集合在一起,以识别整个词汇或短语。随后,VR引擎220将有关识别的词汇或短语的信息提供给控制处理器222,该处理器222使用该信息来确定对语音信息或 命令的适当响应。例如,响应于所识别的词汇或短语,控制处理器222可以提过显 示器或其它用户接口向用户提供反馈。在另一个实施例中,控制处理器222可以通 过无线调制解调器218和天线224向无线网络(未显示)发送信息,开始对与被发 音和被识别的人的名字有关的目标电话号码的移动电话呼叫。无线调制解调器218可以通过包括CDMA、TDMA或FDMA的多种无线信道 类型中的任何一种来发送信号。此外,无线调制解调器218可以采用通过非无线信 道通信的其它类型的通信接口来替代,这并不脱离所揭示实施例的范围。例如,远 程站202可以通过任何一类通信信道来发送信令信息,其中通信信道的类型可以 包括地面一有线调制解调器、T1/E1、 ISDN、 DSL、以太网、或者甚至是印刷电路 板(PCB)上的线径。图3是显示进行非监督式训练的示例性方法的流程图。在步骤302,模拟数字 转换器(ADC)(图2中212)采样模拟语音数据。随后,在步骤304,使用预加 重(PE)滤波器(图2中的214)滤波数字样本流。在步骤306,声学特征提取(AFE) 单元(图2中的216)从滤波后的样本中提取输入的声学特征矢量。VR 引擎 (图2中的220)接收来自AFE单元216的输入声学特征矢量,并且进行输入声 学特征矢量与SI声学模型(图2中的230和232)中的内容的模式匹配。在步骤 308, VR引擎220从模式匹配的结果中产生匹配的评价。VR引擎220通过输入声 学特征矢量与SIHMM声学模型230的匹配产生SIHMM匹配评价,并且通过输入 声学特征矢量与SIDTW声学模型232的匹配产生SIDTW匹配评价。在SIHMM 和SIDTW声学模型(230和232)中的各个声学模板都与特定的发音种类相关。 在步骤310,对SIHMM和SIDTW评价进行组合,以形成组合匹配评价。图4显示了在非监督式训练中使用的组合匹配评价的产生。在示例性实施例中,关于一特定发音种类的语者无关组合匹配评价ScoMB—51是根据图示的等式1的加权和,其中SIHMMT是目标发音种类的SIHMM匹配评价;SIHMM^是适用于SIHMM声学模型中与非目标发音种类(不是目标发音种 类的发音种类)有关的模板的下一个最佳匹配评价;SIHMMc是适用于"垃圾(garbage)"发音种类的SIHMM的匹配评价。 SIDTWT是目标发音种类的SIDTW匹配评价;SIDTW^是适用于SIDTW声学模型中与非目标发音种类有关的模板的下一个最佳匹配;以及,SIDTWg是造用于"垃圾"发音种类的SIDTW的匹配评价。 各种个体的匹配评价SIHMMn和SIDTWn可以被视为表示在一系列输入声学特征矢量和声学模型中一模板之间的距离值。输入声学特征矢量和模板之间的距离 越长,则匹配的评价就越大。模板和输入声学特征矢量之间的紧密匹配会产生非常 低的匹配评价。如果将一系列输入声学特征矢量与两个和不同发音种类相关的模板 比较且产生近似相等的两个匹配评价,则VR系统就不能识别哪一个是"正确"的发音种类。SIHMMc禾卩SIDTWc是适用于"垃圾"发音种类的匹配评价。与垃圾发音种 类相关的一个模板或多个模板都称为垃圾模板并且不会对应于具体的词汇和短语。 正是这个原因,它们对所有的输入语音都同样趋于不正确,垃圾匹配评价作为一种 在VR系统中的噪声水平的测量是非常有用的。 一般来说,在可以确信能识别发音 种类之前,一系列的输入声学特征矢量对与目标发音种类相关的模板的匹配程度应 该比与垃圾模板的匹配程度好得多。在VR系统可以确信识别出一个发音种类为"正确"的发音种类之前,输入 声学特征矢量对与该发音种类相关的模板的匹配程度应该比对与其它发音种类相 关的垃圾模板和其他模板有关的匹配程度更高。比基于单一声学模型的匹配评价相 比,从各种声学模型中产生的组合匹配评价可以在发音种类之间得到更加确定的区 分。在示例性实施例中,VR系统使用这类组合匹配评价来确定是否采用从一组新 的输入声学特征矢量中获得的模板来取代在SD声学模型(图2中的234)中的模板。可以选择加权因子(W,...W6)来提供在整个声学环境中的最佳训练性能。在 示例性实施例中,加权因子(W卜.W6)在所有的发音种类中都是恒定的。换句话 说,用于产生第一 目标发音种类的组合匹配评价所使用的Wn和用于产生另一个目 标发音种类的组合匹配评价所使用的Wn是相同的。在另一个实施例中,加权因子 根据目标发音种类而变化。对本领域的专业人士来说,进行图4所示组合的其他方 法是显而易见的,并且可以视为在本文所讨论实施例的范围中。例如,也可以使用 大于6或小于6的加权输入。另一个显而易见的变化是根据一类声学模型来产生组 合的匹配评价。例如,根据SIHMMt, SIHMMnt和SIHMMcj来产生组合匹配评价, 或者根据SIDTWt, SIDTWnt和SIDTWc来产生组合匹配评价。在示例性实施例中,W,和W4是负数,并且Scomb的狡大(即负得较少)数值表示在目标发音种类和一系列输入声学特征矢量之间有较大程度的匹配(较小的 距离)。在本领域中的专业人士会意识到,在不脱离所揭示实施例的范围的条件下, 加权因子的符号可以容易地重新设置,使得较大程度的匹配可以对应较小的数值。再返回到图3,在步骤310,为与HMM和DTW声学模型(230和232)中的 模板相关的发音种类产生组合匹配评价。在示例性实施例中,只为与最佳的n个 SIHMM匹配评价相关的发音种类和与最佳的m个SIDTW匹配评价相关的发音种 类产生组合匹配评价。为保存计算资源,此限制是需要的,即使在产生各个匹配评 价时需消耗大量的计算功率。例如,如果n二m二3,可以为与最好的三个SIHMM 匹配评价相关的发音种类和与最好的三个SIDTW匹配评价相关的发音种类产生组 合匹配评价。根据与最好的三个SIHMM匹配评价相关的发音种类是否和与最好的 三个SIDTW匹配评价相关的发音种类相同,此方法会产生三个至六个不同的组合 匹配评价。在步骤312,远程站202将组合匹配评价与所对应的模板一起存储在SD声学 模型中的组合匹配评价进行比较。如果对于相同的发音种类,新的输入声学特征矢 量系列比存储在SD模板中的旧的模板具有更大的匹配程度,那么从新的输入声学 特征矢量系列中产生新的SD模板。在SD声学模型是DTW声学模型的实施例中, 输入声学特征矢量系列自身就构成新的SD模板。随后,用新的模板替代旧的模板, 并且将与新的模板有关的组合匹配评价存储在SD声学模型中,供以后比较使用。在替换的实施例中,非监督式训练用于更新语者特定隐马尔可夫模型 (SDHMM)的声学模型中的一个和多个模板。该SDHMM声学模型可以代替 SDDTW模型使用,或者除了 SDDTW模型以外,也在SD声学模型234中使用。在示例性实施例中,在步骤312中的比较还包括将预期的新SD模板的组合匹 配评价与恒定训练阈值进行比较。即使在SD声学模型中还没有存储任何适用于一 特定发音种类的模板,则新的模板也不能存储在SD声学模型中,除非它具有比训 练阈值的数值更好的组合匹配评价(表示匹配程度更大)。在替换的实施例中,在替代SD声学模型中的任何模板之前,SD声学模型一 般是由SI声学模型的模板来定义的。这样的初始化提供了一种替换方法,用于保 证使用SD声学模型的VR性能在开始时至少和只使用SI声学模型的VR性能一样 好。随着越来越多的在SD声学模型中的模板被更新,使用SD声学模型的VR性 能会超越只使用SI声学模型的VR性能。在替换的实施例中,VR系统允许用户进行监督式训练。用户必须在进行这类监督式训练之前将VR系统置于监督式训练的模式。在监督式训练的过程中,VR系统具有正确发音种类的先验知识。如果关于输入语音的组合匹配评价好于为该发音种类在先存储的SD模板的组合匹配评价,则用输入语音形成替换的SD模板。 在替换的实施例中,VR系统允许用户在监督式训练过程中强制替换现有的SD模 板。SD声学模型可以采用适用于单个发音种类的多个(两个或多个)模板的情况 来设计。在替换的实施例中,在SD模型中为每个发音种类存储了两个模板。因此, 在步骤312所作的比较必然将用新模板所获得的匹配评价与为SD声学模型中关于 相同发音种类的两个模板所获得的匹配评价进行比较。如果新的模板比在SD声学 模型中任何一个较旧的模板具有更好的匹配评价,则在步骤314,具有最差匹配评 价的SD声学模型模板可采用该新的模板来替代。如果新的模板的匹配评价没有两 个旧的模板好,则跳过步骤314。另外,在步骤312,将用新的模板所获得的匹配 评价与匹配评价的阈值进行比较。如此地,在用新的模板来覆盖SD声学模型的原 先内容之前,进行新的模板与该阈值数值的比较,直到新的模板具有比存储在SD 声学模型中的阔值更好的匹配评价。可以预料各种显而易见的变化,例如,根据组 合匹配评价按分类次序存储SD声学模型模板以及将新的匹配评价与最低的匹配评价进行比较,这些变化被认为在本文所揭示的实施例的范围内。还可以预料对于存 储在声学模型中的关于各个发音种类的模板数的各种显而易见的变化。例如,SD声学模型可以对于各个发音种类包含多于两个的模板,或者可以对于不同发音种类 包含不同数量的模板。图5是显示了采用SI和SD声学模型的组合来进行VR测 试的示例性方法的流程图。步骤302, 304, 306和308与图3的讨论相同。在步骤 510,该示例的方法不同于图3所示的方法。在步骤510, VR引擎220根据输入特 征矢量与在SD声学模型中模板的比较来产生SD匹配评价。在示例性实施例中, 只为与最佳n SIHMM匹配评价和最佳m SIDTW匹配评价相关的发音种类产生SD 匹配评价。在示例性实施例中,n=m=3。根据在两组发音种类之间的重叠程度,这 可以导致为三个至六个发音种类产生SD匹配评价。正如以上所讨论的,SD声学 模型可以包含单个发音种类的多个模板。在步骤512, VR引擎220产生混合的组 合匹配评价,供在VR测试中使用。在示例性实施例中,这些混合的组合匹配评价 是基于各个SI和各个SD匹配评价两者的。在步骤514,可选择具有最佳组合匹配 评价的词汇或发音,并且将其与测试阈值相比较。如果某个发音的组合匹配评价超 过了测试阈值,只认为识别出该发音。在示例性实施例中,用于产生训练用组合评价的加权[W,…W6](如图4所示)与用于产生测试用组合评价的加权[W….W6] (如图6所示)是相同的,但是训练的阈值不同于测试的阈值。图6显示了在步骤512所进行的混合的组合匹配评价的产生。所示的示例性 实施例的操作雷同于图4所示的组合器,除了采用加权因子W4皮用于DTWt以替 代SIDTW T以及采用加权因子W5应用于DTWNT以替代SIDTW NT。从与目标发 音种类相关的SIDTW和SDDTW最佳评价中选择DTWT (适用于目标发音种类的 动态时间规整匹配评价)。类似地,从与非目标发音种类相关的SIDTW和SDDTW 最佳评价中选择DTW^(适用于其余非目标发音种类的动态时间规整匹配评价)。适用于特殊发音种类的SI/SD混合评价SCOMB—h是根据圓示EQN.2的加权和, 式中SIHMMT, SIHMMnt, SIHMMcj和SIDTWG与EQN.l中的SIHMMT, SIHMMNT, SIHMMg和SIDTWcj是相同的。特别是,在EQN.2中SIHMMT是目标发音种类的SIHMM匹配评价;SIHMM^是适用于与非目标发音种类(不是目标发音种类的发音种类)有关的SIHMM声学模型中模板的下一个最佳匹配;SIHMM(3是适用于"垃圾"发音种类的SIHMM匹配评价;DTWt是対皮于目标发音种类的适用于SI和SD模板的最佳DTW匹配评价;DTW^是对应于非目标发音种类的适用于SI和SD模板的最佳DTW匹配评价;以及,SIDTW(j是适用于"垃圾"发音种类的SIDTW匹配评价。 于是,SI/SD混合评价SC0MB—h是各个SI和各个SD匹配评价的组合。最终的 组合匹配评价并不整个依赖于SI或SD声学模型。如果匹配评价SIDTWt比任何 SDDTWT的评价要好,则从较好的SIDTWT评价中计算出SI/SD混合评价。类似地, 如果匹配评价SDDTWT比任何SIDTWT的评价要好,则从较好的SDDTWT评价中 计算出SI/SD混合评价。因此,如果在SD声学模型中的模板产生较差的匹配评价, 则VR系统仍旧可以根据SI/SD混合评价的SI部分来识别输入语音。这类较差的 SD匹配评价可以具有多种原因,包括在训练和测试过程中声学环境之间的差异。 或者或许是训练所使用的较差质量的输入。在替换的实施例中,对SI评价的加权轻于SD评价,或者甚至可以全部忽略。 例如,从与目标发音种类相关的最佳SDDTW评价中选择DTWT,并忽略该目标发 音种类的SIDTW评价。同样,可以从与非目标发音种类相关的最佳SIDTW或 SDDTW评价中选择DTWOT,代替使用两组评价。尽管只采用适用于语者特定模式的SDDTW声学模型来讨论示例性实施例, 本文所讨论的混合方法可以同样应用于使用SDHMM声学模型或者甚至于使用 SDDTW和SDHMM声学模型的VR系统。例如,通过改进图6所示的方法,加权 因子W,可以应用于从最佳的SIHMMt和SDHMMT评价中选出的匹配评价。加权 因子\¥2可以应用于从最佳的SIHMM^和SDHMMMT评价中选出的匹配评价。于是,本文所揭示的是使用SI和SD声学模型的组合来改善在非监督式训练 和测试过程中的VR性能的VR方法和装置。本领域的专业人士都会理解到信息 和信号可以采用多种不同工艺和技术中任何一种来表示。例如,在以上讨论中所参 考的数据、指令、命令、信息、信号、比特、码元、和码片都可以采用电压、电流、 电磁波、磁场或粒子、光场或粒子,或者其上述的组合来表示。同样,尽管上述的 实施例主要考虑了动态时间规整(DTW)或隐马尔可夫模型(HMM)声学模型, 但是所讨论的技术同样可以应用于其它类型的声学模型,例如,神经网络声学模型。本领域的普通专业人士还会进一步意识到,参考本文所揭示的实施例所讨论 的各种说明性的逻辑单元、模块、电路和算法步骤都可以采用电子硬件、计算机软 件、及其两者的组合来实现。为了能简洁地说明这些硬件和软件的互换性,以上已 经从功能上讨论了各种说明性的元件、逻辑单元、模块、电路以及步骤。这些功能 是实现为硬件还是软件取决于施加在整个系统上的特定的应用和设计制约。专业人 士都可以采用各种特殊应用的变化方式来实现上述的功能,但是这类实现方法都不 应理解为脱离本发明的范围。以上结合本文所揭示的实施例讨论的各种说明性的逻辑单元、模块、和电路 可以采用通用处理器、数字信号处理器(DPS)、专用集成电路(ASIC)、现场 可编程门阵列(FPGA)或者其它可编程逻辑器件、分立的门电路和晶体管逻辑、 分立硬件元件、或者为实现上述功能而设计的任何组合来实现或完成。通用处理器 可以是微处理器,但是在替换中,处理器可以是任何一种常规的处理器、控制器、 微控制器、或者状态机。处理器也可以用计算器件的组合来实现,例如,DSP和 微处理器的组合、多个微处理器、 一个或多个结合DSP芯核的微处理器,或者任 何其它这类结构。结合本文揭示的实施例所讨论的方法或算法的步骤可以直接嵌入在硬件中、直接嵌入在处理器所执行的软件模块中、或者直接嵌入在两者的组合之中。该软件 模块可以驻留在RAM存储器,闪存存储器、ROM存储器、EPROM存储器、EPPROM存储器、寄存器、硬盘、可移动盘、CD—ROM、或者本领域中所熟悉的任何其它形式的存储媒介中。示例性存储媒介与处理器相耦合,使得处理器能从存储媒介中 读取信息,也可以将信息写入该存储媒介中。在替换的实施例中,存储媒介可以集 成于处理器。处理器和存储媒介可以驻留在ASIC中。在替换的实施例中,处理器 和存储媒介可以驻留在用户终端中的分立元件中。上述揭示实施例的说明使得本领域任何专业人士都能够产生或应用本发明。 对本领域任何专业人士来说,各种对这些实施例的改进都是显而易见的,本文所定 义的基本原理可以在不脱离本发明的精神和范围的条件下应用于其它实施例。于 是,本发明并不试图受限于本文所显示的实施例,而是考虑与本文所揭示的原理和 新颖特征相一致的最广泛范围。
权利要求
1.一种语音识别方法,所述方法包括下述步骤将第一输入语音片段与至少第一模板进行模式匹配,以产生至少一个输入模式匹配评价并且确定被识别的发音种类;将所述至少一个输入模式匹配评价跟与至少第二模板相关的对应评价作比较,其中所述至少第二模板来自与所识别的发音种类相关的语者特定声学模型;和根据所述比较结果,确定是否更新所述至少第二模板。
2. 如权利要求1所述的方法,其特征在于,用于进行模式匹配的所述步骤还 包括将所述第一输入语音片段与至少一个隐马尔可夫模型模板进行隐马尔可夫模 型模式匹配,以生成至少一个隐马尔可夫模型匹配评价;将所述第一输入语音片段与至少一个动态时间规整模板进行动态时间规整模 式匹配,以生成至少一个动态时间规整匹配评价;和对所述至少一个隐马尔可夫模型匹配评价和所述至少一个动态时间规整匹配 评价求至少一个加权和,以生成所述至少一个输入模式匹配评价。
3. 如权利要求l所述的方法,其特征在于,还包括通过将第二输入语音片段与所述至少第一模板进行模式匹配,生成至少一个 语者无关匹配评价;通过将所述第二输入语音片段与所述至少第二模板进行模式匹配,生成至少一个语者特定匹配评价;并且将所述至少一个语者无关匹配评价与所述语者特定匹配评价进行组合,以生 成至少一个组合匹配评价。
4. 如权利要求3所述的方法,其特征在于,还包括识别与所述至少一个组 合匹配评价中的最佳组合匹配评价相关的发音种类。
5. —种进行非监督式语音识别训练和测试的方法,所述方法包括下述步骤 在语音识别引擎(220)中,将来自语者的输入语音与语者无关声学模型(230,232)中的内容进行模式匹配,以产生语者无关模式匹配评价;用所述语音识别引擎(220),将所述语者无关模式匹配评价跟与语者特定声 学模型(234)的模板相关的评价作比较,其中所述语者特定声学模型适合于所述 语者;和如果所述语者无关模式匹配评价高于与所述语者特定声学模型(234)的模板 相关的所述评价,则根据所述语者无关模式匹配评价,为所述语者特定声学模型 (234)生成新模板。
6. 如权利要求5所述的方法,其特征在于,所述语者无关声学模型(230, 232)包括至少一个隐马尔可夫模型声学模型。
7. 如权利要求5所述的方法,其特征在于,所述语者无关声学模型(230, 232)包括至少一个动态时间规整声学模型。
8. 如权利要求5所述的方法,其特征在于,所述语者无关声学模型(230, 232)包括至少一个隐马尔可夫模型声学模型和至少一个动态时间规整声学模型。
9. 如权利要求5所述的方法,其特征在于,所述语者无关声学模型(230, 232)包括至少一个垃圾模板,其中所述比较步骤包括将所述输入语音与所述至少 一个垃圾模板作比较。
10. 如权利要求5所述的方法,其特征在于,所述语者特定声学模型(234) 包括至少一个动态时间规整声学模型。
11. 如权利要求5所述的方法,其特征在于,还包括构造所述语音识别引擎(220),以便将第二输入语音片段与所述语者无关声 学模型和所述语者特定声学模型中的内容作比较,从而生成至少一个语者特定和语 者无关的组合匹配评价;以及识别具有语者特定和语者无关的最佳组合匹配评价的发音种类,其中发音种 类是特定的词汇或语音片段。
12. 如权利要求ll所述的方法,其特征在于,所述语者无关声学模型包括至 少一个隐马尔可夫模型声学模型。
13. 如权利要求ll所述的方法,其特征在于,所述语者无关声学模型(230, 232)包括至少一个动态时间规整声学模型。
14. 如权利要求11所述的方法,其特征在于,所述语者无关声学模型(230, 232)包括至少一个隐马尔可夫模型声学模型和至少一个动态时间规整声学模型。
15. 如权利要求11所述的方法,其特征在于,所述语者特定声学模型(234) 包括至少一个动态时间规整声学模型。
16. —种语音识别方法,所述方法包括下述步骤将输入语音片段与至少一个语者无关声学模板进行模式匹配,以生成至少一 个语者无关匹配评价;将所述输入语音片段与语者特定声学模板进行模式匹配,以生成至少一个语 者特定匹配评价;将所述至少一个语者无关匹配评价与所述至少一个语者特定匹配评价组合, 以生成至少一个组合匹配评价,其中每个组合匹配评价对应于一个发音种类并且依 赖于该发音种类的语者无关模式匹配评价以及该发音种类的语者特定模式匹配评 价,其中发音种类是特定的词汇或语音片段。
17. 如权利要求16所述的方法,其特征在于,用于进行模式匹配的所述步骤 和用于组合的所述步骤是由语音识别引擎(220)来执行的。
全文摘要
本发明涉及使用隐含语者自适应的语音识别系统。具体地,揭示了一种语音识别(VR)系统,该系统采用语者无关(SI)(230和232)和语者特定(SD)(234)的声学模型的组合。至少一个SI声学模型(230和232)用于和至少一个SD声学模型(234)的组合,以提供至少与纯SI声学模型的语音识别性能相同的水平。所揭示的SI/SD VR系统可连续使用非监督式的训练,来更新在一个和多个SD声学模型(234)中的声学模板。混合的VR系统随后使用与至少一个SI声学模型(230和232)组合的经更新的SD声学模型(234),在VR测试过程中提供改良的VR性能。
文档编号G10L15/16GK101221759SQ20071019669
公开日2008年7月16日 申请日期2002年3月22日 优先权日2001年3月28日
发明者A·P·德雅柯, C·张, H·加鲁达德里, N·马拉亚, S·贾里尔, 宁 毕 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1