从文本中预测误词率的方法和设备的制作方法

文档序号:2821550阅读:244来源:国知局
专利名称:从文本中预测误词率的方法和设备的制作方法
背景技术
本发明涉及语音识别。特别的,本发明涉及对语音识别系统的性能进行建模。
在语音识别中,使用声学模型和语言模型将声学信号转换成词序列。声学模型将声学信号的特征转换为子词语音单元的可能序列,例如带有概率的音素。语言模型为词的各个序列提供概率分布,其中这些词可以根据由声学模型所鉴别的音素序列形成。
训练声学模型的典型方法是通过让一个讲话者读出一已知文本,然后构造声学模型,从而从训练语音中预测训练文本。训练语言模型的典型方法是从大篇幅文本中简单的鉴别各个词在该篇幅中的概率。
结果所得到的语音识别系统的性能在某种程度上与用来训练声学模型和语言模型所使用的文本相关。结果就是,该语音识别系统在某些任务领域中的表现性能要比其它领域中好。为了确定语音识别系统在特定的任务领域中会如何工作,人们必须讲出预期用户在执行任务时所会使用的词,以便产生可以被该系统解码的声学数据。雇人来产生足够多数量的声学数据,用以确定语音识别系统的性能是昂贵的,并且对开发使用语音操作的计算机应用软件形成障碍。
另外,因为产生声学数据较为昂贵,所以并不为用来训练语言模型的全部篇幅产生该数据。结果只是典型地训练了语言模型,而并没有检验声学模型在语言模型篇幅上会如何执行。因此,如果有一个使用文本篇幅而不需要声学数据就可以测量声学模型和语言模型的组合性能的系统,那将是有益的。这将允许结合声学模型对语言模型做有差别的训练。
发明概述一种对语音识别系统进行建模的方法,包括对根据训练文本产生的语音信号进行解码以产生预测的语音单元序列。该训练文本包括实际语音单元序列,将它和预测语音单元序列一起使用,形成混淆模型。在进一步的实施例中,混淆模型被用来解码文本,以鉴别如果语音识别系统根据该文本解码语音时,预期将会出现的误差率。
附图简述

图1是通常的计算环境的方框图,其中本发明的实施例可以在该环境中实现。
图2是根据本发明的实施例的构建和使用混淆模型的方法流程图。
图3是根据本发明的实施例的用来训练混淆模型的组件的方框图。
图4是根据本发明的一个实施例的HMM混淆模型的状态图。
图5是利用文本和混淆模型来确定误词率的解码器的方框图。
图6中的格架图表示根据本发明的一个实施例的解码过程中所形成的路径。
说明性实施例的详细描述图1表示一个可以实现本发明的恰当的计算系统环境100的示例。该计算系统环境100只是恰当的计算环境的一个示例,并不是对本发明的使用和功能范围起任何的限定作用。该计算系统环境100也不能被解释为对典型的计算系统环境100中所述的任何一个组件或组件的组合具有相应的任何依赖和要求。
本发明也可工作于多个其它普通目的或特殊目的的计算系统环境或结构。所熟知的可以适合本发明使用的计算系统、环境、和/或结构的示例包括个人计算机、服务器计算机、手持或膝上器件、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、微型计算机、大型计算机、电话系统,以及包括任何上述系统或器件、或类似的分布式计算环境,但不局限于此。
本发明可以用计算机可执行的指令的普通上下文来描述,例如被计算机执行的程序模块。通常程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。本发明被设计在分布式计算环境中实现,其中任务由通过通信网络连接的远程处理器件执行。在分布式计算环境中,包括记忆存储器件的本地和远程计算机存储媒体中都有程序模块。
参照图1,实现本发明的系统包括以计算机110的形式出现的通用目的计算器件。计算机110的组件可以包括处理单元120、系统存储器130、和耦合各个系统组件、包括将系统存储器耦合到处理单元120的系统总线121,但不局限于此。系统总线121可以是任何几个类型的总线结构,包括存储器总线或存储器控制器、外围总线、和使用任何多个总线结构的本地总线。作为示例,这种结构包括工业标准结构总线(ISA)、微通道结构总线(MCA)、增强的工业标准结构总线(EISA)、视频电子标准联盟本地总线(VESA)、和也被作为马兹尼(Mezzanine)总线所知的外围组件互联总线(PCI),但不局限于此。
计算机110典型地包括多个计算机可读媒体。计算机可读媒体可以是任何可被计算机110访问的有效媒体,包括易失性和非易失性媒体、可删除的和不可删除的媒体。作为示例,但不局限于此,计算机可读媒体可以包括计算机存储媒体和通信媒体。计算机存储器媒体包括用任何方法或技术来实现存储例如计算机可读指令、数据结构、程序模块或其它数据信息的,易失性和非易失性、可删除和不可删除媒体。计算机存储器媒体包括,但不局限于RAM、ROM、EPROM、闪存或其它存储技术,CD-ROM、数字多能光碟(DVD)或其它光盘存储器、磁盒存储器、磁带存储器、磁盘存储器或其它磁存储器件,或任何其它可以用来存储所想要的信息并能被计算机110访问的媒介。通信媒体典型地包括计算机可读指令、数据结构、程序模块或在调制数据信号,例如载波或其它传输机构中的其它数据,以及包括任何信息传送媒体。词语“调制数据信号”指的是信号将它的一个或多个特征以在信号中的编码信息的形式设置或改变。作为示例,并不局限于此,通信媒体包括有线媒体,例如有线网络或直接网络连接,和无线媒体,例如声音、RF、红外和其它无线媒体。上述任何的组合也应该被包括在计算机可读媒体的范围中。
系统存储器130包括计算机存储器媒体,其形式包括易失性和/或非易失性存储器,例如只读存储器131(ROM)和随机访问存储器132(RAM)。基本输入/输出系统133(BIOS)典型地存储在ROM131中,它包含在计算机110中的在部件之间协助传送信息的基本例程。RAM132典型地包含可以立即被访问的、和/或当前正被处理单元120运行的数据和/或程序模块。作为示例,并不局限于此,图1中示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可以包括其它可删除的/不可删除的、易失性/非易失性计算机存储器媒体。作为示例,图1仅示出了从不可删除的、非易失性的磁媒体中读出或向其中写入的硬盘驱动器141,从可删除的、非易失性的磁盘152中读出或向其中写入的磁盘驱动器151,和从可删除的、非易失性的光盘156、例如CDROM或其它光媒体中读出或向其中写入的光盘驱动器155。其它在该示例操作环境中可以使用的、可删除的/不可删除的、易失性/非易失性的计算机存储器媒体包括磁带盒、闪存卡、数字多能光碟、数字视频带、固态RAM、固态ROM和类似物,但不局限于此。硬盘驱动器141典型地通过不可删除的存储器接口、例如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155典型地通过可删除的存储器接口、例如接口150连接到系统总线121。
上面所讨论的和图1中所示的驱动器和它们相关的计算机存储媒体为计算机110提供计算机可读指令、数据指令、程序模块和其它数据的存储。例如,在图1中所示的硬盘驱动器141用作存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意这些组件或者可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同,或者与其不同。在这里对操作系统144、应用程序145、其它程序模块146和程序数据147给出不同的标号,以说明至少它们是不同的拷贝。
用户可以通过输入器件,如键盘162、麦克风163和指点设备161、如鼠标、轨迹球或触摸板,将命令和信息输入计算机110。其它输入器件(未示出)可以包括操纵杆、游戏板、圆盘式卫星电视天线、扫描仪或类似物。这些或者其它输入器件通常通过与系统总线耦合的用户输入接口160与处理单元120连接,但是也可以通过其它接口和总线结构连接,例如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示器件也通过接口、例如视频接口190与系统总线121连接。除了监视器之外,计算机也可以包括其它外围输出设备,例如可以通过输出外设接口195连接的扬声器197和打印机196。
计算机110运行在与一个或多个远程计算机、例如远程计算机180进行逻辑连接的网络环境中。远程计算机180可以是个人计算机、手持器件、服务器、路由器、网络PC、同层器件或其它普通网络节点,并且典型地包括与计算机110相关的多个或全部上述组件。图1中所展示的逻辑连接包括局域网171(LAN)和广域网173(WAN),但也可以包括其它网络。这种网络环境在办公室、企业宽带计算机网络、内联网和互联网中是常见的。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接到LAN171。当在WAN网络环境中使用时,计算机110典型地包括调制解调器172或其它在WAN173、例如互联网上用于建立通信的装置。调制解调器172可以是内置的或外置的,它可以通过用户输入接口160或其它合适的机制连接到系统总线121。在网络环境中,所描述的与计算机110相关的程序模块或其中的部分可以存储在远程记忆存储器件中。作为示例,但并不局限于此,图1示出了远程应用程序185在远程计算机180中驻留。需要理解的是,所示的网络连接是示范性的,也可以使用其它在计算机之间建立通信连接的装置。
根据本发明,构建成了一个语音识别系统性能的模型,其并被用来鉴别语音识别系统对给定文本可能会出现的误差率。该模型在下面的描述中称作混淆模型。通过利用该混淆模型,不需要声学数据就可以估计语音识别系统在对根据特定文本产生的语音进行解码时将会如何执行。
图2提供了根据本发明构建和使用混淆模型的方法流程图。在图2的步骤200中对声学模型进行训练。它包括让一个人308朗读训练文本304的一部分以产生声学信号。该声学信号被接收器309检测到,并将其转换为电信号。该电信号提供给特征提取器,它从该信号中提取一个或多个特征。用于鉴别这些特征向量的方法是本领域所熟知的,包括13维唛尔频率倒谱系数(MFCC)提取,对每个特征向量产生13个倒谱系数。倒谱特征向量表示在相应的电信号帧中语音信号的频谱内容。所提取的特征向量提供给训练器302,它使用这些特征来训练声学模型300。构建声学模型的方法是本领域所熟知的。该声学模型可以采用任何期望的形式,包括但不仅限于隐含马克夫模型(HMM)。
在步骤202中,训练数据304的一部分通过人308讲出以产生测试信号,该测试信号使用训练的声学模型解码。声学信号通过接收器309和特征提取器310被转换为特征向量,然后将特征向量提供给解码器312。
解码器312使用声学模型300、字典315和训练语言模型314将这些特征解码成预测的语音单元序列。在许多实施例中,这些语音单元是语声单元,如音素、双音素、或三音素。
注意到使用排一法技术(leave-one-out)可以执行步骤200和202,其中训练数据304被分成多个训练数据集合。所有集合中除了一个集合都被用来构建声学模型,并且不用来构建声学模型的集合使用该声学模型和语言模型进行解码。然后通过从训练数据中选择不同的集合作为被解码的集合,和从剩余的集合中构建声学模型,以重复步骤200和202。对训练数据304中的每一数据集合重复该步骤,从而为训练数据304中的每一数据集合提供预测语音单元的单独集合。
如果在解码训练数据中使用的语言模型也已经使用该训练数据被训练过,也必须使用相同的排一法处理对语言模型进行训练。排一法技术(leave-one-out)有利于在预测语音单元中避免偏差。
在步骤204中,将语音单元的预测序列与从训练数据304中的语音单元的实际序列进行匹配。这是通过图3中的匹配模块316执行的。根据一个实施例,该匹配通过使用动态编程执行,其中将每一可能的匹配进行相互比较,基于对某些目标函数的优化而选择最佳的可能匹配。根据一个实施例,该目标函数为误差函数,其用来指示在匹配完成后,语音单元的预测序列不同于语音单元的实际序列的程度。根据某些实施例,该误差函数为简单的二进制函数,其中如果被匹配的两个语音单元不相互匹配就产生误差值1,如果被匹配的两个语音单元相互匹配就产生误差值0。在其它的实施例中,对不同类型的误差应用不同的加权。例如,提供相似发声的语音单元可以比提供完全不同发声的语音单元有更低的误差值。
如果混淆模型在它可以被训练之前需要被匹配的语音单元,那么将语音单元的预测序列匹配到实际序列的步骤只能在步骤204中执行。对于某种类型的混淆模型而言,例如隐含马克夫模型(HMM),这种匹配就不必要,因为对模型的训练本身就内在的包括匹配语音单元的步骤。
在步骤206中由混淆模型训练器318构建混淆模型320。根据一个实施例,构建隐含马克夫模型(HMM)作为混淆模型320。
图4所示为根据本发明中混淆模型的一个实施例的隐含马克夫模型(HMM)的四个状态。根据本发明的该实施例,为每一实际语音单元构建一单独隐含马克夫模型(HMM)。每一隐含马克夫模型(HMM)作为输出产生预测的语音单元,该预测的语音单元可以从其特定的实际语音单元产生。
该四个状态模型包括状态400、402、404和406。在该混淆模型中,状态400和406为非发出状态,离开那些状态的转移并不会导致产生预测的语音单元。另一方面,每次使用那些转移时,离开状态402和404的转移产生单个预测语音单元。在状态402和404,产生每一可能的预测语音单元都有一个单独的输出概率。
这些状态通过具有相关概率的转移连接起来。离开一个状态的各转移的概率之和等于1。于是,转移408和410的转移概率之和等于1,412和414的概率之和等于1。
图4中的整个模型的不同路径表示不同的置换和插入概率。例如沿转移410从状态400到状态406的路径表示在语音单元的预测序列中用无音素单元置换实际语音单元。沿转移408和414从状态400通过状态402和406的路径表示用单个预测的语音单元替换实际语音单元。注意到该路径包括实际语音单元与预测的语音单元相同的情况。沿转移408、412和418从状态400通过状态402、404和406的路径表示两个预测的语音单元替换实际语音单元,其中一个预测的语音单元在出状态402的转移中产生,第二个语音单元在出状态404的转移中产生。
状态404包括一个自转移416,它提供用具有任何数目的预测语音单元代替实际语音单元的机制。
每一隐含马克夫模型(HMM),例如图4中的模型,通过第一假定等概率对状态402和404中的每一预测语声语音单元进行训练,以及通过假定等转移概率对每一转移进行训练。这个简单的模型用来在实际语音单元和预测语音单元之间鉴别最佳匹配,从而为每一HMM提供可以用来训练状态概率和转移概率的匹配。使用更新过的模型,匹配被调节并且使用新的匹配重新训练模型。该过程一直继续到模型变得稳定。这个训练过程也就是熟知的维特比(Viterbi)训练。对这种训练过程进行稍微的变化,即考虑在实际语音单元和预测的语音单元之间进行多个转移。这就是熟知的前后向训练(Forward-Backward)或鲍姆维尔西(Baum-Welch)训练。
在其它实施例中,混淆模型被构建为基于规则的模型,其中每一规则提供从语音单元的实际序列中的单个语音单元转换为零个、一个或多个语音单元的预测序列中的语音单元的概率。根据本发明的实施例,每一规则可以是上下文独立的或相关的。对于上下文相关的规则,该规则可以是与该实际序列中单个语音单元的左边的、右边的、或左边和右边的上下文相关。另外,根据本发明可以使用任何数目的与单个语音单元左边和右边相关的语音单元,并且不同的上下文长度的组合也可以一起使用,从而将实际语音单元转换为预测的语音单元序列时,两个不同的规则可以提供两个不同的概率,其中一个规则使用一个上下文长度,另一个规则使用更长的上下文长度。在整个内插过程中这些概率可以组合使用,或者可以根据上下文选择单个规则概率。
为了训练规则概率,检查语音单元的实际序列和语音单元的预测序列之间的转移,以确定将实际语音单元转换为预测的语音单元序列时可以使用每一规则的次数。将与该规则相关的特定上下文中语音单元实际序列中单个语音单元出现的数目除以该次数。于是,每一概率表示为一个实际语音单元产生预测语音单元序列的可能性,如果需要,也可以表示为一实际语音单元序列中特定上下文产生预测语音单元序列的可能性。
根据本发明的一个实施例,不需要代替实际语音单元就可以将语音单元插入到预测的序列中。这是通过在匹配之前,在语音单元的实际序列中的每一语音单元之间插入一个空语音单元ε。在匹配过程中,这些空语音单元典型地将与预测序列中的空元匹配。然而有时候这些空语音单元ε会与预测序列中一个或多个语音单元匹配。于是,要为匹配中所出现的从空语音单元到预测语音单元的转换产生规则。
根据本发明的一个实施例,产生完每一规则的概率之后,就要删除一些规则以减少规则集合中的规则数目,从而简化解码。可以根据该上下文和单个语音单元在语音单元的实际序列中出现的次数来完成删除,或者可以根据上下文和实际语音单元产生特定预测语音单元序列的次数完成删除。在后面的情况中,当规则被删除但是提供不同的预测语音单元序列时,必须为共用该相同上下文的规则计算概率,从而具有相同上下文和实际语音单元的概率之和等于一。
混淆模型在步骤206中被构建完成后,它不需要产生声学信号就可以用来建模声学模型的性能。在步骤208中,解码器502使用混淆模型504、字典508和语言模型506对图5中的测试文本500进行解码。在使用混淆模型504、字典508和语言模型506计算时,解码器502产生词的预测序列集,并同时为每一序列产生概率。解码器502也经过测试文本500中该实际词序列。
在多数实施例中,解码器502所使用的语言模型506不同于训练语言模型314。典型地,所选择的训练语言模型314是弱语言模型,从而混淆模型指示声学模型300的弱度。另一方面,语言模型506是强语言模型,它与将要在语音识别系统中所用到的语言模型非常相似。在某些实施例中,不同的语言模型和相同的混淆模型504以及测试文本500一起使用,以根据如下面进一步讨论的误词率来确定这两个语言模型的性能关系。
根据基于规则的混淆模型,解码器502在混淆模型504中应用这些规则,以构建表示路径集合的网络,其中路径表示预测语音单元的可能序列,例如图6中的路径。在图6中,转移表示在状态600、602、604、606、608和610之间。任何两个状态之间的转移表示预测语音单元的序列,该序列有可能被用来代替用测试文本500表示的语音单元实际序列中的特定语音单元。例如,状态602和604之间的转移表示可以被用来代替语音单元P1的语音单元的所有预测序列。类似的,状态604和606之间的转移表示可以插入到语音单元实际序列的语音单元P1和语音单元P2之间的所有转移。注意到可以为语音单元的预测序列中的空语音单元提供转移。因此状态602和604之间的每一转移可以包含表示空语音单元的ε。这就说明,该实际语音单元P1在语音单元的预测序列中只是简单地被删除了。该网络也包含对应于空语音单元ε的状态和转移。这些连同实际语音单元一起被插入到状态600与602之间,和状态604与606之间的交替位置,如图6中所示。这些转移对应于相应地插入空语音单元ε所使用的规则。
在图6中,每一转移都有一个特定的概率。为了从已经为测试文本而产生的网络中产生预测词序列,该解码器在网络中通过遍历网络来探测路径。这里可以使用标准的图形变量方法,例如深度优先查找或宽度优先查找。被解码器探测出的每一路径对应于预测语音单元的一个序列。
为了提高效率和限制解码器所探测的路径数目,解码器可以选择删除(也就是不再进一步考虑)在变量过程中所产生的部分路径。例如,如果一个部分路径对应于不与任何词序列对应的任何语音单元序列的部分词首相匹配的预测语音单元序列,那么这样一个部分路径就可以被删除。相比于其它部分或完整路径具有较低概率的部分路径也可以被删除。
为了提供进一步的删除指导,该解码器可以首先产生与实际语音单元序列相同的预测语音单元序列。这样的序列通常会具有高概率,会有助于鉴别其它具有低概率的路径。
当解码器502沿特定的路径到达末状态612时,它已经具有对应于所探测的路径连同它相应的概率的预测语音单元序列。然后通过相对于该预测语音单元序列将对应于词单元序列的语音单元序列进行匹配,解码器就可以鉴别产生预测语音单元序列的所有词序列。
解码器在该网络中探测完所有的路径之后,它按照下面的等式为该预测的词序列分配概率。需要注意的是,为了简化表示,在推导该等式中我们已经作出了几个简化的假设。例如,我们已经假定每一词只有单个发音(也就是一个语音单元序列)。
等式1其中p(Wp|Wc)是对于给定的实际词序列Wc,预测词序列Wp的概率;p(Wp)是预测词序列的语言模型概率,分母中的求和是对于所有具有相同语音单元序列的预测词序列的所有语言模型概率之和,如预测词序列Wp,p(T|c)是沿路径t通过该网络的总概率,其中来自所有路径概率之和产生相同的语音单元序列Wp。(Wp)表示对应于该词序列Wp的语音单元,(t)表示沿路径t的预测语音单元序列。确定沿路径与每一转移相关的单个概率的乘积作为对于每一路径的概率p(t|c)。注意到因为为了确定相似的路径,转移ε并没有作为语音单元考虑,所以通过解码器格架不同的路径可以具有相同的预测语音单元序列。例如序列t-ε-iy将会和序列t-iy-ε作同样的考虑,因为当确定相似的序列时,语音单元ε被忽略了。
对于每一预测词序列的概率被确定之后,预测词序列和实际词序列之间的误差在步骤210中通过误词率计算器510被鉴别。通过鉴别预测词序列中的词和由解码器502提供的实际词序列中的词之间的差异来确定该误差。
在步骤212中,误差被用来产生测试文本500的误词率。根据一个实施例,对于该误词率的期望值按照如下确定E[WER]=Σi=1IE[ei]Σi=1INi]]>等式2其中E[WER]是对于测试文本500的误词率的预期,E[ei]是在测试文本中对于句子i的误差数目的期望值,Ni是实际句子i中词的数目,以及I是测试文本500中句子的总数目。
根据一个实施例,E[ei]等于为句子i预测的每一词序列的误差数目与该预测词序列的概率的乘积之和。这也可以写作等式E[el]=ΣWpErrCount(Wp,Wc)*p(Wp|Wc)]]>等式3这里,Wc根是句子i中的实际词序列;ErrCount(Wp,Wc)是通过相对于实际词序列Wc对预测词序列Wp进行匹配而鉴别得到的误差数目;p(Wp|Wc)是对于给定的该实际词序列Wc的预测词序列Wp的概率。对所有的预测词序列求和。
在另一个实施例中,通过根据所作出的误差类型对误差加权了计算句子的预期误差数目。换言之,对ErrCount(Wp,Wc)的计算通过基于不同的误差类型进行加权而完成。
于是,使用等式2就可以为测试文本产生误词率。由于该测试文本中的每一句子都是被单独检查,当被语音识别系统解码时,在测试文本中也可能鉴别出可能产生大量误差的那些词序列。注意到上面所示的系统不需要声学数据来确定该语音识别系统将会如何执行该文本。这就大大的减少了评估与各种任务相关的语音识别系统的成本。这也使得研发者能够改变它们请求用户输入的方式,从而引导用户使用该语音识别系统能够更容易解码的词序列。
另外,本发明允许多语言模型进行相互比较。这可以通过使用一种语言模型确定误词率,然后使用第二语言模型确定误词率来完成。然后将该误词率进行相互比较以确定这些语音模型的相关性能。
另外,本发明允许使用声学模型训练语言模型,该声学模型使用根据在步骤212中计算得到的误词率的区别性训练。根据这样的训练,该语言模型被修改以改善误词率。由于这个训练部分地基于声学模型的性能,因此所得到的语言模型的性能表现将会比没有参考声学模型的性能而训练得到的语言模型更好。
虽然已经参照特定的实施例对本发明进行了描述,本领域的普通技术人员会认识到,不脱离本发明的精神和范围可以在形式和细节上作出改变。
权利要求
1.一种建模语音识别系统的方法,该方法包括解码从训练文本产生的语音信号,该训练文本包括实际语音单元序列以产生预测语音单元序列;根据该实际语音单元序列和预测语音单元序列构建混淆模型;和使用混淆模型和语言模型解码测试文本,以产生至少一个模型预测的语音单元序列。
2.权利要求1中的方法,进一步包括为每一模型预测的语音单元序列产生概率。
3.权利要求2中的方法,进一步包括使用该模型预测的语音单元序列的概率以鉴别测试文本中可能产生错误的模型预测的语音单元序列的词序列。
4.权利要求1中的方法,进一步包括使用带有该混淆模型的第一语言模型解码该测试文本以形成模型预测的语音单元序列的第一集合;和使用带有该混淆模型的第二语言模型解码该测试文本以形成模型预测的语音单元序列的第二集合。
5.权利要求4中的方法,进一步包括使用该模型预测的语音单元的第一和第二集合以比较第一语言模型的性能和第二语言模型的性能。
6.权利要求4中的方法,其中使用该第一和第二语言模型解码该测试文本的步骤形成区别性训练语言模型方法的一部分。
7.权利要求1中的方法,其中解码语音信号包括使用训练语言模型解码该语音信号,其中该训练语言模型的性能表现不如用来解码该测试文本的语言模型好。
8.一种具有计算机可执行指令的计算机可读媒体,该指令执行的步骤包括使用为给定的实际语音单元的预测语音单元序列提供可能性的混淆模型,对包括语音单元实际序列的测试文本进行解码,以产生预测语音单元序列;和根据预测语音单元序列和该实际语音单元序列确定误差率。
9.权利要求8中的计算机可读媒体,其中解码测试文本进一步包括使用带有混淆模型的语言模型。
10.权利要求9中的计算机可读媒体具有用于进一步执行使用该误差率来训练该语言模型的步骤的计算机可执行指令。
11.权利要求8中的计算机可读媒体具有用于进一步执行鉴别用产生高误差率的实际语音单元的部分序列表示的词的步骤的计算机可执行指令。
12.权利要求8中的计算机可读媒体,其中该混淆模型包括规则集合,每一规则提供从实际语音单元到至少一个预测语音单元的转换和执行这一转换的概率。
13.权利要求12中的计算机可读媒体,其中用于从实际语音单元到至少一个预测语音单元的转换的第一规则是与实际语音单元的第一数目相关的上下文,用于从实际语音单元到至少一个预测语音单元的转换的第二规则是与实际语音单元的第二数目相关的上下文。
14.权利要求12中的计算机可读媒体具有用于进一步执行包括训练该混淆模型的步骤的计算机可执行指令。
15.权利要求14中的计算机可读媒体,其中训练该混淆模型包括解码从训练文本产生的语音信号以产生预测语音单元序列;在该训练文本中鉴别训练语音单元序列;使用该训练语音单元序列调整该预测语音单元序列;和使用该调整的序列来训练该混淆模型。
全文摘要
一种建模语音识别系统的方法,包括解码从训练文本产生的语音信号以产生预测语音单元序列。该训练文本包括实际语音单元序列,它与该预测语音单元序列一起使用以形成混淆模型。在进一步的实施例中,该混淆模型用来解码文本,以鉴别如果该语音识别系统根据该文本对语音解码预期将会出现的误差率。
文档编号G10L15/00GK1571013SQ200410007820
公开日2005年1月26日 申请日期2004年2月13日 优先权日2003年2月13日
发明者M·马哈间, Y·邓, A·阿塞罗, A·J·R·古那瓦达那, C·切尔巴 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1