使用离散语言模型的语音识别方法和设备的制作方法

文档序号：2829589阅读：346来源：国知局

专利名称：使用离散语言模型的语音识别方法和设备的制作方法
技术领域：
本发明涉及一种语音识别方法，它包括几种语言模型的实现以获得更好的识别。本发明也涉及用于实现这一方法的设备。
大量词汇的语音识别依赖于隐藏的马尔可夫(Marckov)模型，无论是声学部分或语言部分。
因此，一个句子的识别相当于寻找最可能的由话筒记录的声音数据给出的词序。
通常Viterbi算法用于这一任务。
但是，对于实际问题，例如有几千个词的词汇，甚至对bigram型简单的语言模型，用来分析的Merkov网络包含了太多的状态，使它不可能应用Viterbi算法来完成任务。
简化是必须的。
一种已知的简化就是所谓的“最大有效范围搜索”(“beam-search”)方法，它依据这样一种简单的思想在Viterbi运算过程中，网式结构的某一状态，如果它获得的分值低于某个门限值(网式结构是这些状态的瞬时代表，是Markov网络的过渡)就被消除。这种切断明显地减少了为最可能的顺序而进行的搜索过程中用于比较的状态的数目。一种方便的替换形式就是所谓的“N-最佳搜索”方法(对N个最佳解的搜索)，它输出表现为最高分的n个顺序。
当句子左右分析的分值处于中间值时，用在N-最佳搜索方法中的切断有时就不适合于对最佳顺序的搜索。有两个主要问题一方面，如果使这一方法适合于n-gram型语言模型，其中关于最可能词串的语言模型的所有信息局限于当前分析的n个连续词，那么它对于语法型语言模型很少有效，后者在词组间接影响。于是，可能发生这样的事情，即保持在该解码的某一接合处的n最佳顺序不再可能是该句子最后分析中的选择，因为该句子的剩余部分，由于一开始的低分而无效成为该句子的候选，但问题是它与该语法所代表的语言模型比较一致。
另一方面，经常发生的是用早先不同的语言模型开发了在模块或几种步骤中的应用程序，每一模块被分配到专门的界面设备。在n-最佳搜索方法中，这些不同的语言模型被混在了一起，并且由于这种混合，如果这种应用的分部分表现出满意的识别率，在加入新模型后，并不需要维持这些识别率，即使它的应用的方面不同，结果是这两种模型互相影响。
在这方面，

图1表示基于语法的语言模型图。黑色的圆代表决策步，黑色的圆之间的线模拟过渡，其中该语言模型把出现概率分配给这一过渡，白色的圆代表该词汇的词，根据它们可能的发音的语音学知识的构造的Markov网络与它们相关。
如果在应用中有几种语法有效，那么把每种语法的语言模型联合起来，形成一个单一的网络，激活每个语法的最初概率常规上由语法之间相等地共用，如图2所示，其中假设从初始节点分出来的两个过渡具有同样的概率。
因此，这就把我们带回到单个语言模型的最初问题上，借助于切断被认为最小概率的搜索组，“最大有效长度搜索”方法可能找到表现为最高分的句子(或在n-最佳搜索中的n句)。
·用搜索引擎从候选的顺序中确定最可能的词顺序。
根据一个特殊的实施例，在应用语言模型其间，搜索引擎的这种确定依赖于未考虑的参数。
根据一个特殊的实施例，语言模型是基于语法的语言模型。
本发明的主题也是一种用于语音识别的设备，包括声音处理器，用于收集声音信号，语言学解码器，用于确定相应于音频信号的词的顺序。其特征在于，语言学解码器包括·一组离散应用的语言模型，分析一个和相同的句子，用于确定一组候选的顺序，·搜索引擎，用于从一组候选的顺序中确定最可能的顺序。
对每个这样的模块，鼓励n-最佳搜索，而不考虑其它模块的分值。因此，想到各别信息项的这些分析是独立的并可平行的应用，并用来开发多处理器结构。
我们将讨论本发明在应用语法的语言模型中的情况，但是n种语法类型的一种语言模型也可利用本发明。
为了说明本实施例，我们考虑在广大市场方面应用的框架，即实现语言识别系统的电视机用户界面。话筒位于遥控器内，而被收集的音频数据被传递给电视接收机，用于语音的适当分析。接收机包括这方面的语音识别设备。
图5是语音识别设备1示例的方块图，为清楚起见，语音识别需要的所有装置都集成在设备1中，即使在设想的应用框架内，在该链的起端上的某一元件被包括在在接收机的遥控器中。
这个设备包括音频信号处理器2，执行从话筒3由信号收集电路4收集来的音频信号的数字化，处理器也把数字取样信号转换成从预先确定的字母中选择的声学符号。为此目的，它包括声学一语音学的解码器5。语言学解码器6处理这些符号，以确定符号顺序A的最可能的词顺序W。
语言学解码器应用声学模型7和语言模型8，它们是由基于假设的搜索算法9来实现的。声学模型，例如是一个所谓的“隐型Markov”模型(或HMM)。它被用来计算在解码过程中考虑词顺序的声学得分(概率)。本发明实施例中实现的语言模型是基于语法的模型，它由BackusNaur公式的句法规则相助来描述。语言模型用来引导该音频数据训练的分析，并用来计算语言学分。在本实施例中，作为识别引擎的搜索算法是基于Viterbi型算法的搜索算法，并被称为“n-最佳”。N-最佳型算法在分析的每一步确定一个句子由所收集的音频数据给出的最可能的n个词顺序。在句子的末尾，最可能解决方案从该n个候选中选则。
上面一节提到的概念本身已为业内人士所熟知，但是，特别与n-最佳算有关的附加信息在下面著作中给出“用于语言识别的统计方法”F.Jelinek，MIT press 1999 ISBV 0-262-1006605 pp.78-84。
其它算法也能实现，特别是“最大有效长度搜索”类的其它算法，其中“n-最佳”算法是一种替代方法。
声学-语音学解码器和语言学解码器可以用合适的软件来实现，软件可在微处理器上执行，微处理器可以访问含有识别引擎算法和声学和语言模型的存储器。
根据本实施例，该设备实现几种语言模型。设想的应用是用于电子节目导视命令的声控界面，使第一个语言模型适合于滤波建议的传输，其目的是应用时间滤波器或主题滤波器于有效传输数据库，而使第二语言模型适合于改变节目导视上下文以外的通道(“转换频道”)。实际上已证明，声学上相同的句子，在两种模型的上下文框架内有十分不同的意义。
图4是原理图，表明相应于两种模型中的每一种树。如在图2和图3中的情况一样，黑色的圆代表决策步骤，线代表过渡，其中语言模型把出现概率分配给这些线，而白色的圆代表词汇的词，它与根据它们可能的发音的语言学知识构建的Markov网络相联系。
把最大有效范围搜索过程的不同情况分别应用于每个模型，他们并不合并而是保持区别，并且处理的每种情况都提供对有关模型最可能的句子。
根据一个改变的实施例，把n-最佳型处理用于一个或多个或所有模型中。
常规上，当完成对每一种模型的分析时，每个模型的最佳得分(或多个最佳得分与变化有关)用来对一般可以理解的句子的选择。
根据改变的实施例，一旦用每一模型进行分析之后，从这一分析中分离出的各种候选句子用作第二次、精细的、用声学参数的分析阶段，这在以前的分析过程中未曾实现过。
所建议的处理要点不是形成全球语言模型，而是维持部分的语言模型。每一模型独立地由最大有效长度搜索算法来处理，并且计算所获得的最佳顺序得分。
因此，如图4所示，本发明依赖于一组离散的模型，每个得益于系统资源的部分，他们可能建议在优先的多任务结构中使用一个或多个处理器。
一个优点是每种语言模型的困惑度低，并且n种语言模型出现的困惑度总和低于把它们合并成一个语言模型出现的困惑度。因此，计算机处理要求较少的计算能力。
此外，当从各种搜索处理结果中选择最佳句子时，原始句子的语言模型的知识已给出了关于它的场景和应用方面的信息内容。因此，有关的句法分析程序可用于这些方面，并因此更简单、更有效。
在我们的发明中，一个模型表现出同样的识别率，或更精确地说，提供相同的n个最佳句子组和对每一个n最佳句相同的分值，不论它是单独的或与其它模型一起用。没有因把这些模型合并成一个用而有性能的降低。
权利要求
1.一种语音识别方法，包括收集音学信号的步骤，声学—语音学的解码步骤和语言学解码步骤，其特征在于语言学解码步骤包括如下步骤·把一组语言模型离散应用于声音顺序的分析，用来确定一组候选词的顺序；·用搜索引擎从候选的句子中确定最可能的词的顺序。
2.根据权利要求1所述的方法，其特征在于，搜索引擎的确定依赖于在语言模型应用期间未考虑的参数。
3.根据权利要求1或2所述的方法，其特征在于，语言模型是基于语法的语言模型。
4.一种语音识别设备，包括音频处理器(2)，用于收集音频信号，语言学解码器(6)，用于确定相应于音频信号的词顺序，其特征在于，语言学解码器包括·一组语言模型(8)，离散应用分析一个和相同的句子，用于确定一组候选的顺序；·搜索引擎，用来从一组候选的顺序中确定最可能的顺序。
全文摘要
本发明的主题是一种语言识别方法，包括收集音频信号的步骤，声学—语言学解码步骤和语言学解码步骤。根据本发明、语言学解码包括下列步骤把一组语言模型离散应用于声音顺序的分析，用来确定一组候选词的顺序；用搜索引擎从该候选的顺序确定最可能的词的顺序。本发明的主题也是一种为实现该方法设备。
文档编号G10L15/18GK1402868SQ00816567
公开日2003年3月12日申请日期2000年12月1日优先权日1999年12月2日
发明者努尔－埃迪·塔齐尼, 弗雷德里克·苏夫莱申请人:汤姆森许可贸易公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：努尔-埃迪.塔齐尼;弗雷德里克.苏夫莱
技术所有人：汤姆森许可贸易公司
我是此专利的发明人