语音识别方法和装置的制造方法_2

文档序号:9867716阅读:来源:国知局
的每一项N元文法分别进行打分,取分值较高的识别结果作为上述答案中每一项N元文法的识别结果,其中,上述反向语言模型为通用语言模型减去上述正向语言模型之后的模型;然后,根据最终获得的上述答案的识别结果中每个词和解析出上述词的语言模型的组合的重要程度,确定上述答案的识别结果是否属于拒识范畴。
[0032]参见图4,图4为本发明语音识别方法中交叉模式一个实施例的示意图,交叉模式指在解码过程允许语音的识别结果由不同的两个模型分别进行打分组合。例如,对于上述答案的识别结果w0,...,wn,上述识别结果中每一项N元文法的打分p(wi w0...wi_l)可以由正向语言模型和反向语言模型分别进行打分,选取分值更高的结果胜出。对于最后的识别结果,每一个词都有可能是由正向语言模型或者反向语言模型中的某一个模型所得到,其本质是将正向语言模型和反向语言模型进行一种特殊的合并插值得到最终的合并WFST模型,如图4所示。对于最优的识别结果,将识别结果中的每个词和解析出上述词的语言模型的组合作为特征进入一个分类器中,根据上述词和解析出上述词的语言模型的组合的重要程度(由分类器输出),来判定最终的识别结果是否属于拒识范畴。具体来说,不包含关键受限领域中关键词的句子将更易于被判定为属于拒识范畴。
[0033]进一步地,本实施例步骤103之前,还可以包括:训练获得上述正向语言模型和上述反向语言模块,其中,上述反向语言模型为通用语言模型减去上述正向语言模型之后的模型。
[0034]本实施例中,上述正向语言模型可以包括强受限领域语言模型和关键受限领域语言模型,也就是说,本实施例中,受限领域会被分为强受限领域和关键受限领域这两个层面的受限领域。所谓受限领域,是指在当前对话过程中,正确回答系统提问的结果是一定程度上可穷举的。而其中强受限领域是指,这种枚举是在整个回答的句子上是可穷举的;而关键受限领域则是,在回答的关键性信息上是可穷举。简单的说,强受限领域是指回答的整个句式都是基本可穷举的。例如,对“你是否要订明天的酒店?”这样的提问,回答的结果无外乎“是”与“不是”以及一些相似的回答,一旦可以穷举表示肯定或否定的常用句式,就可以用于构建这个领域的语言模型的训练数据。而对于关键受限领域,则是很难对回答的句式进行穷举,但是回答的关键性信息则是可以穷举的。例如,对“你想在北京哪个商圈居住?”这样的提问,回答的句式自然是多种多样,但是北京的商圈地点这个关键性信息是可穷举的,于是可以将领域的关键性信息进行穷举,以获得构建这个领域的语言模型的训练数据。
[0035]具体地,训练获得强受限领域语言模型可以为:通过正则表达式构造出类语言模型的原始语料;穷举上述类语言模型的原始语料中需要填充的类内语料;如果上述原始语料和上述类内语料组合生成的训练语料的规模小于或等于预定阈值,则对上述训练语料进行训练,生成上述强受限领域语言模型;如果上述原始语料和上述类内语料组合生成的训练语料的规模大于预定阈值,则生成上述类语言模型的原始语料中需要填充的类内语料的表述语言模型,将上述类语言模型与上述表述语言模型进行组合,生成上述强受限领域语言模型。
[0036]其中,上述预定阈值可以在具体实现时根据实现需求和/或系统性能等自行设定,本实施例对上述预定阈值的大小不作限定。上述类语言模型的原始语料可以理解为句式,上述类语言模型的原始语料中需要填充的类内语料可以理解为上述句式中需要填充的内容。
[0037]具体地,训练获得关键受限领域语言模型可以为:通过正则表达式构造出类语言模型的原始语料;穷举上述类语言模型的原始语料中需要填充的类内关键词的所有语料;将上述原始语料与上述类内关键词的所有语料组合生成训练语料,并对上述训练语料进行训练,获得关键受限领域语言模型。
[0038]进一步地,在获得关键受限领域语言模型之后,还可以保留上述关键受限领域语言模型中上述类内关键词的语料的全部N元文法的概率,减小非类内关键词的语料的N元文法的概率。
[0039]举例来说,对于训练语料:“我想在北京订酒店”,其中“北京”为类内关键词。在3元语言模型中,对于3元文法需要保留“想在北京”、“在北京订”和“北京订酒店”这3个类内关键词的语料的3元文法的概率,而对于“我想在”等非类内关键词的语料的3元文法的概率则予以减小。
[0040]上述语音识别方法中,根据用户输入的语音向上述用户发出提问,然后接收上述用户针对所提问题的答案,最后根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴的识别结果,从而在为了完成特定任务的限定领域口语对话过程中,对整段语音切分后的语音文件进行有选择的识另IJ,拒识无效尤其是杂音或其他领域的语音数据;同时,将领域信息直接用于语音识别端,提高了有效语音的识别率,并且可以为后续的对话理解模块提供有效的理解信息以辅助对话理解模块,从整体上提高口语对话系统的性能。
[0041]图5为本发明语音识别装置一个实施例的结构示意图,本实施例中的语音识别装置可以作为语音识别服务器,或者语音识别服务器的一部分实现本发明图1所示实施例的流程。
[0042]如图5所示,上述语音识别装置可以包括:提问模块51、接收模块52和获得模块53;
[0043]其中,提问模块51,用于根据用户输入的语音向上述用户发出提问;
[0044]接收模块52,用于接收上述用户针对所提问题的答案;
[0045]获得模块53,用于根据提问模块52所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得接收模块52接收的答案的识别结果是否属于拒识范畴。
[0046]在传统的语音识别解码过程中,是采用一个通用语言模型,以应对各种领域下的语音识别,而当进行特定领域的语音识别任务的时候,本实施例针对特定领域构建与之对应的领域语言模型,如图2所示。本实施例中,对每一个独立的受限领域构建其特定的解码空间;另外,本实施例中所涉及的领域均是受限领域,但由于面向受限的层度不同,需要针对不同层度的受限领域制定不同方法的解码器模式。
[0047]其中,获得模块53,具体用于当提问模块51所提问题属于强受限领域时,采用非交叉方式进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴;当提问模块51所提问题属于关键受限领域时,采用交叉方式进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴。
[0048]本实施例中,当用于识别针对强受限领域的问题的答案的时候,获得模块53采用非交叉方式进行正向语言模型和反向语言模型的竞争;而当用于识别针对关键受限领域的问题的答案的时候,则获得模块53采用交叉方式进行正向语言模型和反向语言模型的竞争。
[0049]这是由于针对强受限领域的问题的答案基本上是处于常规说法被完全穷举的状态,因此一旦对话人说的是这些答案,则很容易由正向语言模型所解码出来;而一旦其中存在较多反向语言模型得分更高的N元文法,则容易由反向语言模型所解码。反向语言模型通常选用语音识别中通用情况下使用的语言模型(即通用语言模型)减去上述正向语言模型之后的模型。最终,非交叉模式下正反向语言模型的竞争结果,决定了上述答案的识别结果是否属于拒识范畴。具体地,非交叉模式下正向语言模型和反向语言模型的竞争的示意图可以如图3所示。
[0050]而针对强受限领域的问题的答案则无法依靠关键词前后的上下文句式来实现准确的拒识,因此只能依靠关键部分的N元文法来实现,需要通过依靠关键词文法是由正向语言模型得出的特征信息,来判定上述答案的识别结果是否应该拒识。因此,对于上述答案的识别结果,获得模块53可以根据每个词的正反向语言模型的归属,以及词本身是否是关键词来综合判定上述答案的识别结果是否应该被拒识。这里会训练一个简单的线性分类器来对以上两点的重要性做判定,得到最终的拒识结果。
[0051]图6为本发明语音识别装置另一个实施例的结构示意图,与图5所示的语音识别装置相比,不同之处在于,获得模块53可以包括:打分子模块531、比较子模块532和确定子模块533;
[0052]本实施例的一种实现方式中,打分子模块531,用于采用正向语言模型和反向语言模型分别对上述答案进行识别,分别获得上述正向语言模型对上述答案的识别结果的打分,以及上述反向语言模型对上述答案的识别结果的打分,其中,上述反向语言模型为通用语言模型减去上述正向语言模型之后的模型;
[0053]比较子模块532,用于将打分子模块531获得的正向语言模型对上述答案的识别结果的打分与打分子模块531获得的反
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1