语音识别方法和装置的制造方法

文档序号:9867716阅读:435来源:国知局
语音识别方法和装置的制造方法
【技术领域】
[0001 ]本发明涉及语音处理技术领域,尤其涉及一种语音识别方法和装置。
【背景技术】
[0002]—个口语对话系统是一个能够通过自然语言与用户进行智能沟通的对话系统,通常是由一个语音识别模块、一个对话理解模块、一个对话管理模块、一个对话生成模块以及一个语音合成模块组成。通常,语音识别模块负责将语言转化为文字,然后交由对话理解模块、对话管理模块和对话生成模块生成答复文字,再交由语音合成模块生成语音,这几个模块的处理过程之间是相互独立的。语音识别的过程中并不会考虑对话的内容,而对话管理模块也仅仅是获得纯粹的文字信息,并不能从语音层面获得相应的信息。这样的对话系统虽然将对话过程分割清晰,实现简单,但缺失了一些尤为重要的信息,对话理解的准确性较低,口语对话系统的整体性能不高。

【发明内容】

[0003]本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]为此,本发明的第一个目的在于提出一种语音识别方法。该方法在为了完成特定任务的限定领域口语对话过程中,对整段语音切分后的语音文件进行有选择的识别,拒识无效尤其是杂音或其他领域的语音数据;同时,将领域信息直接用于语音识别端,提高了有效语音的识别率,并且可以为后续的对话理解模块提供有效的理解信息以辅助对话理解模块,从而从整体上提高口语对话系统的性能。
[0005]本发明的第二个目的在于提出一种语音识别装置。
[0006]为了实现上述目的,本发明第一方面实施例的语音识别方法,包括:根据用户输入的语音向所述用户发出提问;接收所述用户针对所提问题的答案;根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得所述答案的识别结果是否属于拒识范畴的识别结果。
[0007]本发明实施例的语音识别方法中,根据用户输入的语音向上述用户发出提问,然后接收上述用户针对所提问题的答案,最后根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴的识别结果,从而在为了完成特定任务的限定领域口语对话过程中,对整段语音切分后的语音文件进行有选择的识别,拒识无效尤其是杂音或其他领域的语音数据;同时,将领域信息直接用于语音识别端,提高了有效语音的识别率,并且可以为后续的对话理解模块提供有效的理解信息以辅助对话理解模块,从整体上提高口语对话系统的性能。
[0008]为了实现上述目的,本发明第二方面实施例的语音识别装置,包括:提问模块,用于根据用户输入的语音向所述用户发出提问;接收模块,用于接收所述用户针对所提问题的答案;获得模块,用于根据所述提问模块所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得所述接收模块接收的答案的识别结果是否属于拒识范畴。
[0009]本发明实施例的语音识别装置中,提问模块根据用户输入的语音向上述用户发出提问,然后接收模块接收上述用户针对所提问题的答案,最后获得模块根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴的识别结果,从而在为了完成特定任务的限定领域口语对话过程中,对整段语音切分后的语音文件进行有选择的识别,拒识无效尤其是杂音或其他领域的语音数据;同时,将领域信息直接用于语音识别端,提高了有效语音的识别率,并且可以为后续的对话理解模块提供有效的理解信息以辅助对话理解模块,从整体上提高口语对话系统的性能。
[0010]本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0011]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0012]图1为本发明语音识别方法一个实施例的流程图;
[0013]图2为本发明语音识别方法中语音识别模型一个实施例的示意图;
[0014]图3为本发明语音识别方法中非交叉模式一个实施例的示意图;
[0015]图4为本发明语音识别方法中交叉模式一个实施例的示意图;
[0016]图5为本发明语音识别装置一个实施例的结构示意图;
[0017]图6为本发明语音识别装置另一个实施例的结构示意图。
【具体实施方式】
[0018]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0019]图1为本发明语音识别方法一个实施例的流程图,如图1所示,上述语音识别方法可以包括:
[0020]步骤101,根据用户输入的语音向上述用户发出提问。
[0021]步骤102,接收上述用户针对所提问题的答案。
[0022]步骤103,根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴。
[0023]在传统的语音识别解码过程中,是采用一个通用语言模型,以应对各种领域下的语音识别,而当进行特定领域的语音识别任务的时候,本实施例针对特定领域构建与之对应的领域语言模型,如图2所示,图2为本发明语音识别方法中语音识别模型一个实施例的示意图。本实施例中,对每一个独立的受限领域构建其特定的解码空间;另外,本实施例中所涉及的领域均是受限领域,但由于面向受限的层度不同,需要针对不同层度的受限领域制定不同方法的解码器模式。
[0024]本发明图1所示实施例中,步骤103可以为:
[0025]如果所提问题属于强受限领域,则采用非交叉方式进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴;如果所提问题属于关键受限领域,则采用交叉方式进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴。
[0026]本实施例中,当用于识别针对强受限领域的问题的答案的时候,采用非交叉方式进行正向语言模型和反向语言模型的竞争;而当用于识别针对关键受限领域的问题的答案的时候,则采用交叉方式进行正向语言模型和反向语言模型的竞争。
[0027]这是由于针对强受限领域的问题的答案基本上是处于常规说法被完全穷举的状态,因此一旦对话人说的是这些答案,则很容易由正向语言模型所解码出来;而一旦其中存在较多反向语言模型得分更高的N元文法,则容易由反向语言模型所解码。反向语言模型通常选用语音识别中通用情况下使用的语言模型(即通用语言模型)减去上述正向语言模型之后的模型。最终,非交叉模式下正反向语言模型的竞争结果,决定了上述答案的识别结果是否属于拒识范畴。
[0028]而针对关键受限领域的问题的答案则无法依靠关键词前后的上下文句式来实现准确的拒识,因此只能依靠关键部分的N元文法来实现,需要通过依靠关键词文法是由正向语言模型得出的特征信息,来判定上述答案的识别结果是否应该拒识。因此,对于上述答案的识别结果,可以根据每个词的正反向语言模型的归属,以及词本身是否是关键词来综合判定上述答案的识别结果是否应该被拒识。这里会训练一个简单的线性分类器来对以上两点的重要性做判定,得到最终的拒识结果。
[0029]具体地,图3为本发明语音识别方法中非交叉模式一个实施例的示意图,参见图3,采用非交叉方式进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴可以为:采用正向语言模型和反向语言模型分别对上述答案进行识别,分别获得正向语言模型对上述答案的识别结果的打分,以及反向语言模型对上述答案的识别结果的打分,其中,反向语言模型为通用语言模型减去正向语言模型之后的模型;然后,将上述正向语言模型对上述答案的识别结果的打分与反向语言模型对上述答案的识别结果的打分进行比较;如果正向语言模型对上述答案的识别结果的打分较高,则确定上述答案的识别结果不属于拒识范畴;如果反向语言模型对上述答案的识别结果的打分较高,则确定上述答案的识别结果属于拒识范畴。
[0030]图3中,WFST为加权有限状态转换器(WeightedFinite State Transducer)的缩与O
[0031]具体地,采用交叉方式进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴可以为:采用正向语言模型和反向语言模型对上述答案中
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1