用于识别语音的系统和方法_2

文档序号：9529295阅读：来源：国知局

个实施方式的具有两个强调的词的词序列的示意图；
[0041][图6]
[0042] 图6是根据本发明一个实施方式的词序列和分类的一组词候选的示意图；
[0043][图7A]
[0044] 图7A是本发明的示例性实施方式的示意图；
[0045][图7B]
[004引图7B是本发明的示例性实施方式的示意图；W及[0047][图7C]
[004引图7C是本发明的示例性实施方式的示意图。
【具体实施方式】
[0049] 图1A示出了根据本发明一些实施方式的能够实现用于识别语音同时使发出语音的用户的认知负荷减到最小的方法的系统1的示例。
[0050]系统1包括控制整个系统的操作的中央处理单元仰U) 100。系统1与存储器101 交互，存储器101包括与该系统的操作系统（0巧1010相关的软件、可由CPU100执行W向该系统的用户提供特定功能的应用程序1011 (诸如听写和纠错）W及与语音识别相关的软件1012。系统1还包括用于接收语音的音频接口（1/巧102,语音可W通过麦克风102记录或者从外部输入部104接收，如从外部系统获取的语音。
[0051] 系统1还可W包括一个或多个控制器，诸如用于控制显示器106的操作的显示控制器105,显示器106例如可W是液晶显示器化CD)或其它类型的显示器。显示器106用作系统1的光学用户接口，并且例如允许向系统1的用户呈现词序列。系统1还可W连接至用于控制音频输出系统112(例如，一个或更多个扬声器）的操作的音频输出控制器111。系统1还可W连接至一个或更多个输入接口，诸如用于接收来自操纵杆108的输入的操纵杆控制器107和用于接收来自小键盘110的输入的小键盘控制器109。容易理解的是，操纵杆和/或小键盘的使用仅仅是示例性性质的。同样，轨迹球，或箭头键可W被用于实现所需功能。另外，显示器106可W是用作用于接收来自用户的输入的接口的触摸屏显示器。而且，由于执行语音识别的能力，系统1可W完全省去任何非语音相关的接口。音频I/F102、操纵杆控制器107、小键盘控制器109W及显示控制器105由CPU根据0S1010和/或CPU 100当前执行的应用程序1011来控制。
[0052] 如图1B所示，系统1可W被嵌入车辆199的仪表盘150中。可W在方向盘130上设置用于控制系统1的操作的各种控制部131、133。另选或另外地，控制部125可W放置在控制模块120上。系统1被设置成改进用户语音的解释，W减少用户交互的次数，使得用户可W专屯、于操作车辆。
[0053] 图2A示意性地示出了根据本发明一些实施方式的具有改进的纠错能力的语音识别系统200的功能。语音识别单元200包括语音识别模块210,语音识别模块210可W通过系统1的CPU100执行存储在存储器101中的语音识别软件1012来实现。
[0054] 语音识别模块210接收作为词的序列的口头表示的语音230 (例如，完整句子）。在不同实施方式中，语音包括音频信号、语音特征或基于帖的声学分数中的一个或组合。词的序列典型地包括多个词，例如，Ξ个或更多个词。
[0055] 语音识别模块被配置成执行语音230的语音识别，W确定一组解释，在最佳情况下，该组解释与该语音表示的词的序列相似。该组中的每一个解释都包括词的序列。语音识别模块可W使用声学模型201和语言模型202。
[0056] 声学模型201例如可W存储在系统1的存储器101中，而且在一个实施方式中，考虑到词序列假设或表示词的语音学特性的单元的其它序列，描述了声学特征序列的有条件的概率。声学模型可W包括音素或其它声音单元。在一些实施方式中，声学模型可W包括音素序列模型，子语音状态序列的模型W及考虑到每个子语音状态的声学特征的概率的高斯混和模型。在其它实施方式中，声学模型可W包括从声学特征至语音状态序列概率的变换（例如，使用神经网络）。
[0057] 语言模型202也可W存储在系统1的存储器110中，并且可W包括关于包含将在语言中出现的至少一个词的词序列的概率的统计。语言模型202例如可W是与要在语言中使用的单个词的可能性相关的一元（uni-gram)语言模型，或者表达语言中彼此跟随的两个词的可能性的二元化i-gram)语言模型。而且，可W使用考虑更大数量的后续词的语言模型，例如，Ξ元（tri-gram)语言模型等。
[0058] 在一些实施方式中，语音识别模块210通过将语言分段成被假定与单个的词相关的多个段来执行语音识别，并接着通过例如识别输入的语音序列分段中的音素并且通过将音素与语言模型202的音素至文本映射进行比较来识别单个词。
[0059] 语音识别模块210通常针对每一个输入语言序列区段来识别一组可能的解释，其中，每一个解释都包括词的序列。解释还已知为识别结果。每一个解释都与识别置信度值相关联，例如，在表示词序列时代表解释的正确性的分数。该分数表达识别结果正确的语音识别的置信度。针对每个输入语音段，语音识别模块可最大识别置信度值来确定识别结果（例如，词），从而产生被视为表示输入语音序列的词的序列。
[0060] 因此，对语音的语音识别还通过考虑语言模型201来精炼。接着，除了识别置信度值W外，在利用语言模型和识别词汇生成语音的一组解释过程中，将语言中出现一个或更多个词的组的概率考虑在内。例如，在二元语言模型的情况下，由于双字语言模型，即使可能的识别结果相对于声学空间具有高的置信度，例如与"t虹ee"相对比的"化ee"，但语音识别模块210也仍然可W利用例如预期的词序列"att虹ee0'clock"中的"at"和 "o'clock"的上下文，来判定"t虹ee"正确。
[0061] 图2B示出了语音240的一组解释的示例。在一些实施方式中，该组解释被确定或表示为语音的η-最佳列表250或语音的词点阵（lattice) 260。另外，各种实施方式针对组 251中的每一个解释确定分数（例如，分数255)，代表经受该词序列约束的解释的正确性。所述分数可W通过许多方式来确定。
[0062] 例如，该组解释的另选表示是已知为点阵260的图表，其中，节点（例如，节点265 和267)表示W语音的特定区域标示的每一个假设词，并且随特定上下文出现。在该表示中，在该η-最佳列表中的许多假设中在同一位置的出现词和词的序列可W被缩减成共用该点阵中的公共子路径。除了词W外，点阵的弧线可W包括声学和语言模型分数，使得词的序列的总体分数可W从沿着穿过该点阵的路径的分数导出。例如，弧线26U262及263可 W表示由跟随词"I"的词"don't"、"want"及"went"的相应概率所限定的分数。
[0063] 在一些实施方式中，该语音识别系统被公式化为概率模型，并且分数基于解释的概率，或所观察声学特征序列的词序列的概率。解释可W包括词的序列，而且还可W标识与所假设词相对应的说话的大概时间区。在一些实施方式中，考虑到声学数据，分数S(WI讶基于词的序列的概率。例如：
[0064] S(WIX)KP。（WIX)
[00财其中，-指示比例（即，S(W|X) =Pe(W|X)e，其中C是正常数），Θ是该模型的参数，9。指示利用参数Θ的概率测度，=-私0;3^;是解释中的假设的词的序列巧1， W2, . . .，Ww，而是在位置i假设的词（对于具有N个词的假设而言）。声学特征被表示为
其中，Xi是所说的话的声学特征的第j个矢量（对于具有Μ个声学特征矢量的说的话而言）。Pe(W|讶已知为假定X的W的后验概率。在另一实施方式中，该分数可W被限定为该量的对数：
[0066] S(W|X) = 1〇甜0 (W|X)+k，
[0067] 其中，k是任意常数）。
[0068] 在一个实施方式中，分数被分成不同的子分数：
[0069]
[0070]其中，媒规媒巧是来自具有参数Θ的词语言模型的分数，而^^幾隊)是来自具有参数Θαμ的声学模型的分数。此后，除非必要，为简化起见，省略参数Θ。
[0071] 另一实施方式将词序列与针对各个假设词的所说的话的假设时间区
的序列相关联，使得fg.是为词假设的位置。在该实施方式中，分数可W基于具有对准项（alignmentterm)p(R|W)的扩展模型，使得p(W)p

完整全部详细技术资料下载

当前第2页1 2 3 4 5