用于识别语音的系统和方法_5

文档序号：9529295阅读：来源：国知局

36的更新的组735。
[0145] 针对该示例性实施方式，一般重新评分函数
[0146]
[0147] 可W如上所述加W使用，具有向包括词"Carts"的序列赋予较高权重的特定函数 f狂，W，时，诸如：
[01 4引 f狂，W，时=f (W)=曰Icarts E W+0，
[0149] 和
[0150]
[0151] 还可W使用其它约束因子和/或指标函数。
[0152] 上述实施方式可W按许多方式中的任一种来实现。例如，运些实施方式可W利用硬件、软件或其组合来实现。当按软件来实现时，软件代码可W在任何合适处理器或处理器集合上执行，而不管设置在单一计算机中还是在多个计算机当中分布。运种处理器可W被实现为集成电路，在集成电路组件中具有一个或更多个处理器。然而，处理器可W利用采用任何合适格式的电路来实现。
[0153] 而且，应当清楚，计算机可W按许多形式中的任一种来具体实施，如机架式计算机、台式计算机、膝上型计算机、微计算机或平板计算机。而且，计算机可W具有一个或更多个输入和输入系统。运些系统尤其可W被用于呈现用户界面。运种计算机可W通过用任何合适形式的一个或更多个网络来互连，包括作为局域网或广域网，如企业网或因特网。运种网络可W基于任何合适技术，并且可W根据任何合适协议来操作，并且可W包括无线网络、有线网络或光纤网络。
[0154] 而且，在此概述的各种方法或处理可W被编码为可W在采用多种操作系统或平台中的任一种的一个或更多个处理器上执行的软件。另外，运种软件可W利用许多合适编程语言和/或编程或脚本工具中的任一种来编写，而且还可W被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。
[0155] 术语"程序"或"软件"在此按一般意义来使用，W指可W被采用W编程计算机或其它处理器来实现如上讨论的本发明的各个方面的任何类型的计算机代码或计算机可执行指令集。
[0156] 计算机可执行指令可W采用通过一个或更多个计算机或其它系统执行的许多形式，如程序模块。一般来说，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件W及数据结构。通常，程序模块的功能可W如在各种实施方式中所希望的组合或分布。
[0157] 而且，本发明的实施方式可W被具体实施为已经提供了示例的方法。作为该方法的一部分执行的动作可W按任何合适方式来安排。因此，即使在例示性实施方式中被示出为顺序动作，也可W构造按与所例示相比不同的次序来执行动作的实施方式，可W包括同时执行一些动作。
[015引在权利要求书中使用诸如"第一"、"第二"的普通术语来修改权利要求要素本身并不暗示一个权利要求部件相对于另一个要素的任何优先级、优先或次序，或者执行方法的动作的时间次序。而是仅仅被用作用于区分具有特定名称的一个权利要求要素与具有相同名称（供顺序项使用）的另一要素的标记，W区分运些权利要求要素。
【主权项】
1. 一种用于识别语音的方法，所述语音包括词的序列，该方法包括：利用声学模型和语言模型来生成所述语音的一组解释；针对每一个解释，确定在表达所述词的序列时表示解释的正确性的分数，以生成一组分数；确定用于识别经受词序列约束的所述语音的约束；以及基于每一个解释与所述约束的一致性来更新所述一组分数，其中，所述方法的步骤由处理器执行。2. 根据权利要求1所述的方法，其中，所述词序列约束包括所述词的序列中的词的数量、特定的词或特定的词的序列的存在或不存在、说出所述特定的词的时间、所述词的序列中的至少两个特定的词的顺序、所述词的序列中的两个特定的词的连接或分离、所述语音输入的主题中的一个或组合。3. 根据权利要求1所述的方法，其中，确定所述约束的步骤包括：向用户传送所述一组解释的子集；接收响应于所述传送的所述词序列约束；基于所述词序列约束来确定所述约束的类型；以及基于所述类型来确定所述约束。4. 根据权利要求3所述的方法，其中，所述类型是语言类型，并且确定所述约束的步骤包括：基于所述词序列约束来更新所述语言模型。5. 根据权利要求4所述的方法，其中，所述词序列约束是所述语音的主题。6. 根据权利要求3所述的方法，其中，所述类型是声学类型，并且确定所述约束的步骤包括：基于所述词序列约束来更新所述声学模型。7. 根据权利要求6所述的方法，其中，所述声学模型包括所述语音中的词与所述声学模型中的声学特征之间的对准。8. 根据权利要求7所述的方法，所述约束包括在特定时间区内仅存在一个词。9. 根据权利要求3所述的方法，其中，所述类型是上下文类型，并且确定所述约束的步骤包括：确定测试每一个解释中存在或不存在特定的词的评分函数。10. 根据权利要求9所述的方法，其中，所述评分函数测试所述特定的词的存在，所述方法还包括：基于所述语言模型来确定所述语音的方向；以及根据所述语音的方向，利用针对所述特定的词之前和之后的词的存在的测试来更新所述评分函数。11. 根据权利要求1所述的方法，所述方法还包括：确定指示与所述词序列约束的一致性的程度的约束因子；以及基于所述约束因子来确定受约束的评分函数以更新所述一组分数。12. 根据权利要求11所述的方法，其中，所述评分函数S' (W|X)为其中，00指示比例，i是所述解释中的N个词的序列Wi，w2，…，w N，而化是在位置i假设的词沒旨示所述声学模型的声学特征，其中，\是所述语音输入的所述声学特征的第j个矢量，而T是声学特征矢量的数量，函数p (. |..)是概率，:f:是一组可能的对准，：是所述语音的针对每一个假设的词的假设时间区的集合，使得 A是针对词^假设的位置，并且f(X，W，R)是针对声音序列、词序列以及对准中的一个或更多个输出指示与所述约束的一致性的程度的数值的约束因子。13. 根据权利要求12所述的方法，所述方法还包括：利用所述词序列约束来确定指标函数；以及确定所述约束因子作为具有确定约束满足程度的权重参数的所述指标函数的线性函数。14. 根据权利要求1所述的方法，其中，所述约束包括所述词的序列的元数据。15. 根据权利要求1所述的方法，所述方法还包括：确定具有最大分数的所述解释作为识别出的语音。16. -种用于识别用户的语音的方法，该方法包括：识别所述语音，以生成与对应的一组分数相关联的一组解释，所述一组分数在表达所述语音时表示每一个解释的正确性；以及迭代地更新经受至少一个约束的所述一组分数，使得针对每一个迭代，对于每一个解释，如果该解释与所述约束一致，则增加该解释的分数，并且如果该解释与所述约束不一致，则减少该解释的分数，其中，所述方法的步骤由处理器来执行。17. -种用于识别语音的系统，该系统包括：处理器，该处理器实现语音识别模块和纠错模块，其中，所述语音识别模块利用声学模型和语言模型来生成所述语音输入的一组解释，并且针对每一个解释，确定在表达所述语音时表示解释的正确性的分数；并且其中，所述纠错模块确定用于识别所述语音的约束，并且基于每一个解释与所述约束的一致性来更新所述解释的分数。18. 根据权利要求17所述的系统，所述系统还包括：音频接口，该音频接口用于接收表示词的序列的所述语音；控制器，该控制器用于向所述用户传送所述一组解释的至少子集，并且用于从所述用户接收词序列约束，其中，所述处理器基于所述词序列约束来确定所述约束。19. 根据权利要求17所述的系统，其中，用于识别所述语音的所述系统被嵌入车辆的仪表盘中。
【专利摘要】一种系统和方法识别包括词的序列的语音。利用声学模型和语言模型生成语音的一组解释，并且针对每一个解释，确定在表达所述词的序列时表示解释的正确性的分数，以生成一组分数。接下来，基于每一个解释与响应于接收到词序列约束而确定的约束的一致性来更新所述一组分数。
【IPC分类】G10L15/22, G10L15/08, G10L15/183
【公开号】CN105283914
【申请号】CN201480033420
【发明人】B·哈尔沙姆, J·R·赫尔歇
【申请人】三菱电机株式会社
【公开日】2016年1月27日
【申请日】2014年5月19日
【公告号】DE112014002819T5, US9159317, US20140372120, WO2014199803A1

完整全部详细技术资料下载

当前第5页1 2 3 4 5