混合式自动语音识别的制作方法_4

文档序号：9845045阅读：来源：国知局

10检测到匹配字词时，ASR系统210可以确定与该字词关联的上下文。例如，基于规则的分类器可以对接收到的语音进行语法分析并且识别语音中字词“地址”和“方向”的存在。ASR系统210可以使用基于规则的分类器来确定所识别字词是否与上下文相关联。在该示例中，字词“地址”和“方向”可以与车辆导航上下文相关联。这些检测到的字词的存在可以然后使得基于规则的分类器将“导航”上下文分配至接收到的语音。在不同的示例中，ASR系统210可以检测字词“电子邮件”或“文本”并且确定那些字词与口述上下文相关联。
[0050]基于统计的分类器可以在接收到的语音中识别单个字词或字词的组合，并且然后识别所提取的字词与特定上下文相关联的统计可能性。基于统计的分类器可以以各种方式实施。在一个示例中，基于统计的分类器可以分析所识别的文本，并且将其分类为上下文的预定集合，其指示了潜在的用户意图，诸如导航路线请求、感兴趣点、电话呼叫、或者电子邮件口述上下文。基于统计的分类器可以通过使用诸如支持向量机、信息论、基于熵测量的方法或神经网络等图形分类技术来注释所识别文本，并且使用这些技术分配对应的置信值。基于统计的分类器可以包括贝叶斯分类器、N元语法模型、和递归训练模型，列举少数。基于统计的分类器可以在一段时间内被训练以听取接收到的语音中的特定字词或字词的组合，并且然后在接收到的语音之后执行的一些动作之后，学习该动作的上下文。然后可以使用基于统计的分类器的训练来预测未来接收到的语音的上下文。在一个示例中，基于统计的分类器可以分析接收到的语音中包括的字词，并且然后得知作为分析字词的结果而已经使用了车辆12的GPS模块40。基于统计的分类器可以然后将“导航”上下文与分析得到的声音参数相关联。当基于统计的分类器搜集到字词或字词串以及与它们相关联的上下文时，基于统计的分类器能够将它们与未来提取的字词进行比较以确定可能的上下文。因此，当基于统计的分类器从接收到的语音提取字词，并且将它们与之前提取的字词或字词串以及它们相关联的上下文进行比较时，基于统计的分类器能够识别当前与过去参数之间的相似性。当存在相似性时，基于统计的分类器能够推断与过去的字词或字词组合相关联的上下文统计地可能适用于当前字词。
[0051]第三，处理器执行解码器模块214以处理每个测试图形的输入特征向量。解码器模块214也称为识别引擎或分类器，并且使用所存储的语音的已知参考图形。类似于测试图形，参考图形定义为相关声音帧和对应参数的连接。解码器模块214将待识别的子字测试图形的声音特征向量与所存储的子字参考图形进行比较和对比，评估它们之间的差异或相似性的程度，并且最终使用判定逻辑来选择最佳匹配子字作为识别的子字。通常来讲，最佳匹配子字是对应于所存储已知参考图形的与通过本领域技术人员已知的用于分析和识别子字的各种技术中的任意一种所确定的测试图形具有最小相异性或者最高可能性是该测试图形的子字。这样的技术可以包括动态时间扭曲分类器、人工智能技术、神经网络、自由音位识别器、和/或诸如隐藏马尔可夫模型(HMM)引擎等概率图形匹配器。
[0052]HMM引擎对本领域技术人员已知用于产生声音输入的多语音识别模型假设。在最终经由对语音的特征分析而识别和选择代表了声音输入的最可能正确解码的识别输出时考虑该假设。更具体地，HMM引擎生成形式为子字词模型假设的“N-最佳”列表的统计模型，其根据HMM计算得到的置信值或者诸如通过应用贝叶斯定理而给定一个或另一个子字的观察到的声音数据序列的概率而排序。
[0053]贝叶斯HMM方法识别对于声音特征向量的给定观察序列的与最可能话语或子字序列对应的最佳假设，并且其置信值可以取决于各种因素，包括与输入声音数据相关联的声音信噪比。HMM还可以包括称为对角高斯混合的统计分布，其对于每个子字的每个观察到的特征向量产生可能性得分，该得分可以用于对假设的N-最佳列表重新排序。HMM引擎也可以识别并选择模型可能性得分最高的那个子字。
[0054]以类似的方式，可以连接用于子字序列的单个HMM以建立单个或多个字词HMMt^b后，可以生成并进一步评价单个或多个字词参考图形的N-最佳列表和相关参数值。
[0055]在一个示例中，语音识别解码器214使用适当的声音模型、语法和算法来处理特征向量，以生成参考图形的N-最佳列表。当在本文中使用时，术语参考图形可以与模型、波形、模版、富信号模型、标本、假设或其他类型的参考互换。参考图形可以包括一系列代表了一个或多个字词或子字的特征向量，并且可以基于特定的说话者、说话风格和听觉环境条件。本领域技术人员将认识到，可以通过对ASR系统的适当的参考图形训练来生成参考图形并将其存储在存储器中。本领域技术人员还将认识到，可以操纵所存储的参考图形，其中基于参考图形训练与ASR系统实际使用之间的语音输入信号的差异来改变参考图形的参数值。例如，基于来自不同车辆乘员或不同声音条件的有限量训练数据，可以改变用于一个车辆乘员或某些声音条件训练的一组参考图形，并将其保存为用于不同车辆乘员或不同声音条件的另一组参考图形。换言之，参考图形无需是固定的，而是可以在语音识别期间调节。
[0056]使用词汇表中的语法和任何适当的解码器算法及声音模型，处理器从存储器访问解释了测试图形的数个参考图形。例如，处理器可以生成N-最佳词汇表结果和参考图形的列表和对应的参数值，并且存储至存储器。例示性的参数值可以包括在词汇表的N-最佳列表中的每个参考图形的置信得分、以及相关联的分段时长、可能性得分、信噪比(SNR)值等等。词汇表的N-最佳列表可以通过递减参数值的大小而排序。例如，具有最高置信得分的词汇表参考图形是第一个最佳参考图形等等。一旦建立了所识别子字的串，它们就可以用于利用来自字词模型222的输入来构造字词，并且采用来自语言模型224的输入来构造语句。
[0057]最后，后处理器软件模块216从解码器模块214接收输出数据用于任何适当的目的。在一个示例中，后处理器软件模块216可以从单个或多个字词参考图形的N-最佳列表识别或选择其中一个参考图形作为所识别语音。在另一示例中，可以使用后处理器模块216来将声音数据转换为文本或数位以用于与ASR系统的其他方面或其他车辆系统一起使用。在又一示例中，可以使用后处理器模块216来向解码器214或预处理器212提供训练反馈。更具体地，后处理器216可以用于训练用于解码器模块214的声音模型，或者用于训练用于预处理器模块212的改写参数。
[0058]方法或其部分可以在计算机程序产品中实施，计算机程序产品以计算机可读介质体现，并且包括可由一个或多个系统的一个或多个计算机的一个或多个处理器使用以使得系统实施一个或多个方法步骤的指令。计算机程序产品可以包括一个或多个软件程序，由以下构成:源代码、目标代码、可执行代码或其他格式的程序指令;一个或多个固件程序;或者硬件描述语言(HDL)文档；以及任何程序相关数据。数据可以包括数据结构、查找表、或任何其他适当格式的数据。程序指令可以包括程序模块、例行程序、程序、对象、部件等等。计算机程序可以在一个计算机或者相互通信的多个计算机上执行。
[0059]程序可以在计算机可读介质上体现，其可以是非瞬时的并且可以包括一个或多个存储装置、制造物品等等。示例性的计算机可读介质包括计算机系统存储器，例如RAM(随机存取存储器)、ROM(只读存储器)；半导体存储器，例如EPROM(可擦除可编程ROM)、EEPR0M(电可擦除可编程ROM)、闪存;磁盘或光盘或带等。计算机可读介质也可以包括计算机至计算机连接，例如，当数据通过网络或其它通信连接(有线、无线或其组合)传输或提供时。以上示例的任意组合也包括在计算机可读介质的范围内。因此应该理解的是，该方法可以至少部分地由能够执行对应于所公开方法的一个或多个步骤的指令的任何电子物品和/或装置来执行。
[0060]现在转向图3，示出了向ASR系统提供车辆12中接收到的语音的方法300。方法300开始于步骤310，其中在车辆12处从车辆乘员接收语音。位于车辆12中的人可以通过向车辆12的话筒32中说话而与如上所讨论的ASR系统210互动。话筒32通信地链接至处理装置52，其可以使用ASR系统210开始对接收到的语音执行语音识别分析。由车辆乘员向ASR系统210提供的语音可以涉及大量上下文并且包括大范围的词汇表。在一个情形中，车辆乘员可能发出关于车辆功能的语音，其可以由车辆处的ASR系统容易地理解。可以训练车辆ASR系统以识别诸如通常随着车辆部件行驶而出现的“方向”和“感兴趣点”等字词或命令。然而，车辆乘员也可以对于关于非车辆上下文的语音请求语音识别。例如，车辆乘员可以依靠ASR系统来口述电子邮件消息。电子邮件消息的内容可以涉及许多上下文的任何一个(或多个)。方法300前进至步骤320。
[0061]在步骤320处，将接收到的语音向远程定位ASR系统74和ASR系统210同时提供。与此同时，处理装置52开始处理接收到的语音，车辆远程信息处理单元30能够将接收到的语音的完整内容从车辆12无线地发送至远程定位ASR系统74，而与语音内容无关。当ASR系统210正在识别接收到的语音的内容时，其也正在通过无线载波系统14和陆地网络16从车辆远程信息

完整全部详细技术资料下载

当前第4页1 2 3 4 5