用于车辆的基于声学和域的语音识别的制作方法

文档序号：11621575阅读：241来源：国知局

本公开涉及用于语音识别的基于声学和域的方法。

背景技术：

语音识别系统可以将可听见的声音解释成从车辆乘客发起的命令、指令或信息。当环境噪声覆盖掉语音时，可能难以辨别语音。车辆状态信息可用于改善语音的识别。然而，在特定情况下车辆状态信息可能妨碍准确的语音识别。

技术实现要素：

一种用于车辆的语音识别系统包括：处理器，被配置为经由特定域语言模型和声学模型识别语音，并被配置为：响应于所述声学模型具有的针对识别的语音的置信度落入相对于所述特定域语言模型的置信度而定义的预定范围内，仅经由所述声学模型识别语音。

一种语音识别系统包括：处理器，被配置为具有特定域语言模型和声学模型，并被配置为：响应于接收到包含语音的信号，使用被馈入车辆状态输入的机器学习算法产生特定域置信度，并基于特定域置信度与声学模型置信度的合成而选择与特定域语言模型和声学模型的潜在结果关联的多个语音识别路径中的一个。

根据本发明的一个实施例，被馈入车辆状态输入的机器学习算法是人工神经网络。

根据本发明的一个实施例，用于被馈入车辆状态输入的机器学习算法的车辆状态输入包括天气状况或交通状况。

根据本发明的一个实施例，用于被馈入车辆状态输入的机器学习算法的车辆状态输入包括在车辆接近度内的移动装置。

根据本发明的一个实施例，用于被馈入车辆状态输入的机器学习算法的车辆状态输入包括会话历史。

根据本发明的一个实施例，处理器还被配置为具有解码器算法以确定声学模型置信度。

一种语音识别方法包括：通过处理器，执行根据从多个识别假设中选择的识别假设而从包含语音的信号中识别的车辆命令，其中，每个识别假设是基于包括多个特定域语言模型置信度中的一个和多个声学模型置信度中的一个的共同的语音域对的乘积的，所述多个特定域语言模型置信度是根据将机器学习算法应用于车辆状态输入而被推导出的。

根据本发明的一个实施例，机器学习算法是人工神经网络。

根据本发明的一个实施例，人工神经网络具有与车辆命令相关的输出。

根据本发明的一个实施例，所述方法还包括：基于所述多个声学模型置信度中的所述一个落入相对于所述多个特定域语言模型置信度中的所述一个而定义的预定范围内，在产生所述乘积之前按比例减小所述多个特定域语言模型置信度中的所述一个。

根据本发明的一个实施例，所述车辆状态输入包括天气或交通。

根据本发明的一个实施例，所述车辆状态输入包括在车辆接近度内的移动装置。

根据本发明的一个实施例，所述车辆状态输入包括会话历史。

附图说明

图1是描绘具有自动语音识别系统的车辆的示例的示意图；

图2是描绘自动语音识别系统的示例的示意图；

图3是自动语音识别系统的流程图；

图4是具有一种以上的声学模型假设的自动语音识别系统的流程图；

图5是具有针对声学模型和特定域语言模型的置信度(confidencescore)的示例值的示图；

图6是用于确定特定域语言模型的置信度的机器学习算法。

具体实施方式

在此描述了本公开的实施例。然而，应该理解的是，所公开的实施例仅仅是示例，并且其它实施例可采用各种替代形式。附图不必按比例绘制；可夸大或最小化一些特征以示出特定组件的细节。因此，在此公开的具体结构和功能细节不应被解释为具有限制性，而仅仅作为用于教导本领域技术人员以多种方式利用本发明的代表性基础。本领域普通技术人员将理解的是，参照任一附图示出并描述的各种特征可与在一个或更多个其它附图中示出的特征相结合，以产生未被明确示出或描述的实施例。示出的特征的组合提供用于典型应用的代表性实施例。然而，针对特定应用或实施方式，可期望与本公开的教导一致的特征的各种组合和修改。

自动或手动的语音识别已经成为现代车辆中的重要的附件功能。语音识别可在车辆和乘客之间提供免提输入和交互。各种类型的车辆可利用语音识别。例如，飞行器、水运工具、航天器或陆基车辆可受益于识别来自乘客的语音指令。这些车辆可包括可使用人机界面访问或调用的多个功能。人机界面可包括自动语音识别系统，自动语音识别系统将人类语音解码或翻译成车辆或辅助系统能够理解的指令。来自车辆系统或环境的环境噪声可降低利用声学模型的自动语音识别系统的准确度。

一个麦克风或多个麦克风可用于将来自乘客的声音转换成电信号。麦克风可位于乘客的移动装置中或者遍布于车辆中。麦克风可将接收到的声音信号转换成数字语音数据，并在通信总线上发送该数据，或者移动装置可将数字语音数据发送给车辆的通信总线。移动装置可经由有线连接或无线连接(例如，蓝牙、wi-fi、zigbee、以太网等)连接到车辆数据总线。语音识别服务器、处理器、控制器或系统可位于本地、位于车辆中或者位于远处的数据中心。本地语音识别服务器可连接到通信总线以接收数字语音数据。对于远程的服务器，车辆远程信息处理单元可用作车辆与语音识别服务器之间的接口。语音识别系统可将从车辆附近或内部的乘客接收的语音发送到本地识别服务器或远程识别服务器。然后服务器可将识别后的语音发送回车辆。

服务器可被配置为向任意数量的客户端发送数据和接收来自任意数量的客户端的数据。服务器可连接到作为服务器数据的存储库的数据集市(datamart)、数据存储区或数据仓库。任意数量的客户端都可将信息输入到数据存储区中，以便提供增强且准确的语音识别。语音识别处理可位于经由互联网可访问的服务器上或位于车辆自身内。

语音识别系统可被配置为将识别的语音自动转换成可读文本或机器代码。现代的语音识别系统可使用多个识别模型的组合来识别语音。一种类型的模型可源于具有可识别的词语或短语的列表的词库。另一种类型的模型可源于对包含在音频信号中的声学性质的统计分析。这些语音识别系统可被实现在车辆中以通过使用本领域已知的解码器算法来识别乘客指令或通信。

车辆可使用语音识别来向乘客确定期望的车辆行为。例如，语音识别可指示车辆使车辆车厢冷却下来或者呼叫亲近的朋友。语音识别可在不需要用户输入的情况下提供期望目的地的指示或关于期望路线的指令。

车辆可包括能够汇集相关状态输入以改善语音识别的特定域语言模型。自动语音识别系统可使用先前学习的统计模型或实时学习的统计模型来预测更准确地确定乘客的语音的特定域语音识别模型。对相关状态输入的统计分析可使得自动语音识别系统能够缩小声学模型的搜索范围或词库模型的搜索范围。

状态输入可包括发动机状态信息、加热、通风或冷却的状态、车辆运动状态、外部或内部的指示符状态、车窗雨刷器状态、环境状况信息、车窗位置或车门位置、车厢声音、座椅位置或由车辆计算机接收的其它车辆信息。状态输入还可包括信息娱乐系统状态、会话历史、天气、位置、交通、便携式装置或可用于改善语音识别的任何其它信息。状态输入可包括在车辆接附近的漫游装置或移动装置。这些状态输入可与车辆命令或车辆系统相关。

可通过由车辆的处理器或控制器或者远程服务器执行的多个统计处理、机器学习算法(mla)或人工神经网络(ann)来获得特定域的置信度。例如，控制器可将指示特定域的相关状态输入的数量相加，并将得到的和除以可用状态输入的总数以返回特定域的置信度。作为统计处理的另一示例，控制器可对被确定为对缩小预期的特定域模型特别有用的特定的相关状态输入进行加权。可被加权的相关状态输入可以是车辆速度。由于处于交通堵塞中的人可能对寻找方向感兴趣，因此，与低的车辆速度相关的状态输入可被赋予比其它的与较高的车辆速度相关的状态输入更高的优先级。gps也可以是交通堵塞或其它基于云的数据的指示符。被赋予高优先级的第二状态输入可以是极限温度指示符。暴露在极限温度下的车辆可能需要与内部气候控制相关的高置信度。系统可能会给极限温度状态输入分配高置信度。可以使用本领域技术人员已知的用于确定特定域的置信度的任何其它方法。可通过相当多的本领域已知的多种方法来获得声学置信度。mla可应用于基于反馈或者在工厂中执行的或在道路上更新的一系列算法来调节特定域的置信度和输出。ann可应用于基于输入层、隐藏层和输出层来调节特定域的置信度和输出。所述多个层可被配置为将状态输入映射到相关的特定域语言模型。

置信度或置信测度通过数值方法或统计方法来指示语音或参数的准确识别或精确识别的概率或可能性。例如，置信度可指示声学模型已识别语音的准确度的水平。这些方法是本领域所公知的并且在不断演进。置信度可指示针对给定语音识别的最相关的域。

但是，特定域模型可以为语音识别提供提高的准确度。特定域模型通常在噪声环境中提供增强的语音识别，原因在于，声学模型识别或词库模型识别可能由于环境噪声而具有低的置信度。特定域模型通过经由分析车辆的相关状态输入来针对特定域定制识别，降低了识别效果差的概率。特定域模型可拦截、取代在其它方面具有高准确度水平的声学模型识别或词库模型识别或侵占在其它方面具有高准确度水平的声学模型识别或词库模型识别的位置。特定域模型的绝对应用可能导致在其它方面能满足需要的声学模型或词库模型的位置被特定域模型侵占。语音识别系统可使用置信度来防止特定域模型的过度使用。

参照图1，车辆102可包括远程信息处理控制单元108、动力传动系统控制模块104-a、车身控制模块104-b、无线电收发器模块104-c、通信与娱乐单元104-d、气候控制管理模块104-e、gps模块104-f和用户界面模块104-g。车辆102可通过网络116以通信方式连接到语音识别服务器118，语音识别服务器118具有用于保持评级数据的数据存储区120。网络116可以是本地控制器局域网、蜂窝网络或互联网。数据可利用无线协议(802.11、蓝牙、gsm或cdma)或有线协议通过任何物理介质来传输。数据可形成为数据包并具有得到保证的传递(tcp)。数据可利用sql数据库或其它类似的关系数据库架构被存储在数据存储区120中。远程信息处理控制单元108可包括处理器110和调制解调器114，以识别语音。所述处理器可用于打包数据以传输到服务器118或者独自识别语音。麦克风122可用于将声学信号转换成数字电信号或模拟电信号。麦克风可连接到模块104或远程信息处理控制单元108中的一个，以允许对信号进行自动语音识别。扬声器124可用于向车辆的乘客提供指示。

参照图2，描绘了自动语音识别系统200的示意性示例。音频信号202是从车辆的麦克风122或移动装置接收的。音频信号202可包括环境噪声。声学特征被提取以形成声学模型204。一前一后或按顺序地，特定域的统计模型206可应用于相关状态输入208以执行域预测和重排序210。特定域语言模型212可使用识别的特定域212a至212e来形成。识别假设214可通过利用特定域语言模型212、声学模型204和词库模型216来被确定。

参照图3，流程图300描绘了用于语音识别的算法。步骤可被同时执行或依次执行。在步骤302，监测状态输入。状态输入可被分配真/假指示符或开/关指示符。在步骤304，可使用状态输入来确定域预测和排序。在步骤306，利用域预测和排序算法来确定特定域置信度。在步骤308，处理器可从车辆接收音频信号。在步骤310，处理器可确定声学模型的语音假设。在步骤312，声学模型的置信度根据声学模型的语音假设被推导出来或者被独立地确定。在步骤314，处理器可确定声学置信度是否大于特定域置信度。如果确定声学置信度大于特定域置信度，则如步骤316所示，将利用声学模型产生语音假设。如果确定声学置信度小于特定域置信度，则如步骤318所示，将利用特定域模型和声学模型两者产生语音假设。与步骤314所示的比较置信度的大小不同，在步骤314，当声学模型的置信度落入相对于特定域模型的预定范围或预定值内时，处理器可替换特定域区域。例如，如果声学置信度是60％并且特定域模型具有40％的置信度，则系统可选择使用声学模型和特定域模型两者来产生语音假设。这是因为，所述预定范围或预定值可等于特定域置信度和声学置信度之间的20％的差。如果预定范围是20％，声学置信度是80％并且特定域置信度是60％，则在步骤314，处理器可做出相同的决定。然而，如果特定域置信度是59％并且声学置信度(acousticconfidencescore、acs)是80％，则由于声学模型的置信度未落入相对于特定域置信度的预定范围内而使得系统可不使用特定域置信度。如果学习算法基于用户反馈确定了语音识别算法的大量错误迭代，则服务器或车辆可调整所述预定范围。这意味着预定范围可以是acs的函数、特定域置信度(domain-specificconfidencescore、dscs)的函数或acs和dscs的函数。例如，预定范围可以是相对于特定域置信度(dscs)的不同的标量声学置信度(例如，10％、15％或30％)。预定范围(predeterminedrange、pr)还可被计算为特定域置信度的函数。例如，预定范围可按照等式1表示的等式。

pr＝(acs×2)-dscs等式1

参照图4，描绘了用于语音识别的算法400。在步骤402，语音识别系统从车辆接收音频信号或数据。在步骤404，针对第一词语、短语、句子或一系列句子确定第一声学模型语音假设。在步骤406，确定声学置信度。在步骤408，监测状态输入以确定域预测和排序。在步骤410，确定域预测和排序。在步骤412，确定特定域置信度。在步骤414，可通过第一声学模型预测和特定域模型预测来确定第二声学假设。可通过使用与以上公开的方法相似的方法来确定第二声学假设的使用。为了确定将被使用的最佳的特定域模型，与特定域模型和第一声学模型两者关联的置信度可以相乘。具有最大的合成置信度的群组可被使用。

参照图5，描绘了具有与潜在结果关联的多个潜在识别路径的算法500的至少一个实施例的示例。每个识别路径都具有第一声学模型语音识别假设502，第一声学模型语音识别假设502根据第一潜在词语、短语、句子或一系列句子被确定。针对每个声学模型语音假设确定置信度。与每个声学假设相关的是具有置信度504的特定域语言模型路径。语音识别假设502和特定域语言模型置信度504形成共同的语音域对。共同的语音域对可通过将声学假设与每个域的词库相关联来被识别。例如，术语“呼叫”将落入电话域内，或者术语“改变”可落入气候控制域内。为了确定适当的语音识别路径，在506，第一声学模型语音假设乘以特定域置信度以产生乘积。在508，处理器可选择排名最高的路径并使用声学模型语音识别来对剩余的音频样本执行语音识别。算法500可对每个词语、短语或句子重复执行相似处理以提供改善的语音识别。算法500可确定特定的车辆命令或请求动作。这些语音识别迭代可根据对特定域模型是否应被使用进行持续评估来提供增强的语音识别。

参照图6，描绘了机器学习算法600。机器学习算法600可以是人工神经网络。机器学习算法600可具有两个车辆状态输入602和604。在一些实例中，机器学习算法600可汇集车辆状态输入。机器学习算法600可被馈入(fed)车辆状态输入。例如，位置状态输入602的值可以是零以表示特定位置。值为零的位置状态输入602可指示车辆位于拥有者的家中。温度状态输入604的值可以是负一以表示车辆车厢中的特定温度状况。值为负一的温度状态输入604可表示温度小于阈值。额外的车辆状态输入可被添加。车辆状态输入602和604可利用不同的特定域语言模型606a至606e中的每个的加权因子来合并。每个加权因子在图6中被指示为从状态输入602和604至特定域语音模型606a至606e中的每个的传输路径。加权因子可与状态输入602和604中的每个相关联，并按照等式2所示地被施加给状态输入602和604中的每个，以获得每个特定域语言模型的第二层值(secondlayervalue，slv)。

现在描述等式2，通过状态输入602与特定域语言模型606a箭头连接来指示状态输入602si1乘以加权因子w11。通过状态输入604与特定域语言模型606a箭头连接来指示另一状态输入604si2乘以加权因子w21。

si1×w11+si2×w21＝slv等式2

可以以相似的方式将等式2应用于其它的特定域语言模型606b至606e中的每个。这些加权值可被调整以针对其它域提高系统的准确度。加权值可在工厂被设置或在车辆使用过程中被调整。softmax函数608被用于使数据值进行逻辑回归以针对特定域模型置信度610a至610e中的每个确定生成的概率。

在此公开的处理、方法或算法可以交付给处理装置、控制器或计算机，或者通过处理装置、控制器或计算机来实现，其中，所述处理装置、控制器或计算机可包括任何现有的可编程电子控制单元或专用的电子控制单元。类似地，所述处理、方法或算法可以以多种形式被存储为由控制器或计算机可执行的数据和指令，其中，所述多种形式包括但不限于永久地存储在非可写存储介质(诸如，rom装置)上的信息以及可变地存储在可写存储介质(诸如，软盘、磁带、cd、ram装置和其它磁介质和光学介质)上的信息。所述处理、方法或算法也可在软件可执行对象中被实现。可选地，可使用合适的硬件组件(诸如，专用集成电路(asic)、现场可编程门阵列(fpga)、状态机、控制器或者其它硬件组件或装置)或硬件、软件和固件组件的组合来整体或部分地实现所述处理、方法或算法。

说明书中所使用的词语是描述性词语而非限制性词语，并且应理解的是，可在不脱离本公开的精神和范围的情况下做出各种改变。如前所述，可将各种实施例的特征进行组合以形成本发明的可能未被明确地描述或示出的进一步的实施例。尽管针对一个或更多个期望特性，各种实施例已经被描述为提供优点或优于其它实施例或现有技术实施方式，但是本领域的普通技术人员应认识到，根据特定的应用和实施方式，一个或更多个特征或特性可被折衷以实现期望的整体系统属性。这些属性可包括但不限于成本、强度、耐用性、生命周期成本、市场性、外观、包装、尺寸、可维护性、重量、可制造性、装配的容易性等。因此，被描述为在一个或更多个特性方面不如其它实施例或现有技术实施方式满足期望的实施例并非在本公开的范围之外，并可被期望用于特定的应用。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：季安;斯科特·安德鲁·安曼;布丽奇特·弗朗西丝·莫拉·理查森;约翰·爱德华·胡伯;弗朗索斯·沙雷特;兰杰尼·兰加拉詹;金塔拉斯·文森特·普斯科瑞斯;阿里·哈萨尼
技术所有人：福特全球技术公司
我是此专利的发明人

上一篇：一种音频数据的处理方法及装置与流程
上一篇：语音识别的方法及装置与流程