基于深度的语境识别的制作方法_4

文档序号：8303463阅读：来源：国知局

，命令处理系统200可增加、修改或请求信息用于生成设备命令。
[0078]如图5中说明的过程及其序列仅是说明性的。可以对过程和/或序列做出各种修改。例如，可执行518语音识别以生成一组候选言语命令。接着，可根据驾驶员手势的确定510从候选言语命令组选择最终的言语命令。此外，可以并行执行一个或多个过程。例如，在深度相机222处生成506深度影像可与生成516音频信号并行执行。
[0079]可替代实施例
[0080]在一种或多种实施例中，使用一个或多个相机以提高手势检测的准确性。相机也可拍摄彩色影像。彩色影像可检测代表驾驶员手的皮肤色调。通过关联彩色影像与深度影像，手或前臂的位置可以检测得更加准确。此外，可以在车辆100中棚顶或别处的不同位置定位两个或更多个相机以补足或替代在一个深度相机处所拍摄的深度影像。
[0081]在一种或多种实施例中，命令处理系统200的一个或多个组件可以通过与安装在车辆100中的命令处理系统200通信的远程服务器体现。例如，语音识别模块256可体现在与安装在车辆100中的命令处理系统200无线通信的远程服务器中。
[0082]在一种或多种实施例中，命令处理系统200用于除了车辆的运输装置中。命令处理系统200可用于例如飞机或摩托车中。
[0083]尽管上面描述了几种实施例，但是可以在本发明的范围内做出各种修改。因此，本发明的公开内容是要说明而非限制所附权利要求书所述的本发明的范围。
【主权项】
1.一种识别言语命令的计算机执行方法，其包括: 通过放置在车辆中的深度相机拍摄至少一个深度影像，各个深度影像覆盖用户的至少部分并且包括表示从深度相机到用户的所述至少部分的距离的像素；根据所拍摄的深度影像识别用户的姿势或手势；以及根据所识别的姿势或手势生成手势信息；根据手势信息在有可能被用户定为目标用于操作的多个设备中确定一个或多个设备; 选择与被确定为目标的一个或多个设备相关联的多个言语命令；在用户做出姿势或手势的时候接收包括用户的话语的音频信号；以及通过使用所选择的多个言语命令对音频信号执行语音识别来确定用于操作一个或多个设备的设备命令。
2.根据权利要求1所述的方法，其中，用户的所述至少部分包括用户的手或前臂。
3.根据权利要求1所述的方法，其中，深度相机安装在车辆中的头顶控制台中，深度相机俯瞰用户。
4.根据权利要求1所述的方法，其中，多个设备包括车辆中的至少导航系统和娱乐系统。
5.根据权利要求1所述的方法，其中，手势信息表示用户的手或前臂是否定位在自深度相机的距离之内或者是否定位在自深度相机的所述距离之外，并且其中，响应于表示手或前臂定位在所述距离内的手势信息选择第一组言语命令，并且其中，响应于表示手或前臂定位在所述距离外的手势信息选择第二组言语命令。
6.根据权利要求5所述的方法，其中，第一组言语命令与在车辆中执行导航操作相关联。
7.根据权利要求6所述的方法，其中，第一组言语命令包括用于识别或设置用于导航操作的兴趣点的命令。
8.根据权利要求6所述的方法，其中，第二组言语命令与操作娱乐系统、空调控制系统或诊断系统相关联。
9.一种用于识别言语命令的命令处理系统，其包括: 深度相机，其放置在车辆中并且能够通过深度相机拍摄至少一个深度影像，各个深度影像覆盖用户的至少部分并且包括表示从深度相机到用户的所述至少部分的距离的像素；以及手势识别模块，其结合至深度相机，手势识别模块能够根据所拍摄的深度影像识别用户的姿势或手势并且根据所识别的姿势或手势生成手势信息；手势识别接口，其能够根据所识别的姿势或手势生成手势信息；以及命令提取模块，其能够: 根据所接收的手势信息在有可能被用户定为目标用于操作的多个设备中确定一个或多个设备；选择与被确定作为目标的一个或多个设备相关联的多个言语命令；在用户做出姿势或手势的时候接收包括用户的话语的音频信号；以及通过使用所选择的多个言语命令对音频信号执行语音识别来确定用于操作一个或多个设备的设备命令。
10.根据权利要求9所述的命令处理系统，其中，用户的所述至少部分包括用户的手或前臂。
11.根据权利要求9所述的命令处理系统，其中，深度相机安装在车辆中的头顶控制台中俯瞰用户。
12.根据权利要求11所述的命令处理系统，其中，深度相机包括立体视觉相机，其输送所拍摄的影像用于处理成至少一个深度影像。
13.根据权利要求9所述的命令处理系统，其中，所述多个设备包括车辆中的至少导航系统和娱乐系统。
14.根据权利要求9所述的命令处理系统，其中，手势信息表示用户的手或前臂是否定位在自深度相机的距离之内或者是否定位在自深度相机的所述距离之外，并且其中，命令提取模块响应于表示手或前臂定位在所述距离内的手势信息选择第一组言语命令，并且响应于表示手或前臂定位在所述距离外的手势信息选择第二组言语命令。
15.根据权利要求14所述的命令处理系统，其中，第一组言语命令与在车辆中执行导航操作相关联。
16.根据权利要求14所述的命令处理系统，其中，第一组言语命令包括用于识别或设置用于导航操作的兴趣点的命令。
17.根据权利要求16所述的命令处理系统，其中，第二组言语命令与操作娱乐系统、空调控制系统或诊断系统相关联。
18.一种用于识别言语命令的永久性计算机可读存储介质，当执行时，构造用来存储指令的计算机可读存储介质使处理器: 通过放置在车辆中的深度相机拍摄至少一个深度影像，各个深度影像覆盖用户的至少部分并且包括表示从深度相机到用户的所述至少部分的距离的像素；根据所拍摄的深度影像识别用户的姿势或手势；根据所识别的姿势或手势生成手势信息；根据接收的手势信息在有可能被用户定为目标用于操作的多个设备中确定一个或多个设备；选择与被确定为目标的一个或多个设备相关联的多个言语命令；在用户做出姿势或手势的时候接收包括用户的话语的音频信号；以及通过使用所选择的多个言语命令对音频信号执行语音识别来确定用于操作一个或多个设备的设备命令。
19.根据权利要求18所述的计算机可读存储介质，其中，用户的所述至少部分包括用户的手或前臂。
20.根据权利要求18所述的计算机可读存储介质，其中，深度相机安装在车辆中的头顶控制台中俯瞰用户。
21.根据权利要求18所述的计算机可读存储介质，其中，所述多个设备包括车辆中的至少导航系统和娱乐系统。
【专利摘要】一种基于从深度相机所检测的用户动作，用于选择或修剪与语音识别关联的适用言语命令的方法或系统。根据用户的手或手臂的深度，确定言语命令的语境并选择与所确定的语境对应的言语命令。然后使用所选择的言语命令对音频信号执行语音识别。通过使用一组合适的言语命令，语音识别的准确性得到提高。
【IPC分类】G06K9-00
【公开号】CN104620257
【申请号】CN201380030981
【发明人】T·E·多克尔, J·霍尔梅斯, J·克拉斯特, S·山本, P·瓦格赫菲纳扎里
【申请人】本田技研工业株式会社, 艾吉3技术有限责任公司
【公开日】2015年5月13日
【申请日】2013年4月15日
【公告号】EP2862125A1, US9092394, US20130339027, WO2013188002A1

完整全部详细技术资料下载

当前第4页1 2 3 4