基于深度的语境识别的制作方法_2

文档序号:8303463阅读:来源:国知局
可读性和指导的目的选择的,而不是选择用来描述或限制发明主题。因此,本发明旨在作为所附权利要求书所述的范围的说明而非限制。
[0029]实施例涉及基于由深度相机所检测的用户动作或手势选择或修剪与语音识别关联的适用言语命令。根据用户的手或前臂相对于深度相机的深度,确定言语命令的语境并选择与所确定的语境对应的一个或多个命令词典。然后使用所选择的命令词典对音频信号执行语音识别。通过根据语境使用命令词典,语音识别的准确性得到提高。
[0030]本文所使用的术语“用户”包括车辆的驾驶员以及乘客。用户可以是试图控制车辆中一个或多个设备的任何人。
[0031]本文所使用的“姿势”是指用户的身体部分的形态。姿势可以是例如用户的手和前臂相对于其它身体部分或参考点(例如,相机)的指示关系。
[0032]本文所使用的“手势”是指随时间的进程改变的用户的身体部分的一系列配置。手势例如可包括指向某一方向的一系列手臂和手的运动。
[0033]本文所使用的“设备命令”是指用于操作或控制设备的指令。设备命令可由设备接收并解释以执行某一操作或一组操作。
[0034]本文所使用的“导航操作”是指用于使用计算设备(例如,车载远程信息处理设备)来识别、定位、选择或获取用于驾驶至目的地的信息的由用户做出的操作。例如,导航操作可包括提供用户输入以选择地址或兴趣点,和选择由于提供用户输入而显示的地址或兴趣点。
[0035]配备有言语命令系统的车辆概述
[0036]图1A和IB示出根据一种实施例配备有命令处理系统的车辆100。命令处理系统除了其它组件之外可包括中央处理单元120和头顶控制台单元110。命令处理系统可连接至车辆100的其它组件(例如,导航系统和娱乐系统)以执行各种操作。命令处理系统根据用户的动作或手势识别言语命令,如下面参照图3和图4详细描述的。
[0037]中央处理单元120处理音频信号以检测包括在音频信号中的用户言语命令。中央处理单元120连接至诸如驾驶舱系统(例如,导航系统、娱乐系统、空调控制系统以及诊断系统)的其它组件。中央处理单元120根据从用户接收的言语命令控制这些设备。中央处理单元120可以是单机设备或者可以是较大系统(例如,远程信息处理系统)的一部分。下面参照图2对中央处理单元120进行了详细描述。
[0038]中央处理单元120可放置在车辆100内的任何位置。如图1A和IB所示的,中央处理单元120可定位在车辆100的中央控制台处。可替代地,中央处理单元120可安装在车辆100的仪表板内。另外,中央处理单元120也可安装在车辆的顶棚上。
[0039]头顶控制台单元HO定位在车辆内部的顶棚处并且包括传感器(例如,传声器和相机)以拍摄用户的深度影像并检测音频信号,如下面参照图2详细描述的。头顶控制台单元110可包括诸如车库开门器的各种其它组件。头顶控制台单元110的传感器与中央处理单元120通信以提供用于检测用户言语命令的信号。
[0040]头顶控制台单元110的传感器与中央处理单元120之间的通信可由现在使用的或将来开发的任何有线或无线通信媒介建立。
[0041]示例性命令处理系统
[0042]图2为根据一种实施例的示出命令处理系统200的框图。命令处理系统200除了其它组件之外可包括处理器210、输出接口 214、输入接口 218、存储器240以及连接这些组件的总线。命令处理系统200还可包括深度相机222和传声器260。深度相机222和传声器260经由信道220、262连接至输入接口 218。尽管图2中没有示出,但是命令处理系统200可包括多于一个的深度相机或传声器。
[0043]处理器210执行储存在存储器240中的指令并处理经由输入接口 218接收的传感器数据。尽管图2中只示出了单个处理器210,但是可使用多于一个的处理器以提高命令处理系统200的处理能力。
[0044]输出接口 214是用来通过通信信道将包括设备命令的数据发送至诸如导航系统、娱乐系统、空调系统以及诊断系统的其它设备的硬件、软件、固件或者其结合。为了发送数据,输出接口 214可格式化和调节信号以遵守预先确定的通信协议。
[0045]输入接口 218是用来从头顶控制台单元110接收传感器信号的硬件、软件、固件或其结合。传感器信号包括经由信道220接收的深度影像和经由信道262接收的音频信号。输入接口 218可缓冲接收的传感器信号并在将传感器信号经由总线268转发至处理器210或存储器240之前对传感器信号执行预处理。
[0046]深度相机222拍摄驾驶员的深度影像并将深度影像经由信道220发送至输入接口218。深度相机222可体现为飞行时间(TOF)相机、立体视觉相机或产生深度影像(包括到相机视野内物体的不同点的距离信息)的其它类型的相机。立体视觉相机使用两个镜头以从不同的位置拍摄影像。然后处理所拍摄的影像以产生深度影像。在一种实施例中,深度相机222产生的灰度影像的每个像素表示从深度相机222到与像素对应的物体(例如,驾驶员)的点的距离。
[0047]参照图1A,深度相机222安装在头顶控制台单元110上并且具有俯瞰车辆100的驾驶员的视野116。通过将深度相机222安装在头顶控制台单元110上,深度相机222有利地具有车辆100的驾驶员和中央控制台的无阻挡视野。另外,驾驶员的手或手臂相对于深度相机222的深度提供驾驶员意图操作的指示,如下面参照手势识别模块252详细描述的。
[0048]传声器260感应声波并将声波转换成模拟电信号。传声器260包括用于将模拟电信号转换成数字信号的模数(A/D)转换器。将转换后的数字信号经由信道262发送至输入接口 218。可替代地,A/D转换器可包括在输入接口 218中。在这种情况下,传声器260将模拟电信号经由信道262发送至输入接口 218,用于转换成数字信号以及进一步的处理。
[0049]存储器240储存将由处理器210执行的指令以及与指令关联的其它数据。存储器240可以是易失存储器、非易失存储器或其结合。存储器240除了其它软件模块之外可储存命令格式模块244、手势识别模块252以及语音识别模块256。存储器240可包括诸如操作系统的其它软件模块,为简洁起见本文省略了对其的描述。
[0050]手势识别模块252根据由深度相机222拍摄的深度影像检测驾驶员的手势或动作。在一种实施例中,手势识别模块252检测手或前臂的位置和/或动作以确定言语命令的语境。在一种实施例中,手势识别模块252确定驾驶员的手或前臂相对于深度相机222的位置。如果驾驶员的手或前臂较接近于深度相机222(即,从深度相机222到手或前臂的距离低于阈值),例如,驾驶员可能做出与导航操作相关联的动作或手势(例如,手指指向窗外侧的方向)。相反地,如果驾驶员的手或前臂远离深度相机222 (即,从深度相机222到手或前臂的距离在阈值处或高于阈值),驾驶员可能做出与中央控制台中通常提供的其它控制功能相关联的动作或手势(例如,操作娱乐系统和空调控制系统)。
[0051]手势识别模块252可使用计算算法,其类聚深度影像中的像素组并随时间的进展追踪这些组的位置以确定驾驶员的动作或手势。可以根据像素的二维距离的接近度和像素的深度差别将像素类聚成组。手势识别模块252还可储存人体模型并将像素组映射到储存的模型以精确地检测和追踪手和/或前臂的位置。
[0052]在一种实施例中,手势识别模块252还可以较高分辨率检测
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1