基于深度的语境识别的制作方法_3

文档序号：8303463阅读：来源：国知局

驾驶员手的位置以确定与驾驶员的操作关联的设备。如果车辆的中央控制台具有位于中央控制台的中间处的用于操作娱乐系统的开关或旋钮以及位于两侧的用于空调控制系统的开关，围绕中央控制台的中间的驾驶员手的位置表示驾驶员正在操作娱乐系统。如果相比于中央控制台的中间部分，驾驶员的手更接近于中央控制台的侧部，则驾驶员更可能在操作空调控制系统。因此，命令处理系统200可在驾驶员发出言语命令的时候使用手的特定位置上的手势信息以确定与言语命令相关联的设备。
[0053]语音识别模块256确定由驾驶员发出的言语命令。为了确定言语命令，语音识别模块256从手势识别模块252接收关于驾驶员的手势的手势信息，如下面参照图3详细描述的。
[0054]命令格式模块244将在语音识别模块256处检测的言语命令转化成用于操作安装在车辆100中的设备的设备命令。安装在车辆100中的各个设备可要求以不同的格式来提供命令。因此，命令格式模块244将命令转化成各个设备可以处理的格式。此外，如果发出的言语命令不清楚、模棱两可或不充分，命令格式模块244可从驾驶员请求进一步的信息。这样的对于进一步信息的请求可以通过扬声器进行。命令格式244也可结合来自手势识别模块252的信息以生成设备命令，如下面参照图4详细描述的。
[0055]命令格式模块244、手势识别模块252以及语音识别模块256不需要储存在相同的存储器240中。例如，手势识别模块252可储存在头顶控制台单元中的存储器中，而语音识别模块256和命令格式模块244可储存在中央控制台单元中的存储器中。另外，这些模块中的一个或多个可以体现为专用硬件组件。
[0056]语音识别模块的示例性架构
[0057]图3为根据一种实施例的示出语音识别模块256的组件的框图。语音识别模块256除了其它组件之外可包括手势识别接口 312、命令提取模块316以及命令词典320。语音识别模块256还可包括其它模块，例如包含由用户先前发出的言语命令清单的历史管理丰旲块。
[0058]手势识别接口 312使语音识别模块256能够与手势识别模块252通信。在一种实施例中，经由手势识别接口 312从手势识别模块252接收的手势信息表示驾驶员的手或前臂的位置。
[0059]命令词典320包括与车辆100的各种设备关联的命令。命令词典320包括从320A至320N的多个词典，各个都与车辆100的设备或系统相关联。例如，词典320A储存与导航系统的操作关联的命令，词典320B储存与娱乐系统的操作关联的命令，词典320C储存与空调控制系统关联的命令。
[0060]命令提取模块316根据手势数据和储存在所选择的命令词典320中的命令提取包含在音频信号中的言语命令。在接收到手势信息之后，命令提取模块316根据如手势信息所表示的用户的手或前臂的位置选择一个或多个词典。如果手势数据表示用户的手或前臂处于某一姿势，选择与驾驶员的手或前臂附近的设备关联的词典用于命令提取。例如，如果用户的手在自娱乐系统的某一距离内，选择与娱乐系统关联的词典(例如，词典320B)用于命令提取。
[0061]相反地，如果在发出言语命令的时候驾驶员的手或前臂远离这些设备并且上升超过某一水平(即，升起超过仪表板)，命令提取模块316确定言语命令与导航系统关联。因此，命令提取模块316选择并使用与导航操作相关联的词典(例如，词典310A)以执行语音识别。
[0062]在一种实施例中，由命令提取模块316识别的言语命令与手势信息结合以在命令格式模块244处生成导航命令。手势信息可表示例如驾驶员的手指的定向，如下面参照图4详细描述的。
[0063]命令提取模块316可使用多于一个的词典以提取言语命令。如果用户的手围绕中央控制台定位，可以选择与可在中央控制台处操作的任何设备(例如，娱乐系统或空调控制系统)相关联的词典。
[0064]在一种实施例中，命令提取模块316根据用户的手或前臂的位置向命令分配概率权重。命令提取模块316使用统计模型根据以序列出现的音素计算说出的言语命令的概率。统计模型在驾驶员意图的最可能的命令的确定中可包括考虑了手或前臂的位置的参数。
[0065]图3的语音识别模块256仅仅是说明性的。可以对语音识别模块256做出各种改型。例如，命令词典320可以将多个命令中的每个映射到一个或多个设备，而不是具有多个词典。
[0066]使用手势和言语命令的示例性检测兴趣点
[0067]通过使用手势和语音命令的结合，用户可以方便地识别兴趣点或目的地。当指向兴趣点或目的地时，用户可发出要求导航系统识别和/或设置兴趣点的命令。命令格式模块244可结合从言语识别的命令和从手势信息提取的参数以生成导航命令。
[0068]图4为根据一种实施例的说明用于兴趣点的搜索区域的概念图。在图4中，驾驶员希望导航至建筑410或者想要识别建筑410的名字或地址。驾驶员在将手指指向建筑410的同时说明言语命令“识别那栋建筑”。由于各种误差，手势识别模块252可检测驾驶员将手指指向O-A方向(以虚线示出)。
[0069]作为回应，语音识别模块256从手势识别模块252接收表示用户的手臂和前臂抬起的手势信息。语音识别模块256确定言语命令与导航系统关联(因为手和前臂抬起)并使用与导航系统关联的词典以识别言语命令。语音识别模块256向命令格式模块244发送识别出的言语命令。
[0070]命令格式模块244接收言语命令，分析言语命令并确定短语“那栋建筑”需要进一步说明。命令格式模块244分析手势信息并使用表示用户手指的定向(由线O-A表示)的手势信息中的参数以生成请求导航系统识别线O-A的方向中的任何兴趣点的设备命令。例如，参数可以是相对于车辆100的前方方向的角度Θ。
[0071]导航系统接收设备命令，并建立由O-B-C-O表示的搜索锥。搜索锥具有表示搜索半径(例如，10英里)的高度R并具有锥角2α。锥角2 α可以增加以扩展搜索或者以允许增加的容错性。导航系统在由考虑了车辆运动的车辆速度和方向的搜索锥识别的搜索区域内执行搜索。在一种实施例中，向较接近车辆的兴趣点赋予优先级。在一种实施例中，导航系统向用户呈现在搜索区域内发现的兴趣点清单。然后用户可从搜索到的清单指出兴趣点并要求进一步的动作(例如，导航至兴趣点或者电话呼叫兴趣点)。
[0072]根据手势数据识别言语命令的示例性方法
[0073]图5为根据一种实施例的说明基于驾驶员的动作或手势识别言语命令的方法的流程图。命令处理系统200使用深度相机222生成506深度影像。使用所生成的深度影像，命令处理系统200生成510用户的手势信息。手势信息除其它之外可表示用户的手或前臂相对于深度相机222的位置。
[0074]根据手势信息，命令处理系统200选择514用于识别言语命令的一个或多个词典。各个词典可包括用于车辆100中的某一系统或设备的命令。
[0075]命令处理系统200根据在传声器260处接收的声音信号还生成表示驾驶员所说话语的数字音频信号。
[0076]在选择适用的一个或多个词典后，命令处理系统200使用所选择的一个或多个词典对生成的音频信号执行518语音识别。在说出言语命令的时候，通过根据表示用户的姿势或手势的手势信息限定或修剪适用的言语命令，语音识别的准确性可以得到提高。
[0077]在生成言语命令之后，命令处理系统200通过将言语命令转化成设备命令生成522与言语命令对应的设备命令。如需要

完整全部详细技术资料下载

当前第3页1 2 3 4