车辆语音命令处理装置和方法与流程

文档序号：21021271发布日期：2020-06-09 19:42阅读：267来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请的交叉引用

本申请要求于2018年12月3日提交的韩国专利申请10-2018-0153949的优先权和权益，其全部内容通过引用并入本文。

本发明涉及用于车辆语音命令处理装置和方法。

背景技术：

本部分的描述仅提供与本发明相关的背景信息，并且可不构成现有技术。

随着电子技术的发展和消费者对便利功能的需求越来越大，各种电子控制装置和实用设备已被应用于汽车。这些电子控制装置和实用设备的操作可通过驾驶员的语音命令执行。

因此，为了通过语音命令来控制车辆上安装的各种电子控制装置和实用设备的各种操作，对于每个装置，制造商预先输入以表格形式配置的、适合于每个应用程序的语音识别命令列表。所输入的语音命令由装置进行识别，然后执行与所输入的语音命令对应的操作。

在为每个装置的每个应用程序设置语音识别命令列表时，几乎不可能考虑大量用户的所有情况。因此，采用了基于生产商主观性或抽样调查数据的设定方法。

我们发现语音命令的识别存在局限性。特别是，当语音命令的识别率较低时，可能无法执行所需的实用设备和控制设备的操作。

特别是，我们发现处理车辆语音命令的常规设备仅根据用户输入的语音命令简单地控制车辆中各种设备的操作，但不将语音命令分为控制命令和触摸命令。因此，传统装置不能选择(触摸)车辆中触摸显示屏上显示的对象。

技术实现要素：

本发明的目的是解决现有技术中出现的上述问题，同时保持现有技术的优势。

本发明的一个方面提供了一种车辆语音命令处理装置和方法，其可以将从用户接收的语音命令分为控制命令和触摸命令，并且分别处理控制命令和触摸命令。因此，该装置和方法可以根据控制命令操作装置，并在显示器上选择与触摸命令对应的对象。

本发明的构思要解决的技术问题不限于上述问题，并且本发明所属领域的技术人员从以下描述中将清楚地理解本文未提及的任何其他技术问题。

根据本发明的一个方面，一种车辆语音命令处理装置，所述装置包括：通信模块，被配置为将从用户接收的语音命令发送到语音识别服务器，并且被配置为从所述语音识别服务器接收识别的语音命令；控制器，被配置为标识在触摸显示器的屏幕上显示的对象，并且将所述识别的语音命令分为控制命令和触摸命令；控制命令处理模块，被配置为执行与所述控制命令对应的控制操作；以及触摸命令处理模块，被配置为在所述触摸显示器上的所述对象中选择与所述触摸命令对应的对象。

根据本发明的一个方面，当在所述识别的语音命令中存在谓词时，所述控制器可以将所述识别的语音命令确定为所述控制命令。

根据本发明的一个方面，所述触摸命令处理模块可以基于所述识别的语音命令，在所述屏幕上的所标识的对象中选择包含所述触摸命令的至少一个对象。

根据本发明的一个方面，当所述屏幕上的所标识的对象当中不存在与所述触摸命令对应的对象时，所述触摸命令处理模块可以将所述触摸命令发送到所述控制命令处理模块。

在本发明的另一种实施例中，当不能够在所述屏幕上的所标识的对象当中选择与所述触摸命令对应的对象时，所述触摸命令处理模块可以将所述触摸命令发送到所述控制命令处理模块。

根据本发明的一个方面，装置可进一步包括眼睛跟踪装置，所述眼睛跟踪装置被配置为跟踪用户的眼睛。

根据本发明的一个方面，当所述触摸显示器包括多个触摸显示器时，所述控制器可以使用所述眼睛跟踪装置在所述多个触摸显示器当中指定一个触摸显示器。根据本发明的一个方面，当从所述用户输入所述语音命令时，控制器可以基于所述用户的眼睛的注视在所述多个触摸显示器当中选择触摸显示器。

根据本发明的一个方面，装置可进一步包括输入模块，所述输入模块具有输入按钮，所述输入按钮被配置为通知来自所述用户的所述语音命令的输入。根据本发明的一个方面，在按下所述输入按钮时，控制器可以标识所述触摸显示器的所述屏幕上的每个对象。

根据本发明的一个方面，一种用于处理车辆的语音命令的方法包括：通过控制器标识触摸显示器的屏幕上显示的对象；通过通信模块将从用户接收的语音命令发送到语音识别服务器；通过所述通信模块从所述语音识别服务器接收识别的语音命令；通过所述控制器将所述识别的语音命令分为控制命令和触摸命令；通过控制命令处理模块执行与所述控制命令对应的控制操作；以及通过触摸命令处理模块，从所述触摸显示器的所述屏幕选择与所述触摸命令对应的对象。

根据本发明的一个方面，对所述识别的语音命令进行分类可包括当所述识别的语音命令中存在谓词时，将所述识别的语音命令确定为控制命令。

根据本发明的一个方面，选择与所述触摸命令对应的对象可包括基于所述识别的语音命令，在所述屏幕上的所标识的对象当中选择包含所述触摸命令的至少一个对象。

根据本发明的一个方面，选择与所述触摸命令对应的对象可包括当所述屏幕上的所标识的对象当中不存在与所述触摸命令对应的对象时，将所述触摸命令发送到所述控制命令处理模块。

根据本发明的一个方面，选择与所述触摸命令对应的对象包括当所述屏幕上的所标识的对象当中不存在与所述触摸命令对应的对象时，将所述触摸命令发送到所述控制命令处理模块。

根据本发明的一个方面，当所述触摸显示器包括多个触摸显示器时，方法可进一步包括使用眼睛跟踪装置在所述多个触摸显示器当中指定一个触摸显示器。根据本发明的一个方面，在所述多个触摸显示器当中指定所述一个触摸显示器可包括当从所述用户输入所述语音命令时，基于所述用户的眼睛的注视选择所述一个触摸显示器。

根据本发明的一个方面，标识所述触摸显示器上显示的对象可包括当按下输入按钮以输入所述用户的所述语音命令时，标识所述触摸显示器的所述屏幕上的每个对象。

根据本文提供的描述，其他适用领域将变得显而易见。应该理解的是，本文的描述和具体示例仅用于说明的目的，并不旨在限制本发明的范围。

附图说明

为了便于理解本发明，现在将参考附图，通过示例的实施例描述本发明的各种实施例，其中：

图1是车辆语音命令处理装置的示意图；

图2示出输入按钮；

图3示出触摸显示器的屏幕中的每个对象；

图4是示出眼睛跟踪装置的配置的示例图示；

图5是车辆语音命令处理方法的流程图；以及

图6是示出用于实现车辆语音命令处理方法的计算系统的方框图。

本文描述的附图仅用于说明目的，并不旨在以任何方式限制本发明的范围。

具体实施方式

以下描述本质上仅是示例性的，并不旨在限制本发明及其应用或用途。应该理解的是，在整个附图中，相应的附图标记指示相同或相应的部件和特征。

此外，在描述本发明的实施例时，当相关已知配置或功能干扰对本发明实施例的理解时，将省略对相关已知配置或功能的详细描述。

在描述根据本发明的实施例的部件时，可以使用诸如第一、第二、a、b、(a)、(b)等术语。这些术语仅用于将部件与其他部件区分开，并且这些术语不限制部件的性质、顺序或次序。除非另外定义，否则本文使用的包括技术和科学术语的所有术语具有与本发明所属领域的普通技术人员通常理解的含义相同的含义。将进一步理解的是，诸如在常用词典中定义的那些术语应该被解释为具有与其在相关领域的上下文中的含义一致的含义，并且将不被理解为理想化或过于正式的含义，除非在本文中明确定义。

图1是根据本发明的一种实施例的车辆语音命令处理装置的示意图。

如图1所示，车辆语音命令处理装置100可以包括：输入模块10、通信模块20、控制器30、存储器40、控制命令处理模块50、触摸命令处理模块60和触摸显示器70。在一个示例中，这些部件可以以实现根据本发明的一种实施例的车辆语音命令处理装置的方式相互耦合，并且可以以实现本发明的方式省略一些部件。

关于上述部件，首先，输入模块10可以在安装于车辆上的麦克风中实现，并接收来自用户的语音命令。

此外，如图2所示，作为本发明的一种实施例，输入模块10还可以包括输入按钮210。因此，用户可以在按下输入按钮210之后输入语音命令。然后，控制器30可以在输入按钮210被按下时预测接收语音命令。

接下来，通信模块20提供与语音识别服务器200的通信接口。通信模块20可以将语音命令发送到语音识别服务器200，并从语音识别服务器200接收识别的语音命令。该通信模块20可以以下面三种方式接收识别的语音命令。

1)通信模块20可以利用车联网(v2x)通信技术(v2x)与语音识别服务器200通信，以接收语音识别结果。就此而言，v2x统称为车辆与车辆之间(v2v：车对车)的无线通信、车辆与基础设施之间(v2i：车辆对基础设施)的无线通信、车载有线/无线网络(ivn：车载网络)、车辆与移动终端之间(v2p：车辆对行人)的通信等。

2)通信模块20可以使用短程无线通信与语音识别服务器200通信，以接收语音识别结果。就此而言，短程无线通信可以包括蓝牙^tm、rfid(射频识别)、红外通信(红外数据通信；irda)、uwb(超宽带)、zigbee、nfc(近场通信)、无线usb(无线通用串行总线)等。

3)通信模块20可以使用移动通信或无线互联网与语音识别服务器200通信，以接收语音识别结果。

就此而言，移动通信可以包括gsm(全球移动系统)通信、cdma(码分多址)、cdma2000(码分多址2000)、ev-do(优化的增强语音数据或仅增强语音数据)、wcdma(宽带cdma)、hsdpa(高速下行分组介入)、hsupa(高速上行分组介入)、lte(长期演进)、ltea(长期高级演进)等。

另外，无线互联网可以包括wlan(无线lan)、wi-fi(无线保真)、wi-fi(无线保真)直连、dlna(数字生活网络联盟)、wibro(无线宽带)、wimax(全球互通微波访问)、hsdpa(高速下行分组介入)、hsupa(高速上行分组介入)、lte(长期演进)、lte-a(长期高级演进)等。

接下来，控制器30执行整体控制，使得每个部件可以正常执行其功能。该控制器30可以以硬件或软件或其组合来实现。在一种实施例中，控制器30可以在微处理器中实现，但不限于此。

此外，控制器30可以控制输入模块10以接收用户的语音命令。

此外，控制器30可以控制通信模块20将语音命令发送到语音识别服务器200，并且从语音识别服务器200接收识别的语音命令。

此外，在输入按钮210被按下时，控制器30可以识别触摸显示器70上的屏幕上的每个对象(字母、数字、符号和图标)。在一个示例中，当显示如图3所示的屏幕时，控制器30可以识别图标形状的主页键310，“上一页”、“结束”、“下一页”、“帮助”、1号是“韩国国际展览中心湖公园”(kintexlakepark)、2号是“大化洞休闲公园”(daehwaleisurepark)、3号是“韩国国际展览中心公园卫理公园”(kintexonnuripark)、4号是“一山活动广场”(onemounteventplaza)等。这种用于识别图像中的字母、数字、符号和图标的技术是众所周知的技术，因此省略详细描述。

此外，控制器30可以将识别结果存储在存储器40中。就此而言，存储器40可以包括至少一种存储器类型的存储介质类型，诸如闪存类型、硬盘类型、微型类型和卡类型(例如，sd卡(安全数字卡)或xd卡(extream数字卡))等等，以及ram(随机存取存储器)、sram(静态ram)、rom(只读存储器)、prom(可编程rom)、eeprom(电可擦除prom)、mram(磁ram)、磁盘和光盘型存储器。

在一个示例中，控制器30可以将从语音识别服务器200通过通信模块20接收到的识别的语音命令分为控制命令和触摸命令。就此而言，当所识别的语音命令中存在谓词时，控制器30可以将所识别的语音命令确定为控制命令，而当所识别的语音命令中没有谓词时，控制器30可以将所识别的语音命令确定为触摸命令。例如，包含诸如“给珍妮打电话”、“打开空调”、“打开加热器”等谓词的所识别的语音命令可以被识别为控制命令。此外，控制器30可以将用于车辆控制的语音命令、车辆手册相关的语音命令、用于请求可以通过网络收集的信息的语音命令等识别为控制命令。就此而言，可以通过网络收集的信息可以包括天气信息、著名餐馆信息、体育信息等。

此外，控制器30可以将控制命令发送到控制命令处理模块50，并且将触摸命令发送到触摸命令处理模块60。就此而言，控制命令处理模块50可以包括配置用于控制车辆中的各种系统(空调系统、通信系统等)的控制器。另外，触摸命令处理模块60可以包括提供车辆手册和网络搜索功能的avn(音频视频导航)系统的控制器。

接下来，控制命令处理模块50可以执行与从控制器30接收到的控制命令(语音识别服务器200提供的语音识别结果)对应的控制操作。就此而言，控制命令处理模块50可以打开空调、打开加热器，或打电话给珍妮。

接下来，触摸命令处理模块60可以选择触摸显示器70上与从控制器30接收到的触摸命令(语音识别服务器200提供的语音识别结果)对应的对象。例如，参照图3，当触摸命令是“对象1”时，选择“对象1”。此外，当触摸命令为结束时，选择“结束”。就此而言，触摸命令处理模块60的选择可以与用户的触摸相同。

此外，在选择触摸显示器70上与从控制器30接收到的触摸命令(从语音识别服务器200接收的语音识别结果)对应的对象时，即使屏幕上标识的对象与作为所识别的语音命令的触摸命令不同，触摸命令处理模块60也可以基于所识别的语音命令在屏幕上标识的对象当中选择至少一个包含该触摸命令的对象。例如，参照图3，当作为所识别的语音命令的触摸命令是“湖公园”(lakepark)时，可以选择包括“湖公园”(lakepark)的“韩国国际展览中心湖公园”(kintexlakepark)。

此外，当触摸显示器70上不存在与从控制器30接收的触摸命令对应的对象(从语音识别服务器200接收的语音识别结果)时，触摸命令处理模块60可以将触摸命令确定为控制命令，并将触摸命令发送到控制命令处理模块50。

此外，当从控制器30接收到的触摸命令(从语音识别服务器200接收的语音识别结果)对应的触摸显示器70上的对象是可能无法从屏幕上的对象中选择的对象(简单显示的字符)时，触摸命令处理模块60可以将触摸命令确定为控制命令，并且将触摸命令发送到控制命令处理模块50。

接下来，触摸显示器70是安装在车辆上的显示器。此外，触摸显示器70可以包括集群、avn(音视频导航)系统的显示器、辅助显示器等。该触摸显示器70可以显示包括ui(用户界面)、gui(图形用户界面)的各种屏幕。只要可以通过触摸选择屏幕，本发明可以应用于任何屏幕。

在一个示例中，当车辆上安装有多个显示器时，即使用户未进行选择，也可以与安装在车辆上的眼睛跟踪装置300紧密连接地选择用户所需的显示器。也就是说，由于用户在观看显示屏的同时说出触摸命令，因此可以经由眼睛跟踪装置300选择驾驶员眼睛所停留的显示器。

也就是说，当车辆上安装有多个显示器时，控制器30可以识别每个显示器屏幕上的文本和图标，并选择在用户的语音命令被输入时用户眼睛所停留的显示器作为目标显示器。

此后，触摸命令处理模块60可以在控制器30选择的显示器屏幕上选择与触摸命令对应的对象。

另外，当通过触摸显示器上的语音识别重复执行相同的屏幕操作时，控制器30可以将相同的屏幕操作转换为宏。例如，当重复执行上层中的选择和下层中的选择时，可以使用特定的触摸命令将这些选择转换为宏。因此，用户可以通过特定的触摸命令一次执行上层中的选择和下层中的选择。

图4是示出在本发明中使用的眼睛跟踪装置的配置的示例图示。

如图4所示，本发明中使用的眼睛跟踪装置300可以包括：控制器310、摄像头320、输出模块330、存储器340、特征检测器350、位置确定模块360、矢量计算模块370和眼睛跟踪装置380。就此而言，控制器310控制眼睛跟踪装置300的每个部件的操作。

摄像头320捕获图像，尤其是用户面部图像。在一个示例中，摄像头320可以捕获车辆上的驾驶员的面部图像。就此而言，摄像头320可包括至少两个摄像头。在一个示例中，摄像头320可以包括具有至少两个成像透镜的立体摄像头。就此而言，摄像头320可以包括ccd(电荷耦合元件)摄像头、cmos(互补金属氧化物半导体)摄像头等等，但不限于此。

输出模块330可以输出由眼睛跟踪装置300得出的眼睛跟踪结果。就此而言，输出模块330可以将眼睛跟踪结果提供到通过无线通信连接的外部装置或经由电缆连接的外部装置。

在一个示例中，输出模块330可以将从眼睛跟踪装置300得到的眼睛跟踪结果提供到车载监视器，并且提供给基于驾驶员状况控制车辆行驶的车辆控制系统。

存储器340可以存储用于眼睛跟踪装置300操作的预定值，以及眼睛跟踪装置300的每个部件的结果值。此外，存储器340可以存储用于实现眼睛跟踪装置300的每个部件的操作的程序或算法。在一个示例中，存储器340可以存储特征检测算法、位置估计算法、矢量计算算法、眼睛跟踪算法等。

特征检测器350从用户面部图像中检测特征。特征检测器350可以从用户面部图像的眼睛区域检测由摄像头320的照射产生的光反射点。

此外，特征检测器350可以从用户面部图像检测由至少两支光产生的至少两个光反射点。

此外，特征检测器350可以从用户面部图像的眼睛区域检测瞳孔的中心位置。

此外，特征检测器350可以检测其位置固定在用户面部图像内的至少两个特征。在一个示例中，特征检测器350可以从用户面部图像的眼睛区域检测用户眼睛的左端点和右端点。

此外，特征检测器350可以检测用户的面部特征(例如，痣、疤痕和眉毛等等)在用户面部图像内的特定位置，并检测用户佩戴的配件，例如眼镜等的特定位置。

就此而言，当从用户面部图像检测到要应用于眼睛跟踪的特征时，特征检测器350可以基于预先检测到的特征从用户的另一个面部图像中检测相同的特征。当然，当未从用户面部图像检测到相同的特征时，可以再次检测新的特征。

位置确定模块360使用由特征检测器350从用户面部图像的眼睛区域检测到的至少两个光反射点来确定角膜的中心位置。在下文中，其中由特征检测器350检测到至少两个光反射点的面部图像被称为第一面部图像。

在一个示例中，位置确定模块360可以将角膜的中心位置确定为延伸线彼此相交的点，其中延伸线将朝向用户角膜位置的、以不同方向发射光的至少两支光，分别连接到至少两个光反射点，所述光反射点经由该至少两支光的发射出现在第一面部图像的每个眼睛区域中。

另一方面，当特征检测器350未从用户面部图像的眼睛区域中的每个检测到至少两个反射点时，位置确定模块360可以向特征检测器350请求相应面部图像中的特征位置。在下文中，将特征检测器350未检测到至少两个光反射点的面部图像称为第二面部图像。就此而言，位置确定模块360可以使用特征检测器350在第二面部图像中检测到的特征和基于先前从第一面部图像检测到的角膜中心位置而计算的第一矢量来确定第二面部图像的角膜的中心位置。

矢量计算模块370可以计算从第一面部图像检测到的至少两个特征到由位置确定模块360确定的第一图像中角膜的中心位置的矢量。在一个示例中，矢量计算模块370可以计算从第一面部图像检测到的用户眼睛的左端点到角膜中心位置的矢量，并计算从用户眼睛的右端点到角膜中心的矢量。就此而言，所计算的矢量被称为第一矢量，并且第一矢量可以用于位置确定模块360，以从第二面部图像确定角膜的中心位置，如上所述。

在一个示例中，矢量计算模块370可以计算连接在第二面部图像的眼睛区域中检测到的瞳孔的中心位置与由位置确定模块360确定的角膜的中心位置的矢量。就此而言，所计算的矢量被称为第二矢量，并且第二矢量可以被发送到眼睛跟踪模块380以用于跟踪用户的眼睛。

眼睛跟踪模块380可以使用矢量计算模块370计算的第二矢量来跟踪第二面部图像中的用户眼睛的方向。就此而言，眼睛跟踪模块380可以基于延伸第二矢量的延伸线所到达的位置来跟踪用户的眼睛。眼睛跟踪模块380跟踪的用户眼睛信息可以存储在存储器340中，并且经由输出模块330被提供给车辆语音命令处理装置100的控制器30。

图5是根据本发明的一种实施例的车辆语音命令处理方法的流程图。

首先，输入模块10从用户接收语音命令(501)。

然后，控制器30标识触摸显示器70的屏幕上的每个对象(502)。也就是说，标识在触摸显示器70上显示的每个对象。

此后，通信模块20将从用户接收的语音命令发送到语音识别服务器，并从语音识别服务器接收识别的语音命令(503)。

此后，控制器30判断所识别的语音命令是控制命令还是触摸命令(504)。

作为判断(504)的结果，当所识别的语音命令是控制命令时，控制命令处理模块50执行与控制命令对应的控制操作(505)。

作为判断(504)的结果，当所识别的语音命令是触摸命令时，触摸命令处理模块60在屏幕上的对象当中选择与触摸命令对应的对象(506)。也就是说，从触摸显示器70上选择与触摸命令对应的对象。

图6是示出根据本发明的一种实施例的车辆语音命令处理方法的计算系统的方框图。

参照图6，还可以通过计算系统实现车辆语音命令处理方法。计算系统1000可以包括经由系统总线1200连接的至少一个处理器1100、存储器1300、用户界面输入装置1400、用户界面输出装置1500、存储器1600和网络接口1700。

处理器1100可以是中央处理单元(cpu)或半导体装置，其对存储在存储器1300和/或存储器1600中的指令执行处理。存储器1300和存储器1600可以包括各种类型的易失性或非易失性存储介质。例如，存储器1300可以包括rom(只读存储器)和ram(随机存取存储器)。

因此，结合本文中公开的实施例所描述的方法或算法的操作可直接体现为处理器1100执行的硬件或软件模块，或其组合。软件模块可以驻留在存储介质上，即存储器1300和/或存储器1600，例如ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动磁盘、cd-rom。示例性存储介质耦合到处理器1100，处理器1100可以从存储介质读取信息以及向存储介质写入信息。在另一种方法中，存储介质可以与处理器1100集成在一起。处理器和存储介质可以驻留在专用集成电路(asic)内。asic可以驻留在用户终端内。在另一种方法中，处理器和存储介质可以作为单独的组件驻留在用户终端中。

以上描述仅说明了本发明的技术构思，并且本领域技术人员可以在不脱离本发明的本质特征的情况下进行各种修改和改变。

因此，本发明中公开的示例性实施例不旨在限制本发明的技术构思，而是用于说明本发明，并且本发明的技术构思的范围不受示例性实施例的限制。本发明的范围应被解释为被所附权利要求的范围所涵盖，并且落入权利要求范围内的所有技术构思应被解释为包括在本发明的范围内。

根据本发明的一种实施例的车辆语音命令处理装置和方法可以将从用户接收的语音命令分为控制命令和触摸命令，并且分别处理控制命令和触摸命令。因此，所述装置和方法可以基于控制命令来操作装置，并且选择显示器上与触摸命令对应的对象。

在上文中，尽管已经参考示例性实施例和附图描述了本发明，但是本发明不限于此，在不脱离本发明的精神和范围的情况下，可以由本发明所属领域的技术人员进行各种修改和改变。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李承辛
技术所有人：现代自动车株式会社;起亚自动车株式会社
我是此专利的发明人