车载智能语音设备的控制方法及装置与流程

文档序号:20694706发布日期:2020-05-12 14:48阅读:500来源:国知局
车载智能语音设备的控制方法及装置与流程

本发明涉及人机交互技术领域,尤其涉及一种车载智能语音设备的控制方法及装置。



背景技术:

随着智能技术的发展,智能语音交互技术已经有了较为广泛的应用。

尤其在汽车领域,智能语音作为人车交互手段具有相当优势,并且相应的市场规模也在逐年增大。随着汽车无人驾驶、智能座舱等新技术的发展,可以预见智能语音在汽车中将会得到更大的发展。

在驾驶环境中,乘员越来越频繁使用智能语音交互功能,其主要优势在于视线不用长时间离开路面,即可实现对车机和车辆的操作。而且,智能语音交互功能会打通车机内的操作和控制信息,实现一步直达,以使乘员方便完成操作。

智能语音交互流程一般包含:唤醒语音→监听状态→输入指令→分析和执行指令→结束。但是,对于语音的唤醒,由于功耗和容易误操作等原因,无法让车机中的语音始终处于监听状态。

目前,较为主流的智能语音交互功能的唤醒方式为自定义语音唤醒,即先通过自定义的固定唤醒词来语音唤醒智能语音系统,再进行具体语音指令输入的方式。

但是,上述自定义语音唤醒方式还是需要乘员自行唤醒智能语音功能,唤醒期间会受到语音干扰等因素的影响,导致唤醒不成功,影响乘员体验,而且乘员必须要用固定的唤醒词,导致代驾人员等乘员就无法采用上述自定义语音唤醒方式,从而降低语音唤醒效率。



技术实现要素:

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明要解决的技术问题是为了克服现有技术中智能语音交互功能的唤醒期间会受到语音干扰等因素的影响,导致唤醒不成功,影响乘员体验的缺陷,提供一种车载智能语音设备的控制方法及装置。

本发明是通过下述技术方案来解决所述技术问题:

一种车载智能语音设备的控制方法,其包括:

获取车内乘员的视线图像信息;

从获取到的所述视线图像信息中解析出所述车内乘员的视线方向;以及,

响应于视线方向朝向预设位置的持续时间大于或等于第一预设时间段,输出唤醒指令至所述车载智能语音设备,以使所述车载智能语音设备唤醒智能语音应用程序。

可选地,所述预设位置包括所述车载智能语音设备的显示屏所在位置。

可选地,所述获取车内乘员的视线图像信息的步骤包括:

通过第一摄像头获取车内主驾位置上的驾驶员的视线图像信息。

可选地,所述获取车内乘员的视线图像信息的步骤包括:

通过第二摄像头获取车内副驾位置上的乘员的视线图像信息。

可选地,所述第一摄像头设置于车内中央后视镜的位置处;和/或,

所述第二摄像头设置于车内中央后视镜的位置处。

可选地,所述第一预设时间段的设定范围为400ms~600ms。

可选地,所述输出唤醒指令至所述车载智能语音设备的步骤之后,所述控制方法还包括:

响应于未接收到乘员语音输入指令的持续时间大于或等于第二预设时间段,输出休眠指令至所述车载智能语音设备,以使所述车载智能语音设备切换至休眠状态。

可选地,所述输出唤醒指令至所述车载智能语音设备的步骤之后,所述控制方法还包括:

输出唤醒提示指令至所述车载智能语音设备,以提示唤醒状态。

一种计算机可读介质,其上存储有计算机指令,所述计算机指令在由处理器执行时实现如上述的车载智能语音设备的控制方法的步骤。

一种车载智能语音设备的控制装置,其包括处理器及与所述处理器通信连接的存储器;

所述处理器被配置为:

获取车内乘员的视线图像信息;

从获取到的所述视线图像信息中解析出所述车内乘员的视线方向;

响应于视线方向朝向预设位置的持续时间大于或等于第一预设时间段,输出唤醒指令至所述车载智能语音设备,以使所述车载智能语音设备唤醒智能语音应用程序。

可选地,所述预设位置包括所述车载智能语音设备的显示屏所在位置。

可选地,所述处理器被配置为:

从第一摄像头获取车内主驾位置上的驾驶员的视线图像信息。

可选地,所述处理器被配置为:

从第二摄像头获取车内副驾位置上的乘员的视线图像信息。

可选地,所述第一摄像头设置于车内中央后视镜的位置处;和/或,

所述第二摄像头设置于车内中央后视镜的位置处。

可选地,所述第一预设时间段的设定范围为400ms~600ms。

可选地,所述处理器还被配置为:

输出唤醒指令至所述车载智能语音设备之后,响应于未接收到乘员语音输入指令的持续时间大于或等于第二预设时间段,输出休眠指令至所述车载智能语音设备,以使所述车载智能语音设备切换至休眠状态。

可选地,所述处理器还被配置为:

输出唤醒指令至所述车载智能语音设备之后,输出唤醒提示指令至所述车载智能语音设备,以提示唤醒状态。

在符合本领域常识的基础上,所述各优选条件,可任意组合,即得本发明各较佳实施例。

本发明的积极进步效果在于:

本发明提供的车载智能语音设备的控制方法及装置,无需车内乘员自行唤醒智能语音功能,即可方便地唤醒智能语音交互功能,有效地减少了语音唤醒的步骤,以使得交互方式更加人性化,从而提升了语音唤醒效率,进而提升了用户体验度。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的所述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1为根据本发明一实施例的车载智能语音设备的控制方法的流程示意图。

图2为根据本发明一实施例的车载智能语音设备的控制装置的结构示意图。

图3为根据本发明一实施例的智能语音交互的场景示意图。

附图标记说明:

步骤101;

步骤102;

步骤103;

处理器1;

存储器2。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。

给出以下描述以使得本领域技术人员能够实施和使用本发明并将其结合到具体应用背景中。各种变型、以及在不同应用中的各种使用对于本领域技术人员将是容易显见的,并且本文定义的一般性原理可适用于较宽范围的实施例。由此,本发明并不限于本文中给出的实施例,而是应被授予与本文中公开的原理和新颖性特征相一致的最广义的范围。

在以下详细描述中,阐述了许多特定细节以提供对本发明的更透彻理解。然而,对于本领域技术人员显而易见的是,本发明的实践可不必局限于这些具体细节。换言之,公知的结构和器件以框图形式示出而没有详细显示,以避免模糊本发明。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

另外,在以下的说明中所使用的“上”、“下”、“左”、“右”、“顶”、“底”、“水平”、“垂直”应被理解为该段以及相关附图中所绘示的方位。此相对性的用语仅是为了方便说明之用,其并不代表其所叙述的装置需以特定方位来制造或运作,因此不应理解为对本发明的限制。

能理解的是,虽然在此可使用用语“第一”、“第二”、“第三”等来叙述各种组件、区域、层和/或部分,这些组件、区域、层和/或部分不应被这些用语限定,且这些用语仅是用来区别不同的组件、区域、层和/或部分。因此,以下讨论的第一组件、区域、层和/或部分可在不偏离本发明一些实施例的情况下被称为第二组件、区域、层和/或部分。

在驾驶环境中,乘员越来越频繁使用智能语音交互功能,其主要优势在于视线不用长时间离开路面,即可实现对车机和车辆的操作。而且,智能语音交互功能会打通车机内的操作和控制信息,实现一步直达,以使乘员方便完成操作。

智能语音交互流程一般包含:唤醒语音→监听状态→输入指令→分析和执行指令→结束。但是,对于语音的唤醒,由于功耗和容易误操作等原因,无法让车机中的语音始终处于监听状态。

目前,较为主流的智能语音交互功能的唤醒方式为自定义语音唤醒,即先通过自定义的固定唤醒词来语音唤醒智能语音系统,再进行具体语音指令输入的方式。

但是,上述自定义语音唤醒方式还是需要乘员自行唤醒智能语音功能,唤醒期间会受到语音干扰等因素的影响,导致唤醒不成功,影响乘员体验,而且乘员必须要用固定的唤醒词,导致代驾人员等乘员就无法采用上述自定义语音唤醒方式,从而降低语音唤醒效率。

为了克服目前存在的上述缺陷,本实施例提供一种车载智能语音设备的控制方法,上述控制方法包括:获取车内乘员的视线图像信息;从获取到的上述视线图像信息中解析出上述车内乘员的视线方向;以及,响应于视线方向朝向预设位置的持续时间大于或等于第一预设时间段,输出唤醒指令至上述车载智能语音设备,以使上述车载智能语音设备唤醒智能语音应用程序。

在本实施例中,无需车内乘员进行其他操作,在满足唤醒条件时可自动唤醒智能语音交互功能,极大地提升了使用便捷性。

具体地,作为一实施例,如图1所示,上述控制方法主要包括以下步骤:

步骤101、获取车内乘员的视线图像信息。

在本步骤中,通过设置于车内的摄像头获取车内乘员的视线图像信息。

具体地,在本步骤中,通过第一摄像头专门获取车内主驾位置上的驾驶员的视线图像信息。

优选地,在本实施例中,参考图3所示,为了较好地实时采集驾驶员的视线图像信息,将上述第一摄像头可拆卸地设置于车内中央后视镜的位置处,但并不具体限定上述第一摄像头的安装位置,可根据实际需求进行相应的调整及选择。

优选地,在本实施例中,上述第一摄像头还可以根据驾驶员的视线方向的变化调整相应的拍摄角度,以确保实时拍摄稳定可靠的视线图像信息。

作为另一实施例,在本步骤中,还可通过第二摄像头专门获取车内副驾位置上的乘员的视线图像信息。

优选地,在本实施例中,为了较好地实时采集副驾位置上的乘员的视线图像信息,将上述第二摄像头可拆卸地设置于车内中央后视镜的位置处,但并不具体限定上述第二摄像头的安装位置,可根据实际需求进行相应的调整及选择。

优选地,在本实施例中,上述第二摄像头还可以根据副驾位置上的乘员的视线方向的变化调整相应的拍摄角度,以确保实时拍摄稳定可靠的视线图像信息。

作为另一实施例,在本步骤中,还可通过其他摄像头获取后排座位上的乘员的实现图像信息,摄像头的安装位置可根据实际情况进行相应的调整及选择。

步骤102、从获取到的视线图像信息中解析出车内乘员的视线方向。

在本步骤中,利用图像处理设备(可以为d-box等)从获取到的视线图像信息中解析出车内乘员的视线方向。

当然,上述视线图像信息可以包括驾驶员、副驾位置上的乘员或其他位置上的乘员的视线图像信息。

在本步骤中,利用图像处理设备还进一步判断车内乘员的视线方向是否朝向一预设位置,上述预设位置可以为位置范围。

优选地,在本实施例中,上述预设位置为车载智能语音设备的显示屏(可以为车载hu的中控显示屏)所在位置。例如,参考图3所示,判断驾驶员的视线是否在盯着上述显示屏。

当然,本实施例并不具体限定上述预设位置,只要能够实现相应的功能,可根据实际需求进行相应的设定。

步骤103、响应于视线方向朝向预设位置的持续时间大于或等于第一预设时间段,输出唤醒指令至车载智能语音设备。

在本步骤中,若监控到车内乘员的视线方向朝向上述预设位置,响应于视线方向朝向上述预设位置的持续时间大于或等于第一预设时间段,输出唤醒指令至车载智能语音设备,以使上述车载智能语音设备唤醒智能语音应用程序。

在本实施例中,考虑到行驶安全,上述第一预设时间段不宜设定为过长,而且考虑到功耗和误操作等因素,上述第一预设时间段也不宜设定为过短。

因此,较佳地,上述第一预设时间段的设定范围为400ms~600ms,但并不具体限定上述第一预设时间段,可根据实际需求进行相应的设定。

优选地,在本实施例中,上述第一预设时间段设定为500ms。

在本步骤中,输出唤醒指令至上述车载智能语音设备之后,还输出唤醒提示指令至上述车载智能语音设备,以通过语音提示或者在显示屏中显示文字提示的方式提示乘员上述智能语音应用程序的唤醒状态。

在本步骤中,乘员收到提示之后,可以说出相应的语音输入指令,上述车载智能语音设备执行上述智能语音应用程序,以输出相应的语音反馈,从而实现智能语音交互功能。

优选地,在本实施例中,考虑到功耗和乘员误操作等因素,输出唤醒指令至上述车载智能语音设备之后,还响应于未接收到乘员语音输入指令的持续时间大于或等于第二预设时间段,输出休眠指令至上述车载智能语音设备,以使上述车载智能语音设备切换至休眠状态,从而保证不必要时及时关闭智能语音交互功能。

在本实施例中,并不具体限定上述第二预设时间段,可根据实际需求进行相应的设定。

本实施例还提供一种计算机可读介质,其上存储有计算机指令,上述计算机指令在由处理器执行时实现如上述的车载智能语音设备的控制方法的步骤。

本实施例提供的车载智能语音设备的控制方法,无需车内乘员自行唤醒智能语音功能,即可方便地唤醒智能语音交互功能,有效地减少了语音唤醒的步骤,以使得交互方式更加人性化,从而提升了语音唤醒效率,进而提升了用户体验度。

为了克服目前存在的上述缺陷,本实施例还提供一种车载智能语音设备的控制装置,上述控制装置利用如上述的控制方法。

如图2所示,上述控制装置主要包括处理器1及与处理器1通信连接的存储器2,存储器2被配置为存储处理器1所执行的程序及数据,处理器1也可集成于车载智能语音设备。

处理器1被配置为:获取车内乘员的视线图像信息;从获取到的上述视线图像信息中解析出上述车内乘员的视线方向;响应于视线方向朝向预设位置的持续时间大于或等于第一预设时间段,输出唤醒指令至上述车载智能语音设备,以使上述车载智能语音设备唤醒智能语音应用程序。

在本实施例中,无需车内乘员进行其他操作,在满足唤醒条件时可自动唤醒智能语音交互功能,极大地提升了使用便捷性。

具体地,作为一实施例,处理器1被配置为:通过设置于车内的摄像头获取车内乘员的视线图像信息。

具体地,处理器1被配置为通过第一摄像头专门获取车内主驾位置上的驾驶员的视线图像信息。

优选地,在本实施例中,参考图3所示,为了较好地实时采集驾驶员的视线图像信息,将上述第一摄像头可拆卸地设置于车内中央后视镜的位置处,但并不具体限定上述第一摄像头的安装位置,可根据实际需求进行相应的调整及选择。

优选地,在本实施例中,上述第一摄像头还可以根据驾驶员的视线方向的变化调整相应的拍摄角度,以确保实时拍摄稳定可靠的视线图像信息。

作为另一实施例,处理器1还被配置为通过第二摄像头专门获取车内副驾位置上的乘员的视线图像信息。

优选地,在本实施例中,为了较好地实时采集副驾位置上的乘员的视线图像信息,将上述第二摄像头可拆卸地设置于车内中央后视镜的位置处,但并不具体限定上述第二摄像头的安装位置,可根据实际需求进行相应的调整及选择。

优选地,在本实施例中,上述第二摄像头还可以根据副驾位置上的乘员的视线方向的变化调整相应的拍摄角度,以确保实时拍摄稳定可靠的视线图像信息。

作为另一实施例,处理器1还被配置为通过其他摄像头获取后排座位上的乘员的实现图像信息,摄像头的安装位置可根据实际情况进行相应的调整及选择。

处理器1还被配置为从获取到的视线图像信息中解析出车内乘员的视线方向,此时处理器1可以采用图像处理设备的处理器。

当然,上述视线图像信息可以包括驾驶员、副驾位置上的乘员或其他位置上的乘员的视线图像信息。

处理器1还被配置为进一步判断车内乘员的视线方向是否朝向一预设位置,上述预设位置可以为位置范围。

优选地,在本实施例中,上述预设位置为车载智能语音设备的显示屏(可以为车载hu的中控显示屏)所在位置。例如,参考图3所示,判断驾驶员的视线是否在盯着上述显示屏。

当然,本实施例并不具体限定上述预设位置,只要能够实现相应的功能,可根据实际需求进行相应的设定。

处理器1还被配置为若监控到车内乘员的视线方向朝向上述预设位置,响应于视线方向朝向上述预设位置的持续时间大于或等于第一预设时间段,输出唤醒指令至车载智能语音设备,以使上述车载智能语音设备唤醒智能语音应用程序。

在本实施例中,考虑到行驶安全,上述第一预设时间段不宜设定为过长,而且考虑到功耗和误操作等因素,上述第一预设时间段也不宜设定为过短。

因此,较佳地,上述第一预设时间段的设定范围为400ms~600ms,但并不具体限定上述第一预设时间段,可根据实际需求进行相应的设定。

优选地,在本实施例中,上述第一预设时间段设定为500ms。

处理器1还被配置为输出唤醒指令至上述车载智能语音设备之后,还输出唤醒提示指令至上述车载智能语音设备,以通过语音提示或者在显示屏中显示文字提示的方式提示乘员上述智能语音应用程序的唤醒状态。

乘员收到提示之后,可以说出相应的语音输入指令,上述车载智能语音设备执行上述智能语音应用程序,以输出相应的语音反馈,从而实现智能语音交互功能。

优选地,在本实施例中,考虑到功耗和乘员误操作等因素,处理器1还被配置为输出唤醒指令至上述车载智能语音设备之后,响应于未接收到乘员语音输入指令的持续时间大于或等于第二预设时间段,输出休眠指令至上述车载智能语音设备,以使上述车载智能语音设备切换至休眠状态,从而保证不必要时及时关闭智能语音交互功能。

在本实施例中,并不具体限定上述第二预设时间段,可根据实际需求进行相应的设定。

本实施例提供的车载智能语音设备的控制装置,无需车内乘员自行唤醒智能语音功能,即可方便地唤醒智能语音交互功能,有效地减少了语音唤醒的步骤,以使得交互方式更加人性化,从而提升了语音唤醒效率,进而提升了用户体验度。

结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如dsp与微处理器的组合、多个微处理器、与dsp核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动盘、cd-rom、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在asic中。asic可驻留在乘员终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在乘员终端中。

在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(dsl)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、dsl、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(cd)、激光碟、光碟、数字多用碟(dvd)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1