车内语音交互方法及系统与流程

文档序号：28218182发布日期：2021-12-28 23:01阅读：602来源：国知局

1.本发明涉及智能语音领域，尤其涉及一种车内语音交互方法及系统。

背景技术：

2.随着车载语音助手的发展，在汽车上搭载分布式麦克风来实现多音区语音交互愈来愈成为标配，在具备多音区语音交互能力的汽车上，语音助手可以实现定向拾音，只对唤醒方位乘员的语音输入做反馈，很大程度上增强了语音交互的抗干扰能力和智能程度，提升了语音助手的使用体验。但与此同时，如何通过多音区交互时的反馈来使乘员明确当前焦点音区和交互对象成为了设计难点。目前普遍的解决方案是在车载中控车机界面的固定位置上展示音区相关标识。
3.在实现本发明过程中，发明人发现相关技术中至少存在如下问题：
4.其缺陷主要表现在语音助手形象和波形动画会出现在固定的位置，且二者在视觉上的关联性并不强，这些音区相关标识所在的位置并不能准确地映射汽车座舱内的空间方位，因此用户并不能根据这些反馈迅速地明确收音方位；且该方案在二音区的语音交互时勉强可用，但在现在愈加普遍的四音区、甚至六音区、七音区等语音交互上，便不再适用且难以扩展。

技术实现要素：

5.为了至少解决现有技术中没有考虑到二维的中控车机ui界面与三维的车舱内的空间位置，视觉上无法体现出语音助手与车内说话人的空间位置关系的问题。
6.第一方面，本发明实施例提供一种车内语音交互方法，包括：
7.根据采集到的说话人的语音，确定所述说话人在车舱内的空间位置；
8.响应于所述说话人的语音输入，调整语音助手在中控车机ui界面中的方位，以模拟所述说话人在车舱内的空间位置。
9.第二方面，本发明实施例提供一种车内语音交互系统，包括：
10.空间位置确定程序模块，用于根据采集到的说话人的语音，确定所述说话人在车舱内的空间位置；
11.交互程序模块，用于响应于所述说话人的语音输入，调整语音助手在中控车机ui界面中的方位，以模拟所述说话人在车舱内的空间位置。
12.第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的车内语音交互方法的步骤。
13.第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的车内语音交互方法的步骤。
14.本发明实施例的有益效果在于：通过动态地调整语音浮窗的位置和布局，建立起
更直观的语音助手ui元素与汽车座舱空间的映射关系，使用户更便捷地明确当前语音交互的焦点音区，避免交互对象混淆和无效输入，提升与用户的交互体验。
附图说明
15.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
16.图1是本发明一实施例提供的一种车内语音交互方法的流程图；
17.图2是本发明一实施例提供的一种车内语音交互方法的中控车机交互界面示意图；
18.图3是本发明一实施例提供的一种车内语音交互方法的主驾唤醒示意图；
19.图4是本发明一实施例提供的一种车内语音交互方法的副驾唤醒示意图；
20.图5是本发明一实施例提供的一种车内语音交互方法的左后座唤醒示意图；
21.图6是本发明一实施例提供的一种车内语音交互方法的右后座唤醒示意图；
22.图7是本发明一实施例提供的一种车内语音交互系统的结构示意图；
23.图8为本发明一实施例提供的一种车内语音交互的电子设备的实施例的结构示意图。
具体实施方式
24.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
25.如图1所示为本发明一实施例提供的一种车内语音交互方法的流程图，包括如下步骤：
26.s11：根据采集到的说话人的语音，确定所述说话人在车舱内的空间位置；
27.s12：响应于所述说话人的语音输入，调整语音助手在中控车机ui界面中的方位，以模拟所述说话人在车舱内的空间位置。
28.在本实施方式中，本方法可以应用到各种座位的车辆中，例如二座位、四座位、六座位以及更多座位的车辆中。下面以四座位的车辆为例进行说明，例如，在四座位车辆中，主驾、副驾以及左、右后座都有用户。如图2所示，汽车座舱内默认4个座位对应4个音区，4个音区分别对应中控车机屏幕角落上的4个音区标识：主驾对应主驾音区标识，副驾对应副驾音区标识，左后座对应左后座音区标识，右后座对应右后座音区标识，以此建立中控车机语音助手ui界面与汽车座舱空间方位的映射关系。
29.对于步骤s11，为了采集各座位上用户的说话语音，可以在每个座位上安装麦克风，分别采集各座位音区的语音。考虑到实际中驾驶的车辆在出场时没有在座位安装麦克风进行专业的收音采集，也可以在车辆搭载的中控车机中搭载麦克风阵列，例如，可以通过各麦克风阵列确定音源的不同方向，进而确定说话人所在车舱内的空间位置。也可以使用
其他方式确定说话人在车舱内的空间位置，在此不做限定。
30.对于步骤s12，假设主驾的位置有说话人语音输入，调整语音助手在中控车机ui界面中的方位。通过ui界面来模拟说话人在车舱内的空间位置。
31.作为一种实施方式，所述方位包括：体现所述说话人在车舱内前后位置的第一元素。
32.所述方位还包括：在所述第一元素范围上体现所述说话人在车舱内左右位置的第二元素。
33.所述第一元素至少包括：语音助手的浮窗；所述第二元素至少包括：语音助手的拟物形象。
34.在本实施方式中，第一元素是图2中的语音浮窗，可以看出，语音浮窗并不是固定在某一位置(例如，屏幕正居中，或者屏幕紧下方)，而是倾向于屏幕上方。基于空间映射关系，通过屏幕上方的语音浮窗，车辆内的用户可以直观的看出，语音助手是与车辆前排座位的用户(说话人)进行交互。
35.第二元素是图2中的语音助手的拟物形象，语音助手形象展示在语音浮窗范围上，在后续的举例中，可以看到语音助手的拟物形象可以在语音浮窗范围活动。基于空间映射关系，通过屏幕左右的拟物形象，车辆内的用户可以直观的看出，语音助手是与车辆左边(主驾、左后座)或右边(副驾、右后座)的用户进行交互。
36.通过该实施方式可以看出，在上述方位设计中，使用了两种不同的元素，分别表达了不同的方位，通过两种元素的组合，进一步提示了用户说话人在车舱内的空间位置。通过动态地调整语音浮窗的位置和布局，建立起更直观的语音助手ui元素与汽车座舱空间的映射关系，使用户更便捷地明确当前语音交互的焦点音区，避免交互对象混淆和无效输入。
37.作为一种实施方式，所述ui界面还包括：用于代表所述车舱内的空间位置的可激活的多个音区标识。
38.所述方法还包括：基于所述说话人在车舱内的空间位置确定语音助手的拟物形象的朝向。
39.所述方法还包括：动态视觉效果展示所述拟物形象的朝向，或静态的将所述拟物形象配置在所述语音助手的浮窗的端点。
40.在本实施方式中，如上文所述，4个音区分别对应中控车机屏幕角落上的4个音区标识：主驾对应主驾音区标识，副驾对应副驾音区标识，左后座对应左后座音区标识，右后座对应右后座音区标识，以此建立中控车机语音助手ui界面与汽车座舱空间方位的映射关系。当其中一个方位唤醒语音时，该方位所对应音区标识切换到激活状态，如出现波形扩散动画。
41.虽然屏幕左右的拟物形象可以提示用户，为了提升交互效果，拟物形象有着一定的朝向，例如，当主驾方位语音唤醒时，拟物形象朝向左上方的音区标识。当副驾方位语音唤醒时拟物形象朝向右上方的音区标识。也就是说拟物形象并不是单纯固定的贴图，而是会根据不同音区的唤醒动态进行调整。进一步提升交互视觉，在拟物形象出现时，可以动态的滑动出现，或者拟物形象动态的展示，考虑到用户不喜欢过于花哨的特效，也可以静态的将拟物形象进行展示。
42.通过该实施方式可以看出，将上述几个方面的视觉反馈特征来模拟人与机器对话
时双方的空间关系，使用户能迅速得知当前语音交互的焦点音区，响应应该由谁来下达后续的语音指令。
43.更加具体的实施方式如下，图3展示了主驾方位唤醒时，中控车机ui上显示主驾音区标识被激活，如展示波形扩散动效。语音助手浮窗出现在屏幕上端，语音助手形象(拟物形象)在浮窗左端且面向主驾方向进行反馈，在出现时可以从右向左滑动浮出，也可以固定出现在浮窗左端，语音助手形象出现后，还可以动态的向主驾音区标识晃动以进一步向用户提示。
44.同样的，图3、图4、图5展示了车内其他位置的交互过程。
45.图4展示了副驾方位唤醒时，中控车机ui上显示副驾音区标识被激活，如展示波形扩散动效。语音助手浮窗出现在屏幕上端，语音助手形象在浮窗右端且面向副驾方向进行反馈。
46.图5展示了左后座方位唤醒时，中控车机ui上显示副驾音区标识被激活，如展示波形扩散动效。语音助手浮窗出现在屏幕下端，语音助手形象在浮窗左端且面向左后座方向进行反馈。
47.图6展示了右后座方位唤醒时，中控车机ui上显示副驾音区标识被激活，如展示波形扩散动效。语音助手浮窗出现在屏幕下端，语音助手形象在浮窗右端且面向右后座方向进行反馈。
48.六座、等多座车辆也可以适用，在此不再赘述。通过语音浮窗位置和布局的变化模拟了人机对话时双方的空间关系，用户可以通过浮窗和拟物形象这两种元素直观的显示出交互的对象，降低了用户对多音区语音交互的理解、学习成本，使多音区语音交互体验得到了明显的提升。
49.如图7所示为本发明一实施例提供的一种车内语音交互系统的结构示意图，该系统可执行上述任意实施例所述的车内语音交互方法，并配置在终端中。
50.本实施例提供的一种车内语音交互系统10包括：空间位置确定程序模块11和交互程序模块12。
51.其中，空间位置确定程序模块11用于根据采集到的说话人的语音，确定所述说话人在车舱内的空间位置；交互程序模块12用于响应于所述说话人的语音输入，调整语音助手在中控车机ui界面中的方位，以模拟所述说话人在车舱内的空间位置。
52.本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的车内语音交互方法；
53.作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：
54.根据采集到的说话人的语音，确定所述说话人在车舱内的空间位置；
55.响应于所述说话人的语音输入，调整语音助手在中控车机ui界面中的方位，以模拟所述说话人在车舱内的空间位置。
56.作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意
方法实施例中的车内语音交互方法。
57.非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
58.本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的车内语音交互方法的步骤。
59.图8是本技术另一实施例提供的车内语音交互方法的电子设备的硬件结构示意图，如图8所示，该设备包括：
60.一个或多个处理器810以及存储器820，图8中以一个处理器810为例。车内语音交互方法的设备还可以包括：输入装置830和输出装置840。
61.处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图8中以通过总线连接为例。
62.存储器820作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本技术实施例中的车内语音交互方法对应的程序指令/模块。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例车内语音交互方法。
63.存储器820可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器820可选包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
64.输入装置830可接收输入的数字或字符信息。输出装置840可包括显示屏等显示设备。
65.所述一个或者多个模块存储在所述存储器820中，当被所述一个或者多个处理器810执行时，执行上述任意方法实施例中的车内语音交互方法。
66.上述产品可执行本技术实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术实施例所提供的方法。
67.本技术实施例的电子设备以多种形式存在，包括但不限于：
68.(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。
69.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功
能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如平板电脑。
70.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
71.(4)其他具有数据处理功能的电子装置。
72.在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
73.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
74.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
75.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄海溪
技术所有人：思必驰科技股份有限公司
我是此专利的发明人