用于车辆语音控制的控制设备、车载系统和方法与流程

文档序号:30816098发布日期:2022-07-20 00:47阅读:545来源:国知局

1.本技术主要涉及车辆中语音控制的技术领域,尤其涉及一种用于车辆语音控制的控制设备以及包含该控制设备的车载系统,还涉及一种相应的车辆语音控制方法。


背景技术:

2.目前,越来越多的车辆搭载了智能语音控制系统。在车辆上配备智能语音系统,使得驾驶员可以通过语音控制实现诸如开启导航、空调、天窗、音乐之类的功能,从而可以避免因驾驶员操作物理按钮或虚拟按钮而转移视线引起的交通事故。
3.一种通常采用的车辆语音控制系统是“唤醒词式”或“按键触发”系统。这样的语音控制系统仅在监听到特定唤醒词或者用户按下车内语音识别激活按钮之后才会开始识别用户语音指令。由此,此方式至少需要两个步骤,即,首先,监听唤醒词或按键激活,然后识别唤醒词或按键激活之后的语音功能指令。而且,该方式要求用户记忆全部可使用的语音操控功能指令并在需要时正确说出相应的语音操控指令,这给用户造成了负担。
4.另一种常用的车辆语音控制系统是“无唤醒词式”和“非按键激活”系统。这样的语音识别系统可以受控于上层应用提供的指令集,虽然该指令集中的指令均不需要唤醒词或按键激活而可以被直接监听并识别,但是,该指令集通常实现为包含有限语音指令的指令集,因为如果包含过于丰富的语音指令,容易由于被用户在聊天时无意提及某些语音指令而引起误操作。这样,语音控制可以给用户提供的帮助实际上是有限的。


技术实现要素:

5.鉴于现有技术中的上述问题,本发明旨在提供一种改进的车辆语音控制方案,其能够在极为丰富的场景中实现兼具便利性和安全性的车辆语音控制。
6.根据本发明的一实现方式,提供了一种用于车辆语音控制的控制设备,其被配置成:创建语音指令集,其包含用于将车内人机交互界面上的界面元素实现为不需要唤醒词的可语音控制的元素的语音指令;读取呈现于人机交互界面上的当前界面元素;从所述语音指令集获取与所述当前界面元素对应的语音指令;以及将所获取的语音指令输出给语音引擎,以便所述语音引擎按照所述语音指令对在车内检测到语音信号进行处理,其中,创建所述语音指令集包括创建关联语音指令集,其包含在功能上直接或间接关联的界面元素的语音指令;并且所述控制设备还被配置成:在检测到所述当前界面元素中一界面元素的文字或标识被读出的语音信号的情况下,将包含该界面元素的关联语音指令集中的所有语音指令设置成在所述检测之后的一时间段内有效。
7.根据本发明的一实现方式,提供了一种用于车辆语音控制的车载系统,包括人机交互界面、语音输入设备、存储设备、控制设备和语音引擎,所述控制设备可选地为上述控制设备,其中,所述控制设备构造成:创建语音指令集并将所述语音指令集存储在所述存储设备中,所述语音指令集包含用于将车内人机交互界面上的界面元素实现为不需要唤醒词的可语音控制的元素的语音指令;读取呈现于所述人机交互界面上的当前界面元素;从存
储设备中存储的语音指令集获取与所述当前界面元素对应的语音指令;以及将所获取的语音指令输出给所述语音引擎,以便所述语音引擎按照所述语音指令对语音输入设备检测到的语音信号进行处理,并且其中,创建所述语音指令集包括创建关联语音指令集,其包含在功能上直接或间接关联的界面元素的语音指令,并且所述控制设备还被配置成:在检测到所述当前界面元素中一界面元素的文字或标识被读出的语音信号的情况下,将包含该界面元素的关联语音指令集中的所有语音指令设置成在所述检测之后的一时间段内有效。
8.根据本发明的一实现方式,提供了一种用于车辆语音控制的方法,可选地,所述方法由如上所述的控制设备和/或如上所述的车载系统执行,其中,所述方法包括:创建语音指令集,其包含用于将车内人机交互界面上的界面元素实现为不需要唤醒词的可语音控制的元素的语音指令;读取呈现于人机交互界面上的当前界面元素;从所述语音指令集中获取与所述当前界面元素对应的语音指令;以及将所获取的语音指令输出给语音引擎,以便语音引擎按照所述语音指令对在车内检测到语音信号进行处理,并且其中,创建所述语音指令集包括创建关联语音指令集,其包含在功能上直接或间接关联的界面元素的语音指令,并且所述方法还包括:在检测到所述当前界面元素中一界面元素的文字或标识被读出的语音信号的情况下,将包含该界面元素的关联语音指令集中的所有语音指令设置成在所述检测之后的一时间段内有效。
9.根据本发明的一实现方式,提供了一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得处理器执行如上所述的方法。
10.应当注意,以上一个或多个方面包括以下详细描述以及在权利要求中具体指出的特征。下面的说明书及附图详细阐述了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式,并且本公开内容旨在包括所有这些方面和其等同变换。
附图说明
11.从结合附图的以下详细说明中,将会使本发明的技术方案更加清楚。可以理解的是,这些附图仅用于说明的目的,而并非意在对本发明的保护范围进行限制。
12.图1示意性示出了设置有根据本发明一实施方式的用于车辆语音控制的车载系统的车辆。
13.图2是图1中的车载系统的示意性框图。
14.图3示意性示出了根据本发明一实施方式的车辆语音控制过程。
15.图4是是根据本发明的一可行实施方式的车辆语音控制方法的流程图。
具体实施方式
16.在现有的车辆语音控制方案中,无论是“唤醒词式”还是“无唤醒词式”,通常都实现为基于有限的语音指令进行语义识别或直接对整句话进行自然语义识别并辅助以用户对物理按键或虚拟按键的手动操作。这样,存在语音控制的场景十分有限的问题,而且依然需要驾驶员的手动操作。本发明提出一种新的车辆语音控制方案,其能够在车辆中实现无唤醒词的全场景式语音控制,并且彻底解放驾驶员的双手。
17.根据本发明的实施例,其生成(创建)语音指令集,其包含与人机交互界面的界面
元素相应的语音指令,以便将人机交互界面上的界面元素实现为可语音控制的语音元素。由此,能够被车内人员看到的界面元素都可以通过语音方式得到控制,即,能够在车内实现“可见即可读”的语音控制功能。
18.根据本发明的实施例,在当前界面元素的全部更新或部分更新的情况下,语音指令会随着界面元素的更新而动态地更新,以在车内能够实现随着场景变化的“可见即可读”的语音控制功能。
19.根据本发明的实施例,无需用户在语音操控之初说出唤醒词,也无需用户记住大量且复杂的语音指令,也无需用户对人机交互界面的手动操作,就可以实现全场景的车辆语音控制,给车内人机交互带来了全新的智能化体验。
20.下面,结合附图描述本发明的具体实施方式。
21.图1示意性示出了设置有根据本发明的一可行实施方式的用于车辆语音控制的车载控制系统100的车辆。图2是图1中的车载系统100的示意性框图。
22.参见图1和图2,车载控制系统100主要包括人机交互界面(hmi)10、语音输入设备20和控制器30,其中,控制器30可以包括控制设备31、存储设备32和语音引擎33。
23.人机交互界面10与控制器30通信连接。例如,人机交互界面10通过车内总线与控制器30通信连接。人机交互界面10具有多个界面元素(例如,图2中的界面元素1-6),在车端存储有与这些界面元素相应的语音指令,由此当这些界面元素被读出时,被语音引擎33识别为对应的可语音控制的语音元素。换言之,语音元素可以实现响应于用户的语音信号而激活符合语音指令的音控功能。
24.在一实施例中,在人机交互界面10上具有多个虚拟按钮,每个虚拟按钮即为一界面元素,在虚拟按钮上具有诸如图形或文字或符号之类的标识,用于表示该虚拟按钮的功能。根据本发明的实施例,将这些虚拟按钮转换为语音元素,一旦用户读出虚拟按钮上的标识,就等同于物理点击该虚拟按钮一次,并执行该虚拟按钮的功能。
25.人机交互界面10可以借助于车辆中包含人机交互界面的设备来实现。例如,人机交互界面10可以借助于车辆的中控屏来实现。
26.语音输入设备20用于接收(捕捉)车内用户(例如,车辆的驾乘人员)的语音信号。语音输入设备20可以实现为设置于车辆中的一个麦克风,也可以实现为设置于车辆中不同位置处的多个麦克风。
27.控制器30可以借助于车辆的电子控制单元(ecu)来实现,也可以借助于车辆的域控制器来实现,例如,中央域控、影音娱乐域控制器或自动驾驶域控制器。
28.控制器30可以包括控制设备31、存储设备32和语音引擎33。
29.控制设备31包含根据本发明实施例的语音控制策略,即,生成包含与界面元素对应的语音指令的语音指令集并将该语音指令集存储在存储设备32中;读取人机交互界面10上的当前界面元素并从存储设备32中获取与当前界面元素相应的语音指令;将获取的语音指令传输给语音引擎33,以便语音引擎33对语音输入设备20检测到的声音信号执行符合接收到的语音指令的处理。
30.控制设备31可以采用硬件或者软件或者软件与硬件相结合的方式来实现。对于硬件实现的部分,可以在一个或多个专用集成电路(asic)、数字信号处理器(dsp)、数据信号处理器件(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控
制器、微处理器、被设计以执行其功能的电子单元、或它们的组合中实现。对于以软件实现的部分,可以借助于微代码、程序代码或代码段来实现,还可以将它们存储在诸如存储组件之类的机器可读存储介质中。
31.控制设备31可以实现为包括多个功能模块(例如,多个软件模块)。这些模块可以实现在同一芯片或电路中,也可以分别设置于不同的芯片或电路中。
32.在一实施例中,控制设备31实现为车载软件。例如,该车载软件设置(部署)在车辆的域控制器或车辆的ecu中。
33.在一实施例中,控制设备31可以实现为包括存储器和处理器。存储器包含指令,该指令在被处理器执行时使得处理器执行根据本发明实施例的车辆语音控制方法/策略。
34.存储设备32可以实现为车端的车辆存储器。存储设备32可以存储上述语音指令集,还可以存储下文中将描述的定制化的语音指令,还可以存储与界面元素的音控功能相关的界面元素,例如,数值、图标、语句等。这些相关的界面元素可以基于车内用户与车辆的语音交互而呈现在人机交互界面10的小窗中。存储设备32还可以存储用于车载系统100的程序代码以及用于车载系统100及其外围设备的驱动程序。
35.语音引擎33按照从控制设备31接收到的语音指令对语音输入设备20监听(检测)到的语音信号进行处理。换言之,语音引擎33对声音信号的处理(例如,语音识别操作)以及如何进行车辆语音控制是完全依据(符合)控制设备31输出的语音指令的。
36.例如,如果语音引擎33接收到语音输入设备20监听到的语音信号“开空调”,但是并没有从控制设备31接收到任何关于该语音信号的语音指令,则语音引擎33会忽略该语音信号“开空调”,在车内不会进行“开空调”的操控。由此,在一定程度上起到了避免车内多人“抢麦”而引起的误操控问题,因为对于与接收到指令无关的语音信号,会被忽略。
37.车载系统100还可以包括通信接口40。车辆(车端)可以经由通信接口40与外部设备交互信息。外部设备例如是云端服务器。
38.在一实施例中,车载系统100能够经由通信接口40与云端服务器无线通信连接。参见图1,在云端服务器中存储有多个用户(例如,user1-user3)的定制化的语音指令(私人定制的语音指令)。在一用户(例如,user1)驾乘车辆时,车端可以通过(1)在车辆内的传感器进行诸如人脸识别之类的检测并确定出该人员身份之后,向云端服务器发送请求;或(2)该用户通过车内通信设备向云端服务器发送请求;或(3)该用户借助于其个人的智能型穿戴设备向云端服务器发送请求,并通过通信接口40从云端服务器接收该用户的定制化的语音指令。该定制化的语音指令可以存储到存储设备32中,以便在需要时控制设备31能够获取该定制化的语音指令。由此,在车辆中实现了满足私人定制的个性化语音控制。
39.图3示意性示出了根据本发明的一实施方式的语音控制过程300。该过程300可以在上述控制设备31中执行。
40.参见图3,在框302中,控制设备31创建语音指令集。语音指令集包含多条语音指令,这些语音指令用于将界面元素实现为可语音控制的语音元素。一界面元素的语音控制功能可以通过一条语音指令来实现,也可以通过多条条语音指令来实现。
41.人机交互界面10可以包含多个界面。例如,车内的人机交互界面随着车辆所处场景的变化或驾驶辅助功能的变化而变化,以便呈现出与场景或驾驶辅助功能相应的界面。语音指令集包含这些界面中所有的界面元素的语音指令。换言之,能够在人机交互界面上
呈现的界面元素都可以通过转变为语音元素而得到语音控制。
42.在一些情况下,会出现同样标识的界面元素表示不同的功能。在这样的情况下,控制设备31基于其在具体场景下代表的功能含义来生成语音指令并进行相应的语音控制。
43.在一实施例中,控制设备31识别界面元素上诸如符号或缩写或字母之类标识,并将该标识翻译成相应的文字表述,再将该文字表述转化为语音指令。例如,一界面元素为符号“向上箭头”,控制设备31识别该“向上箭头”,并根据其所处场景翻译为“温度升高”或“翻页”或“向前滚屏”的文字表述,再生成与文字表述相对应的语音指令。
44.由此可见,根据本发明的实施例,每一界面元素在具体场景下表示的功能都能够被准确地转换为相应的语音控制功能。
45.在一实施例中,控制设备10将语音指令集实现为包含多条语音指令的表格,该表格中的语音指令可以通过功能或场景或编号的方式被索引,由此,控制设备10可以从该表格中索引并提取与当前界面的界面元素相应的语音指令。
46.语音指令集可以包括以下方面中一者或多者的语音指令。由此,通过以下方面的一者或多者的语音操控策略/规则来实现车内全场景语音控制。
47.(1)在语音输入设备20检测到当前界面元素对应的文字或标识被直接读出的语音信号时,执行该界面元素表示的功能。
48.例如,一界面元素上的文字为“车窗”,物理点击该界面元素一次表示打开或关闭车窗。具体而言,在当前车窗为打开状态时,物理点击该界面元素一次就会实现关闭车窗;在当前车窗为关闭状态时,物理点击该界面元素一次就会实现打开车窗。这时,在用户念出“车窗”并由语音输入设备20检测到“车窗”语音信号时,就等同于物理点击该“车窗”界面元素一次,从而实现相应的打开或关闭车窗的操控。
49.(2)在语音输入设备20检测到与当前界面元素的功能相关联的语音信号时,进行智能语义识别。
50.例如,当前界面元素包含调整车内温度的界面元素。当语音输入设备20检测到包含“太热了”,“太冷了”之类的话语时,进行自然语义识别,从而在与用户语音交互(语音对话)之后进行“空调升温”“开车窗”“开空调”之类的操控。智能语义识别过程可以借助于人工智能(ai)技术,例如,借助于经训练的机器学习模型来实现。
51.(3)在语音输入设备20检测到当前界面元素对应的文字或标识被直接读出的语音信号时,直接执行该界面元素的功能或通过二次确认之后再执行该界面元素的功能。
52.例如,诸如“上一页”、“下一页”这样简单重复且不涉及执行具体车辆功能的语音指令可以在无需二次确认的情况下直接执行。诸如“开启自动驾驶功能”、“开启车道辅助功能”这样涉及执行具体车辆功能,尤其是与安全相关和与车辆控制相关的语音指令需要通过与用户语音交互的方式得到确认之后才会执行。
53.在一实施例中,一元素的功能是否需要“二次确认”可以通过为该元素打标签或添加标记来实现。例如,将无需二次确认的元素打上一类标签,将需要二次确认的元素打上另一类标签。
54.由此可见,根据本发明的实施例,在语音控制的设计中考虑了兼具便利性、灵敏性和安全性的策略。
55.在一实施例中,参见框3021,创建所述语音指令集包括创建关联语音指令集。关联
语音指令集包含在功能上直接或间接关联的界面元素的语音指令。在创建了关联指令集的情况下,在语音输入设备20检测到当前界面元素中一界面元素的文字或标识被读出的语音信号时,控制设备31将包含该界面元素的关联语音指令集中的所有语音指令设置成在所述检测之后的一时间段内有效,即使该语音指令的元素并没有呈现于当前人机交互界面上。
56.可以理解的是,根据本发明实施例的“语音控制”或“语音控制功能”是指不需唤醒词式的语音控制。根据本发明实施例的“有效”或“语音指令有效”是指能够实现不需唤醒词式的语音控制功能。根据本发明实施例的“失效”或“语音指令失效”是指无法实现不需唤醒词式的语音控制功能。
57.在上述关于“关联指令集”的实施例中,有效的时间段的时长能够基于车辆的驾驶辅助功能或用户使用场景而被调节。换言之,该时间段的时长不是固定的,而是能够调节的。
58.在一实施例中,该时间段的时长随着车辆的驾驶辅助功能与驾驶安全性的相关程度的增强而变长。即,语音指令的执行功能与车辆安全关联度越高,该时间段的时长设置得越长。例如,如果语音指令为“保持跟车距离100m”,可以在后续的10s内将与“跟车距离”对应的关联指令集中的所有指令均设置成有效(即,不需唤醒词就可执行语音控制)。如果语音指令为“左道超车”,可以在后续30s内将与“超车”对应的关联指令集中的所有指令设置成有效(即,不需唤醒词就可执行语音控制)。这样的时长设置是因为“超车”指令相对于“跟车”指令与驾驶安全性具有更强的关联。
59.在一实施例中,该时间段具有与多个用户使用场景分别对应的多个时长。多个用户场景可以包括紧急呼叫场景、影音娱乐场景和自动驾驶场景。可以根据不同的用户使用场景设置适合的有效时长。例如,紧急呼叫场景是与人身安全相关的,对于与紧急呼叫场景对应的关联指令集,可以设置较长的有效时长;而对于与影音娱乐场景对应的关联指令集,可以设置较短的有效时长。
60.控制设备31可以将关联语音指令实现为元素拓扑图。在元素拓扑图中,将针对同一场景(例如,结构化道路探测、电子围栏区域、乡间小路,等等)或针对同一驾驶辅助功能(例如,紧急制动、车道辅助、盲区探测,等等)或针对密切相关的功能(例如,与车内温度控制相关的座椅温度、出风方向,等等)的元素连接成元素拓扑图。在元素拓扑图中,两个元素之间可以用线直接连接,表示两者密切相关;也可以经由好几个元素而间接连接,表示两者间接相关。
61.例如,在获得了关于“高级驾驶辅助”的元素拓扑图之后,用户说出“激活领航辅助”的语音指令之后的30s内,所有被记载于该元素(领航辅助)拓扑中的元素的语音指令都被默激活,而无论该元素是否包含于当前界面元素中,即,所有被记载于该元素拓扑中的元素的语音指令在30s内都是有效的。
62.在一实施例中,参见框3022,创建语音指令集包括创建安全性语音指令集。安全性语音指令集包含与车辆当前所处场景或当前驾驶辅助模式的车辆安全性相关的语音指令。在创建了安全性语音指令集的情况下,在车辆处于一场景或一驾驶辅助模式期间,控制设备31将与该场景或该驾驶辅助模式相对应的安全性语音指令集设置为默认有效。
63.例如,车辆当前处于自动驾驶模式,控制设备31将“关闭自动驾驶”的语音指令设置成在自动驾驶模式期间有效。由此,在驾驶员发现自动驾驶出现故障时,能够迅速接管车
辆,而无需等待若干页面的切换才能退出自动驾驶功能,提升了语音控制的安全性。
64.在框304中,控制设备31读取车内人机交互界面10上呈现的当前界面元素。
65.在框306中,控制设备31从存储设备32中存储的语音指令集中获取与所读取的当前界面元素对应的语音指令,以便将所述界面元素实现为可语音控制的语音元素。
66.在车内用户需要定制化的语音控制的情况下,车辆通过通信接口40从服务器获取定制化的语音指令(框308)。关于获取定制化的语音指令的实施例可以参见上文相关描述。
67.在框310中,控制设备31将获取的语音指令输出给语音引擎33,以便语音引擎33按照接收的语音指令执行操作。
68.在人机交互界面10上的当前界面元素全部更新(例如,切换到了另一个页面)或者部分更新(例如,仅更新了部分区域中界面元素)的情况下,控制设备31读取更新的界面元素(框312)。
69.在框314中,控制设备31从语音指令集获取与更新的界面元素相对应的更新的语音指令。
70.在框316中,控制设备31将更新的语音指令输出给语音引擎33,以实现更新的界面元素的语音控制。并且,被更新的界面元素的语音指令失效。换言之,在界面元素被更新之后,与被更新的元素相应的语音指令也随之失效,而不再能够得到语音控制。
71.另外,控制设备31还具有取消或恢复界面元素的语音控制功能的策略。例如,一界面元素的按钮可以接收用户输入(点击)而取消语音控制功能(即,该界面元素的功能无法实现语音控制)。该界面元素的按钮还可以再次接收用户输入(点击)而恢复语音控制功能(即,该界面元素变成能够语音控制)。
72.由此,在一些情况下,可以通过该方式取消不期望的语音指令,从而避免误触发,提升了车辆语音控制的安全性。
73.图4示出了根据本发明一实施方式的用于车辆语音控制的方法400。该方法400可以在上述控制设备31中执行,也可以在上述车载系统100中执行。因此,以上相关描述同样适用于此,不赘述。
74.参见图4,在步骤402中,控制设备31创建语音指令集,其包含用于将车内人机交互界面上的界面元素实现为不需唤醒词的可语音控制的元素的语音指令,其中,创建所述语音指令集包括创建关联语音指令集,其包含在功能上直接或间接关联的界面元素的语音指令。
75.在框404中,控制设备31读取呈现于人机交互界面上的当前界面元素。
76.在框406中,控制设备31从所述语音指令集获取与所述当前界面元素对应的语音指令。
77.在框408中,控制设备31将所获取的语音指令输出给语音引擎,以便语音引擎按照所述语音指令对在车内检测到语音信号进行处理。
78.在框410中,在检测到当前界面元素中一界面元素的文字或标识被读出的语音信号的情况下,控制设备31将包含该界面元素的关联语音指令集中的所有语音指令设置成在所述检测之后的一时间段内有效。
79.本发明还提供机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得处理器执行上述车辆语音控制方法400。
80.可以理解的是,处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例,本发明中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编程逻辑器件(pld)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本发明给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、dsp或其它适合的平台所执行的软件。
81.可以理解的是,软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器,存储器可以例如为磁性存储设备(如,硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(ram)、只读存储器(rom)、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的,但是存储器也可以位于处理器内部(如,缓存或寄存器)。
82.虽然前面描述了一些实施方式,这些实施方式仅以示例的方式给出,而不意于限制本发明的范围。所附的权利要求及其等同替换意在涵盖本发明范围和主旨内做出的所有修改、替代和改变。
当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1