多音区语音唤醒、识别方法和装置、设备、存储介质与流程

文档序号：26585117发布日期：2021-09-10 18:54阅读：767来源：国知局

1.本公开涉及人工智能领域，尤其涉及语音技术、自然语言处理、语音交互等领域，可用于车联网、自动驾驶等场景。具体涉及以一种多音区语音唤醒、识别方法和装置、设备、存储介质。

背景技术：

2.随着语音技术的发展，车载语音系统出现了多路拾音器(如多路麦克风)、多个音区的语音唤醒与识别技术。其中，可以将车内空间划分成多个子空间，每个子空间为一个音区。比如车辆可以包括两音区或四音区或六个音区等。

技术实现要素：

3.本公开提供了一种多音区语音唤醒、识别方法和装置、设备、存储介质以及计算机程序产品。
4.根据本公开的一方面，提供了一种多音区语音唤醒方法，包括：获取 n路音频信号，其中，每路音频信号对应于n个音区中的一个音区；基于所述n路音频信号与唤醒引擎中n个同步音频处理线程之间的对应关系，将每路音频信号输入一个对应的音频处理线程；以及响应于所述n个同步音频处理线程中出现有唤醒结果的线程，将与所述有唤醒结果的线程对应的音区确定为所述n个音区中的已唤醒音区。
5.根据本公开的另一方面，提供了一种多音区语音识别方法，包括：根据本公开实施例所述的多音区语音唤醒方法，确定出n个音区中的第一已唤醒音区；获取设置在所述第一已唤醒音区内的拾音器采集的音频信号；以及将所述音频信号传输至语音识别引擎进行语音识别。
6.根据本公开的另一方面，提供了一种多音区语音唤醒装置，包括：第一获取模块，用于获取n路音频信号，其中，每路音频信号对应于n个音区中的一个音区；输入模块，用于基于所述n路音频信号与唤醒引擎中 n个同步音频处理线程之间的对应关系，将每路音频信号输入一个对应的音频处理线程；以及第一确定模块，用于响应于所述n个同步音频处理线程中出现有唤醒结果的线程，将与所述有唤醒结果的线程对应的音区确定为所述n个音区中的已唤醒音区。
7.根据本公开的另一方面，提供了一种多音区语音识别装置，包括：第四确定模块，用于根据本公开实施例所述的多音区语音唤醒装置，确定出 n个音区中的第一已唤醒音区；第二获取模块，用于获取设置在所述第一已唤醒音区内的拾音器采集的音频信号；以及第一语音识别模块，用于将所述音频信号传输至语音识别引擎进行语音识别。
8.根据本公开的另一方面，提供了一种电子设备，包括：唤醒引擎，包括n个同步音频处理线程，其中，每个音频处理线程对应于一个音区，用于处理对应音区内设置的拾音器采集的一路音频信号，所述唤醒引擎用于监听所述n个同步音频处理线程的处理结果，并将与所述n个同步音频处理线程中有唤醒结果的线程对应的音区确定为n个音区中的已
唤醒音区。
9.根据本公开的另一方面，提供了一种车载终端，包括：唤醒引擎，包括n个同步音频处理线程，其中，每个音频处理线程对应于一个车载音区，用于处理对应车载音区内设置的拾音器采集的一路音频信号，所述唤醒引擎用于监听所述n个同步音频处理线程的处理结果，并将与所述n个同步音频处理线程中有唤醒结果的线程对应的车载音区确定为n个车载音区中的已唤醒音区。
10.根据本公开的另一方面，提供了一种车辆，包括：本公开实施例所述的多音区语音唤醒装置；以及本公开实施例所述的多音区语音识别装置。
11.根据本公开的另一方面，提供了另一种车辆，包括：本公开实施例所述的车载终端。
12.根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例所述的方法。
13.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开实施例所述的方法。
14.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开实施例所述的方法。
15.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
16.附图用于更好地理解本方案，不构成对本公开的限定。其中：
17.图1示例性示出了适于本公开实施例的系统架构；
18.图2示例性示出了根据本公开实施例的多音区语音唤醒方法的流程图；
19.图3示例性示出了根据本公开实施例的多音区语音唤醒的原理图；
20.图4示例性示出了根据本公开实施例的多音区语音识别方法的流程图；
21.图5示例性示出了根据本公开实施例的多音区语音唤醒装置的框图；
22.图6示例性示出了根据本公开实施例的多音区语音识别装置的框图；以及
23.图7示例性示出了用来实现本公开实施例的电子设备的框图。
24.具体实施方式
25.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
26.应该理解，随着多音区的出现，处于不同音区的用户都可以唤醒车载主机(简称
车机)，进而实现对特定音区内的用户进行语音识别的目的。
27.目前，多音区语音唤醒系统通常需要多个唤醒引擎。比如，四音区语音唤醒系统需要四个唤醒引擎；六音区语音唤醒系统需要六个唤醒引擎。
28.应该理解，多音区语音唤醒系统中包含的唤醒引擎数目越多，系统占用的中央处理器(central processing unit，简称cpu)资源和内存资源也就越多。多音区语音唤醒系统占用的上述资源越多，对车载系统中其它应用的影响就越严重，甚至影响其它应用的正常运行。
29.基于此，本公开实施例提出了一种多音区单唤醒引擎的语音唤醒方案，既可以支持多音区的语音唤醒，又可以减少车载主机中cpu和内存等资源的开销，以保证车载主机的性能。
30.以下将结合附图和具体实施例详细阐述本公开。
31.适于本公开实施例的多音区语音唤醒、识别方法和装置的系统架构介绍如下。
32.图1示例性示出了适于本公开实施例的系统架构。需要注意的是，图 1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他环境或场景。
33.如图1所示，系统架构100可以包括：车辆101、网络102和服务器 103。
34.需要说明的是，在本系统架构中，车辆101的车内空间可以划分为四个子空间，每个子空间称为一个音区。即，车辆101的车内空间可以包括：音区1011、1012、1013、1014，共四个音区。例如，音区1011可以是主驾音区，音区1012可以是副驾音区，音区1013可以是副驾后座音区，音区1014可以是主驾后座音区，等等。每个音区内可以设置一个拾音器，如麦克风。因此，在本系统架构中，主、副驾驶员以及主、副驾后座乘客都可以在对应音区内唤醒车辆的车载主机，并与唤醒后的车载主机进行语音交互。
35.需要说明的是，在本公开实施例中，车辆101的车载主机可以仅包括一个唤醒引擎。该唤醒引擎可以包括多个同步音频处理线程(如对于本系统架构而言，车辆101的车载主机的唤醒引擎可以包括四个同步音频处理线程)，每个音频处理线程用于处理一个对应音区内设置的拾音器采集的音频信号。在同一时刻，无论哪个音频处理线程有唤醒结果，即，无论哪个音频处理线程中的音频信号触发了对应的唤醒词模型，则都表明车载主机已被唤醒。但是，应该理解，哪个音频处理线程有唤醒结果，则表明与该音频处理线程对应的音区已被唤醒，后续需要对来自该音区的音频信号进行语音识别。
36.示例性的，比如唤醒词可以包括：“你好”、“hi”、“hello”、“xx同学，你好”、......。假设音区1011内的主驾驶员说“hi”，那么车辆101的车载主机的唤醒引擎中与音区1011一一对应的音频处理线程(如线程1)中理论上应该有唤醒结果，即，唤醒引擎为线程1调用的唤醒词模型理论上会被表征“hi”的音频信号所触发，此时表征音区1011已被唤醒，后续可以将音区1011内设置的拾音器采集的音频信号传输至语音识别模块进行语音识别，即，后续音区1011内的驾驶员可以与车载主机进行语音交互。
37.需要说明的，在本公开的一些实施例中，在进行语音识别时，可以将音频信号发送至云端服务器103进行语音识别。或者，在本公开的其他实施例中，在进行语音识别时，还可以由车辆自身的车载主机对音频信号进行语音识别。
38.换言之，在本公开的一些实施例中，可以将车辆101的语音识别模块 (包括语音识
别引擎)设置在云端服务器103中。这种方案可以减轻车辆自身的负担。或者，在本公开的其他实施例中，可以将车辆101的语音识别模块(包括语音识别引擎)设置在车辆自身的车载主机中。这种方案可能会增加车辆的负担。
39.通过本系统架构提供的多音区单唤醒引擎，既可以支持多音区的语音唤醒，又可以减少车载主机中cpu和内存等资源的开销，以保证车载主机的性能，即保证车辆的其他应用可以正常运行。
40.应该理解，图1中的车辆101内包含的音区数目仅仅是示意性的。根据实现需要，车辆101内可以划分为任意数目个音区。
41.适于本公开实施例的多音区语音唤醒、识别方法和装置的应用场景介绍如下。
42.需要说明的是，本公开实施例提供的多音区语音唤醒、识别方案，可以应用于车联网、自动驾驶等具有多个音区的语音唤醒、识别场景。此外，本公开实施例提供的多音区语音唤醒、识别方案，可以应用于物联网、商超、家居等具有多个音区的语音唤醒、识别场景，本公开在此不再一一赘述。
43.根据本公开的实施例，本公开提供了一种多音区语音唤醒方法。
44.图2示例性示出了根据本公开实施例的多音区语音唤醒方法的流程图。
45.如图2所示，多音区语音唤醒方法200可以包括：操作s210～s230。
46.在操作s210，获取n路音频信号，其中，每路音频信号对应于n个音区中的一个音区。
47.在操作s220，基于n路音频信号与唤醒引擎中n个同步音频处理线程之间的对应关系，将每路音频信号输入一个对应的音频处理线程。
48.在操作s230，响应于n个同步音频处理线程中出现有唤醒结果的线程，将与有唤醒结果的线程对应的音区确定为n个音区中的已唤醒音区。
49.需要说明的是，在本公开实施例中，操作s210中获取的n路音频信号是同时对n个音区进行语音采集得到的n路音频信号。
50.在本公开的一个实施例中，方法200可以应用于车载终端。该车载终端可以仅包括一个唤醒引擎。该唤醒引擎可以包括n个同步音频处理线程。其中，每个音频处理线程对应于一个车载音区，用于处理对应车载音区内设置的拾音器采集的一路音频信号。唤醒引擎用于监听n个同步音频处理线程的处理结果，并将与n个同步音频处理线程中有唤醒结果的线程对应的车载音区确定为n个车载音区中的已唤醒音区。
51.示例性的，比如某车辆内具有四个音区，分别为音区1～音区4。这四个音区内各设置有一个麦克风，比如音区1～音区4内分别设置有麦克风 1～麦克风4。车辆的车载终端中仅有一个唤醒引擎，且该唤醒引擎包括四个音频处理线程，分别为线程1～线程4。其中，线程1对应于音区1，用于处理麦克风1采集的音频信号流；线程2对应于音区2，用于处理麦克风2采集的音频信号流；线程3对应于音区3，用于处理麦克风3采集的音频信号流；线程4对应于音区4，用于处理麦克风4采集的音频信号流。对于同一时刻，由麦克风1～麦克风4分别采集的四路音频信号，按照上述对应关系分别输入线程1～线程4进行处理后，如果线程1～线程4中的任意一个线程有唤醒结果，则表示音区1～音区4中音区已经唤醒了。比如，如果线程1中有唤醒结果，则表示音区1已唤醒。在本公开实施例中，用户可以在车内的各个音区唤醒车载主机，并与其进行语音交互。
52.或者，在本公开的一个实施例中，方法200可以应用于电子设备。该电子设备(可以是终端设备)可以仅包括一个唤醒引擎(又称语音唤醒引擎)。该唤醒引擎可以包括n个同步音频处理线程。其中，每个音频处理线程对应于一个音区，用于处理对应音区内设置的拾音器采集的一路音频信号。唤醒引擎用于监听n个同步音频处理线程的处理结果，并将与n 个同步音频处理线程中有唤醒结果的线程对应的音区确定为n个音区中的已唤醒音区。
53.示例性的，比如某公寓内具有一个主卧、两个次卧、一个客厅、一个厨房和一个卫生间，共六个子空间。其中，每个子空间内设置有一个麦克风，可以作为一个音区。六个子空间对应的六个音区分别为音区1～音区6。这六个音区内设置的六个麦克风，分别为麦克风1～麦克风6。应用于该公寓内的电子设备(如智能音箱)可以仅有一个唤醒引擎，且该唤醒引擎包括六个音频处理线程，分别为线程1～线程6。其中，线程1对应于音区1，用于处理麦克风1采集的音频信号流；线程2对应于音区2，用于处理麦克风2采集的音频信号流；线程3对应于音区3，用于处理麦克风3采集的音频信号流；线程4对应于音区4，用于处理麦克风4采集的音频信号流。线程5对应于音区5，用于处理麦克风5采集的音频信号流；线程6 对应于音区6，用于处理麦克风6采集的音频信号流。对于同一时刻，由麦克风1～麦克风6分别采集的六路音频信号，按照上述对应关系分别输入线程1～线程6进行处理后，如果线程1～线程6中的任意一个线程有唤醒结果，则表示音区1～音区6中音区已经唤醒了。比如，如果线程1中有唤醒结果，则表示音区1已唤醒。在本公开实施例中，用户可以在公寓内的各个子空间唤醒智能音箱，并与其进行语音交互。
54.需要说明的是，在本公开实施例中，n为大于1的整数。
55.通过本公开实施例提供的多音区单唤醒引擎方案，既可以支持多音区的语音唤醒，又可以减少车载主机或智能音箱中cpu和内存等资源的开销，以保证车载主机或智能音箱的性能，即保证车辆或智能音箱的其他应用可以正常运行。
56.此外，相关技术中，采用多音区多唤醒引擎的语音唤醒方案，可能涉及到回调复杂，导致业务逻辑不好控制的问题。比如，多音区多唤醒引擎方案中，车载主机中需要设置有多个唤醒引擎，而每个唤醒引擎通常有多个引擎状态，多个唤醒引擎必然要面对众多个引擎状态，以致车载主机的引擎状态相当复杂且难以管理。
57.而在本公开实施例中，采用多音区单唤醒引擎的语音唤醒方案，因而回调相比与多音区多唤醒引擎方案更简单，且业务逻辑也更好控制。
58.并且，通过本公开实施例，还可以扩展产品(如智能音箱等电子设备和车载终端等)的能力边界，使得语音唤醒方案对低端产品更友好。
59.作为一种可选的实施例，该方法还可以包括如下操作。
60.响应于n个同步音频处理线程中出现有唤醒结果的线程，确定n个同步音频处理线程中是否同时有多个线程有唤醒结果。
61.响应于确定n个同步音频处理线程中同时有多个线程有唤醒结果，确定同时有唤醒结果的多个线程中输入音频信号最强的一个目标线程。
62.其中，将与有唤醒结果的线程对应的音区确定为n个音区中的已唤醒音区，可以包括：将与目标线程对应的一个目标音区确定为n个音区中的已唤醒音区。
63.在本公开实施例中，即使用户在一个音区内说话，也可能出现多个音区内的拾音
器同时能够采集到相应的音频信号的情况。这种情况下，为了防止多个线程调用的唤醒词模型全部被唤醒而出现系统混乱，可以先确定用户的位置信息，再根据用户的位置信息唤醒用户所在的音区，以便后续对用户所在音区内的拾音器采集的音频信号进行语音识别。
64.应该理解，在本公开实施例中，可以先根据各路音频信号包含的能量，确定出各路音频信号的强度，然后从中找出音频信号最强的一路，并将该路音频信号输入的音频处理线程调用的唤醒词模型触发为唤醒状态，同时将采集该路音频信号的拾音器所在音区作为用户实际所在的音区。后续可以将用户实际所在的音区内的拾音器采集的音频信号发送至语音识别模块进行语音处理。
65.换言之，在本公开实施例中，如果同一时刻，多个语音处理线程都有唤醒结果，则可以根据每路音频信号的强弱程度，将信号最强的一路音频信号输入的线程确定为实际被唤醒的一个，后续进行语音识别时可以将采集该路音频信号的拾音器采集的语音信号流送至语音识别模块进行语音识别。
66.示例性的，比如某车辆内具有四个音区，分别为音区1～音区4。这四个音区内各设置有一个麦克风，比如音区1～音区4内分别设置有麦克风 1～麦克风4。车辆的车载终端中仅有一个唤醒引擎，且该唤醒引擎包括四个音频处理线程，分别为线程1～线程4。其中，线程1对应于音区1，用于处理麦克风1采集的音频信号流；线程2对应于音区2，用于处理麦克风2采集的音频信号流；线程3对应于音区3，用于处理麦克风3采集的音频信号流；线程4对应于音区4，用于处理麦克风4采集的音频信号流。对于同一时刻，由麦克风1～麦克风4分别采集的四路音频信号，按照上述对应关系分别输入线程1～线程4进行处理后，发现线程1和线程2均有唤醒结果，只是此时输入线程1中一路音频信号强度更强，因而此种情况下可以认为实际唤醒的是音区1，音区1唤醒后，可以继续获取麦克风1采集的音频信号流并将其发送至语音识别模块进行语音识别，以实现音区1 内的用户与车载主机之间的语音交互。
67.通过本公开实施例，在唤醒引擎中的多个语音处理线程中都有唤醒结果的情况下，可以选择信号最强的一路进行唤醒，以便用户能够与车载主机更顺畅地进行语音交互。
68.作为一种可选的实施例，获取n路音频信号可以包括如下操作。
69.利用n个拾音器同时采集n路音频信号，其中，每个拾音器设置在n 个音区中的一个音区内。
70.将n个拾音器同时采集的n路音频信号组合成一帧音频数据传输至唤醒引擎。
71.通过唤醒引擎，从音频数据中提取对应的n路音频信号，以便按照对应关系，分别输入一个对应的音频处理线程进行处理。
72.在本公开实施例中，可以先将同时获取的多路音频信号组合成一帧音频数据(也称音频数组)，然后再一帧一帧地将音频数据中包含的多路音频信号(即多个音频数据分量)同时传输至同一个唤醒引擎，然后在唤醒引擎内将每一帧音频数据按照之前约定的组装规则拆分出对应的多路音频信号，并将每一路音频信号按照预先预定的对应关系输入对应的音频处理线程中进行语音处理。
73.示例性的，如图3所示，比如某车辆内具有四个音区，分别为音区1～音区4。这四个音区内各设置有一个麦克风，比如音区1～音区4内分别设置有麦克风1～麦克风4。这四
个麦克风在任意同一时刻采集的四路音频信号(如t1时刻采集的四路音频信号分别为音频信号1～音频信号4)都可以按照如图所示的顺序组装成一帧音频数据。这样，可以保证针对所有音区同时采集的多路音频信号能够同时输入车载主机上的唤醒引擎中。
74.继续参考图3，唤醒引擎中包含四条线程，分别为线程1～线程4，其中，线程1对应于音区1，用于处理麦克风1采集的音频信号流；线程2 对应于音区2，用于处理麦克风2采集的音频信号流；线程3对应于音区 3，用于处理麦克风3采集的音频信号流；线程4对应于音区4，用于处理麦克风4采集的音频信号流。
75.继续参考图3，由音频信号1～音频信号4组装成的音频数据输入唤醒引擎后，唤醒引擎可以从该音频数据中拆分出音频信号1～音频信号4，并将音频信号1输入线程1进行语音处理，将音频信号2输入线程2进行语音处理，将音频信号3输入线程3进行语音处理，将音频信号4输入线程 4进行语音处理。
76.应该理解，在本公开实施例中，对于t1时刻采集的四路音频信号而言，如果只有线程1中有唤醒结果，则意味着唤醒的是音区1；如果线程 1和线程2中都有唤醒结果，且音频信号1强于音频信号2，则意味着实际唤醒的也是音区1。音区1被唤醒后，后续可以将麦克风1采集的音频信号流发送至对应的语音识别模块进行语音识别，从而实现音区1内的用户与车载主机之间的语音交互。
77.在本公开实施例中，可以按照特定的数据格式组装各路音频信号，比如，对于同时采集的n路音频信号而言，可以按照音频信号1到音频信号 n的顺序依次组装成一个n维的音频数组，该n维的音频数组即可以作为一帧音频数据输送至唤醒引擎。
78.通过本公开实施例，采用特殊的数据传输方式(即将各个时刻采集的多路音频信号作为一帧帧音频数据进行传输)，可以保证单唤醒引擎能同时监听来多个音区。
79.此外，相关技术中，采用多音区多唤醒引擎的语音唤醒方案，可能涉及到回调复杂，导致业务逻辑不好控制的问题。比如，多音区多唤醒引擎方案中，车载主机中需要设置有多个唤醒引擎，针对每个唤醒引擎需要设置一条数据传输线，以致车载主机的数据传输线相当庞杂且难以管理。再比如，多音区多唤醒引擎方案中，车载主机中的多个唤醒引擎以多条数据线的方式获取对应的音频数据，导致多个唤醒引擎很难同时获取到同一时刻采集的多路音频数据。
80.而在本公开实施例中，采用多音区单唤醒引擎的语音唤醒方案，因而回调相比与多音区多唤醒引擎方案更简单，且业务逻辑也更好控制。比如，因为采用的是上述特殊的数据传输方式，因而保证单唤醒引擎能同时监听来多个音区，即，能够保证唤醒引擎同时获取到同一时刻采集的多路音频数据。
81.根据本公开的实施例，本公开提供了一种多音区语音识别方法。
82.图4示例性示出了根据本公开实施例的多音区语音识别方法的流程图。
83.如图4所示，多音区语音识别方法400可以包括：操作s410～s430。
84.在操作s410，确定出n个音区中的第一已唤醒音区。
85.在操作s420，获取设置在第一已唤醒音区内的拾音器采集的音频信号。
86.在操作s430，将音频信号传输至语音识别引擎进行语音识别。
87.需要说明的是，在本公开实施例中，可以采用上述任意一个或者多个实施例提供的多音区语音唤醒方法来确定出n个音区中的已唤醒音区(第一已唤醒音区)，在此不再赘
述。
88.在确定已唤醒的音区后，后续可以将针对该音区采集的音频信号流发送至语音识别模块进行语音处理，具体方法可以参考上述实施例中的描述，本公开在此不再赘述。
89.通过本公开实施例提供的多音区单唤醒引擎方案，既可以支持多音区的语音唤醒，又可以减少车载主机或智能音箱中cpu和内存等资源的开销，以保证车载主机或智能音箱的性能，即保证车辆或智能音箱的其他应用可以正常运行。
90.此外，相关技术中，采用多音区多唤醒引擎的语音唤醒方案，可能涉及到回调复杂，导致业务逻辑不好控制的问题。比如，多音区多唤醒引擎方案中，车载主机中需要设置有多个唤醒引擎，而每个唤醒引擎通常有多个引擎状态，多个唤醒引擎必然要面对众多个引擎状态，以致车载主机的引擎状态相当复杂且难以管理。
91.而在本公开实施例中，采用多音区单唤醒引擎的语音唤醒方案，因而回调相比与多音区多唤醒引擎方案更简单，且业务逻辑也更好控制。
92.并且，通过本公开实施例，还可以扩展产品(如智能音箱等电子设备和车载终端等)的能力边界，使得语音唤醒方案对低端产品更友好。
93.作为一种可选的实施例，该方法还可以包括在确定出n个音区中的第一已唤醒音区之后，执行如下操作。
94.响应于拾音器在预设时间段内一直未采集到音频信号，关闭第一已唤醒音区的语音识别通道。
95.重新执行上述任一个或者多个实施例中提供的多音区语音唤醒方法，重新确定n个音区中的已唤醒音区。
96.在本公开实施例中，如果某个音区唤醒后，在指定的预设时间段内一直没有用户与设备进行语音交互，则可以关闭当前已唤醒的音区，同时利用上述实施例提供的多音区语音唤醒方法，重新确定出n个音区中的已唤醒音区后，再进行语音识别。
97.需要说明的是，在本公开实施例中，重新确定n个音区中的已唤醒音区，也可以采用上述任意一个或者多个实施例提供的多音区语音唤醒方法，在此也不再赘述。
98.通过本公开实施例，可以根据预先设定的策略，灵活启停设备的语音识别系统。
99.作为一种可选的实施例，该方法还可以包括在进行语音识别过程中，执行如下操作。
100.响应于n个音区中出现第二已唤醒音区，关闭第一已唤醒音区的语音识别通道，其中，第二已唤醒音区的权限高于第一已唤醒音区的权限。
101.获取设置在第二已唤醒音区内的拾音器采集的音频信号。
102.将该音频信号传输至语音识别引擎进行语音识别。
103.在本公开实施例中，在针对某个音区进行语音识别的过程中，如果其他音区内出现了唤醒信号，且该其他音区的权限高于当前正在进行语音识别的音区的权限，则可以关闭当前正在进行语音识别的音区的语音识别通道，同时针对该其他音区继续采集音频信号流传输至语音识别模块，以进行语音识别。
104.通过本公开实施例，可以灵活控制各音区，实现优先处理权限更高的音区发出的语音指令的目的，从而可以避免紧急事件无法得以及时处理。
105.根据本公开的实施例，本公开还提供了一种多音区语音唤醒装置。
106.图5示例性示出了根据本公开实施例的多音区语音唤醒装置的框图。
107.如图5所示，多音区语音唤醒装置500包括：第一获取模块510、输入模块520和第一确定模块530。
108.第一获取模块510，用于获取n路音频信号，其中，每路音频信号对应于n个音区中的一个音区。
109.输入模块520，用于基于该n路音频信号与唤醒引擎中n个同步音频处理线程之间的对应关系，将每路音频信号输入一个对应的音频处理线程。
110.第一确定模块530，用于响应于该n个同步音频处理线程中出现有唤醒结果的线程，将与该有唤醒结果的线程对应的音区确定为该n个音区中的已唤醒音区。
111.作为一种可选的实施例，装置还包括：第二确定模块，用于响应于该 n个同步音频处理线程中出现有唤醒结果的线程，确定该n个同步音频处理线程中是否同时有多个线程有唤醒结果；第三确定模块，用于响应于确定该n个同步音频处理线程中同时有多个线程有唤醒结果，确定同时有唤醒结果的多个线程中输入音频信号最强的一个目标线程；其中，该第一确定模块还用于：将与该目标线程对应的一个目标音区确定为该n个音区中的已唤醒音区。
112.作为一种可选的实施例，该第一获取模块包括：采集单元，用于利用 n个拾音器同时采集n路音频信号，其中，每个拾音器设置在该n个音区中的一个音区内；传输单元，用于将该n个拾音器同时采集的n路音频信号组合成一帧音频数据传输至该唤醒引擎；提取单元，用于通过该唤醒引擎，从该音频数据中提取对应的n路音频信号，以便使该输入模块按照该对应关系，将提取的n路音频信号分别输入一个对应的音频处理线程进行处理。
113.应该理解，本公开多音区语音唤醒装置部分的实施例与本公开多音区语音唤醒方法部分的实施例对应相同或类似，所解决的技术问题和所达到的技术效果也对应相同或类似，在此不再赘述。
114.根据本公开的实施例，本公开还提供了一种多音区语音识别装置。
115.图6示例性示出了根据本公开实施例的多音区语音识别装置的框图。
116.如图6所示，多音区语音识别装置600包括：第四确定模块610、第二获取模块620和第一语音识别模块630。
117.第四确定模块610，用于根据本公开实施例的多音区语音唤醒装置，确定出n个音区中的第一已唤醒音区。
118.第二获取模块620，用于获取设置在该第一已唤醒音区内的拾音器采集的音频信号。
119.第一语音识别模块630，用于将该音频信号传输至语音识别引擎进行语音识别。
120.作为一种可选的实施例，装置还包括：第一音区关闭模块，用于在该确定出n个音区中的第一已唤醒音区之后，响应于该拾音器在预设时间段内一直未采集到音频信号，关闭该第一已唤醒音区的语音识别通道；以及第五确定模块，用于根据本公开实施例的多音区语音唤醒装置，重新确定该n个音区中的已唤醒音区。
121.作为一种可选的实施例，装置还包括：第二音区关闭模块，用于在该语音识别模块进行语音识别过程中，响应于该n个音区中出现第二已唤醒音区，关闭该第一已唤醒音区的语音识别通道，其中，该第二已唤醒音区的权限高于该第一已唤醒音区的权限；第三
获取模块，用于获取设置在该第二已唤醒音区内的拾音器采集的音频信号；以及第二语音识别模块，用于将该音频信号传输至该语音识别引擎进行语音识别。
122.应该理解，本公开多音区语音识别装置部分的实施例与本公开多音区语音识别方法部分的实施例对应相同或类似，所解决的技术问题和所达到的技术效果也对应相同或类似，在此不再赘述。
123.根据本公开的实施例，本公开还提供了一种车辆。
124.该车辆可以包括：本公开上述任一实施例中的多音区语音唤醒装置，以及本公开上述任一实施例中的多音区语音识别装置。
125.需要说明的是，本公开实施例中的多音区语音唤醒装置和多音区语音识别装置，可以参考上述任意一个或者多个实施例提供的多音区语音唤醒装置和多音区语音识别装置的描述以及对应的方法的描述，在此不再赘述。
126.根据本公开的实施例，本公开还提供了另一种车辆。
127.该车辆可以包括：本公开上述任一实施例中的车载终端。
128.需要说明的是，本公开实施例中的车载终端，可以参考上述任意一个或者多个实施例提供的车载终端的描述，在此不再赘述。
129.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
130.图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
131.如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序，来执行各种适当的动作和处理。在ram 703中，还可存储电子设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出 (i/o)接口705也连接至总线704。
132.电子设备700中的多个部件连接至i/o接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
133.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如多音区语音唤醒、识别方法。例如，在一些实施例中，多音区语音唤醒、识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入
和/或安装到设备 700上。当计算机程序加载到ram 703并由计算单元701执行时，可以执行上文描述的多音区语音唤醒、识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行多音区语音唤醒、识别方法。
134.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/ 或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
135.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
136.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd
‑
rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
137.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。
138.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
139.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常
通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端
‑
服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务(
″
virtual private server
″
，或简称
″
vps
″
)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。
140.本公开的技术方案中，所涉及的音频数据的记录，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
141.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
142.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周毅;左声勇
技术所有人：阿波罗智联（北京）科技有限公司
我是此专利的发明人

上一篇：一种半导体器件及其制备方法、电子设备与流程
上一篇：具有EMI防护功能的填谷式功率因子校正电路的制作方法