语音唤醒方法和装置、计算机可读存储介质、电子设备与流程

文档序号：25660228发布日期：2021-06-29 23:07阅读：102来源：国知局

1.本公开涉及语音唤醒技术领域，尤其是一种语音唤醒方法和装置、计算机可读存储介质、电子设备。

背景技术：

2.设备(手机、玩具、家电等)在休眠或锁屏状态下，根据检测到用户的声音(设定的语音指令，即关键词)，使处于休眠状态下的设备直接进入到等待指令状态，开启语音交互第一步。
3.在关键词唤醒的场景中，识别率和误报率互相矛盾的，如果把识别率调整到比较高的水平，误报率也比较高。

技术实现要素：

4.为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种语音唤醒方法和装置、计算机可读存储介质、电子设备。
5.根据本公开实施例的一个方面，提供了一种语音唤醒方法，包括：
6.获取语音信号，确定所述语音信号包括的多帧信号中每帧信号为至少一个音素的概率值；其中，每帧所述信号对应至少一个音素，每个所述音素对应一个概率值；
7.基于所述每个音素对应的概率值，确定所述语音信号对应的第一路径；
8.根据所述第一路径中包括的多个音素与先验条件，确定所述第一路径是否满足预设条件；
9.若所述第一路径满足预设条件，根据所述语音信号对待唤醒设备进行唤醒。
10.根据本公开实施例的另一方面，提供了一种语音唤醒装置，包括：
11.概率值确定模块，用于获取语音信号，确定所述语音信号包括的多帧信号中每帧信号为至少一个音素的概率值；其中，每帧所述信号对应至少一个音素，每个所述音素对应一个概率值；
12.路径确定模块，用于基于所述概率值确定模块确定的每个音素对应的概率值，确定所述语音信号对应的第一路径；
13.条件确定模块，用于根据所述路径确定模块确定的第一路径中包括的多个音素与先验条件，确定所述第一路径是否满足预设条件；
14.唤醒确定模块，用于若所述条件确定模块确定的第一路径满足预设条件，根据所述语音信号对待唤醒设备进行唤醒。
15.根据本公开实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的语音唤醒方法。
16.根据本公开实施例的还一方面，提供了一种电子设备，所述电子设备包括：
17.处理器；
18.用于存储所述处理器可执行指令的存储器；
19.所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的语音唤醒方法。
20.基于本公开上述实施例提供的一种语音唤醒方法和装置、计算机可读存储介质、电子设备，获取语音信号，确定所述语音信号包括的多帧信号中每帧信号为至少一个音素的概率值；其中，每帧所述信号对应至少一个音素，每个所述音素对应一个概率值；基于所述每个音素对应的概率值，确定所述语音信号对应的第一路径；根据所述第一路径中包括的多个音素与先验条件，确定所述第一路径是否满足预设条件；若所述第一路径满足预设条件，根据所述语音信号对待唤醒设备进行唤醒；本公开实施例结合先验条件对第一路径进行判断，增加了判断策略来确定是否误报，在提升关键词的识别率的同时能够降低语音信号的误报率。
21.下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。
附图说明
22.通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。
23.图1是本公开一示例性实施例提供的语音唤醒方法的流程示意图。
24.图2是本公开另一示例性实施例提供的语音唤醒方法的流程示意图。
25.图3是本公开又一示例性实施例提供的语音唤醒方法的流程示意图。
26.图4是本公开图2所示的实施例中步骤201的一个流程示意图。
27.图5是本公开图2所示的实施例中步骤202的一个流程示意图。
28.图6是本公开一示例性实施例提供的语音唤醒装置的结构示意图。
29.图7是本公开另一示例性实施例提供的语音唤醒装置的结构示意图。
30.图8是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
31.下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。
32.应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
33.本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。
34.还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。
35.还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。
36.另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。
37.还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。
38.同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
39.以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。
40.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。
41.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
42.本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。
43.终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
44.申请概述
45.在实现本公开的过程中，发明人发现，在关键词唤醒系统中，现有技术通常只根据后验概率做一次解码，但是该技术方案至少存在以下问题：由于识别率和误报率互相矛盾的，因此，如果把识别率调整到比较高的水平，误报数也比较高。
46.示例性系统
47.本公开实施例提出的语音唤醒方法，根据预测模型(例如，深度神经网络)给出的后验概率(通过预测模型对语音信号处理得到的每个音素的概率值)，通过解码器对得到的后验概率进行加密，得到每个音素的时长信息(持续帧长)，再次计算相关音素的概率，然后与设定好的阈值比较，进而判别是否为误报；可选地，还可以使用音素的持续帧长信息，如某个音素持续的时间非常短，仅有一两帧(每帧10ms)的长度，也可以设定持续帧长相关的阈值，来降低误报。本公开实施例解决了常规的语音识别过程中，在某些音素概率较低、持续帧长较短时，系统产生的误报。
48.图1是本公开一示例性实施例提供的语音唤醒方法的流程示意图。该实施例提供的方法，包括以下步骤：
49.步骤101，获取语音信号，例如，利用传声器阵列采集语音信号；采集的语音信号通常为时域信号，为了使神经网络能够对信号进行处理，本实施例对该语音信号进行频域转换(例如，傅里叶变换等)，得到频谱特征。
50.步骤102，将步骤101得到的语音信号对应的频谱特征输入到神经网络进行预测，神经网络预测的结果包括：确定每帧信号可能对应的音素(一个或多个)的概率，即确定语音信号包括的多帧信号中每帧信号为至少一个音素中每个音素的音素概率值；再基于每个音素对应的持续帧长(包括至少一帧)，对每个音素对应的多个音素概率值进行相加，以相加得到的和作为每个音素对应的概率值，此时概率值表现为小于1的非整数，为了便于后续处理概率值，可选地，对概率值进行如公式(1)的处理，使概率值显示为整数：
51.p(x
t
|q
t
)＝p(q
t
|x
t
)p(x
t
)/p(q
t
)
ꢀꢀ
公式(1)
52.其中，p(q
t
|x
t
)表示从神经网络预测输出的状态后验概率(每个音素对应的概率值)；p(q
t
)表示在训练集统计出来的状态先验概率(预先通过已知唤醒结果的语音信号对神经网络进行训练，对每个音素确定一个先验概率，例如，一个语音信号，已知可唤醒系统，通过神经网络对语音信号对应的频域特征进行处理，得到对应唤醒词的所有音素对应的概率值作为这些音素的先验概率)；p(x
t
)独立于词序列，可以认为是任意常数，通过上述公式(1)的处理，可将音素的概率值处理为整数，例如，音素x的后验概率为0.5，先验概率为0.25，此时设常数为100，此时调整后的概率值p(x
t
|q
t
)为200。
53.步骤103，解码，基于语音信号包括的多帧信号中每帧信号对应的至少一个音素的概率值，可确定至少一条路径；即，将每帧信号可能是的音素按照多帧信号的顺序进行连接，即可得到一条路径，例如，以唤醒词“地平线”为例，组成该唤醒词的音素为：d、i、p、ing、x、ian；但在神经网络预测时，可能在第一帧预测得到两个音素：d和t，此时，可得到两条路径：d
‑
i
‑
p
‑
ing
‑
x
‑
ian和t
‑
i
‑
p
‑
ing
‑
x
‑
ian；其他音素类似，当存在每帧信号都对应多个音素时，对应的路径会更多，每条路径对应一个路径概率值，该路径概率值为该路径对应的每个音素的概率值之和；以多个路径概率值中的最大值确定一个第一路径(top1路径)为最佳路径。
54.步骤104，检测第一路径中包括的多个音素中错误音素的数量是否小于预设比例；如果是，执行步骤105；否则，执行步骤106。其中，错误音素包括以下至少一种：对应的概率值小于预设概率(根据实际场景进行设置)的音素，持续帧数小于预设帧数(根据实际场景进行设置)的音素。如果是，说明第一路径是有效的路径(可唤醒设备)，否则，说明第一路径是无效路径(无法唤醒设备)，当第一路径为无效路径，那么该语音信号对应的其他所有路径都是无效路径，因此，此时可认为该语音信号无法唤醒设备。例如，以唤醒词“地平线”为例，组成该唤醒词的音素为：d、i、p、ing、x、ian；解码后top1路径中每个音素的概率值假设如下表1所示：
[0055][0056]
表1每个音素的概率和帧长判断示意表格
[0057]
在未加入目前二次判断的策略时，这个识别结果会被判别为唤醒。当加入该判断后，由于d的概率为
‑
200，不大于设定的阈值(100)；并且持续帧长只有1帧也不满足的帧长阈值范围(3
‑
26帧)，因此不会识别为唤醒，可有效降低相似音或者缺字情况的误报。
[0058]
步骤105，步骤104确定的第一路径中错误音素的数量小于预设比例，唤醒设备。
[0059]
步骤106，当确定的第一路径中错误音素的数量大于预设比例，说明第一路径为无效路径，不唤醒设备。
[0060]
示例性方法
[0061]
图2是本公开另一示例性实施例提供的语音唤醒方法的流程示意图。本实施例可应用在电子设备上，如图2所示，包括如下步骤：
[0062]
步骤201，获取语音信号，确定语音信号包括的多帧信号中每帧信号为至少一个音素的概率值。
[0063]
其中，每帧信号对应至少一个音素，每个音素对应一个概率值。
[0064]
本实施例中，音素(phone)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。在汉语中，音节在语音学上指由一个或数个音素组成的语音结构基本单位；而音素是最小的语音单位。例如：“普通话”，由三个音节组成，可以分析成“p，u，t，o，ng，h，u，a”八个音素。
[0065]
概率值是每个音素对应多帧信号中分别为该音素的预测概率值的和，可选地，可参照图1提供的实施例中步骤101和102的处理获得每个音素的概率值。
[0066]
步骤202，基于每个音素对应的概率值，确定语音信号对应的第一路径。
[0067]
本实施例中，路径是指对应多帧信号中每帧信号对应一个音素时，将多个音素按照该多帧信号的顺序连接得到的多个音素。其中，第一路径为多帧信号中每个音素对应的概率值之和最大的路径。
[0068]
步骤203，根据第一路径中包括的多个音素与先验条件，确定第一路径是否满足预
设条件。
[0069]
可选地，本实施例中的先验条件是通过大量历史语音信号统计获得，例如，先验条件为路径中包括的多个音素中错误音素的数量小于预设比例，可选地，对于不同场景确定不同的先验条件。
[0070]
步骤204，若第一路径满足预设条件，根据语音信号对待唤醒设备进行唤醒。
[0071]
本实施例中，根据预设条件确定语音信号是否可实现对待唤醒设备的唤醒，该预设条件可以根据实际场景进行调整。
[0072]
本公开上述实施例提供的一种语音唤醒方法，获取语音信号，确定所述语音信号包括的多帧信号中每帧信号为至少一个音素的概率值；其中，每帧所述信号对应至少一个音素，每个所述音素对应一个概率值；基于所述每个音素对应的概率值，确定所述语音信号对应的第一路径；根据所述第一路径中包括的多个音素与先验条件，确定所述第一路径是否满足预设条件；若所述第一路径满足预设条件，根据所述语音信号对待唤醒设备进行唤醒；本公开实施例结合先验条件对第一路径进行判断，增加了判断策略来确定是否误报，在提升关键词的识别率的同时能够降低语音信号的误报率。
[0073]
可选地，步骤203包括若第一路径中包括的多个音素符合先验条件，确定第一路径满足预设条件。
[0074]
相应地，若第一路径中包括的多个音素不符合先验条件，确定第一路径不满足预设条件，此时，不对待唤醒设备进行唤醒。
[0075]
本实施例中，第一路径为路径中所有音素概率值之和最大的top1路径，当概率最大的第一路径为误报时，其他所有路径都无效，不唤醒设备，因此，本实施例仅对第一路径进行先验条件的判断，提高了判断效率；通过预设条件确定第一路径是否能唤醒待唤醒设备，降低了与唤醒词差距较大的语音信号对待唤醒设备实现唤醒的概率，提高了待唤醒设备的安全性。
[0076]
可选地，先验条件包括：第一路径中包括的多个音素中错误音素的数量小于预设比例。
[0077]
其中，错误音素包括以下至少一种：对应的概率值小于预设概率的音素，持续帧数小于预设帧数的音素。
[0078]
本实施例中，本实施例中确定音素是否为错误音素包括两个条件，满足至少一个即可确定为错误音素；其中，错误音素的概率值可通过图1提供的实施例中公式(1)确定，通过该音素对应的后验概率和先验概率以及常数确定，还可以通过对上述公式(1)进行变换确定，例如，概率值＝(log(后验概率)
‑
log(先验概率))*100，通过该公式的处理即可得到如表1所示的概率值；错误音素的持续帧长通过统计第一路径中该音素对应的信号的帧数即可确定；可选地，判断音素是否为错误音素可参照图1提供的实施例中的表1所示表格实现；本实施例通过概率值或预设帧数对音素进行识别是否是错误音素，将多个音素中识别错误或误识别的音素从多个音素中筛选出来，并且，当错误音素的数量达到多个音素中的预设比例，说明第一路径的识别准确率较低，此时不对设备进行唤醒，降低了唤醒的误报率，提高了唤醒准确性。
[0079]
图3是本公开又一示例性实施例提供的语音唤醒方法的流程示意图。如图3所示，包括如下步骤：
[0080]
步骤201，获取语音信号，确定语音信号包括的多帧信号中每帧信号为至少一个音素的概率值。
[0081]
其中，每帧信号对应至少一个音素，每个音素对应一个概率值。
[0082]
步骤202，基于每个音素对应的概率值，确定语音信号对应的第一路径。
[0083]
步骤303，基于历史语音信号集确定先验条件。
[0084]
其中，历史语音信号集中包括多个历史语音信号，每个历史语音信号已知唤醒结果，唤醒结果表示可以唤醒待唤醒设备或不可唤醒待唤醒设备。
[0085]
步骤304，根据第一路径中包括的多个音素与先验条件，确定第一路径是否满足预设条件。
[0086]
步骤305，若第一路径满足预设条件，根据语音信号对待唤醒设备进行唤醒。
[0087]
本实施例中，不同待唤醒设备对应不同的历史语音数据集，即，针对不同的待唤醒设备，确定不同的先验条件；本实施例中提供的步骤303可以设置在步骤203之前的任意位置，可以设置在步骤201之前或之后，或者设置在步骤202之前或之后，并不影响本实施例的实现；在本实施例需要对某一设备进行唤醒时，通过针对该设备已知唤醒结果的历史语音信号集综合确定错误音素对应的预设比例、以及确定什么样的音素为错误音素(即，确定预设概率和预设帧数)；本实施例中通过已知唤醒结果的历史语音信号即确定先验条件，实现基于大数据统计确定先验条件，提高了音素识别对于该待唤醒设备的针对性，基于该先验条件确定的先验条件更适用对应的待唤醒设备，提高了正确唤醒的概率。
[0088]
可选地，步骤303包括：对历史语音信号集中的多个历史语音信号分别进行处理，分别确定多个历史语音信号中每个历史语音信号对应的历史第一路径；根据每个历史语音信号对应的唤醒结果，确定先验条件。
[0089]
本实施例中，不但以非唤醒中错误音素的比例确定预设比例，还结合了唤醒中错误音素的比例，提高了预设比例对于唤醒结果控制的准确性；以唤醒的音素对应的概率值和非唤醒的音素的概率值确定设定概率值，以唤醒的音素持续帧长和非唤醒的音素持续帧数确定设定帧数；提高了对错误音素识别的准确率。
[0090]
如图4所示，在上述图2所示实施例的基础上，步骤201可包括如下步骤：
[0091]
步骤2011，对语音信号进行傅里叶变换，得到频谱特征。
[0092]
本实施例通过傅里叶变换实现将语音信号从时域转换到频域，得到可输入神经网络的频谱特征。
[0093]
步骤2012，将频谱特征输入深度神经网络，得到语音信号包括的多帧信号中每帧信号为至少一个音素中每个音素的音素概率值。
[0094]
步骤2013，基于每个音素对应的至少一帧信号的音素概率值之和，确定音素的概率值。
[0095]
本实施例中实现了对语音信号的特征提取和神经网络预测；本实施例中的频谱特征可以为浮点数表达；将频谱特征输入神经网络中，通过经过训练的深度神经网络可直接得到每个音素的音素概率值，提高了概率值的确定效率，结合至少一帧信号的音素概率值之和确定每个音素的概率值，提高了对应音素。
[0096]
如图5所示，在上述图2所示实施例的基础上，步骤202可包括如下步骤：
[0097]
步骤2021，根据语音信号包括的多帧信号中每帧信号对应的至少一个音素，确定
语音信号对应的至少一条路径。
[0098]
其中，每条路径包括多个音素。
[0099]
步骤2022，基于至少一条路径中每条路径包括的多个音素对应的多个概率值，确定第一路径。
[0100]
本实施例通过确定路径中包括的多个音素的概率值，确定多条路径中的第一路径，提高了第一路径的识别准确率。
[0101]
可选地，基于每条路径对应的多个音素对应的多个概率值之和，确定每条路径对应的路径概率值，得到多个路径概率值；基于多个路径概率值中的最大值，确定第一路径。
[0102]
本实施例中确定第一路径的过程，可参照图1提供的实施例中步骤103的解码过程，由于多帧信号中每帧信号都对应一个音素，因此，通过神经网络的预测，可读得到多条路径，并且由于每个音素都具有对应的概率值，因此，每条路径通过将包括的音素的概率值相加可确定路径概率值；本实施例中为了确定该语音信号是否能对待唤醒设备实现唤醒，只需确定top1路径(最好的一条路径)是否能实现唤醒，因此，以路径概率值最大的一条路径(第一路径为识别准确率最高的路径，即最接近语音信号表达的内容)对应的音素与唤醒词进行比对，即可确定是否能够唤醒待唤醒设备；本实施例通过路径概率值确定第一路径，只需对多条路径按照路径概率值进行排序即可快速获得第一路径，加快了确定第一路径的速度。
[0103]
本公开实施例提供的任一种语音唤醒方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种语音唤醒方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种语音唤醒方法。下文不再赘述。
[0104]
示例性装置
[0105]
图6是本公开一示例性实施例提供的语音唤醒装置的结构示意图。该实施例提供的语音唤醒装置，包括：
[0106]
概率值确定模块61，用于获取语音信号，确定语音信号包括的多帧信号中每帧信号为至少一个音素的概率值。
[0107]
其中，每帧信号对应至少一个音素，每个音素对应一个概率值。
[0108]
路径确定模块62，用于基于概率值确定模块61确定的每个音素对应的概率值，确定语音信号对应的第一路径。
[0109]
条件确定模块63，用于根据路径确定模块62确定的第一路径中包括的多个音素与先验条件，确定第一路径是否满足预设条件。
[0110]
唤醒确定模块64，用于若条件确定模块63确定的第一路径满足预设条件，根据语音信号对待唤醒设备进行唤醒。
[0111]
本公开上述实施例提供的一种语音唤醒装置，获取语音信号，确定所述语音信号包括的多帧信号中每帧信号为至少一个音素的概率值；其中，每帧所述信号对应至少一个音素，每个所述音素对应一个概率值；基于所述每个音素对应的概率值，确定所述语音信号对应的第一路径；根据所述第一路径中包括的多个音素与先验条件，确定所述第一路径是否满足预设条件；若所述第一路径满足预设条件，根据所述语音信号对待唤醒设备进行唤醒；本公开实施例结合先验条件对第一路径进行判断，增加了判断策略来确定是否误报，在
提升关键词的识别率的同时能够降低语音信号的误报率。
[0112]
图7是本公开另一示例性实施例提供的语音唤醒装置的结构示意图。该实施例提供的语音唤醒装置中，概率值确定模块61包括：
[0113]
特征变换单元611，对语音信号进行傅里叶变换，得到频谱特征。
[0114]
网络处理单元612，将频谱特征输入深度神经网络，得到语音信号包括的多帧信号中每帧信号为至少一个音素中每个音素的音素概率值。
[0115]
音素概率单元613，基于每个音素对应的至少一帧信号的音素概率值之和，确定音素的概率值。
[0116]
路径确定模块62包括：
[0117]
多路径单元621，根据语音信号包括的多帧信号中每帧信号对应的至少一个音素，确定语音信号对应的至少一条路径；其中，每条路径包括多个音素。
[0118]
第一路径单元622，基于至少一条路径中每条路径包括的多个音素对应的多个概率值，确定第一路径。
[0119]
可选地，第一路径单元622，具体用于基于每条路径对应的多个音素对应的多个概率值之和，确定每条路径对应的路径概率值，得到多个路径概率值；基于多个路径概率值中的最大值，确定第一路径。
[0120]
条件确定模块63，具体用于若第一路径中包括的多个音素符合先验条件，确定第一路径满足预设条件。
[0121]
其中，先验条件包括：第一路径中包括的多个音素中错误音素的数量小于预设比例。其中，错误音素包括以下至少一种：对应的概率值小于预设概率的音素，持续帧数小于预设帧数的音素
[0122]
唤醒确定模块64，还用于若第一路径不满足预设条件，不对待唤醒设备进行唤醒。
[0123]
本实施例提供的装置，还包括：
[0124]
先验调节确定模块71，用于基于历史语音信号集确定先验条件。
[0125]
其中，历史语音信号集中包括多个历史语音信号，每个历史语音信号已知唤醒结果，唤醒结果表示可以唤醒待唤醒设备或不可唤醒待唤醒设备。
[0126]
可选地，先验调节确定模块71，具体用于对历史语音信号集中的多个历史语音信号分别进行处理，分别确定多个历史语音信号中每个历史语音信号对应的历史第一路径；根据每个历史语音信号对应的唤醒结果，确定先验条件。
[0127]
示例性电子设备
[0128]
下面，参考图8来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。
[0129]
图8图示了根据本公开实施例的电子设备的框图。
[0130]
如图8所示，电子设备80包括一个或多个处理器81和存储器82。
[0131]
处理器81可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备80中的其他组件以执行期望的功能。
[0132]
存储器82可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储
器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器81可以运行所述程序指令，以实现上文所述的本公开的各个实施例的语音唤醒方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
[0133]
在一个示例中，电子设备80还可以包括：输入装置83和输出装置84，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
[0134]
例如，在该电子设备是第一设备100或第二设备200时，该输入装置83可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置83可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。
[0135]
此外，该输入设备83还可以包括例如键盘、鼠标等等。
[0136]
该输出装置84可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备84可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0137]
当然，为了简化，图8中仅示出了该电子设备80中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备80还可以包括任何其他适当的组件。
[0138]
示例性计算机程序产品和计算机可读存储介质
[0139]
除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音唤醒方法中的步骤。
[0140]
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c++等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0141]
此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音唤醒方法中的步骤。
[0142]
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0143]
以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作
用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。
[0144]
本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0145]
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。
[0146]
可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
[0147]
还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
[0148]
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0149]
为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄明运
技术所有人：南京地平线机器人技术有限公司
我是此专利的发明人

上一篇：一种汽车内饰氛围灯结构的制作方法
上一篇：一种车载信息交互系统数据存储信息安全测试系统及方法与流程