语音控制方法、终端及计算机存储介质与流程

文档序号：31868981发布日期：2022-10-21 17:59阅读：46来源：国知局

1.本技术涉及语音控制技术领域，具体涉及一种语音控制方法、终端及计算机存储介质。

背景技术：

2.现有技术中，使用声纹识别语音时，声纹识别功能持续保持开启状态，以识别语音信息对应的用户特征。然而，这将导致cpu资源会一直被声纹识别功能占用，大大地消耗了cpu资源，降低cpu的使用性能与反应速度，进而影响了用户体验。

技术实现要素：

3.本技术的目的在于，提供一种语音控制方法、终端及计算机存储介质，其可以解决上述技术问题，能够，提高语言信息处理的效率，优化用户体验。
4.为解决上述技术问题，本技术提供一种语音控制方法，包括：
5.响应于接收的语音信息，确定控制指令；
6.根据所述控制指令确定是否使用声纹识别功能；
7.若是，则对所述语音信息进行声纹识别；
8.根据声纹识别结果执行针对所述控制指令的响应操作。
9.本技术还提供一种终端，包括存储器和处理器，所述存储器存储有至少一条程序指令，所述处理器通过加载并执行所述至少一条程序指令以实现如上所述的语音控制方法。
10.本技术还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序指令；所述计算机程序指令被处理器执行时实现如上所述的语音控制方法。
11.本技术的语音控制方法、终端及计算机存储介质，语音控制方法，包括：响应于接收的语音信息，确定控制指令；根据控制指令确定是否使用声纹识别功能；若是，则对语音信息进行声纹识别；根据声纹识别结果执行针对控制指令的响应操作。通过这种方式，本技术可以根据控制指令的不同决定是否使用声纹识别功能，有效避免语音识别时持续开启声纹识别而导致资源浪费。
12.上述说明仅是本技术技术方案的概述，为了能够更清楚了解本技术的技术手段，而可依照说明书的内容予以实施，并且为了让本技术的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。
附图说明
13.图1是根据本技术实施例示出的一种语音控制方法的流程示意图；
14.图2是根据本技术实施例示出的一种终端的结构示意图。
具体实施方式
15.以下由特定的具体实施例说明本技术的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本技术的其他优点及功效。
16.在下述描述中，参考附图，附图描述了本技术的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本技术的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本技术的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本技术。
17.虽然在一些实例中术语第一、第二等在本文中用来描述各种元件，但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。
18.再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“a、b或c”或者“a、b和/或c”意味着“以下任一个：a；b；c；a和b；a和c；b和c；a、b和c”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。
19.图1是根据一示例性实施例示出的一种语音控制方法的流程示意图。
20.请参考图1，本实施例的语音控制方法，包括：
21.步骤201，响应于接收的语音信息，确定控制指令。
22.其中，具备语音处理功能的终端接收用户发出的语音信息并进行处理，语音信息可以是包含特定关键词以确定对应的控制指令，例如“开启后备箱”对应开启后备箱的控制指令，“播放歌曲”对应开启多媒体应用的控制指令，“开启导航”对应开启导航应用的控制指令等。
23.步骤202，根据控制指令确定是否使用声纹识别功能。
24.其中，声纹(voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱，声纹具有特定性及相对稳定性的特点，将声纹识别功能应用于语音信息处理中，可准确识别出用户的身份、年龄或性别等信息，以提高语音控制的准确性与便利性。使用声纹识别功能之前，首先通过语音识别语音信息中的控制指令，然后根据控制指令的类型判断是否需要启用声纹识别功能。若是，则将语音信息送入声音特征提取引擎进行声纹识别。在用户进行不需要声音特征提取的场景，不开启声纹识别，只开启实时语义理解，判断该场景需要进行声音特征提取时，才进行提取声音特征。这样在特定场景下开启声纹识别功能，既能够保证语音控制功能的实现，又对cpu资源进行合理占用，使得功能和性能达到平衡。
25.具体地，确定控制指令是否为预设类型的控制指令之前，可根据控制指令的操作特征自动标记为需要声纹识别功能，也可以是用户首次使用某项控制指令之后自行选择设置。例如，用户首次使用某项控制指令后，系统提示用户是否需要将该控制指令设为启用声纹识别功能，然后根据用户的选择进行设置。预设类型的控制指令包括执行过程中需要使用声纹识别结果的控制指令，例如，识别出的控制指令是播放用户的个性化歌单，需要使用声纹识别功能识别发出语音信息的用户身份及其个性化歌单，或者，识别出的控制指令是
开启氛围灯，需要使用声纹识别功能识别发出语音信息的用户性别以进行氛围灯个性化设置。预设类型的控制指令还可以是执行前需要基于声纹识别结果验证用户权限的控制指令，例如，识别出的控制指令是开启后备箱，需要使用声纹识别功能识别发出语言信息的用户的年龄，以避免年幼儿童开启后备箱，或者，识别出的控制指令是开启雨刷，需要使用声纹识别功能识别发出语言信息的用户的身份，以避免雨刷被随意开启而影响行驶安全。通过上述判断过程，若控制指令为预设类型的控制指令，则确定使用声纹识别功能对语音信息进一步加工处理。若控制指令不属于预设类型的控制指令，则确定不使用声纹识别功能，直接执行控制指令。例如，识别出的控制指令是开启收音机、调节空调温度等，此类控制指令为常规操作，可直接执行控制操作，无需使用声纹识别功能识别发出语音信息的用户，避免持续开启声纹识别功能造成的cpu资源浪费，提高语音信息的处理效率。
26.步骤203，若是，则对语音信息进行声纹识别。
27.其中，对语音信息进行声纹识别时，首先提取语音信息的声纹特征，然后对声纹特征进行识别，以获得声纹识别结果。声纹识别结果包括用户的身份、年龄、性别等，用户身份可以是用户id，并可通过用户id进一步关联用户的其他信息，如特定控制指令的操作权限、性别、年龄、个性化设置等。声纹识别结果为年龄时，可确定用户的年龄段，如儿童、中青年、或老年等，以确定该用户的年龄段是否满足执行该控制指令的权限，或根据用户的年龄段提供对应的控制指令实现方式。声纹识别结果为性别时，可根据用户的性别提供对应的控制指令实现方式。例如通过识别该用户的声音中包含的性别特征，识别出是男性还是女性，如果是男性别进行打开氛围灯默认为蓝色，如果声纹识别为女性，氛围灯则打开为红色。
28.步骤204，根据声纹识别结果执行针对控制指令的响应操作。
29.其中，根据声纹识别结果执行针对控制指令的响应操作时，需要根据控制指令的类型，提取声纹识别结果中的目标信息，然后根据目标信息执行控制指令。也就是说，如果控制指令的类型是执行过程中需要使用声纹识别结果的控制指令，那么需要根据用户信息确定控制指令的执行方式，然后根据执行方式执行控制指令。例如，控制指令为给用户最近的联系人回拨电话，则需要提取声纹识别结果中的用户身份作为目标信息，进而根据用户身份获取最近联系人，然后执行回拨给该最近联系人的操作。又例如，控制指令为开启用户的个性化氛围灯，则需要提取声纹识别结果中的用户身份，以获取到该用户设置的个性化氛围灯效果，如颜色种类、变化规律、明暗度等信息。然后开启该氛围灯效果。如果控制指令的类型是执行前需要基于声纹识别结果验证用户权限的控制指令，那么需要根据目标信息判断当前用户是否具备执行控制指令的权限。若当前用户具备执行控制指令的权限，则执行控制指令。若当前用户不具备执行控制指令的权限，则不执行控制指令并发出提醒信息。例如，控制指令是开启后备箱，则需要提取声纹识别结果中的用户年龄作为目标信息，进而根据用户年龄确定用户是否具备开启后备箱的权限，或者，控制指令是开启手机，则需要提取声纹识别结果中的用户身份作为目标信息，进而根据用户身份确定用户是否具有开启手机的权限，若否，则不执行开启手机的操作，并提醒用户没有开启手机的权限，或者通知手机中预存的紧急联系人，有未知用户正在尝试打开手机，提高用户的安全性。
30.本实施例的语音控制方法，响应于接收的语音信息，确定控制指令；根据控制指令确定是否使用声纹识别功能；若是，则对语音信息进行声纹识别；根据声纹识别结果执行针对控制指令的响应操作。通过这种方式可以根据控制指令的不同决定是否使用声纹识别功
能，有效避免语音识别时持续开启声纹识别而导致资源浪费。
31.图2为本发明实施例提供的一种终端的结构示意图。图2示出的终端仅仅是一个示例，不应对本公开实施例的功能和适用范围带来任何限制。如图2所示，本技术还提供一种终端600包括处理单元601，其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行本公开实施例的方法。处理器601例如可以包括通用微处理器(例如cpu)、指令处理器和/或相关芯片组和/或专用微处理器(例如专用集成电路(asic))，等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
32.在ram603中，存储有终端600操作所需的各种程序和数据。处理器601、rom602以及ram603中通过总线604彼此相连。处理器601通过执行rom602和/或ram603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，上述程序也可以存储在除rom602和ram603以外的一个或多个存储器中。处理器601也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
33.根据本公开的实施例，终端600还可以包括输入/输出(i/o)接口605，输入/输出(i/o)接口605也连接至总线604。终端600还可以包括连接至输入/输出(i/o)接口605的以下部件中的一项或多项：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。此外，驱动器，可拆卸介质。诸如磁盘、光盘、磁光盘、半导体存储器等可也根据需要连接至输入/输出(i/o)接口605上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。
34.根据本公开的实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品。其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被处理器601执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块和单元等可以通过计算机程序模块来实现。
35.本技术还提供一种计算机存储介质，计算机存储介质上存储有计算机程序指令；计算机程序指令被处理器执行时实现如上实施例所述的语音控制方法。
36.实际实现时，计算机存储介质应用于在图2所示的终端中。
37.上述实施例仅例示性说明本技术的原理及其功效，而非用于限制本技术。任何熟悉此技术的人士皆可在不违背本技术的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本技术所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本技术的权利要求所涵盖。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐涛
技术所有人：博泰车联网科技（上海）股份有限公司
我是此专利的发明人