一种智能终端语音交互控制方法及装置与流程

文档序号：16308798发布日期：2018-12-19 05:11阅读：269来源：国知局

本发明涉及智能终端技术领域，尤其涉及一种智能终端语音交互控制方法及装置。

背景技术

目前，市场上大多数便携式智能终端都采用按键唤醒模式，其需要用户手动按下智能终端上的相关按钮，才可实现对智能终端的唤醒，给用户带来了不良的感官体验。而支持语音识别功能的音箱，其所工作的模式一般是电源直接供电唤醒模式，采用的算法。由于计算量较大，功耗往往较高。一旦音箱处于电池工作模式下，电池电量将被快速耗尽。

技术实现要素：

本发明的主要目的在于提出一种智能终端语音交互控制方法及装置，通过近场和远场之间的不同唤醒方式的切换，改善了智能终端的唤醒疲劳，且麦克风不需要实时监听，可以减少算法计算量、最大限度地节省功耗，提升了用户体验。

为实现上述目的，本发明提供的一种智能终端语音交互控制方法，包括：

启动智能终端；获取所述智能终端的场景状态；

根据所述场景状态选择所述智能终端的唤醒模式；

根据选择的唤醒模式唤醒所述智能终端，获取音频信息；

对所述音频信息进行语义解析并上传至服务器。

可选地，所述场景状态包括近场拾音和远场拾音，相应地，所述唤醒模式包括按键唤醒和语音唤醒。

可选地，所述根据所述场景状态选择所述智能终端的唤醒模式包括：

当所述场景状态为近场拾音时，通过预设的按键唤醒所述智能终端；

当所述场景状态为远场拾音时，通过预设的语音唤醒所述智能终端。

可选地，当所述场景状态为近场拾音时，所述根据选择的唤醒模式唤醒所述智能终端，获取音频信息包括：

通过距离最近的麦克风获取音频信息。

可选地，当所述场景状态为远场拾音时，所述根据选择的唤醒模式唤醒所述智能终端，获取音频信息包括：

通过麦克风阵列获取音频信息。

可选地，所述通过麦克风阵列获取音频信息之后，所述对所述音频信息进行语义解析并上传至服务器之前还包括：

通过声源定位方法确定目标声源区域与所述麦克风阵列的相对位置，利用最小方差无失真响应波束形成算法对音频信息进行噪音抑制。

可选地，所述对所述音频信息进行语义解析并上传至服务器包括：

将所述音频信息发送至第三方设备进行语音识别；

第三方设备将所述音频信息识别为文本信息，并将所述文本信息返回至所述智能终端；

智能终端将所述文本信息上传至服务器。

作为本发明的另一方面，提供的一种智能终端语音交互控制装置，包括：

启动模块，用于启动智能终端；获取所述智能终端的场景状态；

选择模块，用于根据所述场景状态选择所述智能终端的唤醒模式；

唤醒模块，用于根据选择的唤醒模式唤醒所述智能终端，获取音频信息；

语义解析模块，用于对所述音频信息进行语义解析并上传至服务器。

可选地，所述场景状态包括近场拾音和远场拾音，相应地，所述唤醒模式包括按键唤醒和语音唤醒。

可选地，所述选择模块包括：

近场拾音单元，用于当所述场景状态为近场拾音时，通过预设的按键唤醒所述智能终端；

远场拾音单元，用于当所述场景状态为远场拾音时，通过预设的语音唤醒所述智能终端。

本发明提出的一种智能终端语音交互控制方法及装置，该方法包括：启动智能终端；获取所述智能终端的场景状态；根据所述场景状态选择所述智能终端的唤醒模式；根据选择的唤醒模式唤醒所述智能终端，获取音频信息；对所述音频信息进行语义解析并上传至服务器；通过近场和远场之间的不同唤醒方式的切换，改善了智能终端的唤醒疲劳，且麦克风不需要实时监听，可以减少算法计算量、最大限度地节省功耗，提升了用户体验。

附图说明

图1为本发明实施例一提供的一种智能终端语音交互控制方法的流程图；

图2为本发明实施例一提供的近场拾音时一种智能终端语音交互控制方法的流程图；

图3为本发明实施例一提供的远场拾音时一种智能终端语音交互控制方法的流程图；

图4为本发明实施例一提供的远场拾音时另一种智能终端语音交互控制方法的流程图；

图5为图1中步骤s40的方法流程图；

图6为本发明实施例二提供的一种智能终端语音交互控制装置的示范性结构框图；

图7为图6中选择模块的示范性结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

实施例一

如图1所示，在本实施例中，一种智能终端语音交互控制方法，包括：

s10、启动智能终端；获取所述智能终端的场景状态；

s20、根据所述场景状态选择所述智能终端的唤醒模式；

s30、根据选择的唤醒模式唤醒所述智能终端，获取音频信息；

s40、对所述音频信息进行语义解析并上传至服务器。

在本实施例中，通过近场和远场之间的不同唤醒方式的切换，改善了智能终端的唤醒疲劳，且麦克风不需要实时监听，可以减少算法计算量、最大限度地节省功耗，提升了用户体验。

在本实施例中，所述智能终端为具有语音交互功能的智能产品，包括但不限于智能音箱。

在本实施例中，麦克风用于智能终端开启时，接收用户输出的音频信息；

在本实施例中，唤醒模式的切换可以由软件来自动切换，也可以设置一硬件按键开关，用户可以根据自己需求选择来通过按键开关切换远场唤醒模式和近场唤醒模式。按键开启时设备为远场唤醒模式，未开启时为近场唤醒模式。

在本实施例中，所述场景状态包括近场拾音和远场拾音，相应地，所述唤醒模式包括按键唤醒(对应于近场拾音状态，也称为近场唤醒模式)和语音唤醒(对应于远场拾音状态，也称为远场唤醒模式)。

在本实施例中，所述步骤s20包括：

当所述场景状态为近场拾音时，通过预设的按键唤醒所述智能终端；

当所述场景状态为远场拾音时，通过预设的语音唤醒所述智能终端。

在本实施例中，所述预设的语音为预设的唤醒词。

如图2所示，在本实施例中，当所述场景状态为近场拾音时，所述步骤s30包括：

s31、通过距离最近的麦克风获取音频信息。

在本实施例中，当所述场景状态为近场拾音时，只使用1个麦克风，对于麦克风捕捉的音频信息也无需采用所有的算法功能进行处理。

如图3所示，在本实施例中，当所述场景状态为远场拾音时，所述步骤s30包括：

s32、通过麦克风阵列获取音频信息。

在本实施例中，当所述场景状态为远场拾音时，开启智能终端中的全部麦克风，通过算法功能模块对麦克风捕捉的音频信息进行处理。算法功能模块包括声源定位功能模块、波束形成功能模块、噪音抑制功能模块、去除混淆功能模块、回声消除功能模块中的一种或多种。

如图4所示，在本实施例中，所述步骤s32之后，所述s40之前还包括：

s33、通过声源定位方法确定目标声源区域与所述麦克风阵列的相对位置，利用最小方差无失真响应波束形成算法对音频信息进行噪音抑制。

如图5所示，在本实施例中，所述步骤s40包括：

s41、将所述音频信息发送至第三方设备进行语音识别；

s42、第三方设备将所述音频信息识别为文本信息，并将所述文本信息返回至所述智能终端；

s43、智能终端将所述文本信息上传至服务器。

实施例二

如图6所示，在本实施例中，一种智能终端语音交互控制装置，包括：

启动模块10，用于启动智能终端；获取所述智能终端的场景状态；

选择模块20，用于根据所述场景状态选择所述智能终端的唤醒模式；

唤醒模块30，用于根据选择的唤醒模式唤醒所述智能终端，获取音频信息；

语义解析模块40，用于对所述音频信息进行语义解析并上传至服务器。

在本实施例中，麦克风用于智能终端开启时，接收用户输出的音频信息；

如图7所示，在本实施例中，所述选择模块包括：

近场拾音单元21，用于当所述场景状态为近场拾音时，通过预设的按键唤醒所述智能终端；

远场拾音单元22，用于当所述场景状态为远场拾音时，通过预设的语音唤醒所述智能终端。

在本实施例中，所述预设的语音为预设的唤醒词。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：熊宽
技术所有人：深圳市友杰智新科技有限公司
我是此专利的发明人