语音控制方法、存储介质和装置与流程

文档序号：18088834发布日期：2019-07-06 10:39阅读：525来源：国知局

本发明涉及人工智能领域，特别涉及一种语音控制方法、存储介质和装置。

背景技术：

随着智能科技的发展，涌现出越来越多的智能设备。智能设备的智能化一方面表现在：用户不用操作智能设备上的按键，可以远距离控制该智能设备，大大地方便了用户的使用，使用户不再局限于通过物理设备操控智能设备。

现有的很多智能设备可以通过语音实现控制。使用时，用户语音发出携带唤醒词和语音query命令的语音请求，例如某智能设备的唤醒词为小a，语音query命令为打开音乐，用户的语音请求可以为“小a，请打开音乐”。在该智能设备内会预存储有该小a的唤醒词。智能设备先对该语音请求进行语音识别，获取对应的文字形式的唤醒词和query，智能设备先根据预存储的唤醒词检测该唤醒词是否为自己的唤醒词，若是，则进一步来识别唤醒词之后的语音query命令的真实意图，从而根据识别的语音query命令的真实意图，执行相应的操作。

但是，现有技术采用上述方法来对智能设备进行语音控制的过程中，用户与智能设备交互时，每一次发出语音query命令之前都需要携带唤醒词。在对智能设备进行控制的过程中，有很多短的语音query命令，也需要频繁按照上述方式进行，造成唤醒词识别过于频繁，导致智能设备的语音控制效率较低。

技术实现要素：

有鉴于此，本发明提供一种语音控制方法、存储介质和装置，以解决语音控制免唤醒的问题。

本发明提供一种语音控制方法，应用于屏幕可控对象，包括：

步骤11：实时接收用户发出的语音指令；

步骤12：将语音指令转换为文本指令；

步骤13：计算当前屏幕中每个可控对象与文本指令的匹配度，选出其中匹配度最高的可控对象为待执行对象；

步骤14：判断待执行对象与文本指令的匹配度是否大于预设值，如果是，对待执行对象执行文本指令对应的操作。

本发明还提供一种非瞬时计算机可读存储介质，非瞬时计算机可读存储介质存储指令，指令在由处理器执行时使得处理器执行上述的语音控制方法中的步骤。

本发明还提供一种语音控制装置，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的语音控制方法中的步骤。

本发明提供的语音控制装置，应用于屏幕可控对象，包括：

接收模块：实时接收用户发出的语音指令；

转换模块：将语音指令转换为文本指令；

匹配模块：计算当前屏幕中每个可控对象与文本指令的匹配度，选出其中匹配度最高的可控对象为待执行对象；

执行模块：判断待执行对象与文本指令的匹配度是否大于预设值，如果是，对待执行对象执行文本指令对应的操作。

本发明的语音控制方法，在执行语音指令时，用户可以省去唤醒词，仅发出相应的语音指令，智能设备可以进行免唤醒服务，直接执行语音指令对应的操作，从而能够有效地提高智能设备的控制效率，并提高用户的使用体验。

其次，本发明的语音控制方法，语音控制的操作对象仅限于当前屏幕的可控对象，通过计算当前屏幕的可控对象与语音指令的匹配度，过滤无效语音指令，简化控制逻辑、提高控制效率。

附图说明

图1为本发明语音控制方法的流程图；

图2为屏幕显示内容示意图；

图3为本发明语音控制装置的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明语音控制方法的执行主体为智能设备，该智能设备能够接收用户的语音输入，从而便于用户基于语音实现对该智能设备的控制。其次，该智能设备带显示屏幕，语音控制方法用于实现对当前屏幕可控对象的操作。

如图1所示，本发明的语音控制方法，包括：

步骤11(s11)：实时接收用户发出的语音指令；

通过录音设备(如麦克风)实现语音输入，可选地，在录音设备检测到非静音特征时，自动启动录音，在录音过程再次出现静音特征时，停止录音，停止录音后将录取的最新语音数据发送给步骤12分析。

在执行步骤12之前，还可以进一步对语音数据进行语音清洗，语音清洗后，再执行步骤12。语音清洗包括回音消除、降噪等处理，可以使语音数据具有更好的品质，进而提高步骤12的转换准确率。

步骤12(s12)：将语音指令转换为文本指令；

语音识别技术，也被称为自动语音识别automaticspeechrecognition(asr)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入。常用的将语音数据转换为文字的工具为隐马尔科夫模型hmm、神经网络模型等。

步骤13(s13)：计算当前屏幕中每个可控对象与文本指令的匹配度，选出其中匹配度最高的可控对象为待执行对象；

现有的文本相似度算法均可用于计算每个可控对象与文本指令的匹配度，例如最小编辑距离算法、k最近邻分类算法等。

步骤14(s14)：判断待执行对象与文本指令的匹配度是否大于预设值，如果是，对待执行对象执行文本指令对应的操作。

预设值可根据实际需求设置，本发明对此不做限定，设置预设值筛选是为了过滤匹配度较差的无效文本指令，只执行与可控对象相关的文本指令，提高控制效率。

步骤14还包括：如果否，丢弃语音指令。

此外，步骤13的一种实现方式为：

步骤131：获取当前屏幕可控对象对应的渲染树的所有节点文本；

步骤132：计算每个节点文本与文本指令的匹配度，选出其中匹配度最高的节点文本对应的可控对象为待执行对象。

每个屏幕的显示内容在输出前都对应一个渲染树，如图2所示，当前屏幕中有10个显性可控对象，则每个可控对象都对应渲染树中的一个节点，一个可控对象中的文本对应一个节点文本。例如，图2第二行最左侧的可控对象对应的节点文本为：电影&movie，第一行最左侧的可控对象对应的节点文本为：电影芳华，当语言指令转换后的文本指令为：打开电影，则待执行对象为第二行最左侧的可控对象；执行步骤14后进入电影频道(或目录)；如果语言指令转换后的文本指令为：打开芳华，则待执行对象为第一行最左侧的可控对象，执行步骤14后进入电影芳华的播放界面。

另一方面，如果当前屏幕的可控对象为一个app的显示界面，也可以通过app接口获取当前的可控对象和/或可控对象关联的节点文本。

可控对象除了上述为显性可控对象之外，还包括隐性可控对象，如图2所示，图中可见的对象为显性可控对象，而声音、亮度、颜色、对比度、频道等可调对象为隐性可控对象，隐性可控对象也可以通过语音指令控制，例如声音大一点、声音小一点、下一个频道、上一频道以及a频道、b频道等等。

为了避免发音不准确或者步骤12的转换错误，步骤13计算匹配度时，先将其中的中文转换为中文拼音后在计算匹配度。

上述本发明的语音控制方法，在执行语音指令时，用户可以省去唤醒词，仅发出相应的语音指令，智能设备可以进行免唤醒服务，直接执行语音指令对应的操作，从而能够有效地提高智能设备的控制效率，并提高用户的使用体验。

本发明提供的语音控制装置，应用于屏幕可控对象，如图3所示包括：

接收模块：实时接收用户发出的语音指令；

转换模块：将语音指令转换为文本指令；

匹配模块：计算当前屏幕中每个可控对象与文本指令的匹配度，选出其中匹配度最高的可控对象为待执行对象；

执行模块：判断待执行对象与文本指令的匹配度是否大于预设值，如果是，对待执行对象执行文本指令对应的操作。

执行模块还包括：如果否，丢弃语音指令。

匹配模块的一种实现方式包括：

解析模块：获取当前屏幕所有可控对象对应的渲染树的节点文本；

筛选模块：计算每个节点文本与文本指令的匹配度，选出其中匹配度最高的节点文本对应的可控对象为待执行对象。

筛选模块又可以包括：基于最小编辑距离算法计算每个节点文本与文本指令的匹配度，选出其中匹配度最高的节点文本对应的可控对象为待执行对象。

需要说明的是，本发明的语音控制装置的实施例，与语音控制方法的实施例原理相同，相关之处可以互相参照。

以上所述仅为本发明的较佳实施例而已，并不用以限定本发明的包含范围，凡在本发明技术方案的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：任阳
技术所有人：北京奔流网络信息技术有限公司
我是此专利的发明人

上一篇：一种船用柴油机喷油器总成的制作方法
上一篇：一种专用于过伸内翻型胫骨平台骨折的前内侧柱接骨板的制作方法