一种语音控制方法及系统与流程

文档序号：12362675阅读：368来源：国知局

本发明涉及计算机领域，特别涉及一种语音控制方法及系统。

背景技术：

语音助手能够为我们带来很多便捷。我们可以通过语音助手，利用语音控制打开系统安装的计算机应用程序(APP)。

目前，流行的大部分厂商所支持的语音助手软件，不能很好的支持第三方软件的语音控制操作，只能做一些简单的第三方应用程序打开的操作。而不能对第三方程序中的每一个界面进行控制和操作。另外，也有一些发明，采用提取界面元素标签进行保存到运行时库，语音识别的时候匹配标签进行预定义动作的操作，这种发明一方面需要提取界面元素标签，另外一方面需要预定义基本操作。在某些界面元素比较接近或者相同的情况下，容易造成不同的界面元素对应相同标签的情况；在某些界面元素不存在或者是非文字标签的时候会造成无法提取界面元素标签的情况。而且这种发明需要预定义基本操作的动作，因此，其只能执行预定义的动作。

技术实现要素：

本发明的目的在于提供一种语音控制方法及系统，能够对第三方程序中的每一个界面进行控制和操作。

为实现上述发明目的，本发明提供了一种语音控制方法，用于控制计算机应用程序APP，该方法包括：

A、根据用户对APP界面控件的操作，拦截到每一操作对应的动作，以及该动作发生在APP界面上的坐标位置；

B、为每个操作的对应动作，以及该动作发生在APP界面上的坐标位置建立唯一对应的语音识别标签，形成标签记录；

C、根据用户朗读的语音识别标签内容，查找到该语音识别标签对应的动作，以及该动作发生在APP界面上的坐标位置；

D、在所述APP界面上的坐标位置执行对应动作。

为实现上述发明目的，本发明还提供了一种语音控制系统，用于控制计算机应用程序APP，该系统包括：

拦截模块，根据用户对APP界面控件的操作，拦截到每一操作对应的动作，以及该动作发生在APP界面上的坐标位置；

标签识别模块，为每个操作的对应动作，以及该动作发生在APP界面上的坐标位置建立唯一对应的语音识别标签，形成标签记录；根据用户朗读的语音识别标签内容，查找到该语音识别标签对应的动作，以及该动作发生在APP界面上的坐标位置；

动作控制模块，在所述APP界面上的坐标位置执行对应动作。

综上所述，本发明实施例提供的语言控制方法及装置，在拦截动作的同时，利用语音识别技术自定义每个动作的语音识别标签。通过这种方式，系统不仅可以捕捉用户的每一个操作动作和该动作发生在屏幕上的位置。而且，由于是自定义的语音识别标签，因此，可以完全避免标签相同或者不能获取标签的情况发生。另外，本发明通过动作捕捉的方式，而不是利用截图识别可操作区域的方式，因此，不需要存储大量的图片，也不需要利用图像识别技术去识别每一张图片的可操作区域。因此，不存在占用存储器空间，降低系统执行效率和浪费电能的情况。

附图说明

图1为本发明优选实施例语音控制方法的流程示意图。

图2为本发明实施例语音控制系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明所述方案作进一步地详细说明。

本发明的语音控制方法主要包含两个阶段，第一个阶段为语音识别标签的生成阶段，第二个阶段为语音识别控制阶段。在第一个阶段，用户打开语音助手软件，并且利用语音助手软件打开一个第三方APP。然后，在第三方APP的操作界面上，对界面控件进行操作，而语音助手软件在后台运行，捕捉并拦截和记录用户的每一步操作的动作(例如：点击按钮)以及该动作发生在屏幕上的坐标位置(X，Y)。然后，用户为该动作自定义一个语音识别标签，利用语音识别获得的文字作为该语音识别标签的内容存储到数据库中。从而完成一个语音识别标签的制作过程。在第二个阶段，用户利用存储在数据库中的标签记录，将对应的语音识别标签内容显示在第三方APP视图的对应可操作控件元素周围的某个适当的坐标位置上，当用户朗读某一界面控件上对应的语音识别标签内容，利用语音识别得到对应的文字标签，然后到数据库中匹配该标签，从而获得该标签在屏幕上对应的动作和该动作在屏幕上发生的位置。在获取了上述信息后，语音助手软件指挥系统自动到屏幕上的坐标位置上进行相关联的动作的操作。从而达到语音控制第三方APP的目的。

图1为本发明优选实施例语音控制方法的流程示意图，如图1所示，包括以下步骤：

A1、获取APP名称以及APP界面控件所在当页语音识别标签页码，加入到标签记录中；

A、根据用户对APP界面控件的操作，拦截到每一操作对应的动作，以及该动作发生在APP界面上的坐标位置；

其中，APP界面控件指可在窗体上放置的可视化图形“元件”，如按钮、文件编辑框等。其中大多数是具有执行功能或通过“事件”引发代码运行并完成响应的功能。

B、为每个操作的对应动作，以及该动作发生在APP界面上的坐标位置建立唯一对应的语音识别标签，形成标签记录；

B1、根据该动作发生在APP界面上的坐标位置计算所述标签记录显示在APP界面上的坐标位置，并将所述标签记录显示在APP界面上的坐标位置加入到标签记录中；

C1、根据APP名称以及当页语音识别标签页码，查找到与所述APP名称以及语音识别标签页码相匹配的所有标签记录，将每一条标签记录显示在APP界面的相应坐标位置上；

C、根据用户朗读的语音识别标签内容，查找到该语音识别标签对应的动作，以及该动作发生在APP界面上的坐标位置；

D、在所述APP界面上的坐标位置执行对应动作。

从而完成本发明的语音控制方法。其中，第一个阶段包括步骤A1、A、B和B1，为语音识别标签的生成阶段，第二个阶段包括步骤C1、C和D为语音识别控制阶段。需要说明的是，本发明优选实施例在语音识别标签中加入了语音识别标签页码，语音识别标签页码与每一页APP界面相对应。在语音识别标签相同的情况下，可以通过语音识别标签页码来区分不同的标签记录对应的动作及动作的发生位置。反过来说，如果自定义语音识别标签时使得各个语音识别标签名称各不相同，每一个语音识别标签的名称唯一对应一个动作及动作的发生位置，那么就不需要设置语音识别标签页码。

进一步地，在执行步骤B1之后，该方法还包括：步骤B2、根据用户对APP界面控件的操作所跳转到的下一页APP界面，获取下一页语音识别标签页码，将所述下一页语音识别标签页码加入到当条标签记录中，并且将所述下一页语音识别标签页码加入到新的标签记录中，然后重复执行步骤A1、A、B和B1，形成与下一页语音识别标签页码相匹配的所有标签记录。

在执行步骤C时，还包括查找当前语音识别标签是否包含下一页语音识别标签页码，如果包含，则，在执行步骤D之后，进入该下一页语音识别标签页码，然后重复执行步骤C1、C和D，在下一页语音识别标签页码所对应的APP界面上完成动作的执行。

基于同样的发明构思，本发明提供一种语音控制系统，用于控制APP，如图2所示，该系统包括：

拦截模块201，根据用户对APP界面控件的操作，拦截到每一操作对应的动作，以及该动作发生在APP界面上的坐标位置；

标签识别模块202，为每个操作的对应动作，以及该动作发生在APP界面上的坐标位置建立唯一对应的语音识别标签，形成标签记录；根据用户朗读的语音识别标签内容，查找到该语音识别标签对应的动作，以及该动作发生在APP界面上的坐标位置；

动作控制模块203，在所述APP界面上的坐标位置执行对应动作。

所述标签识别模块202，还用于在拦截模块根据用户对APP界面控件的操作，拦截到每一操作对应的动作，以及该动作发生在APP界面上的坐标位置之前，获取APP名称以及APP界面控件所在当页语音识别标签页码，加入到标签记录中；

所述标签识别模块202，还用于在为每个操作的对应动作，以及该动作发生在APP界面上的坐标位置建立唯一对应的语音识别标签，形成标签记录之后，根据该动作发生在APP界面上的坐标位置计算所述标签记录显示在APP界面上的坐标位置，并将所述标签记录显示在APP界面上的坐标位置加入到标签记录中；

所述标签识别模块202，还用于在根据用户朗读的语音识别标签内容，查找到该语音识别标签对应的动作，以及该动作发生在APP界面上的坐标位置之前，根据APP名称以及当页语音识别标签页码，查找到与所述APP名称以及语音识别标签页码相匹配的所有标签记录，将每一条标签记录显示在APP界面的相应坐标位置上。

所述标签识别模块202，还用于在根据该动作发生在APP界面上的坐标位置计算所述标签记录显示在APP界面上的坐标位置，并将所述标签记录显示在APP界面上的坐标位置加入到标签记录中之后，根据用户对APP界面控件的操作所跳转到的下一页APP界面，获取下一页语音识别标签页码，将所述下一页语音识别标签页码加入到当条标签记录中，并且将所述下一页语音识别标签页码加入到新的标签记录中。

所述标签识别模块202，还用于根据用户朗读的语音识别标签内容，查找到该语音识别标签对应的动作，以及该动作发生在APP界面上的坐标位置时，查找当前语音识别标签是否包含下一页语音识别标签页码，如果包含，则，在动作控制模块203，在所述APP界面上的坐标位置执行对应动作之后，进入该下一页语音识别标签页码。

所述系统还包括语音识别模块204，接收用户朗读的语音识别标签，并转化为文字的语音识别标签，发送给标签识别模块202，为每个操作的对应动作，以及该动作发生在APP界面上的坐标位置建立唯一对应的语音识别标签。

为清楚说明本发明，下面分阶段进行分析说明。本发明的语音控制方法要实现对第三方APP的控制。

第一阶段：语音识别标签的生成阶段

(1)在需要打开APP_XXX时，用户在打开语音控制系统的基础上，朗读打开APP_XXX；

(2)语音识别模块识别语音，打开APP_XXX。默认打开APP_XXX第1页界面；

(3)标签识别模块获取到APP名称“APP_XXX”，还获取到与第1页界面对应的语音识别标签页码1，并且加入到标签记录中；

(4)语音控制系统弹出一个POP UP让用户选择是否需要录制语音识别标签，用户选择录制语音识别标签。

(5)当用户操作第1页界面上的某一APP界面控件时，假设该APP界面控件为按钮，则，用户点击该按钮，此时该按钮的点击事件被拦截模块拦截，得到该点击动作(Click)和该点击动作发生在第1页界面上的坐标位置(X0，Y0)，将其发送给标签识别模块，加入到标签记录中；

(6)同时，启动语音识别模块，用户朗读一个自定义语音识别标签“Button1”，语音识别模块在识别朗读的“Button1”后，生成文字的语音识别标签““Button1”，将其发送给标签识别模块加入到标签记录中，建立“Button1”与“Click”和(X0，Y0)之间的唯一对应关系。

另外，标签识别模块根据点击坐标(X0，Y0)计算出标签记录的显示位置(x0，y0)，加入到标签记录中。(x0，y0)一般显示在(X0，Y0)的周围，以便于用户清楚地将语音识别标签与标签记录一一对应上。

上述生成的标签记录如表1所示：

表1

(7)在生成标签记录之后，继续执行“Button1”的点击事件，跳转页面到第2页界面；

(8)用户朗读第2页，语音识别模块在识别朗读的“第2页”后，发送给标签识别模块，标签识别模块获取到与第2页界面对应的语音识别标签页码2，将该语音识别标签页码2追加到表1的标签记录中，作为当页语音识别标签页码要跳转的下一页语音识别标签页码。如表1’所示。并且，新建标签记录，将该语音识别标签页码2加入到新的标签记录中。

表1’

接下来，同理，与第1页界面的语音识别标签“Button1”的生成步骤一样，生成第2页界面的语音识别标签。

(9)语音控制系统弹出一个POP UP让用户选择是否需要录制语音识别标签，用户选择录制语音识别标签。

(10)当用户点击第2页界面上的某一按钮时，此时该按钮的点击事件被拦截模块拦截，得到该点击动作(Click)和该点击动作发生在第2页界面上的坐标位置(X1，Y1)，将其发送给标签识别模块，加入到新的标签记录中；

同时，启动语音识别模块，用户朗读一个自定义语音识别标签“Button1”，语音识别模块在识别朗读的“Button1”后，生成文字的语音识别标签“Button1”，将其发送给标签识别模块加入到标签记录中，建立“Button1”与“Click”和(X1，Y1)之间的唯一对应关系。

另外，标签识别模块根据点击坐标(X1，Y1)计算出标签记录的显示位置(x1，y1)，加入到新的标签记录中。(x1，y1)一般显示在(X1，Y1)的周围，以便于将语音识别标签与标签记录一一对应上。

上述生成的标签记录如表2所示：

表2

(11)当用户点击第2页界面上的另一按钮时，此时该按钮的点击事件被拦截模块拦截，得到该点击动作(Click)和该点击动作发生在第2页界面上的坐标位置(X2，Y2)，将其发送给标签识别模块，加入到新的标签记录中；

同时，启动语音识别模块，用户朗读一个自定义语音识别标签“Button2”，语音识别模块在识别朗读的“Button2”后，生成文字的语音识别标签“Button2”，将其发送给标签识别模块加入到标签记录中，建立“Button2”与“Click”和(X2，Y2)之间的唯一对应关系。

另外，标签识别模块根据点击坐标(X2，Y2)计算出标签记录的显示位置(x2，y2)，加入到新的标签记录中。(x2，y2)一般显示在(X2，Y2)的周围，以便于将语音识别标签与标签记录一一对应上。

上述生成的标签记录如表3所示：

表3

根据上述描述，以此类推，拦截在第三方APP的每一界面上的进行的操作动作，生成对应有语音识别标签的标签记录。

第二个阶段：语音识别控制阶段

(1)在需要打开APP_XXX时，用户在打开语音控制系统的基础上，朗读打开APP_XXX；

(2)语音识别模块识别语音，打开APP_XXX。默认打开APP_XXX第1页界面；

(3)标签识别模块获取到APP名称“APP_XXX”，还获取到与第1页界面对应的语音识别标签页码1，

(4)标签识别模块根据APP名称“APP_XXX”以及当页语音识别标签页码1，查找到与“APP_XXX”以及语音识别标签页码1相匹配的所有标签记录，根据表1’，匹配一条标签记录，因此，将该条标签记录显示在第1页界面的坐标位置(x0，y0)上。

(5)用户朗读标签记录上的语音识别标签“Button1”，语音识别模块在识别朗读的“Button1”后，生成文字的语音识别标签“Button1”，将其发送给标签识别模块，标签识别模块根据语音识别标签“Button1”，查找到该语音识别标签对应的动作“Click”以及该动作发生在第1页界面上的坐标位置(X1，Y1)。

(6)标签识别模块将该语音识别标签对应的动作“Click”以及该动作发生在第1页界面上的坐标位置(X1，Y1)传递给动作控制模块，动作控制模块在位置(X1，Y1)执行点击按钮“Button1”的操作。

(7)动作控制模块执行点击按钮“Button1”的操作后，跳转页面到第2页界面。

(8)由于标签识别模块查询表1’的标签记录，下一页面是第2页界面，则将第2页界面所对应的标签记录查找出来，包括表2和表3的标签记录。

接下来，同理，控制第2页界面控件的步骤与控制第1页界面控件的步骤一样。

(9)从表2和表3的标签记录可以看出，第2页界面上有两个语音识别标签，“Button1”和“Button2”。用户选择朗读标签记录上的语音识别标签“Button2”，语音识别模块在识别朗读的“Button2”后，生成文字的语音识别标签“Button2”，将其发送给标签识别模块，标签识别模块根据语音识别标签“Button2”，查找到该语音识别标签对应的动作“Click”以及该动作发生在第2页界面上的坐标位置(X2，Y2)。

标签识别模块将该语音识别标签对应的动作“Click”以及该动作发生在第2页界面上的坐标位置(X2，Y2)传递给动作控制模块，动作控制模块在位置(X2，Y2)执行点击按钮“Button2”的操作。

根据上述描述，以此类推，通过语音自动完成对第三方APP的每一界面上控件的控制。

以上实施例中所列举的界面操作过程，只是一个应用场景的举例，在该实施例中将语音操作过程中的各个步骤都进行一步一步的细化操作，当然在此过程中也可以进行简化，例如：可以简化为语音朗读符合一定的语法规则“Page xx，Button xx，Next pagexx”等，将多个朗读步骤合一为一个朗读步骤。这些均可以自己定义。另外，是否有弹出式按钮，或者其他控制语音标签录制的方法，都可以自定义。

本发明的方法对系统中的触摸屏和按键事件进行全局的监控，一旦发现用户有操控终端的行为，将系统该行为进行拦截，进行自定义标签的生成，从而将自定义标签与该动作进行绑定。存储在数据库中，而在系统中界面控件位置不发生变化的时候，这种录制生成自定义标签的行为只需要发生一次。以后每次使用该APP都可以使用语音控制。如果界面控件的位置发生变化，则需要重新录制自定义标签。

本发明的语音控制方法及装置，可以适用于各种移动终端和PC。主要应用于语音识别和语音控制方面。可以使用本发明进行APP的语音控制操作。从而达到解放双手，更加智能化的目的，尤其适用于像智能手表这样操作界面比较小，操作不方便的智能设备。

本发明的有益效果在于，

一、可以拦截和捕捉并且记录用户对触摸屏和按键的所有操作，以及该操作所发生的屏幕坐标位置。并且与一个自定义的语音识别标签绑定，在进行语音控制的时候，按照语音朗读该自定义标签，并且到数据库查询该标签绑定的操作，然后直接指挥系统自动到屏幕的该坐标位置上进行相关的操作，从而无需手动的去操作屏幕或者按键。达到语音控制的目的。

二、在录制生成自定义标签以后，其动作和标签进行了绑定。因此在使用语音控制过程中，只要朗读自定义标签内容，即可根据标签查询到对应的动作。然后该动作的发生并不是用户手工操作，或者其他物理方法进行操作，而是通知系统，由系统进行自动操作，例如，点击触摸屏幕的某个位置等。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张瀚林;
技术所有人：三星电子（中国）研发中心;三星电子株式会社;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。