一种用于用户设备端的语音指令创建方法与流程

文档序号：16687688发布日期：2019-01-22 18:29阅读：318来源：国知局

本申请涉及通讯系统领域，尤其涉及一种用于用户设备端的语音指令创建方法。

背景技术：

随着语音识别技术的发展，智能语音功能在各个行业中被使用时，尤其智能手机、智能音箱等语音设备都内置了语音系统，提供了丰富的语音功能。

但是，目前的语音系统所执行的语音指令只能是单一设计好的命令或是仅为打开应用。例如如果想打开微信找到朋友并发送刚拍到的照片，使用现有语音系统，如苹果siri语音系统，只能打开微信，再无法进行下一步更深的指令。需要用户语音与手的操作相结合，不能完全解放用户双手。

技术实现要素：

本申请的多个方面提供一种用于用户设备端的语音指令创建方法，用以使用户通过简单的单条语音输入即可自动创建语音控制指令，并通过所述语音控制指令操控应用实现深层功能，扩大了语音控制的应用范围和灵活性。

本申请的一方面，提供一种用于用户设备端的语音指令创建方法，包括响应于控制指令，获取至少一个第二任务操作指令及每个第二任务操作指令的执行顺序；其中，所述至少一个第二任务指令对应于第一任务操作指令；所述控制指令用于指示创建执行第一任务操作指令的语音控制指令；基于所述至少一个第二任务操作指令及每个第二任务操作指令的执行顺序生成执行第一任务操作指令的语音控制指令。

本发明的另一方面，提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

本发明的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

由所述技术方案可知，本申请实施例，可以使用户通过简单的单条语音输入即可自动创建语音控制指令，并通过所述语音控制指令操控应用实现深层功能，扩大了语音控制的应用范围和灵活性。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一些实施例提供的用于用户设备端的语音指令创建方法的流程示意图；

图2示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的用于用户设备端的语音指令创建方法的流程示意图，如图1所示，包括以下步骤：

步骤s11、获取控制指令；其中，所述控制指令用于指示创建执行第一任务操作指令的语音控制指令；

步骤s12、查询用户设备端或服务器端是否存储有对应的执行第一任务操作指令的语音控制指令；如果是，执行所述语音控制指令；如果否，响应于控制指令，获取至少一个第二任务操作指令及每个第二任务操作指令的执行顺序；其中，所述至少一个第二任务指令对应于第一任务操作指令；

步骤s13、基于所述至少一个第二任务操作指令及每个第二任务操作指令的执行顺序生成执行第一任务操作指令的语音控制指令。

上述步骤的执行主体为安装在用户设备上的语音系统，所述用户设备可以是任意能够连接到互联网的智能手机、平板电脑、笔记本电脑等设备。

在步骤s11的一种优选实现方式中，

用户向语音系统发送控制指令；所述控制指令用于指示所述语音系统创建执行第一任务操作指令的语音控制指令；

优选地，用户通过语音或长按用户设备菜单键唤醒用户设备上安装的语音系统。

在本实施例的一种优选实现方式中，用户可以通过语音方式向语音系统发送语音数据形式的控制指令，例如“创建ai智能操控指令”，指示所述语音系统创建语音控制指令，所述语音控制指令用于执行第一任务操作指令。

优选地，所述语音系统接收所述语音数据形式的控制指令，对所述语音数据进行语音识别，得到对应的文字；在语音指令库中查询得到对应的控制指令。

优选地，所述语音系统接收所述语音数据形式的控制指令，将所述语音数据上传到云端服务器；由云端服务器对所述语音数据进行语音识别，得到对应的文字，在语音指令库中查询得到对应的控制指令，将查询得到的控制指令回传给语音系统。

优选地，语音系统接收所述语音数据形式的控制指令，对所述语音数据进行语音识别，得到对应的文字；在控制指令库中查询得到对应的指示创建执行第一任务操作指令的语音控制指令的控制指令，以及启动xxx(应用客户端)的控制指令。优选地，启动xxx(应用客户端)的操作指令可以作为所述控制指令的一个参数；语音系统执行所述控制指令包括：启动xxx(应用客户端)，根据用户对xxx(应用客户端)的操作获取对应于第一任务操作指令的至少一个第二任务操作指令及每个第二任务操作指令的执行顺序。

优选地，所述控制指令包括待创建的执行第一任务操作指令的语音控制指令的名称，例如“创建ai智能操控+启动微信‘用户注册’”。所述待创建的执行第一任务操作指令的语音控制指令的名称包括所述控制指令对应的应用例如“微信”，以便所述语音系统启动所述控制指令对应的应用；所述待创建的执行第一任务操作指令的语音控制指令的名称还包括对应的功能，所述功能即为执行第一任务操作指令，例如“用户注册”，用于供用户查询。即所述待创建的执行第一任务操作指令的语音控制指令的名称为“启动xxx(应用客户端)‘功能’”，例如“启动微信‘用户注册’”。

优选地，所述控制指令不包括所述待创建的执行第一任务操作指令的语音控制指令的名称。所述语音系统提示用户输入所述待创建的执行第一任务操作指令的语音控制指令的名称。用户根据所述提示，输入所述待创建执行第一任务操作指令的语音控制指令的名称，可以采用语音方式，也可以采用文字方式进行输入。

在本实施例的另一种优选实现方式中，用户可以在安装有语音系统的用户设备上，通过对所述语音系统的菜单进行操作以创建执行第一任务操作指令的语音控制指令，例如，点击“创建ai智能操控”菜单。所述语音系统接收到用户通过点击“创建ai智能操控”菜单输入的创建执行第一任务操作指令的语音控制指令的控制指令，根据所述控制指令，提示用户在所述语音系统中输入所述待创建的执行第一任务操作指令的语音控制指令的名称，如在语音系统提供的输入框中输入所述待创建的执行第一任务操作指令的语音控制指令的名称。优选地，所述输入框还包括所要启动的应用客户端的选择窗口以及输入“功能”描述的窗口。例如，用户在选择窗口中通过浏览方式选择所要启动的应用客户端，并输入对所述创建指令的功能的描述。所述功能即为执行第一任务操作指令。优选地，启动xxx(应用客户端)的操作指令可以作为所述控制指令的一个参数。语音系统执行所述控制指令包括：启动xxx(应用客户端)，根据用户对xxx(应用客户端)的操作获取对应于第一任务操作指令的至少一个第二任务操作指令及每个第二任务操作指令的执行顺序。

优选地，在实际应用中，用户对语音系统app进行输入可以采用语音方式，也可以采用触摸方式，也可以混合使用以上两种方式。

在步骤s12的一种优选实现方式中，

所述语音系统查询用户设备端或服务器端是否存储有对应的执行第一任务操作指令的语音控制指令；如果是，执行所述语音控制指令；如果否，响应于控制指令，获取至少一个第二任务操作指令及每个第二任务操作指令的执行顺序；其中，所述至少一个第二任务指令对应于第一任务操作指令。

优选地，所述指令库位于设备端和/或服务器端。所述指令库中的语音控制指令是由语音系统响应于控制指令创建的语音控制指令。

若用户设备端或服务器端的指令库中存储有对应的执行第一任务操作指令的语音控制指令，所述语音系统执行所述语音控制指令。

优选地，所述语音控制指令中包括至少一个第二任务操作指令、每个第二任务操作指令的执行顺序与所述控制指令对应的应用；所述语音系统启动所述语音控制指令中包括的对应的应用；启动应用后，按照所述语音控制指令中包括的对应的每个第二任务操作指令的执行顺序执行每个第二任务操作指令。

若用户设备端或服务器端的指令库中没有存储有对应的执行第一任务操作指令的语音控制指令，所述语音系统创建执行第一任务操作指令的语音控制指令。

优选地，所述语音系统响应于所述控制指令，获取至少一个第二任务操作指令及每个第二任务操作指令的执行顺序；以基于所述至少一个第二任务操作指令及每个第二任务操作指令的执行顺序生成执行第一任务操作指令的语音控制指令；其中，所述至少一个第二任务指令对应于第一任务操作指令。

优选地，所述语音系统中预置了多种获取至少一个第二任务操作指令及每个第二任务操作指令的执行顺序的处理方式，包括：记录屏幕坐标、记录控件、统计控件。

所述语音系统响应于所述控制指令，在语音系统主界面向用户展示所述多种至少一个第二任务操作指令及每个第二任务操作指令的执行顺序的处理方式，供用户选择。例如，以文字和/或图标的形式展示给用户，供用户进行触摸/点击选择；也可以以语音的形式播报给用户，由用户通过语音命令进行选择。

优选地，所述语音系统也可以采用预设的处理方式获取所述至少一个第二任务操作指令及每个第二任务操作指令的执行顺序；也可以采用全部可选的处理方式获取至少一个第二任务操作指令及每个第二任务操作指令的执行顺序后，供用户进行选择。

在本申请的一个优选实施例中，所述记录屏幕坐标以获取所述至少一个第二任务操作指令及每个第二任务操作指令的执行顺序的处理方式具体如下：

当接收到用户对所述记录屏幕坐标处理方式的选择后，提示用户执行对应的操作，例如“请在应用中执行对应操作”。所述提示可以是展示在语音系统上的文字和/或图标，也可以是语音提示。

语音系统调用系统底层应用，首先打开待创建指令的名称中包括的应用，如“启动微信‘用户注册’”，则启动微信；然后实时获得用户点击/触摸屏幕的位置，包括触屏操作时，触屏的开始位置、当前位置、结束位置。例如：”x9.y9”(用户登录)->”x10.y10”(注册按钮)->”x15.y15”(用户名输入框)->”x15.y12”(密码输入框)。

优选地，通过getevent方法监控当前的事件，监听touchscreen设备的输出可以得到相应的x,y坐标值

优选地，所述语音系统接收用户发送的操作结束的控制指令后，执行所述控制指令，停止记录用户点击/触摸的屏幕坐标，将所记录的屏幕坐标及顺序进行存储。其中，所记录的屏幕坐标及顺序即为所述至少一个第二任务操作指令及每个第二任务操作指令的执行顺序。

在具体应用中，只要应用的布局不发生改变，则执行相应操作对手机屏幕的点击/触摸的屏幕坐标及顺序不会发生改变。但是，如果应用出现大的改版，则布局可能会发生改变，若仍根据上一版应用生成的指令进行操作，则会出现错误，因此，需要用户对指令进行及时更新。

在本申请的一个优选实施例中，所述记录控件获取所述至少一个第二任务操作指令及每个第二任务操作指令的执行顺序的处理方式具体如下：

当接收到用户对所述记录控件处理方式的选择后，提示用户执行对应的操作，例如“请在应用中执行对应操作”。所述提示可以是展示在语音系统上的文字和/或图标，也可以是语音提示。

语音系统调用系统底层应用，首先打开待创建指令的名称中包括的应用，如“启动微信‘用户注册’”，则启动微信；然后实时获得用户点击/触摸的应用的控件。例如：“用户登录”(button名称)->“用户注册”(button名称)->“用户名输入”(input名称)->“密码输入”(input)名称。

优选地，所述语音系统app接收用户发送的操作结束的控制指令后，执行所述控制指令，停止记录用户点击/触摸的控件，将所记录的控件及顺序进行存储。其中，所记录的控件及顺序即为所述至少一个第二任务操作指令及每个第二任务操作指令的执行顺序。

优选地，当语音系统通过系统底层应用，判断用户已结束对应用的操作，则停止记录用户点击/触摸的控件，将所记录的控件及顺序进行存储。

在本申请的一个优选实施例中，所述统计控件获取所述至少一个第二任务操作指令及每个第二任务操作指令的执行顺序的处理方式具体如下：

语音系统调用系统底层应用，首先打开待创建指令的名称中包括的应用，如“启动微信‘用户注册’”，则启动微信；统计所述应用内的所有功能控件，将所有功能控件能执行的步骤生成树形结构。

优选地，统计所述应用内的所有功能控件包括：按照树状结构，自动遍历所述应用的所有控件。对于控件的遍历，可以转化为对树的遍历。对树的遍历有递归方式和非递归的方式，非递归方式又可以分为深度优先遍历和广度优先遍历。

优选地，通过对控件的遍历生成的树形结构，涵盖了对所述应用的所有可能的操作步骤，例如，树形结构的每个中端及末端所对应的从根节点到所述中端或末端的控件及顺序都可以用来生成指令，并且对应不同的功能。因此，需要用户在所有可能的操作步骤中选择所述至少一个第二任务操作指令及每个第二任务操作指令的执行顺序。

在步骤s13的一种优选实现方式中，

语音系统基于所述至少一个第二任务操作指令及每个第二任务操作指令的执行顺序生成执行第一任务操作指令的语音控制指令。

优选地，语音系统获取所述至少一个第二任务操作指令及每个第二任务操作指令的执行顺序后，向用户发出提示信息，提示用户确认根据是否创建指令。

优选地，对于统计控件获取至少一个第二任务操作指令及每个第二任务操作指令的执行顺序的处理方式，所述提示信息还用于提示用户在对应用内的所有控件的遍历生成的树形结构中，选择至少一个第二任务操作指令对应的控件及所述控件的上层节点。

接收到用户的确认指令后，所述语音系统基于所述至少一个第二任务操作指令及每个第二任务操作指令的执行顺序生成执行第一任务操作指令的语音控制指令。

优选地，所述语音系统将所述至少一个第二任务操作指令、每个第二任务操作指令的执行顺序与所述控制指令对应的应用相关联，创建执行第一任务操作指令的语音控制指令。

优选地，所述语音系统将所创建的语音控制指令存储到指令库中。在所述指令库中，所述指令以其名称唯一确定。优选地，所述指令库位于设备端和/或服务器端。

优选地，用户可以在所述语音系统的提供的指令库操作界面中查询、编辑、删除所述语音控制指令。例如，修改所述语音控制指令的名称。

优选地，所述语音控制指令可以被复制并预装在其他预装有所述语音系统的设备端中，例如，在设备端出厂时即可预装在设备端上，也可由用户根据需要自行设置。

通过本实施例所述方法，可以使用户通过简单的单条语音输入即可自动创建语音控制指令，并通过所述语音控制指令操控应用实现深层功能，扩大了语音控制的应用范围和灵活性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在所述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图2示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图2显示的计算机系统/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(isa)总线，微通道体系结构(mac)总线，增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图2未显示，通常称为“硬盘驱动器”)。尽管图2中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机系统/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图2所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图2中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序，从而执行本发明所描述的实施例中的功能和/或方法。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王壮
技术所有人：上海连尚网络科技有限公司
我是此专利的发明人

上一篇：一种亮度校正装置及方法、显示装置、显示系统及方法与流程
上一篇：一种滴灌带回收装置的制作方法