一种语音控制的实现方法和移动终端与流程

文档序号:11234932阅读:790来源:国知局
一种语音控制的实现方法和移动终端与流程

本发明涉及移动终端控制领域,尤其涉及一种语音控制的实现方法和移动终端。



背景技术:

随着电子产业的快速发展,移动终端智能化程度越来越高。基于语音识别技术的语音输入和语音控制在移动终端上的应用的也越来越广泛。语音控制的大范围使用能够让用户对移动终端的操作更为便捷。

目前,已有的语音控制实现方法主要是在系统中预置一些语音指令,根据语音指令进行一些简单操作,例如,打开指定应用、播放音乐、拨打电话等具体的功能操作,但是不能够针对某个应用的某个具体界面实现更为具体的操作。如果需要针对某个特定应用的界面实现语音控制,就需要该应用本身具备语音控制功能,其扩展性和适应性较差,难以实现。

例如,假设移动终端当前显示了某个网页,其中包括多条链接,如果浏览器应用没有配置语音控制的功能,所以用户必须通过用手点击终端屏幕的方式,才能够打开其中的一个链接,而不能够通过语音进行操作。而如果要让浏览器能够实现语音控制,就必须对浏览器应用进行编程改进,工作量很大。不仅如此,这种对于某个应用的改进无法与其他应用共享,假设用户需要使用语音来操作其他应用的界面,则必须对其他应用同样进行编程使其具备语音控制功能。

因此,现有的语音控制方案无法对移动终端进行任意操作,语音操作的扩展难度高、工作量大。针对这些问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明的主要目的在于提出一种语音控制的实现方法和移动终端,旨在解决语音控制只能够局限于具有语音控制功能的特定应用的问题,让语音控制能够更加容易地扩展到所有应用。

为实现上述目的,根据本发明的一个方面,提供了一种移动终端,包括:

栅格显示模块,用于在接收到进入语音控制的指令后,在显示界面上以重叠方式显示栅格式界面,栅格式界面中包括多个子区域,每个子区域都显示有区域标识;

语音解析模块,用于对输入的语音命令进行解析,获取语音命令中所包含的操作类型和区域标识;

命令生成模块,用于根据操作类型以及区域标识生成操作命令;

执行模块,用于根据操作命令对显示界面执行操作,执行操作的位置为与获取的区域标识所对应的子区域。

可选地,当语音解析模块获取的操作类型为单击或双击或长按操作时,命令生成模块将获取的区域标识所对应的子区域的中心点坐标确定为执行操作的位置,并生成操作命令。

可选地,当语音解析模块获取的操作类型为滑动操作时,语音解析模块获取语音命令中所包含的起始点区域标识、结束点区域标识;命令生成模块用于确定起始点区域标识所对应的子区域的第一中心点坐标和结束点区域标识所对应的子区域的第二中心点坐标,以及第一中心点坐标和第二中心点坐标之间的连线所经过的栅格式界面中的子区域;计算各个子区域的操作顺序并生成用于执行滑动操作的操作命令。

可选地,该移动终端可以进一步包括:

提示模块,用于在显示界面中与解析获取的区域标识对应的子区域的中心位置不存在可操作对象的情况下,则提示重新输入语音命令,语音解析模块进一步对新语音命令进行解析;

粒度调整模块,用于在语音解析模块解析确定新语音命令用于调整栅格式界面的粒度的情况下,根据新语音命令调整栅格式界面的粒度,提示基于粒度调整后的栅格式界面进一步输入语音命令;

并且,在语音解析模块解析确定新语音命令中包含操作类型、区域标识以及方位信息的情况下,命令生成模块根据新语音命令生成操作命令,其中,操作的执行位置需要根据新语音命令中的区域标识以及方位信息确定,方位信息用于表示在显示界面中与区域标识对应的子区域内执行操作的进一步位置。

可选地,如果语音解析模块解析确定语音命令为系统中预先配置的语音命令,则通知执行模块直接执行语音命令。

根据本发明的一个方面,提供了一种语音控制的实现方法。该方法包括:

接收到进入语音控制的指令后,在显示界面上以重叠方式显示栅格式界面,栅格式界面中包括多个子区域,每个子区域都显示有区域标识;

对输入的语音命令进行解析,获取语音命令中所包含的操作类型和区域标识;

根据操作类型以及区域标识生成操作命令;

根据操作命令对显示界面执行操作,执行操作的位置为与获取的区域标识所对应的子区域。

可选地,当操作类型为单击或双击或长按操作时,将获取的区域标识所对应的子区域的中心点坐标确定为执行操作的位置。

可选地,当操作类型为滑动操作时,获取语音命令中所包含的起始点区域标识、结束点区域标识,确定起始点区域标识所对应的子区域的第一中心点坐标和结束点区域标识所对应的子区域的第二中心点坐标,以及第一中心点坐标和第二中心点坐标之间的连线所经过的栅格式界面中的子区域;

计算各个子区域的操作顺序并执行滑动操作。

可选地,在显示界面中与解析获取的区域标识对应的子区域的中心位置不存在可操作对象的情况下,则提示重新输入语音命令,并对输入的新语音命令进行解析;

在解析确定新语音命令用于调整栅格式界面的粒度的情况下,根据新语音命令调整栅格式界面的粒度,提示基于粒度调整后的栅格式界面进一步输入语音命令;

在解析确定新语音命令中包含操作类型、区域标识以及方位信息的情况下,根据新语音命令生成操作命令,其中,操作的执行位置需要根据新语音命令中的区域标识以及方位信息确定,方位信息用于表示在显示界面中与区域标识对应的子区域内执行操作的进一步位置。

可选地,如果解析确定语音命令为系统中预先配置的语音命令,则直接执行语音命令。

本发明的技术方案能够实现以下技术效果:

(1)本发明采用栅格式界面,并基于输入的语音命令确定需要对移动终端当前界面进行操作的类型以及操作的子区域,进而生成移动终端所能够执行的命令,不论移动终端当前所运行并显示的是什么应用的界面,都可以通过本发明的方案在该界面中进行操作,从而让语音控制推广到终端上的所有应用,很容易地控制所有应用的每个界面的每个元素,有效简化了用户对移动终端的操作,让语音控制的功能更加丰富,并且无需对每个应用进行单独适配,减少了工作量;

(2)通过根据用户的命令调整栅格粒度、以及根据方位信息进一步确定单个子区域内执行操作的位置,能够让语音控制操作更加精确、合理,让语音控制操作能够适应多种不同设计风格的界面;

(3)本发明还能够识别语音命令是否是系统中预先配置的命令,如果是预先配置的命令,则按照常规流程进行处理,而不基于栅格式界面进行操作,这样能够让本发明的方案与传统方案更好地兼容。

附图说明

图1为实现本发明各个实施例的一个可选的移动终端的硬件结构示意图;

图2为本发明各实施例的移动终端被用户握持的情况示意图;

图3至图5为本发明不同实施例的移动终端的组成结构示意图;

图6至图12为本发明不同实施例的语音控制的实现方法的流程图。

本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。

移动终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。下面,假设终端是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。

图1为实现本发明各个实施例的一个可选的移动终端的硬件结构示意。

移动终端100可以包括无线通信单元110、a/v(音频/视频)输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。图1示出了具有各种组件的移动终端,但是应理解的是,并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。

无线通信单元110通常包括一个或多个组件,其允许移动终端100与无线通信系统或网络之间的无线电通信。例如,无线通信单元可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。

广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以是生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且将其发送给终端的服务器。广播信号可以包括tv广播信号、无线电广播信号、数据广播信号等等。而且,广播信号可以进一步包括与tv或无线电广播信号组合的广播信号。广播相关信息也可以经由移动通信网络提供,并且在该情况下,广播相关信息可以由移动通信模块112来接收。广播信号可以以各种形式存在,例如,其可以以数字多媒体广播(dmb)的电子节目指南(epg)、数字视频广播手持(dvb-h)的电子服务指南(esg)等等的形式而存在。广播接收模块111可以通过使用各种类型的广播系统接收信号广播。特别地,广播接收模块111可以通过使用诸如多媒体广播-地面(dmb-t)、数字多媒体广播-卫星(dmb-s)、数字视频广播-手持(dvb-h),前向链路媒体(mediaflo@)的数据广播系统、地面数字广播综合服务(isdb-t)等等的数字广播系统接收数字广播。广播接收模块111可以被构造为适合提供广播信号的各种广播系统以及上述数字广播系统。经由广播接收模块111接收的广播信号和/或广播相关信息可以存储在存储器160(或者其它类型的存储介质)中。

移动通信模块112将无线电信号发送到基站(例如,接入点、节点b等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。

无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括wlan(无线lan)(wi-fi)、wibro(无线宽带)、wimax(全球微波互联接入)、hsdpa(高速下行链路分组接入)等等。

短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙tm、射频识别(rfid)、红外数据协会(irda)、超宽带(uwb)、紫蜂tm等等。

位置信息模块115是用于检查或获取移动终端的位置信息的模块。位置信息模块的典型示例是gps(全球定位系统)。根据当前的技术,gps模块115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法,从而根据经度、纬度和高度准确地计算三维当前位置信息。当前,用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外,gps模块115能够通过实时地连续计算当前位置信息来计算速度信息。

a/v输入单元120用于接收音频或视频信号。a/v输入单元120可以包括相机121和麦克风122,相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元151上。经相机121处理后的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送,可以根据移动终端的构造提供两个或更多相机121。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息,并且可以包括键盘、锅仔片、触摸板(例如,检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地,当触摸板以层的形式叠加在显示单元151上时,可以形成触摸屏。

感测单元140检测移动终端100的当前状态,(例如,移动终端100的打开或关闭状态)、移动终端100的位置、用户对于移动终端100的接触(即,触摸输入)的有无、移动终端100的取向、移动终端100的加速或减速移动和方向等等,并且生成用于控制移动终端100的操作的命令或信号。例如,当移动终端100实施为滑动型移动电话时,感测单元140可以感测该滑动型电话是打开还是关闭。另外,感测单元140能够检测电源单元190是否提供电力或者接口单元170是否与外部装置耦接。感测单元140可以包括接近传感器141等。

接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(i/o)端口、视频i/o端口、耳机端口等等。识别模块可以是存储用于验证用户使用移动终端100的各种信息并且可以包括用户识别模块(uim)、客户识别模块(sim)、通用客户识别模块(usim)等等。另外,具有识别模块的装置(下面称为"识别装置")可以采取智能卡的形式,因此,识别装置可以经由端口或其它连接装置与移动终端100连接。接口单元170可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。

另外,当移动终端100与外部底座连接时,接口单元170可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终端是否准确地安装在底座上的信号。输出单元150被构造为以视觉、音频和/或触觉方式提供输出信号(例如,音频信号、视频信号、警报信号、振动信号等等)。

输出单元150可以包括显示单元151、音频输出模块152、警报单元153等等。

显示单元151可以显示在移动终端100中处理的信息。例如,当移动终端100处于电话通话模式时,显示单元151可以显示与通话或其它通信(例如,文本消息收发、多媒体文件下载等等)相关的用户界面(ui)或图形用户界面(gui)。当移动终端100处于视频通话模式或者图像捕获模式时,显示单元151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的ui或gui等等。

同时,当显示单元151和触摸板以层的形式彼此叠加以形成触摸屏时,显示单元151可以用作输入装置和输出装置。显示单元151可以包括液晶显示器(lcd)、薄膜晶体管lcd(tft-lcd)、有机发光二极管(oled)显示器、柔性显示器、三维(3d)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看,这可以称为透明显示器,典型的透明显示器可以例如为toled(透明有机发光二极管)显示器等等。根据特定想要的实施方式,移动终端100可以包括两个或更多显示单元(或其它显示装置),例如,移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。

音频输出模块152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且,音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括扬声器、蜂鸣器等等。

警报单元153可以提供输出以将事件的发生通知给移动终端100。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或视频输出之外,警报单元153可以以不同的方式提供输出以通知事件的发生。例如,警报单元153可以以振动的形式提供输出,当接收到呼叫、消息或一些其它进入通信(incomingcommunication)时,警报单元153可以提供触觉输出(即,振动)以将其通知给用户。通过提供这样的触觉输出,即使在用户的移动电话处于用户的口袋中时,用户也能够识别出各种事件的发生。警报单元153也可以经由显示单元151或音频输出模块152提供通知事件的发生的输出。

存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等,或者可以暂时地存储己经输出或将要输出的数据(例如,电话簿、消息、静态图像、视频等等)。而且,存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。

存储器160可以包括至少一种类型的存储介质,所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等等。而且,移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。

控制器180通常控制移动终端的总体操作。例如,控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外,控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块181,多媒体模块181可以构造在控制器180内,或者可以构造为与控制器180分离。控制器180可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。

电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过使用特定用途集成电路(asic)、数字信号处理器(dsp)、数字信号处理装置(dspd)、可编程逻辑装置(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,这样的实施方式可以在控制器180中实施。对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器160中并且由控制器180执行。

至此,己经按照其功能描述了移动终端。下面,为了简要起见,将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此,本发明能够应用于任何类型的移动终端,并且不限于滑动型移动终端。

如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。

本发明所提出的技术方案需要在屏幕上显示栅格式界面,另外还需要根据用户输入的语音命令,对栅格式界面所覆盖的显示界面进行操作。为了实现本发明的技术方案,用户输入单元130可以接收用户输入的语音命令,控制器180可以解析算法获取语音命令中所包含的内容,并根据用户的命令在显示单元151上显示栅格式界面,栅格式界面与显示单元151当前显示的界面重叠;此外,控制器180还能够生成相应的操作命令并执行,从而对显示单元151所显示的界面进行操作,实现语音控制。

可选地,在控制器180中,可以集成设置图3至图5所示的功能模块。

可选地,栅格式界面包括多个子区域,每个子区域标识可以显示有区域标识,这些区域标识是数字或字母等能够按顺序排列的标识,这样就能够更加容易地确定栅格式界面所划分每个子区域的所在位置进而确定每个子区域所对应的坐标范围。

以手机移动终端为例,用户握持移动终端的情况如图2所示。图2中所示的虚线表示栅格式界面,该栅格式界面与终端原本显示的界面相重叠,且栅格式界面具有24个子区域,每个子区域都有对应的区域标识,区域标识为数字,从1至24编号。基于本发明的技术方案,用户无需触摸操作,只要通过语音控制,就能够对栅格式界面所覆盖的界面进行多种操作。

下面将详细描述本发明的实施例。应当注意的是,这些实施例仅仅用于解释本发明的技术方案,而不用于限定本发明的保护范围。

第一实施例

如图3所示,本发明第一实施例提出一种移动终端,包括:

栅格显示模块31,用于在接收到进入语音控制的指令后,在显示界面上以重叠方式显示栅格式界面,栅格式界面中包括多个子区域,每个子区域都显示有区域标识;

语音解析模块32,用于对输入的语音命令进行解析,获取语音命令中所包含的操作类型和区域标识;也就是说,根据输入的语音命令,语音解析模块32能够得到当前所需要执行的操作类型(例如,包括点击、拖拽、双击等)以及执行该操作的子区域;

命令生成模块33,用于根据操作类型以及区域标识生成操作命令;

执行模块34,用于根据操作命令对显示界面执行操作,执行操作的位置为与获取的区域标识所对应的子区域。

可选地,栅格式界面可以通过语音命令呼出,也可以通过语音命令取消。

可选地,栅格式界面可以覆盖于移动终端当前所显示的界面上层,以半透明方式显示。

本发明采用栅格式界面,并基于输入的语音命令确定需要对移动终端当前界面进行操作的类型以及操作的子区域,进而生成移动终端所能够执行的命令,不论移动终端当前所运行并显示的是什么应用的界面,都可以通过本发明的方案在该界面中进行操作,从而让语音控制推广到终端上的所有应用,很容易地控制所有应用的每个界面的每个元素,有效简化了用户对移动终端的操作,让语音控制的功能更加丰富,并且无需对每个应用进行单独适配,减少了工作量。

第二实施例

根据本发明的第二实施例,提供了一种移动终端。

根据本实施例的移动终端结构与第一实施例中的移动终端类似,同样可以参照图3所示,均包括栅格显示模块31、语音解析模块32、命令生成模块33以及执行模块34,其功能如下:

栅格显示模块31用于在接收到进入语音控制的指令后,在显示界面上以重叠方式显示栅格式界面,栅格式界面中包括多个子区域,每个子区域都显示有区域标识;

语音解析模块32用于对输入的语音命令进行解析,获取语音命令中所包含的操作类型和区域标识;

命令生成模块33用于根据操作类型以及区域标识生成操作命令;

执行模块34用于根据操作命令对显示界面执行操作,执行操作的位置为与获取的区域标识所对应的子区域。

可选地,本实施例与第一实施例不同之处在于,由于解析结果中包含了需要进行操作的区域标识,所以命令生成模块33可以根据区域标识确定界面中相应子区域所对应的位置以及尺寸,例如,可以通过坐标来表示。当语音解析模块32获取的操作类型为单击或双击或长按操作时,命令生成模块将获取的区域标识所对应的子区域的中心点坐标确定为执行操作的位置,并生成操作命令。

第三实施例

根据本发明的第三实施例,提供了一种移动终端。

根据本实施例的移动终端结构与第一实施例和第二实施例中的移动终端类似,同样可以参照图3所示,均包括栅格显示模块31、语音解析模块32、命令生成模块33以及执行模块34。

栅格显示模块31用于在接收到进入语音控制的指令后,在显示界面上以重叠方式显示栅格式界面,栅格式界面中包括多个子区域,每个子区域都显示有区域标识;

语音解析模块32用于对输入的语音命令进行解析,获取语音命令中所包含的操作类型和区域标识。在本实施例中,解析得到的操作类型为“滑动”操作。语音解析模块32获取语音命令中所包含的起始点区域标识、结束点区域标识;

命令生成模块33会确定起始点区域标识所对应的子区域的第一中心点坐标和结束点区域标识所对应的子区域的第二中心点坐标,以及第一中心点坐标和第二中心点坐标之间的连线所经过的栅格式界面中的子区域;计算各个子区域的操作顺序并生成用于执行滑动操作的操作命令;例如,以图2所示的栅格式界面为例,假设用户输入的语音命令为从子区域1滑动至子区域4,则命令生成模块33将首先确定子区域1的中心点位置以及子区域4的中心点位置,并将子区域1作为起始点区域,将子区域4作为结束点区域,之后将计算从子区域1至子区域4所途经的子区域,包括子区域2和子区域3,得到子区域2和子区域3的中心点位置以及子区域1至子区域4这4个子区域的排列顺序,之后生成从子区域1依次经过子区域2和子区域3滑动至子区域4的滑动命令。

执行模块34执行操作命令,即可实现语音控制的滑动操作。

可选地,栅格式界面中所显示的区域标识可以是数字或者字母等能够按顺序排列的标识,这样就能够更加容易地确定栅格式界面所划分每个子区域的所在位置进而确定每个子区域所对应的坐标范围。

第四实施例

根据本发明的第四实施例,提供了一种移动终端。

根据本实施例的移动终端结构与第一至第三实施例中的移动终端类似,均包括栅格显示模块31、语音解析模块32、命令生成模块33以及执行模块34。参照图4,与前述实施例不同的是,根据本实施例的移动终端进一步包括提示模块35。

栅格显示模块31用于在接收到进入语音控制的指令后,在显示界面上以重叠方式显示栅格式界面,栅格式界面中包括多个子区域,每个子区域都显示有区域标识;

语音解析模块32用于对输入的语音命令进行解析,获取语音命令中所包含的操作类型和区域标识。在本实施例中,解析得到的操作类型为“点击”操作。

命令生成模块33会首先确定当前界面中与解析的区域标识对应的子区域的尺寸以及边界坐标等,之后在该子区域的范围内找到该子区域的中心位置;

如果命令生成模块33确定该中心位置不存在可操作对象(例如,当前界面中该子区域的中心位置并不存在可以点击的链接或按键),则提示模块35将提示重新输入语音命令,并告知用户应当指定具体方位(例如,可以通过语音提示,也可以弹出一个对话框进行提示);

语音解析模块32将进一步对用户进一步输入的新语音命令进行解析,命令生成模块33将根据新语音命令中所包含的操作类型、区域标识以及方位信息生成移动终端能够执行的操作命令,其中,操作的执行位置需要根据新语音命令中的区域标识以及方位信息确定,方位信息用于表示在当前界面中与区域标识对应的子区域内执行操作的进一步位置。

例如,假设栅格式界面将当前界面划分为“田”字形分布的4个子区域,区域标识为数字,子区域1位于左上,子区域2位于右上,子区域3位于左下,子区域4位于右下。新语音命令为“对子区域1的上部进行点击”,此时语音解析模块32将解析出子区域的标识为子区域“1”,操作类型为“点击”,方位信息为“上部”。命令生成模块33将首先确定出子区域1的坐标位置,并确定子区域1的上半部分,之后得到子区域1上半部分的中间位置,生成操作命令,操作命令用于对子区域1的上半部分的中心位置进行点击操作。

执行模块34执行操作命令,即可实现语音控制。

应当注意的是,上述以“上部”为例,说明了方位信息。实际上,方位信息可以更加具体,例如,可以是左上部,右下部等,并不限于以上具体情况。

通过根据方位信息进一步确定单个子区域内执行操作具体位置,能够让语音控制操作更加精确、合理,让语音控制操作能够适应多种不同设计风格的界面,即使当前界面内有些子区域内的按键分布较为密集,也可以通过这种方式进行准确操作。

第五实施例

根据本发明的第五实施例,提供了一种移动终端。

根据本实施例的移动终端结构与第一至第四实施例中的移动终端类似,均包括栅格显示模块31、语音解析模块32、命令生成模块33以及执行模块34。参照图5,与前述实施例不同的是,根据本实施例的移动终端进一步包括提示模块35和粒度调整模块36。

栅格显示模块31用于在接收到进入语音控制的指令后,在显示界面上以重叠方式显示栅格式界面,栅格式界面中包括多个子区域,每个子区域都显示有子区域标识;

语音解析模块32用于对输入的语音命令进行解析,获取语音命令中所包含的操作类型和区域标识。在本实施例中,解析获得的操作类型为“点击”操作。

命令生成模块33会首先确定当前界面中与解析的区域标识对应的子区域的尺寸以及边界坐标等,之后在该子区域的范围内找到该子区域的中心位置;

如果命令生成模块33确定该中心位置不存在可操作对象(例如,当前界面中该子区域的中心位置并不存在可以点击的链接或按键),则提示模块35将提示用户调整栅格的粒度(例如,可以通过语音提示,也可以弹出一个对话框进行提示);

语音解析模块32将对用户输入的粒度调整命令进行解析,确定调整方式。粒度调整模块36会根据确定的调整方式调整栅格式界面的粒度。提示模块35可以提示基于粒度调整后的栅格式界面进一步输入语音命令。

接下来,语音解析模块32将继续解析用户进一步输入的语音命令,得到新调整后栅格式界面的标识以及操作类型。

例如,假设移动终端首次显示的栅格式界面将当前界面划分为“田”字形分布的4个子区域,区域标识为数字。4个子区域的位置如下:子区域1位于左上,子区域2位于右上,子区域3位于左下,子区域4位于右下。用户首次输入的语音命令为“对子区域1进行点击”,此时语音解析模块32将解析出子区域的标识为子区域“1”,操作类型为“点击”。命令生成模块33将首先确定出子区域1的坐标位置,并确定子区域1的上半部分,之后得到子区域1的中间位置,如果命令生成模块33确定子区域1的中间位置不存在可操作对象,则提示模块35将提示用户调整栅格粒度。语音解析模块32将解析出粒度调整方式,由粒度调整模块将粒度为2×2(田字形分布)的栅格式界面调整为4×4,在显示调整后的栅格式界面时,其中每个子区域具有新的区域标识。

之后,语音解析模块32将继续接收并解析用户基于调整后栅格式界面所输入的语音指令,确定在4×4的栅格式界面中需要执行操作的子区域和操作类型,由命令生成模块33基于调整后4×4的栅格式界面确定所要操作的子区域中心坐标,进而生成操作指令。如果调整后4×4的栅格式界面中需要操作的子区域中心仍然不存在可以操作的对象,则提示模块35可以提示用户进一步提高栅格式界面所划分子区域的数量。

通过根据用户的命令调整栅格粒度,能够让语音控制操作更加精确、合理,让语音控制操作能够适应多种不同设计风格的界面。

在第四实施例和第五实施例中均出现了提示模块,实际上,这两个实施例所描述的是在一个子区域中心位置不存在可操作对象的两种可选的工作模式。在实际应用当中,移动终端中配置的提示模块可以具备第四实施例和第五实施例中说明的提示模块的功能总和,移动终端可以根据用户的指令切换不同的工作模式。

第六实施例

根据本发明的第六实施例,提供了一种移动终端。

根据本实施例的移动终端结构与第一实施例中的移动终端类似,同样可以参照图3所示,均包括栅格显示模块31、语音解析模块32、命令生成模块33以及执行模块34,其功能如下:

栅格显示模块31用于在接收到进入语音控制的指令后,在显示界面上以重叠方式显示栅格式界面,栅格式界面中包括多个子区域,每个子区域都显示有区域标识;

语音解析模块32,用于对输入的语音命令进行解析,获取语音命令中所包含的操作类型和区域标识。在本实施例中,假设解析结果为,接收到的语音命令为系统中预先配置的语音命令(即,固定语音命令,如拨号等),其中不包括区域标识和操作类型。此时,命令生成模块33将不会工作,语音解析模块32直接通知执行模块34执行该语音命令。

通过识别语音命令是否是系统中预先配置的命令,如果是预先配置的命令,则按照常规流程进行处理,而不基于栅格式界面进行操作,这样能够让本发明的方案与传统方案更好地兼容。

第七实施例

根据本发明的第七实施例,提供了一种语音控制的实现方法。

如图6所示,根据本实施例的语音控制的实现方法包括:

步骤s601,接收到进入语音控制的指令后,在显示界面上以重叠方式显示栅格式界面,栅格式界面中包括多个子区域,每个子区域都显示有区域标识;

步骤s602,对输入的语音命令进行解析,获取语音命令中所包含的操作类型(例如,包括点击、拖拽、双击等)和区域标识;

步骤s603,根据操作类型以及区域标识生成操作命令;

步骤s604,根据操作命令对显示界面执行操作,执行操作的位置为与获取的区域标识所对应的子区域。

可选地,栅格式界面中所显示的区域标识可以是数字或字母等能够按顺序排列的标识,这样就能够更加容易地确定栅格式界面所划分每个子区域的所在位置进而确定每个子区域所对应的坐标范围。

可选地,栅格式界面可以通过语音命令呼出,也可以通过语音命令取消。

可选地,栅格式界面可以覆盖于移动终端当前所显示的界面上层,以半透明方式显示。

本发明采用栅格式界面,并基于输入的语音命令确定需要对移动终端当前界面进行操作的类型以及操作的子区域,进而生成移动终端所能够执行的命令,不论移动终端当前所运行并显示的是什么应用的界面,都可以通过本发明的方案在该界面中进行操作,从而让语音控制推广到终端上的所有应用,很容易地控制所有应用的每个界面的每个元素,有效简化了用户对移动终端的操作,让语音控制的功能更加丰富,并且无需对每个应用进行单独适配,减少了工作量。

第八实施例

根据本发明的第九实施例,提供了一种语音控制的实现方法。

如图7所示,根据本实施例的语音控制的实现方法包括:

步骤s701,接收到进入语音控制的指令后,在显示界面上以重叠方式显示栅格式界面,栅格式界面中包括多个子区域,每个子区域都显示有区域标识;

步骤s702,对输入的语音命令进行解析,获取语音命令中所包含的操作类型和区域标识;

步骤s703,根据操作类型以及区域标识生成操作命令,其中,根据当前界面中与解析的区域标识对应的子区域的坐标、以及解析得到的操作类型,确定执行操作的位置;该操作命令用于命令移动终端对当前界面中与解析的区域标识对应的子区域进行符合上述操作类型的操作;

步骤s704,根据操作命令对显示界面执行操作,执行操作的位置为与获取的区域标识所对应的子区域。

第九实施例

根据本发明的第九实施例,提供了一种语音控制的实现方法。

如图8所示,根据本实施例的语音控制的实现方法包括:

步骤s801,接收到进入语音控制的指令后,在显示界面上以重叠方式显示栅格式界面,栅格式界面中包括多个子区域,每个子区域都显示有区域标识;

步骤s802,对输入的语音命令进行解析,获取语音命令中所包含的操作类型和区域标识;在本实施例中,解析得到的操作类型为点击操作;

步骤s803,根据解析结果生成移动终端能够执行的操作命令,其中,将当前界面中与解析的区域标识对应的子区域的中心位置确定为执行点击操作的位置;其中,该操作命令用于命令移动终端对当前界面中与解析的区域标识对应的区域进行符合上述操作类型的操作;

步骤s804,执行生成的操作命令。

第十实施例

根据本发明的第十实施例,提供了一种语音控制的实现方法。

如图9所示,根据本实施例的语音控制的实现方法包括:

步骤s901,接收到进入语音控制的指令后,在显示界面上以重叠方式显示栅格式界面,栅格式界面中包括多个子区域,每个子区域都显示有区域标识;

步骤s902,对输入的语音命令进行解析,获取语音命令中所包含的操作类型和区域标识

;在本实施例中,解析得到的操作类型为点击操作;

步骤s903,将当前界面中与解析的区域标识对应的子区域的中心位置确定为执行点击操作的位置;

判断当前界面中与解析的区域标识对应的子区域的中心位置是否存在可操作对象;如果判断结果为是,则执行步骤s904和步骤s905;否则执行步骤s906和步骤s907;

步骤s904,生成操作命令,其中,该操作命令用于命令移动终端对当前界面中与解析的区域标识对应的子区域进行符合上述操作类型的操作;

步骤s905,执行生成的操作命令。

步骤s906,提示重新输入语音命令,并对输入的新语音命令进行解析;

步骤s907,在解析确定新语音命令用于调整栅格式界面的粒度的情况下,根据新语音命令调整栅格式界面的粒度,提示基于粒度调整后的栅格式界面进一步输入语音命令,之后返回步骤s902,接收并解析用户新输入的语音命令。

例如,假设移动终端首次显示的栅格式界面将当前界面划分为“田”字形分布的4个子区域,区域标识为数字。4个子区域的位置如下:子区域1位于左上,子区域2位于右上,子区域3位于左下,子区域4位于右下。用户首次输入的语音命令为“对子区域1进行点击”,此时将解析出子区域的标识为子区域“1”,操作类型为“点击”。在生成移动终端所能够执行的操作命令之前,将首先确定出子区域1的坐标位置,并确定子区域1的上半部分,之后得到子区域1的中间位置,如果确定子区域1的中间位置不存在可操作对象,则提示用户调整栅格粒度。语音解析模块32将解析出粒度调整方式,由粒度调整模块将粒度为2×2(田字形分布)的栅格式界面调整为4×4,在显示调整后的栅格式界面时,其中每个子区域具有新的区域标识。

之后,将继续接收并解析用户基于调整后栅格式界面所输入的语音指令,确定在4×4的栅格式界面中需要执行操作的子区域和操作类型,并基于调整后4×4的栅格式界面确定所要操作的子区域中心坐标,进而生成操作指令。如果调整后4×4的栅格式界面中需要操作的子区域中心仍然不存在可以操作的对象,则可以提示用户进一步提高栅格式界面所划分子区域的数量。

通过根据用户的命令调整栅格粒度,能够让语音控制操作更加精确、合理,让语音控制操作能够适应多种不同设计风格的界面。例如,当界面中的按键分布较为密集的情况下,通过改变栅格的粒度,能够将语音控制准确地操作到其中的指定按键。

可选地,在一个没有详细示出的实施例中,如果解析得到的操作类型为滑动操作,且解析获取语音中所包含的起始点区域标识、结束点区域标识;则将近期与确定起始点区域标识所对应的子区域的第一中心点坐标和结束点区域标识所对应的子区域的第二中心点坐标,以及第一中心点坐标和第二中心点坐标之间的连线所经过的栅格式界面中的子区域;计算各个子区域的操作顺序并生成用于执行滑动操作的操作命令。例如,以图2所示的栅格式界面为例,假设用户输入的语音命令为从子区域1滑动至子区域4,则命令生成模块33将首先确定子区域1的中心点位置以及子区域4的中心点位置,并将子区域1作为起始点区域,将子区域4作为结束点区域,之后将计算从子区域1至子区域4所途经的子区域,包括子区域2和子区域3,得到子区域2和子区域3的中心点位置以及子区域1至子区域4这4个子区域的排列顺序,之后生成从子区域1依次经过子区域2和子区域3滑动至子区域4的滑动命令。

第十一实施例

根据本发明的第十一实施例,提供了一种语音控制的实现方法。

如图10所示,根据本实施例的语音控制的实现方法包括:

步骤s1001,接收到进入语音控制的指令后,在显示界面上以重叠方式显示栅格式界面,栅格式界面中包括多个子区域,每个子区域都显示有区域标识;

步骤s1002,对输入的语音命令进行解析,获取语音命令中所包含的操作类型和区域标识;在本实施例中,解析得到的操作类型为点击操作;

步骤s1003,将当前界面中与解析的区域标识对应的子区域的中心位置确定为执行点击操作的位置;

判断当前确定的位置是否存在可操作对象;如果判断结果为是,则执行步骤s1004和步骤s1005;否则执行步骤s1006和步骤s1007;

步骤s1004,生成操作命令,其中,该操作命令用于命令移动终端对当前界面中与解析获取的区域标识对应的子区域的中心位置进行符合上述操作类型的操作;

步骤s1005,执行生成的操作命令,其中,操作的执行位置需要根据新语音命令中的区域标识以及方位信息确定;

步骤s1006,提示重新输入语音命令,并对输入的新语音命令进行解析;

步骤s1007,在解析确定新语音命令中包含操作类型、区域标识以及方位信息的情况下,将当前界面中与区域标识对应的子区域中由上述方位信息所表示的位置确定为执行操作的位置,并返回执行上述判断步骤,确定该位置是否存在可操作对象;根据新语音命令生成移动终端能够执行的操作命令,上述方位信息用于表示在当前界面中与区域标识对应的子区域内执行操作的进一步位置。

例如,假设栅格式界面将当前界面划分为“田”字形分布的4个子区域,区域标识为数字,子区域1位于左上,子区域2位于右上,子区域3位于左下,子区域4位于右下。新语音命令为“对子区域1的上部进行点击”,此时语音解析模块32将解析出子区域的标识为区域“1”,操作类型为“点击”,方位信息为“上部”。命令生成模块33将首先确定出子区域1的坐标位置,并确定子区域1的上半部分,之后得到子区域1上半部分的中间位置,在确定该位置存在可操作对象的情况下,生成操作命令,操作命令用于对子区域1的上半部分的中心位置进行点击操作。

应当注意的是,上述以“上部”为例,说明了方位信息。实际上,方位信息可以更加具体,例如,可以是左上部,右下部等,并不限于以上具体情况。

通过根据方位信息进一步确定单个子区域内执行操作具体位置,能够让语音控制操作更加精确、合理,让语音控制操作能够适应多种不同设计风格的界面,即使当前界面内有些子区域内的按键分布较为密集,也可以通过这种方式进行准确操作。

第十二实施例

根据本发明的第十二实施例,提供了一种语音控制的实现方法。

如图11所示,根据本实施例的语音控制的实现方法包括:

步骤s1101,接收到进入语音控制的指令后,在显示界面上以重叠方式显示栅格式界面,栅格式界面中包括多个子区域,每个子区域都显示有区域标识;

步骤s1102,对输入的语音命令进行解析,判断语音命令是否为系统中预先配置的语音命令;如果判断结果为是,则直接执行该语音命令;否则,执行步骤s1103、步骤s1104和步骤s1105;

步骤s1103,得到语音命令中所包含的操作类型以及区域标识;

步骤s1104,根据解析结果生成移动终端能够执行的操作命令,其中,操作命令用于命令移动终端对当前界面中与解析的区域标识对应的区域进行符合上述操作类型的操作;

步骤s1105,执行生成的操作命令。

通过识别语音命令是否是系统中预先配置的命令,如果是预先配置的命令,则按照常规流程进行处理,而不基于栅格式界面进行操作,这样能够让本发明的方案与传统方案更好地兼容。

第十三实施例

在本实施例中,将结合具体应用场景描述本发明的技术方案。

可选地,在本实施例中,参照图12,本发明的技术方案可通过以下方式实现:

步骤s1201,在需要使用语音控制时,在终端屏幕上调出栅格。其中,在栅格的每一个空格上显示对应的数字,栅格可以通过简单语音控制进行放大和缩小,根据屏幕不一样,栅格默认大小不同。例如,对于1080*1920分辨率的屏幕,可以画出9*14条线,在屏幕上一共显示150个子区域,每个子区域按照从1到150显示对应的数字,这个子区域根据输入操作可以自由放大和缩小,需要操作的颗粒度小的时候栅格就密度大,在屏幕顶层的栅格子区域可以按语音要求自动显示和关闭,所有的栅格和数字显示都是以一种透明效果显示,不影响底层图像的查看(即,不会遮挡当前正在显示的界面)。

语音匹配包括两种情况:情况一,输入的语音为预置的固定语音(属于系统中预先配置好的语音命令),例如包括放大、缩小、上滑、下滑、左滑、右滑、返回、home、power键、音量增大、音量减小等固定语音命令,由系统统一处理这些固定语音;情况二,输入的语音为不固定规则的操作语音,不固定规则的操作语音包括两部分:操作规则和子区域,操作规则可以根据需要进行各种定制,如单击、双击、多点滑动等等;子区域是指屏幕栅格上显示的各个区域块数字。例如,输入的语音命令可以包括单击xxx、双击xxx、滑动xxx到yyy等等,其中xxx、yyy代表屏幕上栅格式界面所划分子区域(也称为区域块)的标识。

步骤s1202,在本实施例中,假设输入的语音命令为“单击xxx”

接下来,需要根据语音匹配结果,将对应的语音输入转换为终端可以执行的操作命令,对于上述情况一,固定规则的操作语音由系统直接执行。对于上述情况二,基于不固定规则的操作语音,执行步骤s1203,根据区域块xxx转化为对应的屏幕坐标,屏幕坐标取该子区域中心位置的(x,y)坐标点;

步骤s1204,根据该坐标位置生成并发出终端将要执行的命令:单击(x,y)。例如,以android系统为例,假设输入的语音命令为单击xxx,系统会采集xxx区域的最中心对应的屏幕坐标为(500,500),生成“单击(500,500)的命令”。对于上述坐标位置(500,500),可以采用下面指令:inputtap500500。

在移动终端的系统得到上述命令后,如果该子区域xxx的中心位置支持单击操作(即,坐标(x,y)处可以单击),则进行至步骤s1205,执行对应的单击操作,之后执行步骤s1206,退出栅格式界面;否则,需要返回步骤s1203,让用户重新输入语音命令。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1