一种语音控制的方法及对应的系统、终端设备与流程

文档序号：11289121阅读：269来源：国知局

本发明涉及终端设备控制
技术领域：
：，尤其涉及一种语音控制的方法及对应的系统、终端设备。
背景技术：
：：随着通信领域相关技术(特别是语音技术)的快速提升，语音技术正快速应用于移动电子设备中，目前语音技术实现的功能越来越多，为了提升产品的品味，很多产品都加入了语音控制的功能。然而，目前技术的语音控制中，如果用户想要使用语音控制功能，必须要打断当前终端设备正在运行任务，然后进入到单独的语音界面，之后再说语音指令。这样不仅给用户带来较差的用户体验，而且极大地限制了语音控制的应用场景。此外，也有这样的一种场景，通过先在终端设备上预置某些语音文件，并指定对应的功能，当用户输入的语音和预置的语音文件中的语音匹配时执行对应的功能。但是这种做法不但占用系统的内存，而且只能识别某些特定的语音，完成某些少数特定的功能，不仅不够智能，而且也限制了语音控制的使用范围。当然，也有更智能一点的做法，是在终端设备中预先预置一个文本文件，该文本文件中包含该终端设备支持的所有的文字形式的关键词，终端设备在接收到用户输入的语音时，将语音转换成文字，然后和文本中的关键词进行匹配，完成关键词对应的指令。该方法虽然在一定程度上给用户带来很大方便，但其支持的指令仍然有限的，当用户输出的语音超出预置关键词的范围时，则不支持语音控制，因此，该方法也是很不智能。技术实现要素：本发明的主要目的在于提出一种语音控制的方法及对应的系统、终端设备，旨在解决现有技术的语音控制的方法操作比较机械，完成功能有限，且大大限制语音控制的使用场景，从而给用户带来不好体验感的技术问题。为实现上述目的，本发明提供的一种语音控制的方法，该方法包括以下步骤：通过语音录入模块对用户输入的语音进行录入，并通过语音转换模块将录入的语音转换成文字指令；将文字指令与预存的动作关键词集进行匹配，以获取待操作指令动词；遍历搜索由用户打开的当前待语音控制界面中的所有信息，并将文字指令与当前待语音控制界面中的所有信息进行匹配，以获取待操作指令名词；将获取的待操作指令动词和待操作指令名词组成待操作指令，并根据待操作指令完成相应的语音控制。优选地，将文字指令与预存的动作关键词集进行匹配，以获取待操作指令动词具体包括：当文字指令仅匹配到预存的动作关键词集中的一个关键词时，则该关键词为待操作指令动词；当文字指令未匹配到预存的动作关键词集中的任何一个关键词时，则将预设的默认关键词作为待操作指令动词。优选地，将文字指令与当前待语音控制界面中的所有信息进行匹配，以获取待操作指令名词具体包括：将文字指令与当前待语音控制界面中的各个视图对应的文字以及各个按钮对应的文字进行匹配，当文字指令匹配到当前待语音控制界面中的某一个视图或某一个按钮，则该视图或按钮为待操作指令名词。优选地，所述语音控制的方法还包括：当文字指令未匹配到当前待语音控制界面中的某一个视图或某一个按钮时，遍历搜索终端设备中其它界面的各个视图对应的文字，以及各个按钮对应的文字，当文字指令匹配到其它界面中的某一个视图或某一个按钮，则该视图或按钮为待操作指令名词。优选地，所述语音控制的方法还包括：当文字指令匹配到预存的动作关键词集中的两个或两个以上关键词时，结束流程。为实现上述目的，本发明还提供了一种语音控制的系统，该系统包括：文字指令生成模块，用于通过语音录入模块对用户输入的语音进行录入，并通过语音转换模块将录入的语音转换成文字指令；第一获取模块，用于将文字指令与预存的动作关键词集进行匹配，以获取待操作指令动词；第二获取模块，用于遍历搜索由用户打开的当前待语音控制界面中的所有信息，并将文字指令与当前待语音控制界面中的所有信息进行匹配，以获取待操作指令名词；以及操作指令生成模块，用于将获取的待操作指令动词和待操作指令名词组成待操作指令，并根据待操作指令完成相应的语音控制。优选地，第一获取模块包括：第一待操作指令动词获取单元，用于当文字指令仅匹配到预存的动作关键词集中的一个关键词时，则该关键词为待操作指令动词；第二待操作指令动词获取单元，用于当文字指令未匹配到预存的动作关键词集中的任何一个关键词时，则将预设的默认关键词作为待操作指令动词。优选地，第二获取模块包括：第一待操作指令名词获取单元，用于将文字指令与当前待语音控制界面中的各个视图对应的文字以及各个按钮对应的文字进行匹配，当文字指令匹配到当前待语音控制界面中的某一个视图或某一个按钮，则该视图或按钮为待操作指令名词。优选地，所述语音控制的系统还包括：结束流程模块，用于当文字指令匹配到预存的动作关键词集中的两个或两个以上关键词时，结束流程。为实现上述目的，本发明还提供了一种终端设备，包括上述任一项所述的语音控制的系统。本发明提出的语音控制的方法及对应的系统、终端设备，通过语音录入模块先把语音录入到终端中，再把语音转换成文字，再把转换后的文字中，分两步识别，第一步识别其中的动词(比如打开、关闭、进入、返回)，第二步通过该文字查找终端设备中当前界面的视图，如果视图上的文字包含在语音转换的文字中，就表示要对当前视图进行操作。这样就得到了完整的终端设备可识别的操作指令(比如：打开照相机)，从而便完成相应的语音操作。本发明可以在任何界面操作任何一个有文字描述的视图，使语音能够控制终端设备上的每一个带文字描述的视图，从而使得指令不单单是少量的关键词，进而大大提高了语音控制的使用场景，即大大地提升了用户体验感。附图说明图1为实现本发明各个实施例的移动终端设备的硬件结构示意图；图2为如图1所示的移动终端设备的无线通信系统示意图；图3为本发明语音控制的方法提出的第一实施例的方法流程图；图4为本发明语音控制的方法提出的第二实施例的方法流程图；图5为本发明语音控制的方法提出的第三实施例的方法流程图；图6为本发明语音控制的系统提出的第四实施例的结构框图；图7为本发明语音控制的系统提出的第五实施例的结构框图。本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。具体实施方式应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。终端设备可以以各种形式来实施。例如，本发明中描述的终端设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(personaldigitalassistant，pda)、便捷式媒体播放器(portablemediaplayer，pmp)、导航装置、可穿戴设备、智能手环、计步器等移动终端设备，以及诸如数字tv、台式计算机等固定终端设备。后续描述中将以移动终端设备为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端设备。请参阅图1，其为实现本发明各个实施例的一种移动终端设备的硬件结构示意图，该移动终端设备100可以包括：rf(radiofrequency，射频)单元101、wifi模块102、音频输出单元103、a/v(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图1中示出的移动终端设备结构并不构成对移动终端设备的限定，移动终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。下面结合图1对移动终端设备的各个部件进行具体的介绍：射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于gsm(globalsystemofmobilecommunication，全球移动通讯系统)、gprs(generalpacketradioservice，通用分组无线服务)、cdma2000(codedivisionmultipleaccess2000，码分多址2000)、wcdma(widebandcodedivisionmultipleaccess,宽带码分多址)、td-scdma(timedivision-synchronouscodedivisionmultipleaccess，时分同步码分多址)、fdd-lte(frequencydivisionduplexing-longtermevolution，频分双工长期演进)和tdd-lte(timedivisionduplexing-longtermevolution，分时双工长期演进)等。wifi属于短距离无线传输技术，移动终端设备通过wifi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了wifi模块102，但是可以理解的是，其并不属于移动终端设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。音频输出单元103可以在移动终端设备100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或wifi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与移动终端设备100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。a/v输入单元104用于接收音频或视频信号。a/v输入单元104可以包括图形处理器(graphicsprocessingunit，gpu)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或wifi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。移动终端设备100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在移动终端设备100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(liquidcrystaldisplay，lcd)、有机发光二极管(organiclight-emittingdiode,oled)等形式来配置显示面板1061。用户输入单元107可用于接收输入的数字或字符信息，以及产生与移动终端设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，并能接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。进一步的，触控面板1071可覆盖显示面板1061，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中，触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端设备的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现移动终端设备的输入和输出功能，具体此处不做限定。接口单元108用作至少一个外部装置与移动终端设备100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(i/o)端口、视频i/o端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端设备100内的一个或多个元件或者可以用于在移动终端设备100和外部装置之间传输数据。存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的视图(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。处理器110是移动终端设备的控制中心，利用各种接口和线路连接整个移动终端设备的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行移动终端设备的各种功能和处理数据，从而对移动终端设备进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和视图等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。移动终端设备100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。尽管图1未示出，移动终端设备100还可以包括蓝牙模块等，在此不再赘述。为了便于理解本发明实施例，下面对本发明的移动终端设备所基于的通信网络系统进行描述。请参阅图2，图2为本发明实施例提供的一种通信网络系统架构图，该通信网络系统为通用移动通信技术的lte系统，该lte系统包括依次通讯连接的ue(userequipment，用户设备)201，e-utran(evolvedumtsterrestrialradioaccessnetwork，演进式umts陆地无线接入网)202，epc(evolvedpacketcore，演进式分组核心网)203和运营商的ip业务204。具体地，ue201可以是上述终端设备100，此处不再赘述。e-utran202包括enodeb2021和其它enodeb2022等。其中，enodeb2021可以通过回程(backhaul)(例如x2接口)与其它enodeb2022连接，enodeb2021连接到epc203，enodeb2021可以提供ue201到epc203的接入。epc203可以包括mme(mobilitymanagemententity，移动性管理实体)2031，hss(homesubscriberserver，归属用户服务器)2032，其它mme2033，sgw(servinggateway，服务网关)2034，pgw(pdngateway，分组数据网络网关)2035和pcrf(policyandchargingrulesfunction，政策和资费功能实体)2036等。其中，mme2031是处理ue201和epc203之间信令的控制节点，提供承载和连接管理。hss2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能，并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过sgw2034进行发送，pgw2035可以提供ue201的ip地址分配以及其它功能，pcrf2036是业务数据流和ip承载资源的策略与计费控制策略决策点，它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。ip业务204可以包括因特网、内联网、ims(ipmultimediasubsystem，ip多媒体子系统)或其它ip业务等。虽然上述以lte系统为例进行了介绍，但本领域技术人员应当知晓，本发明不仅仅适用于lte系统，也可以适用于其他无线通信系统，例如gsm、cdma2000、wcdma、td-scdma以及未来新的网络系统等，此处不做限定。基于上述移动终端设备硬件结构以及通信网络系统，提出本发明方法各个实施例。本发明提出的一种语音控制的方法，应用于终端设备(移动终端设备)中，通过语音录入模块先把语音录入到终端中，再把语音转换成文字，再把转换后的文字中，分两步识别，第一步识别其中的动词(比如打开、关闭、进入、返回)，第二步通过该文字查找终端设备中当前界面的视图，如果视图上的文字包含在语音转换的文字中，就表示要对当前视图进行操作。这样就得到了完整的终端设备可识别的操作指令(比如：打开照相机)，从而便完成相应的语音操作。本发明可以在任何界面操作任何一个有文字描述的视图，使语音能够控制终端设备上的每一个带文字描述的视图，从而使得指令不单单是少量的关键词，进而大大提高了语音控制的使用场景，即大大地提升了用户体验感。实施例一如图3所示，本发明语音控制的方法提出的第一实施例的方法流程图，该方法包括以下步骤：s300，通过语音录入模块对用户输入的语音(如“打开照相机拍照”)进行录入，并通过语音转换模块将录入的语音转换成文字指令(如“打开照相机拍照”)。上述语音录入模块的功能是将录入的语音转换成文字指令，其可采用现有技术的功能模块实现，且基本原理是将人的话音转换成声音信号，经过特殊处理，与计算机中已存储的已有声音信号进行比较，然后反馈出识别的结果。上述语音转换模块的功能是将录入的语音转换成文字指令，其可采用现有技术的功能模块实现，且基本原理是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。其主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。s301，将文字指令与预存的动作关键词集进行匹配，且当文字指令仅匹配到预存的动作关键词集中的一个关键词(如“打开”)时，则该关键词为待操作指令动词(如“打开”)。该步骤s301中，所述预存的动作关键词集是指预先存储在终端设备中的一些动作关键词，例如包括打开、关闭、进入和返回等，当然包含且不限于这些关键词，在此不做一一例举。优选地，根据用户需求，还可对预存的动作关键词集中包含的关键词进行增加并更新，以进一步提高了语音控制的使用场景。具体实施中，所述当前待语音控制界面中的所有信息包括所有视图对应的文字，以及所有按钮对应的文字，当然还包括当前待语音控制界面中的其它触控键对应的文字，在此不做一一例举。s302，遍历搜索由用户打开的当前待语音控制界面(如launcher桌面界面)中的所有信息，并将文字指令与当前待语音控制界面中的所有信息进行匹配，且当文字指令匹配到当前待语音控制界面中的某一个视图(如“照相机”对应的视图)，则该视图为待操作指令名词；可以理解的是，当文字指令匹配到当前待语音控制界面中的某一个按钮或其它某一个触控键时，则该按钮或触控键为待操作指令名词。s303，将获取的待操作指令动词和待操作指令名词组成待操作指令(如“打开照相机拍照”)，并根据待操作指令完成相应的语音控制，如打开照相机程序。该实施例一通过语音录入模块先把语音录入到终端中，再把语音转换成文字，再把转换后的文字中，分两步识别，第一步识别其中的动词(比如打开、关闭、进入、返回)，第二步通过该文字查找终端设备中当前界面的视图，如果视图上的文字包含在语音转换的文字中，就表示要对当前视图进行操作。这样就得到了完整的终端设备可识别的操作指令(比如：打开照相机)，从而便完成相应的语音操作。本发明可以在任何界面操作任何一个有文字描述的视图，使语音能够控制终端设备上的每一个带文字描述的视图，从而使得指令不单单是少量的关键词，进而大大提高了语音控制的使用场景，即大大地提升了用户体验感。实施例二如图4所示，本发明语音控制的方法提出的第二实施例的方法流程图。实施例二与实施例一的技术方案基本相似，区别在于，实施例二还包括步骤s403，即当文字指令未匹配到当前待语音控制界面中的某一个视图或按钮时，遍历搜索终端设备中其它界面的各个视图的文字以及各个按钮上的文字，当文字指令匹配到其它界面中的某一个视图(如“支付宝视图”)，则该视图(如“支付宝视图”)为待操作指令名词。这样使得本实施例的语音控制方法更智能，不仅限于用户打开的当前待语音控制界面，还包括操作终端设备的其它界面，从而进一步增加了用户的使用体验感。实施例二的语音控制的方法包括以下步骤：s400，通过语音录入模块对用户输入的语音(如“关闭支付宝视图”)进行录入，并通过语音转换模块将录入的语音转换成文字指令(如“关闭支付宝视图”)。该步骤s400中语音录入模块和语音转换模块所实现的功能与本发明实施例一的功能相同，如其可采用现有技术的功能模块实现，在此不做重复说明。s401，将文字指令(如“关闭支付宝视图”)与预存的动作关键词集进行匹配，且当文字指令仅匹配到预存的动作关键词集中的一个关键词(如“关闭”)时，则该关键词为待操作指令动词(如“关闭”)。该步骤s401中，所述预存的动作关键词集是指预先存储在终端设备中的一些动作关键词，例如包括打开、关闭、进入和返回等，当然包含且不限于这些关键词，在此不做一一例举。优选地，根据用户需求，还可对预存的动作关键词集中包含的关键词进行增加并更新，以进一步提高了语音控制的使用场景。具体实施中，所述当前待语音控制界面中的所有信息包括所有视图对应的文字，以及所有按钮对应的文字，当然还包括当前待语音控制界面中的其它触控键对应的文字，在此不做一一例举。s402，遍历搜索由用户打开的当前待语音控制界面(如微信视图操作界面)中的所有信息，并将文字指令与当前待语音控制界面中的所有信息进行匹配；s403，当文字指令未匹配到当前待语音控制界面中的某一个视图或按钮时，遍历搜索终端设备中其它界面的各个视图的文字以及各个按钮上的文字，当文字指令匹配到其它界面中的某一个视图(如“支付宝视图”)，则该视图(如“支付宝视图”)为待操作指令名词。可以理解的是，当文字指令匹配到其它界面中的某一个按钮或其它某一个触控键时，则该按钮或触控键为待操作指令名词。s404，将获取的待操作指令动词和待操作指令名词组成待操作指令(如“关闭支付宝视图”)，并根据待操作指令完成相应的语音控制，如关闭支付宝视图。该实施例二通过语音录入模块先把语音录入到终端中，再把语音转换成文字，再把转换后的文字中，分两步识别，第一步识别其中的动作关键词，第二步通过该文字查找终端设备中当前界面和/或终端设备的其它界面中的视图，如果视图上的文字包含在语音转换的文字中，就表示要对当前视图进行操作。这样就得到了完整的终端设备可识别的操作指令，从而便完成相应的语音操作。本发明实施例的语音控制方法不仅限于用户打开的当前待语音控制界面，还包括终端设备的其它界面，从而进一步增加了用户的使用体验感。实施例三如图5所示，本发明语音控制的方法提出的第三实施例方法流程图，实施例三与实施例一基本相似，区别在于，实施例三包括的步骤s501和实施例一包括的步骤s301不同。本实施例三的语音控制的方法包括以下步骤：s500，通过语音录入模块对用户输入的语音(如“打开ue浏览器”)进行录入，并通过语音转换模块将录入的语音转换成文字指令(如“打开ue浏览器”)。该步骤s500中语音录入模块和语音转换模块所实现的功能与本发明实施例一、实施例二的功能相同，如其可采用现有技术的功能模块实现，在此不做重复说明。s501，将文字指令与预存的动作关键词集进行匹配，且当文字指令未匹配到预存的动作关键词集中的任何一个关键词，则将预设的默认关键词(如“打开”)作为待操作指令动词；具体地，所述预设的默认关键词可由设计人员自由设定，例如其可为“打开”或“关闭”，当然还可以为其它动作关键词，且预设的默认关键词还可定时进行更新，以更加符合用户需求。在此需说明的是，当文字指令匹配到预存的动作关键词集中的两个或两个以上关键词(如“打开”和“关闭”)时，此时说明用户输入的语音为无效指令，结束流程。该步骤s501中，所述预存的动作关键词集是指预先存储在终端设备中的一些动作关键词，例如包括打开、关闭、进入和返回等，当然包含且不限于这些关键词，在此不做一一例举。优选地，根据用户需求，还可对预存的动作关键词集中包含的关键词进行增加并更新，以进一步提高了语音控制的使用场景。具体实施中，所述当前待语音控制界面中的所有信息包括所有视图对应的文字，以及所有按钮对应的文字，当然还包括当前待语音控制界面中的其它触控键对应的文字，在此不做一一例举。s502，遍历搜索由用户打开的当前待语音控制界面(如launcher桌面界面)中的所有信息，并将文字指令与当前待语音控制界面中的所有信息进行匹配，且当文字指令匹配到当前待语音控制界面中的某一个视图(如“ue浏览器”对应的视图)，则该视图为待操作指令名词(如“ue浏览器”对应的视图)；s503，将获取的待操作指令动词和待操作指令名词组成待操作指令(如“打开ue浏览器”)，并根据待操作指令完成相应的语音控制，如打开ue浏览器。在此需说明的是，当文字指令匹配到预存的动作关键词集中的两个或两个以上关键词(如“打开”和“关闭”)时，此时说明用户输入的语音为无效指令，结束流程。同理，当在上述步骤s502中，文字指令匹配到当前待语音控制界面中的某一个视图(如“ue浏览器”对应的视图或“图片”对应视图)，此时说明用户输入的语音为无效指令，结束流程。该实施例三通过语音录入模块先把语音录入到终端中，再把语音转换成文字，再把转换后的文字中，分两步识别，第一步识别其中的动词(比如打开、关闭、进入、返回)，第二步通过该文字查找终端设备中当前界面的视图，如果视图上的文字包含在语音转换的文字中，就表示要对当前视图进行操作。这样就得到了完整的终端设备可识别的操作指令(比如：打开ue浏览器)，从而便完成相应的语音操作。本发明可以在任何界面操作任何一个有文字描述的视图，使语音能够控制终端设备上的每一个带文字描述的视图，从而使得指令不单单是少量的关键词，进而大大提高了语音控制的使用场景，即大大地提升了用户体验感。本发明还提出了一种语音控制的系统，该系统应用于终端设备(如移动终端设备)，下面通过具体实施例详细阐述该系统的工作原理。实施例四如图6所示，本发明语音控制的系统提出了第四实施例的结构框图，该系统包括：文字指令生成模块600，用于通过语音录入模块对用户输入的语音(如“打开照相机拍照”)进行录入，并通过语音转换模块将录入的语音转换成文字指令(如“打开照相机拍照”)；该文字指令生成模块600中语音录入模块和语音转换模块所实现的功能与本发明上述语音控制的方法的功能相同，如其可采用现有技术的功能模块实现，在此不做重复说明。第一获取模块601，用于将文字指令与预存的动作关键词集进行匹配，且当文字指令仅匹配到预存的动作关键词集中的一个关键词(如“打开”)时，则该关键词为待操作指令动词(如“打开”)；该第一获取模块601中，所述预存的动作关键词集是指预先存储在终端设备中的一些动作关键词，例如包括打开、关闭、进入和返回等，当然包含且不限于这些关键词，在此不做一一例举。优选地，根据用户需求，还可对预存的动作关键词集中包含的关键词进行增加并更新，以进一步提高了语音控制的使用场景。第二获取模块602，用于遍历搜索由用户打开的当前待语音控制界面(如launcher桌面界面)中的所有信息，并将文字指令与当前待语音控制界面中的所有信息进行匹配，且当文字指令匹配到当前待语音控制界面中的某一个视图(如“照相机”对应的视图)，则该视图为待操作指令名词；以及操作指令生成模块603，用于将获取的待操作指令动词和待操作指令名词组成待操作指令(如“打开照相机拍照”)，并根据待操作指令完成相应的语音控制，如打开照相机拍照。本实施例四通过语音录入模块先把语音录入到终端中，再把语音转换成文字，再把转换后的文字中，分两步识别，第一步识别其中的动词(比如打开、关闭、进入、返回)，第二步通过该文字查找终端设备中当前界面的视图，如果视图上的文字包含在语音转换的文字中，就表示要对当前视图进行操作。这样就得到了完整的终端设备可识别的操作指令(比如：打开照相机)，从而便完成相应的语音操作。本发明可以在任何界面操作任何一个有文字描述的视图，使语音能够控制终端设备上的每一个带文字描述的视图，从而使得指令不单单是少量的关键词，进而大大提高了语音控制的使用场景，即大大地提升了用户体验感。实施例五如图7所示，本发明语音控制的系统提出了第五实施例的结构框图。实施例五与实施例四基本相似，区别在于，实施例五还包括搜索模块702，且实施例五的第二获取模块703与实施例四的第二获取模块602所执行的功能不同。本实施例五的语音控制的系统包括：文字指令生成模块700，用于通过语音录入模块对用户输入的语音(如“关闭支付宝视图”)进行录入，并通过语音转换模块将录入的语音转换成文字指令(如“关闭支付宝视图”)。该文字指令生成模块700中语音录入模块和语音转换模块所实现的功能与本发明实施例一的功能相同，如其可采用现有技术的功能模块实现，在此不做重复说明。第一获取模块701，用于将文字指令(如“关闭支付宝视图”)与预存的动作关键词集进行匹配，且当文字指令仅匹配到预存的动作关键词集中的一个关键词(如“关闭”)时，则该关键词为待操作指令动词(如“关闭”)。该第一获取模块701中，所述预存的动作关键词集是指预先存储在终端设备中的一些动作关键词，例如包括打开、关闭、进入和返回等，当然包含且不限于这些关键词，在此不做一一例举。优选地，根据用户需求，还可对预存的动作关键词集中包含的关键词进行增加并更新，以进一步提高了语音控制的使用场景。具体实施中，所述当前待语音控制界面中的所有信息包括所有视图对应的文字，以及所有按钮对应的文字，当然还包括当前待语音控制界面中的其它触控键对应的文字，在此不做一一例举。搜索模块702，用于遍历搜索由用户打开的当前待语音控制界面(如微信视图操作界面)中的所有信息，并将文字指令与当前待语音控制界面中的所有信息进行匹配；第二获取模块703，用于当文字指令未匹配到当前待语音控制界面中的某一个视图或按钮时，遍历搜索终端设备中其它界面的各个视图的文字以及各个按钮上的文字，当文字指令匹配到其它界面中的某一个视图(如“支付宝视图”)，则该视图(如“支付宝视图”)为待操作指令名词。操作指令生成模块704，用于将获取的待操作指令动词和待操作指令名词组成待操作指令(如“关闭支付宝视图”)，并根据待操作指令完成相应的语音控制，如关闭支付宝视图。本实施例五通过语音录入模块先把语音录入到终端中，再把语音转换成文字，再把转换后的文字中，分两步识别，第一步识别其中的动作关键词，第二步通过该文字查找终端设备中当前界面和/或终端设备的其它界面中的视图，如果视图上的文字包含在语音转换的文字中，就表示要对当前视图进行操作。这样就得到了完整的终端设备可识别的操作指令，从而便完成相应的语音操作。本发明实施例五的语音控制方法不仅限于用户打开的当前待语音控制界面，还包括终端设备的其它界面，从而进一步增加了用户的使用体验感。本发明还提供了一种终端设备，该终端设备包括上述任一实施例的语音控制的系统。所述终端设备可为移动终端、掌上电脑等其它智能终端设备，在此不做一一例举。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王毅
技术所有人：努比亚技术有限公司
我是此专利的发明人

上一篇：选择性会议摘要的制造方法与工艺
上一篇：在掩蔽语音区域中掩蔽再现语音的语音再现设备的制造方法与工艺