语音输入的实现方法、装置及终端的制作方法

文档序号：6506988阅读：456来源：国知局

语音输入的实现方法、装置及终端的制作方法
【专利摘要】本发明公开了一种语音输入的实现方法、装置及终端，监控到有语音输入时，识别指令库中是否存在与输入语音相匹配的指令语音；在指令库中存在与输入语音相匹配的指令语音时，执行与输入语音相匹配的指令语音所映射的功能；在指令库中不存在与输入语音相匹配的指令语音时，启动语音输入法程序，并获取输入语音对应的文本信息；本发明实施例具有自动切换至语音输入法的有益效果；提高了人机的可交互性，丰富了终端的功能；进一步地，终端也可以通过比对用户的触控轨迹来启动语音输入法，使终端更具智能性。
【专利说明】语音输入的实现方法、装置及终端

【技术领域】
[0001] 本发明涉及语音识别技术，还涉及输入法领域，尤其涉及一种语音输入的实现方法、装置及终端。

【背景技术】
[0002] 目前终端上的大部分输入法均支持语音输入的功能，终端还同时支持手写输入法和拼音输入法等各输入法之间的相互切换；但目前由手写输入法或者拼音输入法或者其他输入法切换至语音输入法时，均需用户手动切换，终端不具备由其他输入法自动切换至语音输入法的功能。

【发明内容】

[0003] 鉴于此，有必要提供一种语音输入的实现方法、装置及终端，使终端能够由其他输入法自动切换至语音输入法。
[0004] 本发明实施例公开了一种语音输入的实现方法，包括以下步骤：
[0005] 监控到有语音输入时，识别指令库中是否存在与输入语音相匹配的指令语音；
[0006] 在所述指令库中存在与所述输入语音相匹配的指令语音时，执行与所述输入语音相匹配的指令语音所映射的功能；
[0007] 在所述指令库中不存在与所述输入语音相匹配的指令语音时，启动语音输入法程序，并获取所述输入语音对应的文本信息。
[0008] 本发明实施例还公开了一种语音输入的实现装置，包括：
[0009] 语音识别模块，用于监控到有语音输入时，识别指令库中是否存在与输入语音相匹配的指令语音；
[0010] 功能执行模块，用于在所述指令库中存在与所述输入语音相匹配的指令语音时，执行与所述输入语音相匹配的指令语音所映射的功能；
[0011] 语音输入模块，用于在所述指令库中不存在与所述输入语音相匹配的指令语音时，启动语音输入法程序，并获取所述输入语音对应的文本信息。
[0012] 本发明实施例还公开了一种终端；所述终端包括所述语音输入的实现装置；所述语音输入的实现装置包括：
[0013] 语音识别模块，用于监控到有语音输入时，识别指令库中是否存在与输入语音相匹配的指令语音；
[0014] 功能执行模块，用于在所述指令库中存在与所述输入语音相匹配的指令语音时，执行与所述输入语音相匹配的指令语音所映射的功能；
[0015] 语音输入模块，用于在所述指令库中不存在与所述输入语音相匹配的指令语音时，启动语音输入法程序，并获取所述输入语音对应的文本信息。
[0016] 本发明实施例监控到有语音输入时，识别指令库中是否存在与输入语音相匹配的指令语音；在指令库中存在与输入语音相匹配的指令语音时，执行与输入语音相匹配的指令语音所映射的功能；在指令库中不存在与输入语音相匹配的指令语音时，启动语音输入法程序，并获取输入语音对应的文本信息；相较于现有技术中，每次需要语音输入法均需用户手动进行切换的方法，本发明实施例具有自动切换至语音输入法的有益效果；同时，由于在监控到有语音输入时，终端可以根据用户自定义的指令库中存储的指令语音映射的功能，执行输入语音映射的功能，提高了人机的可交互性，丰富了终端的功能；进一步地，终端也可以通过比对用户的触控轨迹来启动语音输入法，使终端更具智能性。

【专利附图】

【附图说明】
[0017] 图1是本发明语音输入的实现方法第一实施例流程示意图；
[0018] 图2是本发明语音输入的实现方法中启动语音输入法程序，并获取输入语音对应的文本信息一实施例流程示意图；
[0019] 图3是本发明语音输入的实现方法第二实施例流程示意图；
[0020] 图4是本发明语音输入的实现方法第三实施例流程示意图；
[0021] 图5是本发明语音输入的实现装置第一实施例功能模块示意图；
[0022] 图6是本发明语音输入的实现装置第二实施例功能模块示意图；
[0023] 图7是本发明语音输入的实现装置第三实施例功能模块示意图；
[0024] 图8是本发明终端一实施例功能模块示意图。
[0025] 本发明实施例目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

【具体实施方式】
[0026] 以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0027] 图1是本发明语音输入的实现方法第一实施例流程示意图；如图1所示，本发明语音输入的实现方法包括以下步骤：
[0028] 步骤S01、监控到有语音输入时，识别指令库中是否存在与输入语音相匹配的指令语音；若是，则执行步骤S02 ;若否，则执行步骤S03 ;
[0029] 步骤S02、执行与所述输入语音相匹配的指令语音所映射的功能；
[0030] 步骤S03、启动语音输入法程序，并获取所述输入语音对应的文本信息。
[0031] 在终端基于语音监控程序监控到有语音输入时，终端接收输入的语音，并查找预先存储的指令库，识别该指令库中是否存在与输入语音相匹配的指令语音。本实施例中，所述指令库是终端根据用户触发的操作请求所存储的用户自定义的指令，且该指令库中存储的是用户输入的指令语音及各指令语音所映射的功能；一旦终端在指令库中能够找到与输入语音相匹配的指令语音，则终端执行与输入语音相匹配的指令语音所映射的功能。在一优选的实施例中，当终端识别出与输入语音相匹配的指令语音所映射的功能为开启语音录入时，终端直接启动语音输入法程序，并采用语音输入法进行后续的输入操作。
[0032] 在一优选的实施例中，终端利用区分关键字的方法识别指令库中是否能够找到与输入语音相匹配的指令语音。本实施例中，仅以一种具体的情况进行描述，由于终端根据用户自定义指令库进行识别指令语音的方式有很多种，因此，本实施例不对其进行一一穷举。
[0033] 以输入语音中包括的关键字为多加一个"请"字为例，进行具体描述。以手机为例，比如，手机监控到输入的语音为"请关闭手机或调成静音状态"，由于该输入语音中只包含了一个"请"字，因此终端不会将其识别为指令语音，因为关键字需要多加一个"请"即包含两个"请";因此，手机监控到输入语音为"请关闭手机或调成静音状态"，将输出文本信息 "请关闭手机或调成静音状态"或者与该语句谐音或者类似的其他文本信息。当手机监控到输入的语音为"请请关闭手机或调成静音状态"，此时终端识别出该输入语音中包括了关键字"请请"，因此识别出该输入语句能够与指令库中的指令语音"关闭手机或调成静音状态" 相匹配，此时，手机根据该指令语音"关闭手机或调成静音状态"映射的功能，执行对应关闭手机或者调整静音状态的操作；若手机存储的用户自定义的指令库中，指令语音"关闭手机或调成静音状态"所映射的功能为"调成静音状态"，则手机自动调整自身状态为静音状态。 [0034] 本实施例仅以关键字多加一个"请"字进行具体描述，终端当然可以根据用户自定义的指令库将其他字或者词语作为关键字，本实施例不进行一一穷举。
[0035] 当终端在指令库中不能够找到与输入语音相匹配的指令语音时，终端启动语音输入法程序；即不管终端当前正在运行的是何种输入法如拼音输入法、手写输入法等，均将当前正在运行的输入法切换至语音输入法，并获取输入语音对应的文本信息；若终端当前正在运行的输入法就是语音输入法，则终端直接启动并运行语音输入法程序，获取输入语音对应的文本信息。通常情况下，终端根据输入语音获取到的对应文本信息不止一条，本实施例中，终端可以将获取的所有文本信息一起显示并作为候选项，供用户选择。
[0036] 在一优选的实施例中，当终端启动语音输入法程序、处于语音输入法状态下时，若终端监控到有语音输入，则根据识别出的指令库中与输入语音匹配的指令语音映射的功能，执行相应操作；比如，终端监控到指令库中映射功能为朗读文本信息的指令语音输入时，调用终端的朗诵功能如TTS (Text To Speech，从文本到语音）等，朗读显示的文本信息，以便于用户选择确认；比如，终端监控到指令库中映射功能为移动光标至预设位置的指令语音输入时，移动语音输入法界面上的光标至所述预设位置等；通过输入语音来控制终端的相应功能，提高了人机的可交互性和终端的智能性。
[0037] 图2是本发明语音输入的实现方法中启动语音输入法程序，并获取输入语音对应的文本信息一实施例流程示意图；如图2所示，本发明语音输入的实现方法中，步骤S03、启动语音输入法程序，并获取所述输入语音对应的文本信息，包括：
[0038] 步骤SI 1、启动语音输入法程序，获取所述输入语音，将所述输入语音进行模数转换得到转换后的语音数据；
[0039] 终端启动语音输入法程序，获取输入语音，并将获取的输入语音通过模数转化得到的语音信号，并将语音信号打包成一包一包的语音数据进行传输。
[0040] 步骤S12、调用语音接口，通过所述语音接口将所述语音数据上传至服务器；
[0041] 终端调用语音接口，所述语音接口可以为谷歌云或者腾讯云等提供的语音接口，通过上述语音接口，将所述语音数据发送至云服务器。
[0042] 步骤S13、接收并解析服务器根据所述语音数据返回的文本信息，在语音输入法界面显示所述文本信息。
[0043] 云服务器接收终端发送语音数据，对上述语音数据进行解析、匹配等数据处理，得到处理后的文本数据，并将处理后的文本数据发送至终端；终端接收云服务器返回的文本数据，并对上述文本数据进行解析，得到对应的文本信息，并将得到的文本信息显示在语音输入法界面上，供用户选择。
[0044] 本发明实施例监控到有语音输入时，识别指令库中是否存在与输入语音相匹配的指令语音；在指令库中存在与输入语音相匹配的指令语音时，执行与输入语音相匹配的指令语音所映射的功能；在指令库中不存在与输入语音相匹配的指令语音时，启动语音输入法程序，并获取输入语音对应的文本信息；具有自动切换至语音输入法的有益效果；同时，由于在监控到有语音输入时，终端可以根据用户自定义的指令库中存储的指令语音映射的功能，执行输入语音映射的功能，提高了人机的可交互性，丰富了终端的功能。
[0045] 图3是本发明语音输入的实现方法第二实施例流程示意图；本实施例与图1所述实施例的区别是，在步骤S01、监控到有语音输入时，识别指令库中是否存在与输入语音相匹配的指令语音，之前增加了：
[0046] 步骤S101、响应用户设置指令语音的操作请求，建立指令语音与各指令语音映射功能的指令库；
[0047] 步骤S102、调用默认输入法程序，同时启动语音监控程序。
[0048] 本实施例仅对步骤SlOl和步骤S102进行具体描述，有关本发明语音输入的实现方法所涉及的其他步骤请参照相关实施例的具体描述，在此不再赘述。
[0049] 本实施例中，用户可以自定义指令语音，终端响应用户设置指令语音的操作请求，建立用户输入的指令语音与各指令语音映射功能的指令库。终端根据用户的操作请求，创建的一具体指令库包括但不限于如下情况：
[0050]

【权利要求】
1. 一种语音输入的实现方法，其特征在于，包括w下步骤：监控到有语音输入时，识别指令库中是否存在与输入语音相匹配的指令语音；在所述指令库中存在与所述输入语音相匹配的指令语音时，执行与所述输入语音相匹配的指令语音所映射的功能；在所述指令库中不存在与所述输入语音相匹配的指令语音时，启动语音输入法程序，并获取所述输入语音对应的文本信息。
2. 如权利要求1所述的方法，其特征在于，所述监控到有语音输入时，识别指令库中是否存在与输入语音相匹配的指令语音，之前还包括：响应用户设置指令语音的操作请求，建立指令语音与各指令语音映射功能的指令库；调用默认输入法程序，同时启动语音监控程序。
3. 如权利要求1或2所述的方法，其特征在于，所述执行与所述输入语音相匹配的指令语音所映射的功能，包括：在所述指令语音所映射的功能为开启语音录入时，启动语音输入法程序。
4. 如权利要求1或2所述的方法，其特征在于，所述启动语音输入法程序，并获取所述输入语音对应的文本信息包括：启动语音输入法程序，获取所述输入语音，将所述输入语音进行模数转换得到转换后的语音数据；调用语音接口，通过所述语音接口将所述语音数据上传至服务器；接收并解析服务器根据所述语音数据返回的文本信息，在语音输入法界面显示所述文本信息，供用户选择。
5. 如权利要求4所述的方法，其特征在于，所述启动语音输入法程序，并获取所述输入语音对应的文本信息，之后还包括：监控到所述指令库中映射功能为朗读文本信息的指令语音输入时，朗读显示的所述文本信息。
6. 如权利要求4所述的方法，其特征在于，所述启动语音输入法程序，并获取所述输入语音对应的文本信息，之后包括：监控到所述指令库中映射功能为移动光标至预设位置的指令语音输入时，移动所述语音输入法界面上的光标至所述预设位置。
7. 如权利要求4所述的方法，其特征在于，所述启动语音输入法程序，并获取所述输入语音对应的文本信息，之后包括：获取摄像头捕捉的用户双眼聚焦的位置，将所述语音输入法界面上的光标定位至用户双眼聚焦的位置。
8. 如权利要求2所述的方法，其特征在于，所述调用默认输入法程序之后还包括：侦测输入法主操作界面上的触控事件；当侦测到用户触发的触控事件时，获取该触控事件对应的用户操作轨迹；将所述用户操作轨迹与预设轨迹进行比对；在所述用户操作轨迹与预设轨迹的相似度达到预设阔值时，启动语音输入法程序并切换至语音输入法界面。
9. 一种语音输入的实现装置，其特征在于，包括：语音识别模块，用于监控到有语音输入时，识别指令库中是否存在与输入语音相匹配的指令语音；功能执行模块，用于在所述指令库中存在与所述输入语音相匹配的指令语音时，执行与所述输入语音相匹配的指令语音所映射的功能；语音输入模块，用于在所述指令库中不存在与所述输入语音相匹配的指令语音时，启动语音输入法程序，并获取所述输入语音对应的文本信息。
10. 如权利要求9所述的装置，其特征在于，还包括：指令库创建模块，用于响应用户设置指令语音的操作请求，建立指令语音与各指令语音映射功能的指令库；程序启动模块，用于调用默认输入法程序，同时启动语音监控程序。
11. 如权利要求9或10所述的装置，其特征在于，所述功能执行模块还用于：在所述指令语音所映射的功能为开启语音录入时，启动语音输入法程序。
12. 如权利要求9或10所述的装置，其特征在于，所述语音输入模块用于：启动语音输入法程序，获取所述输入语音，将所述输入语音进行模数转换得到转换后的语音数据；调用语音接口，通过所述语音接口将所述语音数据上传至服务器；接收并解析服务器根据所述语音数据返回的文本信息，在语音输入法界面显示所述文本信息，供用户选择。
13. 如权利要求12所述的装置，其特征在于，所述功能执行模块还用于：监控到所述指令库中映射功能为朗读文本信息的指令语音输入时，朗读显示的所述文本信息。
14. 如权利要求12所述的装置，其特征在于，所述功能执行模块还用于：监控到所述指令库中映射功能为移动光标至预设位置的指令语音输入时，移动所述语音输入法界面上的光标至所述预设位置。
15. 如权利要求12所述的装置，其特征在于，所述功能执行模块还用于：获取摄像头捕捉的用户双眼聚焦的位置，将所述语音输入法界面上的光标定位至用户双眼聚焦的位置。
16. 如权利要求10所述的装置，其特征在于，还包括：触控侦测模块，用于侦测输入法主操作界面上的触控事件轨迹获取模块，用于当侦测到用户触发的触控事件时，获取该触控事件对应的用户操作轨迹；将所述用户操作轨迹与预设轨迹进行比对；其中，所述语音输入模块还用于，在所述用户操作轨迹与预设轨迹的相似度达到预设阔值时，启动语音输入法程序并切换至语音输入法界面。
17. -种终端，其特征在于，包括权利要求9-16任一项所述的装置。
【文档编号】G06F3/16GK104346127SQ201310335422
【公开日】2015年2月11日申请日期:2013年8月2日优先权日:2013年8月2日
【发明者】张少峰申请人:腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张少峰
技术所有人：腾讯科技(深圳)有限公司
我是此专利的发明人

上一篇：打开应用程序的方法及其移动终端的制作方法
上一篇：一种内存管理方法及内存管理设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。