一种移动终端浏览器的页面语音控制方法及语音浏览器与流程

文档序号：14119953阅读：1396来源：国知局

本发明涉及语音识别与控制，属android智能控制app研发领域，具体涉及一种移动终端浏览器的页面语音控制方法及语音浏览器。

背景技术：

语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

浏览器是指可以显示网页服务器或者文件系统的html(hypertextmarkuplanguage，超文本标记语言)文件内容，并让用户与这些文件交互的一种软件。网页浏览器主要通过http(hypertexttransferprotocol，超文本传递协议)协议与网页服务器交互并获取网页，这些网页由url(uniform/universalresourcelocator，统一资源定位符)指定，文件格式通常为html，并由mime(multipurposeinternetmailextensions，多功能互联网邮件扩充服务)在http协议中指明。

目前的语音浏览器，如百度和谷歌浏览器，一般提供将网页的文字转化为语音自动朗读和语音转化文本数据的语音识别功能，没有利用语音控制浏览器的基本操作，如上下滑动、前一页和后一页等常用的基本浏览器操作。

技术实现要素：

本发明所要解决的技术问题在于，针对上述目前的语音浏览器存在的没有利用语音控制浏览器的页面基本操作的问题，本发明提供了一种移动终端浏览器的页面语音控制方法及语音浏览器来解决上述问题。

本发明为实现上述目的，具体方案如下。

一种移动终端浏览器的页面语音控制方法，其特征在于，包含如下步骤：

s1、采集用户输入的语音；

s2、对识别用户输入的的语音语言类别进行判断，选择调用与所述用户语言类别相匹配的语音数据库来识别语音；

s3、识别用户输入的语音中的文字内容；

s4、对识别出的语音文字内容进行判断，若语音数据库中存在于与该文字内容对应的指令，则控制浏览器执行对应的指令，若不存在对应的指令，则本次不响应该识别出的文字内容；

s5、通过识别出的语音文字内容响应浏览器的页面基本操作。

进一步的，所述语音数据库用于存储语音信息，通过输入语音文字内容与语音数据库中的语音信息对比后对输入语音文字内容作出识别。

进一步的，所述浏览器的页面基本操作包括上、下滚动、前进加载和后退加载。

进一步的，搭载的语音开发包为科大讯飞和谷歌提供的语音开发包。

进一步的，所述移动终端为基于android系统的移动终端，实现平台为jdk8.0+eclipse4.7.0+androidsdk4.0.3。

还有一种语音浏览器，其特征在于，包含以下模块：

语音采集模块：用于采集用户输入的语音；

语音识别模块：用于对识别用户输入的的语音语言类别进行判断，选择调用与所述用户语言类别相匹配的语音数据库来识别语音；

指令判断模块：用于对识别出的语音文字内容进行判断；

指令响应模块：用于通过识别出的语音文字内容响应浏览器的页面基本操作；

语音数据库：用于存储语音信息，通过输入语音文字内容与语音数据库中的语音信息对比后对输入语音文字内容作出识别。

进一步的，该语音浏览器基于android系统的移动终端，开发平台为jdk8.0+eclipse4.7.0+androidsdk4.0.3。

进一步的，所述语音浏览器的界面上面为浏览器窗口，下面为url输入框和语音识别按钮。

进一步的，点击url地址输入栏，将自动导出软键盘，用于键入网址。

进一步的，所述语音识别按钮用于开启浏览器的语音识别功能。

附图说明

图1是本发明中语音控制算法流程图；

图2为本发明中激活软件盘界面；

图3为本发明中输入网址界面；

图4为本发明中加载完成界面；

图5为本发明中识别启动界面；

图6为本发明中“down”指令识别完成界面；

图7为本发明中“up”指令识别完成界面；

图8为本发明中“backward”指令识别完成界面；

图9为本发明中“forward”指令识别完成界面；

图10为本发明中一种语音浏览器各组成模块关系图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种移动终端浏览器的页面语音控制方法，通过如下步骤实现对浏览器的页面基本操作控制：

s1、采集用户输入的语音；

s2、对识别用户输入的的语音语言类别进行判断，选择调用与所述用户语言类别相匹配的语音数据库来识别语音，语音数据库用于存储语音信息，通过输入语音文字内容与语音数据库中的语音信息对比后对输入语音文字内容作出识别；

s3、识别用户输入的语音中的文字内容；

s5、通过识别出的语音文字内容响应浏览器的页面基本操作。

应用的移动终端为基于android系统的移动终端，实现平台设计为jdk8.0+eclipse4.7.0+androidsdk4.0.3。搭载的语音开发包为科大讯飞和谷歌提供的语音开发包。能够实现识别用户输入的语音中的文字内容并通过识别出的语音文字内容响应浏览器的页面基本操作的功能。语音浏览器的具体使用方式如下。

一、输入网址

1、进入语音浏览器的使用界面后，点击url地址输入栏，将自动导出软键盘，如图2所示。

2、键入范例网址http://www.baidu.com，如图3所示。

3、收起软键盘，单击go网址检索按钮，触发检索对应的单击事件监听器，打开网页http://www.baidu.com，如图4所示。

二、语音命令执行案例示范

本实施例将以语音文字内容中”down”，“up”，”backward”，”forward”作为示范。

1、单击asr_go语音识别按钮，触发对应的语音识别的单击事件监听器，此时后台开启可用的语音数据库，如图5所示：

2、在较为安静的环境下口述语音“down.”,识别完成后将以toast的弹出形式显示用户上一时刻所触发的语音指令，并完成相应的动作，如图6所示即为用户“down.”指令所触发的下滑置底动作。

3、在较为安静的环境下口述语音“up”,识别完成后将以toast的弹出形式显示用户上一时刻所触发的语音指令，并完成相应的动作，如图7所示即为用户“up”指令所触发的上滑置顶动作。

4、在较为安静的环境下口述语音“backward”,识别完成后将以toast的弹出形式显示用户上一时刻所触发的语音指令，并完成相应的动作，如图8所示即为用户“backward”指令所触发的后退加载动作。

5、在较为安静的环境下口述语音“forward”,识别完成后将以toast的弹出形式显示用户上一时刻所触发的语音指令，并完成相应的动作，如图9所示即为用户“forward”指令所触发的前进加载动作。

请参阅图10,上述语音浏览器包含的各组成模块关系如图所示：

语音采集模块：用于采集用户输入的语音；

语音识别模块：用于对识别用户输入的的语音语言类别进行判断，选择调用与所述用户语言类别相匹配的语音数据库来识别语音；

指令判断模块：用于对识别出的语音文字内容进行判断；

指令响应模块：用于通过识别出的语音文字内容响应浏览器的页面基本操作；

语音数据库：用于存储语音信息，通过输入语音文字内容与语音数据库中的语音信息对比后对输入语音文字内容作出识别。

本发明的目的是针对手指缺陷不能操作浏览器的特殊人群，和双手正忙于操作，还需要操作其它仪器、仪表的操作人员(如医院医生双手正在操作手术，但是同时想控制仪表显示的图像放大和移动操作，这时能用语音控制仪表就能为医生提供极大的便利)，提供操作电子产品的便利，提高生活质量和工作效率。同时，该语音浏览器的配置轻盈，优化了一般小型浏览器所存在的不兼容问题，同时也解决了出错闪退等情况。本项目在测试的过程中，语音成功识别率可达98％，响应时间达70毫秒，能满足用户的基本需求。

本发明不仅局限于上述具体实施方式，本领域一般技术人员根据本发明公开的内容，可以采用其它多种具体实施方式实施本发明，因此，凡是采用本发明的设计结构和思路，做一些简单的变化或更改的设计，都落入本发明保护的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李指明
技术所有人：中国地质大学（武汉）
我是此专利的发明人

上一篇：一种实现液压支架电液控制的控制器的制作方法
上一篇：一种前探梁临时支护调节环的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。