用于网络浏览器的语音式交互方法

文档序号:6439631阅读:437来源:国知局
专利名称:用于网络浏览器的语音式交互方法
技术领域
本发明涉及人机交互领域,具体涉及一种用于网络浏览器的语音式交互方法。
背景技术
我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别 10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制,我国的语音识别研究工作一直处于缓慢发展的阶段。 进入80年代以后,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点,发展迅速。就在这种形式下,国内许多单位纷纷投入到这项研究工作中去。1986年3月我国高科技发展计划(863计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下,我国开始了有组织的语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。从此我国的语音识别技术进入了一个前所未有的发展阶段。尤其随着最近些年来,国家以及各种商业机构对语音识别的重视,目前语音识别技术已经基本成熟,并且已经在商业应用中得到了广泛的应用。目前网络浏览器已经成为操作系统以及各类应用平台的主要入口,已经渐渐成为操作系统中主要的应用软件之一,因此如何提高网络浏览器的用户体验已经成为网络浏览器吸引用户的主要手段之一。而网络浏览器相对而言由于识别的内容相对单一,尤其适用于语音识别技术。

发明内容
本发明要解决的技术问题是提供一种能够充分利用浏览器本身的网络功能实现服务端语音识别引擎的调用、实现网络浏览器的语音式交互、用户体验好、使用简单方便的用于网络浏览器的语音式交互方法。为了解决上述技术问题,本发明采用的技术方案为 一种用于网络浏览器的语音式交互方法,其实施步骤如下
1)服务端建立语音识别引擎;
2)客户端在打开网络浏览器后,通过麦克风采集用户语音,提取采集得到的用户语音中的语音特征信息,并将所述语音特征信息发送给服务端;
3)所述服务端接收客户端发送的语音特征信息,调用语音识别引擎将语音特征信息转换为浏览器控制命令,并将所述浏览器控制命令发送给客户端;
4)客户端接收所述服务端发送的浏览器控制命令,并执行所述浏览器控制命令实现与网络浏览器的交互。作为上述技术方案的进一步改进
所述步骤3)中服务器调用语音识别引擎将语音特征信息转换为浏览器控制命令的具
3体步骤包括调用语音识别引擎将语音特征信息转换为文字信息,将所述文字信息分割为控制模式信息和控制命令信息,所述控制模式信息包括网址输入、当前页面以及标签控制、 浏览器程序控制三种,所述控制命令信息包括用于在所述控制模式信息下对应的快捷键。所述步骤4)中客户端执行所述浏览器控制命令的具体步骤包括客户端读取浏览器控制命令的控制模式信息,如果控制模式信息为网址输入,则将操作系统的当前焦点定位网络浏览器的地址输入栏,然后向操作系统发送控制命令信息包含快捷键的按键事件;如果控制模式信息为当前页面以及标签控制,则将操作系统的当前焦点定位网络浏览器的页面或者标签,然后向操作系统发送控制命令信息包含快捷键的按键事件;如果控制模式信息为浏览器程序控制,则将操作系统的当前焦点定位网络浏览器的窗口,然后向操作系统发送控制命令信息包含快捷键的按键事件。所述客户端读取浏览器控制命令的控制模式信息时如果读取控制模式信息失败, 则将网络浏览器的当前标签页或者当前页导航至预设网址。本发明具有下述优点
本发明通过服务端建立语音识别引擎、客户端在打开网络浏览器后,通过麦克风采集用户语音,提取采集得到的用户语音中的语音特征信息,并将语音特征信息发送给服务端、 服务端接收客户端发送的语音特征信息,调用语音识别引擎将语音特征信息转换为浏览器控制命令,并将浏览器控制命令发送给客户端、客户端接收服务端发送的浏览器控制命令, 并执行浏览器控制命令实现与网络浏览器的交互,能够充分利用浏览器本身的网络功能实现服务端语音识别引擎的调用,而且语音识别引擎设置在服务端可以随时方便更新语音识别引擎而客户端无需任何改动即可提高语音识别性能,具有用户体验好、使用简单方便的优点。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例的主要流程示意图。
具体实施例方式下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。如图1所示,本实施例用于网络浏览器的语音式交互方法的实施步骤如下
1)服务端建立语音识别引擎;
2)客户端在打开网络浏览器后,通过麦克风采集用户语音,提取采集得到的用户语音中的语音特征信息,并将语音特征信息发送给服务端;
3)服务端接收客户端发送的语音特征信息,调用语音识别引擎将语音特征信息转换为浏览器控制命令,并将浏览器控制命令发送给客户端;
4)客户端接收服务端发送的浏览器控制命令,并执行浏览器控制命令实现与网络浏览器的交互。本实施例步骤3)中服务器调用语音识别引擎将语音特征信息转换为浏览器控制命令的具体步骤包括调用语音识别引擎将语音特征信息转换为文字信息,将文字信息分割为控制模式信息和控制命令信息,控制模式信息包括网址输入、当前页面以及标签控制、 浏览器程序控制三种,控制命令信息包括用于在控制模式信息下对应的快捷键。本实施例步骤4)中客户端执行浏览器控制命令的具体步骤包括客户端读取浏览器控制命令的控制模式信息,如果控制模式信息为网址输入,则将操作系统的当前焦点定位网络浏览器的地址输入栏,然后向操作系统发送控制命令信息包含快捷键的按键事件;如果控制模式信息为当前页面以及标签控制,则将操作系统的当前焦点定位网络浏览器的页面或者标签,然后向操作系统发送控制命令信息包含快捷键的按键事件;如果控制模式信息为浏览器程序控制,则将操作系统的当前焦点定位网络浏览器的窗口,然后向操作系统发送控制命令信息包含快捷键的按键事件。本实施例客户端读取浏览器控制命令的控制模式信息时如果读取控制模式信息失败,则将网络浏览器的当前标签页或者当前页导航至预设网址。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例, 凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
权利要求
1.一种用于网络浏览器的语音式交互方法,其特征在于其实施步骤如下1)服务端建立语音识别引擎;2)客户端在打开网络浏览器后,通过麦克风采集用户语音,提取采集得到的用户语音中的语音特征信息,并将所述语音特征信息发送给服务端;3)所述服务端接收客户端发送的语音特征信息,调用语音识别引擎将语音特征信息转换为浏览器控制命令,并将所述浏览器控制命令发送给客户端;4)客户端接收所述服务端发送的浏览器控制命令,并执行所述浏览器控制命令实现与网络浏览器的交互。
2.根据权利要求1所述的用于网络浏览器的语音式交互方法,其特征在于所述步骤3)中服务器调用语音识别引擎将语音特征信息转换为浏览器控制命令的具体步骤包括调用语音识别引擎将语音特征信息转换为文字信息,将所述文字信息分割为控制模式信息和控制命令信息,所述控制模式信息包括网址输入、当前页面以及标签控制、浏览器程序控制三种,所述控制命令信息包括用于在所述控制模式信息下对应的快捷键。
3.根据权利要求2所述的用于网络浏览器的语音式交互方法,其特征在于所述步骤4)中客户端执行所述浏览器控制命令的具体步骤包括客户端读取浏览器控制命令的控制模式信息,如果控制模式信息为网址输入,则将操作系统的当前焦点定位网络浏览器的地址输入栏,然后向操作系统发送控制命令信息包含快捷键的按键事件;如果控制模式信息为当前页面以及标签控制,则将操作系统的当前焦点定位网络浏览器的页面或者标签,然后向操作系统发送控制命令信息包含快捷键的按键事件;如果控制模式信息为浏览器程序控制,则将操作系统的当前焦点定位网络浏览器的窗口,然后向操作系统发送控制命令信息包含快捷键的按键事件。
4.根据权利要求3所述的用于网络浏览器的语音式交互方法,其特征在于所述客户端读取浏览器控制命令的控制模式信息时如果读取控制模式信息失败,则将网络浏览器的当前标签页或者当前页导航至预设网址。
全文摘要
本发明公开了一种用于网络浏览器的语音式交互方法,其实施步骤如下1)服务端建立语音识别引擎;2)客户端在打开网络浏览器后,通过麦克风采集用户语音,提取采集得到的用户语音中的语音特征信息,并将所述语音特征信息发送给服务端;3)所述服务端接收客户端发送的语音特征信息,调用语音识别引擎将语音特征信息转换为浏览器控制命令,并将所述浏览器控制命令发送给客户端;4)客户端接收所述服务端发送的浏览器控制命令,并执行所述浏览器控制命令实现与网络浏览器的交互。本发明具有能够充分利用浏览器本身的网络功能实现服务端语音识别引擎的调用、实现网络浏览器的语音式交互、用户体验好、使用简单方便的优点。
文档编号G06F17/30GK102520792SQ20111038877
公开日2012年6月27日 申请日期2011年11月30日 优先权日2011年11月30日
发明者林云 申请人:江苏奇异点网络有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1