基于internet的多语种语音域名和语音搜索系统及方法

文档序号：7614317阅读：108来源：国知局

专利名称：基于internet的多语种语音域名和语音搜索系统及方法
技术领域：
本发明涉及一种传媒系统，尤指一种能为用户提供多语种语音域名和语音搜索系统及方法。
背景技术：
目前，互联网和信息技术的应用已经深入到企业行为和个人生活的方方面面，许多企业已经基于互联网建立自己的企业应用系统和网站，用于改善内部管理、降低成本、提高效率，从而提升企业的竞争力；个人也可能充分享受互联网和信息技术带来的种种好处，诸如开阔视野、缩短时空距离等。更多的资讯网及分类生活网站更开辟出大量广告版面增加企业效益。尤其近年来宽带技术的发展及普及应用，使得基于互联网和域名解释技术，语音识别(ASR)技术，语音合成(TTS)技术的应用成为可能。
就当前而言，互联网网站主要完成静态的、以文字和图片为主的企业宣传、产品展示、售前支持、售中沟通和售后服务，用户访问网站时需要通过输入文字标识的域名才能实现访问。
另外，到目前为止，仍然缺乏一种有效的用户语音域名访问及搜索机制，让用户只要说出域名就能实现访问，被访问端就能利用互联网网站的内容优势和全天候服务优势，为用户提供一种基于Internet和语音域名解释，VoiceXML解析器，语音识别引擎，语音合成引擎，语音通道，VoiceXML网关，结合了Internet、语音CODEC、视频CODEC、TCP/IP、数据库技术和软件技术的Internet语音访问搜索系统。许多企业和个人越来越多地认识到对访问用户提供个性化服务的重要性，Internet语音访问、域名应用技术、语音识别(ASR)技术、语音合成(TTS)技术也越来越成熟；语音CODEC、视频CODEC以及TCP/IP通信技术也发展到实用阶段。
因此，基于INTERNET的多语种语音域名和语音搜索系统及方法正是适应这种应用需求和技术进步而提出的一种应用系统。

发明内容
基于现有技术的不足，本发明的主要目的在于提供一种基于Internet的域名解释技术，语音识别(ASR)技术，语音合成(TTS)技术，结合了Internet、语音CODEC、视频CODEC、TCP/IP、数据库技术和软件技术的多语种因特网语音访问及搜索系统，该系统包括控制服务器，用于通信信令控制和管理、用户管理、权限控制、数据存储和中转、客户端管理、计费管理、数据安全管理；数据库服务器，用于数据操作和存储；域名解释服务器，用于域名解释及指向；VoiceXML语音浏览器；VoiceXML语音网关；独立客户机，用于通信信令控制和管理、数据传输控制、数据安全管理、语音数据处理、视频数据处理、文字消息处理、文件传输、留言(语音、文字和视频)管理、自动更新支持、IVR支持和硬件设备支持；组件客户端，和独立客户端作用一致，需要在浏览器中运行；互联网接入设备，用于互联网接入；WWW服务器，用于信息发布和采集及组件客户端部署；及语音视频设备，用于语音和视频信号的捕获和转换。
在本发明中，所述组件客户端与所述浏览器地址栏相结合，由VoiceXML语音浏览器与域名解释服务器进行关联，当用户操作域名及其浏览器地址栏组件时，通过呼叫目标站名名称来调用该客户端，实现和域名解释结果条目的关联对象进行通信。所述组件客户端与所述浏览器地址栏相结合，通过呼叫或操作或点击控件元素来调用该客户端，实现和语音域名解释结果条目的关联对象进行通信。所述VoiceXML语音浏览器包括VoiceXML解析器，语音识别引擎，语音合成引擎以及语音通道。组件客户端嵌入到浏览器地址栏上的表现形式是浏览器组件或插件元素。
所述系统可以提供语音、视频、文字、文件、IVR中一种或多种访问方式。用户输入或呼叫的域名可以是中文域名英文域名或数字域名或指定的其它代码。
本发明还进一步提供了一种基于INTERNET的多语种语音域名和语音搜索方法，包括如下步骤系统初始化；用户通过浏览器地址栏操作域名或通过语音通道呼叫站点(包括搜索站点)名称启动信息系统；语音识别引擎获取用户语音信息转为计算机程序识别语言并通过VoiceXML解析器，关联域名系统；用户通过操作域名或组件客户端，发起系统连接进入目标站点；在用户端通过VoiceXML浏览器，服务端VoiceXML网关播报与用户对应的语音网页或获取搜索结果；启用VOIP功能发起通信呼叫；系统运行结束。
操作域名或组件客户端，信息系统启动工作的具体过程为当用户呼叫或输入中文域名或数字域名或指定的其它代码或或通过点击组件元素方式调用组件客户端；组件客户端与控制服务器交换信令；通过控制服务器与数据库服务器、www服务器建立通信；www服务器向组件客户端播报信息并获取搜索结果；语音访问结束。
与现有技术相比较，作为基于INTERNET的语音域名和语音搜索系统平台，能根据用户用语音发出目标网站或其它站点的名称后直达访问，能用语音发出搜索网站的名称到达搜索站，并发出搜索关键词语音即能完成目标搜索。与目标站点实现对话，通过系统的VOIP功能还能实现点对点语音视频通信。
另外，系统的组件客户端与Internet IE浏览器地址栏相结合，即组件客户端嵌入到浏览器地址栏并通过语音域名解释结果指向目标网站页面，当用户呼叫或操作域名及其浏览器地址栏组件时，通过呼叫或操作或点击控件元素来调用该客户端，实现和语音域名解释结果条目的关联对象进行通信。
系统的组件客户端与域名解释器，VoiceXML解析器，语音识别引擎，语音合成引擎，语音通道结合，即组件客户端嵌入到IE浏览器，组件客户端具备RESOLVER解释功能，语音识别(ASR)与语音合成(TTS)功能，通过呼叫或操作或点击IE地址栏域名元素来调用该客户端，实现关联对象互动通信。达到语音访问互联网并完成语音搜索结果的目的。
组件客户端嵌入到IE浏览器，其表现形式是控件元素，控件元素可以是一个按钮、图标、图片、文字、链接，也可是其他别的可视的内容，用户通过直接操作或呼叫域名或用鼠标、键盘、或者其他输入设备来点击控件元素发起关联通信。
为使本发明更加容易理解，下面将结合附图进一步阐述本发明基于INTERNET的语音域名和语音搜索系统及方法。

图1为系统整体结构方框图；图2为控制服务器结构方框图；图3为软件系统结构方框图；图4为客户端结构方框图；图5为组件客户端与IE浏览器结合；图6为组件客户端表现用户在浏览器形式图7为独立客户机与WWW服务器结合；图8为组件客户端与语音域名结合时的工作流程。
具体实施例方式
本发明一种基于INTERNET的语音域名和语音搜索系统及方法，其结合Internet技术、语音识别(ASR)技术、语音合成(TTS)技术、域名解释技术、语音CODEC、视频CODEC、TCP/IP、数据库技术和软件技术等多种技术，为用户提供语音访问系统平台，使用户从发起语音访问或语音搜索开始，启动语音识别引擎，将人说话的语音信号转换为可被计算机程序所识别的文字信息，从而识别说话人的语音指令以及文字内容。由VoiceXML解析器与域名解释服务器进行关联，实现对目标站点的语音访问或搜索，组件客户端具备VOIP功能，可实现点对点即时通信。
基于INTERNET的语音域名和语音搜索系统及方法的控制服务器、数据库服务器、WWW服务器、域名服务器、VoiceXML语音浏览器、VoiceXML语音网关、XML、DB(语音标记语言与关系型数据库的相互转换模块)、独立客户端与组件客户端互相配合，构成了完整语音访问及语音搜索软件系统平台，企业能藉此为用户提供智能化服务，使用户能感受到方便与实用。其中，VoiceXML语音浏览器包括VoiceXML解析器、语音识别引擎、语音合成引擎、语音通道。
1)系统整体结构整个系统由控制服务器、数据库服务器、WWW服务器、域名服务器、VoiceXML语音浏览器、VoiceXML语音网关、XML、DB(语音标记语言与关系型数据库的相互转换模块)、独立客户端、组件客户机、Internet接入设备、WWW服务器及语音视频设备组成。其中，VoiceXML语音浏览器包括VoiceXML解析器、语音识别引擎、语音合成引擎、语音通道。
参照图1，在系统整体结构方框中，独立客户机1和VoiceXML语音浏览器2为用户应用终端，由Internet接入设备10、独立客户机1支持语音视频设备3，用户应用终端为企业内部通信互联或企业和企业外部通信互联的逻辑结构，Internet接入设备10和Internet连接。域名服务器4提供互联网域名解释及指向服务。互联网服务器5提供互联网服务。VoiceXML语音网关6完成HTML与VOICEXML转换。组件客户机2嵌入到IE浏览器并与其结合。控制服务器7完成通信过程的信令控制及状态管理。数据库服务器8提供数据库语音库服务。XML与DB模块9完成语音标记语言与关系型数据库的相互转换，上述功能模块共同完成整个系统的服务管理功能。
系统的整体组成具有可伸缩性，独立客户端与组件客户端包括VoiceXML语音浏览器、数据库服务器、控制服务器、互联网服务器、域名服务器、独立客户端和组件客户机。其中，VoiceXML语音浏览器包括VoiceXML解析器，语音识别引擎ASR，语音合成引擎TTS，语音通道。VoiceXML语音网关、XML与DB模块在数量上是不限的。
2)软件系统结构软件系统整体上采用C/S结构，即客户端/服务器结构。其中服务器端软件作为独立的应用(或服务)来运行，结合软件分布式技术，根据客户端数量，服务器端软件可以部署在一台或多台计算机上，从而平衡服务器端流量，服务器主要完成一些控制功能，我们把服务器叫做控制服务器。客户端软件采用两种方式来实现即可以独立运行的客户端(我们称之为客户端)和作为软件组件形式的客户端(我们称之为组件客户端)。独立客户端是一个独立的应用程序，可以单独运行；组件客户端为一个ActiveX控件，需要在其他应用程序容器中运行，如浏览器；根据具体的应用形式，这个ActiveX控件可以部署在IE浏览器并与其结合现有企业的域名、要通过域名服务器重新绑定或用通俗易懂的中文或数字代替，经绑定的域名当组件客户端操作域名时与数据库发生关联。客户端和服务器端通过TCP/IP协议进行通信。
参照图2，在软件系统结构方框图中，软件系统整体上包括控制服务器和客户端两部分，控制服务器采用分层的设计结构，即控制服务器由数据传输控制B02、数据安全管理B03、通信信令控制与管理B04、应用处理层B12、语音部分B06、视频部分B07、数据存储和中转B08、权限控制B09、客户端管理B10等子系统)等部分组成，其中，应用处理层B12包括VoiceXML解析器，语音识别引擎ASR，语音合成引擎TTS，语音通道。客户机也采用分层设计结构，并且和服务器端具有对应的分层处理。客户机和服务器通过网络传输层(TCP/IP协议栈进行直接的数据通信)，另外，系统还包括数据库服务器(B11)。
3)控制服务器功能及实现控制服务器的主要功能包括通信信令控制和管理、用户管理、权限控制、数据存储和中转、客户端管理、计费管理、数据安全管理等。通信信令由自主设计，用于支持客户端呼叫、寻找、建立连接、状态控制、数据交换和中转、防火墙侦测和穿透等，VoiceXML解析器，语音识别引擎ASR，语音合成引擎TTS，语音识别与转换控制等，采用TCP/IP协议栈提供的SOCKET接口函数实现；用户管理主要对用户的相关资料和数据进行管理，应用本系统的每个用户(包括企业用户和个人用户)都有至少一个独立的标识号码，权限控制用于实现权限管理和控制，数据存储和中转用于管理临时数据，客户端管理实现客户端版本控制和自动版本更新功能，用户管理、权限控制、数据存储和中转和客户端结合数据库存技术进行实现；计费管理用于系统访问量化或可能用于计费的未来部署，数据安全管理用于支持数据的安全传输，数据的安全传输采用通用的对称密钥算法和非对称密钥算法机制，具体算法涉及RSA、MD5和DES/3DES。
参照图3，在控制服务器结构方框图中，控制功能服务器采用分层结构设计。数据传输控制层C02通过网络传输层(TCP/IP协议栈)C01提供的TCP/IP开发接口完成数据传输。数据安全管理层C03采用数据传输控制层C02提供的接口完成数据的安全传输。通信信令的控制和管理C04采用数据安全管理层C03提供的接口完成通信信令和数据的传输。应用功能层部分(包括客户端管理C07、数据存储和中转C06、用户管理3010、权限控制C08、计费管理C09)采用通信信令的控制和管理C04、数据安全管理层C03、数据传输控制层C02实现具体的功能，同时应用功能层部分还需要结合数据库系统。系统的独立客户机C13、组件客户机C14、VoiceXML解析器，语音识别引擎ASR，语音合成引擎TTS，语音通道C15主要通过应用功能层和控制服务器进行通信。
4)客户端功能及实现客户端的实现包括独立客户端和组件客户端两种方式，两种方式在功能实现上基本一致，独立客户端是全功能客户机，除担负Resolver解释和基本通信功能外，企业端还作为语音、视频、文字、文件等企业语种识别信息编译端、组件客户端不能独立运行，但可以集成在其它容器当中，作为其他客户机的一部分。客户端的功能包括通信信令控制和管理、数据传输控制、数据安全管理、语音数据处理、视频数据处理、文字消息处理、文件传输、留言(语音、文字和视频)管理、自动更新支持、IVR支持和硬件设备支持等。客户端通信信令控制和管理和服务器端通信信令控制和管理功能配合，完成语音识别ASR，语音转换TTS，完成VOIP呼叫、寻址，建立连接、状态控制、数据交换和中转、防火墙侦测和穿透等功能，数据传输控制用于完成数据的实时传输控制、自适应带宽控制、非实时数据的传输，客户端通信信令控制和数据传输控制采用TCP/IP协议栈实现；客户端数据安全管理和服务器端数据安全管理互相配合，完成数据安全传输，采用通用的对称密钥算法和非对称密钥算法机制，非对称密钥算法采用RSA，对称密钥算法采用DES/3DES，哈希算法采用MD5；语音数据处理包括语音的实时捕获、编码解码(CODEC)、传输、回放，视频数据处理包括视频的实时捕获、编码解码(CODEC)、传输、播放，语音和视频的编码遵循国际的语音和视频编码解码算法；文字消息处理完成即时的文字信息传输，文件传输用于传输文件数据，文字消息处理和文件传输都采用密文的方式进行传输；自动更新支持完成客户端软件的自动升级；IVR支持完成交互式的语音、视频、图文响应，通信连接的一端根据另一端的操作，自动响应，向另一端播放或者显示语音、视频、图文内容。
参照图4，在客户端结构方框图中，客户端采用分层结构设计，数据传输层D02、数据安全管理D03、通信信令控制和管理D04和控制服务器基本对应，但在客户端数据传输层D02中，实现实时传输控制、自适应传输控制及非实时传输控制。在应用功能层D05，包括版本更新、文字消息、文件传输、留言管理、IVR管理；语音识别ASR，语音转换TTS以及音频和视频的处理功能。
5)组件客户端与IE浏览器结合组件客户端可以在IE浏览容器环境运行，可以通过客户端浏览器脚本语言，实现作为软件组件形式的客户端与IE浏览器结合，直接生成于IE框上，当IE启动时组件客户端被激活。
参照图5，在组件客户端与IE浏览容器结合中，Internet用户利用浏览器(E01)用户在语音通道呼叫域名或在地址栏操作域名，经VoiceXML解析器或Resolver解释到DNS实现语音访问企业WWW站点或获取目标搜索，组件客户端关联控制服务器及数据库服务器，控制服务器把数据库服务器关于站点的信息由VoiceXML语音网关把HTML转换成VXML，客户端获取语音信息。组件客户端完成对目标站点的访问或语音搜索。
6)客户端独立应用独立客户端可以单独使用，除担负Resolver解释VoiceXML解析器和基本通信功能外，还作为语音、视频、文字、文件等企业语种识别信息编译端.主要配送被用户访问的企业站点使用的终端，可用于编译语音视频，制作被访问时需要首先播放的文件，设定被访问文件或VoiceXML语音网关管理。
以上所揭露的仅为本发明基于INTERNET的语音域名和语音搜索系统及方法的较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明申请专利范围所作的等同变化，仍属本发明所涵盖的范围。
权利要求
1.一种基于INTERNET的多语种语音域名和语音搜索系统，其特征在于该系统包括控制服务器，用于通信信令控制和管理、用户管理、权限控制、数据存储和中转、客户端管理、计费管理、数据安全管理；数据库服务器，用于数据操作和存储；域名解释服务器，用于域名解释及指向；VoiceXML 语音浏览器；VoiceXML 语音网关；独立客户机，用于通信信令控制和管理、数据传输控制、数据安全管理、语音数据处理、视频数据处理、文字消息处理、文件传输、留言(语音、文字和视频)管理、自动更新支持、IVR支持和硬件设备支持；组件客户端，和独立客户端作用一致，需要在浏览器中运行；互联网接入设备，用于互联网接入；WWW服务器，用于信息发布和采集及组件客户端部署；及语音视频设备，用于语音和视频信号的捕获和转换。
2.根据权利要求1所述的基于INTERNET的多语种语音域名和语音搜索系统，其特征在于所述组件客户端与所述浏览器地址栏相结合，由VoiceXML语音浏览器与域名解释服务器进行关联，当用户操作域名及其浏览器地址栏组件时，通过呼叫目标站名名称来调用该客户端，实现和域名解释结果条目的关联对象进行通信。
3.根据权利要求2所述的基于INTERNET的多语种语音域名和语音搜索系统，其特征在于所述组件客户端与所述浏览器地址栏相结合，通过呼叫或操作或点击控件元素来调用该客户端，实现和语音域名解释结果条目的关联对象进行通信。
4.根据权利要求3所述的基于INTERNET的多语种语音域名和语音搜索系统，其特征在于所述VoiceXML语音浏览器包括VoiceXML解析器，语音识别引擎，语音合成引擎以及语音通道。
5.根据权利要求3或4所述的基于INTERNET的多语种语音域名和语音搜索系统，其特征在于组件客户端嵌入到浏览器地址栏上的表现形式是浏览器组件或插件元素。
6.根据权利要求1至4任一项所述的基于INTERNET的多语种语音域名和语音搜索系统，其特征在于所述系统可以提供语音、视频、文字、文件、IVR中一种或多种访问方式。
7.根据权利要求1至4任一项所述的基于INTERNET的多语种语音域名和语音搜索系统，其特征在于用户输入或呼叫的域名可以是中文域名英文域名或数字域名或指定的其它代码。
8.一种基于INTERNET的多语种语音域名和语音搜索方法，其特征在于包括如下步骤系统初始化；用户通过浏览器地址栏操作域名或通过语音通道呼叫站点(包括搜索站点)名称启动信息系统；语音识别引擎获取用户语音信息转为计算机程序识别语言并通过VoiceXML解析器，关联域名系统；用户通过操作域名或组件客户端，发起系统连接进入目标站点；在用户端通过VoiceXML浏览器，服务端VoiceXML网关播报与用户对应的语音网页或获取搜索结果；启用VOIP功能发起通信呼叫；系统运行结束。
9.根据权利要求8所述的一种基于INTERNET的多语种语音域名和语音搜索方法，其特征在于操作域名或组件客户端，信息系统启动工作的具体过程为当用户呼叫或输入中文域名或数字域名或指定的其它代码或或通过点击组件元素方式调用组件客户端；组件客户端与控制服务器交换信令；通过控制服务器与数据库服务器、www服务器建立通信；www服务器向组件客户端播报信息并获取搜索结果；语音访问结束。
全文摘要
本发明一种基于INTERNET的多语钟语音域名和语音搜索系统及方法是一种基于Internet的域名解释技术，语音识别(ASR)技术，语音合成(TTS)技术，结合了Internet、语音CODEC、视频CODEC、TCP/IP、数据库技术和软件技术的多语种因特网语音访问及搜索系统，能根据用户用语音发出目标网站或其它平台的名称后直达访问，能用语音发出搜索网站的名称到达搜索站，并发出搜索关键词语音，即能完成目标搜索。与目标站点实现对话，通过系统的VOIP功能还能实现点对点语音视频通信。
文档编号H04L12/00GK1688126SQ200510034210
公开日2005年10月26日申请日期2005年4月21日优先权日2005年4月21日
发明者陈汉奕申请人:陈汉奕

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈汉奕
技术所有人：陈汉奕
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。