通过分组交换网络借助于语音交换信息的方法

文档序号：7753234阅读：307来源：国知局

专利名称：通过分组交换网络借助于语音交换信息的方法
技术领域：
本发明涉及基于自然语音与用户通信的数据处理信息系统。
分组交换网络，例如WWW(万维网)、局域网(局域网络，LAN)，例如以“内连网”的形式，在许多应用范围内不断地构成用户信息交换的主源。为了简短地说明下面针对WWW概念说明这样的信息传输网络。
因为不断成长的依赖于从WWW获得的信息的使用者范围，随时访问这种信息的需要在增长。这种访问一般地采用通过数据线路连接到一或多个WWW服务器上的工作场所计算机进行，在所述的工作场所所计算机上运行一种专业人员称为“浏览器”的软件，以表达在WWW上提供的信息，或者在可得到的信号内部导航。在此所述的表达主要地通过视象输出器件进行。
这样的信息的一个主要成分构成以文本格式存在的数据，所述的数据还含有图表、相似信息的查询指示-对于领域内普通技术人员还公知为“链接”。这种信息在WWW服务器与所属的通信端点之间，多数以结构化文件的形式交换，所述的通信端点例如是浏览器形式，这在本领域内还称为客户。在此数据的组织理解为一个可限定量的数据，所述的可限定量的数据除了真正的，要向使用者表现的信息以外，还含有可计算机读出的关于其结构的说明。为了在WWW中交换结构化文件现有主流上采用HTML格式(超文本标记语言)。
鉴于HTML格式的推广，许多软件包，例如微软公司的MicrosoftWord文本，提供了把格式化文件转换成结构化文件的HTML代码的可能性。在此，由这种软件包产生的HTML代码可以由使用者事后编辑。这种一般不要求向HTML转换代码的特定知识的软件包，下文中涉及结构化文件的“基于格式的编辑器”的概念。
前序部分所述的随时访问WWW中的信息的需要性以不断的规模还包括进其中人员不具有带有可视化装置的计算机的情况。在此不断地出现以其它的表现形式访问WWW中的信息的需要，例如通过常规的电话机以音频形式访问。
以语音为基础的在WWW中的导航和信息传输称为互动的语音对话方法-在本领域内还被称为互动的语音响应(IVR)。所述的IVR方法扎根于面向对话的语音系统中，以减轻例行任务的负担以及用于在呼叫中心进行排队管理。为此所述的IVR方法一般地实施语音引导菜单，通过所述的语音引导菜单使用者用语音器件或者还通过操作电话号码按键在不同的选项之间进行选择。
一种用于实现以IVR为基础的WWW导航的标准是VoiceXML(语音延展标记语言)，该标准由“万维网协会”制定，当前是2000年5月制定的1.0版(http://www.w3.org/TR/voicexml/)。该标准使得能够设计采用语音通信调取信息用的结构化文件。这种语音通信一个方面通过向使用者输出含有在VoiceXML原本中的作为语音的文本进行，另一方面通过处理使用者说出的指令进行。
采用VoiceXML以语音为基础调用信息以在WWW服务器上用VoiceXML格式设计和准备结构化文件为前提。从而使用者被限制到以该格式在WWW服务器上定义的信息，使用者尤其不能够访问HTML文件。也就是这种安排相应于在服务器方支持IVR方法。除了上述的只能够有限地访问信息的缺点之外，VoiceXML还有对WWW服务器的语音产生和分析计算功能有高的要求的缺点。另外还很要求传输信息的数据网络的传输容量，因为用于控制所需要的或者输出的语音信息在数据网络中，主要是作为数字化的音频信号传输，这与通过点击鼠标可以键盘输入在结构化文件中导航相比较意味着显著地增加了要传输的数据量。另一个缺点是用VoiceXML格式设计结构化文件花费较高，VoiceXML格式设计多与HTML设计并列地进行。
从国际专利申请WO 99/46920中公知一种用常规的电话在WWW中导航的系统。该系统的中心部件是一种带有调制解调器和电话控制的音频WWW浏览器(TAWB)的主计算机系统(主控计算机系统。用户通过选择对所述调制解调器指定在电话网中的呼叫号码拨入该系统中。在成功地完成申请程序以后主计算机系统的调制解调器起TAWB与电话网络之间的界面的作用。用户可以通过操作电话号码键盘向TAWB传送以讲话形式或者也以TDMF(双音调多频率)信号的形式进行导航或者控制的指令。所述的TAWB解释该指令，下载相应的WWW文件并且把所含信息转换成音频格式。然后通过电话网络把所述信息发送到电话，用户可以用电话接听。从文本式数据转换成音频信息通过一种领域内普通技术人员公知为TTS(语音文本)的方法进行。
由美国专利US 6018710公知一种方法，借助于TTS方法在着重关注含在其中的结构性指示的条件下把结构化文件转换成音频信号。
两个上述文件中公开的方法或者安排，与通过VoiceXML进行的服务器方实现相反，采用IVR方法的客户方实现进行工作，也就是使用者可以在任意的结构化文件中寻找信息，而没有上述在VoiceXML中的传输容量要求。在客户方采取的结构(主要是要复杂的结构)文件转换成语音信息的缺点是用语音手段在文件中导航的使用者由于在转换过程中丢失的文件的视觉结构而不知所措。
本发明的任务是，指出一种方法，所述的方法保证在结构化文件的基于格式的编辑器的基础上开发结构化文件，而不需要通过视觉的浏览器以及通过基于IVR的浏览器同时调出这种结构化文件的专门化知识。
所述任务通过权利要求1或10所述的特征完成。
根据本发明，结构化文件用基于格式的编辑器，例如MicrosoftWord或者Microsoft Frontpage产生。在所述的结构化文件中存储把该文件标记为适用于根据本发明的方法的访问信息。所述访问信息例如可以存储进标记文件的特征的数据字段中。在该数据字段中所述的访问信息例如可以是布尔代数格式、数值格式或者是字母数字格式的。在完成所述文件后，把所述文件转送到与分组交换网络连接的WWW服务器并且存储在该WWW服务器中。如果使用者的访问基于语音的浏览器-也就是一种用于在结构化文件中导航和用于其表现-访问该结构化文件-例如标记结构化文件的的存储位置的地址的，根据IVR方法安排的软件，根据本发明进行访问信息的存在检验。在此信息的存在可以依赖存储在结构化文件中的数字值或者字母数字值标记。如果存在这种访问信息，就进行向信息主计算机的转送，在所述的信息主计算机中进行该结构化文件的分析。在此分析的对象尤其是结构化文件中的源代码中的指示。在此所述的指示的概念理解为可计算机读取的范围或者符号链，所述的可计算机读的范围或者符号链安排控制文件的表达，并且从而不是含在该文件中的为使用者设想的信息。所述的指示在后续步骤中修改以在按照IVR方法工作的浏览器中表达，其中通过支持声音输出形式的指示扩展和/或取代控制结构化文件的指示的图表结构。这种源代码的分析和修改控制结构化文件的图表构成的指示。这种源代码的分析和修改在运行时间开始进行，就是说在按IVR方法工作的浏览器访问存储在WWW服务器上的结构化文件时进行。
据本发明的方法的一个重要的优点是，在开发用于视觉浏览器的结构化文件后可以访问同样地带有根据IVR方法工作的浏览器。从而无需费钱地进行双重开发。从而不再使用两个不同的协议双重开发和保养结构化文件。
特别有利的是可以在运行时间分析和修改存储在WWW服务器上的结构化文件，这不需要在WWW服务器上附加地准备存储容量。
此外有利的是，开发结构化文件对于源代码的了解程度要求很小，所述的源代码通过基于格式的编辑器自动地产生，特别是用HTML格式。
本发明的有利的扩展在从属权利要求中说明。
以有利的方式，信息主计算机具有代理服务器的功能。代理服务器(代理代表全权的，代理人)使不能够直接访问WWW的系统能够间接地访问。代理可以在WWW和局域网络之间从数据流中筛选出单个数据分组并且从而有助于提高可靠性。代理服务器还可以用于限定访问一定的服务器。信息主计算机配置成代理服务器就根据本发明的方法这方面而言特别地具有优点，因为在此使之能够进行工作场所的结构化文件处理。WWW服务器在调出结构化文件的情况下由根据IVR方法工作的浏览器解除资源密集的源代码分析和修改。由常规的以视觉表现为基础的浏览器呼叫的情况下结构化文件直接地-不连接信息主计算机地-向浏览器输送。
为了通过基于格式的编辑器产生结构化文件采用软件库，所述的软件库或者内连在结构化文件中，或者在结构化文件中指出。这种采用多数以用于定义脚本环境的数据的形式存在的软件库免除了结构化文件的作者去处理结构化文件的源代码。
通过采用基于格式的编辑器保证了源代码的可复制的结构。基于格式的编辑器把由结构化文件的作者定位的格式元转换成在浏览器中进行结构化表达的指示。这种转换通过一定的做法，所述的一定的做法保证产生的源代码的可复制的结构。在定义参照时-参照其它的结构化文件、其它的结构化文件范围或者还有要加载和要输出的和/或要阐明的数据时-有利地考虑使之能够分析和修改源代码以在按照IVR方法工作的浏览器中“表现”的转换。
下面借助于附图详细地说明本发明的实施例。
在附图中

图1结构图用于示意连接在分组交换的网络上的通信端点。
在图1中示出通信装置KE，所述的通信装置KE通过一个按照IVR(因特网语音响应)方法工作的浏览器-在下文中简称为“IVR浏览器”-与分组交换的网络NW，例如因特网或者局域网NW，连接。IVR浏览器WET与分组交换网络愉连接尤其理解为IVR浏览器WTE在一个-图中未示的-计算机系统中工作，所述的计算机系统具有相应的软件和硬件成分用于提供与-图中未示-所谓的因特网服务提供器进行数据交换。
在分组交换的网络NW与按照IVR方法工作的浏览器WTE之间的-图中未示的-数据分组交换或者-在图中用带圈的“1”表示-直接地进行，或者-在图中用带圈的“2”表示-在包括进信息主计算机PRX的条件下进行。
在分组交换的网络NW上连接一个WWW(万维网)服务器SRV，所述的WWW(万维网)服务器SRV大体上具有管理存储在存储器M中的结构化文件SD并且把所述的结构化文件SD向相应的客户传输的功能。如前已述，分组交换的网络NW还可以安排成局域网，在此情况下，WWW服务器SRV作为网内信息服务器工作。
例如IVR浏览器WTE(根据其性质本身是无连接的)与分组交换网络NW的“连接”理解为两个与分组交换网络NW连接的通信端点之间的数据分组的源位置及目标位置。为了方便说明，下面继续采用“连接”的概念。同样地由于阐述的原因在附图中与分组交换网络交换的数据分组用贯通的线条表示。
IVR浏览器WTE具有用于实施以语音为基础的导航的软件层，以语音为基础的导航在下面说明。通过浏览器界面IE接收、处理和向语音应用程序SAPI转送接收的数据。所述的语音应用程序SAPI在语音识别和合成的意义上处理数据。在实施例中为此采用微软公司的32位Windows驱动系统的界面应用程序“SAPI”(语音应用程序界面)。由语音应用程序SAPI处理过的数据向电话应用程序TAPI转送，所述的电话应用程序TAPI处理由语音应用程序SAPI接收的数据以内连到通信终端装置KE。在实施例中，为此采用微软公司的32位Windows驱动系统的界面应用程序“TAPI”(电话应用程序界面)。沿分组交换数据向通信终端装置KE的方向说明的数据的处理用沿其它方向的相应模拟功能进行。通过通信终端装置的IVR浏览器控制在此通过说出的关键词进行，或者通过操作通信终端装置KE上的电话号码键盘进行。通过操作电话号码键盘从通信终端装置KE发送出DTMF(双音调多频率)信号，所述的DTMF信号由电话应用程序TAPI接收并且解码。
所述的IVR浏览器WTE在其工作原理上相应例如微软公司的“网络电话引擎(Web Telephony Engine)”，所述的“网络电话引擎”在因特网文件组合“微软开发者网络(Microsoft Develippers`Network)”说明，其网址是http://msdn.microsoft.com/library/default.asp？url＝/library/en-us/htmltel/wtestartpage61et.asp(无文件说明，内容引自08.11.2001)。为了通过操作通信终端装置KE的使用者控制IVR浏览器WTE，既可以用使用者说出的指令，也可以用由使用者通过在通信终端装置KE操作相应的拨号键盘触发的向IVR浏览器WTE发送的DTMF(双音调多频率)信号。
在着手说明信息主计算机PRX的工作原理以前，说明结构化文件的特性和通过信息主计算机PRX的处理操作。
所述的结构化文件SD采用基于格式的编辑器，例如微软公司的Microsoft Word或者Microsoft Frontpege，产生。在结构化文件SD中存储访问信息，所述的访问信息把结构化文件SD标识为适用并且在IVR浏览器WTE中变换和再现的。所述的访问信息例如存储在给出文件特性的数据字段中，也就是所谓的“文件特性”中。在该文件字段中，所述的访问信息例如以布尔格式、数字的格式或者字母数字格式存在。
在完成了结构化文件SD以后，HTML格式存储、向WWW服务器SRV传输并且在所述WWW服务器SRV的存储器M中保存该结构化文件SD。
信息主计算机PRX配置成代理服务器，所述的代理服务器视含在结构化文件SD中的访问信息进行结构化文件SD内容的处理。如果用IVR浏览器WTE在给出标记结构化文件的存储位置的地址的条件下访问IVR浏览器，就进行该访问信息的存在性检验。如果存在所述的访问信息，就发起向信息主计算机PRX的中转。如果没有所述访问信息或者说所述访问信息不与拟定的参数相应，就不通过信息主计算机PRX进行结构化文件SD的处理，这在图中用带有圆圈的“1”象征通过IVR浏览器WTE与分组交换的网络NW之间的直接“连接”。
下面涉及存储在WWW服务器SRV的存储器M中的具有这样的访问信息的结构化文件SD。该结构化文件SD在由IVR浏览器WTE通过象征地用带圆圈的“2”示出的处理途径请求时，在联系信息主计算机PRX的条件下加载到IVR浏览器WTE的浏览器界面中。
信息主计算机PRX具有第一和第二HTML客户HC1、HC2，所述的第一和第二HTML客户HC1、HC2进行结构化文件SD的接收和转送。第一HTML客户HC1在其输入端向第二HTML客户HC2转送接收的对结构化文件的请求，所述的第二HTML客户HC2把所述的请求向通过分组交换的网络NW连接的WWW服务器SRV转送。相应地具有访问信息的结构化文件SD接着从WWW服务器向第二HTML客户HC2发送，从第二HTML客户HC2向分析装置ANL转送。
分析装置ANL采用HTML-DOM程序界面HTMLDOM(文件对象模型)的功能引导结构化文件中的HTML源代码的句法分析。对于HTMLDOM程度界面HTMLDOM例如采用微软公司开发的根据COM(构件对象模型)界面原理的面向目标的库，所述的COM界面使得能够有多个软件应用程序之间的面向目标的基于客户服务器的通信。采用面向目标的HTML-DOM程序界面HTMLDOM使得能够有HTML代码的句法分析的有效方法，因为随着采用目标能够有结构化访问HTML代码。此外对于这种分析不需要固定的存储器容量，因为得出的目标在工作存储器中处理。
分析的对象尤其是结构化文件的源代码中的指示。所述的指示的概念理解为发起文件表达的控制范围或者符号链，从而不是含在该结构化文件SD中的要向使用者显示的信息的组成部分。
采用通过分析装置ANL产生的目标，转换装置TRF产生XML(扩展的标记语言)格式的修改的结构化文件SD。目标转换成XML源代码采用XML-DOM程序界面XMLDOM的功能。在此采用例如所谓的“式样表”形式的库文件XSL，所述的式样表使之能够扩展由程序界面XMLDOM定义的目标。在此以脚本形式定义目标和/或方法，所述的脚本例如以语言“扩展的式样语言”的形式存在。
采用XML源代码允许把控制结构化文件SD的图表结构的HTML源代码指示扩展和/或替换成支持声音输出形式的指示，用所述支持声音输出形式的指示可通过IVR浏览器WTE“读出”结构化文件。通过这种以库为基础的处理还可能达到简单地把结构化文件SD的HTML源代码转换成另一种XML变例，例如VoiceXML或者WML(无线标记语言)。
HTML源代码分析和修改成XML源代码在运行时间进行，就是说，在IVR浏览器访问存储在WWW服务器SRV上的结构化文件SD时进行。
结构化文件SD的源代码中的修改的细节在内部受理号为2001P21322的专利申请中说明，所以本文只说明一些中心的做法。在此还说明了基于格式的编辑器的结构化文件开发商要注意的一些技术方面。
权利要求
1.方法，用于借助于语音通过分组交换网络(NW)的与经该分组交换网络(NW)连接的WWW服务器(SRV)、与连接该分组交换网络的信息主计算机(PRX)、与连接所述信息主计算机(PRX)的基于语音的浏览器(WTE)交换信息，其中-向WWW服务器(SRV)传输用基于格式的编辑器(FE)产生的结构化文件(SD)并且与访问信息(DP)一起被储存在WWW服务器(SRV)中；-在通过基于语音的浏览器(WTE)访问结构化文件(SD)时，存在访问信息(DP)的条件下进行向信息主计算机(PRX)的转送；-在信息主计算机(PRX)中进行结构化文件(SD)的分析；-在结构化文件(SD)中图像结构化的指示被修改成声音输出形式的指示。
2.如权利要求1所述的方法，其特征在于，所述的信息主计算机(PRX)具有代理服务器的功能。
3.如以上权利要求之一所述的方法，其特征在于，通过内连软件库和/或指示所述的软件库产生结构化文件(SD)。
4.如以上权利要求之一所述的方法，其特征在于，在通过基于格式的编辑器(FE)编辑结构化文件(SD)时要求确定的协议指出结构化文件(SD)和/或结构化文件内部的文件。
5.如以上权利要求之一所述的方法，其特征在于，在WWW服务器(SRV)中存储的结构化文件(SD)中的指示以HTML格式存在。
6.如权利要求5所述的方法，其特征在于，以HTML格式存在的结构化文件(SD)的指示在信息主计算机(PRX)中被转换成按照XML格式的指示。
7.如权利要求6所述的方法，其特征在于，为了把HTML格式的指示转换成XML格式，分析装置(ANL)采用HTML-DOM程序界面(HTMLDOM)把HTML格式的指示转换成目标。
8.如权利要求7所述的方法，其特征在于，变换装置(TRF)与分析装置(ANL)交换目标，并且采用XML-DOM程序界面(XMLDOM)把XML格式的指示中的这种目标转换成以XML指示为基础的结构化文件(SD)。
9.如权利要求8所述的方法，其特征在于，通过变换装置(TRF)进行的目标转换中采用库文件(XSL)。
10.系统，用于借用于语音通过分组网络-与通过该分组交换网络连接的WWW服务器(SRV)交换信息以调取结构化文件(SD)和/或交换数据；-与该分组交换网络所连接的信息主计算机(PRX)交换信息，以把含在结构化文件(SD)中的图表结构的指示修改成声音输出形式指示，与所述信息主计算机(PRX)连接的基于语音的浏览器交换信息，
11.如权利要求10所述的系统，其特征在于，信息主计算机被构成为代理服务器。
全文摘要
本发明涉及一种方法，用于借用于自然语音通过分组交换网络(NW)与通过该分组交换网络(NW)连接的WWW服务器(SRV)、与该分组交换网络连接的信息主计算机(PRX)与所述信息主计算机(PRX)连接基于语音的浏览器(WTE)交换信息。在此向WWW服务器(SRV)传输用基于格式的编辑器(FE)产生的结构化文件(SD)并且与访问信息(DP)一起储存在WWW服务器(SRV)中。在通过基于语音的浏览器(WTE)访问结构化文件(SD)时，存在访问信息(DP)的条件下进行向信息主计算机(PRX)的转送，在信息主计算机(PRX)中进行结构化文件(SD)的分析。成功地分析以后，在结构化文件(SD)中图像结构化的指示被修改成声音输出形式的指示。
文档编号H04M11/08GK1606862SQ02825810
公开日2005年4月13日申请日期2002年12月3日优先权日2001年12月20日
发明者S·古泽, S·霍尔茨, T·米勒, W·－K·V·苏申请人:西门子公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：S.古泽;S.霍尔茨;T.米勒;W.-K.V.苏
技术所有人：西门子公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。