以互联网协议承载语音的协议为基础的语音系统的制作方法

文档序号:7632643阅读:157来源:国知局
专利名称:以互联网协议承载语音的协议为基础的语音系统的制作方法
技术领域
本发明涉及语音识别领域,尤其涉及用在IP承载语音的协议网络中的语音应用。
LAN电话,即“通过分组交换数据网提供的电话和数据业务的集成”,是一种将个人到个人的通信提升到一个新高度而将相应成本降低到更低水平的技术。LAN电话允许使用更多灵活、合算的应用,例如自动呼叫分配、交互语音响应、语音记录等。它与现有语音/数据综合模式提供的相对有限的集成(计算机-电话集成)形成对照,在计算机-电话集成中语音业务与数据业务保持分离并且通过电路交换链路承载。鉴于集成数据和语音的旧模式使用电路交换电话结构进行数据通信,故存在以下缺点数据业务可用带宽相对很低、因为数据业务“突发”特性造成使用电路交换的数据通信的效率低以及有限的语音/数据集成可能性,这些明显的缺点导致产生现有拓扑,其中IP数据服务器与专有PBX或语音电路交换机相捆绑,以便在电路和分组交换网之间提供松散集成,而语音通过电路交换网承载。
LAN电话的其中一个最普通的应用是在公司互联网/内联网环境中应用,这被称为IP电话。IP承载语音(“VoIP”)协议是支持语音业务通过IP网络传输的协议。在VoIP网络中,从模拟话音音频源(例如PSTN或话筒)接收的模拟话音信号被数字化、压缩并转换成IP分组以便通过IP网传输。若干众所周知的协议实现包括H.323、会话初始化协议(“SIP”)和主网关控制协议(”MGCP”)的VoIP协议规范。
IP电话的普通应用是集成语音邮件(“v-mail”)和电子邮件(“e-mail”)。另一个应用包括金融或紧急情况响应组织进行的语音记录。此外,还有助于自动呼叫分配(ACD),ACD服务器借此可以完成基于数值的入电话呼叫排队。最后,交互语音响应系统可以结合IP电话,其中响应作为工作流组件在服务器中进行预编程。尽管如此,语音识别和语音合成应用(“语音应用”)在IP电话使用中仍然落后。
尤其,针对实时音频信号运行的语音应用,不能忍受传统数据通信相关的等待时间。这样,在语音应用被结合入IP电话拓扑中的场合,语音应用与IP电话服务器紧密结合以便预先排除基于网络的时延的负面影响。因此,设计和开发这样的IP电话使语音应用能够与IP电话服务器的专有特性紧密联接在一起。
语音应用和IP电话服务器之间的紧密联接实质上限制了语音应用的设计和扩展。尤其,在现有模式中,语音应用设计必须包括直接涉及选定协议将已经打成分组的语音数据传输到语音识别系统并从语音合成系统发送语音数据的功能。高级语音传输协议(本质上是IP电话服务器和语音应用的紧密联接)的发展能够迫使语音应用进行再设计。因而,这就需要一个基于VoIP的语音系统,其中语音应用的设计和实现要与IP电话系统的设计和实现保持分离。
本发明的一个目的是提供基于VoIP的语音系统,其中保持语音应用的设计和实现与IP电话系统的设计和实现相分离。本发明的进一步目的是提供一个启动VoIP的语音服务器,它能通过VoIP网接收来自IP电话系统的音频输入。本发明的另一个目的是提供一种方法,在VoIP网内将语音应用连接到电话网关服务器。最后,本发明的目的是提供每个基于VoIP的语音系统、启动VoIP的语音服务器和方法,用于通过使用到VoIP网、电话网关服务器和语音应用的基于标准的接口将语音应用连接到电话网关服务器。
本发明的这些和其他目的在基于VoIP的语音系统中实现,该系统包括VoIP电话网关服务器;至少一个语音服务器,每个语音服务器包含一个启动VoIP的语音应用;在VoIP电话网关服务器和语音服务器之间的遵从VoIP的呼叫控制接口;和,在VoIP电话网关服务器和至少一个语音服务器中的语音应用之间的一条VoIP通信通路。在基于VoIP的语音系统中,VoIP电话网关服务器和语音应用能够通过遵从VoIP的呼叫控制接口建立VoIP通信通路。
在运行中,VoIP电话网关服务器能够从电话接口接收音频信号,将音频信号数字化成数字化音频数据,将数字化音频数据压缩成遵从VoIP的分组,并使用VoIP协议通过VoIP通信通路将遵从VoIP的分组传送到在至少一个语音服务器中的语音应用。相应的,语音应用能够接收遵从VoIP的分组,根据遵从VoIP的分组重构数字化音频数据,以及对数字化音频数据进行语音-到-文本的转换。而且,语音应用能够将文本合成到数字化音频数据中,在遵从VoIP的分组中封装数字化音频数据,并将遵从VoIP的分组通过VoIP通信通路传送到VoIP电话网关服务器。然后,VoIP电话网关服务器接收遵从VoIP的分组,根据遵从VoIP的分组重构数字化音频数据并通过电话接口传送该数字化音频数据。
在本发明的一个方面中,VoIP电话服务器能够包括一个电话接口和一个VoIP关守。VoIP关守能够通过电话接口接收话音呼叫,而且对此进行响应,VoIP关守能够从语音服务器中选择一个语音服务器。一旦语音服务器被选定,VoIP关守通知选定语音服务器中的启动VoIP的语音应用已接收到话音呼叫。
在本发明的另一方面中,语音服务器能够包含语音识别引擎;文本-到-语音引擎;用于通过VoIP电话网关服务器建立话音呼叫连接的呼叫控制接口;和,音频数据通路。注意,音频数据通路能通过已建立的话音呼叫连接将音频数据从数据流方式传送到语音识别引擎。类似的,音频数据通路能够通过已建立的话音呼叫连接从文本-到-语音引擎将音频数据以数据流方式传送出去。
在本发明的另一方面中,语音应用可以是一个语音浏览器。语音浏览器能够响应于VoIP通信通路上收到的话音指令取回Web内容。而且,语音浏览器能够将取回的Web内容进行语音合成变为音频数据。最后,语音浏览器能够将音频数据通过VoIP通信通路传送到VoIP电话网关服务器。值得注意的是,Web内容可以是话音XML文件。
优选的,语音服务器可以使用到VoIP电话网关服务器、VoIP通信通路和语音应用的基于标准的接口来实现。尤其,语音服务器可以包含语音识别引擎;文本-到-语音引擎;JSAPI语音接口;一个JTAPI电话接口;和一个JMF媒体接口。JTAPI电话接口能够建立一个话音呼叫连接,以便在电话网关服务器和语音应用之间传送数字音频数据。JMF媒体接口能够建立数据通路,以便在语音应用和话音呼叫连接之间传送数字音频数据。JSAPI语音接口能够将数字化音频数据从语音应用传送到语音识别引擎。类似,JSAPI语音接口能够将语音合成音频数据从文本-到-语音引擎传送到语音应用。
本发明还能在启动VoIP的语音服务器中实现,语音服务器包括能够被配置以便通过VoIP通信通路与VoIP电话网关服务器通信的语音应用。启动VoIP的语音服务器还包含到VoIP电话网关服务器的遵从VoIP的呼叫控制接口,此遵从VoIP的呼叫控制接口建立VoIP通信通路。在运行中,语音应用能够通过VoIP通信通路从VoIP电话网关服务器接收遵从VoIP的分组。然后,根据遵从VoIP的分组重构数字化音频数据,然后对数字化音频数据进行语音-到-文本的转换。而且,文本能够被合成到数字化音频数据中,而数字化音频数据被封装成能够通过VoIP通信通路传送到电话网关服务器的、遵从VoIP的分组。
在启动VoIP的语音服务器的另一方面中,启动VoIP的语音服务器包括语音识别引擎、文本-到-语音引擎和音频数据通路。音频数据通路能够通过已建立的话音呼叫连接将音频数据以数据流方式传送到语音识别引擎。而且,音频数据通路能够通过已建立的话音呼叫连接从文本-到-语音引擎将音频数据以流方式传送出去。
优选的,语音应用是语音浏览器。语音浏览器能够响应于VoIP通信通路上收到的话音指令取回Web内容。而且,语音浏览器能够将取回的Web内容进行语音合成变为音频数据。然后,语音浏览器能够将音频数据通过VoIP通信通路传送到VoIP电话网关服务器。值得注意的是,Web内容可以是话音XML文件。
优选的,启动VoIP的语音服务器可以通过使用到VoIP电话网关服务器、VoIP通信通路和语音应用的基于标准的接口来实现。尤其,启动VoIP的语音服务器包含JTAPI电话接口,以便在电话网关服务器和语音应用之间建立一个用于传送数字音频数据的话音呼叫连接。而且,启动VoIP的语音服务器还包含JMF媒体接口,以便在语音应用和话音呼叫连接之间建立一个用于传送数字音频数据的数据通路。最后,启动VoIP的语音服务器还包含JSAPI语音接口,以便能够将数字化音频数据从语音应用传送到语音识别引擎,而且能够将语音合成的音频数据从文本-到-语音引擎传送到语音应用。
最后,本发明包含一种方法,它能在VoIP网中将语音应用连接到电话网关服务器上。此方法包括步骤与VoIP电话网关服务器建立一个VoIP通信通路并配置语音应用以便通过已建立的VoIP通信通路和电话网关服务器进行通信。而且,通过已建立的VoIP通信通路从电话网关服务器接收遵从VoIP的分组。根据遵从VoIP的分组重构数字化音频数据,然后,对数字化音频数据进行语音-到-文本的转换。而且,该方法包含步骤将文本合成到数字化音频数据;将数字化音频数据封装成遵从VoIP的分组;并且通过VoIP通信通路将遵从VoIP的分组传送到电话网关服务器。
在优选实施方案中,此方法进一步包括步骤响应于VoIP通信通路上收到的语音识别话音指令取回Web内容;将取回的Web内容合成为音频数据;将音频数据通过VoIP通信通路传送到电话网关服务器。值得注意的是,Web内容可以是话音XML文件。
在附图中显示了现有优选实施方案,可以理解本发明不局限于这里显示的精确方案和手段。


图1图解说明根据本发明的基于VoIP的语音系统。
图2是图1中VoIP电话网关服务器的优选结构图。
图3是图1中语音服务器的优选结构图。
本发明是一个基于IP承载语音(“VoIP”)的语音系统,其中语音服务器可以被连接到VoIP网中的电话网关服务器。电话网关服务器可以从外部电话网络接收话音呼叫,例如公用交换电话网络(“PSTN”),综合业务数字网(“ISDN”)等等。语音服务器包括能够通过VoIP通信通路接收从电话网关服务器产生的话音呼叫的实时话音输入的语音应用。类似,语音应用能够通过VoIP通信通路将语音合成音频数据传送到电话网关服务器,并且最终到达外部电话网络的终接点。值得注意,语音应用能够通过话音呼叫接收语音浏览器指令,作为其响应,语音应用从外部Web服务器上取回Web内容。而且,Web内容可以进行语音合成并且也通过VoIP通信通路传输,作为话音呼叫的一部分。在优选实施方案中,Web内容可以为话音XML文件。
图1说明根据优选实施方案的基于VoIP的语音系统。注意,本领域中众所周知,VoIP规范可以使用若干公开标准,例如H.323、SIP和MGCP来实现。但是,本发明采用H.323,虽然本发明不只局限于这种VoIP特定实现。如图1所示,在运行中,用户可以使用电话设备1发起话音呼叫。话音呼叫尝试通过电话网络2(例如PSTN或ISDN)与VoIP电话网关服务器3相连。VoIP电话网关服务器3将话音呼叫的预定接收者的地址转换成内置于VoIP网4内的设备的IP地址,在此例中该设备为启动VoIP的语音服务器5。然后,VoIP电话网关服务器3向启动VoIP的语音服务器5通知启动VoIP的语音服务器5可接受的话音呼叫。接收到话音呼叫后,启动VoIP的语音服务器5在VoIP电话网关服务器3和启动VoIP的语音服务器5之间建立VoIP通信通路,这样音频数据的遵从VoIP的分组能够在VoIP电话网关服务器3和启动VoIP的语音服务器5之间传输。这种方式下,源自电话设备1的音频数据能够在启动VoIP的语音服务器5内被接收并处理。同样,源自启动VoIP的语音服务器5的音频数据能够传送回电话设备1。
尤其,在优选实施方案中,启动VoIP的语音服务器5能够接收发自电话设备1的话音指令以便从数据通信网6的Web服务器7取回Web内容。Web内容8具体地可以是话音XML文件8。作为回应,启动VoIP的语音服务器5能够从Web服务器7取回话音XML文件8并根据包含在话音XML文件8中的指示合成音频数据。然后,合成的音频数据通过VoIP网4传送到VoIP电话网关服务器3并最终传送到电话设备1。
图2说明图1中的VoIP网4并包含了VoIP电话网关服务器3更具体的说明。如图2所示,VoIP电话网关服务器3能够通过电话网络2从电话设备1中接收送入电话接口11的话音呼叫。电话接口11对话音呼叫预定接收者的地址进行转换,并相应地定向该话音呼叫。特定的,在优选实施方案中,VoIP关守14包含在VoIP电话网关服务器3中,以便为VoIP电话网关服务器3提供呼叫管理功能。尤其,VoIP关守14能够完成负载-平衡功能,以便保证能够接收话音呼叫的启动VoIP的语音服务器5的高可用性。
因此,在电话接口11接到话音呼叫后,呼叫控制可以通过呼叫控制接口13传送到VoIP关守14。尤其,VoIP关守14能够通过数据通路17和VoIP电话网关服务器3的其他组件通信。而且,呼叫控制接口13可以包含在VoIP关守14中,以便控制通过VoIP关守14处理的话音呼叫的建立、进行和终止。因为VoIP的优选实现是基于RTP的H.323标准的实现,所以呼叫控制接口13是基于H.323的呼叫控制接口。
然后,此控制被传送到VoIP关守14,使用高级呼叫管理功能15的呼叫处理器16检验VoIP网4中每个启动VoIP的语音服务器5的状态并确定VoIP网4中最适合接收话音呼叫的启动VoIP的语音服务器5。结果,VoIP关守选择一个合适的启动VoIP的语音服务器5并向这个选定的启动VoIP的语音服务器5通知话音呼叫。
接收到通知后,选定的启动VoIP的语音服务器5在VoIP电话网关服务器3和启动VoIP的语音服务器5之间建立一个VoIP通信通路18,通过此通路传输遵从VoIP的分组。然后,电话接口11将包含在话音呼叫中的音频信号进行数字化成为数字化音频数据,将此数字化音频数据压缩成遵从VoIP的分组并使用VoIP协议通过VoIP通信通路18把遵从VoIP的分组传送到选定的启动VoIP的语音服务器5。
值得注意的,本发明并不局限于VoIP电话网关服务器3的特定安排。尤其,将VoIP关守14描述为独立于VoIP电话网关服务器3其余组件的单独实体并不意味要这样限制本发明。而是图2中VoIP关守14的放置只是为了达到说明的目的。而且,本发明关于VoIP电话网关服务器3与VoIP关守结合的范围仅仅是因为要求VoIP电话网关服务器3能接收话音呼叫而VoIP关守14能在VoIP网4中通过识别适合于此话音呼叫的终端来进行呼叫管理而受限制。
图3说明图1中启动VoIP的语音服务器5的优选结构。启动VoIP的语音服务器5能够用常规网络服务器来实现,常规网络服务器传统上包括中央处理单元(CPU)和内部存储设备,例如随机存取存储器(RAM)21和固定存储器22,如硬盘驱动器(HDD)。因为启动VoIP的语音服务器5支持话音操作,所以启动VoIP的语音服务器5还包括音频电路(未显示)以便提供为启动VoIP的语音服务器5提供音频处理能力。
启动VoIP的语音服务器5能够在固定存储器22存储操作系统23中,在操作系统23之上可执行各种应用程序。而且,固定存储器22能够存储语音应用24和VoIP电话模块25。操作系统23包括任一合适的操作系统,例如微软的Windows NT、Sun Solaris或DebianLinux。值得注意的,本发明在语音应用24和VoIP电话模块25的安排与操作系统23的相关的问题上不受限制。而是,每一个都可以以各种结合形式与另一个集成在一起。例如,VoIP电话模块25可以被集成进操作系统23。或者,VoIP电话模块25保持与操作系统23的独立。
而且,本发明不受限于VoIP电话模块25、语音应用24和其组件的存储位置。而是,本发明能够在更复杂的分布式系统中实现,其中各个组件驻留在多个网络服务器中并且在相距甚远的过程地址中执行,每个应用通过众所周知的过程间通信机制进行通信,例如TCP/IP。当启动VoIP的语音服务器5自举时,操作系统23被装载到RAM21中。然后,语音应用24和VoIP电话模块25被装载到RAM21中并在其中执行。一旦执行,启动VoIP的语音服务器5就被配置为通过VoIP通信通路接收话音呼叫和后续的数据。
语音应用24包含语音识别引擎34和文件-到-话音引擎35。在运行中,启动VoIP的语音服务器5能够接收遵从VoIP的分组,并根据遵从VoIP的分组重构数字化音频数据,并在语音识别引擎34中对数字化音频数据进行话音-到-文本的转换。相反,语音应用24能够在文本-到-语音引擎35中将文本合成为数字化音频数据,将数字化音频数据封装到遵从VoIP的分组中,并通过VoIP通信通路18将这些遵从VoIP的分组传送到VoIP电话网关服务器3。
优选实施方案中,语音应用包括语音浏览器30。值得注意的,语音浏览器30能够响应于VoIP通信通路18上收到的话音指令取回Web内容,由语音识别引擎34进行话音-到-文本的转换,并由语音浏览器30中进行解译。而且,语音浏览器30将接收的Web内容传送到话音-到-文本引擎35以便在通过VoIP通信通路18将语音合成的音频数据传输到VoIP电话网关服务器3前进行语音合成。
优选的,语音应用能够使用基于标准的、到VoIP通信、语音识别和语音合成功能的接口来实现。尤其,语音应用24包括在语音识别和文本-到-语音引擎34,35以及语音浏览器30之间的JSAPI语音接口33。而且,语音应用24还包括在电话模块25和语音浏览器30之间的JIAPI电话接口31。最后,语音应用24还包括在电话模块25和音浏览器30之间的JMF媒体接口32。
语音浏览器30使用JTAPI电话接口31建立话音呼叫连接以便在电话网关服务器3和语音应用24之间传输包含数字音频数据的遵从VoIP的分组。JMF媒体接口32建立VoIP通信数据通路以便在语音应用24和话音呼叫连接之间传输包含数字音频数据的遵从VoIP的分组。JSAPI语音接口33能够将数字化音频数据从语音应用24传递给语音识别引擎34。类似,JSAPI语音接口33能够将语音合成的音频数据从文本-到-语音引擎35传递给语音应用24。
本发明的基于VoIP的语音系统允许用户使用电话访问Web站点。用户可以听见描述Web站点及其特性的语音提示。这样,基于VoIP的语音系统的呈现就类似于综合语音响应系统。在Web站点的显示中,用户可向基于VoIP的语音系统提供口头指令以便选择可选项并输入信息来完成基于Web的表格等。基于VoIP的语音系统可方便地取回包含作为其网页描述性语言的话音XML的Web内容。
本发明一个重要单元是语音服务器,它能使用众所周知的标准VoIP协议H.323协议发送和接收音频和控制消息。使用VoIP协议允许语音服务器与语音系统的其他单元保持隔离,因此允许语音服务器更好地进行优化。使用单独的语音服务器还显著地简化了开发进程,因为它使语音服务器从与大量可用电话硬件设备之一进行交互口的细节中解脱出来。最后,使用单独的启动VoIP的语音服务器允许语音服务器在不需要特殊开发工作情况下,与支持标准的H.323或其他VoIP协议的任一VoIP电话系统共同使用。
依照本发明方案的基于VoIP的语音系统具有将语音服务器从与电话网络接口的电话网关服务器中的电话硬件和软件细节中隔离出来的优点。而且,本发明的优选实施方案结合了标准协议用于传输音频和呼叫控制信息给语音服务器,这样就简化和优化了同型产品的设计。另外,结合标准协议用于传输音频和呼叫控制信息给语音服务器允许语音服务器可以对广泛的支持标准VoIP协议的电话硬件和软件进行操作。
本发明还包括将语音应用连接到VoIP电话网关服务器上的方法。此方法能够用硬件、软件或二者结合的方式实现。根据本发明的机器可读存储器可在一个计算机系统中以集中方式实现,或者以不同单元散布于若干彼此互连的计算机系统中的分布方式实现。任何种类的适于实现这里描述的方法的计算机系统或其他装置均可接受。典型的硬件和软件组合可以是通用目的计算机系统和一个计算机程序,当所述程序被装载并执行时,控制计算机系统以便实现这里描述的方法。本发明还可被嵌入一个计算机程序产品中,它包含实现这里描述的方法的所有特性,并且,当装载到计算机系统中时它能够实现这些方法。
本文中的计算机程序意指可以用任何语言、代码或符号来表达一组指令,目的是使系统具有信息处理能力以便完成特定功能,特定功能可直接完成或者在下面任一或两个步骤后完成(a)转换成其他语言、代码或符号;和(b)以不同材料形式再现。在此公开的本发明可以是嵌入计算机程序中的一种方法,它能由程序员使用用于上面描述的操作系统23的商用开发工具来实现。
权利要求
1.基于IP承载语音(“VoIP”)的语音系统包含一个VoIP电话网关服务器;至少一个语音服务器,每个语音服务器包含一个语音应用;一个在所述VoIP电话网关服务器和所述语音服务器之间的遵从VoIP的呼叫控制接口;和一条在所述VoIP电话网关服务器和在所述的至少一个语音服务器中的所述语音应用之间的VoIP通信通路;所述VoIP电话网关服务器和所述语音应用通过遵从VoIP的呼叫控制接口建立所述VoIP通信通路;所述VoIP电话网关服务器从电话接口接收音频信号,将音频信号数字化成数字化音频数据,将所述数字化音频数据压缩成遵从VoIP的分组,并使用所述VoIP协议通过所述VoIP通信通路将该遵从VoIP的分组传送到在所述至少一个语音服务器中的语音应用;在至少一个所述语音服务器中的所述语音应用接收所述遵从VoIP的分组,根据该遵从VoIP的分组重构所述数字化音频数据,并对该数字化音频数据进行语音-到-文本的转换;至少一个所述语音服务器中的所述语音应用将文本合成为数字化音频数据,在遵从VoIP的分组中封装该数字化音频数据,并将该遵从VoIP的分组通过VoIP通信通路传送到VoIP电话网关服务器;所述VoIP电话网关服务器接收所述的遵从VoIP的分组,根据该遵从VoIP的分组重构所述数字化音频数据,并通过所述电话接口传输该数字化音频数据。
2.权利要求1说明的基于VoIP的语音系统,其特征在于,其中所述的VoIP电话网关服务器包含一个电话接口;和,一个VoIP关守;所述VoIP关守通过所述电话接口接收话音呼叫;所述VoIP关守从所述的至少一个语音服务器中选择一个语音服务器;所述VoIP关守通知该选定语音服务器中的启动VoIP的语音应用已接收到所述话音呼叫。
3.权利要求1说明的基于VoIP的语音系统,其特征在于,其中所述的至少一个语音服务器包含一个语音识别引擎;一个文本-到-语音引擎;一个用于通过VoIP电话网关服务器建立话音呼叫连接的呼叫控制接口;和,一个音频数据通路;所述音频数据通路通过所述已建立的话音呼叫连接将音频数据以数据流形式传送到语音识别引擎;所述音频数据通路通过所述已建立的话音呼叫连接从文本-到-语音引擎将音频数据以数据流形式传送出去。
4.权利要求1说明的基于VoIP的语音系统,其特征在于,其中所述的语音应用是语音浏览器,所述语音浏览器响应于VoIP通信通路上收到的话音指令取回Web内容,所述语音浏览器将该取回的Web内容进行语音合成变为音频数据,所述语音浏览器通过VoIP通信通路将该音频数据传送到所述VoIP电话网关服务器。
5.权利要求4说明的基于VoIP的语音系统,其特征在于,其中所述Web内容是话音XML文件。
6.权利要求1说明的基于VoIP的语音系统,其特征在于,其中所述的至少一个语音服务器包含一个语音识别引擎;一个文本-到-语音引擎;一个JSAPI语音接口;一个JTAPI电话接口;和,一个JMF媒体接口;所述JTAPI电话接口在所述VoIP电话网关服务器和所述语音应用之间建立一个用于传送数字音频数据的话音呼叫连接;所述JMF媒体接口在所述语音应用和所述话音呼叫连接之间建立一条用于传送所述数字音频数据的数据通路;所述JSAPI语音接口将所述数字音频数据从所述语音应用传送到所述语音识别引擎;所述JSAPI语音接口将所述语音合成音频数据从所述文本-到-语音引擎传送到所述语音应用。
7.启动IP承载语音(“VoIP”)的语音服务器包括一个语音应用,所述语音应用被配置成通过VoIP通信通路与VoIP电话网关服务器通信;和一个到所述VoIP电话网关服务器的遵从VoIP的呼叫控制接口,该遵从VoIP的呼叫控制接口建立所述VoIP通信通路;所述语音应用能够通过所述VoIP通信通路从所述VoIP电话网关服务器接收遵从VoIP的分组,根据该遵从VoIP的分组重构数字化音频数据,并对该数字化音频数据进行语音-到-文本的转换。
8.权利要求7说明的启动VoIP的语音服务器,其特征在于,所述语音应用将文本合成为数字化音频数据,在遵从VoIP的分组中封装该数字化音频数据并将该遵从VoIP的分组通过VoIP通信通路传送到所述电话网关服务器。
9.权利要求7说明的启动VoIP的语音服务器,其特征在于,还包含一个语音识别引擎;一个文本-到-语音引擎;和,一个音频数据通路;所述音频数据通路通过所述已建立的话音呼叫连接将音频数据以数据流形式传送到语音识别引擎;所述音频数据通路通过所述已建立的话音呼叫连接从文本-到-语音引擎将音频数据以数据流形式传送出去。
10.权利要求7说明的启动VoIP的语音服务器,其特征在于,其中所述语音应用是一个语音浏览器,所述语音浏览器响应于所述VoIP通信通路上收到的话音指令取回Web内容,所述语音浏览器将所述取回的Web内容进行语音合成变为音频数据,该语音浏览器将音频数据通过所述VoIP通信通路传送到所述VoIP电话网关服务器。
11.权利要求10说明的启动VoIP的语音服务器,其特征在于,其中所述Web内容是话音XML文件。
12.权利要求7说明的启动VoIP的语音服务器,其特征在于,其中所述遵从VoIP的呼叫控制接口是JTAPI电话接口,用于在所述VoIP电话网关服务器和所述语音应用之间建立一个用于传送数字音频数据的话音呼叫连接。
13.权利要求12说明的启动VoIP的语音服务器,其特征在于,还包含一个语音识别引擎;一个文本-到-语音引擎;一个JSAPI语音接口;和一个JMF媒体接口;所述JMF媒体接口在所述语音应用和所述话音呼叫连接之间建立一条用于传送数字音频数据的数据通路;所述JSAPI语音接口将所述数字音频数据从所述语音应用传送到所述语音识别引擎;所述JSAPI语音接口将所述语音合成音频数据从所述文本-到-语音引擎传送到所述语音应用。
14.一种在VoIP网络中将语音应用连接到IP承载语音(“VoIP”)的电话网关服务器上的方法,它包含步骤建立与VoIP电话网关服务器的一条VoIP通信通路,配置所述语音应用以便通过已建立的VoIP通信通路与VoIP电话网关服务器通信;通过已建立的VoIP通信通路从VoIP电话网关服务器接收遵从VoIP的分组;根据该遵从VoIP的分组重构所述数字化音频数据,并对该数字化音频数据进行语音-到-文本的转换。
15.权利要求14说明的方法,其特征在于,进一步包含步骤将文本合成为数字化音频数据;在遵从VoIP的分组中封装该数字化音频数据;并将遵从VoIP的分组通过所述VoIP通信通路传送到VoIP电话网关服务器。
16.权利要求14说明的方法,其特征在于,进一步包含步骤响应于所述VoIP通信通路上收到的语音识别话音指令取回Web内容;将所述取回的Web内容合成为音频数据;并将该音频数据通过所述的VoIP通信通路传送到VoIP电话网关服务器。
17.权利要求16说明的方法,其特征在于,其中所述Web内容是话音XML文件。
18.一种机器可读存储器,其上存储用于在VoIP网络中将语音应用连接到IP承载语音(“VoIP”)的电话网关服务器的计算机程序,所述计算机程序有若干机器可执行的代码部分用于使机器执行下列步骤建立与VoIP电话网关服务器的一条VoIP通信通路,配置所述语音应用以便通过已建立的VoIP通信通路与VoIP电话网关服务器通信;通过已建立的VoIP通信通路从VoIP电话网关服务器接收遵从VoIP的分组;根据该遵从VoIP的分组重构数字化音频数据;并对该数字化音频数据进行语音-到-文本的转换。
19.权利要求18说明的机器可读存储器,其特征在于,用于进一步使机器完成步骤将文本合成为数字化音频数据;在遵从VoIP的分组中封装该数字化音频数据;并将遵从VoIP的分组通过所述VoIP通信通路传送到VoIP电话网关服务器。
20.权利要求18说明的机器可读存储器,其特征在于,用于进一步使机器完成步骤响应于所述VoIP通信通路上收到的语音识别话音指令取回Web内容;将所述取回的Web内容合成为音频数据;并将该音频数据通过所述的VoIP通信通路传送到VoIP电话网关服务器。
21.权利要求18说明的机器可读存储器,其特征在于,其中所述Web内容是话音XML文件。
全文摘要
启动VoIP的语音服务器包括能够被配置成通过VoIP通信通路与VoIP电话网关服务器通信的语音应用。该语音服务器还包括到该电话网关服务器的遵从VoIP的呼叫控制接口。语音应用能够通过VoIP通信通路从该电话网关服务器接收遵从VoIP的分组。根据该遵从VoIP的分组重构数字化音频数据,并对该音频数据进行语音-到-文本的转换。而且,该文本能够被合成为数字化音频数据,以及封装到遵从VoIP的分组中,并通过VoIP通信通路传送到电话网关服务器。
文档编号H04L12/64GK1329433SQ0112108
公开日2002年1月2日 申请日期2001年6月18日 优先权日2000年6月19日
发明者A·M·奥尔德斯, 小J·塞利, B·加瓦格尼, K·勒安蒂德斯, B·D·鲁卡斯, D·E·赖克 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1