通信会话中在话音和文本交换形态之间切换的方法和系统的制作方法

文档序号：7667138阅读：211来源：国知局

专利名称：通信会话中在话音和文本交换形态之间切换的方法和系统的制作方法
技术领域：
本发明涉及自动语音系统领域，并且更特别地，涉及在针对基于文本的交互服务所扩展的语音应用环境中，对形态之间进行切换的切换条件进行推断。
背景技术：
交互话音响应(IVR)系统通常用以经由通信网络的话音信道来提供自动的客户服务。IVR系统允许快速、有效并且自动地处理常规用户请求。当请求是非常规的、或者当呼叫者利用IVR系统有困难时，可以从IVR系统向客户服务代表执行转接。甚至当需要人工交互时，IVR系统可获取必要的预备信息，诸如账户号码和呼叫原因，这可以确保将呼叫者路由至适合的人工代理，并且确保将人工对人工的交互时间最小化。IVR系统的成功使用允许将呼叫中心的人工操作最小化，同时向客户提供高水平的服务，在等待队列中花费相对较少的周期。
IVR系统，特别是鲁棒的IVR系统具有自然语言理解(NLU ) 能力和/或大的上下文自由语法，这需要极大的财力和技术投资。该投资包括用于购买和维护IVR基础设施硬件、IVR基础设施软件、以及在此基础设施之上执行语音应用的开销。额外和显著的重复产生的开销涉及对用以处理预期的呼叫量的大量话音质量信道的维护。此外，这些信道中的每个信道消耗话音服务器的可用端口，该话音服务器具有有限数目的昂贵的端口。每个信道还消耗用于在呼叫者和IVR系统之间建立话音质量信道所需的带宽数量。
在题为 "Using an Automated Speech Application Environment to Automatically Provide Text-Based Interactive Services" 的共有未决专利申请No.l 1/612,996中详述了一种用于将IVR基础设施进行扩展以允许基于文本的交互服务的创新方案。更具体地，该共有未决申请提出了一种称作Chatbot (聊天机器人)的聊天机器人对象，其可将从文本消息接发客户端接收的文本动态地转换至可由话音服务器使用的输入，并且可将话音服务器的输出动态地转换至针对客户端适当设置格式的文本。从话音服务器的角度，以相同的方式并且利用用于处理基于话音交互的相同硬件/软件来处理与文本消息接发客户端的基于文本的交互。增强的语音应用环境允许在形态之间进行切换的可能性，而无须中断现有的通信会话，这在题为"Switching Between Modalities in a Speech Application Environment Extended for Text-Based Interactive Services"的共有未决专利申请No.l 1/613,040 中进行了详细描述。
对于文本消息接发形态以及对于话音形态，存在不同的优,泉。在文本形态中，例如，用户可能难以输入长的响应。当用户打字技巧较差或者使用资源受到约束的设备(例如，智能电话(Smartphone )) 的不方便的小键盘来输入文本时，这尤其显著。在话音形态中，语音识别引擎可能难以理解带有浓重口音的讲话者、或者使用模糊的方言的讲话者。语音识别引擎还可能难以理解通过低质量话音信道传送的语音。此外，当对诸如名称和街道地址的专有名词进行语音识别时，语音识别引擎可能具有较低精度。在所有这些情况下，通过从话音形态切换至文本消息接发形态可以很容易地克服这些困难。在通信会话期间，已知的系统不具有在话音和文本形态之间进行切换的能力。关于推断的形态切换的教导并非是现有的。

发明内容
本发明提出了一种方案，该方案适用于具有多个交互形态的通信系统，该通信系统允许用户在通信会话期间动态地切换形态。例如，在与自动响应系统(诸如，IVR)进行通信会话的同时，用户可
以在文本〉'肖息接发形态和语音形态之间动态地切换。根据通信会话的条件，本发明可以推断切换形态的需要。当推断出这种需要时，可进行与形态转移相关联的程序性动作。
例如，可以对用户进行提示以切换形态，可以自动进行形态切换，或者可以向通信会话自动添加新的形态，这导致了多模式的通信会话或者双模式的通信会话。在多模式通信会话中，针对通过单一通信信道进行通信的单一设备/客户端应用，可允许多于一个的输入/输出形态(例如，语音和文本)。在双模式通信会话中，在交互通信会话期间可以使用分别与不同形态和/或通信信道相关联的不同设备(例如，电话和计算机)。也就是说，用户可通过对电话说出响应、或者通过向文本消息接发客户端输入响应来对会话提示做出响应，两种响应都产生等效的结果。
应该理解，用于提供话音和文本消息接发服务的传统方案在分离的并且不同的服务器中执行每种服务。这些服务器中的每个服务器包括针对特定形态定制的服务器专用应用。例如，可以在语音服
务器上执行对基于话音的交互进行控制的基于VoiceXML的应用，并且可以在文本消息接发服务器上执行对基于文本的交互进行控制的不同的基于XML的应用。
对于从文本会话向话音会话的转换(反之亦然)的任何尝试，将需要两个不同的服务器、应用以及通信会话彼此同步。例如，如果话音会话被切换至文本会话，则在用户和文本消息接发服务器之间必须发起新的文本会话。文本消息接发服务器必须针对该会话发起文本消息接发应用的实例。然后，必须将关于话音会话的状态信息中转至文本消息接发服务器和/或文本消息接发应用。最后，需要退出在语音服务器中执行的语音应用，并且终止在语音服务器和用户之间的原始话音会话。
通过使用基于文本的交互服务扩展的新颖的语音应用环境来克服在通信会话期间切换形态的这些困难。该语音应用环境可以包括 Chatbot服务器，该Chatbot服务器管理聊天机器人对象或者Chatbot。 Chatbot可以将从文本消息接发客户端接收的文本自动地转换至可由话音服务器使用的输入，并且针对客户端生成适当格式。例如， Chatbot服务器可以将文本消息接发输出引导至话音服务器的文本输入API,该话音服务器的文本输入API允许处理该文本。另外，由 Chatbot服务器可将话音标记输出转换成为相应的文本消息。扩展的环境可以使用未更改的、无需定制的文本消息接发软件，并且使用未更改的语音应用。此外，本方案不需要使用特殊的设备、协议、或者其他类型的通信装置。

在附图中示出了目前优选的实施方式，然而应该理解，本发明并不限于所示出的精确布置和手段。
图1是用于Chatbot服务器的系统的示意性图示，该Chatbot服务器允许根据推断的条件而在文本形态和话音形态之间进行平滑的用户切换，而并不中断现有的通信会话。
图2是根据在此公开的本发明的布置的一个实施方式的处理流程图，示出了在涉及话音客户端、文本交换客户端、话音客户端、 Chatbot服务器以及话音服务器的通信会话期间的推断的形态切换。
图3是根据在此公开的本发明的布置的一个实施方式的系统的示意性图示，该系统用于提供无缝的形态切换能力并且用于推断切换条件。
具体实施例方式
图1是用于Chatbot服务器114的系统100的示意性图示，其允许根据推断的条件而在文本形态和话音形态之间进行平滑的用户切换，而并不中断现有的通信会话。支持语音的应用119可以是 VoiceXML应用，诸如通常在联系中心部署的用于交互话音响应系统 (IVR)的应用。文本交换客户端接口 110可以是用于任何类型文本交换通信的接口，诸如使用SAMETIME、 TRILLIAN、 YAHOO!
MESSENGER等的即时消息(IM)通信、聊天通信、文本消息接发。话音接口 112可以是通过其进行实时语音通信的任何接口。例如，接口 112可以包括但不限于电话输入/输出U/0)接口、移动通信设备(例如，蜂窝电话)I/0接口、双向无线电I/0接口，和/或基于因特网协议的语音(VOIP)接口。
类似于大多数话音服务器，话音服务器118可以包括文本模式接口 106，该文本冲莫式接口 106通常由开发者、系统维护者和/或语音识别引擎的训练者所使用。例如，可以使用私有的、受限的或者标准化的(例如，MRCPv2 INTERPET)应用程序接口 (API)的集合来用于接口 106。通常在生产环境以内不可用或者无法访问的该 API的集合可以被激活来创建文本输入信道，相对于通常与在生产环境中操作的话音服务器118建立的话音信道来说，这种文本输入信道消耗相当小的计算资源。在大多数情况下，在生产话音服务器118 以内存在文本模式接口 106,但处于休眠。可以使能接口 106用于与 Chatbot服务器进行基于文本的交互。
以对应用服务器108透明的方式使用接口 106，并且由此对于应用119没有影响。也就是说，应用119和应用服务器108对于话音服务器118正在经由接口 106处理文本输入(相对于话音输入)保持未知。在任一情况下，由话音服务器118产生并发送至Chatbot 服务器114的输出也可以是相同的。此外，由应用服务器108产生并发送至Chatbot服务器114的输出可以是相同的。由此，可以由应用服务器108来同时处理多个通信会话、使用接口 106正在进行的一个或者多个基于文本的会话、以及基于话音的其他会话。可以实现系统110，而不必针对应用服务器108进行基础设施改变(并且假设存在接口 106,不必对话音服务器118进行改变)，并且不必改变支持语音的应用119的代码。甚至即使应用119对于文本交换交互缺少明确的编码支持、并且在没有本公开发明的情况下不能支持这种交互时，也是如此。此外，文本交换接口 110可以是任意的无需定制的文本交换软件，而不必修改为如系统100所示那样操作。在系统100中，Chatbot服务器114可获取121与支持语音的应用119相关联的话音标记123,其中Chatbot服务器114执行支持语音的应用119。 Chatbot服务器114还可以从接口 110对文本的输入 120进行中转以经由接口 106发送可由话音服务器118使用的文本 122。话音服务器118可以将输入和识别语法进行匹配，并且针对 Chatbot服务器114生成文本输出124。当执行应用时，Chatbot服务器114可使用此输出124。应用119处理此输出，这将产生响应输出，通常以诸如VoiceXML (其可进一步使用W3C语音合成标记语言或者SSML)的话音标记段的形式。当执行文本交换操作时，可以绕过由话音服务器118执行的常规语音合成操作。Chatbot服务器114可将响应的输出从标记动态转换成为文本的输出126,接口 IIO处理该文本的^T出126。例如，可以乂人应用119标i己(即，可以省略标i己标签)抽取标记标签之间所包含的文本的内容，并且将其包括在文本 126消息之中。
在通信会话期间，切换引擎115可执行从文本交换接口 110至话音接口 112的切换*燥作。可以以对应用119透明的方式来进行切换操作，并且可以进行该切换操作而无须中断通信会话。在切换之后，可从接口 112接收话音输入134,该话音输入134作为话音输入 136来传送至服务器118。作为响应，可以生成话音输出138,该话音输出138作为话音输出140传送至话音接口 112。
从接口100内部，用户可从一种形态切换至另一形态，这导致 Chatbot服务器114执行切换操作。可以按照对应用119透明的方式来进行此切换，并且可以无缝地保持现有通信会话的对话状态。
处于说明的目的，Chatbot服务器U4可从文本交换接口 IIO切换至话音接口 112。可通过诸如电话的单独设备来提供话音接口 112。在切换之后，话音输入134可作为输入136而路由至Chatbot服务器 114。 Chatbot服务器可向话音服务器118发送话音输入136,该话音服务器118产生文本结果138。在处理结果138之后，Chatbot服务器可生成新的标记，向话音服务器118发送(未示出)该标记，话音服务器H8返回(未示出)话音输出。可由Chatbot服务器114来将话音输出作为话音输出140传送至话音接口 112。
切换引擎115的一个特征在于推断模块，该推断模块自动检测交互问题条件的出现。在示出的流程图的步骤160中，可以建立这些条件。在步骤162中，在通信会话期间可以计算指示交互问题的值。在步骤164中，可以将所计算的值与一个或者多个形态切换阈值进行比较。在步骤166中，当超过阈值时，可触发与所超过阈值相关联的形态切换动作。在步骤168中，可以确定用于新形态的连接信息。必要时可查询用户或者用户机器。例如，当形态变化需要与电话(与话音接口 112相关联)建立新的电话连接时，则可能需要电话号码从而使得Chatbot服务器114可呼叫该电话。可通过用户输入接收该号码，或者可从先前建立的配置文档自动查找该号码。在步骤170中，可切换形态并且必要时关闭先前的通信信道。
在表180中示出了示意性的推断切换条件的集合，其并非旨在于穷尽的目的。不同条件可指示具有文本交换形态和具有语音形态的问题。在表180中，通过在值列中包括的符号"T-〉V"来指示可以通过切换至话音形态而校正的文本交换形态问题。使用符号 "V-〉T"来指示可通过切换至文本交换形态来校正的话音形态问题。可选地，不同条件具有与其相关联的严重程度级别的集合，其中对于较高的严重程度级别，形态问题也较大。
在表180中，与文本交换问题相关联的条件包括不适合的文本条目、过长的文本输入、输入之间的长延迟、以及上下文无关的输入。不适合的文本可以是指示担心或者用户受阻的文本。文本性誓言或者其它受阻指示性输入，诸如"$@#@"或者"****"是不适合文本的例子。过长文本输入的检测可指示话音形态可能更好地适用于输入捕获。当输入之间的长延迟结合有长的文本时，尤其如此，长延迟时间可指示用户正在通过难用的接口 (诸如，通过移动电话的小键盘)输入文本、或者仅指示用户并不是内行的输入人员。在输入之间的长延迟可指示出用户关于响应提示的正确方式的困惑，
和/或可指示用户难以输入响应。上下文无关的输入可指示与自动系统交互的问题，这可能通过文本交换形态的自由形式特征而有所恶化。用户重复提供上下文无关的输入将受益于切换至更为直接的接口，诸如对话驱动并且上下文约束的话音接口。
在表180中示出的与语音形态相关联的条件包括识别准确性问题和利用低质量话音信道的问题。识别准确性问题可由讲话者导致，其中该讲话者以不清楚的方式讲话，或者具有不易被话音服务器118所理解的浓重方言。另外，话音服务器118也难以识别许多名称、街道地址以及其他通常唯一的词语或者短语。另外，在接口 112和服务器118之间的低质量话音信道对于话音形态是有问题的，但是对于文本交换形态很少如此。
在一个实施方式中，问题条件的检测可导致立刻触发形态切换动作。在另一实施方式中，可建立权重(或者问题点)和阈值的集合，其中仅在产生足够数量的问题点从而到达或者超过一个或者多个动作阚值之后，才出现形态切换动作。表185提供了一个将不同阈值与不同切换动作相关联的表的例子。
如所示出，切换动作可向用户提示切换形态、或者切换动作可自动进行。切换动作还可从利用话音服务器118的自动交互切换至利用代理116的现场交互。另外，切换动作可以或者禁止现有通信形态、或者不依赖于环境。例如，当话音服务器U8难以理解从接口 112接收的语音输入时，可打开附加并且同步的文本交换信道，从而可通过接口 110和/或接口 112来发送/接收输入/输出。当可同时操作时，接口 110和接口 112可基于相同或者不同设备并且在相同接口 (例如，多模式接口 )或者不同接口以内进行操作。
图2是根据在此公开的发明性布置的一个实施方式的处理流程图200，示出了在涉及话音客户端202、文本交换客户端204、 Chatbot 服务器206、话音服务器208以及应用服务器209的通信会话期间的推断的形态切换。
话音服务器208可包括文本输入API，该文本输入API通常由开
发者、系统维护者和/或语音识别引擎的训练者所使用。通常在生产环境以内不可用或者不可访问的该API的集合可以被激活以允许话
音服务器208来直接利用文本，这相对于用来处理服务器208通常接收到的话音输入所需的计算资源来说，需要相当少的计算资源。
如所示出，客户端204可向Chatbot服务器206发送请求210，以初始化文本形态信道。Chatbot服务器206可向话音服务器208发送信道初始化消息212以建立会话。服务器208可积极地响应，使得在服务器206和服务器208之间建立信道214。然后，Chatbot服务器206可与客户端204建立所请求的文本信道216。在步骤216 之后，Chatbot服务器206可向应用服务器209发送请求217,这使得将支持语音的应用实例化。也就是说，应用标记220可被传送至 Chatbot服务器206以用于执行。
当Chatbot服务器206执行支持语音的应用119时，可出现应用发起的提示221。服务器206可将由应用119提供的标记转换222 成为由文本提示224表示的纯文本，向客户端204发送该文本提示 224。例如，可采用标记来书写提示221，并且包括
<pn w/^〉文本上下文〈/prom/ f〉
该文本4是示224仅包括文本上下文。客户端204可经由文本信道来响应226该提示。服务器206可将与响应226相同的响应228中转至话音服务器208。话音服务器208可经由程序性动作230将响应 228与语音语法进行匹配，这样产生文本结果232。话音服务器208 可将文本结果232传送至Chatbot服务器206。当Chatbot服务器206 执行正在执行应用119的应用逻辑243时，Chatbot服务器206使用此输出232，使得生成标记。Chatbot服务器206可将在所生成标记中包含的文本的内容转换236成为文本结果237,向客户端204发送该文本结果237。
话音服务器208可包括文本输入API,该文本输入API通常由开发者、系统维护者和/或语音识别引擎的训练者所使用。通常在生产
环境以内不可用或者不可访问的该API的集合可被激活以允许话音服务器208来直接利用文本，这相对于用以处理服务器208通常接收到的话音输入所需的计算资源来说，需要相当少的计算资源。
如所示出，客户端204可向Chatbot服务器206发送请求210, 以初始化文本形态信道。Chatbot服务器206可向服务器208发送信道初始化消息212，所述服务器208使用文本输入API。服务器208 可积极地响应，使得在服务器206和服务器208之间建立信道214。然后，Chatbot服务器206可与客户端204建立所请求的文本信道 216。
可从服务器208向服务器206通过话音信道发送提示220。服务器206可将由服务器208提供的标记转换222成为由文本提示224 表示的纯文本，向客户端204发送该文本提示224。例如，可采用标记来书写提示220，并且包括
<prow/ P"文本上下文〈/pro呼？〉转换222可抽取文本上下文(省略标记标签)并且生成文本提示224, 该文本提示224仅包括文本上下文。客户端204可经由文本信道来响应226该提示。服务器206可将与响应226相同的响应228中转至服务器208。服务器208可经由文本输入API来接收响应228。根据响应228,服务器208可采取一个或者多个程序性动作230。程序性动作可产生话音结果232,然后Chatbot服务器206可将标记内包含的文本的内容转换234成为仅为文本的结果236,向客户端204 发送该仅为文本的结果236。
然后，Chatbot服务器206可推断能够通过转移形态而緩解的潜在交互问题238。例如，在用户输入之间的长延迟以及长文本输入串可指示对于用户交互使用话音形态较为容易。形态切换提示239可传送至客户端204,其允许用户或者继续使用文本交换形态、或者切换至话音形态。可以看出，当由Chatbot服务器206检测到形态问题时，可执行不同动作。例如，可向用户提示以切换形态，可以自动执行形态切换，可随任何相关的形态切换来进行在话音服务器和人
工代理之间的切换。另外，不同的问题可引起进行实际切换，或者可引起打开通信的附加信道而无须关闭现有信道。
假设用户选择切换形态，则可将达到该效果的切换代码240传送至Chatbot服务器206。可选地，可由用户向服务器206提供用于话音设备202的电话号码。还可从先前存储的配置文档或者对话会话存储自动查找该电话号码。一旦Chatbot服务器206找到号码241, 则其可呼叫话音客户端202，由此建立242话音信道。然后，可选地，关闭243到客户端204的原始信道。也就是说，对于普通的通信会话，允许从每个客户端202 - 204进行并发的文本和话音输入/输出。
话音输入244可从话音客户端202传送至Chatbot服务器206，该Chatbot服务器206将话音输入245中转至话音服务器208。话音服务器208可对输入245进行语音识别，并向Chatbot服务器206提供识别结果248。执行支持语音的应用可将应用逻辑施加250至该结果，这生成标记252,该标记252传送至话音服务器208。可从标记 252生成话音输出254，通过Chatbot服务器206将该标记252作为话音输出255传送至话音客户端202。
最终，客户端202可向Chatbot服务器206发送结束会话请求 260,这关闭通往话音服务器208的信道262，并关闭通往话音客户端202的信道264。
图3是根据在此公开的发明性布置的一个实施方式的系统的示意性图示，该系统用于提供无缝的形态切换能力并且用于推断切换条件。图3的系统包括可通信地链接到通信设备310的网络360、 Chatbot服务器320、话音服务器330、应用服务器340以及企业服务器350。网络360可包括各种有线和/或无线组件的任何组件，这些组件共同允许将承载内所包含的数字编码的信息从任意可通信地链接的组件传送至任意其他可通信地链接的组件。
通信设备310可以是将客户302链接到网络360的任意通信设备。设备310可包括例如，移动电话、基于线路的电话、计算机、笔记本电脑、计算写字板、个人数字助理(PDA)、可穿戴计算设备、娱乐系统、交互媒体设备等。具体类别的设备310可包括文本交换设备312、话音通信设备314以及多模式设备316。
文本交换设备312是能够实时交互文本交换的计算设备。这些文本交换包括在线聊天、即时消息以及文本消息接发。通信设备 314可以是能够通过网络360进行实时话音通信的任何设备。这包括基于VoIP的通信、传统电路交换的通信、双向无线电通信等。多模式设备316是能够在文本交换和话音通信中使用的设备。某些多模式设备316在同一时刻限制于一个通信模式，而其他多模式设备能够跨多个模式并发地通信。
Chatbot服务器320可以是VoiceXML服务器或者等效设备，其能够将来自设备310的文本交换消息动态地转换至可由话音服务器 330使用的消息。文本输入API 344的使用(其使得话音服务器330 接受文本)允许由话音服务器330直接使用来自设备310的文本。 Chatbot服务器320还可以将来自话音服务器330的输出转换至由语音应用所使用的输出，并且然后使其在接口 318以内可呈现。
对于每个管理的通信会话，Chatbot服务器320可实例化Chatbot 对象324。 Chatbot对象324可包括SIP servlet和一个或者多个解译器，诸如呼叫控制可扩展标记语言(CCXML)解译器、话音可扩展标记语言(VoiceXML)解译器、可扩展超文本标记语言(XML)加话音配置文档(X + V)解译器、语音应用语言标签(SALT)解译器、媒体资源控制协议(MCRP)解译器、定制的标记解译器等。SIP servlet可将进入的SIP请求映射至适当的解i奪器。
服务器320的切换引擎323可允许客户302以对执行语音应用透明的方式切换形态。例如在通信会话期间，客户302可从文本交换接口 318切换至话音接口 319。该切换可引起关闭文本交换信道 370,并且建立话音信道371。 Chatbot服务器320可触发将要使用的或者不依赖于通过信道372传送的输入类型的文本输入API 344。在一个实施方式中，数据存储328可包括促进切换的信息，诸如存储与话音设备314相关联的电话号码，该话音设备314与话音接口 318
相关联。
服务器320的转换引擎322可执行任何必要的转换，以将来自文本交换设备312的的输出适配至可由话音服务器330使用的输入。通常，对于由话音服务器330使用的文本，不必进行显著的转换，这提供了经由API 344对文本模式交互功能的访问。可以看出，在测试和开发阶段，通常由开发者使用文本模式交互功能，但是在这里是在运行时间使用该文本模式交互功能以允许话音服务器330直接处理文本。例如，因特网工程任务组(IETF)标准媒体资源控制协议版本2 ( MRCPv2 )包含称作INTERPRET的用于语音识别器资源的文本模式解译功能，这将允许话音服务器330直接处理文本。
通常，应用服务器340将生成诸如VoiceXML输出的话音标记输出，话音服务器330将该话音标记输出转换至音频输出。转换引擎322可从话音标记抽取文本内容，并且可将所抽取的文本通过信道370传送至通信设备310。
应用服务器340可以是应用服务器，该应用服务器使用标准化运行时间平台的模件组件。应用服务器340可表示多层(multi-tier) 环境的中间件服务器。运行时间平台可针对开发分布式、多层、基于Web的应用提供功能性。运行时间平台还包括服务、应用编程接口以及协议的标准集合。也就是说，运行时间平台可允许开发者创建在多个平台之间可扩展并且可转移的企业应用。运行时间平台可包括相关技术规范的收集，这些相关技术规范描述了所需应用程序接口 (API)和服从的策略。
在一个实施方式中，运行时间平台可以是JAVA 2 PLATFORM ENTERPRISE EDITION (J2EE)软件平台。因而，应用服务器340 可以是服从J2EE的应用服务器，诸如来自位于纽约州阿芒克市的国际商业机器公司的WEBSPHERE应用服务器、来自位于加利福尼亚州圣何塞市的BEA Systems公司的BEA WEBLOGIC应用服务器、来自位于佐治亚州亚特兰大市的JBoss公司的JBOSS应用服务器、来自ObjectWeb Consortium的JOnAS应用服务器，等等。运行时间
平台并非解释为限制在这一方面，并且这里也会考虑其它的软件平
台，诸如.NET软件平台。
IVR应用342可以是这样的应用，该应用允许呼叫者交互并且允许从企业服务器350的数据库接收信息。对VoiceXML服务器320 的访问(已经针对Chatbot 320进行扩展)可以接受使用触音 (touch-tone )信号、话音输入和文本输入的用户输入。IVR应用342 可以以单一 VoiceXML应用的形式来向用户纟是供信息，可通过包括 DTMF、话音和聊天的任意形态来使用该单一 VoiceXML应用。话音标记还可直接传送至转换引擎322,在这里将其转换至可在接口 318 中呈现的文本。
IVR应用342可向用户呈现一系列提示，并且可根据先前建立的对话菜单来处理提示响应。可由远程定位的话音服务器330来提供语音处理操作，诸如文本至语音操作、语音至文本操作、呼叫者标识操作和话音认证操作。没有Chatbot服务器320的干预，IVR应用342不能与文本交换设备312交互，这是由于缺少用于处理文本交换输入/输出的本地编码。
可在硬件、软件或者硬件和软件的结合中实现本发明。可以在一个计算机系统中以集中方式实现本发明，或者在其中不同单元遍布数个互联的计算机系统中以分布式方式实现本发明。任意类型的计算机系统或者适用于实现在此描述的其他的装置是适当的。硬件和软件的典型结合可以是具有如下计算机程序的通用计算机系统，当加载并执行该计算机程序时，控制计算机系统以便实现在此所述的方法。
本发明还实现在计算机程序产品中，该计算机程序产品包括使得能够实现在此描述的方法的所有特征，并且当在计算机系统中加载该计算机程序产品时能够执行这些方法。本上下文中的计算机程序是指以任何语言、代码或者符号的指令集合的任何表达，该指令集合旨在于使得系统具有信息处理能力，以便或者按照以下方式直接地、或者接着另一个、或者以下两者的方式来执行特定功能a) 转换至其他语言、代码或者符号；b)以不同物质形式再现。
可在硬件、软件或者硬件和软件的结合中实现本发明。可以在一个计算机系统中以集中方式实现本发明，或者在其中不同单元遍
布数个互联的计算机系统中以分布式方式实现本发明。任意类型的计算机系统或者适用于实现在此描述的其他的装置是适当的。硬件和软件的典型结合可以是具有如下计算机程序的通用计算机系统，当加载并执行该计算机程序时，控制计算机系统以便实现在此所述的方法。
本发明还实现在计算机程序产品中，该计算机程序产品包括使得能够实现在此描述的方法的所有特征，并且当在计算机系统中加载该计算机程序产品时能够执行这些方法。本上下文中的计算机程序是指以任何语言、代码或者符号的指令集合的任何表达，该指令集合旨在于使得系统具有信息处理能力，以便或者按照以下方式直接地、或者接着另一个、或者以下两者的方式来执行特定功能a) 转换至其他语言、代码或者符号；b)以不同物质形式再现。
权利要求
1.一种在涉及话音服务器的通信会话期间用于推断在话音和文本交换形态之间进行切换的方法，包括检测至少一个条件，所述至少一个条件指示在文本交换客户端和语音应用之间的通信会话的当前形态的交互问题，其中以对所述文本交换客户端和所述语音应用透明的方式进行所述文本交换客户端和所述语音应用之间的自动转换；根据所述检测步骤来推断切换形态的需要；以及执行与切换形态相关的至少一个程序性动作。
2. 根据权利要求1所述的方法，其中所述程序性动作使得在所述语音应用和话音客户端之间建立话音连接，其中所述话音连接允许用户来输入话音消息以及接收话音消息，其中在建立所述话音连接之前，对于所述话音客户端，通信会话的对话状态针对所述文本交换客户端的现有状态保持不变。
3. 根据权利要求2所述的方法，其中所述程序性动作自动关闭所述语音应用和所述文本交换客户端之间的通信链路。
4. 根据权利要求2所述的方法，其中所述话音连接是与用于所述文本交换客户端的通信信道分离的通信信道，并且其中所述话音客户端是电话。
5. 根据权利要求1所述的方法，其中所述程序性动作向所述文本交换客户端发送超链接，其中点击所述超链接而在话音客户端和所述语音应用之间打开话音连接，其中在建立所述话音连接之前，对于所述话音客户端，通信会话的对话状态针对所述文本交换客户端的现有状态保持不变。
6. 根据权利要求1所述的方法，其中所述至少一个条件包括从包含以下条件的组中选择的至少一个条件指示用户受阻的由用户输入的不适合的文本、由所述用户输入的过长的文本性输入、在连续用户输入之间的长延迟、以及检测到接收的输入是上下文无关的。
7. 根据权利要求1所述的方法，其中所述至少一个条件包括从包含以下条件的组中选择的至少两个条件指示用户受阻的由用户输入的不适合的文本、由所述用户输入的过长的文本性输入、在连续用户输入之间的长延迟、以及检测到接收的输入是上下文无关的。
8. 根据权利要求1所述的方法，其中所述至少一个条件包括从包含以下条件的组中选择的至少三个条件指示用户受阻的由用户输入的不适合的文本、由所述用户输入的过长的文本性输入、在连续用户输入之间的长延迟、以及检测到接收的输入是上下文无关的。
9. 根据权利要求1所述的方法，其中所述文本交换客户端是无需定制的未更改客户端，并且其中所述语音应用是缺少固有文本交换能力的未更改的基于VoiceXML的应用。
10. —种用于在包含话音服务器的对话会话中基于推测的条件来动态切换形态的方法，包括在用户和语音应用之间建立对话会话，其中在所述对话会话期间，所述用户使用原始形态来交互；使用所述原始形态来自动推断指示交互问题的条件集合；以及响应于所述推断步骤，将所述原始形态改变至不同于所述原始形态的第二形态，其中到所述第二形态的形态变换对所述话音服务器和所述语音应用是透明的，其中从包括以下形态的组中选择所述原始形态和所述第二形态语音形态、文本交换形态以及多模式形态，所述多模式形态包括语音形态和文本交换形态，并且其中所述原始形态和所述第二形态之一是所述文本交换形态。
11. 根据权利要求IO所述的方法，其中所述原始形态是文本交换形态，并且其中所述条件集合包括从包含以下条件的组中选择的至少一个条件指示用户受阻的由用户输入的不适合的文本、由所述用户输入的过长的文本性输入、在连续用户输入之间的长延迟、以及检测到接收的输入是上下文无关的。
12. 根据权利要求IO所述的方法，其中所述第二形态是话音形态，所述话音形态涉及与在用户配置文档以内注册的电话号码相关联的话音设备；针对所述电话号码自动搜索所述配置文档；以及在所述改变步骤期间，自动拨出所述电话号码以与所述话音设备建立新的话音信道。
13. 根据权利要求IO所述的方法，其中所述原始形态是通过文本交换信道在所述语音应用和文本交换客户端之间建立的文本交换形态，以及其中所述第二形态是通过话音信道来在所述语音应用和话音设备之间建立的语音形态，所述话音设备是不同于所述文本交换客户端的设备，以及其中所述话音设备与电话号码相关联，所述改变步骤进一步包括自动呼叫所述电话号码以建立所述话音信道。
14. 根据权利要求10所述的方法，进一步包括当推断所述条件集合时，自动提示所述用户以从所述原始形态切换至所述第二形态，其中响应于对所述提示步骤的积极用户响应来执行所述改变步骤。
15. 根据权利要求14所述的方法，所述提示步骤进一步包括当切换至所述第二形态时，向所述用户提示选择性地确定继续涉及所述原始形态的交互，其中根据所述用户响应，在所述改变步骤之后选择性地保留所述原始形态，其中当保持所述原始形态时，使用所述第二形态或者使用所述原始形态来在所述用户和所述语音应用之间进行交互。
16. 根据权利要求10所述的方法，其中当经由所述文本交换形态通信时，由所述用户使用文本交换客户端，其中所述文本交换客户端是无需定制的未更改客户端，并且其中所述语音应用是缺少固有文本交换能力的基于VoiceXML的应用。
17. 根据权利要求10所述的方法，其中在所述对话会话期间的通信涉及Chatbot服务器、与所述文本形态相关联的文本交换客户端、以及与所述话音形态相关联的话音客户端，其中用于所述对话会话的部分涉及所述文本交换客户端和所述语音应用，其中所述话音服务器使用允许话音服务器直接利用文本输入的文本接口，其中所述Chatbot服务器将话音标记动态地转换成为向所述文本交换客户端提供的文本。
18. 根据权利要求10所述的方法，其中由根据至少一个计算机程序的至少一个机器来自动执行根据权利要求IO的所述步骤，所述至少一个计算机程序具有可由所述至少一个机器执行的多个代码段。
19. 一种用于提供文本交换服务的系统，包括文本交换客户端，配置以通过文本交换信道发送和接收实时文本交换；话音客户端，配置以通过话音信道来发送和接收语音；语音应用环境，配置以执行允许用户实时地交互的自动的语音响应应用；Chatbot服务器，配置以建立包含所述文本交换客户端和所述语音自动的语音响应应用的通信会话，其中所述话音服务器使用允许所述话音服务器直接利用文本输入的文本接口，其中在所述通信会话期间，所述Chatbot服务器以对所述文本交换客户端和对所述自动的语音响应应用透明的方式，来将话音标记自动地转换至向所述文本交换客户端提供的文本；形态切换引擎，配置以通过与所述自动的语音响应应用交互的用户来动态切换形态，其中动态形态切换切换所述文本交换客户端和所述话音客户端的至少一个的激活状态；以及切换推断模块，配置以自动确定指示由当前形态的交互困难的条件，并且响应于确定所述指示的条件采用至少一个编程性动作，其中所述编程性动作引导至使得包含在所述通信会话中的用户利用所述形态切换引擎的所述形态切换能力。
20. 根据权利要求19所述的系统，其中所述文本交换接口是无需定制的未更改接口，其中所述话音客户端是无需定制软件应用和电话设备的至少一个，并且其中所述自动的语音响应应用是缺少固有文本交换能力的未更改的基于VoiceXML的应用。
全文摘要
所公开的方案包括一种用于在包含语音应用的对话会话中根据所推断的条件来动态切换形态的方法。该方法在用户和语音应用之间建立对话会话。在对话会话期间，用户使用原始形态和第二形态交互。语音应用仅使用语音形态交互。可推断指示使用原始形态时的交互问题的条件集合。响应于推断步骤，可将原始形态改变至第二形态。到第二形态的变换对语音应用可以是透明的，并且可以进行该变换而无须中断对话会话。原始形态和第二形态可以是不同的形态；一个包括文本交换形态，而另一个包括语音形态。
文档编号H04M3/487GK101207655SQ20071019273
公开日2008年6月25日申请日期2007年11月16日优先权日2006年12月19日
发明者B·D·曼戴利亚, V·S·穆尔, W·L·努斯比克尔, W·V·达帕尔玛申请人:国际商业机器公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：W.V.达帕尔玛;B.D.曼戴利亚;V.S.穆尔;W.L.努斯比克尔
技术所有人：国际商业机器公司
我是此专利的发明人

上一篇：向文本交换形态添加上下文的方法和系统的制作方法
上一篇：用于对文件下载进行管理的系统和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。