Ip电话语音应答的交互系统及其方法

文档序号：7955846阅读：290来源：国知局

专利名称：Ip电话语音应答的交互系统及其方法
技术领域：
本发明涉及计算机电话集成(Computer Telephone Integration)领域的应用，具体地说是运用在IP电话系统中使用话机和语音提示进行应答的交互系统和方法。
背景技术：
在传统的公众电话网系统(PSTN)中，一次典型的通话过程包括3个阶段阶段1为“呼叫建立”，阶段2为“语音通信”，阶段3为“线路拆除”。其中的阶段1和阶段3为信令控制过程(如SS7信令)，阶段2为实际的通话过程。我们来设想一个打电话的场景，用户A拿起终端设备PA(如电话机)(该动作称之为摘机)，通过按键输入对方的电话号码(用户A是主叫方)，这样就发起了一次通话请求，通过程控交换机的路由交换，该请求信号被传送到连接在用户B(用户B是被叫方)线路上的终端设备PB(比如电话机)，PB中的振铃检测模块检测到传入的振铃信号后，产生振铃声以提醒用户B，用户B拿起话筒，开始通话，此时阶段1结束，进入阶段2。通话结束后，双方放下话筒(挂机)，迅速完成阶段3。在阶段2中，语音通过声电传感器，将声波转换成电信号，并通过电话线路进行传输。
随着计算机通信的发展，特别是互联网技术的迅速普及和应用，出现了基于网络通信的IP电话系统(VoIP)。在VoIP中的一次典型的通话过程和在传统的电话通话过程是类似的，只是实现的方式不同。同样包括3个阶段，通信过程也是基于交换机，并称之为“软交换”(完全由程序实现)。目前使用的最广泛的信令系统有SIP，H323和MGCP等。VoIP系统，任何数据的传送，包括控制信令和语音数据，都是基于IP网络。
对于电话系统而言，主要的应用是语音通信。但随着社会经济的发展，也出现了很多的增值业务应用，其中的交互式自动语音服务系统(IVR)是使用很广泛的一种，可以运用在如客户服务呼叫中心(callcenter)、电话自动股票交易系统，电话银行自助系统等领域。在这些应用中，用户根据接收方的机器语音提示，通过输入按键的方式进行交互。接收方的终端设备根据接收到按键所对应的双音多频DTMF信号并识别其对应值，作出相应的操作。这是IVR系统工作的主要原理。双音多频DTMF(Dual Tone Multi-Frequency)信令，目前在全世界范围内使用在按键式电话机上，因其提供更高的拨号速率，已取代传统转盘式电话机使用的拨号脉冲信令。在电话键盘上的每个键0-9，#，*，A-D，都对应由两个频率的音频信号叠加构成的波形。这两个音频信号的频率来自两组预分配的频率组行频组或列频组。每一对这样的音频信号唯一表示一个数字或符号。产生DTMF信号，就是利用两个不同频率的正弦波叠加以后形成的波形，如“0”键由频率为1209HZ和697HZ的两个正弦波叠加而成。人耳能听到DTMF信号，但无法识别其中的频率分量，所以无法识别对应的按键。
在交互式自动语音服务系统(IVR)中传送DTMF信号发生在通话过程的第2阶段，这表明DTMF波形的性质和说话的波形的性质相同，都属于“数据信号”，而非“控制信号”。为了识别DTMF信号所对应的键值，在IVR端必须使用一种DTMF识别模块。该识别模块可以是用硬件实现的，如MITEL公司生产的MT8870 DTMF接受器可以对DTMF信号进行解码，实现DTMF信号的分离滤波和译码功能，输出相应16种频率组合的四位并行二进制码。也可以用软件实现，需要利用数字信号处理的方法，在频域中搜索两个正弦波的存在，计算量比较大。
传统的IVR系统，已经有了非常广泛的应用，但存在以下问题(1)必须有DTMF识别模块的支持；(2)由于DTMF利用话音通道进行传输，我们的语音中有DTMF的成分，甚至很容易产生DTMF的波形，所以会有误识别的情况出现。
由于在IP网络中的通信传输是采用包交换(packet switch)而不是传统领域中的线路交换(circuit switch)以及IP网的不稳定的特性，对于上述问题(2)，在VoIP系统中情况要更加严重。主要原因有两方面，其一是数据压缩协议的使用。为了减少传输的语音数据量，在数据传送之前需要对数据进行压缩，常用的压缩协议有G711、G723和G729等。这些压缩协议均为有损压缩，压缩率不等，DTMF信号在解压后将产生一定的畸变，压缩率越高，解压后的畸变情况会更严重，从而导致误识别。其二，在网络通信不理想的情况下会有数据丢包的现象，也会产生DTMF误识别现象。
IP电话系统的基础是IP数据通信，无论是控制信令还是语音数据，都通过UDP或TCP分组进行传送。目前使用的系统其DTMF信号是经过RTP封装后由UDP分组进行发送。

发明内容为了克服已有的IP电话语音应答的交互系统的结构复杂、存在误识别的情况、可靠性不高的不足，本发明提供一种结构简单、能够有效避免误识别的情况、可靠性高的IP电话语音应答的交互系统及其方法。
本发明解决其技术问题所采用的技术方案是一种IP电话语音应答的交互系统，包括应答用户端、VoIP软交换服务器以及应答服务器端，所述应答用户端包括用户端控制单元、用户端用户接口单元以及用户端网络接口单元，所述用户端控制单元包括用户端信令处理器，用于管理信令通道、并负责信令的生成、解释和转换；用户端媒体处理器，用于管理话音通道、并负责数字化后语音数据的压缩和解压缩以及数据的封装和拆装；用户端调度处理器，用于将设定的任务分配给信令处理器和媒体处理器；用户端用户接口单元、用户端网络接口单元连接用户端控制单元，所述用户端网络接口单元连接VoIP软交换服务器；所述应答服务器端包括服务器端控制单元、服务器端用户接口单元、服务器端网络接口、语料数据库以及服务代理，所述服务器端控制单元包括服务器端信令处理器，用于管理信令通道、并负责信令的生成、解释和转换；服务器端媒体处理器，用于管理话音通道、并负责数字化后语音数据的压缩和解压缩以及数据的封装和拆装；服务器端调度处理器，用于将设定的任务分配给信令处理器和媒体处理器；服务器端用户接口单元、服务器端网络接口单元连接服务器端用户控制器，服务器端用户接口单元连接语料数据库，所述服务器端网络接口连接VoIP软交换服务器和服务代理模块；所述的应答用户端还包括用户端附加通道处理器，用于管理专门传送DTMF信号的数据通道，定义用户端附加通道的IP地址、传输类型和端口；所述的应答服务器端还包括服务器端附加通道处理器，用于管理专门传送DTMF信号的数据通道，定义服务器端附加通道的IP地址、传输类型和端口；当用户听到语料数据库的语音提示后，将根据需要选择用户接口单元的按键输入，用户端附加通道处理器发送该键值代码；当应答服务器端接收到键值代码信号后，服务器端附加通道处理器将接收的键值代码传给服务代理模块。
作为优选的一种方案所述的应答用户端还包括用于预先设置用户端附加通道参数的用户端通道参数设置模块，所述应答服务器端还包括用于预先设置服务器端附加通道参数的服务器端通道参数设置模块。
作为优选的另一种方案在数据通讯协议模块中，包括用于设置用户端附加通道、服务器端附加通道参数的参数设置模块。
所述的键值代码为数字或者符号对应的ASCII码。
一种IP电话语音应答的交互方法，包括以下步骤(1)、用户进行拨号操作，生成呼叫信号，通过网络接口发送到VoIP软交换服务器，将该呼叫转发到应答服务器端；(2)、应答服务器端接收该呼叫信号，如工作在非自动应答状态，通过用户接口的扬声器发出振动，等待接听；如工作在自动应答状态，模拟摘机，并将摘机信息回传到用户，进入通话状态；(3)、应答服务器端从语料数据库中提取语音片断并回放；(4)、用户听到语音提示后，将根据需要选择按键输入，键值代码通过用户端附加通道发出；(5)、应答服务器端通过服务器端附加通道接收键值代码，并识别该键值代码；(6)、将识别后的键值代码传给服务代理模块，实现各种服务业务。
作为优选的方案在所述应答用户端，预先设置用户附加通道的IP地址、传输类型和端口；在所述应答服务器端，预先设置服务器附加通道的IP地址、传输类型和端口。
作为优选的另一种方案在数据通讯协议模块中，预先设置用户附加通道、服务器附加通道参数的IP地址、传输类型和端口。
所述的键值代码为数字或者符号对应的ASCII码。
本发明的技术构思为在应答用户端以及应答服务器端分别建立一个新的传输通道，命名为附加通道AC(Additional Channel)，专门传送DTMF信号。在IP通信中，新的传输通道的建立非常容易，由IP地址、传输类型(UDP/TCP)和端口号三元组就能确定一个通道。以采用SIP协议的VoIP系统为例，系统由两个传输通道组成。一个是信令通道，缺省采用TCP方式传输，端口为5060。二是数据通道，具体参数通过信令通道传送的控制信令由通信双方协商确定。在SIP协议的VoIP系统中，AC通道的参数确定，可以采用事先定义，也可以通过由主控制信令协商的方法确定。
在AC通道中传输的信息目前是DTMF信号，将来也可以根据需要传送其他的信息，扩展系统的功能。
在AC通道中传输的DTMF信号，不再基于两个正弦波叠加后的信号，而是键值代码，可以使用数字或符号对应的ASCII码表示。
在AC通道中传输的DTMF信号格式，可以用XML规范进行定义，如下所示<dtmf>1</dtmf>，表示输入键1。
本发明的有益效果主要表现在1、省略了传统的DTMF检测模块，简化了结构；2、传送的信息只是一个字符串，处理非常容易，避免了误检测的情况；3、传输可靠性高。

图1为IP电话语音应答的交互系统的原理框图。
图2为DTMF信号在本发明和已有系统中不同表现形式的对比示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
实施例1参照图1、图2，一种IP电话语音应答的交互系统，包括应答用户端1、第二应答用户端4、VoIP软交换服务器2以及应答服务器端3。
以采用SIP协议的VoIP系统为例，图1中应答用户端1、应答服务器端3、应答第二用户端4都是基于CPU的VoIP用户终端。他们具有相同的基本结构。应答服务器端3作为语音应答服务器，工作在自动应答状态，包含了两个额外部件。
所述应答用户端1包括用户端控制器单元11、用户端用户接口单元12以及用户端网络接口单元13。所述用户端控制器单元11包括用户端信令处理器300，用于管理信令通道、并负责信令的生成、解释和转换；用户端媒体处理器400，用于管理话音通道、并负责数字化后语音数据的压缩和解压缩以及数据的封装和拆装；用户端调度处理器200，用于将设定的任务分配给信令处理器300和媒体处理器400。用户端用户接口单元12、用户端网络接口单元13连接用户端控制器单元11，所述用户端网络接口单元13连接VoIP软交换2。所述应答服务器端3包括服务器端控制器单元31、服务器端用户接口单元32、服务器端网络接口单元33、语料数据库6以及服务代理5，所述服务器端控制器单元31包括服务器端信令处理器1300，用于管理信令通道、并负责信令的生成、解释和转换；服务器端媒体处理器1400，用于管理话音通道、并负责数字化后语音数据的压缩和解压缩以及数据的封装和拆装；服务器端调度处理器1200，用于将设定的任务分配给信令处理器和媒体处理器。服务器端用户接口单元32、服务器端网络接口单元33连接服务器端控制器单元31，服务器端用户接口单元32连接语料数据库6，所述服务器端网络接口单元33连接IP网络10和服务代理模块5；所述的应答用户端1还包括用户端附加通道处理器500，用于管理专门传送DTMF信号的数据通道，定义用户端附加通道的IP地址、传输类型和端口，负责DTMF代码(非波形信号)的发送和接收。此部件是本专利的一个核心内容；所述的应答服务器端3还包括服务器端附加通道处理器1500，用于管理专门传送DTMF信号的数据通道，定义服务器端附加通道的IP地址、传输类型和端口；当用户听到语料数据库的语音提示后，将根据需要选择用户接口单元12的按键输入，用户端附加通道处理器500发送该键值代码。当接收到键值代码信号后，服务器端附加通道处理器1500将接收的键值代码传给服务代理模块5。
所述的应答用户端1还包括用于预先设置用户端附加通道参数的用户端通道参数设置模块，所述应答服务器端3还包括用于预先设置服务器端附加通道参数的服务器端通道参数设置模块。或者，在数据通讯协议模块中，包括用于设置用户端附加通道、服务器端附加通道参数的参数设置模块。所述的键值代码为数字或符号对应的ASCII码用户接口单元12表示普通电话机和使用者交互的部分，包括听筒、扬声器、按键盘、液晶显示屏(可选)和语音的模数和数模转换等；网络接口单元13负责将数据发送到IP网络和接受从IP网络传来的数据；控制器单元11实现对用户接口单元12和网络接口单元13的控制。
用户通过用户端用户接口单元12的键盘，进行拨号操作。控制器单元11根据用户的输入，由信令处理器300生成呼叫信号，通过网络接口单元13发送到IP网络端10，到达软交换2。
IP网络端10是IP网络云。
软交换2的功能为负责将呼叫转发到被呼叫方。
软交换2将呼叫请求转发到应答服务器端3。
请求信息进入服务器端网络接口单元33。网络接口单元33将请求提交给控制器单元31。
控制器单元31将请求通知用户接口单元32，如果应答服务器端3工作在非自动应答状态，则用户接口单元32将通过扬声器发出振铃，等待用户的接听。如果应答服务器端3工作在自动应答状态，控制器单元31将控制模拟摘机，并将摘机信息通过网络接口单元33发送到IP网络端10，抵达应答用户端1。此时完成了连接的建立。应答用户端1和应答服务器端3均进入通话状态。
在语料数据库6中，事先存放预先录制的语音片段，如“欢迎使用电话股票交易系统”，“按1中文提示，按2英语提示”等。
应答服务器端3从语料数据库6中提取语音片段并回放。回放过程实现如下媒体处理器400处理该片段，由控制器单元31交由网络接口单元33发送到IP网络端10。该信息将进入网络接口单元13。
用户听到语音提示后，将根据需要选择按键输入。所按键值由用户接口单元12获取，并提交给控制器单元11。如果采用传统的DTMF使用方式，控制器单元11将指示媒体处理器400负责生成相应两个正弦波叠加的信号，并通过话音通道传送出去，控制器单元31必须在话音通道接受该信号，并通过一个额外的DTMF检测模块识别键值，存在误识别的情况。在本专利中，控制器单元11将指示AC处理器500发送该键所对应的代码，形式为<dtmf>x<dtmf>。传送通过AC通道，而不是通过话音通道发送，控制器单元31在AC通道接受，由31的AC处理器1500进行识别，由于传送的信息只是一个字符串，处理非常容易，几乎不存在误识别的可能。
控制器单元31将接收的键码传给服务代理模块，服务代理模块是一个服务代理部件。可以实现各种服务业务。
本实施例采用AC通道传输DTMF键码，避免了通过话音通道传输DTMF波形需要专门检测器的要求，同时也避免了误检测的情况，简便实用，因而提供了一种新型交互语音应答系统的实现方法。
实施例2参照图1、图2，一种IP电话语音应答的交互方法，包括以下步骤(1)、用户进行拨号操作，生成呼叫信号，通过网络接口发送到VoIP软交换服务器10，将该呼叫转发到应答服务器端3；(2)、应答服务器端3接收该呼叫信号，如工作在非自动应答状态，通过用户接口的扬声器发出振动，等待接听；如工作在自动应答状态，模拟摘机，并将摘机信息回传到用户，进入通话状态；(3)、应答服务器端3从语料数据库6中提取语音片断并回放；(4)、用户端听到语音提示后，将根据需要选择按键输入，键值代码通过用户附加通道发出；(5)、服务器端通过服务器端附加通道接收键值代码，并识别该键值代码；(6)、将识别后的键值代码传给服务代理模块5，实现各种服务业务。
在所述应答用户端1，预先设置用户附加通道的IP地址、传输类型和端口；在所述应答服务器端3，预先设置服务器附加通道的IP地址、传输类型和端口。或者是，在数据通讯协议模块中，预先设置用户附加通道、服务器附加通道参数的IP地址、传输类型和端口。所述的键值代码为数字或符号对应的ASCII码。
权利要求
1.一种IP电话语音应答的交互系统，包括应答用户端、VoIP软交换服务器以及应答服务器端，所述应答用户端包括用户端控制单元、用户端用户接口单元以及用户端网络接口单元，所述用户端控制单元包括用户端信令处理器，用于管理信令通道、并负责信令的生成、解释和转换；用户端媒体处理器，用于管理话音通道、并负责数字化后语音数据的压缩和解压缩以及数据的封装和拆装；用户端调度处理器，用于将设定的任务分配给信令处理器和媒体处理器；用户端用户接口单元、用户端网络接口单元连接用户端控制单元，所述用户端网络接口单元连接VoIP软交换服务器；所述应答服务器端包括服务器端控制单元、服务器端用户接口单元、服务器端网络接口、语料数据库以及服务代理，所述服务器端控制单元包括服务器端信令处理器，用于管理信令通道、并负责信令的生成、解释和转换；服务器端媒体处理器，用于管理话音通道、并负责数字化后语音数据的压缩和解压缩以及数据的封装和拆装；服务器端调度处理器，用于将设定的任务分配给信令处理器和媒体处理器；服务器端用户接口单元、服务器端网络接口单元连接服务器端用户控制器，服务器端用户接口单元连接语料数据库，所述服务器端网络接口连接VoIP软交换服务器和服务代理模块；其特征在于所述的应答用户端还包括用户端附加通道处理器，用于管理专门传送DTMF信号的数据通道，定义用户端附加通道的IP地址、传输类型和端口；所述的应答服务器端还包括服务器端附加通道处理器，用于管理专门传送DTMF信号的数据通道，定义服务器端附加通道的IP地址、传输类型和端口；当用户听到语料数据库的语音提示后，将根据需要选择用户接口单元的按键输入，用户端附加通道处理器发送该键值代码，当应答服务器端接收到键值代码信号后，服务器端附加通道处理器将接收的键值代码传给服务代理模块。
2.如权利要求1所述的IP电话语音应答的交互系统，其特征在于所述的应答用户端还包括用于预先设置用户端附加通道参数的用户端通道参数设置模块，所述应答服务器端还包括用于预先设置服务器端附加通道参数的服务器端通道参数设置模块。
3.如权利要求1所述的IP电话语音应答的交互系统，其特征在于在数据通讯协议模块中，包括用于设置用户端附加通道、服务器端附加通道参数的参数设置模块。
4.如权利要求1-3之一所述的IP电话语音应答的交互系统，其特征在于所述的键值代码为数字或符号对应的ASCII码。
5.一种用如权利要求1所述的IP电话语音应答的交互系统实现的交互方法，包括以下步骤(1)、用户进行拨号操作，生成呼叫信号，通过网络接口发送到VoIP软交换服务器，将该呼叫转发到应答服务器端；(2)、应答服务器端接收该呼叫信号，如工作在非自动应答状态，通过用户接口的扬声器发出振动，等待接听；如工作在自动应答状态，模拟摘机，并将摘机信息回传到用户，进入通话状态；(3)、应答服务器端从语料数据库中提取语音片断并回放；(4)、用户听到语音提示后，将根据需要选择按键输入，键值代码通过用户端附加通道发出；(5)、应答服务器端通过服务器端附加通道接收键值代码，并识别该键值代码；(6)、将识别后的键值代码传给服务代理模块，实现各种服务业务。
6.如权利要求5所述的一种IP电话语音应答的交互方法，其特征在于在所述用户端，预先设置用户附加通道的IP地址、传输类型和端口；在所述服务器端，预先设置服务器附加通道的IP地址、传输类型和端口。
7.如权利要求5所述的一种IP电话语音应答的交互方法，其特征在于在数据通讯协议模块中，预先设置用户附加通道、服务器附加通道参数的IP地址、传输类型和端口。
8.如权利要求5-7之一所述的一种IP电话语音应答的交互方法，其特征在于所述的键值代码为数字或者符号对应的ASCII码。
全文摘要
一种IP电话语音应答的交互系统，包括应答用户端、IP软交换服务器以及应答服务器端，应答用户端设有用户端附加通道处理器，用于管理专门传送DTMF信号的数据通道，定义用户附加通道的参数；应答服务器端设有服务器端附加通道处理器，用于管理专门接收DTMF信号的数据通道，定义服务器附加通道的参数；当用户听到语料数据库的语音提示后，将根据需要选择用户接口单元的按键输入，用户端附加通道处理器发送该键值代码；当接收到键值代码信号后，应答服务器端附加通道处理器将接收的键值代码传给服务代理模块。以及提出一种IP电话语音应答的交互方法。本发明结构简单、能够有效避免误识别的情况、可靠性高。
文档编号H04M3/50GK1937673SQ20061005327
公开日2007年3月28日申请日期2006年9月5日优先权日2006年9月5日
发明者方路平, 曹平申请人:浙江工业大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：方路平;曹平
技术所有人：浙江工业大学
我是此专利的发明人

上一篇：基于文本口令的远程客户服务端系统对用户的安全认证方法
上一篇：多屏平动位图式体积显示方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。