高通信质量的实时通信系统和媒体终端设备的制作方法

文档序号：7600012阅读：96来源：国知局

专利名称：高通信质量的实时通信系统和媒体终端设备的制作方法
技术领域：
本发明涉及高通信质量的实时通信系统和媒体终端设备。本发明尤其涉及优选适用于基于VoIP(IP话音协议)技术的话音通信的实时通信系统。本发明也涉及根据MIDI(乐器数字接口)标准处理数据的媒体终端设备。
背景技术：
根据MIDI(乐器数字接口)标准及类似标准的乐器可以输出MIDI数据。MIDI数据不是声音本身的波形，而是通过将诸如音高，音长，音调的几个声音参数转换成数字数据而获取的。因此可以用数据尺寸远小于从波形本身直接编码的数据描述电子乐器的演奏内容。
使用MIDI标准使得一种教学方法成为可能，学生将从他/她的电子乐器演奏获取的MIDI数据存储在存储介质中，并通过邮件或邮政服务将存储介质发送到他/她的位于远程的指导者，从而将演奏内容通知该指导者，于是基于此演奏内容指导者可以指导学生演奏。
此外，可能使用普通公用电话交换网(PSTN)提供的模拟电话服务传输声音或话音。因此，使用模拟电话服务实现卡拉OK，声乐和/或乐器演奏课程是可能的。
通常，通过模拟电话服务传输的声音信号的带宽限于非常窄的300-3,400赫兹的带宽。在此带宽普通声音传输没有任何问题。但由于带宽有限，声乐，卡拉OK和乐器课程的通信质量非常差。特别是，对于声乐，卡拉OK和乐器的话音和声音信号，低于300赫兹和高于3400赫兹的频率成分非常重要。但使用模拟电话服务，这些重要成分被删除而不能被传输。因此处理话音频带外的频率信号的通信中包含许多问题。
而且，当通过邮政服务发送存储有MIDI数据的存储介质时，不是要求的带宽的问题，而是非实时性的问题。因此，提升受训者和指导者之间的通信，并有效实现音乐课程是很困难的。

发明内容
本发明的目的是减少上述缺点，提供一种新颖的保持较高通信质量的实时通信系统和媒体终端设备，借此在用户之间建立实时相互通信。
根据本发明，提供一种网络上的基于通信协议的实时通信系统，其中，与第一音频信号相关的音频媒体信息被插入到与该通信协议相关的协议数据的数据中，而且，用户所使用的第一和第二媒体终端单元在实时的基础上通过发送和接收的至少其中一种相互通信。该系统包括信息转换电路，用于在实时通信中实现至少一个以下操作基于从第一终端单元接收的第一音频信号通过编码产生音频媒体信息，和基于从第二终端单元提供的音频媒体信息恢复第一音频信号；以及接口电路，用于实现至少一个以下操作接收从第二媒体终端单元提供的具有一种数据格式的第一音乐数据，以将第一音乐数据转换为第二音频信号，和接收来自第一媒体终端单元的第二音乐数据以发送该第二音乐数据。
根据本发明，第一和第二媒体终端单元都连接到网络以作为连接方相互通信。通过第一音频信号的编码过程和媒体信息的恢复过程中的至少一个，每个媒体终端单元的信息转换电路将该过程产生的媒体信息发送到连接方，和将从连接方提供的媒体信息恢复的第一音频信号输出，终端单元的接口电路执行至少一个以下操作将接收到的音乐数据发送到连接方，和将来自连接方的音乐数据转换为第二音频信号。通过从各自的媒体终端单元输出具有第一和第二音频信号的传输特性的声音，可极大地提升用户之间的相互通信。
而且，根据本发明，提供基于通信协议互连到网络的媒体终端设备，用于将与第一音频信号相关的音频媒体信息插入到与该通信协议相关的协议数据的数据中，并在实时的基础上与其连接方通信。该设备包括信息转换电路，用于在实时通信中实现至少一个以下操作基于从其近端接收的第一音频信号通过编码产生音频媒体信息，和基于从所述连接方提供的音频媒体信息恢复第一音频信号；接口电路，用于实现至少一个以下操作接收从所述连接方提供的具有一种数据格式的第一音乐数据，以将第一音乐数据转换为第二音频信号，和接收来自近端的第二音乐数据以发送该第二音乐数据。
根据本发明，通过第一音频信号的编码过程和媒体信息的恢复过程中的至少一个，信息转换电路传输由该过程产生的媒体信息，并输出从所提供的媒体信息恢复的第一音频信号。通过输出所接收的音乐数据，和将音乐数据转换为第二音频信号的至少一个操作，接口电路从各自的媒体终端单元输出具有第一和第二音频信号的传输特性的声音。因此，可提高通信质量，而且通过使用多种信息可建立实时相互通信。

考虑以下关于附图的详述，本发明的目的和特征将更明确，其中图1是根据本发明的VoIP系统的优选实施例的示意配置方框图，其中实时通信系统应用于此VoIP系统；图2是图1所示实施例中CPE单元的示意方框图；图3所示是根据本发明的VoIP系统的可选实施例的示意配置，其中实时通信系统应用于此VoIP系统；图4是图1所示实施例中用户U1使用的CPE单元的示意配置方框图；图5是图1中用户U2使用的CPE单元的示意配置方框图；图6，类似图3，说明根据本发明的VoIP系统的另一个可选实施例的示意配置，其中实时通信系统应用于此VoIP系统；图7，类似图3，仍说明根据本发明的VoIP系统的一点对多点形式的另一可选实施例的示意配置，其中实时通信系统应用于此VoIP系统；图8，类似图3，说明根据本发明的VoIP系统的进一步的实施例的示意配置，其中实时通信系统应用于此VoIP系统；图9是说明用于根据本发明的VoIP系统的更进一步的可选实施例的网络连接的示意配置方框图，其中实时通信系统应用于此VoIP系统；图10，类似图1，所示方框图说明用于根据本发明的VoIP系统的另一可选实施例的实验网络连接的示意配置，其中实时通信系统应用于此VoIP系统；具体实施方式
下文中，参照附图详述根据本发明的实时通信系统的实施例。示例实施例致力于将实时通信系统应用于根据本发明的VoIP系统10。附图和说明省略不直接涉及理解发明的元素及部分。
如图1所示，VoIP系统10包括CPE(客户住宅设备)单元12和14作为媒体终端设备，调制解调器16和18，麦克风20和耳机设备22和24及乐器26，连接如图。调制解调器16和18通过接入线28和30连接到IP(网际协议)网络。
本实施例的VoIP系统10应用于音乐课程，通过话音通信建立相互通信，发送和接收MIDI数据。本实施例的VoIP系统10包括2个子系统用于一个用户即学生U1的子系统，用于另一个用户即指导者U2的子系统。2个子系统可包括相同的结构元素。尤其是，CPE单元12和14，调制解调器16和18，耳机设备22和24都相应在各方提供。因此，无须对相同说明的复述，以下仅说明用于用户U1的结构元素。
CPE单元12是用户U1管理的一种网络设备。如图2所示，CPE单元12包括通信控制器34，提供VoIP网关功能的VoIP-IF(接口)电路36以及音频编解码器电路38。CPE单元12可免费或低价分发和/或提供给用户U1。
通信控制器34提供中继和同步功能。通信控制器34的中继功能是将所提供的信息从一个子系统发送到另一个子系统。中继功能在以下情况中实现将IP包40从VoIP-IF电路36中继到调制解调器16，将IP包42从音频编解码器电路38中继到调制解调器16，将IP包44从调制解调器16中继到VoIP-IF电路36。
同步功能是将IP包40和42相互同步。呼叫程序根据ITU-T(国际电信联盟-电信标准部门)H.323建议和/或SIP(会话启动协议)等建立呼叫之后，发送携带音频数据的IP包40。因此，携带音乐演奏数据的IP包42也可优选地与IP包40同步发送。
在呼叫控制程序中，通信控制器34适合发出呼叫并发送振铃，用户U2于是摘机响应，之后允许IP包40的传输并相继允许IP包42的传输。此外，VoIP系统10当然也适合允许其他用户，即指导者U2打电话或发出呼叫给一个用户，即学生U1。下文中，信号用其所在连线上的附图标记标出。
VoIP-IF电路36提供与所谓的VoIP网关相同的功能。用户U1发出的话音由耳机设备22的麦克风22A收集，然后在VoIP-IF电路36中编码为音频数据。因此，音频数据包含在IP包40的确定区域，并通过通信控制器34和调制解调器16发送到IP网络32。一个用户U1听到另一个用户U2的话音时，音频数据流程序与上述程序相反。
特别地，将用户U2端的耳机设备24的麦克风24A收集的声音进行编码，然后从CPE单元14发送包含所产生的音频数据的IP包44。于是，IP包44顺序通过调制解调器18，IP网络32和调制解调器16，发送到CPE单元12的VoIP-IF电路36。VoIP-IF电路36将音频数据取出并解码，通过耳机设备22的扬声器22B输出被解码数据。现在，用户U1可以听到其连接方的声音。
在这种情况，用于编码的编码器和用于解码的解码器都用上述置于VoIP-IF电路36中的音频编解码器实现。在这种情况，音频编解码器适合模拟电话频带内编解码。
音频编解码器电路38对麦克风20收集的演奏声音采样和编码，如图1所示，其采样频率高于上述VoIP-IF电路36中的音频编解码器。编解码器电路38转而将产生的编码演奏数据放入IP包42，并发送该包。演奏数据是代表演奏声音46的波形数据。
从示例实施例的组成元素看，用户U1没听到另一用户U2演奏的声音。因此，音频编解码器电路38只需编码设备，而无需解码设备。但是，如果需要，音频编解码器电路38也可提供解码设备。在这种情况，展示用户即指导者U2演奏的示例或范例是有效的。
而且，本实施例如此构造音频数据由VoIP-IF电路36传输，而演奏数据由音频编解码器电路38传输。但是，也可以将演奏声音作为音频数据部分，使用VoIP-IF电路36传输。在后一种情况中，VoIP-IF电路36的特性可更改为具有相当大的带宽，其远大于模拟电话服务的带宽，即300-3,400赫兹。例如，根据ITU-T建议G.722，带宽可以是50-7,000赫兹。宽带通信可传输低于300赫兹和高于3，400赫兹的音频数据。因此，可使用与传输用户U1话音相同的结构元素传输用户U1的演奏声音。此外，通信控制器34不必具备同步功能。
宽带通信对于提高通信质量也很有利。某种语言的单词发音，例如英语，可能包括高于3,400赫兹的频率成分。当此较高频带不能被传输时，相对日语语言信号的传输，此语言信号的正常传输会略微受到干扰。通过宽带通信，可大大改善此现象及其效果。特别地，当用户U1和U2中至少一个讲英语时，宽带通信更为有利。
可选地，系统适合允许用户U1选择传输方法将演奏声音作为音频数据部分使用宽带传输，或将演奏声音作为独立于音频数据的演奏数据传输。
现在转向图1，调制解调器16具有线路终端设备以终止接入线28。现在，通常使用诸如ADSL(异步数字用户线路)等的各种宽带服务作为接入线28和30。接入线28是ADSL时，当然使用ADSL调制解调器。此外，当光纤传输用于接入线28时，使用介质转换器作为光终端设备。很明显，接入线30与接入线28可以不同种类。在图1所示的实施例中，CPE单元12和调制解调器16是独立的结构元素。但是，调制解调器可以安装在CPE单元12中。而且，调制解调器也可包括路由设备。
麦克风20和耳机设备22是连接到用户U1的用户接口设备。麦克风20和耳机设备22通过CPE单元12连接到调制解调器16。耳机设备22是包括麦克风22A和扬声器22B的设备，麦克风22A收集声音并将其转换成相应的电信号。
例如，音乐课程中输出一个用户自身演奏的乐器声音给另一个用户听时，用户U1可将耳机设备22戴在头上，与另一个用户U2通信。耳机设备22的麦克风22A收集用户U1的话音，然后用CPE单元12的音频编解码器将其编码成音频数据形式，数据包含在IP包40中，通过IP网络32发送到连接方的调制解调器18。
乐器26输出用户U1的演奏声音46。麦克风22A收集演奏声音46，并将获取的模拟信号提供给CPE单元12。CPE单元12通过音频编解码器电路38，用高于模拟电话服务的音频编解码器的采样频率，对模拟信号采样和编码，并将编码数据放入IP包42。IP包42从CPE单元12提供给IP网络32，然后通过IP网络32传输到另一个用户端的调制解调器18。这种配置中提供麦克风20，因此，除了MIDI类型的乐器之外，其他任何乐器均可使用。因此，用户U1可自由使用任何类型普通的或电子的乐器，例如键盘乐器，钢琴，琵琶等。
当乐器是具有模拟信号输出端的电子乐器时，CPE单元12可提供连接模拟信号输出端(未示出)与CPE单元12的模拟信号输入端以取代麦克风20，因此，可输出MIDI标准媒体数据，如后说明。
IP网络32由特定的公共运营商或ISP(因特网服务提供商)管理和操作。IP协议用于OSI(开放系统互连)参考模型的网络层。因此，在IP网络32中提供基于VoIP技术的IP电话服务。IP网络32可能包括各种网络设备，例如路由器，第二层交换机(未示出)，和其它图1中未示的网络连接，这是无关紧要的。此外，无须说明，在IP网络32中可能存在图1未说明的执行呼叫控制程序的SIP服务器和/或H.323网关等。
下面将说明VoIP系统10的操作。用户U1将麦克风20置于乐器26附近，并在头上戴上耳机设备22后，他/她通过输入另一个用户U2即指导者的电话号码与其通话。为了输入理想的电话号码，可优选地提供某些合适的用户接口。可使用诸如电话机或在显示设备上的网页作为用户接口。
此网页是为用户U1希望接收音乐课程时拨号准备的，其包含用诸如“U2”的缩写，他/她的名字和电话号码所代表的特定指导者的信息。在CPE单元12中，优选地安装适合显示拨号网页的网络门户软件。网络门户是一种网络浏览器，除了提供软件拨号功能之外，与普通的网络浏览器相同。
使用网络门户时，要求将显示设备和诸如鼠标的指向设备连接到CPE单元12，要求将提供拨号网页的网络服务器设备置于IP网络32中。在这种情况下，用户U1能以简化的操作拨打用户U2，例如通过指向代表理想的被呼叫方的图标，并点击他/她的鼠标。
当用户U1输入被呼叫方的电话号码开始呼叫程序时，在CPE单元14端的被呼叫用户U2摘机响应呼叫，并在头上戴上耳机设备24。现在，通过VoIP通信允许用户U1和U2之间的实时话音通信。通过在IP网络32上传输IP包40和44建立话音通信。
在话音通信进行中，呼叫用户U1弹奏他/她的乐器26，麦克风20收集演奏声音46。于是，IP包42包含从CPE单元12的演奏声音46获取的演奏数据，并被传输到被呼叫用户U2。
当然，话音传输中音频数据是在实时基础上传输，而没有重发控制。但是，在演奏数据包与音频数据包独立传输的应用中，包含演奏数据的IP包42可以在具有重发控制的非实时传输的基础上传输。对于非实时传输，重发控制是优选的，如果IP网络32上发生任何包丢失，可优选地完全复制演奏声音46而无中断。但是，用户U1和U2之间的相互通信与演奏和音频数据的紧密通信的进行同时得到提升。因此，优选地当实时能力更重要时，在没有重发控制的实时传输基础上发送IP包42。
此外，系统适合允许用户U1或U2从实时和非实时传输中适当选择传输类型以传输IP包42。提供这种可选传输类型，VoIP系统10可以基于发生包丢失的情况，自适应地决定使用任意一种传输类型。
对于具有重发控制的VoIP系统10，发生包丢失时，发送端的CPE单元12重发与丢失包相同的IP包42。目的端的CPE单元14等待重发的IP包42的到来，然后复制和输出演奏声音46。在这种情况，没有保持最精确的实时能力。但如上所述，VoIP系统10的重发控制的实时能力远大于通过邮件发送存储MIDI数据的存储介质的方法。因此，虽然这是一种非实时通信，但可以说保持了几近满意的实时能力。
在任何情况下，当另一个用户即指导者U2听演奏声音，从中发现细微变化并给出合适的指导时，一个用户即学生U1可以响应此指导并以细微修改的方式重新演奏他/她的乐器，从而实现远程音乐课程。即使用户U1和U2位置相距很远，音乐课程也几乎与长时间固定的面对面的课程一样地完成。例如，当用户U1居住在他/她的国家时，用户U2居住在外国时，此课程非常有利。而且，用户U1和U2的语言不同时，在至少一个CPE单元12和14上安装机器翻译设备，通过机器翻译可完成实时通信。
使用上述VoIP系统10，可提供各种音乐课程服务而无须移动，从而易于立即提供来自世界多个指导者的低学费的多种服务。学生太年幼和/或指导者太年老而不易移动时，本实施例可更有效地提供服务。因此，通过改善通信质量和利用诸如音频和演奏数据的多种信息，提升实时基础上的相互通信，可实现有利的远程音乐课程。
下面将说明VoIP系统10的可选实施例，本发明的实时通信系统应用于此VoIP系统。此后，为避免对多余说明的重复，仅说明与前述实施例的不同点。同样的附图标记表示同样的结构元素，其中省略重复说明。如图3所示，可选实施例中的VoIP系统具有MIDI电缆CPE单元12和乐器26之间的USB(通用串行总线)-MIDI接口48。
USB-MIDI接口48提供MIDI数据的并-串转换功能并输出被转换的数据，MIDI数据通过5针DIN(德国工业标准)电缆从乐器26提供给输入连接器。MIDI是将合成器互连或将计算机连接到合成器的协议，例如，通过此协议可实现速率为31,250bps的传输。在MIDI电缆上传输的数据不是类似PCM(脉冲编码调制)的采样数据，但包括音调信息和音乐间隔。通过以MIDI协议确定的命令格式说明的MIDI数据，而不是代表乐器26的演奏声音波形的演奏数据，传输信息。MIDI数据命令通常是长度为1，2或3字节的消息。
如图4所示，VoIP系统10的CPE单元12包括MIDI-接口(IF)电路50，取代了前述实施例中包括的音频编解码器电路38。MIDI-IF电路50的功能是汇集包含MIDI数据的IP包42，并将其发送。在此实施例中，代表演奏声音的信息以MIDI数据形式传输。因此，减少了对宽带通信的要求，如前所述实施例VoIP-IF电路36传输低于300赫兹高于3,400赫兹的音频带宽信号。而且，在可选实施例中处理的MIDI数据是数字数据，CPE单元14端的演奏声音的正常复制不容许即使一位的错误混合或丢弃。这使得IP包的重发控制是优选的。
比较如图1和3所示实施例中处理的数据，关于同样大小的数据，在可选实施例中处理的数字数据可在相当长的时间内代表话音或声音信号。因此，如果IP包42的重发有一定时延，用户U2也可将其忽略，认为是用户U2端的音频输出和复制演奏声音输出之间的时间延迟。
例如，图5所示CPE单元14，适合接收包含MIDI数据的IP包42和包含音频数据的IP包40。图5所示CPE单元14包含声源模块52和混音器54以及与图4相同的结构元素。声源模块52是所谓的MIDI声源模块，提供复制代表MIDI数据的演奏声音的功能，MIDI数据从MIDI-IF电路50接收的IP包42中获取。声源模块52包括存储诸如音色的信息的ROM(只读存储器)。根据MIDI数据读取存储信息以复制和输出演奏声音。
混音器54具有将VoIP-IF电路36提供的代表用户U1话音的解码数据与声源模块52提供的代表演奏声音的复制输出信号混合的功能，从而输出混音结果给用户U2听。混音器54也将用户U2的话音提供给VoIP-IF电路36。VoIP-IF电路36产生包含用户U2话音信号的IP包40，将其发送到CPE单元12。
与前述实施例的系统一样，本系统使用的VoIP系统10实现了实时相互通信和有效的远程音乐课程。通过对包含MIDI数据的IP包42的重发控制，本实施例的系统10将更高质量的演奏声音提供给用户U2听。
下面将描述VoIP系统10的另一种可选实施例，本发明的实时通信系统应用于此VoIP系统。本实施例具有从用户U2传输他/她的演奏声音作为范例，并使用听觉信息和视觉信息的特征，因此使相互通信更健壮。图6所示是根据本实施例的VoIP系统10。
图6所示VoIP系统10包括与图5的CPE单元14结构相同的CPE单元12，也配置了USB照相机56，其捕获用户U1弹奏乐器26的场景，产生关于用户U1的视频信息。此外，VoIP系统10中，用户U2的CPE单元14具有与之相连的显示器58。在此实施例中，乐器26是键盘乐器。因此，照相机56主要用于拍摄用户U1的手指运动。照相机56产生的图像数据与会话音频数据和MIDI数据一起存储在IP包中，然后通过IP网络32传输到用户U2。CPE单元14从传输的IP包中提取音频数据，MIDI数据和图像数据。所获取的图像数据提供给显示器58。因此，显示器58显示用户U1的手指运动。于是，用户U2可以观看图像数据所表示的用户U1在琴键上的手指运动。
另一方面，另一个用户，或指导者U2可以弹奏与用户U1相同的乐器26作为示例。代表从他/她的演奏合成的声音的MIDI数据被传输到用户U1的CPE单元12。通过MIDI-IF电路50，声源模块52和混音器54，CPE单元12将MIDI数据提供给耳机设备22。现在，用户U1可以听示例或范例演奏。
在此实施例中，可以使用具有重发控制的非实时传输以传输包含图像数据的IP包。但是，优选地也使用无重发控制的实时传输。而且，此实施例中仅描述了从学生到指导者方向的图像数据传输。但是并不仅限于上述方向，双向图像传输也是可能的，其中视频演奏示例可以传输给学生。在这种情况，VoIP系统10可分别在用户U2和U1前端添加USB照相机56和显示器58。通过传输上述视频信息，学生和指导者的相互理解程度更接近面对面的音乐课程。
下面仍描述VoIP系统10的另一种可选实施例，本发明的实时通信系统应用于此VoIP系统。在此实施例中，多对一的音乐课程可由多个学生和一个指导者完成。在这种情况，用户U3与用户U1一样，是接收用户即指导者U2提供的音乐课程的学生。因此，用户U3前端的结构元素与用户U1完全相同。
图7所示，根据本实施例的VoIP系统10在IP网络32上配备了混音(MIX)服务器60。混音(MIX)服务器60包括中继电路61以及诸如声源模块和混音器的其它设备，图7中未明确说明。因此，CPE单元12和14可包括与图4所示相同的结构元素。但是，MIDI-IF电路50可能仅包括传输设备。因此，对于VoIP系统10，混音服务器60的中继电路61将学生U1和U3弹奏乐器26的演奏结果混合，将混合内容传输给指导者U2，而将从指导者U2接收的话音信号和演奏示例分别发送给学生U1和U3。这使得指导者U2听到的演奏声音好像是学生U1和U3用他们的双手弹奏物理上单独的乐器26。
在此实施例中，两个学生都使用与乐器26同样标准的键盘乐器，但不必说，他们也可使用不同标准的乐器。在一个应用中，用户U2能同时听到3个或更多学生的演奏声音，例如，他/或她可以使一组学生演奏交响乐。混音服务器60可将混音输出提供给各个学生听。同样，系统适合混合这些学生的话音和演奏声音，从而在参加同一课程的学生之间建立同时通信。为了个人训练，系统也适合实现指导者与各个学生之间以及学生之间的通信。因此，VoIP系统10不仅可用于一对一的音乐课程，也可用于多对一的音乐课程。
下面将描述VoIP系统10的进一步的可选实施例，本发明的实时通信系统应用于此VoIP系统。图8所示VoIP系统10相应于在图3所示IP网络32上配备了数据转换服务器62的系统。数据转换服务器62包括数据转换电路62A，其适合将从CPE单元12传输的包含在IP包42的MIDI数据转换为音频数据，即演奏声音的波形数据，此数据与VoIP-IF电路36编码的音频数据相同。服务器62也包括中继电路62B，其适合将数据传输或中继到CPE单元而不转换数据。通过中继电路62B，数据转换服务器62将包含已转换音频数据的IP包传输到CPE单元14。
通过使用这种配置，用户U2的CPE单元14可以与MIDI标准不兼容，并且不要求MIDI声源模块，从而使得配置简化。
当接入线28和30是诸如ADSL的不对称传输率线路时，其上传和下载速率互不对称，因此其上传带宽比下载带宽窄，通过IP网络32上的数据转换服务器62，将MIDI数据转换为音频数据，使得数据大小增加。但数据增加是在下行方向，因此转换很好地匹配了不对称速率接入线，甚至更有效。原因在于，一方面，在上传方向，数据通过接入线28从CPE单元12传输到数据转换服务器62时，所要求的传输大小更小，而另一方面，在下载方向，数据通过接入线30从数据转换服务器62传输到CPE单元14时，所要求的传输大小更大。
当使用数据转换服务器62或混音服务器60时，服务器所在位置可能增加跳数，从而导致某些缺点，例如实时通信时延增加和通信质量不稳定。因此，应仔细选择服务器的位置。
而且，图3中，在乐器26和CPE单元12之间配置了USB-MIDI接口作为接口设备。接口设备的功能可以在乐器26或CPE单元12中提供。更进一步，很明显USB的使用不是必不可少的。例如在以上描述中，耳机设备22可以用免提电话设备代替。
如图9所示，在用户前端之间可能存在一个网络而不是一个IP网络32。通常，音乐课程中居住相距很远的学生和指导者通信时，通常使用多种网络和，或取代IP网络32。例如，作为多种网络中的一种，ISP网络或“AS”是可用的。
如图9所示，当居住在日本的用户U1和居住在美国的用户U2在音乐课程中相互通信时，用户U1通过日本ISP网络ISP1 64，IP网络32和美国ISP网络66与另一个用户U2通信从而接受音乐课程。特别地，配置具有图10所示结构的VoIP系统10是为了稳步提高通信质量。通过一个简单的通信试验，日本用户U1经ISP1 64，TIR1网络68和专线70与另一个用户U2通信，已经证实VoIP系统10的配置。TIR1网络68是主要提供者之一。
TIR1网络是一种ISP网络，由一个大型主要美国ISP操作。众所周知，因特网是ISP网络的集合，基于进行路由的路径信息种类，在ISP网络之间建立分级体系结构。TIR1网络是位于分级体系结构的最高层的ISP网络，维护路径信息，通过这些信息路由到因特网上任何ISP网络，甚至到任何自治网络AS。
如果用户是互连到ISP网络而不是TIR1网络68，某些具有不能定位适当路径信息的地址的IP包，可能被中继到不同的ISP网络从而找到适当的路径信息。如图10所示系统结构，一个学生能接收世界多个指导者的实时远程音乐课程，而一个指导者能给世界多个学生上实时课程。
此外，本发明不仅可应用于乐器课程，也可应用于声乐和卡拉OK课程。前述示例实施例中使用IP协议，但是用于OSI参考模型网络层的协议不是必须限定于IP协议。例如，可应用IPX协议。
而且，本发明的示例实施例通过硬件配置实现。但也可以通过软件配置实现本发明。几乎所有以硬件形式实现的功能都可以用软件配置实现，反之亦然。
在上述配置中，CPE单元12和14连接到IP网络32分别作为呼叫方和被叫方。CPE单元12和14的VoIP-IF电路36执行至少一个以下过程对第一音频信号的编码过程和对媒体信息的恢复过程，从而将该过程产生的媒体信息传输到其连接方，和将从其连接方接收的媒体信息恢复为第一音频信号，以输出信号。音频编解码器38执行至少一个以下操作发送所接收的音乐数据到其连接方，和将从其连接方接收的音乐数据转换为第二音频信号。每一个CPE单元12和14因此输出具有从第一和第二音频信号组合的传输特性的声音，从而促进了用户之间的相互通信。实时通信用改善通信质量的简化配置完成。
VoIP系统10提供IP网络32上的混音服务器60。基于特定的协议，混音服务器60的中继电路61将用户U1和U3传输的数据中继或传输到用户U2的CPE单元14。基于特定的协议，中继电路61也将从CPE单元14传输的数据中继或传输到用户U1和U3的CPE单元12。这样简化了CPE单元的配置，易于实现多对一的通信。
在一个应用中，至少一个CPE单元是其VoIP-IF电路36仅包括音乐数据的传输和接收功能的CPE单元14，VoIP系统10可能在IP网络32上配备有转换服务器62。转换服务器62的数据转换电路62A将音乐数据转换为MIDI标准的音频信号，(否则由CPE单元14实现)，中继电路62B将诸如从CPE单元12接收的音乐数据插入到MIDI标准的音频信号中或与之联合从而转换，并将插入后的数据中继到没有接口电路的CPE单元14。这样简化了CPE单元14和整个系统的配置。
在实时通信中，VoIP-IF电路36作为实现电路，基于从USB照相机56接收的图像信号产生编码的图像媒体信息，或将编码的图像媒体信息恢复为原始图像信号。因此，可以在实时的基础上获取视频信息，显示图像并提高通信质量。
CPE单元14具有混音器54，其适合将从音频媒体信息恢复中获取的VoIP音频信号与从音乐数据转换和获取的MIDI标准的音频信号混合，从而为耳机设备24提供混音。
VoIP系统10应用于作为由不同的组织操作的多元素网络的集合的网络，其中基于元素网络之间的路径控制过程中每一个元素网络维护的路径信息的范围，在元素网络中形成了一个分级体系结构。至少一个相互通信的媒体终端单元位于元素网络的第一层，其置于分级体系结构的最高层，并独自维护与所有其它元素网络相关的路径信息。因此，不必通过其它确定路径信息的ISP网络传送IP包，从而相当有利于建立实时通信。
根据本发明所应用的CPE单元12和14，VoIP-IF电路36执行至少一个以下过程对第一音频信号的编码过程，和对媒体信息的恢复过程，从而将该过程产生的媒体信息和从所提供的媒体信息恢复的第一音频信号输出。媒体编解码电路38执行至少一个以下操作输出所接收的音乐数据和将音乐数据转换为第二音频信号，从而产生具有从来自各自的CPE单元的第一和第二音频信号组合的传输特性的声音。因此，通过使用多种信息，可以提高通信质量，促进实时相互理解。
2003年11月28日申请的日本专利申请号2003-400080的完全公开包括公开说明书，权利要求书，附图及摘要，其全部内容在此合并作为参考。
参照特定示例实施例描述了本发明，但其并不受限于本实施例。可以理解，在不偏离本发明的范围和精神时，本领域的技术人员可以改变或修改本实施例。
权利要求
1.一种网络上的基于通信协议的实时通信系统，其中与第一音频信号相关的音频媒体信息被插入到与该通信协议相关的协议的数据中，而且用户所使用的第一和第二媒体终端单元在实时的基础上，通过发送和接收中的至少一种相互通信，该系统包括信息转换电路，用于在实时通信中执行至少一个以下操作基于从第一终端单元接收的第一音频信号通过编码产生音频媒体信息，和基于从第二终端单元提供的音频媒体信息恢复第一音频信号；以及接口电路，用于执行至少一个以下操作接收从第二媒体终端单元提供的具有一种数据格式的第一音乐数据，以将第一音乐数据转换为第二音频信号，和从第一媒体终端单元接收第二音乐数据以发送该第二音乐数据。
2.根据权利要求1所述的系统，进一步包括在网络上提供的混音服务器，其中所述混音服务器包括第一中继电路，用于将基于与该通信协议相关的协议从第一和第二媒体终端单元发送的数据，中继到第三媒体终端单元，和将基于与该通信协议相关的协议从第三媒体终端单元发送的数据，中继到第一和第二媒体终端单元。
3.根据权利要求1所述的系统，其中至少一个媒体终端单元的所述接口电路仅具有音乐数据的发送和接收功能，在网络上提供的所述系统配备有转换服务器，用于将音乐数据转换成第二音频信号并中继，所述转换服务器包括转换电路，用于将基于与该通信协议相关的协议，从第二媒体终端单元发送的数据中取出的第一音乐数据转换为第二音频的媒体信息；以及第二中继电路，用于将第二音频的媒体信息插入到该协议的数据中，并将该插入的数据中继到不具备所述接口电路的媒体终端单元。
4.根据权利要求2所述的系统，其中至少一个媒体终端单元的所述接口电路仅具有音乐数据的发送和接收功能，在网络上提供的所述系统配备有转换服务器，用于将音乐数据转换成第二音频信号并中继，所述转换服务器包括转换电路，用于将基于与该通信协议相关的协议，从第二媒体终端单元发送的数据中取出的第一音乐数据转换为第二音频的媒体信息；以及第二中继电路，用于将第二音频的媒体信息插入到该协议的数据中，并将该插入的数据中继到一个不具备所述接口电路的媒体终端单元。
5.根据权利要求1所述的系统，其中，所述信息转换电路在实时通信中执行以下操作中的任何一个基于从第一媒体终端单元接收的图像信号通过编码产生图像媒体信息，和从被编码的图像媒体信息中恢复原始的图像信号。
6.根据权利要求2所述的系统，其中，所述信息转换电路在实时通信中执行以下操作中的任何一个基于从第一媒体终端单元接收的图像信号通过编码产生图像媒体信息，和从被编码的图像媒体信息中恢复原始的图像信号。
7.根据权利要求3所述的系统，其中，所述信息转换电路在实时通信中执行以下操作中的任何一个基于从第一媒体终端单元接收的图像信号通过编码产生图像媒体信息，和从被编码的图像媒体信息恢复原始的图像信号。
8.根据权利要求1所述的系统，其中所述媒体终端单元包括混音器，用于将通过从音频媒体信息恢复获取的第一音频信号与通过从音乐数据转换获取的第二音频信号混合。
9.根据权利要求4所述的系统，其中所述媒体终端单元包括混音器，用于将通过从音频媒体信息恢复获取的第一音频信号与通过从音乐数据转换获取的第二音频信号混合。
10.根据权利要求7所述的系统，其中所述媒体终端单元包括混音器，用于将通过从音频媒体信息恢复获取的第一音频信号与通过从音乐数据转换获取的第二音频信号混合。
11.根据权利要求1所述的系统，其中所述网络是由不同组织控制的多个元素(element)网络的集合，所述元素网络根据在所述元素网络之间的路径控制中维护的路径信息的范围，形成分级体系结构，至少一个相互通信的所述媒体终端单元位于该分级体系结构的最高层，并被互连到独自保存其余元素网络的路径信息的所述元素网络的第一层。
12.根据权利要求8所述的系统，其中所述网络是由不同组织控制的多个元素网络的集合，所述元素网络根据在所述元素网络之间的路径控制中维护的路径信息的范围，形成分级体系结构，至少一个相互通信的所述媒体终端单元位于该分级体系结构的最高层，并被互连到独自保存其余元素网络的路径信息的所述元素网络的第一层。
13.根据权利要求9所述的系统，其中所述网络是由不同组织控制的多个元素网络的集合，所述元素网络根据在所述元素网络之间的路径控制中维护的路径信息的范围，形成分级体系结构，至少一个相互通信的所述媒体终端单元位于该分级体系结构的最高层，并被互连到独自保存其余元素网络的路径信息的所述元素网络的第一层。
14.根据权利要求10所述的系统，其中所述网络是由不同组织控制的多个元素网络的集合，所述元素网络根据在所述元素网络之间的路径控制中维护的路径信息的范围，形成分级体系结构，至少一个相互通信的所述媒体终端单元位于该分级体系结构的最高层，并被互连到独自保存其余元素网络的路径信息的所述元素网络的第一层。
15.基于通讯协议互连到网络的一种媒体终端设备，用于将与第一音频信号相关的音频媒体信息插入到与该通信协议相关的协议的数据中，并在实时的基础上与连接到所述设备的一方通信，包括信息转换电路，用于在实时通信中执行至少一个以下操作基于从所述设备的近端接收的第一音频信号通过编码产生音频媒体信息，和基于从该连接的一方提供的音频媒体信息恢复第一音频信号；以及接口电路，用于执行至少一个以下操作接收从该连接的一方提供的具有一种数据格式的第一音乐数据，以将第一音乐数据转换为第二音频信号，和从该近端接收第二音乐数据以发送该第二音乐数据。
16.根据权利要求15所述的设备，进一步包括混音器，用于将通过从音频媒体信息恢复获取的第一音频信号与通过从音乐数据转换获取的第二音频信号混合。
全文摘要
一种VoIP系统具有多个连接到IP网络作为互连方的CPE单元。每一个CPE单元包括VoIP－IF电路和音频编解码器电路。VoIP－IF电路执行至少一个以下过程对第一音频信号的编码过程和对媒体信息的恢复过程，从而将由该过程产生的媒体信息传输到其连接方，和从其连接方提供的媒体信息恢复第一音频信号以输出。音频编解码器电路执行至少一个以下操作将接收的音乐数据发送到该方，和将从该方提供的音乐数据转换为第二音频信号。
文档编号H04L29/06GK1622550SQ200410095858
公开日2005年6月1日申请日期2004年11月26日优先权日2003年11月28日
发明者青柳弘美, 新木由美子, 薄叶伸司, 久保木浩申请人:冲电气工业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：青柳弘美;新木由美子;薄叶伸司;久保木浩
技术所有人：冲电气工业株式会社
我是此专利的发明人

上一篇：处理gsm及td－scdma无线信号的移动站及方法
上一篇：统一业务终端系统为业务调度能力服务器的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。