用于语音通信可视显示的装置、方法及系统的制作方法

文档序号：2641602阅读：201来源：国知局

专利名称：用于语音通信可视显示的装置、方法及系统的制作方法
技术领域：
本发明一般涉及音频及视频通信，尤其涉及用于语音通信可视显示的装置、方法及系统。
语音可视显示的常规装置和方法-如听力障碍者所用的TDD系统-一般既需要专用系统又需要由用户输入被显示的可视内容。例如，在听力障碍者的电话呼叫或对话场合，专用TDD系统被用来实现字母、单词以及句子的可视显示，而且，通信的所有参加方都必须使用该专用系统。此外，在使用TDD系统时，参与电话呼叫的每一方都必须亲自在键盘上键入每一个字母、单词以及句子，之后再将其发送到远端的TDD系统上显示出来。
其它常规系统也明确地需要人工介入，亦即独立并实际地输入将被显示的可视内容。例如，能够通过许多电视频道获得的闭路字幕显示服务需要由服务提供者将可听的口授词句转换并键入闭路字幕显示系统，从而将其作为音频/视频或其它电视广播的一部分来发送。
这些用于语音可视显示的常规系统一般需要在通信的局域和远程站点都具有专用系统，而且需要对通信过程施加有影响的人工介入。因此，该系统的成本比较高，使用难度也比较大。该系统还受到可用性和位置的限制；例如，这种TDD系统在用户出行时可能难以定位，因而妨碍对听力障碍者个人的电话通信。此外，需要该系统的用户无法与没有这种专用系统可用的另一站点实现通信。
因此，人们需要一种用于语音可视显示的装置、方法及系统，它应该在通信的局域和远程站点都不需要具备专用装置及系统。此外，该装置及系统也应该不需要对通信过程施加过多的人工介入，其成本应比较低，用户界面也应更为友好。

图1是表示如本发明所述语音可视化装置及系统的框图。
图2是表示如本发明所述语音可视化装置及系统的第一优选实施方式框图。
图3是表示如本发明所述语音可视化与生成装置及其系统的第二优选实施方式框图。
图4是表示如本发明所述语音可视化与生成方法的流程图。
如上所述，作为听力障碍者的帮助手段，除其它功能之外，语音可视显示还需要提供许多种服务，如文本或闭路字幕格式。基于有关应用的平台，本发明的装置、方法和系统提供了在通信的局域和远程站点都无需专用装置和系统的语音可视显示。此外，本发明的各个实施方式不需要对工作过程进行明显的人工介入，其成本较低，用户界面也比较友好。
在各种有关应用中所公开的本发明都可同时提供电话服务和音频/视频会议服务，其中利用了可通过通信信道连接到电信网的视频接入装置。在第二和第三个有关应用中，利用通过混合光纤同轴电缆与主站通信的CACS(电缆接入系统)协议，视频接入装置的优选实施方式可以同时提供电话服务和音频/视频会议服务，而主站又提供了电信网与有线电视服务基地之间的连接。在第四和第五个有关应用中，视频接入装置同时提供了与电信网具有直接有线连接的电话服务和音频/视频会议服务，其中利用了适于连接到如综合业务数字网(＂ISDN＂)及/或公众交换电话网(＂PSTN＂)等网络的有线网络接口。
在第二和第四个有关应用的优选实施方式中，视频会议服务容量的提供利用了客户或用户房屋内常见的普通或通用仪器设备，如电话机、电视机以及视频摄像机(便携式视频摄像机)。在第三和第五个有关应用中，上述视频会议服务容量的提供利用了一部或多部视频电话装置。不过，上述各个有关应用发明中的共同之处是使用了用来对各种媒体应用加以选择和控制-比如选择普通电话服务模式或是选择视频会议服务模式-的物理接口(如电话机或键盘)。在该优选实施方式中，可以用一部或多部电话机来完成各种控制信号向视频接入装置的音频用户界面的输入，由此选择视频接入装置的工作模式。例如，在该优选实施方式中，预定序列的输入(如电话机DTMF音的＂**＂)被用来选定视频会议服务模式，而电话服务模式则在未登录预定序列的情况下自动且透明地被选定。
除视频会议服务和电话服务之外，第六个有关应用还提供了控制各种不同多媒体应用的装置和方法。在第六个有关应用的本发明的优选实施方式中，多媒体控制装置可用来控制多种媒体应用，其中包含电话服务、视频会议服务、模拟视频、数字视频以及交流(AC)电力线信令(用来控制加热、通风、空调、安全保护以及娱乐等房屋设备或用户设备)。另外，在多媒体控制装置的该优选实施方式中，任何连通的电话机都可以成为对电话服务功能及多媒体控制功能提供物理接口的多方式电话机。
基于上述有关应用，本发明的装置、方法及系统实现了音频电话机对话或音频/视频会议中音频部分等场合的语音可视化。这种通信可以通过任何电信网或其它网络来实现，而且不需要在远程站点设置特殊的或专用的设备。下文将详细提到，从网络进来的音频信号被接受并转换成文本表示，后者又被转换成可发送至任何已接通电视机或其它视频显示装置的视频信号，从而以闭路字幕或屏幕显示格式的优选方式供用户观看。语音可视化装置可以包含针对那些可能还有语音障碍的用户而设置的语音发生子系统。本发明的语音可视化装置可以被看成是各种视频接入装置的变化型，或者被看成是有关应用中多媒体控制装置的特例或特制媒体应用。下文将详细提到，语音可视化装置含有视频接入装置和多媒体控制装置的许多相同部件及子系统，对于有关应用，可以参阅相应的详细介绍以及优选部件说明书。
图1是表示如本发明所述语音可视化装置101及语音可视化系统100的系统框图。如图1所示，语音可视化系统100包含语音可视化装置101、一个或多个视频显示装置225以及一个或多个如电话机150、键盘160、鼠标170或计算机175等物理接口155。语音可视化装置101可以通过网络接口110连接到第一(或网络)通信信道103，从而实现与网络104间的通信。第一或网络通信信道103也可被称为网络通信信道03，以此区分于语音可视化系统100的其它通信信道，如用来与多个视频显示装置225通信的第二通信信道227，或用来与键盘160或其它物理接口155通信的第三通信信道228。第一通信信道103可以是诸如一条或多条双绞线对之类的导线，也可以是诸如混合光纤同轴缆之类的电缆，还可以是诸如蜂窝或其它射频传输之类的无线方式，或者是其它任何适当的通信媒介。对于第四和第五个有关应用来说，其中所介绍的网络104可以是针对普通电话和模拟数据通信(也被称为POTS，即普通老式电话服务的缩写)的公众交换电话网(＂PSTN＂)，或者是用于数字声音和数据通信的综合业务数字网(＂ISDN＂)，或者是现有或未来的这方面电信网的任意组合，等等。对于这类有线网络来说，网络通信信道103通常将通过局域数字或模拟交换部分(未示于图中)连接到网络104。此外，如第二和第三有关应用所述，当CACS通信协议生效后，网络通信信道103可以通过主站连接到网络104，除其它事项外，主站还提供一个或多个利用其它或附加协议-如各种ISDN协议-的网络接口，并且提供与有线电视(＂CATV＂)服务基地的连接。
图1所示语音可视化装置101包含有关应用所详细介绍并描述的各种特性或部件，其中包含网络接口110、处理器配置130以及用户界面120。有关应用也提供了详细系统框图和优选部件说明书。根据语音可视化系统100的实施方式，如导线、电缆或无线电之类，语音可视化装置101的网络接口110将会相应地变化。例如，对于如第二和第三个有关应用所述的电缆方式应用来说，网络接口110将是电缆网络接口，并将包含CATV收发信机和通信ASIC(专用集成电路)，该接口可实现多种功能，如射频(RF)调制及解调以及CACS协议编码及解码。对于如第四和第五个有关应用所述的导线方式应用来说，网络接口110将包含电话服务(POTS)接口及/或ISDN接口，该接口可实现多种功能，诸如模拟电话服务(也可实现模拟调制解调器功能，如国际电信联盟(ITU)的V.34及V.34副页协议)和各种声音及数据传输的数字(ISDN)协议的实施(如ITUQ.921LAPD数据链接以及Q.910物理层(接口)数字协议)。如有关应用所述，网络接口110被用来以兼容于网络104的任意给定格式、协议或调制方案，并以任意的特定网络连接或交换方式发送并接收模拟或数字视频、音频以及其它信息和数据(泛称为数据)。例如，在通过第一通信信道103被连接到数字网络(如ISDN)时，网络接口110将发送并接收电话服务音频信号之类的数据，如按照协议中的ISDN系列(如Q-x系列)经过编码和格式化的数字信息。另一个例子是，在通过第一通信信道103被连接到PSTN时，网络接口110将发送并接收音频信号之类的数据，如普通模拟POTS音频信号。
仍参照1，一个处理器配置130被连接或耦合在网络接口110、用户界面120以及射频(RF)调制器270上。网络接口110、用户界面120以及RF调制器270的配置本质上同构于有关应用所公开和详细讨论的情形。下文还将对这些部件的各种功能加以更详细的介绍。例如，在图1所示实施方式中，语音可视化装置101包含如下部分第一，网络接口110，它可以被连接到第一通信信道103，由此从网络104接收第一音频信号，从而形成接收音频信号；第二，射频调制器270，它将基带输出视频信号(来自处理器配置130)转换为射频输出视频信号，并将射频输出视频信号发送到第二通信信道227，从而实现视频显示—例如，通过某一个视频显示装置225；以及第三，处理器配置130，该处理器配置连接到网络接口110和射频调制器270，处理器配置如下文所述历经一套程序使接收到的音频信号转换为语音的文本表示，并且进一步将语音的文本表示转换为基带输出视频信号(经过调制并由RF调制器270发送)。同样如下文所述，优选的语音可视化装置包含用户界面120，由此输入用来选择不同工作模式—诸如普通电话服务或语音可视化模式的控制信号。
用户界面120用于接收多个控制信号中的某一控制信号，诸如发出电话服务呼叫的请求，电话呼叫或音频/视频会议呼叫过程中的语音可视显示请求，基于文本输入的语音生成请求，以及其它如电话服务或音频/视频会议呼叫的进入警示信号之类的控制信号。在该优选实施方式中，用户界面120具体化为如图2和3所示，并在有关应用中详细介绍的用户音频接口255。如有关应用所公开并描述的RF调制器270将基带输出视频信号转换为射频输出视频信号，由此通过第二通信信道227传送信号并由视频显示装置225实现可视显示。在该优选实施方式中，第二通信信道227是有线电视等场合所用的同轴缆，它分布于用户或客户房屋内一个或多个位置或终端上。
处理器配置130提供了已接收音频信号(来自网络接口110)向语音可视化或文本表示的转换，而后者又被转换为基带输出视频信号(由RF调制器调制并发送至视频显示装置225)的形式。处理器配置130还提供了基于文本输入的语音生成(通过网络接口110被发送至网络104)。如有关应用所述并且如下文所详述，处理器配置130可以由单个集成电路(＂IC＂)构成，也可以包含多个集成电路或者其它连接或组合在一起的部件，如微处理器、数字信号处理器、ASIC、有关的存储器(诸如RAM及ROM)以及其它IC和部件。这样，术语“处理器配置”在这里应被理解成一种等效装置，它包含单个处理器，或者包含处理器的配置、微处理器、控制器或其它一些可实现下文详细介绍的功能的组合集成电路。例如，在该优选实施方式中，处理器配置130的实现如图2和3所示，其中配有微处理器子系统260(同样如有关应用所述)连同语音可视化子系统(300或310)，而且还可以包含语音生成子系统(320)。
仍参照1，语音可视化装置101通过用户界面120连接到一个或多个物理接口155上，这样，通过对语音可视化装置的直接访问，用户便得以输入一个或多个控制信号，而且也得以输入用于语音生成的文本。物理接口155一般包含一部或多部电话机150、键盘160、计算机鼠标170或计算机175。电话机150也可以采取视频电话形式。在包含电话机150时，多个控制信号的直接输入是作为DTMF(双音多频)或脉冲拨号信号通过电话机键区实现的，而通过各种电话机150(或视频电话)的送话器及扬声器又可以实现普通的音频输入和输出。除电话机150之外，或者说作为电话机150的替代者，键盘160、鼠标170及/或计算机175也可以被用来输入多个控制信号。键盘160或计算机175是通过第三通信信道228(当然，也可以使用DTMF拨号等其它输入方法)为语音生成输入文本的优选使用方式。图示的第三通信信道228具有从物理接口155到处理器配置130的直接连接，当然，其它连接也是可用的；例如，第三通信信道228可以全部被删除(图2)，其中，控制信号的输入通过引向用户界面120或用户音频接口255(而不是引向处理器配置130)的连接(如图2中的线路294)来实现。
仍如图1所示，RF调制器270将来自处理器配置130的基带输出视频信号—如NTSC/PAL复合视频信号—转换为射频输出视频信号，如调幅残留边带RF信号，该信号可以通过视频显示装置225来观看，或者如图2和3所示，通过用户电视机—例如，在将频道转换到3或4时—来观看。RF调制器270可以多种方式实现，其中包含通过使用优选实施方式中所用的视频调制器—如Motorola MC1373，后接增益级(放大器)—来克服源于定向耦合器290(示于图2)的损耗，该定向耦合器290将RF输出视频信号馈入第二通信信道227，如用户房屋内的同轴缆系统。
下文将详细介绍，本发明的方法体系可以作为批处理执行的一系列程序指令被编入或存入处理器配置130及其相关存储器以及其它等效部件中。该系列程序指令可以被存入任何存储装置中，如存储器IC、软盘、CDROM或其它任何可读或可执行的媒体。在该优选实施方式中，连同存入的系列程序指令以及对用户输入或接收自网络104的控制信号的响应，处理器配置130被用来实现多种功能。这样，该优选实施方式中的处理器配置130具有多个工作模式，如语音可视化、普通(POTS)电话服务、合成声音(语音)传送等工作模式，还有音频及视频会议服务(在某一优选实施方式中)。
图2是表示如本发明所述语音可视化装置201第一优选实施方式以及语音可视化系统200第一优选实施方式的系统框图。语音可视化系统200包含语音可视化装置201、一部或多部电话机150(作为物理接口155)以及通过第二通信信道227连接到语音可视化装置201上的一台或多台电视机240(作为一种视频显示225)。由上述网络接口110，语音可视化装置201还通过第一通信信道103被连接到网络104(未示于图中)。语音可视化装置201还包含连接到定向耦合器290的RF调制器270，如上所述，该定向耦合器290将RF输出视频信号从RF调制器270馈入第二通信信道227，如用户房屋内的同轴缆系统有关应用已详细介绍到，所设计的用户音频接口255可连接标准家用电话机，包含无线话机以及扬声器话筒，如电话机150。按照设计，用户音频接口255可以同时支持音频POTS呼叫和视频呼叫，而且，在与网络接口110连用时还支持模拟调制解调器功能。此外，在与某一电话机150(或者是图1所示的键盘160、鼠标170或计算机175)等物理接口155连用时，用户音频接口还可实现所用各种控制信号的输入，例如，选择语音可视化应用，或者，发出电话服务或视频呼叫。在该优选实施方式中，任一电话机150均可被用于各种控制信号的输入，而且，普通POTS呼叫的处理以＂透明＂模式进行，从而使电话呼叫的发出及接收如同在不具备语音可视化、视频会议或其它多媒体功能的情况下发生。同样在该优选实施方式中，语音可视化、视频呼叫以及多媒体功能被作为例外情况处理，这需要由用户输入的指定或预定拨号序列来请求语音可视化、视频呼叫或其它媒体功能。该优选实施方式中所用的各种电话机150可以是任何一种型式的普通电话机，包含无绳(移动式)电话机、线绳电话机、DTMF或脉冲拨号电话机、视频电话或扬声器话筒。
如有关应用所述，优选的用户音频接口255包含可为用户房屋内电话服务提供＂BORSHT＂功能的SLIC电路(用户环路接口电路)；振铃生成电路；用于视频呼叫或电话服务呼叫中音频部分的音频编码译码器，由此对发自一部或多部电话机150中送话器部分的输入(声音)音频信号提供声音数字化模拟-数字转换，并且对输出的数字声音数据流或信号(对电话机150扬声器部分建立输出音频信号)提供声音恢复数字-模拟转换；以及可编程数字信号处理器(DSP)及其相关存储器(在有关应用中被称为声音处理DSP，以区别于被称为视频处理DSP的另一种DSP)。用户音频接口255的DSP含有程序存储器和数据存储器，由此实现以下功能诸如DTMF/拨号脉冲检测及生成的信号处理功能；模拟调制解调器功能；呼叫进行音调(拨号音，忙音)的生成；PCM-线性和线性-PCM(脉码调制)转换；以及语音提示的重放。在该优选实施方式中，DSP的相关存储器包含高密度只读存储器(被称为语音ROM)，该存储器含有供用户交互使用、经PCM编码(或压缩)的语音片段，例如，该语音片段可以在有视频呼叫时提示用户进行键区的DTMF或拨号脉冲输入，也可以在其它多媒体模式下使用。此外，可选的语音随机存取存储器可以用来实现用户声音存储功能，而且，电改写可编程非易失(快速)存储器可用来存储程序(和更新)或算法。
语音可视化装置201中配有作为图2所示微处理器子系统260和语音可视化子系统(或处理器)305的处理器配置130(见图1)。有关应用详细提到，微处理器子系统260由微处理器或其它处理单元—如MotorolaMC68LC302—以及包含随机存取存储器(RAM)和只读存储器(ROM)的存储器构成，而且，在优选实施方式中，子系统260还包含快速可编程存储器(如快速EPROM或E2PROM)，其通信通过连接到网络接口110和用户音频接口255的总线261以及连接到语音可视化子系统305的总线263来实现。只读存储器也使用快速可编程存储器，从而使存储器内容得以从网络104上下载。这样，工作软件(程序指令)的不同版本—如升级—就可以在不修改语音可视化装置201以及无需用户介入的状态下生效。微处理器子系统260实现了语音可视化处理器305、普通电话服务呼叫处理以及数字电话服务呼叫处理的控制及配置，而且在请求模拟或数字视频呼叫时还被用来执行ISDN或其它协议堆栈，如ITU Q.931消息信令。
语音可视化子系统305也被称为语音可视化处理器，它也可以由微处理器或其它处理单元—如Motorola MC68LC302-以及包含RAM和ROM的存储器构成，而且，在优选实施方式中，子系统305还包含快速可编程存储器(如快速EPROM或E2PROM)。如图2所示，语音可视化子系统305包含两个功能块，即语音识别子系统(或处理器)307和屏幕显示子系统(或处理器)309。根据网络接口110以及关联或对应网络104的类型，从网络104进入的语音可以具有多种格式。例如，在被连接到PSTN时，进入的语音将作为模拟信号被网络接口110接收，并且将被优先转换为数字格式，如脉码调制(PCM)数字语音信号。在被连接到电缆网络时，进入的语音将作为CACS或其它协议信号被网络接口110接收，该信号可以经解调而形成数字编码语音信号，如PCM编码语音信号。当音频/视频会议的一方呼叫时，微处理器子系统260将数字语音信号从视频部分分离出来以做单独处理(下文将结合图3加以介绍)。数字语音信号被传送到语音识别子系统307。在该优选实施方式中，语音识别子系统307的程序含语音识别软件，这类软件可以是专有或市售的，如IBM或Lexicus(隶属于Motorola公司)发售的语音识别软件系统。在该优选实施方式中，语音识别子系统307是可多次训练的，由此提高对频繁调用者的语音识别准确度。语音识别子系统307可以从数字语音信号生成语音的文本表示，文本表示可以有多种格式，如ASCII格式文本或其它合适的编码或格式化文本。语音的文本表示又被传送到屏幕显示子系统309，子系统309的程序也含有市售或专有的屏幕显示软件。屏幕显示子系统309的具体形式还可以采用独立IC，如PhilipsOSD PCA855D。屏幕显示子系统309将语音的文本表示转换为屏幕显示格式，后者被作为基带输出视频信号输出到RF调制器270。也可以采用其它视频格式，如下文结合图3所述的闭路字幕格式。RF调制器将基带输出视频信号转换为射频输出视频信号，后者通过用于各种电视机240显示的第二通信信道227而被传输到频道3或4之类的频道上。于是，语音可视化装置201将接收到的音频信号—例如，从网络进入的语音信号—转换为射频输出视频信号，后者被传送到一个或多个视频显示装置(如电视机240)以实现语音可视显示。
如上文以及有关应用所述，在该优选实施方式中，用户可对多媒体应用模式加以初始化，例如，将语音可视显示模式或视频会议服务模式初始化为相对于常规或普通电话服务模式的例外，其做法是输入可由用户音频接口255的DSP识别为多媒体应用模式序列的指定预设序列。另外，也可以使用多个多媒体模式序列，其中，每个预设序列对于选定的多媒体应用模式—如视频模式或语音可视化模式—来说是特定的。下文还将结合图4中的流程图介绍这一方法体系。例如，对于优选实施方式中的多媒体模式来说，指定预设序列的头两位数字在标准POTS呼叫中是唯一且专门不使用的，如＂**＂，这样就可以专门地向DSP发出信号，以输入多媒体应用模式而不是普通电话服务模式。另外，其它指定预设序列可以由用户编程，以使DSP将其识别为多媒体模式。各种媒体应用模式可以通过某一个物理接口155而局部地输入，也可以通过穿越网络104和网络接口110的连接而远程输入。在两位指定数字或表示多媒体模式的其它指定预设序列被解码之后，语音可视化装置201会立即对语音可视化(或多媒体)控制进程加以初始化，例如，通过DSP生成、播放或显示语音或视频提示序列，诸如＂请选定呼叫选项或按下′#′键求助＂，该序列被存储在用户音频接口255存储器的ROM部分中。此后，DSP所做出的行为将应答并取决于由用户跟随初始提示而输入或键入的序列。例如，如果按下′#′键，用户将可看到或听到一个样例如下的指令菜单＂输入语音模式的视频显示，按下1＂＂输入视频会议呼叫模式，按下2＂＂输入家庭或房屋自动模式，按下3＂＂输入声音邮件，按下4＂＂再次听到此菜单，按下#′在用户选择了特定或指定的媒体应用模式—如语音模式的视频显示—之后，语音可视化装置201和系统200将生成或显示一个指令子菜单。例如，如果用户选择了语音模式的视频显示，该用户将可以看到或听到如下的指令子菜单＂发出一个目录呼叫，按下*＂＂更新该呼叫目录，按下2＂
＂发出一个人工视频呼叫，按下3＂＂使用语音生成，按下4＂＂训练语音识别，按下5＂＂再次听到此菜单，按下#′在该优选实施方式中，用户目录的一个好处是增强了被呼叫方的选项，语音识别子系统307可以被告知呼叫将被发往先前已＂熟悉＂的一方，亦即其语音识别子系统307已经获得过某些训练的一方。这样，语音识别子系统307可以经过更精细的调音来识别一个特定个人的语音，从而提高可听语音的可视显示准确度。此外，通过上述控制信号的输入，用户还可以针对其接收到的呼叫而将所呼叫的特定一方指示给语音识别子系统307，并且再次使语音识别子系统307对先前已熟悉过的呼叫方语音模型进行类似的调整。
因此，在该优选实施方式中，所使用的自动且用户友好的提示序列可以通过单一(集成)的物理接口引导用户历经语音可视化过程或序列，其中的物理接口可以采用电话机150之类，而不是多重且不同的(而且常容易混淆)接口。用于用户交互作用的其它复杂系统还可以包含使用电视机240或其它实现菜单选项屏幕可视显示的视频显示装置，其中，对于如呼叫控制和发出信息之类的用户控制信号来说，其对应的输入方式可以采取多种形式，例如，通过电话机150的键区，通过具有语音可视化装置201的红外远程控制链接，或者通过经由第二通信信道227(见图3)的视频输入路径。
图3是表示如本发明所述语音可视化和语音生成装置301以及语音可视化(及语音生成)系统300的第二优选实施方式系统框图。语音可视化(及语音生成)系统300包含以下部分语音可视化和语音生成装置301；一部或多部电话机150以及键盘160(作为物理接口155)；一台或多台通过第二通信信道227连接到语音可视化及语音生成装置301的电视机240(作为视频显示装置225的一种)；视频摄像机230以及摄像机接口235。视频摄像机230和摄像机接口235在有关应用中已详细介绍过，在此用它们来表示视频会议服务的整个容量，这样，由视频摄像机230和摄像机接口235在用户房屋内产生的视频信号就可以被解调(由解调器275)并且被处理(在音频/视频压缩及解压缩子系统265中)，从而由语音可视化及语音生成装置301通过第一通信信道103发送到网络104(未示于图中)。
仍如图3所示，语音可视化及语音生成装置301包含多个如上文结合图2所述的相同部件，如网络接口110、用户音频接口255、微处理器子系统260、RF调制器270以及定向耦合器290。语音可视化及语音生成装置301包含第二种语音可视化子系统(处理器)，亦即被用来为语音可视显示提供闭路字幕格式的语音可视化子系统(或处理器)310，还包含将文本输入转换成可听语音信号以便向网络104发送的语音生成子系统(处理器)320。语音可视化及语音生成装置301还被连接到一部或多部电话机150以便输入控制信号，同时也被连接到键盘160以便输入文本(用于后继的语音生成)。语音可视化及语音生成装置301还受到上文所述涉及语音可视化装置201的类似控制，亦即输入控制信号的控制方式(优选为电话机150方式)。
有关应用已详细提到，音频/视频压缩及解压缩子系统265执行音频和视频的压缩及解压缩，所用方式优选为ITU H.32x系列协议，而且主要用于视频会议服务。对于来自视频会议呼叫(发自网络04)音频部分的语音可视显示来说，其音频信号由音频/视频压缩及解压缩子系统265加以解压缩并从视频会议呼叫的视频部分中被分离出来。视频会议呼叫的视频部分也被解压缩并被转换为基带输出视频信号(如有关应用所详细介绍)。接着，音频信号经语音识别子系统307的处理而形成语音的文本表示，如上文结合图2所述。语音的文本表示继而经闭路字幕编码器311的处理而被转换成闭路字幕视频格式并由此形成闭路字幕视频信号，该视频信号可以以垂直空白间隔等方式实现。闭路字幕编码器311可以采用市售或专有的闭路字幕编码器或处理器。此后，基带闭路字幕视频信号在混频器313中与基带输出视频信号(来自视频会议呼叫的视频部分)混频。混频的视频信号同时包含视频信息与闭路字幕信息，于是，该视频信号被调制并由RF调制器270发送，从而在任何一台电视机240上显示出来。在该系统301的实施方式中，优选的电视机240包含对闭路字幕信号进行解码及显示的闭路字幕解码器。
为在各种电视机或其它视频显示装置上显示而发送的语音可视化信息还可以包含其它信息。例如，还可以包含并表示响度(音量)信息，比如，可以利用波幅对应于音量或表征音量的正弦波表示法，或者利用同样对应于音量或其它语音加重的粗体或下划线格式。
语音可视化及语音生成装置301还包含语音生成子系统(处理器)320，该子系统320被连接到键盘160以便输入文本，输入的文本又被转换成语音并被发送到网络104。在该优选实施方式中，语音生成子系统320—也被称为语音生成处理器—可以配置专有或市购的语音生成软件，或者采用市购的IC或其它电路来实现配置。如上文对进入的语音信号所做的介绍，根据网络连接的类型，发送网络104的音频(语音)信号可以采取多种形式，例如，发送到PSTN的模拟音频信号、发送到ISDN的数字语音信号、或者发送到主站以及后继网络通信的CACS语音信号。作为语音生成的优选方案，文本以键盘160方式输入，并作为ASCII码或者以其它编码或二进制格式在文本捕获子系统321被捕获，而且在文本-语音子系统322中从文本格式转换为语音格式(如字或短语)。此后，语音格式信号在语音合成器323中被转换为合成语音，后者又以适当的模拟、数字或编码格式被发送到网络104。
图4是表示如本发明所述语音可视化和语音生成方法的流程图。图4还表示了电话机—如电话机150—在本发明所述系统中的多重角色或模式，其中包含提供普通电话服务(POTS)以及提供多媒体控制，后者包含语音可视化和视频会议服务模式的选项控制信号。参见图4，以起始步骤400为开端，在步骤405检测服务请求，如启动挂接或接收进来的警告信号。然后，在步骤410，提供用户指示或警告，如可视或可听的拨号音、进入的振铃信号或可视警告，并且采集信令信息，如DTMF电话号码数字或＂**＂。当语音可视化模式在步骤415被请求—例如，通过输入＂**＂或接收到发自网络104的进入信息—之后，该方法便进行到步骤435。当语音可视化模式在步骤415未被请求时，该方法将进入步骤420，请求或设置普通电话服务呼叫，例如，生成DTMF音并连接用户电话机与网络104之间的音频路径，随后，在步骤425中输入透明电话服务模式并将音频(一般为PCM)数据发送到网络104。音频数据将由用户音频接口255经过PCM编码，并将由网络接口110转换为可发送到网络104的适当数字或模拟格式(如ISDN，POTS，等等)。当电话服务呼叫终止于步骤430时，该方法便可进入返回步骤500而结束。
仍如图4所示，当语音可视化模式在步骤415被请求时，该方法将进入步骤435并决定是否也请求语音生成。当语音生成在步骤435也被请求时，该方法又会进入步骤475以实现并行于语音可视化的语音生成。当语音可视化模式独立于步骤435的语音生成请求而在步骤415被请求时，该方法将进入步骤440并对语音可视化系统加以初始化，如播放上述的初始语音或视频警示。接着，音频信号在步骤445被接收到，所接收到的音频信号在步骤450被转换为语音的文本表示。语音的文本表示又在步骤455被转换为基带输出视频信号，并在步骤460被调制以形成射频输出视频信号。然后，射频输出视频信号在步骤465被发送到视频显示装置。当语音可视化进程终止于步骤470时，该语音可视化方法便可进入返回步骤500而结束。
与上述经过步骤470的语音可视化步骤440并行的是，当语音生成在步骤435也被请求时，该方法也会进入步骤475并通过上述的可视或可听警示对语音生成子系统进行初始化。然后，在步骤480，文本输入被接收到，而在步骤485，所接收到的文本输入又被转换为语音信号，该信号可以是模拟或数字编码的语音信号。在步骤490，语音信号又被发送到电信网之类的网络，而且，当语音生成处理终止于步骤495时，该方法便可进入返回步骤500而结束。
显然，本发明所述的各种装置、方法及系统无疑具有许多优点。首先，本发明所述的各种装置、方法及系统所提供的语音可视显示在局域和远程站点均不需要专用的通信装置及系统。在远端或远程区域，任何电话机都可以被用来播放所发送的语音，而且可以使之显示在局域内所有房屋的任何已连接电视机或其它视频显示装置上。再者，如本发明所述的各个实施方式也不需要太多地对过程施加人工介入。例如，与现有技术中的装置不同的是，被可视化的语音不需要以键入方式输入。此外，由于只有局域通信站点才需要语音可视化装置，因此，备份系统可以被免去，而且本发明的配置费用也相对地可以降低。另外，本发明所述的装置和系统具有友好的用户界面，可以对语音可视化过程的控制提供系统化的引导。
本发明所述装置、方法及系统的另一个显著特征在于其系统的开放性，这使得语音可视化装置的任何用户都可以实现与其它任何电话机访问者的通信联系，因而提供了一方与所有方通信的通信模型，具有了只要有现代电话机在就可通信的特性。这一优点与现有技术中的封闭系统形成了尖锐的对比，该封闭系统需要在所用通信点设置专用系统，其通信模型使一方只能同少数有条件访问特设专用设备及系统的其它方建立通信联系。根据本发明，任何听力障碍者个人都可以通过普通电信网与其它任何一方建立通信联系，而所涉及的任何远程区域均不需要专门设备。本发明的这一系统开放性特征具备了真正的革命性及独创性，它通过位于世界任何地方的任何普通电信网首次实现了听力障碍者的全球通信。
权利要求
1.一种用来实现语音可视化的装置，该装置包括网络接口，该网络接口可连接到用来接收第一音频信号的第一通信信道，从而形成接收音频信号；射频调制器，它将基带输出视频信号变换为射频输出视频信号，并且将射频输出视频信号发送到第二通信信道以便视频显示；以及处理器配置，该处理器配置被连接到网络接口和射频调制器，通过与一组程序指令的应答，该处理器配置将接收到的音频信号转换为语音的文本表示，并且进一步将语音的文本表示转换为基带输出视频信号。
2.如权利要求1所述的装置还包括连接到网络接口和处理器配置的用户界面，该用户界面用于接收多个控制信号中的某一个。
3.如权利要求2所述的装置，其特征在于用户界面还可连接到用来输入多个控制信号的物理接口上。
4.如权利要求3所述的装置，其特征在于物理接口是电话机。
5.如权利要求3所述的装置，其特征在于物理接口是键盘。
6.如权利要求3所述的装置，其特征在于物理接口是计算机。
7.如权利要求1所述的装置，其特征在于处理器配置具有多个工作模式，这些工作模式包含电话服务工作模式和语音可视化工作模式，处理器配置还通过对控制信号的响应来应答语音可视化工作模式的选择。
8.如权利要求1所述的装置，其特征在于处理器配置还包括微处理器子系统；连接到微处理器子系统的存储器；以及连接到微处理器子系统和存储器的语音可视化处理器。
9.如权利要求8所述的装置，其特征在于语音可视化处理器还包括语音识别处理器；以及连接到语音识别处理器的屏幕显示处理器。
10.如权利要求8所述的装置，其特征在于语音可视化处理器还包括语音识别处理器；以及连接到语音识别处理器的闭路字幕编码器。
全文摘要
一种语音可视显示的装置、方法及系统,包含:网络接口,被连接到第一通信信道以接收第一音频信号;射频调制器,它将基带输出视频信号变换为射频输出视频信号,并且发送到第二通信信道以便视频显示;以及处理器配置,它被连接到网络接口和射频调制器,通过与一组程序指令的应答,将接收到的音频信号转换为语音的文本表示,并且进一步转换为基带输出视频信号。射频输出视频信号在被显示在视频显示装置上时便提供了语音可视显示。
文档编号G09B21/04GK1190840SQ97122679
公开日1998年8月19日申请日期1997年11月14日优先权日1996年11月15日
发明者道格拉斯·J·纽林申请人:摩托罗拉公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：道格拉斯.Ｊ.纽林
技术所有人：摩托罗拉公司
我是此专利的发明人