用于分布式自动语音识别的方法以及分布式自动语音识别系统的制作方法

文档序号：2821002阅读：151来源：国知局

专利名称：用于分布式自动语音识别的方法以及分布式自动语音识别系统的制作方法
技术领域：
本发明主要涉及自动语音识别，并尤其涉及利用网络浏览器的分布式语音识别。
背景技术：
自动语音识别(ASR)从麦克风接收一个输入声音信号，并将该声音信号转换成一组输出文字。识别出来的文字就可以被使用在多种应用场合，如数据输入、订单输入，以及命令与控制。
文字到语音(TTS)转换将输入的文本转换成一个输出声音信号，该声音信号应该是可识别的语音。
互联网与万维网(web)以存储在网络或代理服务器上的网页的形式提供广泛的信息。通过运行在桌面计算机、便携计算机、手持个人数字助理(PDA)、移动电话或类似设备上的客户端浏览器就可以访问这些信息。通过输入设备如键盘、鼠标或触摸板可以请求获得信息，并通过输出设备如显示器或打印机来观看信息。
音频网页为输入输出能力有限的客户端设备提供信息。音频网页可以从网络服务器上获得。已知有多种标准来描述音频网页。其中包括Sun的Java Speech，Microsoft的Speech Agent和Speech.NET，SALT Forum，VoiceXML Forum以及W3C VoiceXML。这些页面中包含语音对话，还包含了普通的HTML文本内容。
分布式自动语音识别(DASR)使得资源(比如存储器、显示器以及处理器)受限的客户端设备能够实现ASR。这些资源受限的设备可能受到远程执行的ASR的支持。DASR可以在网络服务器或代理服务器上执行，所述的代理服务器位于网络中并连接客户端的浏览器与网络服务器。
网页的多媒体内容包括文本、图像、视频和音频。最新开发的网页中甚至可以包含给ASR/TTS的指令以提供一个音频用户界面，替代或补充了传统的图形用户界面(GUI)。
音频表单起到了与文本页面上的网络表单相似的功能。网络表单是网络应用程序接收用户输入的标准途径。音频表单提供任意数量的域。每个域都有一个提示和回复。各个提示被播放出来，回复则通过语音“填写”，如果没有检测到语音就会发生超时。
语音应用经常会同时使用TTS与ASR软件和硬件。ASR与TTS已经有了许多进步，但是差错仍然存在。TTS中的错误可能造成错误的声音、时序、音调或口音，有时则仅仅是错误的单词。那些差错通常会发音错误，但用户可以学习更正并补偿那些类型的错误。另一方面，ASR中的差错往往需要第二次努力来更正差错。这使得使用ASR变得很困难。ASR差错往往是被误识别的单词，这些单词的发音与正确的单词相近，或者是背景噪声遮盖了发音单词的情况。任何减少这类差错的技术都对ASR的性能构成了改善。
差错减少技术众所周知。一种技术为ASR提供了一种语法或一种描述语言，它们指定了一组可以被接受的待识别单词或词组。在语音至文本的转换过程中，ASR利用语法来判定结果是否匹配任何可能的期望结果。如果没有找到匹配项，就发出一个错误信号。但是即便使用了语法，ASR仍然会产生符合语法的差错。
在用某个特定用户的语音对ASR进行训练之后，产生的差错就会较少。训练会测量语音的参数，这些参数让语音显得独一无二。所述的参数考虑音高、速率、语调以及类似因素。通常，训练由用户读出ASR已知的单词来实现，或是由ASR在多个训练会话中提取参数来完成，语音拾取硬件的特征，比如麦克风及放大器设置，也可以被获知。然而，对于有许多用户需要使用ASR的某些应用来说，训练是不可能的。例如，打入一个自动电话呼叫中心的用户数量非常巨大，而且ASR没有办法判断哪一个用户会下一个呼入以及该使用哪些参数。
如果应用被创建成要接受任何语音，滤除噪声就困难的多。这会导致识别错误。例如，背景语音会干扰ASR。
针对这个问题已有的技术解决方案将用户的输入限制到一组有限的单词中，例如十个数字0-10以及“是”和“否”，从而ASR可以忽略那些不是词汇表中一部分的单词，以减少差错。
因此，已有的技术解决方案通常采取下列方法。对于大量的用户，ASR仅识别一组有限的单词。为每位用户训练系统。为每次会话训练系统。用户提供一个身份标识，同时使用默认的语音识别模型。ASR根据会话开始时的训练语音动态地决定期望的识别参数。在这类解决方案中，初始参数在被调整之前可能是错误的。这会造成差错并浪费时间。
对于DASR服务器来说，识别问题更为严重，因为DASR受到许多用户的访问，这些用户会以随机的顺序并在随机的时刻访问一个站点。为每位用户训练服务器是一个耗时而冗长的过程。另外，出于隐私的原因，用户不愿意在每个站点上建立帐号。Cookie不能解决这个问题，因为cookie不能在站点间共享。对于每个访问的站点都需要一个新的cookie。
图1示出了一种现有技术DASR 100。DASR 100中包括一个语音客户端101，它通过通信网103-如互联网-连接到语音服务器102上。语音客户端101中包括一个采集装置110和一个用户参数文件111，前者确定了用来采集语音信号的硬件的特性。语音服务器102中包括一个网络服务器120和一个ASR 121。注意，网络服务器不能直接访问参数文件。
如需关于语音识别系统的更多背景资料，参见例如由美国专利6356868号“Voiceprint identification system”，Yuschik等人，2002年3月12日；美国专利6343267号“Dimensionality reduction forspeaker normalization and speaker and environment adaptation usingeigenvoice techniques”，Kuhn等人，2002年1月29日；美国专利6347296号“Correcting speech recognition without first presentingalternatives”，Friedman，2002年2月12日；美国专利6347280号“Navigation system and a memory medium in which programs arestored”，Inoue等人，2002年2月12日；美国专利6345254号“Methodand apparatus for improving speech command recognition accuracyusing event-based constraints”，Lewis等人，2002年2月5日；美国专利6345253号“Method and apparatus for retrieving audioinformation using primary and supplemental indexes”，Viswanathan，2002年2月5日；以及美国专利6345249号“Automatic analysis of aspeech dictated document”，Ortega等人，2002年2月5日。

发明内容
符合本发明的一种用于分布式自动语音识别的方法使得用户能够使用语音客户端的浏览器来请求从语音服务器获得一个语音网页，所述的语音客户端通过一个通信网连接到语音服务器上。
接着判断是否有该用户的稳定持久的用户参数存储在语音客户端的参数文件中，其中语音客户端可以被语音服务器访问。如果没有，则在语音客户端中生成用户参数，并储存在参数文件中。如果有，则由语音服务器直接从参数文件中读取用户参数。
在任何一种情况下，都要在语音服务器的语音识别引擎中建立用户参数，以便实现语音客户端与语音服务器之间的音频对话。

图1示出了已有技术的分布式自动语音识别(DSR)系统的框图；图2根据本发明示出了一种DASR系统的程序流示意图；图3根据本发明示出了DASR系统的数据流示意图。
具体实施例方式
图2根据本发明示出了一种分布式自动语音识别(DASR)系统与方法200。系统在一台语音客户端上保存持久的用户参数，在语音识别期间该客户端可由语音服务器访问。用户参数模拟用户的语音，而且还可以包含用来采集语音信号的硬件的设置。另外，参数中还可以包括一些信息用以预填充音频网页中的表单。例如，某位用户的人口统计数据，如姓名与地址，或是用户的其他默认值或优选项，或是系统标识信息。
符合本发明的方法包括下列步骤。语音客户端的用户向语音服务器请求一个音频网页210，该语音服务器具有DASR功能。所述的请求可用任何标准的浏览器应用程序完成。在完成请求之后，服务器判断215该用户的参数是否已被保存在客户端的永久性存储设备-如磁盘或非易失性存储器218上。参数文件可由语音服务器直接访问，这是一项优点。
如果用户参数未被保存，即上述判断返回一个“假”条件，那么就利用默认或训练数据225产生新的用户参数220。生成参数接着就被储存228到参数文件218中。可以为一名特定的用户存储多组用户参数。例如，不同的网络服务器会使用语音识别引擎的不同实现方式，它们需要不同的参数，或者用户可能根据所访问的网络服务器或站点而选用不同的优选项。
如果用户参数已被保存，即上述判断返回一个“真”条件，那么就从参数文件218中读取用户参数230。音频采集参数240也为用户而被设置在语音客户端中。DASR用户参数被设置在语音服务器245中。产生恰当的对话250来与用户进行通信。用户参数也可以被用来预填充音频网页的表单260。所述的对话接着被提交给用户270，然后进行检查280，以了解必要的表单是否被填完。如果没有，则接着进行对话270，否则退出290。
图3根据本发明示出了DASR系统与方法的数据流300。语音客户端303由网络302连接到语音服务器301。语音客户端303提出请求310以从语音服务器301获取一个音频网页。在答复中，语音服务器向语音客户端提供所述的音频网页。语音客户端载入该音频网页，取得必要的参数，并将用户参数发送330给语音服务器。语音服务器读取发送来的参数，设置ASR参数，生成并向客户端发送340音频网页。语音客户端载入音频网页，应用音频采集参数，并开始启动音频采集以便与语音服务器进行语音对话350。符合本发明的DASR节省时间，而且产生的差错比现有技术的DASR系统少，这是一项优点。
尽管本文通过优选实施方式的实例形式说明了本发明，但是应该理解的是，在本发明的精神与范围之内还可以作出多种其他调整和改进。因此，附带权利要求的目标就是要包含本发明的真正精神与范围之内的所有这类变化与改进。
工业应用性可以提供用于分布式自动语音识别与分布式自动语音识别系统的更为有用的方法。
权利要求
1.一种用于分布式自动语音识别的方法，包括由用户通过语音客户端经由一个通信网络向语音服务器请求一个音频网页；判断用户的用户参数是否存储在可被语音服务器直接访问的参数文件中；如果假，则在语音客户端中生成用户参数并将用户参数存储在所述参数文件中；如果真，则由语音服务器直接从所述参数文件读取用户参数；在语音服务器的语音识别引擎中设置所述用户参数，以实现语音客户端与语音服务器之间的音频对话。
2.根据权利要求1所述的方法，还包括由语音服务器维护所述参数文件。
3.根据权利要求1所述的方法，还包括由语音代理服务器维护所述参数文件。
4.根据权利要求1所述的方法，其中所述的用户参数中包括表示用户语音特征的语音参数。
5.根据权利要求1所述的方法，其中所述的用户参数中包括表示用来采集用户语音的硬件设备特征的采集参数，并且还包括在语音客户端中设置所述采集参数。
6.根据权利要求1所述的方法，其中所述的用户参数中包括用户标识信息。
7.根据权利要求1所述的方法，还包括将用户参数作为cookie进行编码。
8.根据权利要求1所述的方法，其中所述的用户参数缺省生成。
9.根据权利要求1所述的方法，其中所述的用户参数由训练产生。
10.根据权利要求1所述的方法，其中为所述用户保存多组用户参数。
11.一种分布式自动语音识别系统，包括一个请求音频网页的语音客户端；一个通过通信网络接收音频网页请求的语音服务器；一个可由语音服务器直接访问的参数文件；用来判断用户的用户参数是否被存储在参数文件中的装置；用于当上述条件为假时在语音客户端中产生用户参数并将用户参数储存到参数文件中的装置；用于当上述条件为真时直接从参数文件读取用户参数的装置；用于在语音服务器的语音识别引擎中设置所述用户参数以便在语音客户端与语音服务器之间进行音频对话的装置。
全文摘要
一种用于分布式自动语音识别的方法使得用户能够利用一个经由通信网络与语音服务器相连的语音客户端上的浏览器向语音服务器请求音频网页。接着判断该用户的持久用户参数是否被储存在语音客户端上的可由语音服务器直接访问的参数文件中。如果没有，就在语音客户端中生成用户参数并保存到参数文件中。如果有，则由语音服务器直接从参数文件读取用户参数。在两种情况下，所述的用户参数都会被设置在语音服务器的语音识别引擎中，以实现语音客户端与语音服务器之间的音频对话。
文档编号G10L15/00GK1606772SQ0380178
公开日2005年4月13日申请日期2003年4月9日优先权日2002年4月10日
发明者德里克·L·思奇文克, 戴维·W·H·王申请人:三菱电机株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：德里克.L.思奇文克;戴维.W.H.王
技术所有人：三菱电机株式会社
我是此专利的发明人

上一篇：用于加入恢复的音乐片段的音乐恢复系统的制作方法
上一篇：音频解码设备和方法