使用转录门户组件随需转录语音的方法和系统的制作方法

文档序号：2824568阅读：275来源：国知局

专利名称：使用转录门户组件随需转录语音的方法和系统的制作方法
技术领域：
本发明涉及自动语音识别领域，更具体地涉及用于随需转录的方法和系统。
背景技术：
基于计算机的语音转录传统上是一种客户-服务器模型应用，其中由客户捕获转录作业，并提交到服务器以便处理。在服务器上装载并运行语音识别软件。为使用转录服务，该软件的用户必须首先典型地通过读标准化的原稿来注册并建立用户简档，以便软件能够识别用户独特的语音模式。典型地在与语音识别软件所在的同一服务器上存储用户简档。或者，转录本身可由打字员手动完成，并反馈回系统中。一旦转录完成，就在单独的数据库中使结果对客户可用，以便其查询结果。这类系统在维护数百个用户并管理他们的注册数据以及数千个作业时具有很大的开销，并且无法随需利用。
已知的转录系统很难伸缩以便大量用户可同时输入不同的音频数据来进行检索。当处理用户的转录(这可能涉及使用手动打字和校正)时，用户典型地必须等待。这对于用户产生了不希望的延迟。
例如，授予Kahn等人(Kahn)的美国专利No.6,122,614公开了这样一种已知的转录系统。Kahn公开了通过在目录系统中创建用户简档来处理多个用户的转录服务器，其中为每一用户使用一子目录。在训练期间，人类转录员为每一接收的声音口授文件创建转录文件。一旦用户已通过了训练时期，则将口授文件路由到语音识别程序。运行一转录会话，并且通过手动校正文本并发送文本以便校正来完成任何语音调整。使用特定用户的语音简档的这种语音识别系统必须运行于存在该特定用户的目录存在的系统上。此外，在本参考中描述的系统是批方式系统，其中数据被提交、排队并然后在对于服务器方便的时间运行。

发明内容
本发明提供一种用于随需的自动语音识别(ASR)文本转录的计算机实现的方法和系统。
本发明的一个方面涉及一种方法，该方法包括提供包括具有用于各个用户的个人化语音简档的用户数据的转录门户组件(portlet)。该转录门户组件可接收音频数据。可识别与该音频数据相关联的用户。可确定与所识别用户对应的个人化语音简档。可使用所确定的个人化语音简档转录该音频数据，以生成转录文本。转录门户组件可呈现该转录文本。
本发明的另一个方面涉及包括Web门户和至少一个转录服务器的转录系统。该Web门户可包括转录门户组件，该转录门户组件被配置用于接收用户提供的音频数据，使用至少一个转录服务器来将音频数据转录为转录文本，并将转录文本呈现给提供了该音频数据的用户。
应该注意，本发明可被实现为一种用于控制计算机来实现此处所述功能的程序，或一种用于使计算机能执行对应于此处所公开的步骤的过程的程序。可通过将程序存储在磁盘、光盘、半导体存储器、任何其他记录媒体之中来提供此程序，或通过网络分发此程序。

在附图中示出了当前优选的实施例；不过应当理解，本发明并不局限于所示出的确切装置和工具。
图1是说明了可在其中使用根据本发明一个实施例的系统的多模态(multimodal)通信环境的示意图。
图2是根据本发明一个实施例的系统的示意图。
图3是说明了根据本发明另一个实施例的方法的流程图。
图4是适合于查看转录结果的Web界面的说明性图像。
具体实施例方式
图1是说明了可在其中根据本发明使用用于随需转录语音的系统200的多模态通信环境100的示意图。如所说明的，通信环境100可以包括通信网络110。通信网络110可以包括但不限于局域网、广域网、公共交换电话网、无线或移动通信网、或因特网。说明性地，系统200也能够通过另一个或同一个通信网络110与计算机系统120和电话130进行电子通信，以便进行转录输入和输出。系统200也能够与由校正员操作的计算机系统140进行电子通信，以便校正所转录的语音。
从随后的描述中，将很容易地看到，所说明的多模态通信环境100仅仅是可在其中方便地使用系统200的多模态通信环境的一种类型。其他多模态通信环境例如可以包括说明性示出的不同部件的各种子集。
另外参考图2，系统200说明性地包括一个或多个转录服务器210和Web/门户服务器220。转录服务器210具有在其上装载的自动语音识别(ASR)引擎。可使用任何适当的ASR，例如IBM的Recognition Engine软件。Web/门户服务器220具有在其上装载的门户服务器应用，例如IBM的WebSphere Portal Server软件。此外，在Web/门户服务器上装载了控制在系统200的部件之间的数据流的转录门户组件。也可包括了一个或多个通信设备和通过其连接该应用程序的应用程序接口(API)。
应该理解，图2中示出的装置仅用于说明性的目的，并且本发明在这方面是不受限制的。可用不同于此处所说明的方式组合或分离可归于各部件的功能。例如，在本发明的另一安排中，可将门户服务器和转录门户组件实现为单个软件部件。所说明的通信部件仅是代表性的，并且应该理解，在本发明的装置中可利用能够发送和/或接收音频文件和/或转录文本的任何通信部件。
图3是说明了根据本发明的方面的语音转录的方法300的流程图。如果用户希望将音频数据转录为文本，该用户可请求访问系统200。方法300可开始于步骤310。在步骤310中，管理员将一转录门户组件添加到该用户的简档。也可通过例如用户登录到基于因特网的应用并随着提示设置他们自己的简档而加入系统200来完成此步骤。在步骤320中，一旦已将转录门户组件添加到用户简档，则用户登录到该门户。用户可使用任何适当的通信设备登录到门户，包括但并不限于电话、带有Web浏览器的移动电话、连接有麦克风的计算机、个人数字助理(PDA)等。
在步骤330中，门户服务器程序(未示出)查询用于该用户的注册数据。如果用户是该系统的新用户，则提示其进行注册。注册过程可包括捕获用于创建用户的个人化简档的带原稿的音频文件。可在用户的Web浏览器中对用户显示该原稿，或者通过例如电子邮件的任何适当的方法将该原稿发送给用户。用户读出该原稿并将捕获的音频文件发送到系统200。在语音识别引擎上收集音频文件并为用户运行注册，以便为用户在其注册数据中创建语音简档。注册数据被保存在门户人个化数据库中。
一旦用户已注册，则该用户可以开始上载要被转录的音频数据。在步骤340中，从电话或与浏览器连接的麦克风或者从API捕获音频数据。可通过任何适当的方法捕获音频，并且系统优选地是多模态的，以便用户可选择用户希望使用的任何适当的音频捕获方法，而且有利的是，本发明在这方面不受限制。可理解，具有音频能力的任何应用可使用在门户服务器上装载的转录门户组件，以将音频文件转发到转录服务器。可由门户组件使用例如IBM的WebSphere语音服务器的任何适当的语音捕获程序来捕获音频。
例如，语音服务器可以运行一程序，例如通过电话的VoiceXML，或者系统可以使用捕获音频的小应用程序。在另一示例中，可将音频附加在电子邮件上，并发送到语音服务器或其他适当的服务器或应用。例如，在一个安排中，邮件应用可从音频源捕获音频，可将所捕获的音频转录为文本，以及可通过电子邮件将所捕获的音频和/或所转录的文本作为附件传送。应该注意，所述系统可有利地使用VoiceXML，而无需任何扩展。
在步骤350中，转录门户组件从门户人个化数据库中装载用户语音简档，并通过将音频文件和用户语音简档发送到转录服务器210来开始转录会话。用户数据存储于门户服务器220上，并仅当即将在转录服务器上运行作业时才被馈给转录服务器210。因此，可将任何数量的转录服务器210连接到系统200，并且门户服务器220可将转录作业路由给任一适当的转录服务器210，以便在可能的最快时间内接收到转录结果。这使系统可被容易地伸缩，从而大量用户可同时请求转录，因为当需求上升时可将更多转录服务器210添加到系统200，而无需将包含了用户简档的门户人个化数据库复制或更新到每一服务器。
门户服务器220也处理用于校正/更新用户简档的GUI门户组件。将结果作为表单结果通过电子邮件、Web浏览器、文本到语音转换返回用户，或者将结果通过API回调或作为到数据库的记录返回用户。可以用例如html的任何希望的格式将所转换的文本传送给用户。例如使用计算机120的用户可接着查看转录结果。可使用例如图4中说明性示出的Web界面400显示结果。Web界面400可包括用户ID数据410、用于操作连接于运行该Web界面的计算机的麦克风的音频输入按钮420、转录作业列表430和其他数据。作为另一种选择，可将结果反馈回用户用来上载音频数据的同一接口。在许多例子中，这可以是有用的，例如，医生可使用图像查看门户来查看例如病人扫描检查的图像。图像查看门户可包括音频门户，当医生查看图像时可使用该音频门户来口授意见。可足够快速地并近乎实时地将转录文本从Web/门户服务器返回到音频门户，以便当图像还在屏幕上时医生可检查转录的文本。接着医生可检查文本并将结果保存在病人的文件中，或可委托校正员对任何错误进行校正。在另一示例中，当用户想使用声音回复电子邮件时，系统200可被用于降低带宽。如果记录了音频文件并将其连同电子邮件发送，那么这需要很大的带宽以便在用户之间传输音频文件。通过使用转录门户组件，电子邮件门户组件可捕获音频并将其发送到转录系统200，以转录音频并以电子邮件仅发送文本。
系统200通过适应性调整随时间提高了它的准确度。校正员260可登录到系统200中，并可校正转录的文本。校正员的检查可随机地进行，或者可对于由系统转录的一特定用户的最初几个文档进行校正员的检查。当对文档做出了校正时，将这些校正用于适应性调整和更新用户的语音简档以便提高准确度。作为另一种选择，或附加地，用户可在接收时校正文档，并上载这些校正，以便由系统或校正员检查。更进一步地，用户可录制带有这些校正的第二音频文件，将所述第二音频文件连同该转录文本上载到系统，以便校正错误。将这些校正发送回所述识别引擎，该识别引擎针对数据运行一校正会话，并且得到的用户数据被保存到门户人个化数据库，从而更新用户的个人化语音简档以用于该用户的下一转录作业。
可在硬件、软件或硬件和软件的组合中实现本发明。可在一个计算机系统中以集中方式或者以其中不同元件分布于若干互连的计算机系统中的分布方式实现本发明。适合于执行此处所述方法的任何类型的计算机系统或其他装置都是适合的。硬件和软件的典型组合可以是带有计算机程序的通用计算机系统，当所述的计算机程序被装载并执行时控制该计算机系统以使其执行此处所述的方法。
本发明也可被嵌入到计算机程序产品中，该计算机程序产品包括使能实现此处所述方法的所有特征，并当其被装载到计算机系统中时可执行这些方法。本上下文中的计算机程序意味着用任何语言、代码或符号表示的一组指令的任何表达，所述的一组指令旨在使具有信息处理能力的系统执行特定功能，这种执行或者是直接地或者是在经过以下任一操作或两个操作之后a)转换到另一种语言、代码或符号；b)以不同材料的形式再现。
可以其他形式实现本发明，而不背离本发明的精神或基本特性。因此，应该参考以下的权利要求而非前述的说明来指明本发明的范围。
权利要求
1.一种计算机实现的转录方法，包括以下步骤提供包括了具有用于各个用户的个人化语音简档的用户数据的转录门户组件；该转录门户组件接收音频数据；识别与该音频数据相关联的用户；确定与所识别用户对应的个人化语音简档；使用所确定的个人化语音简档转录该音频数据，以生成转录文本；以及该转录门户组件呈现该转录文本。
2.权利要求1的方法，其中，所述转录门户组件提供多模态接口。
3.权利要求2的方法，还包括以下步骤当在所述转录门户组件和用户之间建立通信时，确定用于该通信的通信类型；以及根据所确定的通信类型自动调整所述转录门户组件的模态。
4.权利要求2的方法，其中，所述转录门户组件通过声音连接与电话设备接口连接，其中，通过该声音连接接收所述音频数据。
5.权利要求2的方法，其中，在Web浏览器中将所述转录门户组件呈现为多模态Web浏览器界面。
6.权利要求2的方法，其中，所述多模态接口中的一个是应用程序接口。
7.权利要求1的方法，还包括以下步骤识别用户选择的文本输出格式；以及转录门户根据所述用户选择的文本输出格式呈现所述转录文本。
8.权利要求1的方法，其中，在用户于其中访问所述转录门户的单个通信会话期间执行所述接收、识别、确定、转录和呈现步骤。
9.权利要求1的方法，其中，所述至少一个转录服务器包括多个转录服务器，所述方法还包括以下步骤所述转录门户组件基于可用性从所述多个转录服务器中选择一个，其中，由所述转录门户组件执行所述识别和确定步骤。
10.一种具有存储于其上的具有多个代码段的计算机程序的计算机可读存储器，所述代码段可由机器执行，以便使该机器执行以下步骤提供包括了具有用于各个用户的个人化语音简档的用户数据的转录门户组件；该转录门户组件接收音频数据；识别与该音频数据相关联的用户；确定与所识别用户对应的个人化语音简档；使用所确定的个人化语音简档转录该音频数据，以生成转录文本；以及该转录门户组件呈现该转录文本。
11.一种转录系统，包括包括转录门户组件的一个Web门户；以及至少一个转录服务器，所述转录门户组件被配置用于接收用户提供的音频数据，使用所述至少一个转录服务器将该音频数据转录为转录文本，并将该转录文本呈现给提供了该音频数据的用户。
12.权利要求11的系统，其中，所述转录门户组件是被配置用于选择性地通过声音界面和通过图形用户界面与用户接口连接的多模态门户组件。
13.权利要求12的系统，其中，所述转录门户组件可通过电话设备访问，其中所述转录门户组件与使用声音界面的电话设备的用户接口连接。
14.权利要求12的系统，其中，图形用户界面包括Web浏览器。
15.权利要求14的系统，其中，所述转录门户组件向Web浏览器用户提供多模态接口。
16.权利要求11的系统，其中，所述转录门户组件以实时方式和近乎实时方式中的至少一种方式呈现所述转录文本。
17.权利要求11的系统，其中，所述转录服务器利用与提供了所述音频数据的用户相关联的个人化的语音简档，来将该音频数据转录为转录文本，以便使所呈现的转录文本是为该用户个人化的。
18.权利要求17的系统，其中，所述转录门户组件识别与所述用户提供的音频数据相关联的用户，其中，所述至少一个转录服务器基于由所述转录门户组件提供的用户身份确定所述个人化语音简档。
19.权利要求17的系统，包括用于接收用户提供的与所述转录文本有关的反馈的装置，以便所述反馈引起对用于生成所述转录文本的个人化语音简档的更新。
20.权利要求11的系统，其中，所述至少一个转录服务器包括多个转录服务器，其中所述Web门户包括基于转录服务器的可用性选择哪个转录服务器将生成所述转录文本的程序。
全文摘要
用于使用转录门户组件随需转录语音的方法和系统。所述方法可包括提供包括了具有用于各个用户的个人化语音简档的用户数据的转录门户组件的步骤。该转录门户组件可接收音频数据。可识别与该音频数据相关联的用户。可确定与所识别用户对应的个人化语音简档。可使用所确定的个人化语音简档转录音频数据，以生成转录文本。所述转录门户组件可呈现转录文本。
文档编号G10L15/26GK1801322SQ20051012350
公开日2006年7月12日申请日期2005年11月17日优先权日2004年11月19日
发明者G·达纳克施鲁尔申请人:国际商业机器公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｇ.达纳克施鲁尔
技术所有人：纽昂斯通讯公司
我是此专利的发明人

上一篇：动态配置频道的方法及其音乐合成器以及音乐合成系统的制作方法
上一篇：音频解码中再量化方法