将语音引擎训练结合入交互式用户教学系统的制作方法

文档序号：2836883阅读：508来源：国知局

专利名称：将语音引擎训练结合入交互式用户教学系统的制作方法
将语音引擎训练结合入交互式用户教学系统背景技术当前语音识别系统的用户面临许多问题。首先，用户必须熟悉语音识别系统并且学会如何操作该系统。除此之外，用户还必须训练语音识别系统使之能更好的识别用户的语音。为解决第一个问题(教用户使用语音识别系统)，当前的语音识别教学系统试图利用多种不同的手段教用户语音识别器的工作方式。例如，有些系统使用帮助文档形式的教学信息，帮助文档可以是电子文档或纸质文档，而且仅允许用户通读帮助文档。其他教学系统还提供关于用户如何使用语音识别系统不同特征的视频演示。所以，当前的教学系统不能为用户提供在安全的、受控制的环境下试用语音识别的实践体验。相反，它们只允许用户观看或通读教学内容。然而，巳有发现表明，在用户仅被要求读出教学内容时，即使是大声朗读，用户能记住的有意义的教学内容非常少，几乎可以忽略。除此之外，当前的语音教学不能被第三方扩展。换句话说，如果第三方厂商想要创建它们自己的语音命令或功能、向现有的语音系统增加语音命令或功能、或者要教当前教学系统没有教的语音系统的现有的或新的功能，一般必须重新创建单独的教学系统。为了解决第二个问题(训练语音识别器更好地识别说话者)，也使用了许多不同的系统。在所有这些系统中，计算机被首先置于一个特殊的训练模式中。在一个现有系统中，用户仅被要求向语音识别器朗读一给定量的预先定义的文本，语音识别器用从朗读该文本的用户获取的语音数据来进行训练。在另一个系统中，提示用户朗读不同类型的文本项目，并且要求用户重复朗读语音识别器难以识别的某些项目。在一当前系统中，要求用户大声朗读教学内容，语音识别系统也同时被激活。因此，用户不仅朗读教学内容(描述语音识别系统如何工作，并且包括语音识别系统使用的某些命令)，而且语音识别器实际上也在用户朗读教学内容的时候识别来自用户的语音数据。所获取的语音数据然后被用来训练语音识别器。然而，在上述系统中，语音识别系统的全部语音识别性能都是活动的。因此，语音识别器实质上能识别其词库中的任何内容，词库通常包括数千条命令。这种类型的系统未得到紧密控制。如果语音识别器识别了一个错误的命令，系统就会偏离教学内容，用户则会被搞糊涂。因此，当前的语音识别训练系统还要一些特殊的条件才能有效地工作。计算机必须处于特殊的训练模式，要确信用户会说出的具体的短语，且只能主动听出少数几个不同的短语。因此可看出，语音引擎训练和用户教学训练处理不同的问题，但在用户成功识别语音时都是需要的。以上讨论仅提供了一般的背景信息，不用来作为确定权利要求范围的辅助。发明内容本发明将语音识别教学训练与语音识别器声音训练结合。系统向用户提示语音数据并用预定义的屏幕截图模拟当语音命令被接收时的情况。在教学过程中的每一步骤当向用户提示输入时，系统被配置，使得语音识别器只能识别一组预定义的用户输入(可能只有一个)。当识别成功，语音数据就被用来训练语音识别系统。本发明内容部分提供一些简单形式的概念的介绍，这些概念在下面的内容中将进行详细的描述。本发明内容部分不用来确定权利要求主题的关键特征或实质特征，也不用来确定所要求保护的主题的范围。

图1是可使用本发明的一个示例性环境。图2是根据本发明一个实施例的教学系统的更详细框图。图3是例示图2所示的教学系统的操作的一个实施例的流程图。图4例示了一个示例性的导航分层结构。图5-11是例示图2所示的系统的示例性实施例的屏幕截图。附录A例示了根据本发明一个实施例所使用的示例性教学流程图。
具体实施方式
本发明涉及一种教学系统，该系统教用户语音识别系统，而且同时还基于从用户处获取的声音数据训练语音识别系统。然而，在更详细的描述本发明之前将描述可利用本发明的一个示例性环境。图1例示了实施例可以实施的一个合适的计算系统环境100。计算系统环境100仅是一个合适的计算环境的一个示例，并不用来限制本发明的使用范围或功能。计算环境100不应解释为依赖于或需要例示的示例性操作环境100中相关的任何组件或其组合。各实施例可操作于众多其他通用或专用计算系统环境或配置中。适合各种实施例使用的公知的计算系统、环境和/或配置的例子包括，但不局限于个人计算机、服务器计算机、手持式或膝上型电脑设备、多处理器系统、基于微处理器的系统、机顶盒、可编程用户电子设备、网络计算机、微型计算机、大型计算机、电话通讯系统以及包括任何上述系统或设备等的分布式计算环境等。实施例可以在计算机可执行指令的一般上下文中描述，例如由计算机执行的程序模块中。一般地，程序模块包括执行具体任务或实现具体抽象数据类型的例行程序、程序、对象、组件、数据结构等。有些实施例是为分布式计算机环境而设计的，在该环境下，由通讯网络连接的远程处理设备执行任务。在分布式计算机环境下，程序模块位于包括存储器存储设备的本地和远程计算机存储介质中。参考图1，实施一些实施例的示例性系统包括计算机110形式的通用计算设备。计算机110的组件可以包括，但不局限于处理单元120、系统存储器130、将各种包括系统存储器的各种系统组件藕合到处理单元120的系统总线121。系统总线121可能是总线结构中几种类型中的任何一种，包括存储器总线或存储器控制器、外围总线、使用多种总线结构中任何一种的本地总线。作为例子，而非限制，此类架构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、增强型ISA(EISA) 总线、视频电子标准协会(VESA)局部总线以及外设部件互连(PCI)总线(也称为 Mezzanine总线》计算机110 —般包括多种计算机可读介质。计算机可读介质可以是能由计算机110访问的任何可用介质，而且包含易失/非易失性介质、以及可移动/不可移动介质。作为例子而非限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括RAM、 ROM、 EEPROM、闪速存储器或者其它存储器技术、 CD—ROM、数字通用盘(DVD)或者其它光学存储器、磁带盒、磁带、磁盘存储器或者其它磁存储设备、或者任何其它能够被用来存储所需信息并且能够由计算机 110访问的介质。通信媒质通常以调制的数据信号，诸如载波或者其它典型传输机制的形式来体现计算机可读指令、数据结构、程序模块、或者其它数据，并且包括如何信息传递介质。术语"调制的数据信号"是指以在该信号中编码信息的方式来设置或改变其一个或多个特性的信号。作为例子而不是限制，通信媒质包括有线媒质，诸如有线网络或者直接有线连接，以及无线媒质，诸如声频、射频、红外或者其它无线媒质。以上任何一个的组合也应当被包括在计算机可读介质的范围之内。系统存储器130包括只读存储器(ROM) 131以及随机存取存储器(RAM) 132。基本输入/输出系统133(BIOS)存储在ROM131内，它包括比如在启动时帮助在计算机110内的元件间传输信息的基本例程。RAM 132通常包含可由处理单元120 即时存取的和/或目前在操作的数据和/或程序模块。作为例子，而非限制，图l举例说明了操作系统B4、应用程序135、其它程序模块136以及程序数据137。计算机110还包括其它可移动/不可移动、易失/非易失计算机存储介质。仅仅作为例子，图1显示有从不可移动的非易失磁性介质读取或向其中写入的硬盘驱动器141、从可移动的非易失磁性磁盘152读取或向其中写入的磁盘驱动器151、以及用于向诸如CD-ROM或其它光学媒质那样的可移动非易失光介质156读写的光盘驱动器155。其它能用于示例性操作环境的可移动/不可移动、易失/非易失计算机存储介质包括但不限于盒式磁带、闪存卡、数字多用途盘、数字视频磁带、固态RAM、固态ROM等等。硬盘驱动器141通常通过诸如接口 140等不可移动存储器接口连接到系统总线121，而磁盘驱动器151通过诸如接口 150等可移动存储器接口连接到系统总线121。以上讨论并在图1中示出的驱动器及其关联的计算机存储媒质为计算机110 提供了计算机可读指令、数据结构、程序模块和其它数据的存储器。例如，在图l 中，示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意，这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同，也可以与它们不同。这里对操作系统144、应用程序 145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的拷贝。用户可以通过输入设备，如键盘162、耳机163和定位设备161，例如鼠标、跟踪球或触摸板。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口 160连接至处理单元120，但是也可以通过其它接口和总线结构连接，如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口如视频接口 190连接至系统总线121。除监视器之外，计算机也可包括其它外围输出设备，如扬声器197和打印机196，它们可通过输出外围接口 195连接。计算机110工作在使用到一个或多个诸如远程计算机180的远程计算机的逻辑连接的网络化环境内。远程计算机180可以是个人电脑、手持装置、服务器、路由器、网络PC、对等设备或其它公共网络节点，并且一般包括与计算机IIO相关的许多或所有上述元件。图1所述的逻辑连接包括局域网(LAN)171以及广域网 (WAN)173。这种网络环境常见于办公室、企业范围的计算机网络、内联网以及因特网。当用于LAN网络环境时，计算机110通过网络接口或适配器170连到局域网 171。当用于WAN网络环境时，计算机110通常包括调制解调器172或其它装置，用于在诸如因特网的广域网173上建立通信。调制解调器172可以是内置的或外置的，它通过用户输入接口 160连到系统总线121。在网络化环境中，与计算机IIO 相关描述的程序模块或其中的一部分可存储在远程存储器设备内。作为例子而非限制，图1例示有远程应用程序185驻留在远程计算机180上。可以理解的是，所示网络连接是示例性的，可以使用在计算机之间建立通信链路的其它方式。图2是根据一个实施例的教学系统200的更详细的框图。教学系统200包括访问多种不同教学应用程序的教学内容204、 206的教学框架202。图2也展示了教学框架202耦合到语音识别系统208、语音识别训练系统210和用户界面组件 212。教学系统200不仅可用来为用户(用数字214表示)提供教学，还可用来从用户处获取语音数据，并用所获取的语音数据利用语音识别训练系统210来训练语音识别系统208。教学框架202通过用户界面组件212向用户214提供交互式教学信息230。交互式教学信息230引导用户体验如何何语音识别系统208的教学内容。这样，交互式教学信息230就会向用户提示语音数据。一旦用户说出语音数据，该语音数据就通过例如麦克风被获取，并作为用户输入232被提供给教学框架202。然后教学框架202将用户语音数据232提供给语音识别系统208，该系统对所述语音数据232 进行语音识别。然后，语音识别系统208为教学框架202提供表明用户语音数据232 被识别(或未被识别)的语音识别结果234。作为回应，教学框架202通过用户界面组件212为用户214提供另一组交互式教学信息230。如果用户语音数据232能准确地被语音识别系统208识别，交互式教学系统230则为用户显示语音识别系统接收该语音数据时的情况。类似的，如果用户语音数据232不能被语音识别系统208识别，交互式教学信息230则为用户显示在语音识别系统中的那个步骤出现未能识别时的情况。这对于当前运行的教学应用程序的每一个步骤都持续出现。图3是一个流程图，该图更好地例示了图2所示的系统200如何根据一个实施例的运作。在详细描述系统200的运作之前，应当注意，想要提供能教语音识别系统的教学应用程序的开发者必须首先先生成如教学内容204或206这样的教学内容。为了便于论述，假定开发者已经为应用程序一生成了教学内容204。教学内容示例性地包括教学流程内容216和一组屏幕截图或其他用户节目显示要素218。教学流程内容216示例性地描述了教学应用程序的完整导航流程和允许存在于该导航流程中的每一步骤的用户输入。在一实施例中，教学流程内容216 是为应用程序定义导航分层结构的可扩展标记语言(XML)文件。图4例示了可使用的一个示例性导航分层结构300。然而，导航不一定要是分层次的，也可以使用其他层次或者甚至是一组线性步骤(而不是层次)。无论如何，示例性导航分层结构300展示了教学应用程序包括一个或多个主题302。每个主题具有一个或多个不同章304，而且也可以有页面。每章有一个或多个不同的页面306，而且每页有零个或多个不同的步骤308 (具有零步的页面的一个例子是没有步骤的介绍页面)。这些步骤是用户为了逐步导航完成教学内容的给定页面306所执行的。当教学内容的给定页面306中的所有步骤308都完成后，向用户提供继续到另一页面306的选项。当给定章304中的所有页面都完成后，向用户提供继续下一章的选项。当然，当给定主题的所有章都完成后，用户则可以继续教学内容的另一主题。当然，还应当理解，用户可以如教学应用程序开发者期望的那样跳过分层结构的不同级。教学流程内容216的一个具体示例作为附录A附于本申请。附录A是根据图 4所示的导航分层结构300完整定义教学应用程序流程的可扩展标记语言文件。附录A中的可扩展标记语言文件还定义了用户在教学内容的任何给定步骤308中允许发表的意见，而且定义了或引用了响应于用户发表的预定义的意见而显示的给定的屏幕截图218 (或其他文本或显示项目)。以下参照图5至图11讨论一些示例性屏幕截图。一旦开发者(或其他教学内容的作者)生成了教学内容204后，为其生成教学内容204的教学应用程序可由图2所示的系统200运行。图3所示的流程图例示了运行教学内容的系统200的运作的一个实施例。用户214首先打开教学应用程序一。图3中的方框320表明了这一点，并且可以由多种不同的方法完成。例如，用户界面组件212可以显示用户界面元素，为打开给定的教学应用程序，该用户界面元素可由用户(例如使用点指设备或通过声音启动等)启动。一旦用户打开了教学应用程序，教学框架202就访问相应的教学内容204并将教学流程内容216解析成导航分层结构模式、图4所代表的一个例子以及附录A 所示的一个具体的例子。如上所述，一旦流程内容被解析到导航分层结构模式，流程内容不仅定义了教学的流程，而且还引用要在教学流程的每一步骤中显示的屏幕截图218。图3中的方框322表明了流程内容被解析到导航分层结构。然后，教学框架202通过用户界面212向用户214显示允许用户开始教学内容的用户界面元素。例如，教学内容框架202可以在用户界面212上显示开始按钮，用户只需说"Start (开始)"(或其他相似的短语)或使用其他点击设备就能启动该按钮。当然，也可以使用其他方法来开始教学应用程序。然后，用户214开始所述教学应用程序的运行。这在图3中的方框324和方框326已经表明。然后，教学框架202运行教学内容，交互式地向用户提示语音数据并用屏幕截图来模拟在用户被提示的命令由运行教学内容的语音识别系统接收到时所发生的情形。这在图3的方框328中已经表明了。在继续图3所示的操作前，先描述一些示例性的屏幕截图以更好的理解教学内容是如何运作的。图5至图11是示例性的屏幕截图。图5例示了在一实施例中，屏幕截图502 包括提供描述语音识别系统操作的书面教学内容的教学部分504，所述教学应用程序是为语音识别系统而写的。图5所示的屏幕截图502还展示了向用户显示的导航分层结构200 (如图4 所示)的一部分。多个主题按钮506至516依次位于图5所示的截图中按钮上，标识了在所运行的教学应用程序中的主题。这些主题包括"Welcome (欢迎)"、 "Basics (要素)"、"Dictation (口述)"、"Commanding (命令)"等。当所述主题按钮506至516之一被选中，多个章按钮就会显示出来。更具体地，图5例示了与欢迎按钮506相应的欢迎页面。当用户阅读过所述欢迎页面上的教学信息后，用户可以启动屏幕截图502中的下一个按钮518前进到下一屏。图6展示了与图5所示的屏幕截图相似的屏幕截图523，但是图6中的屏幕截图例示了每个主题按钮506至516相应地都具有多个章按钮。例如，图6展示了命令按钮512已被用户启动。然后，与命令主题按钮512相应的多个章按钮520则被显示出来。示例性的章按钮520包括"Introduction (介绍)"、"Say what you see (说出你看到的)"、"Click what you see (点击你看到的)"、"Desktop Interaction (桌面交互)"、"Show Numbers (显示数字)"和"Summary (总结)"。用户可以启动章按钮520以显示一页或更多页。在图6中，"Introduction (介绍)" 章按钮520己经被用户启动，并且在屏幕截图的教学部分504中展示了简要教学内容。教学部分504下面是多个步骤522，用户可以执行这些步骤以完成一项任务。当用户执行步骤522时，屏幕截图的演示部分524则演示在步骤被执行时语音识别系统中的情况。例如，当用户说"Start (开始)"、"AllPrograms (所有程序)"、"Accessories (附件)"，屏幕截图的演示部分524则展示显示526，所述显示526 显示了 "Accessories (附件)"程序被显示出来。然后，当用户说"Wordpad (写字板)"时，显示则转换成显示"写字板"应用程序被打开。图7例示了另一示例性屏幕截图530，其中所述"Wordpad (写字板)"应用程序已被打开。用户现在已选择"Show Numbers (显示数字)"章按钮。屏幕截图530的教学部分504中的信息现在被变成与已由教学内容写入的应用程序的"Show Numbers (显示数字)"特征相应的信息。步骤522也已变成与"Show Numbers (显示数字)"章相应的信息。在示例性实施例中，可启动按钮或在演示部分524的显示532中显示的应用程序的特征分别被分配一个数字，用户只要说该数字就能表明或启动应用程序中的按钮。图8与图7相似，除了在图8中的屏幕截图550是对应于用户选择与"Commanding (命令)"主题相对应的"Click what you see (点击你看到的)" 章按钮的情况。同样地，屏幕截图550的教学部分504包括和如何使用语音识别系统来"Click (点击)"用户界面上的内容有关的教学信息。与该章相应的多个步骤522也被列出。步骤522向用户详细解释"Click (点击)"演示部分524中的显示522上的内容的一个或多个例子。如果用户确实是通过语音识别系统使用步骤 522中的命令来命令应用程序，演示显示552则被更新以反映用户真正看到的信息。图9展示了用户选择"Dictation ( 口述)"主题按钮510后，一组新的示例性的章按钮590显示的另一屏幕截图600。新的示例性按钮组包括"Introduction(介绍)"、"Connecting Mistakes (连接错误)"、"Dictating Letters (口述字母)"、"Navigation (导航)"、"Pressing Keys (按按键)"和"Summary (总结)"。图9展示了用户已经启动"Pressing Keys (按按键)"章按钮603。同样地，屏幕截图的教学部分504展示了表明字母如何一次一个地被输入屏幕截图600的演示部分524上的演示显示602所示的写字板应用程序中的教学信息。教学部分504下面是用户为利用语音将单个字母输入应用程序可执行的多个步骤522。用户执行每一步骤522后屏幕截图600的演示显示602就会被更新，就像是语音识别系统在控制应用程序一样。图10还展示了用户选择口述主题按钮510和"导航"章按钮对应的屏幕截图 610。屏幕截图610的教学部分504现在包括描述导航系统如何利用语音口述系统来控制应用程序运作的信息。同样地，引导用户体验一些示例性导航命令的步骤 522也被列出。更新演示部分524的演示显示614以反映如果用户确实通过语音识别系统利用步骤522所示的命令控制应用程序时所显示的情况。图11与图IO所示相似，除了在图11所示的屏幕截图650是对应于用户启动 "Dictating Letters (口述字母)"章按钮652的情况。所以，教学部分504包含指导用户如何使用特定口述特征的信息，例如，通过语音识别系统在口述应用程序中创建新的行和段。步骤522引导用户体验如何在口述应用程序的文档中创建新段的例子。更新屏幕截图650的演示部分524中的演示显示654以显示如果用户确实通过语音识别系统输入步骤522中的命令、用户将在该应用程序中看到的情况。教学内容中的识别的所有语音信息都会被提供给语音识别训练系统210以更好的训练语音识别系统208。应当理解，在教学内容的每一步骤522中，当用户被要求说一个单词或短语时，框架202就被配置成只能接收对语音数据提示的一组预定义的响应。换句话说，如果用户被提示说"开始"，框架202只能被配置为接收被识别为"Start (开始)" 的用户输入的语音数据。如果用户输入其他任何语音数据，框架202会示例性的提供说明该语音输入未被识别的屏幕截图。教学框架202还示例性的展示当语音输入未被识别时语音识别系统中的情况。这可以由多种不同方法完成。例如，教学框架202自己可以被配置为只能响应于给定的提示而接收来自语音识别系统208的预定语音识别结果。如果识别结果与教学框架202所允许的结果不相匹配，那么教学框架202就通过用户界面组件212向用户214提供交互式教学信息，表明语音未被识别。或者，语音识别系统自己可以被配置为只能识别一组预定的语音输入。在这种情况下，只有预定的规则可以在语音识别系统208中被激活，或者可以执行其他步骤来配置语音识别系统208，从而该系统就不能识别一组预定义的可能语音输入以外的任何语音输入。无论如何，在教学过程中的任何指定步骤中只允许一组预定的语音输入被识别具备一些优越性。因为教学应用程序会知道下一步必需做什么，因此这使用户能响应于在所处理的步骤处允许的任何给定的预定义语音输入而了解教学系统的运行情况。这与一些现有的基本上允许识别来自用户的任何语音输入的系统相反。再次参见图3中的流程图，方框330表明了接收对语音数据提示的一组预定义的响应。当语音识别系统208向教学框架202提供识别结果234、表明已作出准确的、可接受的识别时，教学框架202就把识别结果234 (该结果为用户语音数据 232的示例性录音)和用户语音数据232提供给语音识别训练系统210。然后，语音识别训练系统210就利用用户语音数据232和识别结果234来更好的训练语音识别系统208中的模型以识别用户的语音。这种训练可以有多种不同的公知的形式，完成语音识别系统训练的具体方法并不形成本发明的一部分。图3中的方框332 表明了利用用户语音数据232和识别结果234执行语音识别训练。作为该训练的结果，语音识别系统208能更好的识别当前用户的语音。本模型的多种特征见附录A展示的例子。例如，本模型可用来创建实践页面，实践页面可在没有即刻提供完成该任务的确切说明的情况下，指导用户执行用户已学会的任务。本模型允许用户尝试记起具体的指令，并且在没有被告知确切的要做的事情的情况下就能输入具体的命令。本模型提高了学习进程。如附录A中的例子所示，实践页面可通过设置记号^&§6〉中的(>3(^^=111^"标记来创建。如下所示<pagetitle= "stop listening" practice- "true" >这使得"Step (步骤)"记号下的〈instruction〉不被显示出来，除非出现超时 (例如30秒钟)或语音识别器208得知来自用户的错误识别(也就是用户说错了)。在"Page Title (页面标题)"被设置成"Stop Listening (停止收听)"，"Practice Flag (实践标记)"被设置为"True (真)"的具体的例子中，显示会举例说明教学语言"During the tutorial, we will sometimes ask you to practice what you have just learned. If you make mistake, we will help you along. Do you remember how to show the context menu, or right click menu for the speech recognition interface Try showing itnow!(在教学过程中，我们会不时要求你实践你刚才所学的。如果你犯了错误，我们会帮助你。你记得如何显示上下文菜单或右击菜单进入语音识别界面吗？现在就试试吧！)"这可以例如显示在教学部分504中，然后，教学内容就等待收听用户说短语 "Show speech options (显示语音选项)"。在一实施例中，一旦用户说出合适的语音命令，如果该命令确实是赋予该应用程序的命令，演示显示部分524就会被更新以显示被用户看到的信息。然而，如果在超过预定的时间后，例如30秒或任何理想的时间范围，用户还没有输入语音命令，或者如果用户输入了不合适的无法被语音识别系统识别的命令，以下说明将被显示出来"Try saying'show speech options'(试试说'显示语音选项，)"。可以看出，本发明以令人满意的方式把教学内容和语音训练过程相结合。在一实施例中，系统是交互式的，因为该系统向用户显示了当向用户提示的命令被语音识别系统接收时语音识别系统的情况。为了使教学过程中的语音识别更有效以及使用户处于受控制的教学环境中，本发明还将教学内容中的任何步骤中的可能的识别限定在了一组预定义的识别中。还应当注意到，教学系统200易于扩展。为了给新语音命令或新语音功能提供新的教学内容，第三方只需设计教学流程内容216和屏幕截图218,它们可以被轻松的插入教学系统200的框架202中。如果第三方想要为现有的语音命令或功能创建新的教学内容，或者如果第三方想要变更现有教学内容，也是可以实现的。在所有这些情形中，第三方只需参考屏幕截图(或其他显示要素)设计教学内容，从而该教学内容就可以被解析成教学框架202使用的教学模型。在此讨论的实施例中的模型是分层结构性模型，但是其他模型也容易使用。虽然本发明的主题已用具有特殊的结构性特征的语言和/或方法性的步骤描述过，应当理解，所附权利要求书中定义的主题不必限制在上述具体的特征或步骤中。相反，上述具体的特征和步骤是作为实施权利要求而公开的示例形式。
权利要求
1.一种训练语音识别系统(208)的方法，其特征在于，包括显示多个教学显示(230)之一，所述教学显示(230)包括提示(522)，提示用户(214)说出用于控制语音识别系统(208)的命令；把响应于所述提示(522)接收到的接收语音数据(232)提供给语音识别系统(208)进行识别、以获得识别结果(234)；如果所述语音识别结果(234)与一预定义的可能命令子集中的一个相对应，则基于所述语音识别结果(234)和所述接收语音数据(232)训练(332)语音识别系统(208)；以及基于所述识别结果(234)显示另一教学显示(230)。
2. 如权利要求1所述的方法，其特征在于，显示多个教学显示(230)中的另一个教学显示包括显示一模拟(524)，所述模拟(524)表明当语音识别系统(208)接收到与语音识别结果(234)相应的命令时生成的实际显示。
3. 如权利要求2所述的方法，其特征在于，显示教学显示(230)之一包括显示描述语音识别系统(208)的特征的教学文本(504)。
4. 如权利要求2所述的方法，其特征在于，显示包括提示(522)的教学显示(230)之一包括显示多个步骤(522)，每个步骤都提示用户(214)说命令，所述多个步骤 (522)被执行以完成语音识别系统(208)的一项或多项任务。
5. 如权利要求4所述的方法，其特征在于，显示教学显示(230)之一包括参照教学内容(204， 206)以获得一选定的应用程序。
6. 如权利要求5所述的方法，其特征在于，所述教学内容(204， 206)包括导航流程内容(216)和相应的显示(218)，其中显示教学显示(230)之一包括访问导航流程内容(216)，其中所述导航流程内容(216)符合一预定义模型(300),并且在不同点引用相应的显示(218);跟随由导航流程内容(216)定义的导航流程；以及显示在所述导航流程中的不同点处引用的显示(218)。
7. 如权利要求6所述的方法，其特征在于，还包括-配置(330)语音识别系统(208)以仅识别与用户被当前显示所提示执行的步骤(522)相应的预定义的可能命令子集。
8. —种语音识别训练和教学系统(200)，包括教学内容(204， 206)，它包括表明教学应用程序(1， N)的导航流程的导航流程内容(216)，和在导航流程内容定义的导航流程中的不同点处引用的相应显示要素(218)，所述显示要素(218)提示用户(214)说命令，所述显示要素 (218)还包括对响应于语音识别系统(208)接收到命令而生成的显示(214) 的模拟；以及教学框架(202)，它被配置成为访问教学内容(204， 206)并根据导航流程来显示显示要素(218)，所述教学框架(202)被配置成把响应于提示而提供的语音信息(232)提供给语音识别系统(208)进行识别、以获得识别结果(234) 并基于所述识别结果(234)训练语音识别系统(208)。
9. 如权利要求8所述的语音识别训练和教学系统(200)，其特征在于，所述教学框架(202)配置所述语音识别系统(208)以仅识别在显示元素(218)被显示时的一组预期的命令。
10. 如权利要求8所述的语音识别训练和教学系统(200)，其特征在于，所述教学框架(202)被配置为基于用户(214)所选择的教学应用程序(1， N)访问多组不同的教学内容(204， 206)中的一组。
11. 如权利要求10所述的语音识别训练和教学系统(200)，其特征在于，所述多组不同的教学内容(204， 206)可插入教学框架(202)。
12. 如权利要求8所述的语音识别训练和教学系统(200)，其特征在于，所述导航流程内容(216)包括一导航排列(300)，所述导航排列表明如何安排教学信息和如何允许对教学信息的导航。
13. 如权利要求12所述的语音识别训练和教学系统(200)，其特征在于，所述流程内容(216)包括导航分层结构(300)。
14. 如权利要求13所述的语音识别训练和教学系统(200)，其特征在于，所述导航分层结构(300)包括被分层排列的主题(302)、章(304)、页面(306) 和步骤(308)。
15. —种存储有具有计算机可读数据的数据结构的计算机可读的、有形介质，所述数据结构包括包括计算机可读流程数据(216)的流程部分，所述流程数据为语音识别系统(208)的教学应用程序(1， N)定义导航流程并且符合预定义的流程模型(300);以及包括计算机可读显示数据(218)的显示部分，所述显示数据(218)定义了在由流程数据(216)定义的导航流程中的不同点处由流程数据(216)引用的多个显示，所述显示数据(218)向用户(214)提示语音数据(232)，所述语音数据 (232)表明语音识别系统(208)中使用的命令，所述显示展示当语音识别系统(208) 接收到用户(214)输入的语音数据(232)时显示的信息。
全文摘要
本发明将语音识别教学训练与语音识别器声音训练相结合。系统向用户提示语音数据，并用预定义的屏幕截图模拟当语音命令被接收时的情况。在教学过程中的每一步骤，当向用户提示输入时，系统被配置，使得语音识别器只能识别一组预定义的用户输入(可能只有一个)。当识别成功，语音数据就被用来训练语音识别系统。
文档编号G10L17/00GK101253548SQ200680031310
公开日2008年8月27日申请日期2006年8月29日优先权日2005年8月31日
发明者D·莫瓦特, F·G·T·I·安德鲁, J·D·雅各布, O·舒霍茨, P·A·肯尼迪申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D.莫瓦特;F.G.T.I.安德鲁;J.D.雅各布;O.舒霍茨;P.A.肯尼迪
技术所有人：微软公司
我是此专利的发明人

上一篇：用于编码和解码音频信号的装置及其方法
上一篇：将声音和人工转录文本进行同步的系统和方法