背景声频恢复系统的制作方法

文档序号：2834373阅读：200来源：国知局

专利名称：背景声频恢复系统的制作方法
技术领域：
本发明通常涉及多源数据处理系统，特别涉及声频识别系统／软件的背景声频恢复系统。
自从发明个人计算机以来，人机交互作用主要通过键盘进行。一般，当用户要将信息或指令输入给计算机时，他便在与计算机相连的键盘上键入信息或指令。其他作为输入装置而代替键盘的输入装置包括鼠标、触摸屏显示器、集成指示器装置和扫描仪。这些输入装置的使用节省了用户花在向计算机输入数据或指令的时间。
基于计算机的声频识别和语音识别系统还可用于向个人计算机输入数据或指令。声频识别和语音识别系统将人的语音转换成可由计算机识别的格式。当计算机装备了声频识别和语音识别系统时，可只通过向计算机说出数据或命令就可完成数据或命令输入。用户说话的速度一般快于传统数据或命令输入速度。因此，通过人的语言传递数据或命令的固有速度是将声频识别和语音识别系统与计算机结合所具有的优点。
用户操作具有声频识别和语音识别系统的个人计算机所具有的高效率促进了该系统在工厂的使用。现在各工厂的许多工人将声频识别和语音识别系统用于多种应用程序中。例如，DRAGON、IBM和LERNUT & HAUSPIE已经设计出利用声频识别和语音识别技术的计算机软件程序。当用户对声频识别程序大声读出或口述文件时，该程序能将用户的话直接输入在个人计算机操作的字处理程序。
通常，基于计算机的声频识别和语音识别程序将人的语音转换成数字化频率级数。这些频率匹配预先存储的字或音素集。当计算机确定合适匹配频率级数时，实现人语言部分的计算机识别。对频率匹配编码，直到已收集足够信息使计算机做出反应。然后计算机通过将人的语言存储在存储装置、将人的语言转换成字处理程序的文件或执行应用程序的命令而对一定语言做出反应。
但是，声频识别和语音识别系统不是100％精确。即使通过硬件和软件修正，最有效的声频识别和语音识别系统也只能获得大约97-99％的精度。内外因素会影响声频识别和语音识别系统的可靠性。依赖于识别技术的内部因素包括在有限的字／音素集和说话者的语汇之间比较。外部因素包括环境如地方口音、外部噪声，麦克风的类型会降低输入质量，从而影响用户说话的频率并将潜在的误差带入字或音素匹配。
普通声频识别系统具有很高的识别误差率。已经应用不同办法来提高识别率和降低识别误差量。一种解决方法是训练声频识别或语音识别程序以识别特定人的声频的频率。在与说话者相关的声频识别系统中，系统产生声频配置文件，识别特定人声频的独特发音模式。不能为特定说话人而训练的系统称为独立于说话者的系统，因此由于地方口音或发音的不同更易于产生识别误差。
另一种解决方法是采用称为不连续的语音输入的方法。不连续的语言输入需要操作者说话速度相对较慢，在每个字之间和在说下一个字之前要停顿。操作者的停顿给声频识别系统时间分辨每个操作者说话的开始和结束。依赖于不连续语音输入的声频识别系统速度较慢，对习惯于以正常语速说话的用户来说很不方便。
另一种解决方法是基于连续语音输入的方法。连续语音输入系统要求用户说出预先储存在系统词汇表中的有限字集。因此，该声频识别系统依赖于有限的词汇表。当用户在具有特定词汇表的环境中使用该系统时，可以最佳使用这些系统。例如，在医疗卫生业中的特殊领域中，如放射学、整形外科、内科、急救医学、精神健康等中使用连续语音识别系统。但是，连续语音识别系统受词汇表的固有缺陷的限制，这限制了其在其他行业或工作环境中的使用性能。
自然语音输入系统最终会进入市场。这些系统不要求用户以使计算机识别的特殊方式说话，而且还能识别用户对计算机的指令和输入计算机的信息之间的区别。
在下面的公开内容中，术语“声频识别”和“语音识别”可作为同义词使用。声频识别和语音识别之间有时会有差别。但是，声频识别和语音识别系统会同样遇到上述的可靠性问题，将同样的方法应用于两种识别技术以解决现有技术的不足。
许多多源数据处理系统包括声频识别软件。如上所述，普通声频识别软件有很多缺点。一个主要的缺点是应用声频识别软件的应用程序如字处理程序频繁损失或不能适当的捕获由用户给出的指令。
不能适当捕获指令有两个主要原因丢失口述指令的一个主要原因是由于麦克风状态指示器或图标难于设置在显示器上而使用户频繁忘记启动声频识别软件。不能适当捕获指令的另一个原因是用户频繁假定声频识别软件的麦克风打开并开始口述其想法。但是，过了几分钟后，用户发现没有记录或由声频识别软件处理其声频命令和／或指令。这样，用户必须“打开”或“唤醒”声频识别软件并重新口述其意图。
另一个丢失口述指令的原因是支持声频识别软件的计算机常常具有非常慢的处理速度。语音识别软件一般需要相对日常应用的高处理能力，许多计算机不能满足语音识别软件的需要。在普通计算机中，用户常常说出命令并假定计算机适当捕获了该命令。然后用户直接进行口述。如果该软件不能捕获该“打开”命令，则不能捕获用户说出的任何内容。
一些普通声频识别软件试图通过更可视的麦克风状态显示器或图标解决这些问题。但是，该迅速固定或简单的解决方法不能完全解决上述问题。尽管更可视的麦克风指示器或图标会减少用户偶然口述而不启动声频识别软件的可能，但是许多用户还不会注意和观察到麦克风状态指示器或图标。
例如，许多用户在看着放在书桌上的写好的材料如便条或书进行口述时，用户便不能看着显示器。对于这些用户，可视的麦克风指示器或图标不能解决丢失口述内容的问题。而且，即使增大麦克风状态指示器或图标尺寸，由于普通计算机的处理速度很慢，声频识别软件的用户为启动或“打开”声频识别软件还必需等待很长时间。
现有技术的声频识别软件的其他问题包括语音处理中的错误，即声频识别软件偶然用语音相似的字替换口述的字。例如，字“apparently”会由声频识别软件解读成短语“a parent”。
因此，该领域中普遍需要一种使用于计算机系统的背景声频恢复系统，用于记录和处理当声频识别软件处于非启动状态时产生的口述语音。为了提供处理语音的增强编辑能力，本领域的背景声频恢复系统还需要回应用户发出的实际背景声频。背景声频恢复系统进一步需要在背景声频进入一应用程序的打开文件前，允许用户编辑背景声频。
本发明一般涉及具有语音识别程序模块的背景声频恢复系统，在语音识别程序模块偶然设置成非活动状态时，可以记录声频，然后对记录的从麦克风接收的背景话音或声频应用语音识别系统。当语音识别程序模块设置成非活动模式时，从麦克风接收的所有背景声频的连续记录可防止丢失用户口述的内容。
如上所述，本发明的背景声频恢复系统在语音识别程序模块设置成非活动状态时连续存储背景声频或语音。当用户意识到语音识别程序模块的麦克风没有“打开”或被设置成非活动时，然后用户通过口述命令或键入的命令适时“打开”麦克风。语音识别程序模块提示应用程序是否在“打开”或语音识别程序模块激活之前已经存储背景话音或声频。
如果已经保存背景声频或话音，背景声频恢复系统通知用户已经存储麦克风激活(或语音识别模块启动)之前的背景话音，并可将其转换和插入应用程序的当前打开文档。给用户至少下述选择之一(1)将背景声频或话音处理和转换成文本，在各用户界面中应用口述命令后显示该文本；(2)将背景声频或话音处理和转换成文本，用作为文本在各用户界面中列出的口述命令显示该文本；(3)将背景声频或话音处理和转换成文本，将该文本插入当前打开文档而不做任何编辑；或者(4)删除背景声频或话音。
如果用户决定将背景声频或话音处理和转换成文本，则背景声频恢复系统会通过语音识别程序模块将背景话音转换成文本。然后在将文本插入应用程序或字处理系统的当前打开文档之前，背景声频恢复系统会通过典型的对话框或窗口格式的用户界面向用户显示转换的背景声频或话音。
背景声频恢复系统还提示用户用于转换文本的附加编辑选择。对于本发明的一个实施例，即使在背景语音产生时发出口述命令，也可将所有背景语音处理成文本。在本发明的另一实施例中，说话或口述命令作为命令处理，用户可以决定是否要根据要转换成文本的对应背景语音执行每个命令。
在另一实施例中，麦克风接收的实际声音或话音还以低保真格式保存在存储设备中，使用户可以回放实际声音，以便增强对转换的文本的编辑处理。
本发明提供给用户更多控制，以恢复“丢失”的话，并将其插入字处理系统的打开文档。在将转换的背景语音插入字处理系统的当前打开文档前，当在各对话框中显示命令和相关的转换背景语音时，产生该控制。换句话说，本发明不强迫用户简单地将转换的背景语音插入或“倾倒”在打开文档中。
本发明允许用户反作用(retroactively)打开麦克风，并提供如何将转换的背景语音插入打开文件的选择显示。本发明还允许用户设置背景语音处理，用户指定用于防止口述命令丢失所使用的时间或内存量。此外，本发明还允许用户放弃记录的背景语音或声频，同时字处理系统准备接收用户即将说出的话时，正作用(proactively)打开麦克风。
特别说明的是，本发明是一种包括应用程序如字处理程序的背景声频恢复系统。背景声频恢复系统在显示器中显示应用程序中的语音识别程序模块的非活动状态指示命令。背景声频恢复系统然后确定是否声频输入装置正接收来自用户的声频输入，如语音或声频。如果声频输入装置(如麦克风)接收到了声频，背景声频恢复系统则将声频数据存储在存储设备中。另外，背景声频恢复系统可在存入存储设备之前将声频转换成文本。
背景声频恢复系统确定是否已经发出激活语音识别程序模块的命令，如果已经发出，则背景声频恢复系统启动处理存储的声频的背景声频程序模块。
根据本发明的一方面，背景声频恢复系统将背景声频存储在中央处理器的高速缓冲存储器中。根据本发明的另一方面，应用程序是用于处理存储数据的字处理程序。
背景声频恢复系统可通过检测来自键盘接口或声频输入装置如麦克风的命令而确定是否已经发出激活应用程序的命令。根据本发明的另一方面，背景声频恢复系统可以在显示器上显示图形用户界面如对话框。背景声频恢复系统然后在该图形用户界面内显示存储的背景声频的选择列表。
背景声频恢复系统可将背景声频转换成文本数据，并在显示器上显示该文本数据，该文本数据包括还没有应用于文本数据的文本应用程序命令。根据本发明的另一方面，背景声频恢复系统可以将该命令用于另一存储的文本数据，并将处理的文本数据显示在显示器上。
背景声频恢复系统还可将背景声频转换成文本数据，并将转换的文本数据插入由应用程序存取的打开文件中。该文本数据包括还没有应用于文本数据的文本应用程序命令。
背景声频恢复系统还可提示用户从存储设备中删除存储的声频数据。根据本发明的另一方面，背景声频恢复系统可将背景声频作为声频文件存储在存储设备中。背景声频恢复系统然后将该背景声频转换成文本数据，然后将转换的文本数据显示在显示器上，同时从存储设备的声频文件中回放该背景声频。为了分配包括记录语音的声频文件的预定大小，背景声频恢复系统允许用户指示时间增量、文件大小增量和值中的一个。
本发明克服了现有声频识别软件的缺点，通过下述对举例性实施例、附图和权利要求的详细说明，上述的优点将更显而易见。

图1是为本发明举例性实施例提供操作环境的个人计算机系统的工作原理方框图；图2是多源数据处理系统的程序模块工作原理方框图；图3是本发明的背景声频恢复系统的工作原理方框图；图4显示了本发明的背景声频恢复系统的图形用户界面和麦克风；图5显示了本发明的背景声频恢复系统的语音识别程序启动或“打开”后的背景声频恢复系统的图形用户界面和麦克风；图6是背景声频恢复系统的图形用户界面编辑窗口，其中口述的命令已经应用于背景声频；图7是背景声频恢复系统的图形用户界面编辑窗口，其中口述的命令已经显示成文本；图8是背景声频恢复系统的图形用户界面，其中口述的命令已经显示成文本，背景声频已经插入字处理型应用程序的打开文档；图9显示本发明的背景声频恢复系统的图形用户界面设置菜单；图10是本发明的背景声频恢复系统的存储设备工作原理方框图；图11是显示本发明的背景声频恢复系统的操作的逻辑流程图；图12是显示本发明的背景声频恢复系统的设置特征的逻辑流程图；图13是显示本发明的背景声频恢复系统的详细菜单的逻辑流程图。
图1和下述说明试图提供采用本发明的适当计算环境的简洁而全面的描述。在与个人计算机上运行的操作系统一起运行的整个独立应用程序中说明本发明，本领域的技术人员认识到本发明可在其他程序模块中实施。程序模块一般包括例行程序、程序、元件和数据结构等，用于完成特殊任务或实施特殊抽象数据类型。此外本领域的技术人员会理解本发明可以与其他计算机系统配置包括手持装置、多处理器系统、基于微处理器的或可编程的用户电子仪器、小型计算机、主计算机以及类似装置一起使用。本发明还可在分布式计算环境中使用，其中由通过通信网络连接的远程处理器执行任务。在分布式计算环境中，程序模块可以位于远程存储器存储装置中。
图1是实施本发明的适当计算环境100的全面描述。该举例性操作环境100包括普通个人计算机系统120，该计算机系统包括处理单元121、系统内存122和将系统内存122与处理单元121相连的系统总线123。系统内存122包括只读存储器(ROM)124和随机存取存储器(RAM)125。基本输入／输出系统126(BIOS)存储在ROM124中，其包括有助于在个人计算机系统120内的元件之间传递信息的基本例行程序，如在启动时。
个人计算机120进一步包括硬盘驱动器127、在可活动的磁盘129上读写的磁盘驱动器128以及用于读取CD-ROM盘13l或在另一光介质上读写的光盘驱动器130。硬盘驱动器127、磁盘驱动器128和光盘驱动器130分别通过硬盘驱动器接口132、磁盘驱动器接口133和光盘驱动器接口134连接到系统总线123。这些驱动器和与其相关的计算机可读介质提供个人计算机120的非易失存储器。尽管计算机可读介质的上述说明指的是硬盘、活动的磁盘和CD-ROM盘，但是本领域的技术人员应理解计算机还有计算机系统可读的其他类型的介质，如磁带、闪烁内存卡片、数字视盘、伯努里盒式磁盘以及类似介质，可以用于实施例操作环境。
用户通过普通输入装置包括键盘140和指点器如鼠标142向个人计算机120输入命令和信息。可以使用麦克风161将声频输入如语音输入给计算机系统120。用户通过使用输入笔在书写图形输入板162上绘制图形信息而将图形信息如图和笔迹输入计算机系统。该计算机系统120可包括附加输入装置(未示)，如控制杆、游戏板(pad)、卫星盘(satellitedish)、扫描仪或类似的装置。麦克风161可通过连接于系统总线的声频适配器160与处理单元121相连。其他输入装置通常通过连接于系统总线的串行接口146与处理单元121相连，但是也可通过其他接口连接，如游戏端口或通用串行总线(USB)。
监视器147或其他类型的显示器还可通过接口如视频适配器148与系统总线123相连。除监视器外，个人计算机系统一般包括其他外围输出装置(未示)，如扬声器或打印机。
个人计算机系统120可以在采用与一个或多个远程计算机系统如与如图1所示的远程计算机149逻辑连接的网络环境中操作。该远程计算机149可以是服务器、路由器、对等装置或其他公共网络节点，一般包括许多或所有上述关于个人计算机系统120的元件，尽管图1中只显示了一个存储器存储装置150。图1显示的逻辑连接包括局域网(LAN)151和广域网(WAN)152。这样的网络环境在公共办公室、企事业范围的计算机网络、内部网络和互联网中是非常普遍的。
当用在LAN网络环境中时，个人计算机系统120通过网络接口153连接到LAN151。当用在WAN网络环境时，个人计算机系统120一般包括调制解调器154或其他用于建立WAN152如互联网上的连接的装置。调制解调器154可以是内置的或外置的，通过串行端口接口146连接到系统总线123。在网络环境中，显示的关于个人计算机系统120的程序模块或其组成部分可以存储在远程记忆存储装置150中。应理解显示的网络连接只是举例性的，还可使用其他在计算机系统之间建立连接的装置。应进一步理解本发明可同样使用在主计算机系统或服务器计算机系统上，而不仅是使用在个人计算机系统上，并能通过除CD-ROM以外的其他装置同样传输到主计算机系统上，例如通过网络连接接口153。
多个程序模块可存储在计算机系统120的驱动器和RAM125上。程序模块通过I／O装置或其他计算机控制计算机系统120的操作并与用户交互作用。程序模块包括例行程序、操作系统135、应用程序模块138、数据结构、浏览器和其他软件或固件元件。本发明便于在一个或多个程序模块中实现，如随机输入组合程序程序模块137和随机输入接口程序模块139，每个模块都是基于在详细说明中所描述的方法。
应用程序模块138可包括多个与本发明一起使用的应用程序，其中一些程序如图2所示。这些程序模块之间交互作用的目的在图2的文字描述中得到更全面说明。这些程序模块包括字处理程序210(如由华盛顿州雷德蒙德的微软公司设计的WORD)、手迹识别程序模块230、语音识别程序模块240和输入方法编辑器(IME)250。
因为考虑到附图中说明和显示的操作、步骤和过程的充分公开足以使本领域普通技术人员实施本发明的举例性实施例，因此，将不说明一种用于实现各详细说明的过程的特别程序语言。此外，鉴于有由许多用于实现举例性实施例的计算机和操作系统，因此不提供可应用于所有这些不同系统的详细的计算机程序。特定计算机的每个用户会知道最能满足用户的需要和目的的语言和工具。
程序模块概述图2提供多源数据处理系统200的程序模块的概述。一般，图2所示的程序模块的目的是由用户输入产生随机数据，然后将随机结果作为文本输入给一应用程序，如字处理程序。随机结果是与概率相关的提供的选择。而且，随机结果一般意味有多于一种的选择。输入给程序模块的随机数据称为“随机输入”。产生另一程序模块的随机输入的程序模块称为“随机输入源”。
图2所示的程序模块使用户将文本输入给使用随机和非随机输入源的应用程序，如字处理程序210。典型随机输入源包括手迹识别程序模块230、语音识别程序模块240、输入方法编辑器(IME)250和语音识别程序模块260。键盘140是典型的非随机数据源。一旦用户通过一个或多个输入源将文本输入字处理程序210，则用户可以选择文本段，并为文本段请求供选择的候选项列表。文本选择可包括来自多个随机和非随机输入源的输入。只要从至少一个随机输入源获得该文本选择，则会对文本段的选择提供选择。该程序模块可生成候选项列表并通过图形用户界面将其呈现给用户。如果用户选择候选项中的一个，则该文本选择由选择的候选项所替换。现在依次说明随机输入源230、240、250和260。
手迹识别程序模块230接收来自用户的手写输入280。用户通过用输入笔在书写图形输入板162上书写而生成手写输入280。另外(图中未示)用户可以通过用输入笔或用指点器如鼠标在触摸屏上书写而生成文本。在输入后，最好通过操作系统135中的书写图形输入板驱动器模块将手写输入280传递给手迹识别程序模块230。
由于计算机常常难于解读手迹，因此手迹识别程序模块不能总是以完全精确对手写输入280译码。程序模块280作得最好的是为手写输入280产生一个选择，并正确指定每个选择的概率。通过定义，手迹识别程序模块230产生随机结果。随机模型270a包括含有随机数据的数据结构，通过用手迹识别程序模块230处理手迹输入280而获得该随机数据。
尽管能存储随机数据的任何数据结构可包括随机模型270，这样的两个有用的结构是点阵(lattice)和“n-最佳”选择列表。点阵是一种本领域技术人员公知的结构，因此不做全面说明。但是，点阵存储由节点的随机输入源生成的字或短语。由于每个字或短语是随机数据，因此节点还存储指定相关的字或短语的概率。为了产生由随机数据代表的任何文本段的类似的选择，而采用本领域技术人员公知的方法传递该点阵。此外，通过公知的链接处理可将代表相邻文本片段的点阵组合成较大点阵。然后传递较大点阵以产生相邻文本片段的选择。
另外，随机数据结构可由n-最佳选择列表和其相关概率表示。对于任何给定的字和短语，n-最佳选择列表可以由代表字或短语的点阵产生。
除通过麦克风161从用户接收语音输入290外，语音识别程序模块240象手迹识别程序模块230一样运行，麦克风161由操作系统135中的麦克风驱动器模块控制。因为许多听起来相似的字具有不同的意思和拼法，因此常常难于解读语音，所以语音识别程序模块240也产生随机结果。随机模型270b存储包含通过采用语音识别程序模块240处理语音输入290而生成的随机数据的数据结构。
输入方法编辑器(IME)250还产生随机数据。IME 250一般将以音素表示形式的输入转换成表意字符序列。IME 250的输入可以是通过键盘140和鼠标142输入计算机的键入的文本。随机模型270c包括包含由IME250生成的随机数据的数据结构。
IME 250对于产生亚洲的表意文字和其他语言很有用。应为在这样的语言中有许多超出键盘上的键的表意文字，没有IME 250则很难向计算机输入特定表意文字。在典型IME 250中，用户以英文字母键入所需汉字的语音拼法。由于许多汉字具有相同的拼音，键入的语音拼法可代表许多不同汉字中的任何一个，则IME 250产生随机结果。IME 250接着提供给用户由键入的语音拼法最可能表示的汉字的候选项，以便用户选择正确的一个。
由随机输入源生成的随机结果可作为第二随机输入源的随机输入。当情况是这样时，随机输入源是“串联随机输入源”，该随机输入源可以描述成“串联”配置。这由程序模块的配置293表示，其还表示IME 250的另一实施例。
在该实施例中，可将英语语音输入计算机并用于生成日语文本。该语音首先发送到语音识别程序模块260。在操作中，语音识别程序模块260的功能非常象语音识别程序模块240，但是由于模块260可以具有不同语音解读引擎，因此其显示为有不同的装置。例如，语音识别程序模块260可以解读不同于语音识别程序模块240的语言。随机模型270d包括包含通过用语音识别程序模块260处理语音输入而产生的随机数据的数据结构。
在英语语音／日语IME实施例中，语音识别程序模块260可以从口述英文文字产生英语文本选择，并将其存储在随机模型270d中。存储在随机模型270d的一个或多个可选择的英文语言文本可以作为IME 250的输入，其将英语文本转换成日语文字。尽管应该理解选择形成的进入IME 250的两种不同的输入的随机结果之间会有重叠，但是进入IME 250的选择的输入会生成各自的随机结果。
尽管图2中的由语音识别程序模块260指向IME 250的箭头表示语音识别程序模块是IME 250的随机输入源，但是应该明白两程序模块不可直接交互作用。这样，例如，从语音识别程序模块260向IME 250的随机输入可通过接口程序模块传递，如随机输入接口139，每个随机输入源直接连接到该接口。
随机输入接口139作为接收随机数据的应用程序210和随机输入源，如手迹识别程序模块230、语音识别程序模块240或IME 250之间传递随机数据的通道。随机输入接口139作为随机数据通道具有的好处是，其简化了接收随机数据的应用程序210和随机输入源之间的通信。该应用程序只需要知道怎样与随机输入接口而不是与所有可能的随机输入源通信。在本发明的一个实施例中，接收随机输入的应用程序210是一个字处理程序。但是，应用程序210还可是电子表格、浏览器，电子邮件程序、音乐转换程序、CAD程序或操作系统。
在字处理程序实施例中，字处理程序210通过随机输入接口139从每个用于将数据输入字处理程序的随机输入源接收代表最相近的选择的文本。除通过多随机输入源将数据传递进字处理程序210外，用户还可将典型非随机数据输入字处理程序，如通过在键盘140上键入。字处理程序210将所有数据组成多源文本串呈现给用户。尽管字处理程序210不向用户表示文本中每个字的来源，但是字处理程序还是保持文本的每个组成部分的来源的记录。
字处理程序210还具有使用户选择文本段并为此请求提供选择的功能。如果从一个或多个随机输入源获得文本选择，则会有选择的文本供选择。通过提供文本选择和文本选择的每个组成部分的来源，字处理程序210可以从随机输入接口请求提供选择的候选项列表。在处理了请求后，随机输入接口139向字处理程序210输入整个文本选择的候选项列表。字处理程序210通过图形用户界面将候选项列表提供给用户。如果用户从候选项列表中选择文本选择中的一个选择，则字处理程序用选中的候选项替换该文本选择。
为了处理为文本选择提供候选项列表的请求，随机输入接口139将该请求传递个随机输入组合程序137。通过随机输入接口139与随机输入源通信，随机输入组合程序137可恢复关于需要生成文本选择候选项列表的随机模型270的信息。在组合随机模型270而生成候选项列表中，随机输入组合程序137可以有选择的询问自然语言模型220，其利用线索如语法和文本段的总体含义以便生成候选项列表的附加选择并重新估价这些通过组合随机模型270而获得的选择概率。结合图3至9说明用于生成文本选择的供选择的候选项列表的方法。
如图2所示，每个随机输入源230、240和250可以向字处理程序210提供随机数据，而不必首先通过另一随机输入源滤出随机数据。换句话说，每个随机输入源230、240和250可直接(通过随机输入接口139)将随机数据传递到字处理程序210，来自每个输入源的随机数据可以插入到相同的字处理文件。因此，它们是“并行随机输入源”296，这些随机输入源可以描述为“平行”配置。
尽管分别说明各种程序模块，但是本领域的技术人员应该知道这些模块可以以任何方式组合，可以产生新的程序模块而获得类似结果。特别是，随机输入组合程序137和自然语言模型220可以驻留在随机输入接口139，三个程序模块都是操作系统135或字处理程序210的组成部分。同样，随机输入源230、240、250和260可以是独立应用程序模块138，或者是操作系统135的一部分。
背景声频恢复系统的概述图3是显示本发明的背景声频恢复系统10的方框图。背景声频恢复系统10通过麦克风161接收背景声频20。背景声频恢复系统10的语音识别程序模块240储存背景声频。随机输入接口139在应用程序210和语音识别程序模块240之间传递信息、命令或通信。在本发明的举例性实施例中，应用程序210是字处理程序。但是，应用程序210还可以是电子表格、浏览器、电子邮件程序、音乐转换程序、CAD程序、操作系统或其他类似应用程序。
应用程序210负责跟踪背景声频20的存储文件44，文件44包括低保真声频数据和处理的语音数据或文本数据36(如图6至8所示)。应用程序210操作连接于图形用户界面30(以背景声频编辑器窗口的形式)。应用程序210负责产生和保持当前打开的文档窗口26。应用程序210还负责产生状态指示器22、28。应用程序210还可操作的连接到声频输出装置45。声频输出装置45最好是个人计算机的扬声器。但是，其他声频输出装置45也在本发明的范围内。其他声频输出装置可以包括外设的扬声器、耳机和其他类似声频输出装置，但不限于上述声频输出装置。
背景声频的产生图4显示根据本发明的背景声频恢复系统10的背景声频20的产生。图4所示的情况代表至少一个下述方案用户不记得语音识别程序模块240已经设置成非活动状态；用户没有注意到显示在监视器147上的非活动状态指示器22；用户不适当地说出口述的命令而启动了语音识别程序模块240；用户不适当地通过键盘140键入语音识别程序模块240的启动命令；或者用户没有启动麦克风161上的专用开关；或者用户没有用鼠标42选择GUI上的按钮以启动麦克风161。除下述听写“The quick brownfox jumped over the lazy dog．The lazy dog was apparentlyunconscious．”，背景声频20包括的口述命令“New Paragraph”。
前述处理的语音24存在接收输入的应用程序210的当前打开文档26中。由于语音识别程序模块240已经设置成由监视器147上的非活动状态指示器22指示的非活动状态，则由本发明的背景声频恢复系统10储存的背景声频20不进行转换，因此也不显示在字处理程序210的打开文档26中。当非活动状态指示器22通知用户语音识别程序模块已经设置成非活动状态时，背景声频恢复系统10连续监视麦克风161的任何背景声频20，如果检测到声频便记录下来。
背景声频程序模块的激活图5显示本发明的背景声频恢复系统的背景声频程序模块的激活或启动。在图5中，活动状态指示器28显示为背景声频恢复系统接收激活语音识别程序模块240的命令的结果。在图5的下部，在显示活动状态指示器28后，本发明的背景声频恢复系统产生选择列表32的图形用户界面30A，用于存储由背景声频恢复系统10记录的声频数据。
图6显示用户选择了选择列表32中的一个选择号后的用户图形界面30B处理背景声频，将背景声频转换成文本数据，用应用于处理背景声频或语音的记录的口述命令浏览转换的文本数据。在图6中，背景声频20的口述命令“New Paragraph”由回车符34表示。转换的文本数据36包括一由语音识别程序模块240形成的语音相同替换而获得的未正确处理的字／短语38。在图6中，还用回放命令选择窗口39提示用户，用户可选择听经处理的语音的真实声频。
图7显示用户选择了选择列表32中的两个选择号后的用户图形界面30B处理背景声频20，将背景声频转换成文本数据，用前述的口述命令浏览转换的文本数据。转换的文本数据36包括显示在由前后图形字符括起来的大写字体的命令40。文本数据36进一步包括未适当／未准确处理的字／短语38。图7的图形用户界面30还包括回放命令选择窗口39，提示用户听一听相应文本数据36的实际声音。
文本数据36的实际声音回放提供了一种改正不准确的语音替换字38的实用编辑工具。例如，在图7所示的文本36的实际声音的回放中，用户会注意到不准确／或不合适处理的字／短语38“a parent”应该读做“apparently”。实际声音的回放性能保证了文本数据36是背景声频20的准确转换。
图8显示在应用程序210的打开文档中的文本数据36的布置。图8是选择了图5所示的选择列表32的选择号3的结果。选择3包括处理背景声频20，将背景声频20转换成文本，以及将用显示成文本的口述命令转换的文本未经编辑即插入当前打开文档。“New Paragraph”命令40显示成具有开始和结尾图形标记的大写字母。图8还显示文本数据36如何变成打开文档26的文本部分。活动状态指示器28还显示在打开文档26中以指示语音识别程序模块240已经准备好要接收语音声频。
图9显示背景声频恢复系统10的设置特性的图形用户界面30C。用户可通过使用键盘140或通过麦克风161或鼠标142或其他输入方法输入的口述命令将时间增量／值或存储量／值输入给图形用户界面30C。第二图形用户界面30C提示用户以时间或内存空间分配单位输入背景声频文件的大小。在图9所示的实施例中，以分钟为单位显示时间增量，以千比特显示内存分配的大小。但是，其他单位也属于本发明的范围。其他时间单位包括小时，千秒等。其他内存分配单位包括兆比特、千兆比特和其他类似的参数。
存储器存储装置实施例图10是显示中央处理器121和其各种存储设备的方框图。在最佳实施例中，文本数据36和背景声频20存储在第一存储设备46和第二存储设备48中。第一存储设备46最好是高速缓冲存储器，直接设置在中央处理器芯片121上。第二存储设备48最好是静态随机存取存储器(SRAM)形式的第二高速缓冲存储器。第一存储设备46和第二存储设备48的优点是每个存储设备提供相对于主存储设备125和硬盘驱动器127的高速存取。本发明不限于只使用第一存储设备46和第二存储设备48。背景声频恢复系统10还将主存储设备125和硬盘驱动器127或其组合用于存储背景声频20和相关的文本数据36。
背景声频恢复系统的操作图11是显示用于操作背景声频恢复系统10的例行程序300的逻辑流程图。在下面对例行程序300的整个说明中，有时会参考图5至9所示的图形用户界面30A-C。当语音识别程序模块240设置成非活动状态时，背景声频恢复系统10持续监视麦克风161。在步骤302中，应用程序210显示非活动状态指示器22，而语音识别程序模块240已经设置成非活动状态。背景声频恢复系统10程序监视麦克风161，以确定是否声频输入装置或麦克风161产生了声频信号，如步骤304所示。如果麦克风161没有产生声频信号，沿“否”支路返回步骤302。如果麦克风161产生了声频信号，则沿“是”支路运行到步骤306。
在步骤306，语音识别程序模块240将声频信号存储在存储设备中。另外，为了减少存储器存储需要量，语音识别程序模块可以立即将背景声频20转换成文本数据36。则文本数据36可以存储在第一存储设备46中，而实际背景声频20存储在第二存储设备48或硬盘驱动器127中的低保真声频文件中。但是，在最佳实施例中，语音识别程序模块240存储背景声频20而不将其转换成文本数据。
在步骤310中，背景声频恢复系统10确定是否已经发出激活语音识别程序模块240的命令。背景声频恢复系统10监视任何键盘输入的命令或通过语音识别程序模块240处理的口述命令。如果背景声频恢复系统10没有检测到激活语音识别程序模块240的命令，则沿“否”支路返回步骤302。如果检测到激活语音识别程序模块240的命令，则沿“是”支路运行到例行程序312。
参照附图13详细说明背景声频恢复系统10的例行程序312。在例行程序312中，背景声频恢复系统10将非活动状态指示器22改变成活动状态指示器28，然后产生图5所示的图形用户界面30A。
例行程序312下面是步骤313。在步骤313，用户将语音识别程序模块240设置成活动模式，或决定将语音识别程序模块240设置成非活动模式。如果用户将语音识别程序模块240设置成非活动状态或模式，则程序返回步骤302。
图12是显示背景声频恢复系统10(如图9所示)的设置操作的例行程序500的逻辑流程图。在步骤500中，背景声频恢复系统10检测是否用户发出背景声频设置命令。如果用户没有发出背景声频设置命令，则沿“否”支路运行到“结束”步骤504。如果用户发出背景声频设置命令，则沿“是”支路运行到步骤502，其中背景声频恢复系统10产生如图9所示的图形用户界面30C。在步骤502，提示用户设置时间增量或背景声频文件的文件大小增量。如上所述，用户可根据时间增量或存储设备大小增量选择背景声频文件的大小。系统还可提示用户选择以后包括在转换文本中的文件的大小。
图13是显示背景声频恢复系统10的例行程序312的逻辑流程图。在如图11所示，步骤310后开始例行程序312。在步骤402中，背景声频恢复系统10根据图5所示的图形用户界面30A显示选择列表32。在非活动模式中，选择列表32匹配由语音识别程序模块204记录的存储背景声频数据20。
接着步骤402的是步骤404，其中背景声频恢复系统10确定是否用户想要将声频处理和转换成文本数据36，然后，在向文本数据36发出任何口述命令后浏览文本数据36。如果除发出口述命令外，用户不想处理背景声频20和将声频转换成文本数据，则沿“否”支路运行到步骤406。如果用户想在发出口述命令后处理背景声频和将其转换成文本数据36，则沿“是”支路运行到步骤408。
在步骤408，语音识别程序模块240处理记录的背景声频20并对要转换的剩下的声频发任何口述命令，然后将声频20转换成文本数据36。步骤408下面是步骤410，背景声频恢复系统10产生图形用户界面30B并显示图6所示的转换的文本数据36。
在步骤406中，如果用户想处理背景声频并将其转换成文本数据36，而不发出口述命令，但是显示作为文本的命令，则沿“是”支路运行到步骤409。在步骤409，背景声频恢复系统10处理背景声频并将所有声频(包括命令)转换文本数据36。步骤409后接着步骤410，其中背景声频恢复系统10产生图形用户界面30B并显示如图7所示的转换的文本数据36。
步骤410后接着步骤416，其中背景声频恢复系统10用回放命令选择窗口39提示用户，如图6至8所示。回放命令选择窗口39询问是否用户想回放实际声音低保真文件数据以加强文本数据36的编辑处理。如果用户不想听实际声音低保真文件数据，则沿“否”支路运行到步骤424，步骤424处理返回图11中的步骤313。如果用户想听实际声音低保真文件数据，则沿“是”支路运行到步骤418。
在步骤418中，背景声频恢复系统接收实际声音低保真文件，并通过图3所示的声频输出装置45回放实际声音。实际声音低保真文件的回放加强文本数据36的编辑处理，用户会发现不准确／不合适处理的字38“aparent”应该改成“apparently”以直接与原始背景声频20一致。
在步骤412中，背景声频恢复系统10确定是否用户想要处理背景声频20并将所有声频(包括命令)转换成文本数据36，以及直接将文本数据36插入应用程序210的当前打开文档26而不进行任何编辑。如果用户选择不处理背景声频和将其转换成文本数据36以插入当前打开文档26，则沿“否”支路运行到步骤420。如果用户想处理背景声频20和将所有声频(包括命令)转换成文本数据36并将其插入当前打开文档26，则沿“是”支路运行到步骤414。
在步骤414，背景声频恢复系统10处理背景声频20并将所有声频(包括命令)转换成文本数据36。背景声频恢复系统10然后将文本数据36插入当前打开文档26，如图8所示。另外，如果用户愿意，在该步骤的背景声频恢复系统10还可将口述的命令应用于记录的声频20。步骤414下面接着步骤416。在步骤416，显示回放命令选择窗口39，背景声频恢复系统10等待如上所述的用户输入。
在步骤420，背景声频恢复系统10确定是否用户想放弃记录的背景声频20。如果用户不想放弃背景声频20，则沿“否”支路返回步骤402。如果用户想放弃记录的背景声频20，则沿“是”支路运行到步骤422。
在步骤422，背景声频恢复系统10从第一存储设备46中删除记录的背景声频20，并从相应的存储设备中删除任何实际声音低保真数据。步骤422后面接着步骤424，其中处理返回图11的步骤313。
背景声频恢复系统10可包括附加功能。例如，如果用户想浏览背景声频或文本数据36并应用包含于其中的口述命令，一次一个命令，背景声频恢复系统10可提示用户是否用户想将一个命令应用于文本数据的特别部分。换句话说，在每次检测命令后，用户可以决定是否将该命令应用于文本数据36的适当部分。
背景声频恢复系统10还具有增强回放性能，逐句地或逐段地或根据用户选择的文本数据36的特别部分回放实际背景声频。这样的增强回放性能会在每次回放后提示用户是否想再听文本数据36的选择的部分。其他增强回放性能包括使用话音合成器，用于由用户键入的文本或以其他方式输入的文本。
由本发明举例性实施例的上述说明显而易见会有许多其他修改和附加特征。因此，应该理解上述说明只是关于本发明举例性实施例的说明，可以做出各种变形而不会背离由下述权利要求限定的本发明的精神和范围。
权利要求
1．一种计算机可读介质，其上存有程序模块，所述程序模块包括指令，当由计算机执行指令时，完成下述步骤显示应用程序中的语音识别程序模块的非活动状态指示器；确定是否声频输入装置正接收声频；如果声频输入装置正接收到声频，存储该声频；确定是否已经发出激活语音识别程序模块的命令；以及如果启动语音识别程序模块的命令已经发出，为操作存储的声频数据而启动背景声频程序模块。
2．如权利要求1所述的计算机可读介质，其中存储声频数据的步骤包括在存储设备中存储声频数据。
3．如权利要求2所述的计算机可读介质，其中所述存储设备包括中央处理器的高速缓冲存储器。
4．如权利要求2所述的计算机可读介质，其中所述存储设备包括可改写存储设备。
5．如权利要求2所述的计算机可读介质，其中所述存储设备至少包括随机存取存储设备和硬盘中的一个。
6．如权利要求1所述的计算机可读介质，其中确定声频输入装置是否正产生声频信号的步骤包括确定麦克风是否正在检测声频数据的步骤。
7．如权利要求1所述的计算机可读介质，其中所述应用程序包括字处理程序。
8．如权利要求1所述的计算机可读介质，其中显示应用程序的非活动状态指示器的步骤包括在显示器上显示非活动状态图标。
9．如权利要求1所述的计算机可读介质，其中确定是否已经发出激活语音识别程序模块的命令的步骤包括检测来自命令输入装置的命令的步骤。
10．如权利要求9所述的计算机可读介质，其中所述命令输入装置至少包括声频输入装置、键盘接口、鼠标和触摸屏中的一个。
11．如权利要求1所述的计算机可读介质，其中所述启动用于处理文本数据的背景声频程序模块的步骤，包括步骤在显示器上显示图形用户界面；显示图形用户界面内的声频数据的选择列表。
12．如权利要求1所述的计算机可读介质，其中所述启动用于处理文本数据的背景声频程序模块的步骤包括将存储的声频数据转换成文本数据并在显示器上显示文本数据的步骤，所述文本数据包括显示成图形字符的文本应用程序命令。
13．如权利要求1所述的计算机可读介质，其中所述启动用于处理文本数据的背景声频程序模块的步骤，包括步骤将存储的声频数据转换成文本数据；在转换一部分存储的声频数据后应用在声频数据中出示的文本命令；在显示器上显示文本数据。
14．如权利要求1所述的计算机可读介质，其中所述启动用于处理文本数据的背景声频程序模块的步骤，包括步骤将存储的声频数据转换成文本数据；将文本数据插入由应用程序存取的打开的文件，所述文本数据包括显示成图形字符的文本应用程序命令。
15．如权利要求1所述的计算机可读介质，其中所述启动用于处理文本数据的背景声频程序模块的步骤包括从存储设备中，删除存储的声频数据的步骤。
16．如权利要求1所述的计算机可读介质，进一步包括将声频数据作为声频文件存储在存储设备中的步骤。
17．如权利要求16所述的计算机可读介质，进一步包括步骤将存储的声频数据转换成文本数据；在显示器上显示文本数据；以及输出作为声音的声频数据，该声音来自存储设备的声音文件。
18．如权利要求1所述的计算机可读介质，进一步包括步骤获得至少时间增量和文件大小增量中的一个，所述时间增量和所述文件大小增量对应于声频文件的大小。
19．如权利要求1所述的计算机可读介质，进一步包括步骤至少获得时间增量和文件大小增量中的一个，所述时间增量和所述文件大小增量至少对应包含文本数据和文本应用程序命令中的一个的文本文件的大小。
20．一种背景声频恢复系统，包括处理器；第一存储设备，用于存储应用程序和语音识别程序模块；显示器，连接于所述处理器，用于显示信息；输入装置，连接于所述处理器，用于处理显示在显示器上的选择的指示器；以及声频输入装置，连接于所述处理器；所述处理器，响应来自应用程序模块和语音识别程序模块的指令，并可操作地在所述显示器上显示所述语音识别程序模块的非活动状态的指示器；确定是否所述声频输入装置正接收声频；如果声频输入装置接收到声频，则存储该声频数据；将声频数据存储在第二存储设备中；确定是否已经发出激活所述语音识别程序模块的命令；以及如果已经发出激活所述语音识别程序模块的命令，启动处理存储的声频数据的背景声频程序模块。
21．如权利要求20所述的背景声频恢复系统，进一步包括随机输入接口，所述随机输入接口向所述语音识别程序转发由所述应用程序发出的命令。
22．如权利要求20所述的背景声频恢复系统，其中所述第二存储设备存储装置包括中央处理器的高速缓冲存储器。
23．如权利要求20所述的背景声频恢复系统，其中所述处理器进一步包括可操作地提供选择列表，所述选择列表包括所述处理器，处理器可操作至少下述步骤之一将存储的声频数据转换成文本数据；在所述显示器上显示所述文本数据，所示文本数据包括文本应用程序命令；将出示在存储的声频数据中的口述命令应用于所述文本数据；将文本数据插入由所述应用程序存取的打开文件；以及从记忆存储装置中删除存储的声频数据。
24．如权利要求20所述的背景声频恢复系统，进一步包括声频输出装置，用于回放存储在所述记忆存储装置中的声频。
全文摘要
一种背景声频恢复系统,显示应用程序中的语音识别程序模块的非活动状态指示器。当语音识别程序模块设置成非活动模式时,为防止丢失口述的语音,背景声频恢复系统确定声频输入装置是否正接收声频。如果声频输入装置接收到声频,背景声频恢复系统存储该声频数据,供用户以后检索。当用户发出命令激活声频识别程序模块时,背景声频恢复系统启动背景声频程序模块,处理在语音识别程序模块设置为非活动模式时记录的存储声频数据。
文档编号G10L15/28GK1292523SQ0013164
公开日2001年4月25日申请日期2000年10月6日优先权日1999年10月6日
发明者杰弗里·C·雷纳, 埃里克·拉克, 保罗·基扬·万·金, 戴维·艾伦·考尔顿申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杰弗里.C.雷纳;埃里克.拉克;保罗.基扬.万.金;戴维.艾伦.考尔顿
技术所有人：微软公司
我是此专利的发明人

上一篇：一种音乐节奏信号转换电路的联接方法
上一篇：数据再现装置的制作方法