用于具有用户可定义约束的小型语音识别的构造的嵌入式系统的制作方法_3

文档序号：8303515阅读：来源：国知局

换机(FST)。因此，FST网络是在主CPU上编译的，并且然后向下延伸以使FST解码器在DSP上运行，响应于可定制的触发短语输入动态运行的网络，从而提供定制特定短语的系统，其系统比运行于CPU上的初始系统小得多。对于DSP解码器，在一些实施例中，尽管CPU编译的网络不同时，代码可以相同。数据最初可被收集用于构建声学模型122，但在构建单个声学模型之后，语音识别管理器可根据需要建立多个不同的小的模型(网络状态125)。
[0037]在语音分析期间，DSP接收口语话语，其通过网络对其进行处理以获得分数。DSP解码器还对随机/诱发词语，例如，“狗”或“弹射器”等进行处理。如果DSP解码器无法识别用于通过网络的口语话语的路径，那么放弃该假设。如果口语话语和诱发词语使其通过网络，那么口语话语(作为触发词语)的分数应比诱发词语高得多，其分数差可指示系统已说出了触发词语，并使CPU被唤醒或再次变为激活状态。任何时间说出任何词语时，可运行诱发词语。在该唤醒模式下，DSP可对收听到的所有词语进行分析。诱发词语数量较少帮助处理运行的更快，例如，约100个诱发词语。可替换地，可将诱发短语丢弃，代替使用普通的语音模型，其在检测触发词语的准确性上属于中等。移除短语可减少存储器开销，但也会降低准确性。应注意的是，对DSP (或辅助处理单元)编程可取决于给定的电子装置的专用硬件和配置情况。例如，在移动电话中运行的语音识别管理器可具有不同于在平板电脑、台式计算机、遥控器、电器、汽车灯内操作的实施例的配置。
[0038]图5示出了在根据本文中的实施例的在计算机/网络环境中运行的语音识别管理器140的示例框图。在流程图的描述之后将对图5的计算机系统硬件情况进行更加详细的描述说明。
[0039]现在将通过图2至图4的流程图和示意图对与语音识别管理器140相关联的功能进行讨论。为了便于下文讨论，语音识别管理器140或其它适当的实体执行流程图中的步骤。
[0040]现在将对实施例进行更具体的描述。图2为示出了本文中公开的实施例的流程图。在步骤210中，语音识别管理器由电子装置的声控唤醒功能接收配置输入。配置输入包括触发短语。换句话说，用户访问唤醒定制菜单以设定特定短语(词语或一组词语)，并且键入该短语，或以其它方式选择定制短语。配置输入在电子装置的第一处理器上接收(配置输入被发送给电子装置的第一处理器)。电子装置还具有除了第一处理器之外的第二处理器。
[0041]在步骤220中，语音识别管理器创建与触发短语相对应的语音识别状态的网络，即，基于触发短语。利用第一处理器运行的第一语音识别引擎在第一处理器创建语音识别状态的网络。
[0042]在步骤230中，语音识别管理器将语音识别状态的网络从第一处理器转移至第二处理器，即，将语音识别状态的网络转移至在第二处理器上的或可访问第二处理器的存储器。
[0043]在步骤240中，语音识别管理器利用与触发短语相对应的语音识别状态的网络在第二处理器运行第二语音识别引擎。在第一处理器的第一语音识别引擎处于非激活状态的同时，第二处理器运行第二语音识别引擎。应注意的是，第一处理器或CPU可处于激活状态，但第一语音识别引擎相比而言处于非激活状态，或不对声音命令任务做出响应。因此，无论电子装置处于待机模式还是正在被使用(例如，阅读内容，查看信息等)激活，电子装置的声音命令模式都不会主动收听待运行的任务。在其它实施例中，CPU不需要完全是非激活的，而相对于诸如由与电子装置交互的用户使用激活时的功耗，可在减小的功率模式下运行。
[0044]图3至图4为示出了在本文中所公开的语音识别管理器140的附加和/或可替换的实施例和可选的功能的流程图。在步骤210中，语音识别管理器由电子装置的声控唤醒功能接收配置输入。配置输入包括触发短语。在电子装置的第一处理器上接收配置输入(该配置输入被发送给电子装置的第一处理器)。电子装置还具有除了第一处理器之外的第二处理器。
[0045]在步骤212中，语音识别管理器经由电子装置的用户界面接收作为文本输入的触发短语。例如，用户键入希望将电子装置唤醒的短语。
[0046]在步骤213中，语音识别管理器接收确认文本输入的口语话语。在文本输入充足时，语音识别管理器还可处理文本输入的口语话语以确保准确地识别。
[0047]在步骤215中，第一处理器为中央处理单元，第二处理器为数字信号处理器。在步骤216中，当第一处理器处于激活状态时，与第一处理器相比，第二处理器使用较少的功率。通过在较低功率的处理器上运行唤醒特征，电子装置可收听触发词语，而没有过快地使电池耗尽。在步骤217中，第一处理器和第二处理器共同位于移动电话内。
[0048]在步骤220中，语音识别管理器创建与触发短语相对应的语音识别状态的网络。利用第一处理器运行的第一语音识别引擎在第一处理器创建语音识别状态的网络。
[0049]在步骤230中，语音识别管理器将语音识别状态的网络从第一处理器转移至第二处理器。在步骤232中，语音识别管理器将语音识别状态转移至数字信号处理器。
[0050]在步骤240中，语音识别管理器利用与触发短语相对应的语音识别状态的网络在第二处理器运行第二语音识别引擎。第二处理器运行第二语音识别引擎，同时在第一处理器的第一语音识别引擎处于非激活状态。
[0051]在步骤242中，在第一语音识别引擎处于非激活状态时，第二语音识别引擎利用第二处理器持续分析口语话语。在识别出包括触发短语的特定口语话语之后，语音识别管理器向第一处理器发送信号以将第一语音识别引擎返回至激活状态。
[0052]在步骤243中，第一处理器对后续声音命令做出响应。
[0053]在步骤246中，第一处理器处于非激活声音命令模式中，并且在响应于识别出包括触发短语的特定口语话语之后，使电子装置从非激活声音命令模式切换至激活声音命令模式。
[0054]在步骤248中，在电子装置处于待机模式时，第二处理器运行提供声控唤醒功能的第二语音识别引擎。
[0055]在其它实施例中，可在远程服务器上创建而不是在电子装置中创建新的状态序列和较小的声学模型。在这种实施例中，电子装置可将新的触发短语传输至服务器或云。新的触发短语可经由电子装置而被录入作为文本输入。远程服务器然后创建与触发短语相对应的语音识别状态的网络，并且然后将创建的状态序列和声学模型传输至电子装置，其然后可由辅助处理器或DSP使用。
[0056]继续参照图6，以下讨论提供了指示如何执行如上所述的与语音识别管理器140相关联的功能的基本实施例。然而，应注意的是，用于执行语音识别管理器140的实际配置可随着各个应用的不同而不同。例如，计算机系统149可包括执行如本文中所描述的处理的一个或多个计算机。
[0057]在不同的实施例中，计算机系统149可以是任何类型的装置，包括但不限于手机、个人计算机系统、台式计算机、膝上型电脑、笔记本电脑或上网本、主计算机系统、手持式计算机、工作站、网络计算机、路由器、网络交换机、桥、应用服务器、存储装置、消耗电子装置，例如照相机、摄像机、机顶盒、移动装置、电子游戏机、手持式电子游戏机，或者总体来说任何类型的计算或电子装置。
[0058]示出的计算机系统149被连接至用于为用户136显示图形用户界面133的显示监视器130以利用输入装置135进行操作。贮藏库138可选地被用于存储处理之前和之后的数据文件和内容。输入装置135可包括一个或多个装置，例如，键盘、电脑鼠标、麦克风等。
[0059]如图所示，本示例的计算机系统149包括耦接存储系统141、处理器142、1/0接口144和通信接口 145的互连线路143。
[0060]I/O接口 144为外围装置提供了连接，例如，包括电脑鼠标、键盘、移动光标的选择工具、显示屏等的输入装置135。
[0061]根据本文中的实施例，通信接口 145使计算机系统149的语音识别管理器140通过网络进行通信，并且如果需要，检索创建视图、处理内容、与用户通信等所需的任何数据。
[0062]如图所示，存储器系统141被编码具有支持上文所述和下文进一步讨论的功能的语音识别管理器140-1。根据本文中描述的不同的实施例，语音识别管理器140-1 (和/或如本文中所述的其它资源)可被体现为软件代码，例如，支持处理功能的数据和/或逻辑指令。
[0063]在一个实施例的操作期间，处理器142通过利用互连线路143访问存储系统141以启动、运行、执行、解释或以其它方式执行语音识别管理器140-1的逻辑指令。语音识别管理器140-1的运行生成语音识别管理器处理140-2中的处理功能。换句话说，语音识别管理器处理140-2代表在计算机系统149中的处理器142之内或之上执行的语音识别管理器140的一个或多个部分。
[0064]应注意的是，除了执行如本文中讨论的方法操作的语音识别管理器处理140-2之夕卜，本文中的其它实施例包括语音识别管理器140-1本身(即，未运行的或未执行的逻辑指令和/或数据)。语音识别管理器140-1可被存储在非易失性有形计算机可读存储介质中，包括诸如软盘、硬盘、光学介质等的计算机可读存储介质。根据其它实施例，语音识别管理器140-1还可被存储在存储式系统中，例如，固件、只读存储器(ROM)中，或者，如在这个示例中，存储为存储器系统141内的可执行代码。
[0065]除了这些实施例之外，还应注意的是，本文中的其它实施例包括在处理器142中的语音识别管理器140-1的运行，如语音识别管理器处理140-

完整全部详细技术资料下载

当前第3页1 2 3 4