遍历基于图的网络的方法和系统的制作方法

文档序号：2824018阅读：664来源：国知局

专利名称：遍历基于图的网络的方法和系统的制作方法
遍历基于图的网络的方法和系统
背景技术：
语音特征提取器已发展成生成表示音频流的特征向量流。基于图的语音识别网络已发展成使基于语音的特征向量流与书面语言字词序列相关联。推断引擎已发展成响应于基于语音的特征向量流迭代地遍历基于图的语音识别网络的状态，以标识对应字词序列。语音识别系统已发展成使用包括大词汇量连续语音识别(LVCSR)系统的加权有限状态变换器(WFST)。基于状态的网络遍历技术已按照多线程方式以及单指令多数据(SIMD)方式实现。语音识别网络的状态可包括自循环，其通常被视为至对应状态的附加传入循环。在多线程和SIMD处理环境中，甚至在其中一状态仅包括一个传入弧加自循环时，同步化由此也可能是必要的。此外，基于状态的SIMD遍历技术可能不能充分利用SIMD处理巷道，其可导致向量效率低下。这可能抵消SIMD处理的好处。已为多处理器系统开发了通用动态任务调度技术。这种通用技术对于诸如语音识别网络遍历的一些应用中，可能并非是最优的。附图简述

图1是基于图的网络和推断引擎的框图。图2是遍历基于图的网络的方法的处理流程图。图3是图1系统的框图，其中该推断引擎包括活动弧遍历系统。图4是处理活动弧的方法的处理流程图。图5是更新基于图的网络的目标状态的方法的处理流程图。图6是另一基于图的网络和推断系统的框图，其中自循环信息在对应状态的传出弧内建模。图7是当在网络弧的至少一部分内建模自循环信息时遍历网络的方法的处理流程图。图8是当网络的一部分弧的固有似然信息被修改成包括自循环固有似然信息时遍历网络的方法的处理流程图。图9是当网络的弧包括用以保持自循环固有似然信息的多个字段以及自循环固有似然信息的存在性的指示时遍历网络的方法的处理流程图。图10是隐式高速缓存感知环境的框图，其包括用以将任务队列中的任务排序的队列管理器，以及用以在多个处理线程中对来自任务队列的任务进行调度的动态任务管理
ο图11是显式高速缓存感知环境的框图，其包括用以将数据位置信息与数据对象相关联的高速缓存感知系统，以及用以至少部分地基于数据位置信息向处理线程分配任务的动态任务管理器。图12是基于数据位置信息将任务排序的方法的处理流程图。
图13是至少部分地基于数据位置信息向处理线程分配任务的方法的处理流程图。图14是配置成遍历基于图的网络的计算机系统的框图。在附图中，附图标记的最左边的一个或多个数字标识该附图标记首次出现的附图。
具体实施例方式图1是系统100的框图，系统100包括基于图的网络102和推断引擎104。网络102包括多个状态106和状态106之间的弧108，从而将与网络状态序列的弧 108相对应的输入标签转换成与语法元素序列的弧108相对应的输出语法元素列表。推断引擎104被配置成响应于特征向量110的流迭代地遍历网络102。特征向量110可表示连续语音、诸如视频帧序列或视频剪辑的图像序列、以及连续文本的一个或多个。特征向量100可从一个或多个连续和/或离散的信号生成，其可包括嵌入于声信号中的语音、嵌入于视频信号中的可视图像、以及嵌入于计算机可读信号中的文本字符和格式化信息的一个或多个。基于音频的特征向量110可表示话语、词的一部分、或者声音。基于视频的特征向量110可表示动作、色彩、对象，和/或帧之间这些的改变中的一个或多个。各个特征向量110可包括用以保持与信号的对应部分或帧相关联的信息的多个字段。语法可对应于书面语言，其可包括人类可读语言和计算机可读语言中的一种或多种。系统100可对应于语音和/或视频识别系统以将音频和/或视频转换成书面语言。替代地或者另外地，系统100可对应于用以从第一书面语言翻译到第二书面语言的语言翻译系统。第一和第二书面语言的一种或多种可对应于口头语言和/或计算机可读语
曰O推断引擎104可被配置成响应于特征向量110的流来标识和迭代地优化状态106 的一个或多个序列及其对应弧108，在本文中这两者被合称为路径。在给定迭代期间被标识成潜在地对应于特征向量流110的状态106和/或弧108在本文中被称作该迭代的活动状态106和活动弧108。在给定迭代期间，活动状态106的集合可被标识成是通过活动弧108的多个集合可达的。换言之，多条路径可包括沿着弧108的非相同集合遍历的状态106的公共集合。推断引擎104可被配置成将概率度量与状态106和弧108相关联，以表示状态106 和弧108对应于特征向量流110的似然性。推断引擎104可被配置成用一个或多个数据对象表示状态106和/或弧108，且被配置成当网络102被遍历时更新对应数据对象。状态106和/或弧108的处理可包括处理对应数据对象。弧108起始的状态106在本文中被称作起始状态106。弧108指向的状态106在本文中被称作目标状态106。系统100可对应于用以从相对大的词汇表中识别字词的大词汇量连续语音识别 (LVCSR)，其可包括字词间的指数置换以及未知边界分段。
给定可能的字词序列集合W时，所观测的音频特征0序列的最大可能字词序列欢可按照以下数学方式表示
权利要求
1.一种将网络的弧的输入标签转换成所述弧的输出语法元素的列表的方法，包括响应于特征向量流迭代地遍历网络，从而将与所述网络的状态序列相对应的所述网络的弧的输入标签转换成与语法元素序列相对应的所述弧的输出语法元素的列表；以及基于向哪个处理线程分配了与所述数据对象相关联的在先任务来将与数据对象相关联的任务排序。
2.如权利要求1所述的方法，其特征在于，所述迭代地遍历包括传播所述网络的活动弧，包括响应于特征向量更新所述活动弧的目标状态。
3.如权利要求2所述的方法，其特征在于，所述活动弧的所述传播包括检索与所述活动弧的起始状态相关联的信息，其包括与所述起始状态相关联的似然度量；用所述对应起始状态的所述似然度量和所述特征向量来更新所述活动弧；以及根据所更新的活动弧来更新所述对应的目标状态。
4.如权利要求1所述的方法，其特征在于，还包括在所述对应状态的一个或多个传出弧内建模与多个所述状态的各个状态相对应的自循环信息。
5.如权利要求1所述的方法，其特征在于，所述弧包括固有似然信息，其中所述弧的至少一部分还包括自循环固有似然信息，且其中遍历包括标识活动弧的集合；至少部分地基于对应自循环固有似然信息来更新包括所述自循环固有似然信息的所述活动弧的集合的至少一个子集的累积似然信息；在更新所述累积似然信息之后的第一传播阶段期间，传播所述活动弧集合的累积似然 fn息；在所述第一传播阶段之后的第二传播阶段中将累积似然信息传播给新激活弧，其中所述新激活弧包括在所述第一传播阶段期间更新的一个或多个状态的一个或多个传出弧；修改所述活动弧的集合以包括所述新激活的弧，并略去具有低于阈值的累积似然值的弧；以及对于经修改的活动弧集合，重复所述更新、所述第一传播阶段、以及所述第二传播阶段。
6.一种用于将网络的弧的输入标签转换成所述弧的输出语法元素的列表的系统，包括用于响应于特征向量流迭代地遍历网络，以将与所述网络的状态序列相对应的所述网络的弧的输入标签转换成与语法元素序列相对应的所述弧的输出语法元素的列表的装置；以及用于基于向哪个处理线程分配了与所述数据对象相关联的所述在先任务来将与数据对象相关联的任务排序的装置。
7.如权利要求6所述的系统，其特征在于，所述用于迭代遍历的装置包括用于传播所述网络的活动弧的装置，其包括用于响应于特征向量更新所述活动弧的目标状态的装置。
8.如权利要求7所述的系统，其特征在于，所述用于传播所述活动弧的装置包括用于检索与所述活动弧的起始状态相关联的信息的装置，包括与所述起始状态相关联的似然度量；用于用所述对应起始状态的所述似然度量和所述特征向量来更新所述活动弧的装置；以及用于根据经更新的活动弧来更新所述对应目标状态的装置。
9.如权利要求6所述的系统，其特征在于，还包括用于在所述对应状态的一个或多个传出弧内建模与多个所述状态的各个状态相对应的自循环信息的装置。
10.如权利要求6所述的系统，其特征在于，所述弧包括固有似然信息，其中所述弧的至少一部分还包括自循环固有似然信息，且其中用于遍历的装置包括用于标识活动弧的集合的装置；用于至少部分地基于对应自循环固有似然信息来更新包括所述自循环固有似然信息的所述活动弧的集合的至少一个子集的累积似然信息的装置；用于在更新所述累积似然信息之后的第一传播阶段期间，传播所述活动弧的集合的累积似然信息的装置；用于在所述第一传播阶段之后的第二传播阶段中将累积似然信息传播给新激活弧的装置，其中所述新激活弧包括在所述第一传播阶段期间更新的一个或多个状态的一个或多个传出弧；用于修改所述活动弧集合以包括所述新激活的弧，且略去具有低于阈值的累积似然值的弧的装置；以及用于对于所修改的活动弧集合，重复所述更新、所述第一传播阶段、以及所述第二传播阶段的装置。
全文摘要
一种方法和系统将与网络状态序列的网络相对应的弧的输入标签转换成与语法元素序列相对应的弧的输出语法元素的列表。该网络可包括与加权有限状态机变换器(WFST)组合的多个语音识别模块。遍历可包括活动弧遍历，并且可包括活动弧传播。可并行处理多个弧，包括始自多个源状态以且指向公共目标状态的弧。与状态相关联的自循环可在状态的传出弧内建模，其可减少同步操作。可相关于高速缓存数据位置来将任务排序，从而至少部分地基于与对应数据对象相关联的另一任务是否先前已被分配给该线程来将任务与处理线程相关联。
文档编号G10L15/02GK102110437SQ20101061010
公开日2011年6月29日申请日期2010年12月14日优先权日2009年12月14日
发明者C·J·休斯, K·柳, Y-k·陈申请人:英特尔公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：K·柳;C·J·休斯;Y-K·陈
技术所有人：英特尔公司
我是此专利的发明人

上一篇：一种半监督的发音模型建模系统及方法
上一篇：一种室外环境噪声在室内空间的抑制方法