针对多个模式的联合解码使用多模式维特比算法的系统和方法

文档序号:2824879阅读:166来源:国知局
专利名称:针对多个模式的联合解码使用多模式维特比算法的系统和方法
针对多个模式的联合解码使用多模式维特比算法的系统和
方法
背景技术
在每天的电话/移动会话中,会话中的收听者通常会由于他们无法理解说话者语音的特定部分而请说话者重复语音的特定部分。这种情形在有严重影响语音可辨度的背景噪声的情况下更为常见。尤其在有重/突发背景噪声的情况下,语音识别系统、设备和方法可以利用这种重复的信息,以针对各种应用,更好地辨别语音。一些语音识别系统,如自动语音识别(ASR)系统,在测试和训练条件可兼容时工作良好。ASR系统的示例可以是用于航空公司的自动呼叫中心的语音识别系统。许多语音识别系统(包括ASR系统)存储包括表示最可能使用的语音部分的数据的训练数据。训练数据不受周围噪声、不同的说话者口音、或对于语音数据的任何其他负面音频效果的影响。 然而,真实测试环境不同于训练条件。诸如加性噪声、回声和说话者口音之类的各种因素会影响许多真实测试环境中的语音识别性能。由于ASR可以表征为统计模式识别问题,如果测试模式不同于用于训练模型的任何模式,则会出现错误。已经提出了各种增强ASR技术中的鲁棒性的方式,包括(i)降低模型的可变性,或者(ii)修改统计模型参数以适合噪声环境。然而,在极高噪环境或突发错误信道的情况下,如在可能丢弃分组的分组通信中,语音识别系统可能会受益于采用使用重复发音来准确地解码语音的方案。

发明内容
本申请公开了使用多模式维特比算法检测多个模式下的信号的系统、设备和方法。本公开的一个实施例可以是一种接收针对K个信号重复中的每一个的多个时序信号观测值集的方法。进一步,每个信号观测值集与具有时间索引点的K维时间网格的相应维度相关联。此外,在多个时间索引点中的每个时间索引点处,利用处理器计算针对隐式马尔科夫模型(HMM)状态集中的每个状态的状态成本度量。此外,针对状态集中的每个状态,针对给定的时间索引点,状态成本度量计算提供了最可能前驱(predecessor)状态和相应的最可能前驱时间索引点。在一个实施例中,该方法包括确定最终状态的成本度量和终端时间索引点。这也可以被称为通过相应的HMM生成观测值的累积概率测量。因而,一些方法还包括针对多个HMM中的每一个HMM,在终端时间索引点处确定最终状态的成本度量,然后选择最小成本度量和相应的HMM。然后,相应的HMM用于标识该模式(例如,该模式可以是语音识别系统中的词)。一些方法还可以包括使用所计算的状态成本度量来确定状态序列,以及确定该HMM的相应累积概率测量。此外,一些方法包括针对多个时间索引点,重复计算状态集中的每个状态的状态成本度量,以及针对多个HMM,确定最可能序列和相应的累积概率测量。之后,该方法可以针对多个HMM,基于相应的累积概率测量或成本度量来标识最可能HMM。该方法还可以包括 针对多个时间索引点中的给定时间索引点,通过在每个可能的前驱时间索引点处,计算与每个可能的先前状态相关联的成本度量,以及选择每个状态的最低成本度量,来确定状态集中的每个状态的状态成本度量。在一些实施例中,针对给定的可能前驱状态,状态成本度量仅基于与在从给定前驱时间索引点移到多个时间索引点中的给定时间索引点时递增的维度相关联的观测值。此外,一些方法可以包括通过在终端时间索引点处,标识最终状态处的最低状态成本度量, 来确定最可能状态序列。可以使用多个时间索引点,以限制所使用的时间维网格中的点,并且可以关于与穿过K维空间的对角线相距的预定距离来确定多个时间索引点。预定距离可以基于观测值序列的各个持续时间之差。该方法可以包括基于与所有候选前驱时间索引点相关联的所有状态的状态成本度量、从每个候选前驱时间索引点的每个状态到给定状态转变的概率、从相应候选前驱时间索引点转变的相应概率、以及从状态集中的状态发射的观测值的联合概率,来计算给定状态的给定状态成本度量。所确定的状态序列还可以确定观测值集的校准(alignment)。这里所描述的一些实施例可以采用产品形式,包括其上存储有指令的计算机可读介质,如固态存储器、压缩盘、数字视频盘ROM、磁存储介质等,如果由计算设备执行该指令, 则使计算设备执行包括以下的操作从存储器中获取针对K个信号重复中的每一个的K个时间序列信号观测值集,其中每个信号观测值集与具有时间索引点的K维时间网格的相应维度相关联;从存储器中获取针对多个HMM中的每一个HMM的参数集;在多个时间索引点中的每个时间索引点处,针对给定HMM状态集中的每个状态来计算状态成本度量,其中,针对状态集中的每个状态,针对给定的时间索引点,状态成本度量计算提供了最可能前驱状态和相应的最可能前驱时间索引点;确定针对多个HMM中的每一个HMM的累积概率测量; 以及确定多个HMM中的最可能HMM。在其他实施例中,该设备包括执行存储在存储器中的软件应用的处理器,软件指令包括在多个时间索引点的每个时间索引点处,计算针对给定HMM状态集中的每个状态的状态成本度量,其中,针对状态集中的每个状态,针对给定的时间索引点,状态成本度量计算提供了最可能前驱状态和相应的最可能前驱时间索引点;可选地,使用所计算的状态成本度量来确定状态序列,确定针对多个HMM中的每一个HMM的相应的累积概率测量;以及确定多个HMM中的最可能HMM。在一些实施例中,该设备还包括存储器,用于存储针对K个信号重复中的每一个的、多个时间序列信号观测值集的数字表示,其中每个数字观测值集与具有时间索引点的k 维时间网格的相应维度相关联;以及用于存储针对多个HMM中的每一个HMM的参数集。在其他实施例中,该设备还包括音频接收机,用于接收针对K个信号重复中的每一个的多个时序音频信号观测值集,其中,每个音频信号观测值集与具有时间索引点的k 维时间网格的相应维度相关联;以及用于将针对K个信号重复中的每一个的多个时序音频信号观测值集转换为针对K个信号重复中的每一个的多个时序模拟电信号观测值集。在其他实施例中,该设备还包括模拟到数字转换器,用于将针对K个信号重复中的每一个的多个时序模拟电信号观测值集转换为针对K个信号重复中的每一个的多个时序信号观测值集的数字表示。以上概述仅是示例性的,并不意在进行任何限定。除了上述示意性的方面、实施例和特征之外,其他方面、实施例和特征也将通过参考附图和以下的具体实施方式
而显而易见。


图1是示例语音识别系统的隐式马尔可夫模型的示例。图2示出了包括多模式维特比算法的方案的示例性语音识别系统。图3是使用多模式维特比算法的示例语音识别系统的功能框图。图4是描述了使用多模式维特比算法来解码由语音识别系统接收的多语音发音中的语音的示例方法的示例流程图。图5是在多模式维特比算法中使用K = 2个语音模式来解码语音的示例时间路径。图6是示出了在多模式维特比算法中使用K = 2个语音模式的最优状态序列和最优时间路径的三维网格。图7是示出了被设置用于使用多模式维特比算法的语音识别系统的示例计算设备700的方框图。图8是使用多模式维特比算法从多个信号观测值中检测信号的示例方法800的流程图。
具体实施例方式在以下详细说明中,参考了作为详细说明的一部分的附图。在附图中,类似符号通常表示类似部件,除非上下文另行指明。
具体实施方式
部分、附图和权利要求书中记载的示例性实施例并不是限制性的。在不脱离在此所呈现主题的精神或范围的情况下,可以利用其他实施例,且可以进行其他改变。应当理解,在此一般性记载以及附图中图示的本公开的各方案可以按照在此明确和隐含公开的多种不同配置来设置、替换、组合、分割和设计。这里所描述的是针对多模式的联合解码使用多模式维特比算法的系统、设备和方法。通常,这里所描述的实施例包括使用多模式维特比算法(MPVA)的鲁棒语音识别技术。考虑到与人类电话通信的类似性,由于收听者无法理解说话者,收听者可以请说话者重复他们语音的特定部分。这种情形在有严重影响语音可辨度的背景噪声的情况下更为常见。在极高噪环境或突发错误信道的情况下,如在可能丢弃分组的分组通信中,语音识别系统可能会受益于采用在实现语音识别技术的过程中使用重复发音的方案。尽管MPVA可用于语音识别和方法,MPVA还可以用于从多个模式中检测信号的任何系统和方法。此外,可以在包括移动电话技术、命令和控制应用、火车站中的语音识别、军事应用、机器人技术、发音估计及许多非语音应用的各种应用中使用这些实施例。许多应用可能需要准确辨识在有显著的不利背景噪声的情况下的说话者的语音。例如,移动电话中的语音识别系统在有像车辆噪声、马路噪声等的瞬态噪声的情况下并不会工作良好。实施例可以允许移动电话用户重复用户想要呼叫的人的名字,从而尤其在有重/突发噪声的情况下提高语音识别性能。其他实施例可以包括在诸如飞行员想要给出指令的嘈杂的驾驶舱之类的命令和控制应用中。类似地,实施例可以用于诸如在其中许多人在背景中说话(被称为串音噪声)的火车站之类的嘈杂环境中。在这种军事应用中,士兵可以与包括语音识别系统的自动化设备进行通信。因而,语音识别系统对在由于来自机枪的子弹、来自大炮的炮壳等而导致的高度环境噪声的战场上的士兵的语音进行解码。此外,实施例可以用于机器人工业应用,其中机器人可以在工厂或其他工业环境中使用来自人类控制者的语音的多次重复来学习/识别命令。其他实施例可以应用于对来自多个模式的发音进行联合估计的发音估计。实施例还可以包括在广泛使用的各种应用,如语音识别、生物信息学、远程通信、语言学、图像处理、关键词定位等,以及可以使用动态编程(例如,维特比算法)的任何应用。隐式马尔可夫模型(HMM)和动态编程可以用于许多语音识别技术。HMM是建模的系统被假设为具有未观测状态的马尔可夫过程的统计模型。马尔可夫过程是无记忆系统的数学模型,它在任何给定时刻的给定未来状态的似然概率仅取决于其当前状态,而不取决于任何过去状态。在常规马尔可夫过程中,状态对于观测者是直接可见的,因而状态变换概
率是唯一参数。马尔可夫过程的示例可以是掷硬币的结果序列。掷硬币的结果可以被建模为随机变量。针对掷硬币的随机变量,存在两个同样可能的结果,正和反各具有0.5的概率。随机变量的所有结果的概率之和为1。此外,随机过程是随机变量的序列,因而,掷硬币的结果序列可以被建模为随机过程。此外,掷硬币的结果并不取决于先前掷硬币的结果,因而可以被描述为无记忆的。因此,掷硬币的结果序列可以被建模为马尔可夫过程。不是无记忆的随机过程的示例可以是从袋中无置换地拾取彩色弹珠的结果。例如,袋内可以包含五个黑弹珠和五个白弹珠。从袋中的第一拾取为黑弹珠的概率是0.5。然而,从袋中的第二拾取为黑弹珠的概率取决于第一拾取的结果。如果第一拾取为黑弹珠,则第二拾取为黑弹珠的概率为4/9 = 0. 44。相反,如果从袋中的第一拾取为白弹珠,则第二拾取为黑弹珠的概率为5/9 = 0. 56。因此,拾取弹珠的特定结果的概率取决于过去的结果。 因而,这种随机过程不是无记忆的。不同于马尔可夫过程,在隐式马尔可夫模型中,状态不是直接可见,而是取决于状态观测输出事件。每个状态具有保持该状态或变换为另一状态的变换概率。此外,每个状态针对每个输出事件具有发射概率。因此,由HMM生成的输出事件序列给出了关于状态序列的一些信息。术语“隐式”指模型经过的状态序列,并不是指模型的参数(如,变换概率或发射概率)。即使确切地知道模型参数,但因为状态对于观测者来说并不可见,该模型仍然是“隐式”的。隐式马尔可夫模型尤其以它们在时间模式识别中的应用(如语音、手写、 手势识别、词性标注、乐谱跟踪、局部放电和生物信息学)而广为人知。 图1是示例语音识别系统的隐式马尔可夫模型100的示例。HMM100可以对例如航空公司的自动呼叫中心的潜在呼叫者的语音发音进行建模。示例语音识别系统可以用于辨别呼叫者发音中的航班号。此外,航空公司可以将所说的词“Five”作为航班号中的数字。 因而,用于语音识别系统中的HMM可以包括“Five”的音素作为状态。音素是用于形成发音间有意义对比的声音的最小分割单元。例如,“F”、“i”、“Ve”是词“Five”中包含的三个不同音素。因而,图1示出了 HMM的一部分,显示了表示词“Five”中的前两个音素“F”和 "i" (105,120)的两个状态。此夕卜,HMM具有观测到的输出“F”和“i”(160,135)。HMM 100 还示出了从一个状态变换到下一个状态(115,170,180)或保持在该状态(110,115)的状态变换概率,以及从每个状态到观测到的输出(140,145,150和15 的发射概率。发射概率是在给定HMM 100的状态下观测事件的似然概率。所有变换到某一状态的变换概率(110,170,115,125)之和以及从某一状态变换出去的变换概率(110,115,125,180)之和等于1。 此外,发射到观测到的输出的发射概率之和也等于1 (140,145,150,155)。图1中的HMM 100 可以仅是由语音识别系统使用的更大HMM的一部分。因而,可以有如由概率为0. 3的变换 170所指示的从不同于“i”的状态到状态“F”的状态变换。此外,可以有如由概率为0.3的变换180所指示的从“i”到不同于“F”的状态的状态变换。通常,当实施应用时,找出HMM中的最可能状态序列是有用的。许多不同方法可以用于找出HMM中的最可能状态序列。动态编程是通过以递归方式将复杂问题分为较简单的子问题来简化复杂问题的数学优化方法,并且可以用于找出HMM中的最可能状态序列。此外,维特比算法是用于找出产生隐式马尔可夫模型中的观测事件序列的最可能隐式状态序列(称为维特比路径)的示例动态编程算法。这里所描述的实施例利用多模式维特比算法(MPVA),这是可以用于许多解码和信号检测应用(可以分析多个模式)的新型动态编程方法。这种应用之一是语音识别系统。 在示例性语音识别系统中,对多个发音进行联合解码,以识别语音模式。本领域技术人员将会理解,MPVA还可以用于可以使用动态编程方法的任何应用。图2示出了使用MPVA的示例性语音识别应用200。呼叫者210可以通过无线通信网络220,使用移动电话215与航空公司自动呼叫中心225联系并通信。自动呼叫中心可以具有语音识别系统255,用于接收来自航空公司顾客(如呼叫者210)的呼叫。此外,例如,语音识别系统可以向呼叫者210请求航班号,以为呼叫者210访问航班信息。然后,呼叫者210可以说出航班号的数字,如“Five”。语音识别系统255可以请求呼叫者210重复发音“Five”。可以通过图2中的图形表示(230J40)所示的音频信号来表示航班号的数字 “Five”的每个发音。在两个发音的图形表示O30,240)中,示出了具有多于一个发音的语音识别系统 255对呼叫者210给出的航班号进行解码的益处。由于呼叫者210的机场周围205的环境噪声,突发噪声会影响每个发音030,240)中音频信号的不同部分045,250)。因此,通过对单个发音的音频信号进行处理,语音识别系统255会对呼叫者210所说的航班号进行不准确地解码。然而,通过处理包含相同音素序列(例如,航班号)的两个发音Ο30,240),语音识别系统255可以接收两个音频信号,其中突发噪声影响了每个信号的不同部分(Μ5, 250)。因此,语音识别系统可以使用MPVA,利用两个重复发音,对呼叫者210所说的语音进行准确解码。语音识别系统可以使用HMM来帮助从一个或多个接收到的音频信号中解码语音。 通过语音识别系统接收到的每个接收音频信号可以采用许多不同形式之一。处理后的信号可以被分析为用于语音识别系统中的HMM的观测到的输出的时间序列,或简单地,观测值的时间序列。音频信号的一个示例性处理可以是针对音频信号计算梅尔倒谱系数(MFCC)。 在一些实施例中,可以针对每20毫秒的采样音频数据来计算MFCC矢量。在一些实施例中, 可以使用重叠间隔来计算MFCC,如通过对20毫秒的音频数据进行处理,然后平移10毫秒, 并对该间隔中的音频数据进行处理,依次类推。可以通过对音频信号的分贝谱进行处理 (如采用傅立叶变换)来找出倒谱系数。MFCC可以是语音识别系统中音频信号的许多不同特征或观察值之一。特征是声音现象的单独可测量启发式特性,可以作为语音识别系统中 HMM的观测到的输出。特征或观测值可以包括音频信号的一部分的MFCC、谱密度、谱能量、噪声比、声长、相对功率、滤波器匹配等。图3是使用多模式维特比算法解码器的示例语音识别系统的功能框图。示例语音识别系统300可以用于航空公司自动呼叫中心。自动呼叫中心可以向呼叫者请求航班号, 以访问所请求的信息。此外,自动呼叫中心可以请求呼叫者多次重复航班号,以确保对呼叫者语音的准确识别。当呼叫者说出航班号时,如“Five”或“Nine”,语音识别通过使用接收机310来接收表示呼叫者的发音的音频信号。接收机310可以是麦克风、声换能器、或将音频信号转换为模拟电信号的一些其他音频接收机。接收机可以将模拟电信号转发至模拟到数字转换器 (ADC)315,以将模拟电信号变换为表示该模拟电信号(进而该音频信号)的数字数据。模拟到数字转换器315可以将数字数据存储在系统存储器320的信号存储部分330中。当然,可以通过多种方式来提供采样音频数据可以通过手机和/或公共交换电话网络的一部分、或者通过与计算机工作站相关联的麦克风和ADC来提供接收机和ADC,因而它们并不是系统的必要组件。此外,处理器350可以是示例语音识别系统的一部分。处理器350可以包含MFCC 子处理器360,该MFCC子处理器360可以访问和处理所存储的音频信号的数字数据,以获得梅尔倒谱系数(MFCC),作为语音识别系统的特征矢量。然后,词或词组的给定发音的特征矢量时间序列将形成该给定发音的观测值的时间序列。处理器还可以包括MPVA解码器370,该MPVA解码器370接收MFCC特征矢量形式的观测值,并访问系统存储器320的HMM存储部分340中的HMM数据。HMM数据包括通常表示为λ的已知参数。 MPVA解码器370执行MPVA,以对从存储器设备320获取的多个发音中的语音进行解码。此外,存储器设备320可以存储可以控制处理器350上MPVA的执行的程序指令。在一些实施例中,系统可以可选地包括数字到模拟转换器(DAC)375。DAC 375将表示解码语音的数字数据变换为模拟电信号。此外,DAC将模拟电信号转发至系统输出接口 380,该系统输出接口 380可以是将模拟电信号转换为表示解码语音的音频信号的扬声器或一些其他声换能器设备。因此,语音识别系统300可以向呼叫者叙述音频信号,以便呼叫者验证解码语音。如果呼叫者指示解码语音不准确,则语音识别系统可以请求呼叫者清楚地表达另一重复发音,使得MPVA可以有更多数据来对呼叫者的语音进行准确解码。图4是描述了使用多模式维特比算法来对由语音识别系统接收到的多个语音发音中的语音进行解码的示例方法的示例流程图400。解码语音的预备性步骤是选择要用于语音识别的音频信号的特征405。语音发音的特征的示例可以是语音发音的梅尔倒谱系数。另一预备性步骤可以是训练包括观测到的输出的多个状态、状态变换概率和发射概率密度函数的一个或多个HMM 410。可以通过分析无噪语音来开发ΗΜΜ。此外,可以训练 ΗΜΜ,以对具有不同口音(美语、英语等)的、有男有女的多个不同说话者的语音发音“Voice Dialer”进行分析。这种语音发音可以包括8个状态,每个状态对应于语音发音中的音素, “V” “oi” “ce” “D” “i” “a” T “er”。在训练这种HMM期间,可以找出语音发音“Voice Dialer"的状态变换和发射概率。在一个实施例中,在系统中使用多个HMM 针对要标识的每个模式都有一个单独的HMM。在语音识别系统中,每个HMM对应于不同的词(或词组)。 系统可以通过训练导出HMM,或可以将HMM提供给系统。
实施示例方法400的语音识别系统可以接收表示来自呼叫者415的重复语音发音的多个音频信号。多个音频信号可以由音频接收机、麦克风、声换能器或一些其他设备接收。示例方法400中的另一步骤可以是将每个音频信号处理为每个音频信号的数字数据表示425。处理可以包括通过音频接收机、麦克风、声换能器等将每个音频信号变换为模拟电信号。之后,可以使用模拟到数字转换器,将每个模拟电信号转换为数字数据。数字数据可以存储在语音识别系统的存储器中。在其他实施例中,可以向系统提供数字化音频数据采样,并存储于存储器中。模拟到数字转换和获得采样音频数据的相关方式和方法对于本领域技术人员来说是已知的,并不重要。此外,语音识别系统可以基于表示与发音相对应的每个音频信号的数字数据来计算梅尔倒谱系数(MFCC)430。处理器或子处理器可以访问系统存储器中的数字数据,以计算 MFCC0 MFCC是要由MPVA使用的观测值的时间序列。此外,MPVA可以使用除MFCC之外的不同特征,如LPCC、声长、噪声比等。LPCC表示使用线性预测模型信息的压缩形式的数字语音信号的谱包络。在另一步骤440中,语音识别使用系统存储器中存储的一个或多个HMMJfMPVAS 用于MFCC。可以通过在执行软件指令的处理器中具体化的MPVA解码器来实现MPVA。当应
用MPVA时,语音识别系统接收分别具有帧长T1, T2, . . . , Tk的、表示为
权利要求
1.一种方法,包括接收针对K个信号重复中的每一个信号重复的多个时序信号观测值集,其中每个信号观测值集与具有时间索引点的K维时间网格的相应维度相关联;在多个时间索引点中的每个时间索引点处,利用处理器计算针对隐式马尔科夫模型 HMM状态集中的每个状态的状态成本度量,其中针对状态集中的每个状态,针对给定的时间索引点,状态成本度量计算提供了最可能前驱状态和相应的最可能前驱时间索引点;使用所计算的状态成本度量来确定状态序列,以及确定针对HMM的相应累积概率测量。
2.根据权利要求1所述的方法,还包括针对多个时间索引点,重复计算状态集中的每个状态的状态成本度量,以及确定针对多个HMM的最可能序列和相应累积概率测量。
3.根据权利要求1或2所述的方法,其中针对多个时间索引点中的给定时间索引点,通过以下步骤来确定状态集中的每个状态的状态成本度量在每个可能的前驱时间索引点处,计算与每个可能的先前状态相关联的成本度量;以及选择每个状态的最低成本度量。
4.根据权利要求3所述的方法,其中针对给定的可能前驱状态,状态成本度量仅基于与在从给定前驱时间索引点移到多个时间索引点中的给定时间索引点时递增的维度相关联的观测值。
5.根据前述任一权利要求所述的方法,其中确定最可能状态序列包括在终端时间索引点处,标识最终状态处的最低状态成本度量。
6.根据前述任一权利要求所述的方法,其中信号观测值是信号特征矢量。
7.根据权利要求6所述的方法,其中特征矢量是从由以下参量构成的组中选择的梅尔倒谱系数特征矢量、线性预测编码系数、谱密度、谱能量、噪声比、声长、相对功率、和滤波器匹配。
8.根据前述任一权利要求所述的方法,其中多个时间索引点是关于与穿过K维空间的对角线相距的预定距离来确定的。
9.根据权利要求8所述的方法,其中每个观测值集具有相应的持续时间,以及预定距离基于相应的持续时间之差。
10.根据前述任一权利要求所述的方法,其中使用所计算的状态成本度量来确定状态序列包括基于状态成本度量来回溯经过时间索引点。
11.根据前述任一权利要求所述的方法,其中计算针对给定状态的给定状态成本度量基于与所有候选前驱时间索引点相关联的所有状态的状态成本度量、从每个候选前驱时间索引点的每个状态转变到给定状态的概率、从相应候选前驱时间索引点转变的相应概率、以及从状态集中的状态发射的观测值的联合概率。
12.根据前述任一权利要求所述的方法,其中所确定的状态序列确定观测值集的校准。
13.—种制造产品,包括其上存储有指令的计算机可读介质,如果由计算设备执行所述指令,则使计算设备执行以下操作从存储器中获取针对K个信号重复中的每一个的K个时间序列信号观测值集,其中每个信号观测值集与具有时间索引点的K维时间网格的相应维度相关联;从存储器中获取针对多个隐式马尔可夫模型HMM中的每一个HMM的参数集; 在多个时间索引点中的每个时间索引点处,针对给定HMM状态集中的每个状态来计算状态成本度量,其中,针对状态集中的每个状态,针对给定的时间索引点,状态成本度量计算提供最可能前驱状态和相应的最可能前驱时间索引点; 确定针对多个HMM中的每一个HMM的累积概率测量;以及确定多个HMM中的最可能HMM。
14.一种设备,包括执行存储在存储器中的软件应用的处理器,软件指令包括在多个时间索引点的每个时间索引点处,计算针对给定HMM状态集中的每个状态的状态成本度量,其中,针对状态集中的每个状态,针对给定的时间索引点,状态成本度量计算提供了最可能前驱状态和相应的最可能前驱时间索引点;使用所计算的状态成本度量来确定状态序列,以及确定针对多个HMM中的每一个HMM 的相应的累积概率测量;以及确定多个HMM中的最可能HMM。
15.根据权利要求14所述的设备,还包括存储器,用于存储针对K个信号重复中的每一个的、多个时间序列信号观测值集的数字表示,其中每个数字观测值集与具有时间索引点的k维时间网格的相应维度相关联;以及针对多个隐式马尔可夫模型HMM中的每一个HMM的参数集。
16.根据权利要求14或15所述的设备,还包括音频接收机,用于接收针对K个信号重复中的每一个的多个时序音频信号观测值集,其中,每个音频信号观测值集与具有时间索引点的k维时间网格的相应维度相关联;以及将针对K个信号重复中的每一个的多个时序音频信号观测值集转换为针对K个信号重复中的每一个的多个时序模拟电信号观测值集。
17.根据权利要求14至16之一所述的设备,还包括模拟到数字转换器,用于将针对 K个信号重复中的每一个的多个时序模拟电信号观测值集转换为针对K个信号重复中的每一个的多个时序信号观测值集的数字表示。
18.根据权利要求14至17之一所述的设备,其中处理器基于针对K个信号重复的每一个的多个时序信号观测值集的数字表示来计算多个特征矢量集。
19.根据权利要求14至18之一所述的设备,其中处理器使用所计算的状态成本度量将状态序列变换为状态序列的数字表示。
20.根据权利要求14至19之一所述的设备,还包括数字到模拟转换器,用于将状态序列的数字表示转换为输出模拟电信号。
全文摘要
公开了使用多模式维特比算法对多个模式进行联合解码的系统、设备和方法。示例性方法可以接收针对K个信号重复中的每一个的多个时序信号观测值集。进一步,每个信号观测值集与具有时间索引点的K维时间网格的相应维度相关联。此外,在多个时间索引点中的每个时间索引点处,利用处理器计算针对隐式马尔科夫模型(HMM)状态集中的每个状态的状态成本度量。此外,针对状态集中的每个状态,针对给定的时间索引点,状态成本度量计算提供了最可能前驱状态和相应的最可能前驱时间索引点。该示例性方法还可以使用所计算的状态成本度量确定状态序列,以及确定针对HMM的相应累积概率测量。
文档编号G10L21/02GK102576529SQ201080045971
公开日2012年7月11日 申请日期2010年9月8日 优先权日2009年11月20日
发明者塞坡·梵卡塔那拉沙亚·斯里尼氏, 尼尚斯·乌哈斯·奈尔 申请人:印度科学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1