建立语音识别模型的方法、语音识别方法及对应装置制造方法

文档序号:2825550研发日期:2012年阅读:266来源:国知局
技术简介:
本专利针对传统语音识别模型中声学层与语言层耦合导致的更新滞后和解码效率低的问题,提出将声学层与语言层解耦为独立网络结构,通过构建回跳词网络、有限状态机优化及语言模型预测网络,实现快速动态更新与高效解码。方法采用分层架构和概率计算,显著提升语音搜索实时性与大规模语言模型兼容性。
关键词:语音识别模型,分层解耦,实时更新
建立语音识别模型的方法、语音识别方法及对应装置制造方法
【专利摘要】本发明提供了一种建立语音识别模型的方法、语音识别方法及对应装置,将词典和声学模型信息进行融合,得到声学层空间网络;将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型。本发明提供的语音识别模型将语音层信息和声学层信息的耦合关系分解开来,使其成为各自独立的网络,能够实现语言层信息的快速动态更新,基于该语音识别模型实现的语音搜索具有更高的搜索新发生事物和信息的能力。
【专利说明】建立语音识别模型的方法、语音识别方法及对应装置
【【技术领域】】
[0001]本发明涉及计算机应用领域的语音搜索技术,特别涉及一种建立语音识别模型的方法、语音识别方法及对应装置。
【【背景技术】】
[0002]语音搜索是近期兴起的一种新颖的搜索技术,给广大互联网用户带来全新的搜索体验,用户可以使用语音进行检索和查询。语音搜索使用语音识别技术把用户的语音内容识别成文本,然后使用文本搜索技术将搜索结果返回给用户,可见在语音搜索中语音识别是关键核心环节。
[0003]现有语音识别技术主要采用以下几种技术:
[0004]其一、基于加权有限状态机(WFST)的语音识别系统,使用WFST技术把语音识别的声学层信息和语言层信息集成在一个网络中,进行确定化、最小化、空边去除等操作后,得到一个紧凑的WFST网络,然后基于该紧凑的WFST网络进行识别。
[0005]其二、基于两遍解码的WFST的语音识别系统,构建两个WFST网络,在进行语音识别时,进行两遍解码:第一遍解码使用较小的WFST网络,在第一遍解码的识别结果基础之上,第二遍解码使用较大的WFST网络得到最终的识别结果。
[0006]由于语音搜索任务中语音识别系统的语言层信息约束需要实时更新,更新频率越快,语音识别系统对新 信息的语音识别能力越强。但现有技术的上述第一种方式虽然语音识别速度较快,但往往需要耗费大量的时间和计算机内存,这就限制了可以使用的语言模型的体积。并且由于语言层和声学层耦合在一起,每次语言层的更新都涉及到整个网络的更新,导致更新速度很慢,大大降低了搜索新发生事物和信息的能力。第二种方式识别速度较慢,且两个WFST网络的构建导致语言层的更新涉及到两个网络的更新,更新速度也很慢,同样影响搜索新发生事物和信息的能力。

【发明内容】

[0007]有鉴于此,本发明提供了一种建立语音识别模型的方法、语音识别方法及对应装置,以便于实现语言层的快速更新,从而提高搜索新发生事物和信息的能力。
[0008]具体技术方案如下:
[0009]一种建立语音识别模型的方法,该方法包括:
[0010]S1、将词典和声学模型信息进行融合,得到声学层空间网络;
[0011]S2、将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;
[0012]S3、利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;
[0013]所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型。
[0014]根据本发明一优选实施例,所述步骤SI具体包括:
[0015]将所述词典中的词进行排列后,构建回跳词网络,所述回跳词网络中任一词的词尾都跳转回该词的词头;[0016]将所述回跳词网络中的每个词采用该词的声学模型替换,得到声学图网络,其中所述词的声学模型为构成该词的音素之间的转移概率;
[0017]采用计算机图论方法对所述声学图网络进行优化,得到声学层空间网络。
[0018]根据本发明一优选实施例,所述语言模型信息为n-gram语言模型;
[0019]所述步骤S2具体包括:将n-gram语言模型的查询历史作为有限状态机的当前状态,将n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语言模型的查询结果作为有限状态机针对当前输入的输出,利用计算机图论技术对所述有限状态机进行优化,得到语言层网络。
[0020]根据本发明一优选实施例,所述步骤S3具体包括:利用所述声学层空间网络中树结构的内容和所述语言层网络,根据最大可能连接概率原则计算出每一个词接续所有可能的词的最大概率,得到所述语言模型预测网络。
[0021]一种语音识别方法,基于上述方法建立的语音识别模型,该语音识别方法包括:
[0022]Al、对输入语音进行声学特征提取;
[0023]A2、基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为所述输入语音的识别结果。
[0024]根据本发明一优选实施例,在所述步骤A2中基于提取的声学特征逐步执行步骤A21至步骤A23 ;
[0025]A21、进行声学模型的打分计算;
[0026]A22、查找所述声学层空间网络,并利用所述语言模型预测网络对查找到的节点进行裁剪后,利用查找到的节点更新当前解码路径,其中初始解码路径为空;
[0027]A23、利用当前解码路径查找所述语言层网络,利用查找到的节点更新当前解码路径,并将查找到的节点对应的词压入词栈,基于当前解码路径转至步骤A21 ;
[0028]A24、待针对所述输入语音的声学特征执行完所述步骤A21至步骤A23后,通过回溯词栈的方式确定最优解码路径作为所述输入语音的识别结果。
[0029]一种建立语音识别模型的装置,该装置包括:
[0030]声学层构建单元,用于将词典和声学模型信息进行融合,得到声学层空间网络;
[0031]语言层构建单元,用于将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;
[0032]预测模型构建单元,用于利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;
[0033]所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型。
[0034]根据本发明一优选实施例,所述声学层构建单元具体包括:
[0035]第一构建子单元,用于将所述词典中的词进行排列后,构建回跳词网络,所述回跳词网络中任一词的词尾都跳转回该词的词头;
[0036]第二构建子单元,用于将所述回跳词网络中的每个词采用该词的声学模型替换,得到声学图网络,其中所述词的声学模型为构成该词的音素之间的转移概率;
[0037]优化子单元,用于采用计算机图论方法对所述声学图网络进行优化,得到声学层空间网络。[0038]根据本发明一优选实施例,所述语言模型信息为n-gram语言模型;
[0039]所述语言层构建单元具体将n-gram语言模型的查询历史作为有限状态机的当前状态,将n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语言模型的查询结果作为有限状态机针对当前输入的输出,利用计算机图论技术对所述有限状态机进行优化,得到语言层网络。
[0040]根据本发明一优选实施例,预测模型构建单元具体利用所述声学层空间网络中树结构的内容和所述语言层网络,根据最大可能连接概率原则计算出每一个词接续所有可能的词的最大概率,得到所述语言模型预测网络。
[0041]一种语音识别装置,基于上述装置建立的语音识别模型,该语音识别装置包括:
[0042]特征提取单元,用于对输入语音进行声学特征提取;
[0043]语音解码单元,用于基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为所述输入语音的识别结果。 [0044]根据本发明一优选实施例,所述语音解码单元具体包括:
[0045]声学层打分子单元,用于进行声学模型的打分计算;
[0046]声学层内扩展子单元,用于基于提取的声学特征逐步查找所述声学层空间网络,并利用所述语言模型预测网络对查找到的节点进行裁剪后,利用查找到的节点更新当前解码路径,其中初始解码路径为空;
[0047]声学层间扩展子单元,用于利用当前解码路径查找所述语言层网络,利用查找到的节点更新当前解码路径,基于当前解码路径触发所述声学层打分子单元;
[0048]词栈收集子单元,用于将所述声学层间扩展子单元查找到的节点对应的词压入词栈,待所述声学层内扩展子单元和所述声学层间扩展子单元针对所述输入语音的声学特征执行完查找后,通过回溯词栈的方式确定最优解码路径作为所述输入语音的识别结果。
[0049]由以上技术方案可以看出,本发明提供的语音识别模型将语音层信息和声学层信息的耦合关系分解开来,使其成为各自独立的网络,其中语言层网络在更新时不会受到声学层网络的牵连,能够实现快速的实时动态更新,基于该语音识别模型实现的语音搜索具有更高的搜索新发生事物和信息的能力。
【【专利附图】

【附图说明】】
[0050]图1为本发明实施例一提供的建立语音识别模型的方法流程图;
[0051]图2为本发明实施例一提供的声学层空间网络的结构示意图;
[0052]图3为本发明实施例二提供的语音识别方法的主要流程图;
[0053]图4为本发明实施例二提供的语音识别中的详细解码流程图;
[0054]图5为本发明实施例三提供的建立语音识别模型的装置结构图;
[0055]图6为本发明实施例三提供的声学层构建单元的具体结构图;
[0056]图7为本发明实施例四提供的语音识别装置结构图。
【【具体实施方式】】
[0057]为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0058]本发明中提供的建立语音识别模型的方法所建立的语音识别模型是一个一遍解码框架,且在该框架下声学层和语言层相互独立,声学层在整个语音识别过程中保持不变,语言层在语音识别过程中可以保持实时的动态更新。下面首先通过实施例一对建立语音识别模型的方法进行详细描述。
[0059]实施例一、
[0060]图1为本发明实施例一提供的建立语音识别模型的方法流程图,如图1所示,该方法主要包括以下步骤:
[0061]步骤101:将词典和声学模型信息进行融合,得到声学层空间网络。
[0062]本步骤的目的是建立代表声学模型信息的声学层空间网络,用于把语音识别中的所有声学相关的信息内容组织成一个易于计算机处理的由大量节点连接而成的网络。
[0063]声学层空间网络的构建所需要的资源是词典和声学模型信息,而不需要任何语言模型信息。
[0064]具体地,构建声学层空间网络的方法具体包括:将词典中的词进行排列后,构建回跳词网络,所述回跳词网络中任一词的词尾都允许跳转回该词的词头。将回跳词网络中的每个词采用这个词的声学模型替换,得到声学图网络,该声学网络是一个表示声学模型状态序列的网络。其中声学模型可以是诸如高斯混合模型或者是考虑了声学上下文相关性的音素模型(context dependent phone mode)等现有声学模型,词的声学模型中包含构成该词的音素之间的转移概率,其中音素为构成音节的最小单位。
[0065]然后,再采用计算机图论方法对声学图网络进行优化,就可以得到声学层空间网络了。在此可以采用任意的计算机图论方法来进行优化,由于是现有技术,在此不再具体描述。
[0066]除了声学层空间网络设计上的和语言层信息的分离,本步骤中建立的声学层空间网络还具有紧凑无冗余的特点。通过这种建立声学层空间网络的方式,声学层空间网络被组织成一个前面层是树结构、中间层是输出词、后面层是图结构的特殊结构,所有的节点都展开到声学模型的最小单元,即达到广义矩估计(GMM)状态,这样能够保证图的最紧凑连接。该声学层空间网络的结构可以如图2所示。
[0067]其中树结构是可以用于后续的语言模型预测,中间层是用于快速地输出正确的词,图结构用于保证声学层空间网络的最紧凑结构,尽量多的合并路径。
[0068]步骤102:将语言模型信息抽象为有限状态机进行优化,得到语言层网络。
[0069]本步骤中将传统的n-gram语言模型抽象成一个紧凑的WFST网络,这种紧凑抽象的主要好处在于解码路径的组织更加简单,任何时候历史路径信息都可以用网络中的节点唯一表示,同时在求取语言模型打分的时候速度更快,其中n-gram语言模型包括η元词语在大规模语料中按顺序出现的概率,η为一个或多个大于I的正整数。
[0070]本步骤采用的思想是利用语言模型以往历史轨迹信息,在每个语言模型节点上增加一个整数信息(4个字节),就可以实现海量语言模型的wfst的抽象。具体方式为:将n-gram语音模型的查询历史作为有限状态机的当前状态,把n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语音模型的查询结果作为有限状态机针对当前输入产生的输出,这样就可以把语言模型的查询过程看做是以一个有限状态机的跳转。再采用传统的计算机图论技术对有限状态机进行优化,就抽象出语言层网络。语言层网络中的节点为词,在该网络中还存在词语之间构成上下文时的出现概率。
[0071]通过上述抽象过程,抽象前和抽象后的语言模型体积大小差异在20%以内。在完成语言模型的上述WFST抽象后,任何一个语音识别过程的路径节点都被表示成一个当前声学层空间网络节点和语言层网络节点。在计算语言模型打分的时候,可以在已经知道语言模型历史的情况下,最多进行一个二分法查找,从而大大简化了语言模型打分计算过程,使高速搜索成为可能。
[0072]步骤103:利用上述声学层空间网络和语言层网络形成语言模型预测网络。
[0073]语言模型预测网络用于语音识别过程中提高路径裁剪效率,从而做语言模型预测。语言模型预测网络是结合语言层网络和声学信息空间网络生成的。具体实施办法是充分利用了声学层空间网络的紧凑型这一特点,利用声学层空间网络中的树结构和语言层网络,根据最大可能连接概率原则计算出每一个接续所有可能的词的最大概率,得到语言模型预测网络。
[0074]可见,在进行语言模型预测网络的构建时,仅使用了声学层空间网络中的树结构,而在输出词以后的大部分声学层空间网络的图结构并不需要有语言模型预测的得分,这样就大大减少了语言模型预测部分在实际语音识别过程中的预测得分查询量。具体如何利用已有的声学层信息和语言层信息构建语言模型预测网络是业内的公知技术,本专利不在赘述。
[0075]另外,由于语言模型的预测算法是天然可以并行计算的。因此在实际产品中,在语言模型的动态调整之后,利用多计算机并行计算的方法也可以实现语言模型预测网络的高速动态更新。
[0076]在执行了上述步骤之后,由声学层空间网络、语言层网络和语言模型预测网络就构成了最终的语音识别模型。基于该语音识别模型就可以实现语音识别过程了,下面通过实施例二对语音识别的方法进行详细描述。
[0077]实施例二、
[0078]图3为本发明实施例二提供的语音识别方法的流程图,如图3所示,该方法可以包括以下步骤:
[0079]步骤301:对输入语音进行声学特征提取。
[0080]本步骤中对输入语音进行的声学特征提取可以采用现有技术中的任一种方式,在此不做具体限制,例如线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)的提取等。
[0081]步骤302:基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为输入语音的识别结果。
[0082]本步骤是语音识别的核心内容,其中查找声学层空间网络和查找语言层网络交替进行。查找声学层空间网络是用于识别输入语音中可能的词,也就是说在声学层空间网络内进行解码路径中词语的扩展。查找语言层网络是用于确定构成输入语音的词序列,也就是说查找语言层网络是在声学层空间网络间进行解码路径的扩展,并影响之后的路径组织。
[0083]本步骤中具体的实现过程可以如图4所示,基于提取的声学特征逐步执行步骤401至步骤403。其中所述“逐步”通常是针对输入语音进行分段,逐段基于对应的声学特征执行步骤401至步骤403,本发明对此处的分段方式并不加以限制,通常可以采用按照语音中贞分段的方式。
[0084]步骤401:在路径的实际扩展之前,首先要进行声学模型的打分计算。
[0085]在此可以进行声学模型的高斯打分计算,该部分为现有技术,在此进行详述。
[0086]步骤402:查找声学层空间网络,并利用语言模型预测网络对查找到的节点进行裁剪,利用查找到的节点更新当前解码路径。
[0087]本步骤是声学层空间网络内扩展,即一个词内部的扩展,这个扩展是在声学层空间网络上按照节点连接的顺序依次展开的。声学层空间网络制约着所有解码路径的走向,在进行声学层空间网络内扩展的过程中,除了声学层信息外,还有语言模型预测信息的施力口,这是通过语音识别模型中的语言模型预测网络来进行的。
[0088]具体地,在声学层空间网络上查找到的节点,首先进行语言模型的估计,该估计可以采用语言模型预测网络中的值来代替,直到进行声学层空间网络间扩展(查找语言层网络)的时候被真正的语言模型打分代替。也就是说,在声学层空间网络上查找到的节点,利用语言模型预测网络进行裁剪,可以保留最大概率值对应的解码路径。另外,在初始解码时,可以默认初始解码路径为空。
[0089]步骤403:利用当前解码路径查找语言层网络,利用查找到的节点更新当前解码路径,并将查找到的节点对应的词压入词栈,针对当前解码路径转至步骤401。
[0090]本步骤是声学层空间网络间的扩展,此时的语言模型打分是在语言层网络上求取的。在完成语言层网络的查找后,解码路径的状态会在根据语言层网络的节点信息进行更新,并影响基于后续声学特征的声学层空间网络内扩展,即在进行语言层网络的查找之后,对解码路径进行裁剪,裁剪后保留的解码路径才回进入下一轮声学层空间网络的查找。
[0091]然后需要把当前识别出来的词(即在语言层网络查找到的节点)收集进入词栈。词栈中的每一个词都会进入下一轮声学空间网络查询。
[0092]步骤404:待针对整个输入语音的声学特征执行上述流程后,通过回溯词栈的方式确定最优解码路径作为输入语音的识别结果。
[0093]以上是对本发明所提供的方法进行的详细描述,下面对本发明所提供的装置进行详细描述。
[0094]实施例三、
[0095]图5为本发明实施例三提供的建立语音识别模型的装置结构图,如图5所示,该装置可以包括:声学层构建单元500、语言层构建单元510以及预测模型构建单元520。
[0096]声学层构建单兀500将词典和声学模型信息进行融合,得到声学层空间网络。声学层空间网络的构建所需要的资源是词典和声学模型信息,而不需要任何语言模型信息。
[0097]图6中示出了该声学层构建单元500的一种实现方式,如图6所示,具体可以包括:第一构建子单元501、第二构建子单元502和优化子单元503。
[0098]第一构建子单元501将词典中的词进行排列后,构建回跳词网络,回跳词网络中任一词的词尾都跳转回该词的词头。
[0099]第二构建子单元502将回跳词网络中的每个词采用该词的声学模型替换,得到声学图网络,其中词的声学模型为构成该词的音素之间的转移概率。声学模型可以是诸如高斯混合模型或者是考虑了声学上下文相关性的音素模型等现有声学模型,
[0100]优化子单元503,用于采用计算机图论方法对声学图网络进行优化,得到声学层空间网络。在此可以采用任意的计算机图论方法来进行优化,由于是现有技术,在此不再具体描述。
[0101]除了声学层空间网络设计上的和语言层信息的分离,声学层构建单元500建立的声学层空间网络还具有紧凑无冗余的特点。通过这种建立声学层空间网络的方式,声学层空间网络被组织成一个前面层是树结构、中间层是输出词、后面层是图结构的特殊结构,所有的节点都展开到声学模型的最小单元,即达到GMM状态,这样能够保证图的最紧凑连接。该声学层空间网络的结构可以如图2所示。
[0102]继续参见图5,语言层构建单元510,用于将语言模型信息抽象为有限状态机并进行优化,得到语言层网络。
[0103]其中采用的语言模型信息为n-gram语言模型,语言层构建单元510可以具体将n-gram语言模型的查询历史作为有限状态机的当前状态,将n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语言模型的查询结果作为有限状态机针对当前输入的输出,利用计算机图论技术对有限状态机进行优化,得到语言层网络。该语言层网络是一个紧凑的WFST网络,使得解码路径的组织更加简单,任何时候历史路径信息都可以用网络中的节点唯一表示,同时在求取语言模型打分的时候速度更快。
[0104]在得到上述声学层空间网络和语言层网络之后,为了提高语音识别过程中的路径裁剪效率,预测模型构建单元520利用声学层空间网络和语言层网络形成语言模型预测网络。
[0105]优选地,可以充分利用声学层空间网络的紧凑型这一特点,利用声学层空间网络中树结构的内容和语言层网络,根据最大可能连接概率原则计算出每一个词接续所有可能的词的最大概率,得到语言模型预测网络。具体如何利用已有的声学层信息和语言层信息构建语言模型预测网络是业内的公知技术,本专利不在赘述。
[0106]此时,声学层空间网络、语言层网络和语言模型预测网络就构成了语音识别模型。
[0107]实施例四、
[0108]图7为本发明实施例四提供的语音识别装置结构图,该装置的语音识别基于实施例四所示装置建立的语音识别模型,如图7所示,该语音识别装置可以包括:特征提取单元700和语音解码单元710。
[0109]特征提取单元700对输入语音进行声学特征提取。对输入语音进行的声学特征提取可以采用现有技术中的任一种方式,在此不做具体限制,例如LPCC、MFCC的提取等。
[0110]然后,语音解码单元710基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为输入语音的识别结果。
[0111]语音解码单元710是语音识别的核心内容,其中查找声学层空间网络和查找语言层网络交替进行。查找声学层空间网络是用于识别输入语音中可能的词,也就是说在声学层空间网络内进行解码路径中词语的扩展。查找语言层网络是用于确定构成输入语音的词序列,也就是说查找语言层网络是在声学层空间网络间进行解码路径的扩展,并影响之后的路径组织。[0112]语音解码单元710的具体结构可以包括:声学层打分子单元711、声学层内扩展子单元712、声学层间扩展子单元713以及词栈收集子单元714。
[0113]首先声学层打分子单元711进行声学模型的打分计算。在此可以进行声学模型的高斯打分计算,该部分为现有技术,在此进行详述。
[0114]声学层内扩展子单元712基于提取的声学特征逐步查找声学层空间网络,并利用语言模型预测网络对查找到的节点进行裁剪后,利用查找到的节点更新当前解码路径,其中初始解码路径为空。
[0115]声学层内扩展子单元712执行的是声学层空间网络内扩展,即一个词内部的扩展,这个扩展是在声学层空间网络上按照节点连接的顺序依次展开的。声学层空间网络制约着所有解码路径的走向,在进行声学层空间网络内扩展的过程中,除了声学层信息外,还有语言模型预测信息的施加,这是是通过语音识别模型中的语言模型预测网络来进行的。
[0116]具体地,在声学层空间网络上查找到的节点,首先进行语言模型的估计,该估计可以采用语言模型预测网络中的值来代替,直到进行声学层空间网络间扩展(查找语言层网络)的时候被真正的语言模型打分代替。也就是说,在声学层空间网络上查找到的节点,利用语言模型预测网络进行裁剪,可以保留最大概率值对应的解码路径。
[0117]之后,声学层间扩展子单元713利用当前解码路径查找语言层网络,利用查找到的节点更新当前解码路径,基于当前解码路径触发声学层打分子单元711。
[0118]声学层间扩展子单元713执行的是声学层空间网络间的扩展,此时的语言模型打分是在语言层网络上求取的。在完成语言层网络的查找后,解码路径的状态会在根据语言层网络的节点信息进行更新,并影响基于后续声学特征的声学层空间网络内扩展。
[0119]词栈收集子单元714,用于将声学层间扩展子单元713查找到的节点对应的词压入词栈,词栈中的每一个词都会进入下一轮声学空间网络查询。待声学层内扩展子单元712和声学层间扩展子单元713针对输入语音的声学特征执行完查找后,通过回溯词栈的方式确定最优解码路径作为输入语音的识别结果。
[0120]由以上描述可以看出,本发明提供的方法和装置具备以下优点:
[0121]I)本发明提供的语音识别模型将语音层信息和声学层信息的耦合关系分解开来,使其成为各自独立的网络,其中语言层网络在更新时不会受到声学层网络的牵连,能够实现快速的实时动态更新,基于该语音识别模型实现的语音搜索具有更高的搜索新发生事物和信息的能力。
[0122]2)声学层空间网络和语言层网络都具有紧凑无冗余的特点,使得语音识别过程中解码速度更快。
[0123]3)语音识别方法采用一遍解码方式,更够更快地得到识别结果,提高解码速度,提高用户满意度。
[0124]4)本发明建立的语音识别模型支持任意阶海量n-gram语言模型的快速更新,支持的语言模型的大小可以高达几十亿文法的一编解码。
[0125]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
【权利要求】
1.一种建立语音识别模型的方法,其特征在于,该方法包括:51、将词典和声学模型信息进行融合,得到声学层空间网络;52、将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;53、利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述步骤SI具体包括:将所述词典中的词进行排列后,构建回跳词网络,所述回跳词网络中任一词的词尾都跳转回该词的词头;将所述回跳词网络中的每个词采用该词的声学模型替换,得到声学图网络,其中所述词的声学模型为构成该词的音素之间的转移概率;采用计算机图论方法对所述声学图网络进行优化,得到声学层空间网络。
3.根据权利要求1所述的方法,其特征在于,所述语言模型信息为n-gram语言模型;所述步骤S2具体包括:将n-gram语言模型的查询历史作为有限状态机的当前状态,将n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语言模型的查询结果作为有限状态机针对当前输入的输出,利用计算机图论技术对所述有限状态机进行优化,得到语言层网络。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3具体包括:利用所述声学层空间网络中树结构的内容和所述语言层网络,根据最大可能连接概率原则计算出每一个词接续所有可能的词的最大概率,得到`所述语言模型预测网络。
5.一种语音识别方法,其特征在于,基于如权利要求1至4任一权项所述方法建立的语音识别模型,该语音识别方法包括:Al、对输入语音进行声学特征提取;A2、基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为所述输入语音的识别结果。
6.根据权利要求5所述的语音识别方法,其特征在于,在所述步骤A2中基于提取的声学特征逐步执行步骤A21至步骤A23 ;A21、进行声学模型的打分计算;A22、查找所述声学层空间网络,并利用所述语言模型预测网络对查找到的节点进行裁剪后,利用查找到的节点更新当前解码路径,其中初始解码路径为空;A23、利用当前解码路径查找所述语言层网络,利用查找到的节点更新当前解码路径,并将查找到的节点对应的词压入词栈,基于当前解码路径转至步骤A21 ;A24、待针对所述输入语音的声学特征执行完所述步骤A21至步骤A23后,通过回溯词栈的方式确定最优解码路径作为所述输入语音的识别结果。
7.一种建立语音识别模型的装置,其特征在于,该装置包括:声学层构建单元,用于将词典和声学模型信息进行融合,得到声学层空间网络;语言层构建单元,用于将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;预测模型构建单元,用于利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型。
8.根据权利要求7所述的装置,其特征在于,所述声学层构建单元具体包括:第一构建子单元,用于将所述词典中的词进行排列后,构建回跳词网络,所述回跳词网络中任一词的词尾都跳转回该词的词头;第二构建子单元,用于将所述回跳词网络中的每个词采用该词的声学模型替换,得到声学图网络,其中所述词的声学模型为构成该词的音素之间的转移概率;优化子单元,用于采用计算机图论方法对所述声学图网络进行优化,得到声学层空间网络。
9.根据权利要求7所述的装置,其特征在于,所述语言模型信息为n-gram语言模型;所述语言层构建单元具体将n-gram语言模型的查询历史作为有限状态机的当前状态,将n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语言模型的查询结果作为有限状态机针对当前输入的输出,利用计算机图论技术对所述有限状态机进行优化,得到语言层网络。
10.根据权利要求7所述的装置,其特征在于,预测模型构建单元具体利用所述声学层空间网络中树结构的内容和所述语言层网络,根据最大可能连接概率原则计算出每一个词接续所有可能的词的最大概率,得到所述语言模型预测网络。
11.一种语音识别装置,其特征在于,基于如权利要求7至10任一权项所述装置建立的语音识别模型,该语音识别装置包括: 特征提取单元,用于对输入语音进行声学特征提取;语音解码单元,用于基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为所述输入语音的识别结果。
12.根据权利要求11所述的语音识别装置,其特征在于,所述语音解码单元具体包括:声学层打分子单元,用于进行声学模型的打分计算;声学层内扩展子单元,用于基于提取的声学特征逐步查找所述声学层空间网络,并利用所述语言模型预测网络对查找到的节点进行裁剪后,利用查找到的节点更新当前解码路径,其中初始解码路径为空;声学层间扩展子单元,用于利用当前解码路径查找所述语言层网络,利用查找到的节点更新当前解码路径,基于当前解码路径触发所述声学层打分子单元;词栈收集子单元,用于将所述声学层间扩展子单元查找到的节点对应的词压入词栈,待所述声学层内扩展子单元和所述声学层间扩展子单元针对所述输入语音的声学特征执行完查找后,通过回溯词栈的 方式确定最优解码路径作为所述输入语音的识别结果。
【文档编号】G10L15/06GK103871403SQ201210539565
【公开日】2014年6月18日 申请日期:2012年12月13日 优先权日:2012年12月13日
【发明者】贾磊, 钱胜, 万广鲁 申请人:北京百度网讯科技有限公司
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!