用于融合多个语音识别系统的识别结果的方法及系统的制作方法

文档序号：2826227阅读：368来源：国知局

用于融合多个语音识别系统的识别结果的方法及系统的制作方法
【专利摘要】本发明提供一种用于融合多个语音识别系统的识别结果的方法及系统。所述方法包括：将多个语音识别系统的识别结果分别表示为相应的候选列表。所述方法还包括从得到的所有候选列表集合中任选两个候选列表进行对齐且合并；从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并，然后重复这一过程直到处理完该集合中所有候选列表，其中通过对齐且合并操作得到的候选列表为已融合候选列表。本发明可提高语音识别准确率，且减少用户的修正操作。
【专利说明】用于融合多个语音识别系统的识别结果的方法及系统
【技术领域】
[0001]本发明涉及语音识别【技术领域】，特别涉及一种用于融合多个语音识别系统的识别结果的方法及系统。
【背景技术】
[0002]语音识别技术是一种利用计算机和数字信号处理技术准确地识别出人类语音内容的技术。目前，面向特殊应用的中小词汇量语音识别技术已得到实际应用。然而，由于受到背景噪音、方言口音、口语化的自然语音以及语义理解等因素的限制，大词汇量说话人无关的连续语音识别技术还无法满足真实应用的需求。因此，对识别结果中的识别错误进行修正是不可缺少的。为提高人工修正错误的效率，相关文献(如专利ZL201010269306.9)提出了对语音识别系统的中间识别结果进行处理以生成候选列表，将候选列表作为识别结果呈现给用户，并且采用相应的交互界面接收用户在候选列表中的选择操作。通过这种方式，用户只需通过选择操作就可以修正大量错误，相对于键盘输入方式来说大大提高了效率，减轻了工作量。
[0003]当前技术中，导致语音识别准确率较低的主要原因是语音识别系统内部采用的声学模型和语言模型与待识别的语音的特点不一致。由于声学模型、语言模型以及训练语料之间的差异，对于相同的语音，不同语音识别系统的识别结果也会有较大不同。在某一场景下，识别效果较好的语音识别系统(或者引擎)不一定在另一场景下取得相同的效果。通过融合多个系统的识别结果，可有效地提高场景适应性，提升识别的准确率和用户体验。然而，当前已有的系统融合方法其融合结果为语音对应的唯一的识别文本，无法采用基于候选列表的用户修正方法，仍然需要较多的时间和人力进行错误修正。
[0004]因此，需要一种能够融合多个语音识别系统的识别结果生成候选列表的方法及系统，以提高语音识别的准确率，且减少用户的修正操作。

【发明内容】

[0005]根据本发明的一个实施例，提供一种用于融合多个语音识别系统的识别结果的方法，包括:
[0006]步骤I)、将多个语音识别系统的识别结果分别表示为相应的候选列表；
[0007]步骤2)、从步骤I)得到的所有候选列表集合中任选两个候选列表进行对齐且合并；从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并，然后重复这一过程直到处理完该集合中所有候选列表；其中通过对齐且合并操作得到的候选列表为已融合候选列表。
[0008]在一个实施例中，所述候选列表是候选列的序列，所述候选列是一组候选字及其概率的集合。
[0009]在一个实施例中，所述语音识别系统的识别结果包括所识别语音对应的多个文本。[0010]在一个实施例中，步骤I)包括:
[0011]步骤11)、将所述多个文本按字数划分为不同的组，其中字数相同的文本为一组；
[0012]步骤12)、对每个组新建一个候选列个数为该组每个文本的字数的候选列表，将该候选列表中每个候选列的候选字集合设为该组所有文本对应位置的字集合，且将每个候选字的概率设为该候选字在所述多个文本的对应位置出现的频率；
[0013]步骤13)、从步骤12)得到的所有组的候选列表集合中任选两个候选列表进行对齐且合并，用所得到的候选列表代替所述两个候选列表；然后重复这一过程直到该集合中只剩一个候选列表。
[0014]在一个实施例中,在步骤13)中,对齐两个候选列表包括:
[0015]步骤i)、设置二维数组d[n+l] [m+1],其中,η是候选列表L= (C1, C2,, Cn)的候选列个数，m是另一候选列表L’ = (C’ i，C’ 2，...，C’m)的候选列个数，d[i] [j]表示两个子候选列表(CuCwMCi)与(C’dC、...，(:’」)之间的编辑距离，i e [l，n]，j e [l，m]，d[i]
[0]=i, d[0] [j]=j ；
[0016]步骤ii)、对于i从I到n，j从I到m,根据下式依次计算d[i] [j]:
[0017]d[i] [j]=min{d[1-l] [j]+l, d[i] [j_l]+l, d[i] [j]+cost}
[0018]其中，cost是候选列Ci与C’ j之间的替换代价，其取值为O或I ;若选择为d[i][j]+cost且COSt=O,则候选列Ci匹配成功；若选择为d[i] [j]+cost且cost=l ;则在Ci处存在替换错误；若选择为d[i_l] [j]+1，则在Ci处存在删除错误；若选择为d[i] [j_l]+l，则在Ci处存在插入错误；
[0019]步骤iii)、对于i从η到0，j从m到0，若候选项Ci匹配成功或存在替换错误，则将i和j的值都减I ;若在Ci处存在插入错误，则在候选列表L的第i个候选列之后插入一个候选列，该候选列包含一个空字符的候选字，其概率设为I，将j的值减I ;若在Ci处存在删除错误，则在候选列表L’的第j个候选列之后插入一个候选列，该候选列包含一个空字符的候选字，其概率设为1，将i的值减I。
[0020]在进一步的实施例中,根据以下步骤计算候选列Ci与C’ j之间的替换代价cost:
[0021]步骤a)、比较Ci与C’ j的第I个候选字Wm与w’ J； 1；如果wi;1与w’ ^拼音相同则设Cost=O,否则执行步骤b)；
[0022]步骤b)、依次计算C’ j的所有候选字卜^乂”…^^^的拼音与^的拼音之间
的相似度，如果其中最大的相似度大于预定阈值则设cost=0，否则设cost=l，其中为C’ j中的候选字个数。
[0023]在个实施例中，在步骤13)中，合并对齐后的两个候选列表包括:
[0024]新建一个候选列表L—其候选列个数与对齐后的两个候选列表L和L’的候选列个数相同；
[0025]将Lmwge中每个候选列的候选字集合设为对齐后的L和L’在该候选列的所有候选字的集合；以及
[0026]根据下式计算在该候选列的每个候选字w的概率:
[0027]Pmerge (W) = λ lPl (w) + λ 2p2 (w)
[0028]其中，P1 (W)和ρ2 (W)分别是w在对齐后的L和L’中该候选列的概率；λ 1和入2为合并系数。[0029]在进一步的实施例中，根据下式计算合并系数λ i和λ 2:
,_ nI, _ η2
[0030]Λι = ——— ? Λι =———
+ η2η, + n2
[0031]其中，如果L、L’是未合并的候选列表，则Iipn2分别是L、L’对应的组中的文本个数；如果L、L’是已合并的候选列表，则ηι、η2分别是用于合并生成L、L’的候选列表对应的组中的文本个数之和。
[0032]在一个实施例中，所述语音识别系统的识别结果包括所识别语音对应的唯一文本。
[0033]在进一步的实施例中，步骤I)包括:
[0034]新建一个候选列个数为文本字数的候选列表；
[0035]将该候选列表中每个候选列的候选字设为该文本对应位置的字，且将其概率设为
1
[0036]在一个实施例中，所述语音识别系统的识别结果包括词网格。
[0037]在一个实施例中,在步骤2)中,合并对齐后的任选的两个候选列表包括:
[0038]新建一个候选列表Lm?ge，其候选列个数与对齐后的候选列表L1和L2的候选列个数相同；
[0039]将Lmwge中每个候选列的候选字集合设为对齐后的L1和L2在该候选列的所有候选字的集合；以及
[0040]根据下式计算在该候选列的每个候选字w的概率:
[0041 ] Pmerge (W)[0042]其中，P1 (w)和p2(w)分别为w在对齐后的L1和L2中该候选列的概率；λ i和λ 2为融合系数。
[0043]在一个实施例中，在步骤2)中，合并对齐后集合中任选的一个候选列表与已融合候选列表包括:
[0044]新建一个候选列表Lnewjiwge,其候选列个数与对齐后的未融合候选列表Li和已融合候选列表Lmwge的候选列个数相同，其中i e [3，k]，k为所有候选列表的个数；
[0045]将Lmw 中每个候选列的候选字集合设为对齐后的Lmwge和Li在该候选列的所有候选字的集合；以及
[0046]根据下式计算在该候选列的每个候选字w的概率:
[0047]Pnew merge (w) =Pmerge (W) + λ iPi (w)
[0048]其中，PmCTge (w)为W在对齐后的LmOTge;中该候选列的概率，Pi (W)为W在对齐后的Li中该候选列的概率；λ i为融合系数。
[0049]在进一步的实施例中，融合系数由在一个开发数据集上各语音识别系统的识别结果的准确率来指定。
[0050]在一个实施例中，步骤2 )之后还包括:
[0051]步骤3)、根据下式调整融合系数:
[0052]λ.new=A.0ld+0 -PRi
[0053]其中，λ Mld为第i个语音识别系统的识别结果对应的更新前的融合系数，i e [l，k]，Θ为缩放因子，PRi为第i个语音识别系统的识别结果的准确率。[0054]在一个实施例中，步骤3 )之后还包括:
[0055]对融合系数进行归一化处理。
[0056]在一个实施例中，所述识别结果的准确率为正确的字数与正确文本中字数的比值。
[0057]根据本发明的一个实施例，还提供一种用于融合多个语音识别系统的识别结果的系统，包括:
[0058]转换模块，用于将多个语音识别系统的识别结果分别表示为相应的候选列表；
[0059]融合模块，用于从所述转换模块得到的所有候选列表集合中任选两个候选列表进行对齐且合并；从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并，然后重复这一过程直到处理完该集合中所有候选列表；其中通过对齐且合并操作得到的候选列表为已融合候选列表。
[0060]采用本发明可融合多个语音识别系统的识别结果，生成候选列表。在提高语音识别准确率的同时，减少了用户的修正操作。
【专利附图】

【附图说明】
[0061]图1是根据本发明一个实施例的用于融合多个语音识别系统的识别结果的方法的流程图；
[0062]图2是候选列表的一个实施例的不意图；
[0063]图3是对语音进行识别得到的词网格的一个实施例的示意图；
[0064]图4a_4c是对多个语音识别系统的识别结果生成多个候选列表的一个实施例的示意图；
[0065]图5a和5b是分别对多个可能的文本的字数相同组生成候选列表的一个实施例的示意图；
[0066]图6是图5a和5b中的候选列表对齐结果的不意图；以及
[0067]图7是融合多个语音识别系统的识别结果得到的最终候选列表的一个实施例的示意图。
【具体实施方式】
[0068]为了使本发明的目的、技术方案及优点更加清楚，以下结合附图及实施例，对本发明提供的用于融合多个语音识别系统的识别结果的方法及系统进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
[0069]在一个方面，本发明提供一种用于融合多个语音识别系统的识别结果的方法。在该方法中，融合的结果以候选列表的形式呈现，即融合后生成新的、优于单个系统结果的候选列表。简要而言，该方法包括:将所有待融合的语音识别系统的识别结果表示为候选列表的形式；以及，将所有已表示为候选列表形式的识别结果进行融合，得到融合后的候选列表。
[0070]现参考图1且具体描述用于融合多个语音识别系统的识别结果的方法:
[0071]步骤1、将所有待融合的语音识别系统的识别结果表示为候选列表的形式
[0072]目前，语音识别系统的识别结果(包括中间结果)主要是如下几种形式之一:[0073]I)、所识别语音对应的唯一文本；
[0074]2)、所识别语音对应的多个可能的文本；
[0075]3)、语音识别系统对所识别语音进行识别后生成的词网格；
[0076]4 )、所识别语音对应的候选列表。
[0077]在一个实施例中，可将候选列表表示为一个候选列的序列LKC1, C2, , Cn)，其中η为候选列的个数，Ci (i=l,...，η)为第i个候选列。一个候选列C是一组候选字及其概率的集合，即 C=Kw1, P1), (w2, P2),...，(wm, pm)},其中 m 为候选字的个数,Wj (j=l, 2,..., m)为第j个候选字，Pj (」=1，2，...，111)为％对应的概率，《1—《111的和可为1。图2示出了候选列表的一个不例。
[0078]在一些实施例中，对于上述识别结果形式I) 一3)，要将其分别表示为候选列表的形式，可分别采用以下方式①一③:
[0079]①如果识别结果为所识别语音对应的唯一文本，则将该文本切分为字的序列。新建一个候选列表作为该识别结果对应的候选列表，将该候选列表的候选列个数设为切分出的字序列中字的个数；将候选列表中的每一个候选列设为只包含一个候选字，即切分出的字序列中对应位置的字，并将该候选字的概率设为I。
[0080]②如果识别结果为所识别语音对应的多个可能的文本，则对这些文本进行处理，生成对应的候选列表。在一个实施例中，其具体步骤可以包括:
[0081]步骤a)，将所识别语音对应的多个可能的文本按照文本的字数划分成若干组，每一组由字数相同的文本构成。假设分为η组,得到集合S=Iset1, set2,...，setj ,set； = ’...，卿 M,} Ui 为 Seti 中文本的个数)，其中 Seti (i=l, 2,...,η)中的每一条文本SeniJU=I,..., Iii)的字数都是相同的。
[0082]步骤b)，对上述生成的每一个包含相同字数的文本的组，生成一个候选列表。即对S中的每一个集合Seti,生成一个候选列表Li。这样对S可生成一个对应的候选列表的集合 LS= (L1, L2,..., LnI ο
[0083]生成Li的方法可以为:将1^中候选列的列数设为Seti中每个文本的字数；将1^中第j个候选列中的候选字集合设为Seti中所有文本的第j个字的集合，将各候选字的概率设为该候选字在所有文本的第j列中出现的频率。
[0084]步骤C)，将任意两个组对应的候选列表进行对齐与合并，生成一个新候选列表，并替换原来的两个候选列表。重复这一过程直到只剩一个候选列表，即为由所识别语音对应的多个可能的文本转换得到的候选列表。
[0085]也就是说，对LS中的任意两个候选列表L和L’进行对齐与合并，生成一个新候选列表Lm_ ;在LS中加入L—删除L和L。’重复这一过程直到LS中只剩一个候选列表，即为由所识别语音对应的多个可能的文本转换得到的候选列表。
[0086]将L和L ’进行对齐是指在两个候选列表的候选列之间建立对应,若两个候选列表的候选列数不同，则需根据对齐结果进行适当调整，使其列数相同。在一个实施例中，对齐的方法可采用基于改进的编辑距离对齐的方法。编辑距离又称Levenshtein距离，用于衡量两个字符串之间的差异性及对齐字符串。本发明中要对齐的对象是候选列表，因此，对编辑距离算法进行了改进。设L=(Ci，C2,, Cn)，其中η为候选列的个数，Ci(i=l，...,η)
为第i个候选列，(wl2,pl2),...,)}，其中Iii为Ci中候选字的个数；L’ = (C，ρ C’ 2，...，C’m)，其中m为候选列的个数，C’ j (j=l,...，m)为第j个候选列，
…，('、.，~,《^，其中~为^中候选字的个数。基于改进
的编辑距离对齐的方法如下:
[0087]i)，设置二维数组d[n+l] [m+1]用于记录动态规划对齐(即改进的编辑距离对齐)的中间结果，其中d[i] [j] (i=l,..., n; j=l,...，m)表示两个子候选列表(C1, C2,, Ci)与(C，u C' 2,...,C' j)之间的编辑距离。初始化 d[i] [0]=i, d[0] [j]=j ；
[0088]ii),对于 i=l,...，n, j=l,...，m,根据以下公式依次计算 d[i] [j]:
[0089]d[i] [j]=min{d[1-l] [j]+l, d[i] [j_l]+l, d[i] [j]+cost}
[0090]其中，min{}表示求最小值的操作，cost是Ci与C’ j之间的替换代价，其取值为O或I。记录求最小值操作的选择。以L为基准,若选择为d[i] [j]+cost,且cost=0,则称候选列Ci匹配成功；若选择为d[i] [j]+cost,且cost=l,则称在Ci处存在替换错误；若选择为d[1-l] [j]+l，则称在Ci处存在删除错误；若选择为d[i] [j_l]+l，则称在Ci处存在插入错误。
[0091]在进一步的实施例中，替换代价cost的计算方法如下:比较Ci与C’ j的第I个候选字，即Wiil与w’ j，i，如果这两个字拼音(不带声调)相同，则令COSt=O ;否则，依次计算C’ J的所有候选字{ %,U %'2，.., 乂的拼音与Wm的拼音之间的相似度，如果最大的相似度大于某个预先设定的阈值T,则令COSt=O,否则令cost=l。
[0092]在进一步的实施例中，拼音之间的相似度计算可以采用当前已有的多种方法，例如:采用音节混淆矩阵。音节混淆矩阵是一个汉语音节(可认为是拼音)之间混淆概率的矩阵，矩阵中的值(即两个音节的混淆概率)由语料训练得到，即采用一批语音数据，经语音识别系统识别后，将语音对应的正确文本与相应识别结果中的字对齐，然后统计任一音节被识别为另一任意音节的频率，将其作为两个音节的混淆概率。
[0093]iii)，利用计算编辑距离的过程中保存的求最小值操作时的选择对候选列表L与L’进行对齐与候选列调整。方法如下:从i=n，j=m开始向后回溯，具体规则为:考察计算d[i] [j]时求最小值操作时的选择，以L为基准，若候选列Ci匹配成功或存在替换错误，则将i和j的值都减I ;若Ci处存在插入错误，则将j的值减I ;若Ci处存在删除错误，则将I的值减I。如此重复，直到i与j的值均为O。对上述回溯过程中的每一对(i，j)，根据计算d[i][j]时求最小值操作时的选择，调整L与L’的候选列:以L为基准，若Ci处存在插入错误，则在L的第i个候选列之后插入一个候选列，该候选列只包含一个候选字，为空字符，其概率设为I ;若Ci处存在删除错误，则在L’的第j个候选列之后插入一个候选列，该候选列只包含一个候选字，为空字符，其概率设为I。
[0094]经上述对齐过程后，L与L’中包含的候选列个数相等，并且相同位置的候选列
--对应。
[0095]在将L与L’对齐后,在一个实施例中,可以米用插值的方法将两个候选列表进行合并，生成一个新的候选列表Lm?ge。生成的方法为:设经对齐调整后L和L’的候选列数均为1，对于i=l，2，...，1，将L和L’中第i个候选列中的所有候选字均加入Lnrew的第i个候选列，其中任一候选字w的概率为:
[0096]Pmerge (W) = λ lPl (w) + λ 2p2 (w)[0097]其中,P1 (w)和p2(w)分别为w在L和L’的第i个候选列中的概率,若w不在L的第i个候选列中，则P1 (W) =0,同理,若w不在L’的第i个候选列中，则P2 (w) =0 ; λ i和λ 2为合并系数，计算方法为:
[0098]
[0099]其中，H1, n2分别为L和L’对应的识别结果文本的个数。一个候选列表对应的识别结果文本的个数定义为:若候选列表由步骤b)生成，尚未经过合并，则其对应的识别结果文本的个数为步骤b)中生成该候选列表的识别结果文本组中所含文本的个数；若候选列表由两个候选列表在步骤c)中合并而成，则其对应的识别结果文本的个数为合并生成该候选列表的两个候选列表各自对应的识别结果文本的个数之和。
[0100]在另一个实施例中，还可以使用按出现次数投票的方法来合并两个候选列表。
[0101]应理解，如果识别结果为所识别语音对应的多个可能的文本，还可以用其他方式将其转换为候选列表的形式。例如，可将识别结果回溯为词网格，再将词网格转换为候选列表的形式(如下文所述)。
[0102]③如果识别结果为语音识别系统对所识别语音进行识别后生成的词网格，则将词网格转换为候选列表。转换的方法可采用当前已有方法，如采用专利ZL201010269306.9(名称为一种交互式语音识别系统和方法)中的“候选生成与错误修正模块”从词网格生成候选列表。
[0103]步骤2)、将所有已表示为候选列表形式的识别结果进行融合，得到融合后的候选列表。
[0104]在一个实施例中，假设所有识别结果对应的候选列表分别为L1, L2, , Lk，融合的方法包括:
[0105]首先，采用基于改进的编辑距离对齐的方法将L1与L2对齐，并将其合并生成新的候选列表Lmwgei。在生成时,将L1与L2中对应候选列中的所有候选字加入Lmwgei的相应候选列，其中任一候选字w的概率为:
[0106]Pmerge (W) = λ lPl (w) + λ 2p2 (w)
[0107]其中，P1(W)和p2(w)分别为w在L1与L2中的概率(若w不在L1或L2中则相应概率为O), λ工和λ 2为融合系数；
[0108]然后，依次将Lnrew与L3,...，Lk对齐合并，即每次合并的结果作为新的Lmwge与后续候选列表进行合并。对齐时可采用基于改进的编辑距离对齐的方法，合并时，将原有Lmew与Li (i=3,...，k)对应候选列中的所有候选字加入新列表Lnrat 的相应候选列，其中任一候选字w的概率为:
[0109]Pnew merge (w) =Pmerge (W) + λ iPi (w)
[0110]其中，Pmerge (w)为w在原有Lmwge的概率，Pi (W)为w在Li中的概率(若w不在Lmwge或Li中则相应概率为OXXi为融合系数。
[0111]最终得到的Lnew mew即为多个识别结果的融合结果，形式为一个候选列表。
[0112]上述过程中，基于改进的编辑距离对齐的方法与上文描述相同。λ” X2，...，Ak
为融合系数，其满足ΣΙλ =I在一个实施例中，在初始时，可根据在一个开发数据集上各识别结果的准确率情况人工来指定融合系数。
[0113]在进一步的实施例中，可在语音识别过程中利用用户修正信息动态调整各个识别引擎的识别结果在融合时的融合系数，使得识别准确率高的识别引擎对应的融合系数增大，识别准确率低的识别引擎对应的融合系数减小，从而提高融合后的识别结果的准确率。具体方法为:
[0114]在每识别完一句话，并将多个识别结果融合为一个候选列表显示在屏幕上后，可通过用户交互模块获取用户对识别结果的修正，从而得到这句话对应的正确文本。用户交互模块支持用户通过鼠标或触摸屏点击选择候选、通过鼠标或键盘删除错误的字、通过键盘或手写板输入正确的字。在获得这句话对应的正确文本后，可以和各个识别引擎的原始识别结果比较，计算出各个识别引擎识别结果的准确率，然后根据其准确率调整该引擎的识别结果对应的融合系数。设有k个语音识别引擎，其识别结果在融合时对应的融合系数分别为λ2，...，λ k，其识别结果的准确率分别为PR1, PR2,...，PRk，则根据下式调整融合系数:
【权利要求】
1.一种用于融合多个语音识别系统的识别结果的方法，包括: 步骤I)、将多个语音识别系统的识别结果分别表示为相应的候选列表；步骤2)、从步骤I)得到的所有候选列表集合中任选两个候选列表进行对齐且合并；从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并，然后重复这一过程直到处理完该集合中所有候选列表；其中通过对齐且合并操作得到的候选列表为已融合候选列表。
2.根据权利要求1所述的方法，其中，所述候选列表是候选列的序列，所述候选列是一组候选字及其概率的集合。
3.根据权利要求2所述的方法，其中，所述语音识别系统的识别结果包括所识别语音对应的多个文本。
4.根据权利要求3所述的方法，其中，步骤I)包括: 步骤11)、将所述多个文本按字数划分为不同的组，其中字数相同的文本为一组；步骤12)、对每个组新建一个候选列个数为该组每个文本的字数的候选列表，将该候选列表中每个候选列的候选字集合设为该组所有文本对应位置的字集合，且将每个候选字的概率设为该候选字在所述多个文本的对应位置出现的频率；步骤13)、从步骤12)得到的所有组的候选列表集合中任选两个候选列表进行对齐且合并，用所得到的候选列表代替所述两个候选列表；然后重复这一过程直到该集合中只剩一个候选列表。
5.根据权利要求4所述的方法，步骤13)中，对齐两个候选列表包括: 步骤i)、设置二维数组d[n+l] [m+1],其中，η是候选列表L= (C1, C2,, Cn)的候选列个数，m是另一候选列表m)的候选列个数，d[i] [j]表示两个子候选列表((；，(:2，...，(；)与((^，(:’2，...，(:’」)之间的编辑距离，i e [I, n], j e [l,m], d[i][0]=i, d[0] [j]=j ；步骤ii)、对于i从I到n，j从I到m,根据下式依次计算d[i] [j]: d[i] [j]=min{d[1-l] [j]+l, d[i] [j_l]+l, d[i] [j]+cost} 其中，cost是候选列Ci与C’ ^之间的替换代价，其取值为O或I ;若选择为d[i][j]+cost且COSt=O,则候选列Ci匹配成功；若选择为d[i] [j]+cost且cost=l ;则在Ci处存在替换错误；若选择为d[1-l] [j]+1，则在Ci处存在删除错误；若选择为d[i] [j_l]+l，则在Ci处存在插入错误；步骤iii)、对于i从η到0，j从m到0，若候选项Ci匹配成功或存在替换错误，则将i和j的值都减I ;若在Ci处存在插入错误，则在候选列表L的第i个候选列之后插入一个候选列，该候选列包含一个空字符的候选字，其概率设为1，将j的值减I ;若在Ci处存在删除错误，则在候选列表L’的第j个候选列之后插入一个候选列，该候选列包含一个空字符的候选字，其概率设为1，将i的值减I。
6.根据权利要求5所述的方法，其中，根据以下步骤计算候选列Ci与C’j之间的替换代价cost: 步骤a)、比较Ci与C’ j的第I个候选字Wm与w’ J-1；如果Wm与w’ J；1拼音相同则设Cost=O,否则执行步骤b)；步骤b )、依次计算C’ j的所有候选字{ Wja，,..., Wjjnf }的拼音与Wi, I的拼音之间的相似度，如果其中最大的相似度大于预定阈值则设
7.根据权利要求4所述的方法，步骤13)中，合并对齐后的两个候选列表包括: 新建一个候选列表L—其候选列个数与对齐后的两个候选列表L和L’的候选列个数相同；将Lnrew中每个候选列的候选字集合设为对齐后的L和L’在该候选列的所有候选字的集合；以及根据下式计算在该候选列的每个候选字w的概率:
8.根据权利要求7所述的方法，其中，根据下式计算合并系数入1和λ2:
9.根据权利要求2所述的方法，其中，所述语音识别系统的识别结果包括所识别语音对应的唯一文本。
10.根据权利要求9所述的方法，其中，步骤I)包括: 新建一个候选列个数为文本字数的候选列表；将该候选列表中每个候选列的候选字设为该文本对应位置的字，且将其概率设为I。
11.根据权利要求1所述的方法，其中，所述语音识别系统的识别结果包括词网格。
12.根据权利要求1-11中任何一个所述的方法，步骤2)中，合并对齐后的任选的两个候选列表包括: 新建一个候选列表Lmwgei,其候选列个数与对齐后的候选列表L1和L2的候选列个数相同；将中每个候选列的候选字集合设为对齐后的L1和L2在该候选列的所有候选字的集合；以及根据下式计算在该候选列的每个候选字w的概率:
13.根据权利要求12所述的方法，步骤2)中，合并对齐后的集合中任选的一个候选列表与已融合候选列表包括: 新建一个候选列表LnOT—mOTge;,其候选列个数与对齐后的未融合候选列表Li和已融合候选列表的候选列个数相同，其中i e [3，k]，k为所有候选列表的个数；将Lrewjiwgei中每个候选列的候选字集合设为对齐后的Lmwgei和Li在该候选列的所有候选字的集合；以及根据下式计算在该候选列的每个候选字W的概率:
Pnew_merge (?) =Pmerge (?) + 入 iPi (W) 其中，Pmerge (W)为W在对齐后的LmOTge;中该候选列的概率，Pi (W)为W在对齐后的Li中该候选列的概率；λ i为融合系数。
14.根据权利要求13所述的方法，其中，融合系数由在一个开发数据集上各语音识别系统的识别结果的准确率来指定。
15.根据权利要求14所述的方法，其中，步骤2)之后还包括: 步骤3)、根据下式调整融合系数:
入 i，new_ 入 i，old+ ^.P^i 其中，λ ^old为第i个语音识别系统的识别结果对应的更新前的融合系数，i e [I, k]，Θ为缩放因子，PRi为第i个语音识别系统的识别结果的准确率。
16.根据权利要求15所述的方法，其中，步骤3)之后还包括: 对融合系数进行归一化处理。
17.根据权利要求15所述的方法，其中，所述识别结果的准确率为正确的字数与正确文本中字数的比值。
18.一种用于融合多个语音识别系统的识别结果的系统，包括: 转换模块，用于将多个语音识别系统的识别结果分别表示为相应的候选列表；融合模块，用于从所述转换模块得到的所有候选列表集合中任选两个候选列表进行对齐且合并；从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并，然后重复这一过程直到处理完该集合中所有候选列表；其中通过对齐且合并操作得到的候选列表为已融合候选列表。
【文档编号】G10L15/26GK103474069SQ201310413628
【公开日】2013年12月25日申请日期:2013年9月12日优先权日:2013年9月12日
【发明者】王向东, 杨阳, 钱跃良申请人:中国科学院计算技术研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王向东;杨阳;钱跃良
技术所有人：中国科学院计算技术研究所
我是此专利的发明人

上一篇：语音滤波方法、装置以及电子设备的制作方法
上一篇：语音信号处理方法与装置制造方法