用于优化语音识别结果的方法和装置的制造方法_3

文档序号：9867720阅读：来源：国知局

例。
[0112]如图2所述，在步骤S201，与步骤SlOl相同，接收语音识别结果10。
[0113]接着，在步骤S205，计算语音识别结果10中的片段和关键词列表20中的关键词之间的平均声学距离。
[0114]在本实施例中，声学距离的计算是比较语音识别结果10中的片段的音素序列和关键词音素序列的差异，优选通过音素混淆矩阵来加权每一个音素对之间的声学距离。音素是发音的基本单元，对中文而言，音素可以是拼音，也可以把拼音再拆为声母(Initial)和韵母(Final)，甚至把复韵母再细拆为各单韵母。一般情况下声母加韵母的音素划分对本实施方式的方法已非常精确。音素混淆矩阵是根据对识别结果的统计所得到的反映各音素彼此之间易混淆程度的定量描述，即为一种从语音识别角度对声学相似度的描述。两个发音比较类似的音素之间声学距离较近，比如“in”和“ing”发音比较类似，“in”被误识别成“ing”或者“ing”被误识别成“in”的概率都很大，所以当输出片段和关键词的音素序列中出现这种发音差异时，其对声学距离的贡献较小。反之两个发音差异较大的音素之间的声学距离也较大。
[0115]由于中文是带调语言，在计算声学距离时可再加入对音调序列的比较，且优选使用音调混淆矩阵进行加权。
[0116]在本实施方式中，音素序列的声学距离和音调序列的声学距离，优选通过一定权重相加，例如将两者的权重分别设为w和1-w。若只考虑计算音素序列的声学距离，则其对应于W= I的情况。进而，语音识别结果的片段和关键词之间的声学距离再除以关键词的字的个数、音节的个数或音素的个数，得到单个字、单个音节或者单个音素的平均声学距离。
[0117]下面结合图4详细描述计算平均声学距离的过程。
[0118]如图4所述，以片段“茶{cha2}果{guo3} ”和关键词“叉管{chalguan3} ”为例进行描述。
[0119]第一，基于片段“茶{cha2}果化^^丨”的音素序列“吐一’&恥”和关键词“叉管{chalguan3} ”的音素序列“ch, a, g, uan”计算二者的音素声学距离，在计算过程中，利用音素混淆矩阵对每个音素对之间的声学距离进行加权。
[0120]第二，基于片段“茶{cha2}果{guo3}”的音调序列“2，3”和关键词“叉管{chalguan3} ”的音调序列“1，3”计算二者的音调声学距离，在计算过程中，利用音调混淆矩阵对每个音调对之间的声学距离进行加权。
[0121]第三，将音素声学距离和音调声学距离的权重分别设为w和1-w，计算二者的加权平均值，作为上述片段和关键词之间的声学距离，
[0122]第四，将上述片段和关键词之间的声学距离再除以关键词的字数‘2’、音节数‘2’或音素数‘4’，得到单个字、单个音节或者单个音素的平均声学距离。
[0123]返回图2，接着，在步骤S210，对步骤S205计算得到的平均声学距离与第I阈值THl进行比较，在平均声学距离小于THl的情况下，进入步骤S215，否则，进入步骤S225。
[0124]在步骤S215，对片段“茶{cha2}果{guo3} ”的语言模型得分与第2阈值进行比较。片段“茶{cha2}果{guo3}”的语言模型得分基于片段中的词“茶{cha2} ”的语音模型得分LMS3和词“果{guo3} ”的语音模型得分LMS4，例如将二者的乘积作为该片段的语音模型得分。
[0125]在步骤S215，在语言模型得分小于TH2的情况下，进入步骤S220，否则，进入步骤S225。
[0126]在步骤S220，将片段“茶{cha2}果{guo3} ”替换为关键词“叉管{chalguan3} ”。在步骤S225，保留片段“茶{cha2}果{guo3} ”而不进行替换。
[0127]本实施方式的用于优化语音识别结果的方法，通过关键词列表20对语音识别结果10中被错误识别的关键词进行优化，能够提高语音识别结果的质量，改善语音识别系统，尤其是会议支援系统的性能。本实施方式的方法不涉及对语音识别引擎的修改，功能实现非常容易，计算量非常小，使用方便，添加或更改关键词只需修改对应的关键词列表文件。
[0128]本实施方式的方法优选仅对语言模型得分低的片段进行替换，能够提高替换的正确率。另外，由于语言模型得分是利用语音识别结果中已有的数据，因此计算量非常小。本实施方式的方法优选仅对语言模型得分低的片段进行计算，能够进一步降低计算量。本实施方式的方法优选通过字一级或词一级的处理计算声学距离，因此计算量非常小。
[0129]<用于优化语音识别结果的装置>
[0130]在同一发明构思下，图5示出了根据本发明的另一个实施方式的用于优化语音识别结果的装置的框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。
[0131]如图5所示，本实施例的用于优化语音识别结果的装置500包括:接收单元501，其接收语音识别结果；计算单元505，其计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度；以及替换单元510，其在上述发音相似度高于第I阈值的情况下，将上述片段替换为上述关键词。
[0132]在本实施方式中，接收单元501接收来自语音识别引擎的语音识别结果10。
[0133]在本实施方式中，接收单元501接收的语音识别结果10可以是利用本领域的技术人员公知的任何语音识别引擎或系统获得的结果，其可以是各种语言的语音识别结果，例如汉语、英语、日语等，本发明对此没有任何限制。
[0134]在本实施方式中，计算单元505计算语音识别结果10中的片段和关键词列表20中的关键词之间的发音相似度。
[0135]在本实施方式中，语音识别结果的片段包括语音识别结果中的词、相邻的多个词的组合或相邻的多个字的组合。
[0136]在本实施方式中，计算单元505计算发音相似度的过程实际上是对语音识别结果与关键词列表进行匹配的过程，即利用关键词列表捕捉语音识别结果中的错误输出片段的过程。
[0137]计算单元505，优选，从语音识别结果的开头进行匹配，直到对所有识别结果完成匹配。另外，为了节约计算量，也可以只对语音识别结果中的语言模型得分低于第2阈值的片段和关键词列表进行匹配。语音识别结果的片段的语言模型得分可以基于与该片段相关的词的语言模型得分计算，而语音识别结果的词的语言模型得分是语音识别结果中已有的数据。
[0138]计算单元505对语音识别结果和关键词列表进行匹配的具体实例如图3所示，具体内容与上述结合图3的描述相同，在此不再赘述。
[0139]计算单元505对语音识别结果和关键词进行匹配的方法可以使用上述步骤S105中描述的词一级别的模糊匹配方法或者字一级别的模糊匹配方法，在此不再赘述。这些匹配方法的具体算法优选使用动态规划算法，可以有效降低算法的消耗时间。
[0140]在本实施方式中，片段和关键词之间的发音相似度是指二者的发音的相似程度，其优选通过二者的声学距离进行计算。如果二者的声学距离越小，则二者的相似程度越高。声学距离的计算将在下文中结合附图进行详细描述。
[0141]在本实施方式中，替换单元510在片段和关键词的发音相似度高于第I阈值的情况下，将片段替换为关键词。
[0142]在本实施方式中，第I阈值和第2阈值可以根据实际需要进行设置，本实施方式对此没有任何限制。
[0143]下面详细说明本发明的用于优化语音识别结果的装置的一个优选实施例。
[0144]在本实施例中，接收单元501接收语音识别结果10。
[0145]在本实施例中，计算单元505计算语音识别结果10中的片段和关键词列表20中的关键词之间的平均声学距离。
[0146]在本实施例中，声学距离的计

完整全部详细技术资料下载

当前第3页1 2 3 4