用于优化语音识别结果的方法和装置的制造方法_4

文档序号：9867720阅读：来源：国知局

算是比较语音识别结果10中的片段的音素序列和关键词音素序列的差异，优选通过音素混淆矩阵来加权每一个音素对之间的声学距离。音素是发音的基本单元，对中文而言，音素可以是拼音，也可以把拼音再拆为声母(Initial)和韵母(Final)，甚至把复韵母再细拆为各单韵母。一般情况下声母加韵母的音素划分对本实施方式的方法已非常精确。音素混淆矩阵是根据对识别结果的统计所得到的反映各音素彼此之间易混淆程度的定量描述，即为一种从语音识别角度对声学相似度的描述。两个发音比较类似的音素之间声学距离较近，比如“in”和“ing”发音比较类似，“in”被误识别成“ing”或者“ing”被误识别成“in”的概率都很大，所以当输出片段和关键词的音素序列中出现这种发音差异时，其对声学距离的贡献较小。反之两个发音差异较大的音素之间的声学距离也较大。
[0147]由于中文是带调语言，在计算声学距离时可再加入对音调序列的比较，且优选使用音调混淆矩阵进行加权。
[0148]在本实施方式中，音素序列的声学距离和音调序列的声学距离，优选通过一定权重相加，例如将两者的权重分别设为w和Ι-w。若只考虑计算音素序列的声学距离，则其对应于W= I的情况。进而，语音识别结果的片段和关键词之间的声学距离再除以关键词的字的个数、音节的个数或音素的个数，得到单个字、单个音节或者单个音素的平均声学距离。
[0149]下面以片段“茶{cha2}果{guo3} ”和关键词“叉管{chalguan3} ”为例对计算单元505计算平均声学距离的过程进行描述。
[0150]第一，基于片段“茶{cha2}果化^^丨”的音素序列“吐一’&恥”和关键词“叉管{chalguan3} ”的音素序列“ch, a, g, uan”计算二者的音素声学距离，在计算过程中，利用音素混淆矩阵对每个音素对之间的声学距离进行加权。
[0151]第二，基于片段“茶{cha2}果{guo3}，，的音调序列“2，3”和关键词“叉管{chalguan3} ”的音调序列“1，3”计算二者的音调声学距离，在计算过程中，利用音调混淆矩阵对每个音调对之间的声学距离进行加权。
[0152]第三，将音素声学距离和音调声学距离的权重分别设为w和1-w，计算二者的加权平均值，作为上述片段和关键词之间的声学距离，
[0153]第四，将上述片段和关键词之间的声学距离再除以关键词的字数‘2’、音节数‘2’或音素数‘4’，得到单个字、单个音节或单个音素的平均声学距离。
[0154]在本实施例中，还包括比较单元，其对计算单元505计算得到的平均声学距离与第I阈值THl进行比较，在平均声学距离小于THl的情况下，比较单元继续对片段“茶{cha2}果{guo3} ”的语言模型得分与第2阈值进行比较。片段“茶{cha2}果{guo3} ”的语言模型得分基于片段中的词“茶Icha2} ”的语音模型得分LMS3和词“果{guo3} ”的语音模型得分LMS4，例如将二者的乘积作为该片段的语音模型得分。
[0155]在语言模型得分小于TH2的情况下，替换单元510将片段“茶{cha2}果{guo3} ”替换为关键词“叉管{chalguan3} ”。在平均声学距离大于等于THl或者语言模型得分大于等于TH2的情况下，替换单元510不进行替换而保留片段“茶{cha2}果{guo3} ”。
[0156]本实施方式的用于优化语音识别结果的装置，通过关键词列表20对语音识别结果10中被错误识别的关键词进行优化，能够提高语音识别结果的质量，改善语音识别系统，尤其是会议支援系统的性能。本实施方式的装置不涉及对语音识别引擎的修改，功能实现非常容易，计算量非常小，使用方便，添加或更改关键词只需修改对应的关键词列表文件。
[0157]本实施方式的装置优选仅对语言模型得分低的片段进行替换，能够提高替换的正确率。另外，由于语言模型得分是利用语音识别结果中已有的数据，因此计算量非常小。本实施方式的装置优选仅对语言模型得分低的片段进行计算，能够进一步降低计算量。本实施方式的装置优选通过字一级或词一级的处理计算声学距离，因此计算量非常小。
[0158]本领域的普通技术人员可以理解上述的方法和装置可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD - ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的方法和装置也可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以由上述硬件电路和软件的结合例如固件来实现。
[0159]虽然以上结合具体实施例对本发明的用于优化语音识别结果的方法和装置进行了详细描述，但本发明并不限于此，本领域普通技术人员能够理解可以对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围；本发明的保护范围由所附权利要求来限定。
【主权项】
1.一种用于优化语音识别结果的装置，包括: 接收单元，其接收语音识别结果；计算单元，其计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度；以及替换单元，其在上述发音相似度高于第I阈值的情况下，将上述片段替换为上述关键?.κ| ο2.根据权利要求1所述的装置，其中，上述替换单元，在上述发音相似度高于上述第I阈值且上述片段的语言模型得分低于第2阈值的情况下，将上述片段替换为上述关键词。3.根据权利要求2所述的装置，其中，上述计算单元，计算上述语音识别结果中的语言模型得分低于上述第2阈值的片段和上述关键词列表中的关键词之间的发音相似度。4.根据权利要求1所述的装置，其中，上述计算单元，计算上述语音识别结果中的片段和关键词列表中的关键词之间的声学距离，并基于上述声学距离除以上述关键词的字数、音节数或音素数的平均声学距离，计算上述发音相似度。5.根据权利要求4所述的装置，其中，上述计算单元，计算上述片段的音素序列和上述关键词的音素序列之间的音素声学距离。6.根据权利要求5所述的装置，其中，上述计算单元，利用音素混淆矩阵作为权重来计算上述片段的音素序列和上述关键词的音素序列之间的音素声学距离。7.根据权利要求5所述的装置，其中，上述计算单元，计算上述片段的音调序列和上述关键词的音调序列之间的音调声学距离。8.根据权利要求7所述的装置，其中，上述计算单元，利用音调混淆矩阵作为权重计算上述片段的音调序列和上述关键词的音调序列之间的音调声学距离。9.根据权利要求7所述的装置，其中，上述计算单元，计算上述片段和上述关键词的音素序列之间的音素声学距离和上述片段和上述关键词的音调序列之间的音调声学距离的加权平均值，作为上述片段和上述关键词之间的上述声学距离。10.一种用于优化语音识别结果的方法，包括以下步骤: 接收语音识别结果；计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度；以及在上述发音相似度高于第I阈值的情况下，将上述片段替换为上述关键词。
【专利摘要】本发明提供用于优化语音识别结果的方法和装置。根据一个实施方式，用于优化语音识别结果的装置包括：接收单元，其接收语音识别结果；计算单元，其计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度；以及替换单元，其在上述发音相似度高于第1阈值的情况下，将上述片段替换为上述关键词。
【IPC分类】G10L15/06, G10L15/26
【公开号】CN105632499
【申请号】CN201410602377
【发明人】雍坤, 丁沛, 朱会峰
【申请人】株式会社东芝
【公开日】2016年6月1日
【申请日】2014年10月31日
【公告号】US20160125874

完整全部详细技术资料下载

当前第4页1 2 3 4