用于优化语音识别结果的方法和装置的制造方法_2

文档序号：9867720阅读：来源：国知局

仅对语言模型得分低的片段进行计算，能够进一步降低计算量。
[0049][15]根据上述[12]?[14]的任一方案所述的装置，其中，
[0050]上述计算单元，计算上述语音识别结果中的片段和关键词列表中的关键词之间的声学距离，并基于上述声学距离除以上述关键词的字数、音节数或音素数的平均声学距离，计算上述发音相似度。
[0051]上述方案[15]的装置中，由于声学距离计算是字一级或词一级的处理，因此计算量非常小。
[0052][16]根据上述[12]?[15]的任一方案所述的装置，其中，
[0053]上述计算单元，计算上述片段的音素序列和上述关键词的音素序列之间的音素声学距离。
[0054][17]根据上述[16]所述的装置，其中，
[0055]上述计算单元，利用音素混淆矩阵作为权重来计算上述片段的音素序列和上述关键词的音素序列之间的音素声学距离。
[0056][18]根据上述[12]?[17]的任一方案所述的装置，其中，
[0057]上述计算单元，计算上述片段的音调序列和上述关键词的音调序列之间的音调声学距离。
[0058][19]根据上述[18]所述的装置，其中，
[0059]上述计算单元，利用音调混淆矩阵作为权重计算上述片段的音调序列和上述关键词的音调序列之间的音调声学距离。
[0060][20]根据上述[12]?[19]的任一方案所述的装置，其中，
[0061]上述计算单元，计算上述片段和上述关键词的音素序列之间的音素声学距离和上述片段和上述关键词的音调序列之间的音调声学距离的加权平均值，作为上述片段和上述关键词之间的上述声学距离。
[0062][21]根据上述[12]?[20]的任一方案所述的装置，其中，
[0063]上述片段包括上述语音识别结果中的词、相邻的多个词的组合或相邻的多个字的组合。
[0064][22]根据上述[12]?[21]的任一方案所述的装置，其中，
[0065]上述片段的语言模型得分基于与上述片段相关的词的语言模型得分计算。
【附图说明】
[0066]结合附图，从下面对本发明的实施例的详细描述中本发明的目的、特点和优点将显而易见，其中:
[0067]图1示出了根据本发明的一个实施方式的用于优化语音识别结果的方法的流程图。
[0068]图2示出了本发明的用于优化语音识别结果的方法的一个优选实施例的流程图。
[0069]图3示出了对语音识别结果和关键词列表进行匹配的一个实例。
[0070]图4示出了计算平均声学距离的一个具体实例。
[0071]图5示出了根据本发明的另一个实施方式的用于优化语音识别结果的装置的框图。
【具体实施方式】
[0072]下面，结合附图对本发明的实施方式进行详细描述。
[0073]<用于优化语音识别结果的方法>
[0074]本发明的第I实施方式提供一种用于优化语音识别结果的方法，包括以下步骤:接收语音识别结果；计算上述语音识别结果中的片段和关键词列表中的关键词之间的发音相似度；以及在上述发音相似度高于第I阈值的情况下，将上述片段替换为上述关键词。
[0075]图1示出了根据本发明的第I实施方式的用于优化语音识别结果的方法的流程图。
[0076]首先，如图1所示，在步骤S101，接收来自语音识别引擎的语音识别结果10。
[0077]在本实施方式中，接收的语音识别结果10可以是利用本领域的技术人员公知的任何语音识别引擎或系统获得的结果，其可以是各种语言的语音识别结果，例如汉语、英语、日语等，本发明对此没有任何限制。
[0078]接着，在步骤S105，计算语音识别结果10中的片段和关键词列表20中的关键词之间的发音相似度。
[0079]在本实施方式中，语音识别结果的片段包括语音识别结果中的词、相邻的多个词的组合或相邻的多个字的组合。
[0080]在本实施方式中，步骤S105计算发音相似度的过程实际上是对语音识别结果与关键词列表进行匹配的过程，即利用关键词列表捕捉语音识别结果中的错误输出片段的过程。
[0081]在步骤S105中，优选，从语音识别结果的开头进行匹配，直到对所有识别结果完成匹配。另外，为了节约计算量，也可以只对语音识别结果中的语言模型得分低于第2阈值的片段和关键词列表进行匹配。语音识别结果的片段的语言模型得分可以基于与该片段相关的词的语言模型得分计算，而语音识别结果的词的语言模型得分是语音识别结果中已有的数据。
[0082]图3示出了对语音识别结果和关键词列表进行匹配的一个实例。
[0083]如图3所不，语音识别结果“高强度{gaolqiang2du4, LMS1}茶{cha2, LMS2}果{guo3, LMS3}制作{zhi4zuo4，LMS4} ”包括4个词、每个词的语言模型得分LMS和每个词的每个字的拼音和音调。关键词列表“关键词_1 {PinYin_l}，...叉管{chalguan3}，...关键词_N{PinYin_N} ”包括N个关键词和每个关键词的每个字的拼音和音调。
[0084]在图3所示的实例中，将第2个词“茶{cha2，LMS2} ”和第3个词“果{guo3，LMS3} ”组合成一个片段，并将关键词列表中的每个关键词分别与语音识别结果的3个片段进行匹配，求出每个关键词与每个片段之间的发音相似度。
[0085]在该实例中，尽管示出了对于所有的关键词，都将第2个词“茶{cha2，LMS2} ”和第3个词“果{guo3，LMS3} ”组合成一个片段，但是本实施方式并不限于此，也可以针对每个关键词，对语音识别结果中的相邻的多个词或相邻的多个字进行组合。
[0086]下面以“高强度茶果制作”和“叉管”为例说明匹配方法。
[0087]语音识别结果:高强度茶果制作
[0088]待匹配的关键词:叉管
[0089]一种匹配方法是词一级别的模糊匹配:
[0090]待匹配片断将是一个或多个邻近词，至少包括了下面几种相似度计算:
[0091]茶〈-> 叉管
[0092]茶果〈-> 叉管
[0093]茶果制作〈_>叉管
[0094]果制作〈_>叉管
[0095]高强度茶果制作〈_>叉管
[0096]...
[0097]另一种匹配方法是字一级别的模糊匹配:
[0098]待匹配片断将是一个或多个邻近字，需要匹配的种类要比第一种情况多，至少包括了下面几种相似度计算:
[0099]强度〈-> 叉管
[0100]度〈_>叉管
[0101]度茶〈-> 叉管
[0102]茶〈-> 叉管
[0103]茶果〈_>叉管
[0104]果制〈_>叉管
[0105]高强度茶果制作〈_>叉管
[0106]
[0107]上述匹配方法的具体算法优选使用动态规划算法，可以有效降低算法的消耗时间。
[0108]在本实施方式中，片段和关键词之间的发音相似度是指二者的发音的相似程度，其优选通过二者的声学距离进行计算。如果二者的声学距离越小，则二者的相似程度越高。声学距离的计算将在下文中结合附图进行详细描述。
[0109]接着，在步骤S110，在片段和关键词的发音相似度高于第I阈值的情况下，将片段替换为关键词。
[0110]在本实施方式中，第I阈值和第2阈值可以根据实际需要进行设置，本实施方式对此没有任何限制。
[0111]下面结合图2至图4详细说明本发明的用于优化语音识别结果的方法的一个优选实施

完整全部详细技术资料下载

当前第2页1 2 3 4