使用主语音识别引擎和辅语音识别引擎的语音识别的制作方法

文档序号：35214066发布日期：2023-08-24 15:26阅读：34来源：国知局

背景技术：

1、语音识别通常使用先行缓冲器以用于处理，以便提高准确性。先行缓冲器越长，语音识别结果对用户显现得就越晚。说出口语词的时间与将其识别并显示给用户的时间之间的时间差是延迟周期。长的延迟周期可能会使语音识别引擎(sre)显得迟钝，导致用户不满意。然而，缩短先行缓冲器可能会给准确性带来不利影响，也会造成用户不满意。

技术实现思路

1、下面参考下文所列出的附图对所公开的示例进行详细描述。提供以下
技术实现要素：
以说明本文中所公开的一些示例。然而，这并不意味着将所有示例限于任何特定配置或操作序列。

2、所公开的语音识别技术至少通过执行以下操作来改善用户感知的延迟，同时维持准确性。由主(例如，精确)语音识别引擎(sre)和辅(例如，快速)sre并行地接收音频流。利用主sre生成主结果。利用辅sre生成辅结果。将辅结果附加到词列表。将主结果合并到词列表中的辅结果中。合并例如包括：使主结果与辅结果同步；在主结果或辅结果内，确定至少一些词是否属于类模型；确定主结果中与辅结果中的对应词相对应的词；如果辅结果中的对应词不属于类模型，则利用主结果中的词替换辅结果中的对应词。

技术特征：

1.一种语音识别的方法，所述方法包括：

2.根据权利要求1所述的方法，还包括：

3.根据权利要求1至2中任一项所述的方法，还包括：

4.根据权利要求1至3中任一项所述的方法，其中使所述主结果与所述辅结果同步包括：将所述主结果的同步标志与所述辅结果的同步标志进行比较。

5.根据权利要求1至4中任一项所述的方法，还包括：

6.一种用于语音识别的系统，所述系统包括：

7.根据权利要求6所述的系统，其中所述指令还可操作以：

8.根据权利要求6至7中任一项所述的系统，其中所述指令还可操作以：

9.根据权利要求6至8中任一项所述的系统，其中使所述主结果与所述辅结果同步包括：将所述主结果的同步标志与所述辅结果的同步标志进行比较。

10.根据权利要求6至9中任一项所述的系统，其中所述指令还可操作以：

11.一种计算设备，所述计算设备具有存储在其上的计算机可执行指令，所述计算机可执行指令在由计算机执行时，使所述计算机执行操作，所述操作包括：

12.根据权利要求11所述的一个或多个计算机存储设备，其中所述操作还包括：

13.根据权利要求11至12中任一项所述的一个或多个计算机存储设备，其中所述操作还包括：

14.根据权利要求11至13中任一项所述的一个或多个计算机存储设备，其中使所述主结果与所述辅结果同步包括：将所述主结果的同步标志与所述辅结果的同步标志进行比较。

15.根据权利要求11至14中任一项所述的一个或多个计算机存储设备，其中所述操作还包括：

技术总结
所公开的语音识别技术通过以下操作改进用户感知的延迟，同时维持准确性：由主(例如，准确)语音识别引擎(SRE)和辅(例如，快速)SRE并行地接收音频流；利用主SRE生成主结果；利用辅SRE生成辅结果；将辅结果附加到词列表；以及将主结果合并到词列表中的辅结果中。将来自主SRE和辅SRE的输出组合到如本文中所描述的单个解码器中改善了用户感知的延迟，同时维持或者提高了准确性，以及其他优点。

技术研发人员：H·A·卡里尔,E·斯托伊梅诺夫,C·H·巴索戈鲁,K·库玛,武健
受保护的技术使用者：微软技术许可有限责任公司
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：H
技术所有人：微软技术许可有限责任公司
我是此专利的发明人