语音识别标点生成方法及电子设备和存储介质与流程

文档序号：33941913发布日期：2023-04-26 02:08阅读：43来源：国知局

本发明属于语音识别，尤其涉及一种语音识别标点生成方法及电子设备和存储介质。

背景技术：

1、现有技术是通过利用大规模文本训练，训练时输入无标签文本，输出标点的分类。推断时输入语音识别结果文本，输出标点的分类。语言模型参数量较大，非常占用计算资源，在计算资源受限如芯片、终端等环境下时延较高。后处理的训练和推断时的输入是失配的，训练时输入是自然语言，推断时输入是语音识别结果文本，后者是存在错误的。

2、现有技术也通常会采用模型蒸馏、模型量化的方式，或将标点直接当作一个语音识别的字符来建模。这样的方案较为直接，可以直接将原本的大模型变为小模型。芯片等环境下的语音识别、标点生成需要考虑计算资源，而不考虑计算资源的情况下，后处理确实是性价比相对高且好实现的方案。相对而言，将标点当作语音识别字符来建模减少了很多参数量，但很大程度上影响了最终的性能。

3、发明人发现：上述技术提供的能力是单一的，在产品的设计不能满足用户的实际需求，对于使用语言模型会增大参数量，且非常占用计算资源，对于后处理的训练和推断时的输入是失配的，会导致两阶段处理的输入失配。

技术实现思路

1、本发明实施例旨在至少解决上述技术问题之一。

2、第一方面，本发明实施例提供一种语音识别标点生成方法，包括：将待识别语音输入至语音识别编码器，得到所述语音识别编码器输出的编码结果；将所述编码结果输入至语音识别解码器，得到所述语音识别解码器输出的解码中间结果；经由与语音识别输出层输出与所述解码中间结果对应的语音识别中间结果，并经由标点输出层输出与所述解码中间结果对应的标点中间结果；将所述语音识别中间结果和所述标点中间结果联合所述编码结果输入至所述语音识别解码器，循环迭代直至解码完成，输出语音识别最终结果及标点最终结果。

3、第二方面，本发明实施例还提供一种语音识别标点生成方法，包括：将待识别语音输入至语音识别标点生成编码器，得到所述语音识别标点生成编码器输出的编码结果；将所述编码结果输入至语音识别标点生成解码器，得到语音识别最终结果及标点最终结果。

4、第三方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项语音识别标点生成方法。

5、第四方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音识别标点生成方法。

6、第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音识别标点生成方法。

7、本发明实施例通过将标点任务和语音识别结合在一起，仅需使用少量额外参数，又避免了两阶段处理导致的输入失配问题，同时也减小了对最终性能的影响。

技术特征：

1.一种语音识别标点生成方法，包括：

2.根据权利要求1所述的方法，其中，所述标点输出层为分类线性层，所述标点输出层的输入与所述语音识别解码器的输出相关。

3.根据权利要求2所述的方法，其中，所述标点输出层的输入包括：所述语音识别解码器的解码器层中第一层的输出、所述语音识别解码器的解码器层中中间层的输出、所述语音识别解码器的解码器层中最后层的输出或所述语音识别解码器的解码器层中不同层的输出特征求和。

4.根据权利要求3所述的方法，其中，所述标点输出层的输入为所述语音识别解码器的解码器层中最后层的输出。

5.根据权利要求1所述的方法，其中，所述语音识别解码器同时分别建模语音识别文本的预测和标点的预测。

6.根据权利要求1-5中任一项所述的方法，其中，所述方法用于联合语音识别-标点生成模型，所述联合语音识别-标点生成模型包括所述语音识别编码器、所述语音识别解码器、所述语音识别输出层和所述标点输出层，所述联合语音识别-标点生成模型训练时利用多任务学习框架同时优化语音识别和标点生成。

7.一种语音识别标点生成方法，包括：

8.根据权利要求7所述的方法，其中，所述方法用于联合语音识别-标点生成模型，所述联合语音识别-标点生成模型包括所述语音识别标点生成编码器和所述语音识别标点生成解码器，所述语音识别标点生成编码器同时分别建模语音识别文本的编码和标点的编码，所述语音识别标点生成解码器同时分别建模语音识别文本的预测和标点的预测。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。

技术总结
本发明公开一种语音识别标点生成方法、电子设备和存储介质，其中方法包括：将待识别语音输入至语音识别编码器，得到语音识别编码器输出的编码结果；将编码结果输入至语音识别解码器，得到语音识别解码器输出的解码中间结果；经由与语音识别输出层输出与解码中间结果对应的语音识别中间结果，并经由标点输出层输出与解码中间结果对应的标点中间结果；将语音识别中间结果和标点中间结果联合编码结果输入至语音识别解码器，循环迭代直至解码完成，输出语音识别最终结果及标点最终结果。本发明实施例通过将标点任务和语音识别结合在一起，仅需使用少量额外参数，又避免了两阶段处理导致的输入失配问题，同时也减小了对最终性能的影响。

技术研发人员：谭天,周之恺,钱彦旻
受保护的技术使用者：思必驰科技股份有限公司
技术研发日：
技术公布日：2024/1/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谭天周之恺钱彦旻
技术所有人：思必驰科技股份有限公司
我是此专利的发明人

上一篇：一种智慧物流仓储系统的制作方法
上一篇：一种远程运维跨网段虚拟键盘鼠标控制系统的制作方法