一种音频处理方法、音频处理系统和存储介质与流程

文档序号：38489228发布日期：2024-06-27 11:47阅读：97来源：国知局

本申请实施例涉及但不限于语音处理，尤其涉及一种音频处理方法、音频处理系统和存储介质。

背景技术：

1、在现代通信技术领域，语音识别作为一种人机交互手段，被广泛应用于智能助手、自动语音转写、智能家居控制等众多场景。随着技术的发展，用户对语音识别系统的响应速度和实时性要求越来越高。因此，流式解码技术，也就是在语音信号输入过程中边识别音频边输出识别结果的技术，成为了一个重要的研究方向。现有流式解码技术存在准确率不高的技术问题。

技术实现思路

1、以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本申请提供了一种音频处理方法、音频处理系统和存储介质，能够解决流式解码技术准确率不高的技术问题。

3、本申请一实施例提供了一种音频处理方法，包括：获取音频数据流；将所述音频数据流发送至流式管道，获取所述流式管道返回的实时的异步处理结果；将所述音频数据流发送至非流式管道，在所述音频数据流所对应的语音内容完整的情况下，获取所述非流式管道返回的语音内容完整的同步处理结果，根据所述同步处理结果对所述异步处理结果进行更新。

4、在本申请一示例性的实施例中，所述音频数据流中包括时间戳信息，所述异步处理结果和所述同步处理结果中均包括对应的音频数据流的时间戳信息；所述根据所述同步处理结果对所述异步处理结果进行更新，包括：将同步处理结果与其时间戳信息同步的异步处理结果合并；或者使用所述同步处理结果替换与其时间戳信息同步的异步处理结果；或者将所述同步处理结果和所述异步处理结果按照时间戳的顺序组合，其中，发送至流式管道的音频数据流与发送至所述非流式管道的音频数据流的时间戳信息不同。

5、在本申请一示例性的实施例中，所述根据所述同步处理结果对所述异步处理结果进行更新之后，还包括：根据更新后的处理结果刷新输出数据；所述获取所述流式管道返回的实时的异步处理结果之后，还包括：根据实时的异步处理结果刷新输出数据。

6、在本申请一示例性的实施例中，所述将所述音频数据流发送至流式管道之后、所述获取所述流式管道返回的实时的异步处理结果之前，还包括：所述流式管道将所述音频数据流传输至基于流式语音识别模型的处理器，所述流式语音识别模型的处理器启动多个进程对所述音频数据流进行异步处理，得到多个进程的异步处理结果，将所述多个进程的异步处理结果实时传输至所述流式管道。

7、在本申请一示例性的实施例中，所述将所述音频数据流发送至非流式管道之后、所述获取所述非流式管道返回的语音内容完整的同步处理结果之前，还包括：所述非流式管道将所述音频数据流传输至基于非流式语音识别模型的处理器，判断所述音频数据流所对应的语音内容是否完整，在语音内容完整的情况下，对所述音频数据流进行预处理得到第一处理结果，将所述第一处理结果发送至深度模型计算请求客户端；所述深度模型计算请求客户端根据所述第一处理结果向深度模型推理框架发送音频请求；所述深度模型推理框架从所述音频请求获取所述第一处理结果，对所述第一处理结果进行处理得到第二处理结果，将所述第二处理结果发送至所述深度模型计算请求客户端；所述深度模型计算请求客户端对所述第二处理结果进行处理得到所述语音内容完整的同步处理结果。

8、在本申请一示例性的实施例中，所述判断所述音频数据流所对应的语音内容是否完整，包括：判断用户是否完成对话，是则判定所述音频数据流所对应的语音内容完整。

9、本申请一实施例还提供了一种音频处理系统，包括：语音客户端、服务器；所述语音客户端，设置为向所述服务器发送音频数据流；所述服务器，设置为获取来自所述语音客户端的音频数据流，将所述音频数据流发送至流式管道，获取所述流式管道返回的实时的异步处理结果；将所述音频数据流发送至非流式管道，获取所述非流式管道返回的语音内容完整的同步处理结果，根据所述同步处理结果对所述异步处理结果进行更新。

10、在本申请一示例性的实施例中，所述音频处理系统还包括基于流式语音识别模型的处理器；所述服务器，设置为通过所述流式管道将所述音频数据流传输至基于流式语音识别模型的处理器；所述基于流式语音识别模型的处理器，设置为启动多个进程对所述音频数据流进行异步处理，得到多个进程的异步处理结果，将所述多个进程的异步处理结果实时通过所述流式管道传输至所述服务器。

11、在本申请一示例性的实施例中，所述音频处理系统还包括基于非流式语音识别模型的处理器、深度模型计算请求客户端、深度模型推理框架；所述服务器，还设置为通过所述非流式管道将所述音频数据流传输至所述基于非流式语音识别模型的处理器；接收来自所述客户端的所述语音内容完整的同步处理结果；所述基于非流式语音识别模型的处理器，设置为判断所述音频数据流所对应的语音内容是否完整，在语音内容完整的情况下，对所述音频数据流进行预处理得到第一处理结果，将所述第一处理结果发送至所述深度模型计算请求客户端；所述深度模型计算请求客户端，设置为根据所述第一处理结果向深度模型推理框架发送音频请求；对来自所述深度模型推理框架的第二处理结果进行处理得到所述语音内容完整的同步处理结果；所述深度模型推理框架，设置为从所述音频请求获取所述第一处理结果，对所述第一处理结果进行处理得到所述第二处理结果，将所述第二处理结果发送至所述深度模型计算请求客户端。

12、本申请一实施例还提供了一种非瞬态计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序时被处理器执行时能够实现如本申请任一实施例所述的音频处理方法。

13、本申请一实施例还提供了一种音频处理装置，包括：存储器和处理器；所述存储器，用于保存用于音频处理的程序；所述处理器，用于读取所述用于音频处理的程序，执行如本申请任一实施例所述的音频处理方法。

14、与相关技术相比，本申请实施例提供的一种音频处理方法、音频处理系统和存储介质，音频处理方法的技术方案如下：将音频数据流发送至流式管道，获取流式管道返回的实时的异步处理结果，可以满足对音频识别的实时性需求，将音频数据流发送至非流式管道，在音频数据流所对应的语音内容完整的情况下，获取非流式管道返回的语音内容完整的同步处理结果，根据同步处理结果对异步处理结果进行更新，在满足实时性需求的前提下可以提高音频处理的准确性。

15、本申请实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

技术特征：

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的音频处理方法，其特征在于，所述音频数据流中包括时间戳信息，所述异步处理结果和所述同步处理结果中均包括对应的音频数据流的时间戳信息；

3.根据权利要求1或2所述的音频处理方法，其特征在于，所述根据所述同步处理结果对所述异步处理结果进行更新之后，还包括：根据更新后的处理结果刷新输出数据；

4.根据权利要求1所述的音频处理方法，其特征在于，所述将所述音频数据流发送至流式管道之后、所述获取所述流式管道返回的实时的异步处理结果之前，还包括：

5.根据权利要求1所述的音频处理方法，其特征在于，所述将所述音频数据流发送至非流式管道之后、所述获取所述非流式管道返回的语音内容完整的同步处理结果之前，还包括：

6.根据权利要求5所述的音频处理方法，其特征在于，所述判断所述音频数据流所对应的语音内容是否完整，包括：判断用户是否完成对话，是则判定所述音频数据流所对应的语音内容完整。

7.一种音频处理系统，其特征在于：包括语音客户端、服务器；

8.根据权利要求7所述的音频处理系统，其特征在于，还包括基于流式语音识别模型的处理器；

9.根据权利要求7所述的音频处理系统，其特征在于，还包括基于非流式语音识别模型的处理器、深度模型计算请求客户端、深度模型推理框架；

10.一种非瞬态计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序时被处理器执行时能够实现如权利要求1至6中任一所述的音频处理方法。

技术总结
一种音频处理方法、音频处理系统和存储介质，该方法包括：获取音频数据流；将所述音频数据流发送至流式管道，获取所述流式管道返回的实时的异步处理结果；将所述音频数据流发送至非流式管道，在所述音频数据流所对应的语音内容完整的情况下，获取所述非流式管道返回的语音内容完整的同步处理结果，根据所述同步处理结果对所述异步处理结果进行更新。通过该方案，实现了一种音频处理方法、音频处理系统和存储介质，能够将流式非流式语音识别过程结合，在满足实时性需求的前提下可以提高音频处理的准确性。

技术研发人员：王伟戌,王洲
受保护的技术使用者：北京百舸飞驰科技有限公司
技术研发日：
技术公布日：2024/6/26

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王伟戌,王洲
技术所有人：北京百舸飞驰科技有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！