一种基于声学聚类的语音识别二阶段解码加速方法与流程

文档序号：42294378发布日期：2025-06-27 18:30阅读：61来源：国知局

本发明涉及一种语音识别解码加速方法，具体为一种基于声学聚类的语音识别二阶段解码加速方法。

背景技术：

1、自动语音识别(asr，automatic speech recognition)通俗来讲，就是利用计算机将一门语言的语音内容转换成对应语言的文本输出过程。作为自然语言处理(nlp)和人工智能(ai)的重要分支，asr在语音助手、实时字幕、会议记录、语音输入等应用场景中具有广泛需求。例如，各大科技公司纷纷推出asr相关产品，如苹果的siri、谷歌的googleassistant和亚马逊的alexa等。

2、纵观asr的发展历史，可以将其方法大致分为两大类：基于规则的语音识别和基于数据驱动的语音识别。具体来说，基于数据驱动的asr方法又可以细分为基于统计的方法和基于深度学习的方法。早期的asr主要依赖人工定义的语音规则进行识别。20世纪80年代至90年代，隐马尔可夫模型(hmm,hidden markov model)成为asr领域的主流技术。hmm结合高斯混合模型(hmm-gmm)，极大地提高了语音识别的准确率，使得asr进入商业化应用阶段。然而，统计方法仍然依赖大量的特征工程，并假设语音信号具有某种隐含的结构，导致其在复杂语音环境下的表现受到限制。此外，hmm-gmm方法对长时间语音序列相互依赖的建模能力不足，难以有效处理语音中的上下文信息。进一步，研究者又提出了基于深度学习的自动语音识别方法，这种方法直接将语音识别用神经网络进行建模，模型学习在端到端方式下完成，整个过程不需要人工特征的设计。

3、相比传统的基于统计的语音识别方法，基于深度学习的自动语音识别系统凭借着较高的识别质量吸引了众多研究人员的关注，但由于神经网络本身的特点，其在使用的过程中会更加耗时。该问题在实用化的语音识别系统中尤为突出，因为它们一般都会对于响应时间有更严苛的要求，因此语音识别系统的解码速度也成为其能否实用化的关键，是否能够在现有的基于深度学习的自动语音识别系统的基础上对其速度进行优化成为了一个极其重要的课题。

4、由于基于深度学习的神经网络涉及到大量的矩阵运算，会占用较多的解码时间，人们开始尝试知识蒸馏与注意力加速计算等方法进行效率优化。现有的基于自注意力机制的自动语音识别系统放弃使用传统的神经网络结构(比如循环神经网络、卷积神经网络等)，其结构中除了简单的前馈网络之外几乎都是通过注意力机制对序列的转换进行建模。在编码器、解码器内部通过自注意力的机制分别对音频及文本信息进行建模，该部分开销成为解决模型加速的首要难点。然而在使用注意力加速及知识蒸馏等方法后注意力计算的开销被显著减少，取而代之的是巨大的解码词表严重限制了模型整体推理速度，占比占到整体推断时间的30％以上。

5、可见，解码词表的大小仍然是制约解码速度进一步提升的关键因素。由于在计算过程中基于深度学习的自动语音识别模型需要在整体过大的词表空间下进行解码预测，过大的词表搜索空间极大的降低了解码效率导致这种自动语音识别的方法在实际使用中解码速度很难满足实时响应的需求。如何通过压缩解码词表，提高解码效率成为自动化语音识别低延迟落地的关键问题。

技术实现思路

1、针对现有技术中自动语音识别的方法在实际使用中解码速度很难满足实时响应的需求等不足，本发明要将解决的技术问题是提供一种基于声学聚类的语音识别二阶段解码加速方法，能够在快速推理的最新实现基础上，且在模型性能几乎没有下降的前提下，提升实时响应速度。

2、为解决上述技术问题，本发明采用的技术方案是：

3、本发明提供一种基于声学聚类的语音识别二阶段解码加速方法，包括以下步骤：

4、1)根据预训练的声音单元提取模型获得音频对应的声学信息序列，并构建<文本，声学信息序列>的二元数据，利用二元数据训练文本至声音单元映射模型；

5、2)基于声音单元映射模型，将文本转变为对应的声学信息序列并使用kmeans方法进行聚类，获得子词表集合；

6、3)构建自动语音识别模型，筛选音频至文本的语音识别训练数据，并将音频文件提取成fbank特征序列用以训练自动语音识别模型；

7、4)根据步骤3)中的自动语音识别模型解码层输出，进行第一阶段解码，获得对应的目标子词表；

8、5)根据步骤4)中的第一阶段解码预测的目标子词表，在第二阶段解码中计算该子词表下的概率分布，并选取概率最高的词作为识别结果。

9、步骤1)中，根据预训练的声音单元提取模型获得音频对应的声学信息序列，并构建<文本，声学信息序列>的二元数据，利用二元数据训练文本至声音单元映射模型，具体为：

10、101)对于每个音频数据，使用预训练的声音单元提取模型获得其对应的声学信息序列；

11、102)将文本与提取的声学信息序列进行组合，获得<文本,声学信息序列>的二元训练数据；

12、103)使用标准的transformer，采取encoder-decoder的架构设置，根据文本至声学单元映射训练数据进行训练，获得文本至声学信息的文本至声音单元映射模型。

13、步骤3)中构建自动语音识别模型，筛选音频至文本的语音识别训练数据，并将音频文件提取成fbank特征序列用以训练自动语音识别模型，具体步骤为：

14、301)采用conformer-encoder架构和transformer-decoder架构，搭建语音识别模型框架；

15、302)对音频至文本的语音识别训练数据进行过滤清洗，筛选出高质量的训练数据，并将音频文件提取为fbank特征表示；

16、303)使用specaug方法对音频数据进行数据增强，并使用卷积层进行下采样，缩短音频数据长度，用以保证训练的鲁棒性和稳定性；

17、304)将提取的音频fbank特征输入语音识别模型进行训练，获得自动语音识别模型的解码层输出结果。

18、步骤4)中根据步骤3)的自动语音识别模型解码层输出，进行第一阶段解码，获得对应的目标子词表，首先获得自动语音识别模型解码层的输出结果，而后根据步骤2)中的聚类后的子词表集合作为分类目标，使用softmax方法预测最可能的目标子词表，具体为：

19、401)根据聚类后的子词表集合，设定第一阶段解码分类预测的所有目标子词表数量，构建对应的softmax层；

20、402)根据自动语音识别模型解码层的输出结果，使用softmax方法进行分类预测，获得最可能的目标子词表，具体公式为：

21、

22、其中，pn为第n个目标子词表归一化预测概率值；n为当前目标子词表序号；n为所有目标子词表数量；i＝[1,n]代表任意子词表序号；ci为任意目标子词表在自动语音识别解码层的输出概率；cn为第n个目标子词表在自动语音识别解码层的输出概率；τ为温度参数，用以控制分布从平滑向尖锐过渡；gi为任意子词表对应的附加噪声；gn为目标子词表对应的附加噪声。

23、步骤5)中第二阶段解码过程是根据已获得的目标子词表进行解码，计算该子词表下每个词的概率分布，并选取概率最高的词作为识别结果，其计算公式为：

24、

25、其中，pn,k为目标单词的归一化预测概率；vn为第n个子词表的词数量大小；k为目标单词在该子词表中的位置；lk为对应目标单词的概率；i为目标子词表中的任意单词；li为目标子词表中任意单词的概率；t是温度参数，用以控制概率平滑度。

26、本发明具有以下有益效果及优点：

27、1.本发明提出了一种基于声学聚类的语音识别二阶段解码加速方法，通过减少目标解码词表的大小可以极大提升系统在推断过程中的效率，该方法在推断速度上平均获得近10％的加速比，同时模型性能没有下降。并与其他加速方法实现正交化，可以同时使用使加速比达到90％。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨迪,杨木润
技术所有人：沈阳雅译网络技术有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！