模型训练方法、语音识别方法、设备及存储介质与流程

文档序号：41463812发布日期：2025-03-28 18:03阅读：70来源：国知局

本申请涉及语音数据处理，尤其涉及一种模型训练方法、语音识别方法、设备及存储介质。

背景技术：

1、kaldi系统主要分为4个部分，4个部分分别为核心算法库（k2）、数据处理模块（lhotse）、训练示例脚本（icefall）以及部署使用模块（sherpa）。其中，k2用于实现各种语音识别相关算法，lhotse用于数据处理，icefall用于模型训练，sherpa用于模型部署。在现有的kaldi系统中上述各部分均为相互独立分离的项目，实际运行时需要逐一分别独立配置，并通过设置业务逻辑配置文件实现各项目的业务逻辑关联；实际运行时，通过在业务逻辑配置文件中确定各项目对应配置文件的文件路径指导各项目确定各自配置参数，并基于业务逻辑配置文件调用各项目以运行得到所需的语音识别模型。而由于基于kaldi系统进行语音模型训练时各项目之间存在相互交叉的数据处理部分，如lhotse和icefall，此时，在待处理音频数据发生变化时，基于业务逻辑配置文件并不能确定哪一个配置文件存在需要更改的参数，因此，在启动语音模型训练之前，需要反复在多个不同项目之间切换进行参数配置，导致语音模型开发的效率较低。因此，亟须一种方式能提升基于kaldi的语音识别模型的开发周期，以缩短语音识别模型的部署时长。

技术实现思路

1、本申请实施例的主要目的在于提出一种模型训练方法、语音识别方法、设备及存储介质，能通过缩短语音识别模型的开发周期，缩短语音识别模型的部署时长。

2、为实现上述目的，本申请实施例的第一方面提出了一种模型训练方法，所述方法包括：

3、获取原始多媒体样本数据；

4、根据预设的通用参数配置文件，获取与所述原始多媒体样本数据对应的格式脚本；其中，所述通用参数配置文件包含有kaldi系统中用于参与语音模型训练的每个功能模块的配置参数；

5、根据所述格式脚本对所述原始多媒体样本数据进行格式归一化处理，得到原始样本语音数据；

6、根据所述通用参数配置文件调用多个所述功能模块，并通过多个所述功能模块基于所述原始样本语音数据对初始的语音识别模型进行训练，得到目标语音识别模型。

7、为实现上述目的，本申请实施例的第二方面提出了一种语音识别方法，方法包括：

8、获取目标语音识别模型，其中，所述目标语音识别模型通过第一方面任一所述的模型训练方法得到；

9、通过所述目标语音识别模型对目标语言数据进行识别，输出识别结果。

10、为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的模型训练方法和/或第二方面任一项所述的语音识别方法。

11、为实现上述目的，本申请实施例的第四方面提出了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一项所述的模型训练方法和/或第二方面任一项所述的语音识别方法。

12、本申请提出的模型训练方法、语音识别方法、设备及存储介质,其通过提供通用参数配置文件将kaldi系统中多个参与模型训练模块共享的参数进行统一配置，并可以通过通用参数配置文件获取个性化差异处理的格式脚本，从而可以简化kaldi系统中模型训练过程中与数据类型相关的流程。且由于采用通用参数配置文件，使得kaldi系统中模型训练过程的数据处理和模型生成相关流程可以集成在同一个项目中，缩短开发时长。此时基于格式脚本对原始多媒体样本数据进行格式归一化处理以及通过kaldi系统中各功能模块共享同一份通用参数配置文件，可以直接在通用参数配置文件中对kaldi系统各个功能模块的共有参数进行同步更改，缩短训练前对各个功能模块的参数配置时长，从而缩短开发周期。进而使得在原始多媒体样本数据发生改变的情况下，可以仅需更改通用参数配置文件以及格式脚本后即可启动kaldi系统进行训练，因此，和相关技术相比，本申请实施例能进一步缩短语音识别模型的开发周期，从而缩短语音识别模型的部署时长。

技术特征：

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述根据所述格式脚本对所述原始多媒体样本数据进行格式归一化处理，得到原始样本语音数据，包括：

3.根据权利要求2所述的模型训练方法，其特征在于，所述格式脚本与所述原始多媒体样本数据的语种类型一一对应；所述根据所述格式脚本对所述原始多媒体样本数据进行格式归一化处理，得到原始样本语音数据，还包括：

4.根据权利要求1所述的模型训练方法，其特征在于，所述根据所述通用参数配置文件调用多个所述功能模块，并通过多个所述功能模块基于所述原始样本语音数据对初始的语音识别模型进行训练，得到目标语音识别模型，包括：

5.根据权利要求1所述的模型训练方法，其特征在于，根据所述通用参数配置文件调用的多个所述功能模块包括存储模块、特征抽取模块、声学训练模块以及数据集加载模块，所述存储模块用于将所述原始样本语音数据按照预设格式进行存储，所述特征抽取模块基于所述存储模块中存储的数据进行特征提取，得到语音特征数据，所述声学训练模块用于将所述语音特征数据转为声学单元数据：所述数据集加载模块通过如下步骤完成训练处理：

6.根据权利要求5所述的模型训练方法，其特征在于，所述对所述至少一个训练数据集进行采样，得到多批次训练数据，包括：

7.根据权利要求5所述的模型训练方法，其特征在于，所述方法还包括：

8.一种语音识别方法，其特征在于，所述方法包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的模型训练方法和/或权利要求8所述的语音识别方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的模型训练方法和/或权利要求8所述的语音识别方法。

技术总结
本申请实施例提供了一种模型训练方法、语音识别方法、设备及存储介质，属于语音数据处理技术领域；方法包括获取原始多媒体样本数据；根据预设的通用参数配置文件，获取与原始多媒体样本数据对应的格式脚本；根据格式脚本对原始多媒体样本数据进行格式归一化处理，得到原始样本语音数据；通过通用参数配置文件调用多个功能模块，使多个功能模块基于原始样本语音数据对初始的语音识别模型进行训练，得到目标语音识别模型。本申请实施例能进一步缩短语音识别模型的开发周期，从而缩短语音识别模型的部署时长。

技术研发人员：杨博,都业兴,侯永帅,相洋,邓健豪
受保护的技术使用者：鹏城实验室
技术研发日：
技术公布日：2025/3/27

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨博,都业兴,侯永帅,相洋,邓健豪
技术所有人：鹏城实验室
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！