基于合成语音数据的多方言语音识别方法及装置与流程

文档序号：40832204发布日期：2025-02-06 17:07阅读：193来源：国知局

本申请的实施例涉及数据处理领域，尤其涉及基于合成语音数据的多方言语音识别方法、装置、设备和计算机可读存储介质。

背景技术：

1、随着人工智能技术的迅猛发展，语音识别作为人机交互的重要方式之一，已经广泛应用于智能手机、智能家居、智能客服等多个领域。然而，现有的语音识别系统在面对多样化的语音输入，尤其是包含多种方言的语音时，仍然存在识别准确率不足的问题。其主要原因为语音识别模型在训练过程中所依赖的数据集往往缺乏足够的方言覆盖和高质量标注，导致模型在处理方言语音时表现不佳。

技术实现思路

1、根据本申请的实施例，提供了一种基于合成语音数据的多方言语音识别方案，能够从未标注的语音数据中学习到丰富的语音特征表示，为语音识别提供了强大的基础，利用针对特定任务和场景的细致调整，模型可以适应多样化的方言、口音和噪声环境，大幅度提升了识别精度和鲁棒性。

2、在本申请的第一方面，提供了一种基于合成语音数据的多方言语音识别方法。该方法包括：

3、获取初始的语音数据；

4、将所述语音数据输入到已训练的语音识别模型中，生成合成语音数据；

5、其中，所述语音识别模型可通过如下方式得到：

6、通过预设框架对样本数据进行预训练，得到初步语音识别模型；所述预设框架的损失函数包括：

7、；

8、其中，所述ct为上下文表示；

9、为当前时间步的目标量化向量；

10、为温度参数；

11、表示两个向量之间的相似性度量；

12、基于预设的语音合成系统对所述初步语音识别模型进行调整，构建所述语音识别模型。

13、在一种可能的实现方式中，所述预设框架包括fairseq 框架；

14、所述样本数据包括kespeech 数据集。

15、在一种可能的实现方式中，所述基于预设的语音合成系统对所述初步语音识别模型进行调整包括：

16、对所述kespeech 数据集中的数据进行音素对齐，得到目标数据；

17、提取所述目标数据中的特征数据；所述特征数据包括梅尔频谱、音高和/或能量；

18、通过预设的扩散模型，分别对所述特征数据进行前向噪声添加和反向生成处理，得到目标样本数据；

19、将所述目标样本数据，作为训练所述初步语音识别模型的样本数据。

20、在一种可能的实现方式中，所述通过预设的扩散模型，对所述特征数据进行前向噪声添加包括：

21、；

22、其中，所述为第t步语音的特征数据；

23、为每个时间步的缩放因子；

24、为标准高斯噪声。

25、在一种可能的实现方式中，所述通过预设的扩散模型，对所述特征数据进行反向生成包括：

26、；

27、其中，所述为第t步语音的特征数据；

28、为每个时间步的缩放因子；

29、为标准高斯噪声。

30、在一种可能的实现方式中，还包括：

31、接收用户响应于所述合成语音数据的反馈数据；

32、基于所述反馈数据对所述语音识别模型进行修正。

33、在一种可能的实现方式中，还包括：

34、对所述初始的语音数据进行规范化和/或去噪处理。

35、在本申请的第二方面，提供了一种基于合成语音数据的多方言语音识别装置。该装置包括：

36、获取模块，用于获取初始的语音数据；

37、生成模块，用于将所述语音数据输入到已训练的语音识别模型中，生成合成语音数据；

38、其中，所述语音识别模型可通过如下方式得到：

39、通过预设框架对样本数据进行预训练，得到初步语音识别模型；所述预设框架的损失函数包括：

40、；

41、其中，所述ct为上下文表示；

42、为当前时间步的目标量化向量；

43、为温度参数；

44、表示两个向量之间的相似性度量；

45、基于预设的语音合成系统对所述初步语音识别模型进行调整，构建所述语音识别模型。

46、在本申请的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

47、在本申请的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本申请的第一方面的方法。

48、本申请实施例提供的基于合成语音数据的多方言语音识别方法，通过获取初始的语音数据；将所述语音数据输入到已训练的语音识别模型中，生成合成语音数据；

49、其中，所述语音识别模型可通过如下方式得到：

50、通过预设框架对样本数据进行预训练，得到初步语音识别模型；所述预设框架的损失函数包括：

51、；

52、其中，所述ct为上下文表示；

53、为当前时间步的目标量化向量；

54、为温度参数；

55、表示两个向量之间的相似性度量；基于预设的语音合成系统对所述初步语音识别模型进行调整，构建所述语音识别模型，大幅度提升了识别精度和鲁棒性。

56、应当理解，
技术实现要素：
部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征，亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。

技术特征：

1.一种基于合成语音数据的多方言语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，所述基于预设的语音合成系统对所述初步语音识别模型进行调整包括：

4.根据权利要求3所述的方法，其特征在于，所述通过预设的扩散模型，对所述特征数据进行前向噪声添加包括：

5.根据权利要求4所述的方法，其特征在于，所述通过预设的扩散模型，对所述特征数据进行反向生成包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求1所述的方法，其特征在于，还包括：

8.一种基于合成语音数据的多方言语音识别装置，其特征在于，包括：

9.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1~7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1~7中任一项所述的方法。

技术总结
本申请的实施例提供了基于合成语音数据的多方言语音识别方法、装置、设备和计算机可读存储介质。所述方法包括获取初始的语音数据；将所述语音数据输入到已训练的语音识别模型中，生成合成语音数据；其中，所述语音识别模型可通过如下方式得到：通过预设框架对样本数据进行预训练，得到初步语音识别模型；基于预设的语音合成系统对所述初步语音识别模型进行调整，构建所述语音识别模型。以此方式，不仅克服了现有数据集质量不足的问题，还有效解决了多方言高精度标注数据稀缺的难题；显著提升了语音识别系统在多方言环境下的性能，满足了智能设备和服务对高精度语音识别的需求，大幅度提升了用户体验。

技术研发人员：杨良志,白琳,赵兴玉,唐丽萍,卢业波,邹盼湘,李自然,高梓耕
受保护的技术使用者：彩讯科技股份有限公司
技术研发日：
技术公布日：2025/2/5

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨良志,白琳,赵兴玉,唐丽萍,卢业波,邹盼湘,李自然,高梓耕
技术所有人：彩讯科技股份有限公司
我是此专利的发明人

上一篇：一种用于轧机入口导卫开口度调整的工具的制作方法
下一篇：一种配电柜生产用转运装置的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！