基于迁移学习的方言语音识别转写方法、装置及存储介质与流程

文档序号:45328696发布日期:2026-04-24 20:43阅读:4来源:国知局

本发明涉及语音识别领域,尤其涉及基于迁移学习的方言语音识别转写方法、装置及存储介质。


背景技术:

1、在方言语音识别领域,通过可靠的模型实现方言语音识别转写,然而,我国方言种类繁多且发音特性复杂,而且在同一方言片区下也可能存在数十种方言变体,由于各地方言语音数据分布不均,标注数据获取成本高,导致小语种方言缺乏足够训练样本,难以构建有效的语音识别转写模型。


技术实现思路

1、本发明针对现有技术中小语种方言缺乏足够训练样本,难以构建有效的语音识别转写模型的技术问题,提供基于迁移学习的方言语音识别转写方法、装置及存储介质。

2、本发明解决上述技术问题的技术方案如下:

3、第一方面,本发明提供了基于迁移学习的方言语音识别转写方法,包括:

4、通过用户端,接收若干区域方言数据集,分别执行共性音频特征提取,获得若干共性音频特征;

5、基于所述若干共性音频特征,对若干区域进行音频特征相似度聚类,获得多簇区域,其中,所述多簇区域具有多个质心区域;

6、遍历所述多个质心区域,采集多个质心方言数据集,训练多个质心区域语音识别模型;

7、采集所述多个质心区域的同簇区域方言数据,对所述多个质心区域语音识别模型进行迁移学习,获得多簇语音识别模型;

8、通过所述多个质心区域语音识别模型和所述多簇语音识别模型进行方言语音识别转写。

9、第二方面,本发明提供了基于迁移学习的方言语音识别转写装置,包括:

10、存储器,用于存储计算机软件程序;

11、处理器,用于读取并执行所述计算机软件程序,进而实现如第一方面所述的基于迁移学习的方言语音识别转写方法。

12、第三方面,本发明提供了一种电子设备,所述电子设备包括:

13、处理器;

14、用于存储处理器可执行指令的存储器;

15、其中,所述处理器通过运行所述可执行指令以实现如第一方面所述的基于迁移学习的方言语音识别转写方法。

16、第四方面,本发明提供了一种计算机可读存储介质,存储介质中存储有计算机程序,计算机程序被处理器执行时实现如第一方面所述的基于迁移学习的方言语音识别转写方法。

17、本发明的有益效果是:

18、相较于现有技术,本申请首先通过用户端,接收若干区域方言数据集,分别执行共性音频特征提取,获得若干共性音频特征,通过语音频谱特征提取,将不同来源、不同格式的数据统一为结构化特征,确保跨区域特征可比,再通过离群特征删除,剔除异常数据,为后续的区域聚类、模型训练提供可靠的支撑。其次,基于若干共性音频特征,对若干区域进行音频特征相似度聚类,获得多簇区域,通过音频特征相似度将不同区域进行聚类,并且在聚类的基础上,确定质心区域,量化了区域间的特征共性,实现了方言区域的科学分组,为后续迁移学习提供必要的基础。再次,遍历多个质心区域,采集多个质心方言数据集,训练多个质心区域语音识别模型,通过质心区域的高代表性数据训练获得多个质心区域语音识别模型,既确保模型捕捉方言核心特征,又能为同簇区域的迁移学习提供初始化模板。进一步地,采集多个质心区域的同簇区域方言数据,对多个质心区域语音识别模型进行迁移学习,获得多簇语音识别模型,基于质心区域语音识别模型进行迁移学习,既复用了质心模型的成熟参数,又通过串联的卷积神经网络精准学习区域差异,降低了模型训练的数据需求。最后,通过多个质心区域语音识别模型和多簇语音识别模型进行方言语音识别转写,通过质心区域语音识别模型和多簇语音识别模型的协同作用,既解决了小方言变体数据稀缺的问题,又通过簇内特征复用实现了高效精准的识别转写。

19、通过上述技术方案,本申请接收若干区域方言数据集,进行共性音频特征提取和离群特征删除,基于共性音频特征,进行具有质心区域的相似度聚类,然后采集质心方言数据集,训练多个质心区域语音识别模型,再采集质心区域的同簇区域方言数据,通过迁移学习,获得多簇语音识别模型,据此进行方言语音识别转写,如此,在同簇区域内,通过采集质心区域的方言数据,构建质心区域语音识别模型,再利用迁移学习复用质心区域语音识别模型,只需要再采集少量同簇区域方言数据,即可训练得到多簇语音识别模型,解决了小语种方言缺乏训练样本,难以构建有效的语音识别转写模型的问题。


技术特征:

1.基于迁移学习的方言语音识别转写方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,通过用户端,接收若干区域方言数据集,分别执行共性音频特征提取,获得若干共性音频特征,包括:

3.如权利要求2所述的方法,其特征在于,遍历所述第一描述子特征集直到所述第q描述子特征集进行离群特征删除,获得第一描述子留存特征直到第q描述子留存特征,包括:

4.如权利要求1所述的方法,其特征在于,基于所述若干共性音频特征,对若干区域进行音频特征相似度聚类,获得多簇区域,包括:

5.如权利要求4所述的方法,其特征在于,当若干区域均两两比对完成,输出所述多簇区域,包括:

6.如权利要求1所述的方法,其特征在于,遍历所述多个质心区域,采集多个质心方言数据集,训练多个质心区域语音识别模型,包括:

7.如权利要求1所述的方法,其特征在于,采集所述多个质心区域的同簇区域方言数据,对所述多个质心区域语音识别模型进行迁移学习,获得多簇语音识别模型,包括:

8.基于迁移学习的方言语音识别转写装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于迁移学习的方言语音识别转写方法。


技术总结
本申请提供了基于迁移学习的方言语音识别转写方法、装置及存储介质,涉及语音识别技术领域,该方法包括:通过用户端,接收若干区域方言数据集,分别执行共性音频特征提取,获得若干共性音频特征;基于若干共性音频特征,进行音频特征相似度聚类,获得多簇区域,多簇区域具有多个质心区域;遍历多个质心区域,采集多个质心方言数据集,训练多个质心区域语音识别模型;采集多个质心区域的同簇区域方言数据,对多个质心区域语音识别模型进行迁移学习,获得多簇语音识别模型;通过多个质心区域语音识别模型和多簇语音识别模型进行方言语音识别转写。解决了现有技术中小语种方言缺乏足够训练样本,难以构建有效的语音识别转写模型的技术问题。

技术研发人员:高枫,任学武,成飞,吕亮亮,郝鹏飞,王鑫,武强,闫秀茂,石广华,乔少波,王杰飞
受保护的技术使用者:北京谦润和科技有限公司
技术研发日:
技术公布日:2026/4/23
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!