一种方言语音识别方法和系统

文档序号:42650291发布日期:2025-08-05 18:34阅读:66来源:国知局
技术特征:

1.一种方言语音识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述以短视频中的语音停顿点进行断句,得到多个音频文件与对应的帧图像,包括:

3.根据权利要求1所述的方法,其特征在于,所述对帧图像进行字幕检测,得到第一音频文本对,包括:

4.根据权利要求1所述的方法,其特征在于,所述对所有无字幕的音频进行语音识别,确定第二音频文本对,包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,所述通过方言语音识别模型对待识别语音进行识别,得到待识别语音的文本,包括:

8.根据权利要求1所述的方法,其特征在于,所述方法还包括:

9.根据权利要求8所述的方法,其特征在于,所述通过方言语音识别模型对待识别语音进行识别,得到待识别语音的文本,包括:

10.一种方言语音识别系统,其特征在于,包括:模型训练模块和语音识别模块;


技术总结
本发明公开了一种方言语音识别方法和系统,涉及人工智能技术领域。该方法包括:从多个网络数据源获取目标区域方言类的短视频和音频;对有字幕的短视频进行字幕检测,得到第一音频文本对;针对无字幕的短视频和无字幕的音频,将无字幕的短视频转换为音频,对所有无字幕的音频进行语音识别,确定第二音频文本对;根据有字幕的音频,生成第三音频文本对;并将第一音频文本对、第二音频文本对和第三音频文本对,确定为样本集;通过样本集,对基础Whisper模型进行LoRA微调,得到LoRA微调模型,并将LoRA微调模型和基础Whisper模型进行合并,得到方言语音识别模型;通过方言语音识别模型对待识别语音进行识别,得到待识别语音的文本。该方法能够准确识别目标区域的方言。

技术研发人员:多拉,马伟,冷本扎西,尕藏扎西
受保护的技术使用者:青海师范大学
技术研发日:
技术公布日:2025/8/4
当前第2页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1