一种方言语音识别方法和系统

文档序号：42650291发布日期：2025-08-05 18:34阅读：66来源：国知局

技术特征：

1.一种方言语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述以短视频中的语音停顿点进行断句，得到多个音频文件与对应的帧图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述对帧图像进行字幕检测，得到第一音频文本对，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所有无字幕的音频进行语音识别，确定第二音频文本对，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述通过方言语音识别模型对待识别语音进行识别，得到待识别语音的文本，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述通过方言语音识别模型对待识别语音进行识别，得到待识别语音的文本，包括：

10.一种方言语音识别系统，其特征在于，包括：模型训练模块和语音识别模块；

技术总结
本发明公开了一种方言语音识别方法和系统，涉及人工智能技术领域。该方法包括：从多个网络数据源获取目标区域方言类的短视频和音频；对有字幕的短视频进行字幕检测，得到第一音频文本对；针对无字幕的短视频和无字幕的音频，将无字幕的短视频转换为音频，对所有无字幕的音频进行语音识别，确定第二音频文本对；根据有字幕的音频，生成第三音频文本对；并将第一音频文本对、第二音频文本对和第三音频文本对，确定为样本集；通过样本集，对基础Whisper模型进行LoRA微调，得到LoRA微调模型，并将LoRA微调模型和基础Whisper模型进行合并，得到方言语音识别模型；通过方言语音识别模型对待识别语音进行识别，得到待识别语音的文本。该方法能够准确识别目标区域的方言。

技术研发人员：多拉,马伟,冷本扎西,尕藏扎西
受保护的技术使用者：青海师范大学
技术研发日：
技术公布日：2025/8/4

完整全部详细技术资料下载

当前第2页1 2

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！