本发明涉及人工智能,特别涉及一种方言语音识别方法和系统。
背景技术:
1、区域性方言语音识别系统能够满足对传统文化保护和传承的需求,同时也为方言地区的人们提供更便捷、高效的,并带有地方特色的语音交互体验。
2、方言语音识别系统的重要性在于它能够有效地识别和解析方言语音,为方言地区的人们提供更具地方特色的语音服务。同时,该系统也可以促进方言地区的文化交流和经济发展。例如,在方言地区的旅游、教育、媒体等领域,方言语音识别系统都可以发挥重要作用,提高服务质量和效率。在应用场景方面,方言语音识别系统具有广泛的应用前景。它可以应用于方言地区的智能客服、智能家居、智能车载等领域,为用户提供更加智能、便捷的语音交互体验。此外,该系统还可以应用于方言学习、方言翻译等领域,帮助人们更好地了解和学习方言文化。
3、然而,现有技术中缺乏一种能够准确识别方言的方法。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种方言语音识别方法和系统。
2、本发明采用下述技术方案:
3、本发明提供了一种方言语音识别方法,包括:
4、从多个网络数据源获取多种类型的目标区域方言类的音频资源和视频资源;视频资源包括有字幕的短视频和无字幕的短视频;音频资源包括有字幕的音频和无字幕的音频;
5、针对有字幕的短视频,以短视频中的语音停顿点进行断句,得到多个音频文件与对应的帧图像,并对帧图像进行字幕检测,得到第一音频文本对;
6、针对无字幕的短视频和无字幕的音频,将无字幕的短视频转换为音频,对所有无字幕的音频进行语音识别,确定第二音频文本对;
7、根据有字幕的音频,生成第三音频文本对;并将第一音频文本对、第二音频文本对和第三音频文本对,确定为样本集;
8、通过样本集,对基础whisper模型进行lora微调,得到lora微调模型,并将lora微调模型和基础whisper模型进行合并,得到方言语音识别模型;
9、通过方言语音识别模型对待识别语音进行识别,得到待识别语音的文本。
10、可选地,以短视频中的语音停顿点进行断句,得到多个音频文件与对应的帧图像,包括:
11、获取短视频中的原始音频,并检测原始音频中的所有非静默段;
12、根据每个非静默段的开始时间和结束时间,确定每个非静默段的非静默时长;
13、删除非静默时长小于第一时长阈值或大于第二时长阈值的非静默段;
14、根据剩余的非静默段的开始时间和结束时间,从原始音频中截取音频,得到多个音频文件;
15、分别从短视频中截图每个音频文件对应的帧图像。
16、可选地,对帧图像进行字幕检测,得到第一音频文本对,包括:
17、裁剪每个帧图像的下三分之一,得到字幕帧图像;
18、对字幕帧图像进行文本定位检测,确定字幕区域;
19、针对第t帧,当t帧的字幕在屏幕底部检测到字幕文本时,将t帧标记为字幕文本的起始帧;t=1,…,n,n为字幕帧图像的帧数量;
20、从起始帧开始,逐帧计算字幕区域的结构相似度,直到在第t+n帧检测到变化,将t+n-1帧作为该字幕文本的结束点,确定检测帧图像;
21、使用ocr文本识别方法识别检测帧图像中的字幕文本,确定字幕内容;
22、基于检测帧图像的初始时间点和结束时间点对对应音频进行分割,将分割后的音频和对应字幕内容,确定为第一音频文本对。
23、可选地,对所有无字幕的音频进行语音识别,确定第二音频文本对,包括:
24、将第一音频文本对作为数据集训练语音识别模型;
25、通过语音识别模型分别对所有无字幕的音频进行语音识别,得到音频对应的字幕;
26、根据无字幕音频以及对应的字幕,确定第二音频文本对;或者,
27、通过第三方应用程序编程接口对所有无字幕的音频进行语音识别,得到音频对应的字幕;
28、根据无字幕音频以及对应的字幕,确定第二音频文本对。
29、可选地,该方法还包括:
30、在对所有无字幕的音频进行语音识别之前,检测无字幕音频中的歌曲;
31、去除无字幕的音频中的歌曲。
32、可选地,该方法还包括:
33、在得到方言语音识别模型之后,将方言语音识别模型进行模型优化;模型优化包括格式转换、剪枝和量化操作;
34、将处理后的方言语音识别模型部署在后端服务器中。
35、可选地,通过方言语音识别模型对待识别语音进行识别,得到待识别语音的文本,包括:
36、响应于用户在用户界面输入的方言语音识别请求,调用后端服务器部署的方言语音识别模型对待识别语音进行识别,得到待识别语音的文本,并将待识别语音的文本在用户界面展示。
37、可选地,该方法还包括:
38、在通过样本集,对基础whisper模型进行lora微调之前,检测样本集中音频的语音风格,将样本集划分为多种语音风格的数据集;
39、分别通过多种语音风格的数据集对基础whisper模型进行lora微调,得到多种语音风格的方言语音识别模型。
40、可选地,通过方言语音识别模型对待识别语音进行识别,得到待识别语音的文本,包括:
41、响应于用户在用户界面选择的语音风格,调用对应的方言语音识别模型对应待识别语音进行识别,得到待识别语音的文本,并对将待识别语音的文本在用户界面展示。
42、本发明提供了一种方言语音识别系统,包括:模型训练模块和语音识别模块;
43、模型训练模块,用于从多个网络数据源获取多种类型的目标区域方言类的音频资源和视频资源;视频资源包括有字幕的短视频和无字幕的短视频;音频资源包括有字幕的音频和无字幕的音频;针对有字幕的短视频,以短视频中的语音停顿点进行断句,得到多个音频文件与对应的帧图像,并对帧图像进行字幕检测,得到第一音频文本对;针对无字幕的短视频和无字幕的音频,将无字幕的短视频转换为音频,对所有无字幕的音频进行语音识别,确定第二音频文本对;根据有字幕的音频,生成第三音频文本对;并将第一音频文本对、第二音频文本对和第三音频文本对,确定为样本集;通过样本集,对基础whisper模型进行lora微调,得到lora微调模型,并将lora微调模型和基础whisper模型进行合并,得到方言语音识别模型;
44、语音识别模块,用于通过方言语音识别模型对待识别语音进行识别,得到待识别语音的文本。
45、本发明提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方言语音识别方法。
46、本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方言语音识别方法。
47、本发明采用的上述至少一个技术方案能够达到以下有益效果:
48、首先,数据收集部分,用户从多个网络数据源获取不同类型的方言数据,包括音频资源和视频资源;这些数据有字幕和无字幕之分,这可能意味着数据多样性较高,覆盖不同的场景和说话方式,有助于模型学习到更全面的方言特征;多样的网络数据源可以减少过拟合,提高模型的泛化能力。并且,处理有字幕的短视频时,以语音停顿点断句,生成音频文件与对应的帧图像,并进行字幕检测得到第一音频文本对。这里的关键是利用现有的字幕作为准确的文本标签,同时结合语音停顿进行分割,可能使音频与文本对齐更精确,减少噪音,提升训练数据的质量,将第一音频文本对、第二音频文本对和第三音频文本对作为样本集,使得模型训练有较多且来源多样的训练数据,提高模型的准确性。
49、进一步地,使用样本集对基础whisper模型进行lora微调,可以在不大幅增加参数量的情况下调整模型,专注于方言相关的特征,避免全参数微调可能带来的过拟合,合并lora微调模型和基础模型,保留了原模型的通用能力,同时增强了目标区域的方言识别能力,提升整体方言语音识别的准确性。