本发明涉及计算机视觉,特别是指一种基于预训练微调的低资源语言唇语识别方法及装置。
背景技术:
1、唇语识别是通过分析视频中唇部运动来解码说话内容的技术。与传统的语音识别技术不同,唇语识别无需依赖音频信号输入,能够在噪声干扰环境下或特殊人群中发挥重要作用。唇语识别方法主要分为两大类:传统方法和基于深度学习的方法。传统方法主要依赖于唇部定位,唇部特征提取和唇部信息识别三个关键技术步骤。其采用专家知识,手动定位唇部。特征提取时主要采用基于图像像素点的主成分分析法[jolliffe, i. t. (2002).principal component analysis. springer series in statistics. springer-verlag]等方法。识别阶段使用隐马尔可夫模型[baum, l. e., & eagon, j. a. (1970). aninequality with applications to statistical estimation for probabilisticfunctions of markov processes and to a model for ecology. bulletin of theamerican mathematical society, 76(3), 394-398]、人工神经网络作为分类器。传统方法依赖手工设计的特征和简单分类器,易受环境因素干扰和数据规模限制,泛化性差,未能得到普及。近年来,基于深度学习的唇语识别技术开始出现,其以端到端的形式将被裁剪的唇部图像帧送入神经网络模型进行训练,通常经过三维或二维卷积神经网络提取唇部视频特征,再由序列到序列网络或时序网络进行编码解码,将解码得到的内容与真实说话文本做交叉熵或链接时序分类损失,用反向传播的方法来优化模型性能。
2、2018年, petridis[petridis s,stafylakis t,ma p,et al.end-to-endaudiovisual speech recognition[c]//proceedings of the 2018 ieee internationalconference on acoustics,speech and signal processing,calgary,canada,april 15-20,2018.new york:ieee,2018:6548-6552]首次提出将 ctc 损失与基于注意力的模型相结合的混合架构。采用三维卷积神经网络结合resnet-18提取唇部视频特征,并利用一维的卷积神经网络提取音频模态特征,通过多层感知机结合音频和视频模态特征,然后将融合特征通过一个序列到序列的模型进行编码和解码,并采用注意力机制和ctc的联合解码器来输出标签序列,利用大规模英语数据集上训练,最终在lrs2 数据集上实现7%的单词错误率。
3、当前唇语识别主要面临数据稀缺、低资源语言适应的挑战。主要采用的方法是:扩充数据集或在训练阶段结合音视频知识,对齐音视频特征,在推理阶段实现纯视觉读唇。ma等[ma p, haliassos a, fernandez-lopez a, et al. auto-avsr: audio-visualspeech recognition with automatic labels[c]//icassp 2023-2023 ieeeinternational conference on acoustics, speech and signal processing (icassp).ieee, 2023: 1-5]提出在额外无标签视频数据上使用语音识别技术生成伪标签来扩充数据集,基线模型在扩充的数据集上训练实现了最佳效果,体现出有标签数据量的重要性。kim等[kim m, yeo j h, choi j, et al. lip reading for low-resource languagesby learning and combining general speech knowledge and language-specificknowledge[c]//proceedings of the ieee/cvf international conference oncomputer vision. 2023: 15359-15371]设计了一种低资源语言唇语识别框架,提出语言特定记忆增强解码器(lmdecoder),用高资源视频训练编码器输出对应的音频特征以学习通用知识,用目标语言音频训练解码器输出对应目标语言文本以学习语言特定知识,然后采用级联的方式整合通用知识和语言特定知识,提升了在低资源视频文本数据上的模型性能,并在五种语言上验证了方法的有效性。
4、以上方法具有一定的可行性,但是对于实现低资源语言的唇语识别存在局限性。首先,某些低资源语言数据极度缺乏,甚至于无标签的数据集都十分稀有,无法实现ma等方法中利用语音识别生成伪标签的技术。其次,kim等引入音频模态的方法依赖配对音频训练,不适用于缺乏语音信息的应用场景;其模型结构复杂,模型结构冗长,并且训练资源消耗极高,不利于轻量化部署。
5、综上,当前缺乏一种简单高效的方法实现纯视觉的低资源语言唇语识别,并且仍然存在同型异义词问题。
技术实现思路
1、为了解决现有技术中缺乏一种简单高效的方法实现纯视觉的低资源语言唇语识别,并且仍然存在同型异义词的技术问题,本发明实施例提供了一种基于预训练微调的低资源语言唇语识别方法及装置。所述技术方案如下:
2、一方面,提供了一种基于预训练微调的低资源语言唇语识别方法,其特征在于,所述方法包括:
3、s1、获取无重复的低资源语言文本数据以及英文文本数据;基于低资源语言文本数据以及英文文本数据对分词模型进行预训练;
4、s2、获取低资源语言唇语视频数据以及英语唇语视频数据,通过语音识别技术获取每条视频数据对应的文本标签;对低资源语言唇语视频数据以及英语唇语视频数据进行预处理以及唇部特征提取;
5、s3、利用训练好的分词模型,对每条视频数据对应的文本标签进行分词,并对每条视频数据进行特征提取,基于提取后的视频数据特征获得数据集标签;
6、s4、搭建基于视觉特征提取网络、序列编解码网络以及语言模型的低资源语言唇语识别系统模型;其中,视觉特征提取网络为加入卷积神经网络优化的唇部特征提取器;序列编解码网络对高维特征采用使用conformer编码器和transformer解码器架构进行编解码;语言模型为在推理解码阶段接入经过低资源语言文本训练的transformer语言模型;
7、s5、通过两阶段训练策略对低资源语言唇语识别系统模型进行训练,获得低资源语言唇语识别系统模型;其中,两阶段训练策略包括:英语预训练阶段以及低资源语言微调阶段;
8、s6、将待识别的低资源语言视频数据输入至训练好的低资源语言唇语识别系统模型中,完成基于预训练微调的低资源语言唇语识别。
9、可选地,获取无重复的低资源语言文本数据以及英文文本数据;基于低资源语言文本数据以及英文文本数据对分词模型进行预训练,包括:
10、获取无重复的低资源语言文本数据以及英文文本数据;
11、去除文本中的特殊字符,将藏文中的音节和英文中的单词用空格分开;
12、引入sentencepiece 库训练unigram分词模型,通过unigram模型将句子视为子词序列的概率分布,移除低频子词,不断迭代优化子词集合,直到达到目标词汇量;得到训练好的分词模型和子词词汇表;
13、用分词模型把低资源语言文本语料转换为子词序列,子词之间以空格分隔,原文本内容中的空格以“<space>”符号替代,未知词以“<unk>”替代,生成的分词文本语料。
14、可选地,获取低资源语言唇语视频数据以及英语唇语视频数据,通过语音识别技术获取每条视频数据对应的文本标签,包括:
15、下载lrs2、lrs3、voxceleb2、avspeech英语数据集,用语音识别技术对无文本标签的voxceleb2、avspeech 数据集生成转录文本标签;
16、将低资源语言数据集分为训练集和测试集。
17、可选地,对低资源语言唇语视频数据以及英语唇语视频数据进行预处理以及唇部特征提取,包括:
18、检测视频面部特征点,选取48-67号作为嘴部区域关键点,嘴唇关键点的中心点进行相似性变换,裁剪为96×96 的固定大的每秒25帧视频,且单条视频最长限制为24s;
19、视频帧在被送入模型训练前转换为灰度图,并进行归一化处理进行数据增强随机裁剪到88×88,并以 50% 的概率水平翻转以及采用每25帧遮蔽最大10帧的遮蔽策略即是每秒最多屏蔽0.4秒的视频帧。
20、可选地,利用训练好的分词模型,对每条视频数据对应的文本标签进行分词,并对每条视频数据进行特征提取,基于提取后的视频数据特征获得数据集标签,包括:
21、利用训练好的分词模型,对每条视频数据对应的文本标签进行分词,并且依据子词表将文本标签转换为分词序号;
22、提取出每条数据的相对路径和视频帧数,把每条数据的相对路径、视频帧数、文本标签分词序列写入csv文件作为数据集标签。
23、可选地,搭建基于视觉特征提取网络、序列编解码网络以及语言模型的低资源语言唇语识别系统模型;其中,视觉特征提取网络为加入卷积神经网络优化的唇部特征提取器;序列编解码网络对高维特征采用使用conformer编码器和transformer解码器架构进行编解码;语言模型为在推理解码阶段接入经过低资源语言文本训练的transformer语言模型,包括:
24、视觉特征提取网络采用3d卷积与resnet-18的组合结构,用于从唇部视频中提取高质量的时空特征;视觉特征提取网络采用swish激活函数和batchnormalization归一化层;
25、序列编解码网络采用conformer编码器和transformer解码器结构,用于处理视觉特征并生成文本序列;其中,conformer编码器接收视觉特征提取网络输出的特征序列,transformer解码器处理conformer编码器的输出特征;
26、语言模型为在解码阶段集成外部训练的transformer语言模型,通过低资源语言数据集中的训练集对transformer语言模型进行预训练,通过低资源语言数据集中的验证集对transformer语言模型进行验证,调整transformer语言模型的权重,获得最佳语言模型。
27、可选地,通过两阶段训练策略对低资源语言唇语识别系统模型进行训练,获得低资源语言唇语识别系统模型;其中,两阶段训练策略包括:英语预训练阶段以及低资源语言微调阶段,包括:
28、基于大规模英语视频数据集对模型进行预训练,使低资源语言唇语识别系统模型充分学习唇部特征提取能力和视频-文本映射关系;其中,预训练采用多任务学习框架,将链接时序分类ctc损失与基于transformer的注意力损失联合优化,权重比例为0.1:0.9;
29、加载预训练模型权重,因并随机初始化最终输出层权重;
30、对低资源语言数据集进行全参数微调,保持联合优化框架不变,将预热轮次调整为5轮,总轮次减至75轮,同时引入梯度裁剪阈值1.0;
31、接入transformer语言模型,语言模型权重与ctc权重及注意力权重比例为0.2:0.2:0.8。
32、另一方面,提供了一种基于预训练微调的低资源语言唇语识别装置,该装置应用于基于预训练微调的低资源语言唇语识别方法,该装置包括:
33、文本数据获取模块,用于获取无重复的低资源语言文本数据以及英文文本数据;基于低资源语言文本数据以及英文文本数据对分词模型进行预训练;
34、唇部特征提取模块,用于获取低资源语言唇语视频数据以及英语唇语视频数据,通过语音识别技术获取每条视频数据对应的文本标签;对低资源语言唇语视频数据以及英语唇语视频数据进行预处理以及唇部特征提取;
35、分词模块,用于利用训练好的分词模型,对每条视频数据对应的文本标签进行分词,并对每条视频数据进行特征提取,基于提取后的视频数据特征获得数据集标签;
36、模型搭建模块,用于搭建基于视觉特征提取网络、序列编解码网络以及语言模型的低资源语言唇语识别系统模型;其中,视觉特征提取网络为加入卷积神经网络优化的唇部特征提取器;序列编解码网络对高维特征采用使用conformer编码器和transformer解码器架构进行编解码;语言模型为在推理解码阶段接入经过低资源语言文本训练的transformer语言模型;
37、训练微调模块,用于通过两阶段训练策略对低资源语言唇语识别系统模型进行训练,获得低资源语言唇语识别系统模型;其中,两阶段训练策略包括:英语预训练阶段以及低资源语言微调阶段;
38、唇语识别模块,用于将待识别的低资源语言视频数据输入至训练好的低资源语言唇语识别系统模型中,完成基于预训练微调的低资源语言唇语识别。
39、另一方面,提供一种基于预训练微调的低资源语言唇语识别设备,所述基于预训练微调的低资源语言唇语识别设备包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上述基于预训练微调的低资源语言唇语识别方法中的任一项方法。
40、另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于预训练微调的低资源语言唇语识别方法中的任一项方法。
41、本发明实施例提供的技术方案带来的有益效果至少包括:
42、本发明实施例中,本发明针对低资源语言场景中唇语识别数据稀缺、语义歧义严重的问题,设计了一种端到端的纯视觉唇语识别方法。该方法创新性地引入了“预训练–微调”策略,即在大规模英语数据集上对唇部视频进行特征学习,通过构建由三维卷积神经网络、resnet-18残差网络、conformer编码器及transformer解码器组成的深度神经结构,在预训练阶段充分学习跨语言通用的视觉语音表示;随后利用少量藏语视频数据对模型进行全参数微调,使模型在保持特征提取能力的基础上迅速适应低资源语言特性,从而显著降低训练数据的需求。
43、此外,本发明提出的解码策略同样具有显著创新性。在推理阶段引入基于藏语文本训练的transformer语言模型,并与ctc输出路径及注意力机制输出进行解码融合,通过灵活调整三者之间的权重比例,实现帧级对齐信息与上下文语义信息的联合建模,有效缓解“同型异义词”现象对识别结果的干扰,从而显著提升了句子级别的识别准确率与语言一致性。
44、本发明基于现有深度学习模块(包括三维卷积、resnet-18、conformer编码器和transformer解码器)进行有针对性的组合与优化,通过引入跨语言的“预训练-微调”策略,并在解码阶段引入语言模型协同ctc与注意力机制解码,形成一整套适用于低资源、无音频场景的高效唇语识别方法。