本申请涉及唇语识别,具体涉及一种基于convformer的粤语句子级唇语识别方法。
背景技术:
1、唇语识别是一种仅通过视觉信息来识别说话内容的技术。它不依赖于音频信息,而是通过视觉信息(如嘴唇、舌头、牙齿、下巴)来对说话内容进行理解。由于其在人机交互、语音增强、活体检测、自动字幕等方面具有广泛的应用价值,而一跃成为近年来的研究热门。随着深度学习的发展,唇语识别研究进展取得了重大突破,基于深度学习的唇语识别方法层出不穷。
2、粤语,又称作广东话,是一种汉藏语系汉语族的声调语言,是中国汉语七大方言之一。粤语含完整的九声六调,较完美地保留古汉语特征,拥有完善的文字系统,可以完全使用汉字表达(其他汉语方言很难做到),也是唯一除普通话外在外国大学有独立研究的中国汉语。并且,全球将近有1.2亿人口使用粤语。无论是粤语语言的独特性,还是使用粤语人群的规模性,都表明了粤语唇语识别具有重要的研究意义以及广阔的市场背景。
3、由于粤语具有九声六调的特点,因此,粤语唇语识别任务与中文唇读任务存在着较大的差异。此外,一句话的唇部序列长度远比一个词的唇部序列长度要长,故句子级唇语识别任务和单词级唇语识别任务相比,其不仅要对每一帧的唇部特征进行有效的提取,而且要对帧与帧之间的时间序列进行有效的建模。
4、现有的唇语识别任务中对粤语句子级唇语识别的研究极少,并且没有公司或者大型研究机构推出大规模粤语句子级唇读的数据集。并且,现有的粤语句子级唇读模型无法很好的提取唇部的动态视觉特征且无法同时对唇部特征序列的全局时间信息以及局部时间信息进行捕获。
技术实现思路
1、本发明的目的是提供一种基于convformer的粤语句子级唇语识别方法,填充了粤语句子级唇语识别领域的空白,能够捕获唇部序列的全局时间信息和局部时间信息,有效的提升了粤语句子级唇语识别的精度。
2、为实现上述目的,本发明提供了一种基于convformer的粤语句子级唇语识别方法,包括以下步骤:
3、s1、构建粤语句子级唇语识别数据集
4、通过xtreme工具从互联网上收集包含珠江台、本港台在内的多个粤语节目。通过图像的全局直方图来判断单个说话人与视频中其他场景的切换,得到一个粗略的单个说话人视频剪辑,同时,使用视频剪辑软件对视频剪辑中的短句进行裁剪,最后放入自动化数据采集系统中进行自动的数据采集。这样可以有效的过滤掉无效帧(没有说话人、多个说话人、有人声却没有说话人),还可以使数据集更加接近真实的场景分布。
5、s2、设计算法模型
6、一、前端模块:使用视觉前端模块提取视频信息的时空特征。视觉前端模块由conv3d以及resnet-50组成,旨在提取唇部细粒度动态特征。
7、二、后端模块:通过12个convformer-encoder块来对唇部序列的局部时间信息和全局时间信息进行建模。
8、每个convformer-encoder块由四个模块构成:前馈模块、自注意力模块、卷积模块以及第二个前馈模块构成。其中,前馈模块有助于网络模型的正则化。自注意力模块用来对唇部序列的全局交互性进行建模,捕获唇部序列的全局时间信息。卷积模块则能对唇部序列的局部相关性进行学习,捕获唇部序列的局部时间信息。
9、三、使用transformer-decoder模块对后端模块输出的视觉特征进行解码。
10、四、设计损失函数。
11、五、设计训练策略。构建粤语句子级唇语识别模型。
12、s3、对数据进行预处理,将处理过的视频信息和文本信息打包整合之后保存至可用于训练的npz文件中。
13、s4、使用设计的算法对预处理过的数据进行训练,得到训练模型。
14、s5、利用训练模型构建演示系统进行演示。
15、因此,本发明采用上述一种基于convformer的粤语句子级唇语识别方法,通过收集粤语句子级唇语识别数据集弥补了粤语句子级唇语识别领域没有大规模数据集的空白。本发明的识别方法能够捕获唇部序列的全局时间信息和局部时间信息,有效的提升了粤语句子级唇语识别的精度。
16、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
1.一种基于convformer的粤语句子级唇语识别方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于convformer的粤语句子级唇语识别方法,其特征在于:在步骤s1中,粤语句子级唇语识别数据集构建方法如下:
3.根据权利要求2所述的一种基于convformer的粤语句子级唇语识别方法,其特征在于:在步骤s12中,过滤无效帧过程中,首先,手动过滤掉音频和视频明显不同步的视频样本;对于剩余视频样本,直接通过syncnet模型进行处理。
4.根据权利要求3所述的一种基于convformer的粤语句子级唇语识别方法,其特征在于:syncnet模型的处理时,首先计算每个视频样本的偏移量,并平均视频样本之间的距离作为同步的基础,若偏移量大于±7帧,则丢弃。
5.根据权利要求1所述的一种基于convformer的粤语句子级唇语识别方法,其特征在于:在步骤s2中,设计算法模型包括前端模块、后端模块以及transformer-decoder模块组成,前端模块使用视觉前端模块提取视频信息的时空特征,视觉前端模块由conv3d以及resnet-50组成,旨在提取唇部细粒度动态特征;后端模块由12个convformer-encoder块组成,来对唇部序列的局部时间信息和全局时间信息进行建模;transformer-decoder模块则是对后端模块输出的视觉特征进行解码。
6.根据权利要求5所述的一种基于convformer的粤语句子级唇语识别方法,其特征在于:步骤s2中,具体的操作如下:
7.根据权利要求6所述的一种基于convformer的粤语句子级唇语识别方法,其特征在于:步骤s22中,每个convformer-encoder块由前馈模块、自注意力模块、卷积模块以及第二个前馈模块构成,模块之间通过残差的方式进行连接;
8.根据权利要求6所述的一种基于convformer的粤语句子级唇语识别方法,其特征在于:步骤s23中包括两个解码器,首先,第一个解码器为transformer seq2seq,在训练时使用真实字符标签作为输入,并执行teacher forcing的训练方法;第一个解码器的形式如下:
9.根据权利要求1所述的一种基于convformer的粤语句子级唇语识别方法,其特征在于:在步骤s3中,具体操作如下:
10.根据权利要求1所述的一种基于convformer的粤语句子级唇语识别方法,其特征在于:在步骤s4中,具体操作如下: