一种基于ResNet与注意力机制的手写数学公式识别方法

文档序号:35415957发布日期:2023-09-10 02:41阅读:30来源:国知局
一种基于ResNet与注意力机制的手写数学公式识别方法

本发明涉及涉及一种手写数学公式的识别方法,尤其涉及一种基于resnet与注意力机制的手写数学公式识别方法。


背景技术:

1、如今,在互联网与人工智能飞速发展的当下,教育模式也悄然发生了变化。在教育领域,数学课程中,学生和老师每天产生大量的数学公式手写内容,这些书写的内容里包含了丰富且有价值的信息,如果可以将其转化为电子档形式存储将会极大地提高教学效率。

2、数学公式识别从广义上来说也是ocr技术中的一种,该技术旨在将图片中的数学公式转换为latex等标记语言。目前,传统的ocr方法在普通印刷体文本识别中已经有了很高的准确率,但是由于数学公式的结构较复杂(包括上下标,根号,分式等等),从左到右顺序识别的普通ocr方法不能有效地分析出数学公式的结构与位置关系。

3、目前大部分编码器解码器模型中都用普通卷积神经网络或者循环神经网络进行编码解码操作,但是基于手写体字符的多样性,在编码的过程中经过卷积神经网络多次池化以后会出现一些细微的特征丢失,比如说小数点等字符,而且会出现梯度消失或者爆炸等情况。此外,简单的循环神经网络解码器不能聚焦于局部特征进行解码操作,从而不能精准地实现结构分析和符号识别。

4、考虑到梯度消失、特征重用度和参数数量等原因,本发明提出一种采用残差网络(residual network,resnet)网络作为编码器对图像进行特征提取,结合注意力机制的gru作为解码器的模型方法。以此来代替单一的卷积神经网络和循环神经网络的模型,在解码latex序列时,通过引入注意力机制,针对图像的不同区域,注意力机制可以引导模型准确地实现符号识别和结构分析。


技术实现思路

1、本发明的目的是为了解决目前对于手写数学公式识别模型方法的准确性较低的问题,提出一种基于resnet与注意力机制的手写数学公式识别方法。

2、为实现以上发明目的,而采取的技术手段是:

3、(1)采用resnet作为编码器对图像进行特征提取;

4、(2)在使用resnet编码过程中加入se模块来提高对重要特征信息的学习和提取。

5、(3)采用gru作为解码器解析输出latex序列。

6、(4)在解码时引入注意力机制,针对图像的不同区域,注意力机制可以引导模型准确地实现符号识别和结构分析。

7、优选地,所述发明采用resnet作为图像编码器,从输入的图像提取其高维视觉特征。其编码的过程为:

8、采用标准的残差网络resnet34来对图像特征进行提取,输入为图像,输出是一个大小为h×w×d的三维数组:

9、x=resnet(img),img∈rh×w×d

10、令l=h×w,那么可以把这个三维特征图视为长度为l的d维特征序列。输出序列当中的每个元素都是对应于图像局部区域的d维编码:

11、a={a1,a2,…,al},ai∈rd

12、优选地,所属发明采用结合se模块的resnet作为图像编码器,将se模块添加在一些主干网络,来提高对图像特征信息的学习与提取。se(squeeze-and-excitation)模块主要对resnet的各个主干网络通道进行权重的分配,首先squeeze操作利用全局的池化,将大小为c×h×w的输入特征综合为c×1×1的特征描述:

13、

14、在squeeze操作之后,网络也仅仅是得到了一个全局描述,这个描述并不能作为该通道的权重。因此需要进行excitation操作来相对全面地获取通道权重。该操作包含了两个全连接层和sigmoid激活函数。全连接层能够很好的融合全部的输入特征信息,而sigmoid函数也能够很好的将输入映射到0-1区间:

15、s=fex(z,w)=σ(g(z,w))=σ(w2δ(w1z))

16、其中z为squeeze操作获得的全局描述,δ表示relu函数,保证输为正,w1w2为两个全连接层,其中其中r为缩放参数,主要用于减轻网络的计算复杂度和参数量。

17、网络经过excition操作之后,就获得了输入特征图中的各个通道的权重,剩下的就是将权重和原始的特征融合:

18、

19、优选地,所述发明采用gru作为解码器生成输出latex字符串的过程为:

20、首先,对于当前时间步给定的输入x,当前时间步隐藏层的隐藏状态ht可以按照以下公式计算:

21、ht=gru(xt,ht-1)

22、gru主要包含两个门控状态分别是更新门和重置门,更新们控制前边记忆信息能够继续保留到当前时刻的数据量,重置门控制要遗忘多少过去的信息。从而将重要的特征信息保留下来。

23、最后,解码器得到最后的输出序列为latex字符串y:

24、y={y1,y2,...,yt},yt∈rk

25、其中k是词汇表中的总符号数,t是latex序列的长度。

26、优选地,所述发明采用的解码器gru中结合的注意力模型为:

27、resnet编码器输出的序列为a,a在时间步i的元素为ai,总的时间步数为l,在引入注意力机制后,解码器在时间步t的上下文变量ct就成为了注意力的集中输出,也就是对ai的加权和:

28、

29、与现有的技术相比,本发明方法方案的有益效果为:

30、目前大部分编码器解码器模型中都用普通卷积神经网络或者循环神经网络进行编码解码操作,但是基于手写体字符的多样性,在编码的过程中经过卷积神经网络多次池化以后会出现一些细微的特征丢失,比如说小数点等字符,而且会出现梯度消失或者爆炸等情况。而采用resnet作为编码器对图像进行特征提取可以利用残差神经网络shortcut技术来减少以上问题对特征提取的影响。此外,通过对resnet编码器中加入se模块来加强残差神经网络对图像字符的特征提取,该模块主要的功能是对各个通道进行权重的分配,就像attention一样,帮助网络把重要的特征信息学习到,通过查找资料和实验结果也表明将se模块添加在一些主干网络中,实验效果还是非常好的。

31、目前简单的循环神经网络解码器已经不能聚焦于局部特征进行解码操作,从而不能精准地实现结构分析和符号识别。所以本发明方法选择的rnn是gru,它可以缓解梯度消失和梯度爆炸问题,相对于有着三个门控状态的lstm来讲,gru去除掉了细胞状态,使用隐藏状态来进行信息的传递。它只包含两个门:更新门和重置门。结构更加简洁,参数数量也更少,训练速度更快。此外,普通的编码器解码器模型的局限在于上下文变量对于在解码阶段每个时间步都是相同的,本发明在解码过程中引入注意力机制的目标是让解码器在每一时间步对编码的信息分配不同的注意力。在解码latex序列时,针对图像的不同区域,注意力机制可以引导模型准确地实现符号识别和结构分析。



技术特征:

1.一种基于resnet与注意力机制的手写数学公式识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于resnet与注意力机制的手写数学公式识别方法,其特征在于,所述方法采用残差神经网络作为编码器,将输入的原始图像编码为高维特征的过程为:采用标准的残差网络resnet34作为图像编码器,输入为图像img,输出x是一个大小为h×w×d的三维数组:

3.根据权利要求1所述的基于resnet与注意力机制的手写数学公式识别方法,其特征在于,所述方法采用结合se模块的resnet网络来对图像进行编码:se模块引入注意力的思想,对于每个通道,用一个权重来表示其通道在下一阶段的重要性,以此结合残差神经网络学习图像的重要特征信息。

4.根据权利要求1所述的基于resnet与注意力机制的手写数学公式识别方法,其特征在于,所述方法采用门控神经单元作为解码器输出latex序列的过程为:

5.根据权利要求1所述的基于resnet与注意力机制的手写数学公式识别方法,其特征在于,所述方法采用注意力结合的gru解码器来提高解码效率:通过引入基于注意力机制的上下文变量ct,计算每一个时间步t对应的上下文变量ct,来进一步得到每个字符预测的条件概率:


技术总结
本发明公开了一种基于ResNet与注意力机制的手写数学公式识别方法,该方法特征在于,主要包括以下内容:(1)采用ResNet作为编码器对图像进行特征提取;(2)在使用ResNet编码过程中加入SE模块来提高对重要特征信息的学习和提取;(3)采用GRU作为解码器解析输出LaTeX序列;(4)在解码时引入注意力机制,针对图像的不同区域,注意力机制可以引导模型准确地实现符号识别和结构分析。

技术研发人员:穆昊飞,徐鲁强,张万健
受保护的技术使用者:西南科技大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1