一种基于maskrcnn骨架的自注意力试卷版面分析方法

文档序号：33037949发布日期：2023-01-24 20:33阅读：来源：国知局

技术特征：
1.一种基于maskrcnn骨架的自注意力试卷版面分析方法，其特征在于，所述试卷版面分析方法包括以下步骤：s1、将尺寸为h
×
w
×
3的rgb试卷图片输入resnet-50，得到5张不同尺寸的特征图，分别记作：c1,c2,c3,c4,c5，5张特征图的尺寸依次为其中，h表示试卷图片的高，w表示试卷图片的宽；s2、使用fpn算法对四张特征图c2,c3,c4,c5进行融合，得到通道数相同、尺寸不同的特征图，其中，fpn算法过程为：首先自上而下对c5,c4,c3,c2进行最近邻上采样得到的特征图m5,m4,m3,m2，然后对c5,c4,c3,c2中的每一个特征图进行一个1
×
1卷积，接着和上采样得到的特征图m5,m4,m3,m2对应进行对应加和得到d5,d4,d3,d2，最后，对加和后的特征图d5,d4,d3,d2进行3
×
3的卷积最终得到融合特征图p5,p4,p3,p2；s3、对上采样得到的特征图m5进行步长为2的最大池化得到融合特征图p6，该融合特征图p6用于获得后续的候选协议框；s4、分别以融合特征图p6,p5,p4,p3,p2中每一个像素点为中心生成3种不同长度、长宽比分别为1:1,1:2,2:1共9个先验区域，使用区域推荐网络rpn对上述先验区域进行二分类和边框回归，并将属于目标的置信度小于γ的、尺寸过小以至于不能完整包含目标的或尺寸过大以至于超出特征图范围的先验区域过滤掉，其中，γ为用于过滤低置信度先验区域的预定义置信度阈值，接着，采用非极大值抑制过滤重叠的先验区域获得最终的候选区域roi，其中，每一个矩形候选区域都有四个顶点，roi∈r
n
×4，r表示实数域，n是每张特征图的候选框个数；s5、对候选区域roi进行roialign候选区域对齐，获得大小一致的若干特征图；s6、使用多层神经网络对步骤s5得到的特征图进行边界识别和掩膜预测，其中，边界识别包括区域分类和边界回归；s7、将步骤s4得到的候选区域roi输入位置编码层position_embeddings，获取每个候选区域的位置嵌入特征position_embeddings(roi)，其中，position_embeddings(roi)∈r
n
×
d
；s8、将区域特征向量p与位置嵌入特征position_embeddings(roi)相加得到融合向量g，g＝p+position_embeddings(roi)，对融合向量g进行层归一化操作，得到特征向量f，f＝layer_norm(g)，其中，g,f∈r
n
×
d
，layer_norm()表示层归一化操作函数；s9、将步骤s8得到的特征向量f输入注意力层得到注意力特征a；s10、将注意力特征a和原始的区域特征向量p相加并进行层归一化操作，得到最终的综合特征向量p
′
，其中p
′
∈r
n
×
d
；s11、将综合特征向量p
′
分别输入两个独立的全连接层：第一全连接层fc1和第二全连接层fc2，分别用于分类和边框回归，得到最终的分类和回归结果。2.根据权利要求1所述的一种基于maskrcnn骨架的自注意力试卷版面分析方法，其特征在于，所述resnet-50是由49个卷积层和1个池化层顺序拼接的残差网络，是一种图片特征提取器，从原始图片中提取5种不同大小的特征图。3.根据权利要求1所述的一种基于maskrcnn骨架的自注意力试卷版面分析方法，其特征在于，所述步骤s2在使用fpn算法对四张特征图c2,c3,c4,c5进行融合过程中，对c5,c4,c3,c2中的每一个特征图进行一个1
×
1卷积，将输出通道全部设置为相同的256通道。
4.根据权利要求1所述的一种基于maskrcnn骨架的自注意力试卷版面分析方法，其特征在于，所述步骤s4中使用区域推荐网络rpn对所述先验区域进行目标或背景的二分类。5.根据权利要求1所述的一种基于maskrcnn骨架的自注意力试卷版面分析方法，其特征在于，所述步骤s4中非极大值抑制具体过程如下：将所有先验区域属于目标的置信度进行排序，选中最高置信度的先验区域及其所对应的边界，过滤掉其他与该先验区域iou(a,b)值大于δ的先验区域；a,b表示两个不同的图，a∩b表示a,b两区域重叠面积，a∪b表示a,b两区域总面积，iou(a,b)即a,b两区域重叠面积比a,b两区域总面积，δ为用于对过滤过程进行限制的预定义阈值。6.根据权利要求1所述的一种基于maskrcnn骨架的自注意力试卷版面分析方法，其特征在于，所述步骤s6中使用多层神经网络对步骤s5得到的特征图进行边界识别和掩膜预测的过程由两个相互独立的神经网络mlp1和mlp2分别完成，其中，mlp1将步骤s5得到的特征图压缩为区域特征向量p，其中p∈r
n
×
d
，其中，d是预设的局部特征向量的维度，mlp2用于得到特征图的掩膜，即对特征图中的每个像素点属于目标或是背景进行分类。7.根据权利要求1所述的一种基于maskrcnn骨架的自注意力试卷版面分析方法，其特征在于，所述步骤s8中层归一化操作函数layer_norm()的操作过程如下：先求向量g的n行中每一行的均值e1,e2,
…
,e
n
和方差σ1,σ2,
…
,σ
n
，向量g是一个尺寸为n
×
d的向量，则f中第i行j列个元素f
ij
可由下式计算得到：其中，g
ij
表示向量g中第i行j列个元素，1≤i≤n,1≤j≤d，∈是用于防止数据分布的方差为0的预定义参数，γ是用于对数据分布的方差进行调节的预定义参数，β是用于对数据分布的均值进行调节的预定义参数。8.根据权利要求1所述的一种基于maskrcnn骨架的自注意力试卷版面分析方法，其特征在于，所述步骤s9过程如下：随机初始化三个尺寸d
×
d的权重矩阵q,k,v，分别将f与q,k,v相乘得到尺寸为n
×
d的矩阵q,k,v，基于q,k,v计算注意力权重矩阵a并用softmax函数进行归一化处理，计算公式如下：9.根据权利要求1至8任一所述的一种基于maskrcnn骨架的自注意力试卷版面分析方法，其特征在于，所述rgb试卷图片选自语文、数学、政治、历史、地理、物理、化学或生物。

技术总结
本发明公开一种基于maskrcnn骨架的自注意力试卷版面分析方法，用于对试卷的内容按照版面布局进行分析和提取。步骤如下：将图片数据的向量表示输入Mask R-CNN骨架，提取图片特征，得到Region feature vector(局部特征向量)和ROI(建议框)；将Region feature vector和ROI输入自注意力模块中，得到最终用于分类和回归的向量表示；再将该向量表示分别输入给分类全连接层和回归全连接层，分别得到最终的分类结果和回归坐标。该方法基于计算机视觉进行设计，因此完全不受限于输入图片的类型(背景明暗、分辨率高低、版面格式、字体颜色等等)，适用多个科目。适用多个科目。适用多个科目。

技术研发人员：马千里冯华文钟子涵
受保护的技术使用者：华南理工大学
技术研发日：2022.11.08
技术公布日：2023/1/23

完整全部详细技术资料下载

当前第2页1 2