一种基于图像实例分割的版面分析方法及系统与流程

文档序号：32888550发布日期：2023-01-12 22:27阅读：22来源：国知局

1.本发明涉及计算机视觉技术领域，尤其涉及一种基于图像实例分割的版面分析方法及系统。

背景技术：

2.图像分割是是指根据灰度、彩色、空间纹理和几何形状等特征把图像划分成若干个互不相交的区域，使得这些特征在同一区域内表现出一致性或相似性，而在不同区域间表现出明显的不同；其中主要的技术有目标检测，语义分割，实例分割等，其中，对于实例分割是目标检测和语义分割的结合，在图像中将目标检测出来(目标检测)，然后对每个像素打上标签(语义分割)，然而传统的实例分割方法是先进行目标检测，在目标检测的基础上加入全连接网络，进行实例分割任务，但是传统的实例分割算法并没有考虑各个类别的位置关系并且存在检测和分割的时耗较长，随着实例分割技术的发展，新的算法solo算法被提出，其将图片切分为s*s的网格，经过全卷积网络(fcn)提取特征，然后分为两条分支，第一条分支为类别分支，第二条分支为掩码分支，其中，类别分支对每一个网格的中心点预测语义类别，得到语义类别，然后将图片映射到掩码分支上，得到实例掩码，虽然solo算法考虑了各个类别的位置关系，但没有增加随机性，进而导致模型的泛化能力不够好。

技术实现要素：

3.为了解决上述技术问题，本发明的目的是提供一种基于图像实例分割的版面分析方法及系统，能够在考虑图片位置信息的关系的基础上考虑图片被遮挡区域的随机性，从而增加模型的泛化能力使其对未知的图片数据有更好的分割效果。
4.本发明所采用的第一技术方案是：一种基于图像实例分割的版面分析方法，包括以下步骤：
5.通过特征提取网络对待检测图片进行特征提取处理，得到特征图；
6.对特征图进行等比切分处理，得到切分后的特征图；
7.基于编码器，通过注意力机制获取切分后的特征图之间的关系并赋予至切分后的特征图，得到加和后的特征图；
8.对加和后的特征图依次进行随机遮挡与预测处理，得到识别分析图。
9.进一步，所述通过特征提取网络对待检测图片进行特征提取处理，得到特征图这一步骤，其具体包括：
10.获取待检测图片；
11.将所述待检测图片输入至特征提取网络模型；
12.基于特征提取网络模型的卷积层，对待检测图片进行卷积运算，得到浅层特征图与深层特征图；
13.基于特征提取网络模型的池化层，对浅层特征图与深层特征图进行融合处理，得到特征图。
14.进一步，所述基于编码器，通过注意力机制获取切分后的特征图之间的关系并赋予至切分后的特征图，得到加和后的特征图这一步骤，其具体包括：
15.基于编码器，对切分后的特征图进行编码处理，得到编码后的特征图；
16.通过注意力机制获取切分后的特征图的关键节点信息；
17.对编码后的特征图与特征图的关键节点信息进行加和处理，得到具有关键信息的特征图；
18.通过激活函数对具有关键信息的特征图进行前向传播处理，得到激活后的特征图；
19.对激活后的特征图与具有关键信息的特征图进行加和处理，得到编码器的输出结果；
20.对编码器的输出结果与切分后的特征图进行加和处理，得到加和后的特征图。
21.进一步，所述基于编码器，对切分后的特征图进行编码处理，得到编码后的特征图这一步骤，其具体包括：
22.将切分后的特征图输入至编码器；
23.基于编码器的信息编码模块，对切分后的特征图进行信息编码处理，得到具有信息关联的特征图；
24.基于编码器的位置编码模块，通过正余弦函数对切分后的特征图进行位置编码处理，得到具有位置关联的特征图；
25.对具有信息关联的特征图与具有位置关联的特征图进行加和处理，得到编码后的特征图。
26.进一步，所述通过注意力机制获取切分后的特征图的关键节点信息这一步骤，其具体包括：
27.引入查询、键、值矩阵并与切分后的特征图的向量进行相乘得到相乘后对应的查询、键、值矩阵；
28.对查询矩阵与键矩阵的转置矩阵进行相乘计算，得到分数矩阵；
29.对分数矩阵与值矩阵进行相乘计算，得到注意力矩阵的值；
30.通过归一化指数函数对注意力矩阵的值进行映射，得到映射后的数据；
31.对映射后的数据进行加权处理，得到切分后的特征图的关键节点信息。
32.进一步，所述注意力机制的计算公式如下所示：
33.q＝wq*x
embedding
34.k＝wk*x
embedding
35.v＝wv*x
embedding
[0036][0037]
上式中，wq，wk，wv分别表示网络随机初始的查询，键，值所对应的矩阵，x
embedding
表示编码后的特征图，q、k、v分别表示查询、键、值所对应的矩阵，dk表示网络的深度，attention(
·
)表示注意力机制的计算公式，softmax(
·
)表示归一化指数函数。
[0038]
进一步，所述对加和后的特征图依次进行随机遮挡与预测处理，得到识别分析图这一步骤，其具体包括：
[0039]
选取加和后的特征图中的n个网格数据进行遮挡处理，得到被遮挡的网格数据；
[0040]
对被遮挡的网格数据进行中心点预测与四周节点预测，得到中心点预测数据与四周节点预测数据；
[0041]
对中心点预测数据与四周节点预测数据进行类别判断；
[0042]
判断到所述中心点预测数据与所述四周节点预测数据为同一类别数据，对中心点预测数据与四周节点预测数据进行连接处理，得到识别分析图。
[0043]
进一步，还包括对识别分析图进行缩放处理；
[0044]
进一步，所述被遮挡的网格数据的损失计算公式表示如下：
[0045][0046]
上式中，total loss(
·
)表示被遮挡的网格数据的损失计算公式，表示分类损失计算，表示掩码损失计算，n表示被遮挡的网格数据，yi表示真实标签值，表示预测标签值，p(yi)表示真实标签值所对应的概率。
[0047]
本发明所采用的第二技术方案是：一种基于图像实例分割的版面分析系统，包括：
[0048]
特征提取模块，用于通过特征提取网络对待检测图片进行特征提取处理，得到特征图；
[0049]
切分模块，用于对特征图进行等比切分处理，得到切分后的特征图；
[0050]
编码模块，基于编码器，通过注意力机制获取切分后的特征图之间的关系并赋予至切分后的特征图，得到加和后的特征图；
[0051]
输出模块，用于对加和后的特征图依次进行随机遮挡与预测处理，得到识别分析图。
[0052]
本发明方法及系统的有益效果是：本发明对待检测的图片进行特征提取处理与等比例分割成若干个网格，进一步通过引入位置编码模块获取待检测图片的网格之间的信息关联性，更好的考虑到各个网格之间的位置关系，进一步通过多头注意力机制寻找待检测图片中的最关键节点信息，更好地学习其中上下文之间的关系，从而能更好地学习到图片中每个部分的关系，得到更准确的预测结果，再引入随机遮挡的思想，可以让未遮挡的区域的数据具有遮挡区域的信息，从而对部分模糊和带黑点等情况下的图片可以对模糊和黑点区域有着更好的识别效果，增加模型的泛化能力。
附图说明
[0053]
图1是本发明一种基于图像实例分割的版面分析方法的步骤流程图；
[0054]
图2是本发明一种基于图像实例分割的版面分析系统的结构框图。
具体实施方式
[0055]
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
[0056]
参照图1，本发明提供了一种基于图像实例分割的版面分析方法，该方法包括以下
步骤：
[0057]
s1、通过特征提取网络对待检测图片进行特征提取处理，得到特征图；
[0058]
具体地，随机获取一张图片，进一步需要对图片进行预处理使得计算机终端可以识别图片以便于后续的操作，所以将输入的图片经过特征提取网络提取特征，特征提取网络由卷积层和池化层构成；
[0059]
其中，对于卷积操作是一种先把对应位置相乘然后再把结果相加的运算。通过卷积运算，可以使具体的视觉特征让网络学习到，在网络的低层上可能是某些颜色的斑点，在网络更高层上可能是一个题目的区域；
[0060]
池化操作，池化层是模仿人的视觉系统对数据进行降维，在构建卷积神经网络时，往往会用在卷积层之后，通过池化来降低卷积层输出的特征维度，有效减少网络参数的同时还可以防止过拟合现象，在经过卷积层之后得到特征图后，对特征图进行池化操作，可以是最大池化，也可以是均值池化，最大池化是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值；即，取局部接受域中值最大的点，同理，平均池化为取局部接受域中值的平均值，从而得到特征图某个区域的最大特征和平均特征，并对数据完成降采样；
[0061]
在网络的浅层一般提取的都是一些比较低阶的特征，比如说，图像的纹理，边框等，对应到版面分析上可能是图片中的一句话或者一个词；在网络的深层提取到的都是高阶，抽象的特征，与低阶的特征相比，高阶的特征不够细粒度、分辨率较低，但语义信息丰富，往往一个像素点的信息可以代表原图中一片区域的特征，对应到版面分析上可能是一个题目，插入的图片等，即经过特征提取网络后，计算机知道了这张图片每个位置具体是什么内容，从而得到特征图。
[0062]
s2、对特征图进行等比切分处理，得到切分后的特征图；
[0063]
具体地，等比切分为n*n个网格：将特征图分别按高度和宽度划分为n个区域，将按高度划分的n个区域和按宽度划分的n个区域相结合，最终在特征图上得到n*n个网格。
[0064]
s3、基于编码器，通过注意力机制获取切分后的特征图之间的关系并赋予至切分后的特征图，得到加和后的特征图；
[0065]
s31、基于编码器，对切分后的特征图进行编码处理，得到编码后的特征图；
[0066]
具体地，先对切分后的特征图进行信息数据编码处理，将一个网格里的数据转化为一个维度为嵌入维度的向量来表示，从而对输入到编码器中的数据进行编码，其中所述编码的具体步骤为每一个网格都会被看作一个值，这个值越相近，说明这两个网格越有可能是同一类标签，通过编码这一步骤，可以得到每个网格中数据的联系，再对切分后的特征图进行位置信息编码处理，因为编码器中没有循环神经网络的迭代操作，所以必须提供每个网格的位置信息给编码器，才能识别出每个网格之间的顺序关系，具体操作是通过正余弦函数对每个位置进行位置编码，每一个网格传入网络的顺序可能是随机的，经过网络后会被打乱位置顺序，通过位置编码这一步骤，可以得到每个网格之间的位置信息，从而在训练时，保持每个网格位置之间的联系；
[0067]
所述位置信息编码的计算公式即正余弦函数如下所示：
[0068][0069][0070]
上式中，pos表示每个网格的中心点位置，i表示嵌入的长度，d
model
表示位置向量的
维度，pe(
·
)表示位置编码计算公式；
[0071]
将图片信息编码和位置数据编码对应位置进行加和，目的是让数据即保持每个网格中数据的联系又保持每个网格位置之间的联系，所述加和的表达式如下所示：
[0072]
x
embedding
＝x
embedding
+x
pos
[0073]
上式中，第二个x
embedding
代表原始编码向量，第一个x
embedding
表示与原始编码向量与位置编码向量进行加和后的结果，x
pos
表示具有位置关联的特征图；
[0074]
s32、通过注意力机制获取切分后的特征图的关键节点信息；
[0075]
具体地，对输入的数据计算相关性，引入查询、键、值的概念，其中查询、键、值通过输入的数据进行线性映射得到，首先用键和查询做比较，得到一个分数，最后，用分数乘以值得到最终的结果，计算过程为通过查询乘键的转置矩阵求出注意力矩阵，通过归一化指数函数对注意力矩阵的值进行映射，最终将注意力矩阵中的每一个值映射到[0，1]，得到映射后的数据，越靠近0的数据越不重要，越靠近1的数据越重要，从而让模型通过注意力机制自学到切分后的特征图的关键节点信息，最后根据注意力矩阵来给值进行加权；通过多头注意力，可以找到数据中最有用的信息；
[0076]
其中，所述注意力机制的计算公式如下所示：
[0077]
q＝wq*x
embedding
[0078]
k＝wk*x
embedding
[0079]
v＝wv*x
embedding
[0080][0081]
上式中，wq，wk，wv分别表示网络随机初始的查询，键，值所对应的矩阵，x
embedding
表示编码后的特征图，q、k、v分别表示查询、键、值所对应的矩阵，dk表示网络的深度，attention(
·
)表示注意力机制的计算公式，softmax(
·
)表示归一化指数函数。
[0082]
s33、对编码后的特征图与特征图的关键节点信息进行加和处理，得到具有关键信息的特征图；
[0083]
具体地，将编码后的特征图与特征图的关键节点信息的数据进行加和，然后将每一行的每一个元素减去这行的均值，再除以这行的标准差，可以防止过拟合，其中，所述步骤s33中的加和处理的计算公式如下所示：
[0084]
x
hidde
＝x
embedding
+attention(q，k，v)
[0085]
上式中，x
hidden
表示具有关键信息的特征图；
[0086]
s34、通过激活函数对具有关键信息的特征图进行前向传播处理，得到激活后的特征图；
[0087]
具体地，将上层结果通过两层激活函数进行激活，这一步的目的是为了去除数据中的负值，保留正值不变；
[0088]
所述前向传播的计算公式具体如下所示：
[0089]
x
hidden
＝relu(x
hidden
*w1*w2)
[0090]
上式中，relu(
·
)表示激活函数，w1、w2表示两层线性映射所对应的权重；
[0091]
s35、对激活后的特征图与具有关键信息的特征图进行加和处理，得到编码器的输出结果；
[0092]
具体地，将激活后的特征图与具有关键信息的特征图进行加和，然后将每一行的
每一个元素减去这行的均值，再除以这行的标准差，这一步的目的是为了防止过拟合，最终得到编码器的输出；
[0093]
对于步骤s35中的加和加和计算公式如下所示：
[0094]
x
hidd
＝x
embedding
+attention(q，k，v)+x
hidde
[0095]
上式中，x
hidde
表示编码器的输出结果；
[0096]
s36、对编码器的输出结果与切分后的特征图进行加和处理，得到加和后的特征图。
[0097]
具体地，将原始的n*n的网格的数据与经过编码器输出的n*n的网格的数据对应位置相加；
[0098]
x＝x+x
hidden
[0099]
上式中，x表示加和后的特征图；
[0100]
s4、对加和后的特征图依次进行随机遮挡与预测处理，得到预测后的特征图；
[0101]
s41、对加和后的特征图进行随机遮挡处理；
[0102]
具体地，将加和后的特征图的n*n个网格的数据中随机选取n个网格进行遮挡，通过随机遮挡后对模型进行训练，可以让未遮挡区域更好的学习遮挡区域的联系，从而未遮挡区域不仅具有本区域的数据和位置的联系还可以具有遮挡区域的联系，从而增加模型的泛化能力，例如，当一张部分区域模糊或有黑点之类的图片输入进来的时候，模型也可以很好的学习其中模糊区域或者黑点区域的关系；
[0103]
所述随机遮挡的表达式如下所示：
[0104][0105]
上式中，n表示被遮挡的网格数据，x表示具有网格分割的特征图；
[0106]
s42、对随机遮挡后的特征图进行预测；
[0107]
具体地，在模型的训练过程中，每次训练过程只对随机遮挡后的数据进行预测，具体操作为，首先预测每个遮挡网格中心点的类别，并对每个遮挡的网格搜素局部最大值，抑制非极大值，只保留最大值的输出，然后将判断预测出来遮挡区域网格的类别与其四周网格的类别是否相同，如果相同，将类别相同的区域连接起来，得到掩码，如果不同，则将遮挡区域网格就是一个单独的掩码，如果遮挡区域预测出来的类别为背景或没有类别时，则遮挡区域没有掩码；
[0108]
掩码数据即是一个类别，单独掩码数据就是一个网格和它周围的网格类别都不相同，所以为一个单独的掩码数据，非掩码数据就是背景，对应到版面分析上，可能是一张答题卡，切分为n*n大小的网格，例如如果网格1和它右边的网格2类别都为题目，那么将它们合并，作为掩码数据，如果网格3的类别为标题，而它的周围都没有这个类别，那么网格3为一个单独掩码，如果网格4对应答题卡上的空白处，没有类别，那么就对应非掩码；
[0109]
所述对随机遮挡后的特征图进行预测的表达式如下所示：
[0110][0111]
上式中，x
predict
表示预测出来的x的值；
[0112]
进一步的随机遮挡特征图的损失函数如下所示：
[0113][0114][0115][0116]
上式中，total loss(
·
)表示被遮挡的网格数据的损失计算公式，表示分类损失计算，表示掩码损失计算，n表示被遮挡的网格数据，yi表示真实标签值，表示预测标签值，p(yi)表示真实标签值所对应的概率。
[0117]
s5、对预测后的特征图进行缩放处理，得到最终的识别分析图。
[0118]
具体地，因为预测后的特征图和输入图片的高度和宽度有很大的区别，人们不能直接就可以获取到图片的数据内容信息，所以要将特征图等比例缩放到输入图片的大小，方便人进行进行观看，将预测后的特征图的宽和高分别按照输入图片的宽和高/特征图的宽和高的比例进行缩放，最终得到输出图片；
[0119]
进一步的，对于图片进行等比例缩放的表达式如下所示：
[0120][0121][0122]
上式中，(w
*
，h
*
)表示输出图片的某点位置坐标数据，(w，h)表示预测后的特征图上的某点坐标数据，xw、xh表示预测后的特征图的宽与高，表示输入图片的宽与高。
[0123]
本发明可以在教育领域进行应用，但不限于此领域，阅卷的时候往往需要将一整张答题卡整体传到网上，由老师来辨别不同题目的的位置。通过版面分析网络后，可以自动将题目与其它等区域分离出来，然后只将题目传到网上由老师进行查看。
[0124]
参照图2，一种基于图像实例分割的版面分析系统，包括：
[0125]
特征提取模块，用于通过特征提取网络对待检测图片进行特征提取处理，得到特征图；
[0126]
切分模块，用于对特征图进行等比切分处理，得到切分后的特征图；
[0127]
编码模块，基于编码器，通过注意力机制获取切分后的特征图之间的关系并赋予至切分后的特征图，得到加和后的特征图；
[0128]
输出模块，用于对加和后的特征图依次进行随机遮挡与预测处理，得到识别分析图。
[0129]
上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
[0130]
以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施
例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李龙凯李滔孟伟林超纯张秀屏麦永钦卓汉强
技术所有人：黑盒科技（广州）有限公司
我是此专利的发明人

上一篇：杂环化合物及其作为CDK抑制剂的用途的制作方法
上一篇：一种排泥斗气水反冲装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。