一种批量化学术图像自动分割标注装置和方法

文档序号：26628872发布日期：2021-09-14 22:29阅读：151来源：国知局

1.本发明涉及一种对论文中的学术图像按照内容进行自动分割并标注的实现方法，特别是在对海量的学术图像进行批量化的处理过程中，针对学术图像内部排版不规则、子图类型繁多等特点，提出的一种能批量化处理，尽量去除文字等干扰因素，只保留子图像，同时根据内容对子图像进行分类的图像自动分割和标注方法。

背景技术：

2.图像分割是数字图像处理和计算机视觉领域中的一项关键技术，同时也是图像分析、图像识别任务中至关重要的预处理环节。在对图像的研究和应用中，由于人眼的视觉特性，往往只对图像中的某一部分或某些特定的区域感兴趣，为了便于识别和分析，需要将这些感兴趣的区域提取出来。而图像分割就是依据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个几何上互不相交的区域，使得这些特征在同一区域内表现出一致性或相似性，而在不同区域间表现出明显的不同。但是图像分割技术发展至今仍然没有形成一个统一的技术规范，在不同的实际需求和应用场景下，图像分割的具体方式都需要进行相应的调整，所以图像分割技术还是需要持续的进行研究。
3.目前常见的图像分割任务都是基于自然图像的，对于出现在论文中的学术图像并没有进行充分的研究。不同于自然图像本身就包含丰富的颜色、形状、纹理等信息，学术图像是体现研究成果的载体，特别是在生物医学领域，论文作者往往将多张不同类型的图像通过组合、拼接、排列等方式整合为一张复合图像进行呈现，导致之后在进行图像匹配分析时存在大量的误匹配，即不同类型的子图相互之间存在大量的干扰。要避免这一现象的发生，关键在于将各张子图从一张复合图像中分割出来。
4.针对学术图像分割这种现实需要，目前的研究还不够充分，虽然传统的图像分割方法如阈值分割法和边缘检测分割法对于解决这个问题是可行的，但是对于较为特殊的学术图像而言，这些方法尚存在一定的局限性或者应用上难以达到令人满意的效果。
5.一是学术图像的阈值难以确定。通常对图像的操作都是要先将图像转化为灰度图，这样便于后续的处理，而在学术图像的应用背景下，需要先将一张图像中有内容的区域识别出来，其次才是对识别区域的分析标注。为了加大内容区域和背景的辨别程度，需要对学术图像进行二值化的处理，而常用的经验阈值并不能良好的区分内容区域和背景，就拿生物医学领域论文中经常出现的条带图来说，有的条带图背景很浅，比较接近于整张图像背景，所以对于学术图像的阈值选取需要重新确定。
6.二是现有方法应用的适应性不是很强。一张学术图像内部可能包含若干张子图，而这些子图的布局并不都是有规律可循的，应用边缘检测法虽然能够将图像内有内容的区域描绘检测出来，但是有时学术图像并不具备较高的分辨率，也就是说有的学术图像可能并不是很清晰，会存在一些噪声点导致图像的质量下降，而边缘检测法会将所有有内容的区域都检测出来，其中会包含一些噪声点或者出现一些零零散散的区域，而这些的存在就是干扰，会导致分割效果的下降。所以需要对检测出来的边缘轮廓进行合理的筛查，这样才
能过滤掉一些如噪点之类的会对有效内容区域进行干扰的因素，从而提高学术图像分割的质量和准确度。另外，目前还缺乏对于学术图像的标注数据集，对于分割后的图像进行自动分类也有助于构建学术图像数据集，对于数据集也是一种补充。

技术实现要素：

7.本发明的目的是提供一种能批量化进行的学术图像自动分割并标注的实现方法，解决学术图像中广泛存在的子图布局不规则，图像质量较低的问题，以及对现有边缘检测方法对于学术图像存在误检、错检的情况提出相应的改进措施。具体技术方案如下：一种批量化学术图像自动分割标注方法，包括以下步骤：s101：读取图像，若图像读取失败，则需要进行图像格式的转换，转换成统一的格式后再进行读取；s102：将图像转化为灰度图，并根据设定阈值进一步转化为二值图；s103：在二值图上寻找闭合轮廓，从而获得初始轮廓信息；s104：对每一个闭合轮廓做外接矩形，以外接矩形的面积为依据进行轮廓的筛选，得到符合要求的轮廓信息；s105：对选定的轮廓进行整合，得到最终合适的轮廓，从而确定最终的分割区域；s106：依据最终确定的分割区域对图像进行分割，输出各分割区域的位置信息并形成标注文件保存下来；s107：将各分割区域输入到卷积神经网络中进行自动分类，生成类别标签，从而完善标注文件。
8.进一步的，所述s101步骤，若图像为非三通道rgb图像，需要将其拓展为标准的三通道rgb图像。
9.进一步的，所述s102步骤，使用加权平均法将原始图像转化为灰度图，具体公式如下：其中i(x,y)表示灰度图在(x,y)处像素的值，i_r(x,y)、i_g(x,y)和i_b(x,y)分别表示原始图像rgb三个通道的取值，其前面的系数是从人体生理学角度提出的一种权值。
10.进一步的，所述s102步骤，将灰度图根据设定阈值转化为二值图，具体的阈值化公式如下：其中i(x,y)表示灰度图在(x,y)处像素的值，σ为设定的分割阈值，当灰度值大于等于σ时置为0，即黑色；当灰度值小于σ时置为255，即白色。
11.进一步的，所述s103步骤，在二值图上进行轮廓的扫描，扫描的方式按照从上到下，从左到右的顺序，当找到是边界起始点的时候判断轮廓类型，随后不断更新当前点，然后绕着该点逆时针旋转找下一点并且不断更新像素值；在轮廓的存储上只存储拐点的信息，压缩水平方向，垂直方向和对角线方向的元素，只保留该方向上的重点坐标。
12.进一步的，所述s104步骤，以外接矩形的面积为依据进行轮廓的筛选，包括依据所述外接矩形的最大面积和最小面积的过滤筛选。
13.进一步的，所述s105步骤，在一个与原图尺寸一致的纯色填充图上做每一个选中轮廓的外接矩形，并在其内部进行填充，制作成掩膜,并将连通的区域进行限制为矩形，从而得到对应与原图的最终的分割区域。
14.进一步的，所述s106步骤，依据掩膜对原图上的像素进行扫描，仅保留掩膜内的框定区域，其他区域全部都置为黑色，将一整张图像划分为各个子图，同时记录下每个区域的位置坐标，保存成json格式的标注文件一并输出。
15.一种批量化学术图像自动分割标注装置，包括：图像获取模块，用于读取图像，若图像读取失败，则需要进行图像格式的转换，转换成统一的格式后再进行读取；阈值处理模块，用于将图像转化为灰度图，并根据设定阈值进一步转化为二值图；边缘提取模块，用于在二值图上寻找闭合轮廓，从而获得初始轮廓信息；边缘过滤模块，用于对每一个闭合轮廓做外接矩形，以外接矩形的面积为依据进行轮廓的筛选，得到符合要求的轮廓信息；边缘修补模块，用于对选定的轮廓进行整合，得到最终合适的轮廓，从而确定最终的分割区域；图像分割模块，用于依据最终确定的分割区域对图像进行分割，输出各分割区域的位置信息并形成标注文件保存下来；类别标注模块，用于将各分割区域输入到卷积神经网络中进行自动分类，生成类别标签，从而完善标注文件。
16.本发明主要是针对传统的图像分割方法在学术图像分割的应用问题上进行了改进，首先是通过调整参数确定了较适合于学术图像的阈值，鉴于学术图像一般以纯白色为背景，而部分难以区分的条带图的背景在转化为灰度图之后比较浅，容易和背景进行混淆，故取接近于白色的值为二值化阈值，这样不但保证了不遗漏内容区域，同时又留有回旋的余地，之后也通过实验验证了这种阈值设定方法的有效性。其次是对边缘轮廓的筛选策略，边缘检测算法在识别内容区域的同时还会将一些干扰因素如图像噪点、不需要的文字等进行识别，经过分析，图像的有效内容往往会在整张图像中重点显示，故这些有效内容往往会在整张图像中占有较大的比例，而文字的情况则多是对有效内容区域的注释，这些注释又只占有效内容区域的一小部分，同样可以应用比例将其过滤掉，所以最后就只剩下有效内容区域，也就是划分子图的区域。通过对轮廓进行筛选，有效的提高了图像分割的准确率，并通过实验进行了验证。此外，最后加入的图像自动分类工作使得整个处理过程更加完整，标注信息更加的全面，为日后进一步的分析研究工作提供了便利。
附图说明
17.图1是根据本发明在进行学术图像分割过程中图像数据处理的流程图。
18.图2是原始图像。
19.图3是二值图。
20.图4是未筛选的轮廓图。
21.图5是已筛选的轮廓图。
22.图6是掩模图。
23.图7是最终分割结果图。
24.图8是根据本发明的批量化学术图像自动分割标注装置的结构示意图。
具体实施方式
25.为了使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例与附图，对本发明作进一步详细说明。
26.本发明采用python实现，主要依赖于计算机视觉领域的开源软件库，通过一系列实施策略来完成对学术图像的分割标注任务，正如上文所说的在学术图像中往往包含有多张子图，而将这些子图分割出来，最简单的矩形框标注就能胜任，故在实施中也是采用矩形框来确定分割和形成标注的。另外，目前对于学术图像的分割与标注还停留在纯人工的方式，且学术图像数量庞大，人为手动的进行分割标注会浪费掉大量的时间，此方法无需进行预先的训练就能够获得较为满意的分割效果，且支持大批量的学术图像一次性输入，方便快捷。如图1所示，一种批量化学术图像自动分割标注方法，包括以下步骤：s101、读取图像，若图像读取失败，则需要进行图像格式的转换，转换成统一的格式后再进行读取；如图2所示，为学术图像的原始图像，包含图片、序号、文字数字符号说明；具体地，本方法处理的学术图像支持多种文件格式，如常见的有jpg、jpeg、png等格式，还有一些不常见的有tiff格式等等，但是程序在读取图像时是以三通道的rgb图像为标准，其中r、g、b分别代表红色、绿色和蓝色这三个通道，将这三个通道合成在一起便可以得到一张彩色图像。有些学术图像并非通常意义上的三通道rgb图像，而是只有一个通道的图像，对于这些图像需要将其拓展成标准的三通道图像，之后才能进行处理。
27.s102、将图像转化为灰度图，并根据设定阈值进一步转化为二值图；如图3所示，为学术图像转化获得的二值图；具体地，使用加权平均法将原始图像转化为灰度图像，具体公式如下：其中i(x,y)表示灰度图在(x,y)处像素的值，i_r(x,y)、i_g(x,y)和i_b(x,y)分别表示原始图像rgb三个通道的取值，其前面的系数是从人体生理学角度提出的一种权值（人眼对绿色的敏感最高，对蓝色敏感最低）；依据阈值分割法的思想设定一个分割阈值，并将灰度图像二值化获得更加明确的边缘界限，具体的阈值化公式如下：其中i(x,y)表示灰度图在(x,y)处像素的值，σ为设定的分割阈值，在本例中数值为200，当灰度值大于等于σ时置为0，即黑色；当灰度值小于σ时置为255，即白色。结果就会变成原先白色背景的图像会转换为黑色背景的图像，原因在于之后寻找轮廓时在较暗的环境中寻找较亮的部分会比在较亮的环境中寻找较暗的部分更加的精确。
28.s103：在二值图上寻找闭合轮廓，从而获得初始轮廓信息；具体地，依据边缘检测分割法的思想在二值图上进行轮廓的扫描，扫描的方式按照从上到下，从左到右的顺序，当找到是边界起始点的时候判断轮廓类型（外轮廓还是内孔径），在本例中只寻找外部轮廓，随后不断更新当前点，然后绕着该点逆时针旋转找下一点
并且不断更新像素值。在轮廓的存储上只存储拐点的信息，压缩水平方向，垂直方向和对角线方向的元素，只保留该方向上的重点坐标，对于本例采用的矩形轮廓只需要四个点来保存信息。
29.s104：对每一个闭合轮廓做外接矩形，如图4所示，为学术图像的轮廓图，其中矩形方框内的均被选取；以外接矩形的面积为依据进行轮廓的筛选，得到符合要求的轮廓信息，如图5所示，将序号和文字数字符号说明的矩形方框过滤掉，仅剩下包含图片的矩形方框；具体地，判断一个轮廓是不是需要的子图还是要依靠轮廓外接矩形的面积，毕竟各个子图是整张图像上想要展示的内容也是比较重要的内容，所以会在整图上占据一定的面积。基于这个过滤思路，该步骤能进一步细分成两步，首先是对子图外接矩形的最大面积进行判断，然后是对子图外接矩形最小面积进行判断。
30.对于子图外接矩形最大面积的判断考虑出自示意图，如通过软件绘制的分子式、结构图等等，其图像在像素层面并不是连续的，就会造成本属于一个整体却被错误的分割开来，而且这些分割的区域大小都近似相同，且数量巨多。所以需要对子图外接矩形的面积进行限定，在本例中设置为子图外接矩形最大面积占比为整图的1/81，否则就不会进行下面的分割和标注。
31.对于子图外接矩形最小面积的判断是相对的，目的是为了解决整张图像中会存在的干扰因素，如清晰度不高带来的噪声点、子图的说明序号以及有关的文字数字说明。这些干扰体现在轮廓上就是一些十分零碎的点或者碎片，所以是基于子图外接矩形最大面积来确定相对的面积占比，在本例中设置为子图外接矩形最大面积的1/8为可以接受的最小轮廓外接矩形面积，只选取在这个范围之内的轮廓，这样就会大幅度的降低干扰因素的影响。
32.s105：对选定的轮廓进行整合，得到最终合适的轮廓，从而确定最终的分割区域；具体地，在一个与原图尺寸一致的纯色填充图上做每一个选中轮廓的外接矩形，并在其内部进行填充，制作成掩膜（mask）,如图6所示，并将连通的区域进行限制为矩形，从而得到对应与原图的最终分割的区域，这个做法可以将一些之前操作没有过滤掉的不合理情况进行整合，方便后续的处理。
33.s106：依据最终确定的分割区域对图像进行分割，输出各分割区域的位置信息并形成标注文件保存下来。
34.具体地，如图7所示，依据掩膜对原图上的像素进行扫描，仅保留掩膜内的框定区域，其他区域全部都置为黑色，由此达到了将一整张学术图像划分为各个子图的目的，同时记录下每个区域的位置坐标，保存成json格式的标注文件一并输出。
35.s107：将各分割区域（即子图）输入到卷积神经网络中进行自动分类，生成类别标签，从而完善标注文件。
36.具体地，利用卷积神经网络（英文全称：convolutional neural networks,英文简称：cnn）完成各个子图类别的分类任务，目前定义的类别有七大类，分别为统计图、实物图、染色图、条带图、示意图、造影图和其他。这些类别的图像差异明显，能够通过cnn学习到良好的特征，通过自行建立的小型数据集训练分类模型，最终也是得到了不错的结果，一同完善了标注文件的类别信息。
37.参考图8，示出了本发明实施例提供的一种批量化学术图像自动分割标注装置的结构示意图，在本实施例中，该装置包括：
图像获取模块101，用于读取图像，若图像读取失败，则需要进行图像格式的转换，转换成统一的格式后再进行读取；阈值处理模块102，用于将图像转化为灰度图，并根据设定阈值进一步转化为二值图；边缘提取模块103，用于在二值图上寻找闭合轮廓，从而获得初始轮廓信息；边缘过滤模块104，用于对每一个闭合轮廓做外接矩形，以外接矩形的面积为依据进行轮廓的筛选，得到符合要求的轮廓信息；边缘修补模块105，用于对选定的轮廓进行整合，得到最终合适的轮廓，从而确定最终的分割区域；图像分割模块106，用于依据最终确定的分割区域对图像进行分割，输出各分割区域的位置信息并形成标注文件保存下来。
38.类别标注模块107，用于将各分割区域（即子图）输入到卷积神经网络中进行自动分类，生成类别标签，从而完善标注文件。
39.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王帅;唐文忠;冯浩楠;钱程
技术所有人：北京航空航天大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。