一种针对早期专利文档扫描件中图文信息的智能处理方法

文档序号：6543443阅读：117来源：国知局

一种针对早期专利文档扫描件中图文信息的智能处理方法
【专利摘要】一种针对早期专利文档扫描件中图文信息的智能处理方法属于计算机图像处理领域。本发明将输入的专利文档扫描图像转化为二值二维矩阵后去除扫描图像中的颗粒噪声，即用算法实现以矩形框圈取切割目标的操作，得到若干个粗块，对每个粗块进行分类，标记并得到若干个文本块和若干个非文本块。对非文本块进行进一步的细切割操作，得到若干个细块。对每个细块进行分类，标记并得到若干个标号块和若干个非标号块。对非标号块进行分类，标记并得到若干个杂质块和若干个附图块。对标号块以及附图块进行对应的匹配，即将指定附图和与其对应的附图标号相匹配。本发明更准确地切割附图、识别附图标号信息和匹配附图与附图标号的关系。
【专利说明】一种针对早期专利文档扫描件中图文信息的智能处理方法
【技术领域】
[0001]本发明涉及图像处理中的噪声处理、图像切割以及目标识别等方法，还涉及到了针对早期专利文档中的图文分离和图文匹配技术。
【背景技术】
[0002]随着计算机技术的不断发展以及大数据时代的来临，人类对于数据处理业务的需求日益增多，其中需要人工处理数据的任务变得尤为困难。因此根据实际问题的需要，实现一个利用计算机代替人工处理数据的智能系统成为当前大环境下发展趋势。专利文档作为鼓励发明创造保护
【发明者】权利的重要文件，成为了促进科学技术持续发展的重要数据信息。起源于十六世纪英国的专利文档，于1985进入了我国。据不完全统计，至今30年的时间中国已积累了超过300万份正式的专利文献，可以说当下对专利文档的处理任务繁重且艰巨。
[0003]利用人工对专利文档进行处理通常包括图像切割、图文匹配两部分的工作。其中人工进行图像切割任务首先需要人工分辨出想要得到的图片，再利用相应的图片处理工具对整个文档进行人工切割。采用计算机来模拟实现人工图像切割的过程需要预先对文档中的文本信息进行过滤(即图文分离技术)，并在此基础上利用图像切割算法来完成相应的切割任务。而人工进行图文匹配任务首先需要人工确定指定图片以及与之对应的文字信息，然后把两者的关系信息记录下来。采用计算机来模拟实现人工图文匹配的任务，需要在得到指定图片信息的基础上，利用已有信息找到可能与指定图片关联的文本信息，并对这些可能的文本信息进行识别操作以确认与指定图片的关系。其中对文本信息的识别问题涉及到了手写字符识别的相关内容。
[0004]由于本发明是参考美国早期专利文档的格式进行设计的，测试数据多数为该类文档的扫描图像，所以在下面阐述专利文档特点时主要以美国早期专利文档的格式为主。目前国内专利文档的格式与美国早期专利文档的格式有很多类似的地方，而附图以及附图标号的布局更加整齐。因而用本发明的方法同样可以处理目前国内的专利文档，而且准确性
会更高。
[0005]美国早期专利文档扫描图像如图8所示，其特点如下:
[0006]1、扫描件为黑白图像，其中多有颗粒噪声；
[0007]2、部分图像边缘含有由于扫描失误产生的不规则杂质；
[0008]3、靠近图像顶部有一行或多行说明性的文字信息，其余部分为附图或附图标号；
[0009]4、部分图像中附图与附图、附图与附图标号间的距离较近，无法用矩形切割工具将其分割；
[0010]5、附图标号的“Fig”字样为手写体，并且样式繁多，识别起来比较困难。

【发明内容】

[0011]本发明的目的在于利用计算机图像处理的相关技术，将专利文档中的附图与附图标号进行关联，并以指定的格式输出。
[0012]本发明的技术手段包括以下步骤:
[0013]步骤1，将输入的专利文档扫描图像转化为二值二维矩阵，以简化后续步骤的处理过程。
[0014]步骤2，去除扫描图像中的颗粒噪声，采用邻域平均的均值滤波器对步骤I得到的二维矩阵进行处理。
[0015]步骤3，对步骤2中得到的二维矩阵进行粗切割操作，即用算法实现以矩形框圈取切割目标的操作，得到若干个粗块。
[0016]步骤4，利用根据位置、直方图和尺寸三个信息作为特征的SVM分类器对由步骤3中得到的每个粗块进行分类，标记并得到若干个文本块和若干个非文本块。进行本步骤的原因是将容易区分的文本信息剔除，避免其对后续步骤的干扰。
[0017]步骤5，对步骤4中得到的非文本块进行进一步的细切割操作，即用算法实现以非规则的选取区域圈取图像中各元素的操作，得到若干个细块。[0018]步骤6，利用针对手写字符识别的分类器对步骤5得到的每个细块进行分类，标记并得到若干个标号块和若干个非标号块。
[0019]步骤7，利用根据长宽比和有效像素密度作为特征的SVM分类器对由步骤6得到的非标号块进行分类，标记并得到若干个杂质块和若干个附图块。
[0020]步骤8，根据位置信息，对由步骤6得到的若干个标号块以及由步骤7得到的若干个附图块进行对应的匹配，即将指定附图和与其对应的附图标号相匹配，并将该附图块的名称改为对应的附图标记号。
[0021]步骤9，输出步骤8得到的以附图标记号命名的若干个附图块，即在指定目录下保存以附图标号命名的附图图片。
[0022]一种针对早期专利文档扫描件中图文信息的智能处理方法，其特征在于:
[0023]首先，在步骤I中要把输入的专利文档扫描图像转化为二值二维矩阵，步骤I共包含2个子步骤:
[0024]步骤1.1，将彩色图像I转化为灰度图，假设Igray为灰度图对应的灰度值矩阵，Igray中各个元素的计算公式如式(I)所示:
[0025]IgrayQ, j) = (Ir(i, j)+Ig(i, j)+Ib(i, j))/3(I)
[0026]其中Igray(i，j)代表灰度值矩阵中第i行第j列元素的取值，Ir(i, j)、Ig(i, j)、Ib (i，j)分别为彩色图像R、G、B通道的颜色矩阵中第i行第j列元素的取值；
[0027]步骤1.2，根据灰度阈值为200的规则将灰度图转化为一个二值二维矩阵M ;具体方法为扫描灰度值矩阵IgMy，并按下述规则对二值二维矩阵M中的元素进行调整，具体规则如下:
[0028]若Igray (i，j)>200jljM(i，j)=0 ；
[0029]若Igray (i，j) ( 200，则 M(i，j)=l ；
[0030]其中IgMy(i，j)代表灰度值矩阵中第i行第j列元素的取值，M(i, j)代表二值二维矩阵M中第i行第j列元素的取值，取值为O表示在原图中是白色像素点，I表示是黑色像素点；
[0031]在步骤2中采用邻域平均的均值滤波器方法对二值矩阵M所表示的扫描图片进行去噪处理，得到去噪后的二值矩阵Μ’ ；
[0032]在步骤3中将要完成对步骤2中得到的二值矩阵Μ’的粗切割操作；由于粗切割操作会调整二值矩阵Μ’中各元素的值，而在之后的步骤7.1中需要用到未修改的二值矩阵Μ’，因此在调整前备份一个二值矩阵C供步骤7.1中的计算所用；步骤3共包含3个子步骤:
[0033]步骤3.1，从左上角出发逐行扫描步骤2中得到的二值矩阵Μ’，直到找到第一个黑色像素点；根据该像素点所处二值矩阵Μ’中的列号和行号创建并初始化一个新的存储节点，称为粗块Brick ;本步骤的具体算法实现如下:
[0034]若M’ (i, j)=0,则继续遍历下一个点；若M’ (i, j) =1,贝U仓Il建一个粗块Brick,该粗块 Brick 由 row、col、height 和 width 四个属性构成，并初始化为 row=i, col=j,height=l,Width=I ;这里需要解释的是M’ (i, j)代表Μ’ 二值矩阵中第i行第j列元素的取值，若取值为I则代表该位置对应图中的黑色像素；若取值为O则代表该位置对应图中的白色像素；由于一个矩形框在一幅图中用四个属性来描述，将粗块Brick属性设置为列号、行号、宽和高；需要说明的是每个粗块Brick都有自己的名称，默认值是创建的序号，即第一个创建的则名称为1、第四个创建的则名称为4 ；
[0035]步骤3.2，由于是从左上角出发进行逐行扫描的，不用考虑当前粗块Brick的上方有属于本次切割目标的部分；根据指定的规则对步骤3.1得到的粗块Brick向右、向下和向左三个方向进行延伸即可，即相当于扩大矩形框的尺寸直到圈住整个切割目标；在进行该步骤时，扩大矩形框尺寸的操作可以通过调整粗块Brick中的四个属性值来实现；粗切割算法是一个循环的过程，它对粗块Brick的右、下、左三个方向进行延伸，并根据规则不断更新粗块Brick的属性值以达到扩大矩形框尺寸的目的；直到三个方向均不能延伸为止，得到切割目标的粗块Brick，并将结果保存；
[0036]步骤3.3，为了避免重复得到相同的粗块Brick，需要根据步骤3.2中得到的粗块Brick的信息，在二值矩阵M’中抹去该粗块Brick所占有的区域，即将该粗块Brick对应二值矩阵M’中的值置为O;不过不用担心因抹去值矩阵M’中的值而影响最后的输出，因为能根据原图和粗块Brick中记录的位置信息来得到切割后的图像；
[0037]重复步骤3.1-步骤3.3的操作，直到扫描完二值矩阵M’的所有元素，最终得到并保存所有的粗块Brick;
[0038]接下来，步骤4要完成把步骤3中得到的若干个粗块标记并得到若干个文本块InfB和若干个非文本块WnfB的任务，其中文本块InfB和非文本块HnfB与粗块Brick具有相同的结构，只是名称不同；
[0039]步骤4包含3个子步骤:
[0040]步骤4.1，根据步骤3中得到的粗块信息得到其对应原始扫描图像的部分IBHdt，并将ΙΜΛ的尺寸调整为300X300，得到调整后的图像Ι’ΜΛ ；
[0041]步骤4.2，将图像向横纵两个方向进行投影，得到一个600维即横向投影300维，纵向投影300维的直方图特征向量，在此基础上根据粗块Brick的信息添加位置即Brick, row 和 Brick, col 和尺寸信息即 Brick, height 和 Brick, width,最终得到一个 604维的特征向量F ;其中Brick.row、Brick.col、Brick.width和Brick, height分别表不粗块Brick的列号、行号、宽和高；[0042]步骤4.3，把步骤4.2中得到特征向量F作为输入，通过已训练好的SVM分类器I对特征向量F进行分类，标记该粗块为文本块InfB或非文本块UInfB ；
[0043]步骤5，对步骤4中得到的若干个非文本块UInfB进行进一步的细切割操作，即用算法实现以非规则的选取区域圈取图像中各元素的操作，得到若干个细块FineB;
[0044]步骤6，利用针对手写字符识别的分类器对步骤5得到的每个细块FineB进行分类，标记并得到若干个标号块FigB和若干个非标号块UFigB ;其中标号块FigB和非标号块UFigB与粗块Brick具有相同的结构，只是名称不同；需要说明的是，标号块FigB的名称是根据其实际代表的附图编号命名的；非标号块UFigB的名称仅和创建的顺序有关；
[0045]接下来，步骤7要完成把步骤6中得到的若干个非标号块UFigB标记并割到若干个附图块PB和若干个杂质块ZB的任务，其中附图块PB和杂质块ZB与粗块Brick具有相同的结构，只是名称不同；
[0046]步骤7包含3个子步骤:
[0047]步骤7.1，计算步骤6中所得到的非标号块UFigB的最大长宽比Y和有效像素密度P，长宽比Y和有效像素密度P的计算公式如式(2)- (8)所示:
[0048]y=Max{UFigB.height/UFigB.width, UFigB.width/UFigB.height}(2)
[0049]S=UFigB.heightXUFigB.width(3)
[0050]Xbegin=UFigB.row(4) [0051]Xend=UFigB.row+UFigB.width-1(5)
[0052]Ybegin=UFigB.col(6)
[0053]Yend=UFigB.co I+UFigB.height-1(7)
【权利要求】
1.一种针对早期专利文档扫描件中图文信息的智能处理方法，其特征在于: 步骤1，将输入的专利文档扫描图像转化为二值二维矩阵；步骤2，去除扫描图像中的颗粒噪声，采用邻域平均的均值滤波器对步骤I得到的二维矩阵进行处理；步骤3，对步骤2中得到的二维矩阵进行粗切割操作，即用算法实现以矩形框圈取切割目标的操作，得到若干个粗块；步骤4，利用根据位置、直方图和尺寸三个信息作为特征的SVM分类器对由步骤3中得到的每个粗块进行分类，标记并得到若干个文本块和若干个非文本块；步骤5，对步骤4中得到的非文本块进行进一步的细切割操作，即用算法实现以非规则的选取区域圈取图像中各元素的操作，得到若干个细块；步骤6，利用针对手写字符识别的分类器对步骤5得到的每个细块进行分类，标记并得到若干个标号块和若干个非标号块；步骤7，利用根据长宽比和有效像素密度作为特征的SVM分类器对由步骤6得到的非标号块进行分类，标记并得到若干个杂质块和若干个附图块；步骤8，根据位置信息，对由步骤6得到的若干个标号块以及由步骤7得到的若干个附图块进行对应的匹配，即将指定附图和与其对应的附图标号相匹配，并将该附图块的名称改为对应的附图标记号；步骤9，输出步骤8得到的以附图标记号命名的若干个附图块，即在指定目录下保存以附图标号命名的附图图片。
2.如权利要求1所述的一种针对早期专利文档扫描件中图文信息的智能处理方法，其特征在于: 首先，在步骤I中要把输入的专利文档扫描图像转化为二值二维矩阵，步骤I共包含2个子步骤: 步骤1.1，将彩色图像I转化为灰度图，假设IgMy为灰度图对应的灰度值矩阵，Igray中各个元素的计算公式如式(I)所示:
Igray(i, j) = (Ir(i, j) +Ig(i, j) +Ib(i, j))/3(I) 其中Igray(i，J)代表灰度值矩阵中第i行第j列元素的取值，Ir(i, j)、Ig(i，j)、Ib(i，j)分别为彩色图像R、G、B通道的颜色矩阵中第i行第j列元素的取值；步骤1.2，根据灰度阈值为200的规则将灰度图转化为一个二值二维矩阵M ;具体方法为扫描灰度值矩阵IgMy，并按下述规则对二值二维矩阵M中的元素进行调整，具体规则如下:
若 Igray(i，j)>200jljM(i，j)=0;
若 Igray (i，j)≤200，则 M(i，j)=l ；其中IgMy(i，J')代表灰度值矩阵中第i行第j列元素的取值，M(i, j)代表二值二维矩阵M中第i行第j列元素的取值，取值为O表示在原图中是白色像素点，1表示是黑色像素占.在步骤2中采用邻域平均的均值滤波器方法对二值矩阵M所表示的扫描图片进行去噪处理，得到去噪后的二值矩阵M’ ；在步骤3中将要完成对步骤2中得到的二值矩阵M’的粗切割操作；由于粗切割操作会调整二值矩阵Μ’中各元素的值，而在之后的步骤7.1中需要用到未修改的二值矩阵Μ’，因此在调整前备份一个二值矩阵C供步骤7.1中的计算所用；步骤3共包含3个子步骤:步骤3.1，从左上角出发逐行扫描步骤2中得到的二值矩阵Μ’，直到找到第一个黑色像素点；根据该像素点所处二值矩阵Μ’中的列号和行号创建并初始化一个新的存储节点，称为粗块Brick ;本步骤的具体算法实现如下: 若M’(i, j)=0,则继续遍历下一个点；若,(i, j)=l,则创建一个粗块Brick,该粗块Brick 由 row、col、height 和 width 四个属性构成，并初始化为 row=i, col=j, height=l,Width=I ;这里需要解释的是M’ (i, j)代表Μ’ 二值矩阵中第i行第j列元素的取值，若取值为I则代表该位置对应图中的黑色像素；若取值为O则代表该位置对应图中的白色像素；由于一个矩形框在一幅图中用四个属性来描述，将粗块Brick属性设置为列号、行号、宽和高；需要说明的是每个粗块Brick都有自己的名称，默认值是创建的序号，即第一个创建的则名称为1、第四个创建的则名称为4 ；步骤3.2，由于是从左上角出发进行逐行扫描的，不用考虑当前粗块Brick的上方有属于本次切割目标的部分；根据指定的规则对步骤3.1得到的粗块Brick向右、向下和向左三个方向进行延伸即可，即相当于扩大矩形框的尺寸直到圈住整个切割目标；在进行该步骤时，扩大矩形框尺寸的操作可以通过调整粗块Brick中的四个属性值来实现；粗切割算法是一个循环的过程，它对粗块Brick的右、下、左三个方向进行延伸，并根据规则不断更新粗块Brick的属性值以达到扩大矩形框尺寸的目的；直到三个方向均不能延伸为止，得到切表1]目标的粗块Brick，并将结果保存；步骤3.3，为了避免重复得到相同的粗块Brick，需要根据步骤3.2中得到的粗块Brick的信息，在二值矩阵M’中抹去该粗块Brick所占有的区域，即将该粗块Brick对应二值矩阵M’中的值置为O;不过不用担心因抹去值矩阵M’中的值而影响最后的输出，因为能根据原图和粗块Brick中记录的位置信息来得到切割后的图像；重复步骤3.1-步骤3.3的操作，直到扫描完二值矩阵M’的所有元素，最终得到并保存所有的粗块Brick ；接下来，步骤4要完成把步骤3中得到的若干个粗块标记并得到若干个文本块InfB和若干个非文本块WnfB的任务，其中文本块InfB和非文本块HnfB与粗块Brick具有相同的结构，只是名称不同；步骤4包含3个子步骤: 步骤4.1，根据步骤3中得到的粗块信息得到其对应原始扫描图像的部分ΙΒΗΛ，并将IBriCk的尺寸调整为300X300，得到调整后的图像Ι’ΒΗΛ ；步骤4.2，将图像I’ Brick向横纵两个方向进行投影，得到一个600维即横向投影300维，纵向投影300维的直方图特征向量，在此基础上根据粗块Brick的信息添加位置即Brick,row和Brick, col和尺寸信息即Brick, height和Brick, width,最终得到一个604维的特征向量 F ;其中 Brick.row>Brick.col、Brick.width 和 Brick, height 分别表不粗块 Brick的列号、行号、宽和高；步骤4.3，把步骤4.2中得到特征向量F作为输入，通过已训练好的SVM分类器I对特征向量F进行分类,标记该粗块为文本块InfB或非文本块UInfB ；步骤5，对步骤4中得到的若干个非文本块UInfB进行进一步的细切割操作，即用算法实现以非规则的选取区域圈取图像中各元素的操作，得到若干个细块FineB ; 步骤6，利用针对手写字符识别的分类器对步骤5得到的每个细块FineB进行分类，标记并得到若干个标号块FigB和若干个非标号块UFigB ;其中标号块FigB和非标号块UFigB与粗块Brick具有相同的结构，只是名称不同；需要说明的是，标号块FigB的名称是根据其实际代表的附图编号命名的；非标号块UFigB的名称仅和创建的顺序有关；接下来，步骤7要完成把步骤6中得到的若干个非标号块UFigB标记并割到若干个附图块PB和若干个杂质块ZB的任务，其中附图块PB和杂质块ZB与粗块Brick具有相同的结构，只是名称不同；步骤7包含3个子步骤: 步骤7.1，计算步骤6中所得到的非标号块UFigB的最大长宽比Y和有效像素密度P，长宽比Y和有效像素密度P的计算公式如式(2)- (8)所示:
Y =Max{UFigB.height/UFigB.width, UFigB.width/UFigB.height}(2) S=UFigB.heightXUFigB.width(3) Xbegin=UFigB.row(4)
Xend=UFigB.row+UFigB.width-1(5) Ybegm=UFigB.col(6)
Yend=UFigB.coI+UFigB.height-1(7)

【文档编号】G06K9/54GK103927533SQ201410143919
【公开日】2014年7月16日申请日期:2014年4月11日优先权日:2014年4月11日
【发明者】段立娟, 袁彬, 李健, 马伟, 杨震申请人:北京工业大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：段立娟;袁彬;李健;马伟;杨震
技术所有人：北京工业大学
我是此专利的发明人

上一篇：一种获取百度百科人物分类下的所有子分类方法
上一篇：一种委托购票的电子商务方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。