文档图像的区域分离方法、装置及存储介质与流程

文档序号:24783690发布日期:2021-04-23 09:15阅读:135来源:国知局
文档图像的区域分离方法、装置及存储介质与流程

1.本发明涉及版面分析技术领域,尤其涉及一种文档图像的区域分离方法、装置及存储介质。


背景技术:

2.随着电子期刊和电子图书等电子读物的推广与普及,人们将越来越多的传统纸张读物通过图文扫描仪、照相机等图像采集设备转化成数字图像,并放入网络中共享。我们将这种主要载荷文字、图片、表格等文本信息的数字图像称为文档图像。文档图像是由纸张文件衍生而来,具有内容直观,便于携带与传输等特点,因此在各个行业领域中都有着广泛的应用。
3.对文档图像的版面分析主要是利用计算机自动地对文档图像的版面数据进行处理和分割,识别图像版面上的文字、图片、图形及表格等区域的位置、属性。目前现有的文档图像的区域分离方法主要有以下两种:一种是逐像素判定方法,该方法主要针对图像中的每一个像素点,根据像素点的灰度值计算每一个像素点的边缘强度值,然后根据各像素点的边缘强度值确定与待处理图像对应的二值图,根据二值图和各像素点的灰度值,确定各像素点文本区域判定值,最后根据各像素点判定值判定图像的文本区域和非文本区域。另一种是基于深度学习的文本检测技术,该方法使用深度学习网络对图像中的文字进行检测,例如faster rcnn、east、textbox++等文字检测方法,然后将检测出的文本作为文本区域。
4.上述第一种方法基于单个像素和周边像素值进行计算,只能关注图像局部,不能把握图像的整体结构和各元素间的位置,区域分离的准确性和鲁棒性较低。上述第二种方法仅能检测出文字,无法将图片、表格中的文字与正常文档中的段落文字进行区分。


技术实现要素:

5.本发明提供一种文档图像的区域分离方法、装置及存储介质,提高了文档图像的文本非文本分离的准确性。
6.本发明的第一方面提供一种文档图像的区域分离方法,包括:
7.对文档图像进行预处理,得到二值化图像;
8.对所述二值化图像进行连通区域分析得到第一连通区域集合;
9.获取并根据所述第一连通区域集合中各连通区域的属性特征,将所述第一连通区域集合划分为第二连通区域集合和第三连通区域集合;所述第二连通区域集合中包括非文本元素的连通区域,所述第三连通区域集合中包括文本元素的连通区域;
10.获取并根据所述第三连通区域集合中各连通区域的属性特征和相邻位置信息,从所述第三连通区域集合中确定文本元素的连通区域。
11.可选的,每一个所述连通区域的属性特征包括每一个所述连通区域的像素数量、像素密度、宽高比,以及嵌套在每一个所述连通区域的最小外接矩形中的其他连通区域的
第一数量。
12.在一种可能的实现方式中,所述根据所述第一连通区域集合中各连通区域的属性特征,将所述第一连通区域集合划分为第二连通区域集合和第三连通区域集合,包括:
13.判断所述第一连通区域集合中各连通区域的属性特征是否满足第一非文本元素条件,将连通区域的属性特征满足第一非文本元素条件的连通区域划分到第二连通区域集合。
14.在一种可能的实现方式中,所述第一非文本元素条件包括以下条件的至少一项:
15.连通区域的像素数量小于预设像素数量;
16.连通区域的像素密度小于预设像素密度;
17.连通区域的宽高比小于预设宽高比;
18.嵌套在连通区域的最小外接矩形中的其他连通区域的第一数量大于第一值。
19.在一种可能的实现方式中,获取所述第三连通区域集合中各连通区域的相邻位置信息,包括:
20.对所述第三连通区域集合中各连通区域进行空白区域分析,确定所述第三连通区域集合中各连通区域对应的相邻连通区域;
21.获取所述第三连通区域集合中各连通区域对应的相邻位置信息,所述相邻位置信息包括每一个连通区域与所述每一个连通区域对应的相邻连通区域的距离,每一个连通区域的左连通区域数量以及右连通区域数量。
22.在一种可能的实现方式中,所述根据所述第三连通区域集合中各连通区域的属性特征和相邻位置信息,从所述第三连通区域集合中确定文本元素的连通区域,包括:
23.判断所述第三连通区域集合中各连通区域的属性特征是否满足第二非文本元素条件;
24.判断所述第三连通区域集合中各连通区域的相邻位置信息是否满足第三非文本元素条件;
25.将所述第三连通区域集合中不满足所述第二非文本元素条件的连通区域,以及满足所述第二非文本元素条件但不满足所述第三非文本元素条件的连通区域确定为文本元素的连通区域。
26.在一种可能的实现方式中,所述第二非文本条件包括:
27.第一条件和第二条件;或者,
28.所述第一条件和第三条件;或者,
29.所述第一条件、所述第二条件和所述第三条件;
30.其中,所述第一条件为a
i
=max(ω1)∩a
i
>k1×
median(ω1);所述第二条件为h
i
=max(ω2)∩h
i
>k2×
median(ω2);所述第三条件为w
i
=max(ω3)∩w
i
>k3×
median(ω3);
31.式中,ω1表示所述第三连通区域集合中各连通区域的像素数量的集合,ω2表示所述第三连通区域集合中各连通区域的高度的集合,ω3表示所述第三连通区域集合中各连通区域的宽度的集合,mean表示计算平均值,median表示计算中位数,a
i
表示所述第三连通区域集合中第i个连通区域的像素数量,h
i
表示所述第三连通区域集合中第i个连通区域的最小外接矩形的高度,w
i
表示所述第
三连通区域集合中第i个连通区域的最小外接矩形的宽度。
32.在一种可能的实现方式中,所述第三非文本元素条件包括:
33.每一个连通区域与所述每一个连通区域对应的相邻连通区域的距离大于或者等于预设距离;和/或
34.所述每一个连通区域对应的相邻连通区域的第二数量大于或者等于第二值,所述第二数量为左连通区域数量与右连通区域数量中的最大值。
35.在一种可能的实现方式中,所述方法还包括:
36.获取与所述非文本元素的连通区域交叠的连通区域的最小外接矩形的第一像素数量;
37.获取对所述非文本元素的连通区域进行膨胀操作后的第二像素数量;
38.若所述第一像素数量大于所述第二像素数量,则将与所述非文本元素的连通区域交叠的连通区域确定为文本元素的连通区域。
39.本发明的第二方面提供一种文档图像的区域分离装置,包括:
40.图像预处理模块,用于对文档图像进行预处理,得到二值化图像;
41.连通区域分析模块,用于对所述二值化图像进行连通区域分析得到第一连通区域集合;
42.获取模块,用于获取所述第一连通区域集合中各连通区域的属性特征;
43.连通区域划分模块,用于根据所述第一连通区域集合中各连通区域的属性特征,将所述第一连通区域集合划分为第二连通区域集合和第三连通区域集合;所述第二连通区域集合中包括非文本元素的连通区域,所述第三连通区域集合中包括文本元素的连通区域;
44.所述获取模块,还用于获取所述第三连通区域集合中各连通区域的属性特征和相邻位置信息;
45.连通区域划分模块,还用于根据所述第三连通区域集合中各连通区域的属性特征和相邻位置信息,从所述第三连通区域集合中确定文本元素的连通区域。
46.本发明的第三方面提供一种文档图像的区域分离装置,包括:
47.存储器;
48.处理器;以及
49.计算机程序;
50.其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如本发明的第一方面任一项所述的方法。
51.本发明的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如本发明的第一方面任一项所述的方法。
52.本发明实施例提供一种文档图像的区域分离方法、装置及存储介质。通过对文档图像进行预处理得到二值化图像,对二值化图像进行连通区域分析得到第一连通区域集合,根据第一连通区域集合中各连通区域的属性特征,将第一连通区域集合划分为第二连通区域集合和第三连通区域集合,其中第二连通区域集合中包括非文本元素的连通区域,第三连通区域集合中包括文本元素的连通区域,进一步根据第三连通区域集合中各连通区域的属性特征和相邻位置信息,从第三连通区域集合中确定文本元素的连通区域。上述方
法可以从文本区域中提取更多的非文本元素,提高了文档图像的文本非文本分离的准确性。
附图说明
53.图1为本发明一实施例提供的文档图像的区域分离方法的流程示意图;
54.图2为本发明实施例提供的图像中像素邻接关系的示意图;
55.图3为本发明实施例提供的连通区域分析的标注示意图;
56.图4为本发明实施例提供的某一连通区域附近的示意图;
57.图5为本发明实施例提供的两个连通区域的位置关系示意图;
58.图6为本发明实施例提供的中文文档空白区域分析的示意图;
59.图7为本发明实施例提供的文档图像的区域分离方法的文本非文本分离结果示意图;
60.图8为本发明另一实施例提供的文档图像的区域分离方法的流程示意图;
61.图9为本发明一实施例提供的文档图像的区域分离装置的功能结构示意图;
62.图10为本发明一实施例提供的文档图像的区域分离装置的硬件结构示意图。
具体实施方式
63.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
64.本发明的说明书和权利要求书中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
65.本发明的说明书中通篇提到的“一实施例”或“另一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一些实施例中”或“在本实施例中”未必一定指相同的实施例。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
66.本发明实施例提供的文档图像的区域分离方法是以文档图像中的连通区域为单位进行处理,基于连通区域的属性特征以及连通区域之间的位置关系分离文档图像中的文本与非文本区域,能够有效对各种文档布局和不同语言的文档进行区域分离,分离准确率高且效果稳定。另外,本实施例提供的文档图像的区域分离方法不仅可以区分出文本区域和非文本区域,还可以从与非文本元素的连通区域交叠的连通区域中进一步剔除更多的非文本元素,最终得到准确的文本区域。
67.下面结合几个具体的实施例对本发明提供的文档图像的区域分离方法进行详细说明,下面几个具体实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行重复说明。
68.图1为本发明一实施例提供的文档图像的区域分离方法的流程示意图。该方法的
执行主体可以由任意执行文档图像的区域分离装置来执行,该装置可以通过软件和/或硬件实现,该装置可以是摄像机,也可以是智能分析服务器。如图1所示,本实施例提供的方法包括如下步骤:
69.步骤101、对文档图像进行预处理,得到二值化图像。
70.在本实施例中,文档图像可以是拍照文档,也可以是扫描文档,对此本实施例不作限定。具体的,文档图像中包括文本区域和非文本区域,文本区域包括中文汉字、英文字母、数字、符号、公式等文本元素,非文本区域包括图片、表格图片、图标等。
71.在获取到文档图像之后,对文档图像进行预处理,预处理过程包括图像二值化、旋转矫正、透视矫正等步骤。
72.其中,图像二值化就是将文档图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。图像的二值化使得图像中数据量大为减少,提高图像处理的速度。
73.在平面图像处理中,由于镜头角度,或者,扫描仪在进行图像扫描时未能正常按照其行列水平垂直扫描,容易导致拍摄或者扫描的文档图像出现倾斜、变形等情况,因此有必要对文档图像进行旋转矫正、透视矫正等,确保待处理的文档图像不存在旋转和弯曲等形变,例如旋转角度小于2度。
74.在本实施例中,不限制对文档图像进行预处理的各个步骤的先后顺序。可以先对文档图像进行二值化处理,再对二值化图像进行旋转矫正、透视矫正;也可以先对文档图像进行旋转矫正、透视矫正,再对矫正后的文档图像进行二值化处理。
75.步骤102、对二值化图像进行连通区域分析得到第一连通区域集合。
76.连通区域分析是在二值化图像中提取和标注连通区域的过程。连通区域是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域。
77.图2为本发明实施例提供的图像中像素邻接关系的示意图,如图2所示,常见图像像素的邻接关系有2种:4邻接与8邻接。本实施例采用8邻接判断像素是否属于同一连通区域。
78.本实施例采用python中的skimage库对图像中的连通区域进行标注。图3为本发明实施例提供的连通区域分析的标注示意图。如图3所示,每一个连通区域对应一个外接矩形框。
79.将第i个连通区域记作cc
i
,连通区域有以下属性:
80.(1)b(cc
i
)表示cc
i
的最小外接矩形,矩形的边和坐标轴平行。(xl
i
,yl
i
)和(xr
i
,yr
i
)分别为矩形框左上角和右下角的坐标。
81.(2)a
i
表示cc
i
中的像素数量.
82.(3)a
ib
表示b(cc
i
)的大小,w
i
和h
i
分别表示b(cc
i
)的宽度和高度;
83.(4)λ
i
表示cc
i
的密度,计算方法为λ
i
=a
i
/a
ib

84.(5)inc
i
表示嵌套在b(cc
i
)中的其他矩形框b(cc
j
)的个数,j≠i(注:计算inc
i
前,先对矩形框按yl
i
分量排序,可大大降低计算复杂度)。
85.(6)hw
irate
表示cc
i
的宽高比,计算方法为hw
irate
=min(w
i
,h
i
)/max(w
i
,h
i
)。
86.需要说明的是,对二值化图像进行连通区域分析得到第一连通区域集合,第一连通区域集合包括多个连通区域,多个连通区域包括文本区域和非文本区域,需要根据步骤
103至步骤106对第一连通区域集合中的多个连通区域进行识别和划分,最终得到准确的文本区域,具体的实现过程参见下文。
87.步骤103、获取第一连通区域集合中各连通区域的属性特征。
88.参见步骤102可知,第一连通区域集合中各连通区域的属性特征包括各连通区域的像素数量、像素密度、宽高比,以及嵌套在各连通区域最小外接矩形中的其他连通区域的第一数量。
89.步骤104、根据第一连通区域集合中各连通区域的属性特征,将第一连通区域集合划分为第二连通区域集合和第三连通区域集合。
90.其中,第二连通区域集合中包括非文本元素的连通区域,第三连通区域集合中包括文本元素的连通区域。
91.具体的,判断第一连通区域集合中各连通区域的属性特征是否满足第一非文本元素条件,将连通区域的属性特征满足第一非文本元素条件的连通区域划分到第二连通区域集合。第一非文本元素条件用于对文档图像中的非文本元素进行初步过滤。若连通区域满足第一非文本元素条件,则被视为非文本元素的连通区域。
92.其中,第一非文本元素条件包括以下条件的至少一项:
93.(1)连通区域的像素数量小于预设像素数量。具体可以由公式a
i
<t
area
表示,其中t
area
为预设像素数量,通常设置在5-7pixel,例如t
area
=6pixel,表示具有很小像素值的连通区域被视为非文本。
94.(2)连通区域的像素密度小于预设像素密度。具体可以由公式λ
i
<t
dens
表示,其中t
dens
为预设像素密度,通常设置在[0.05,0.07],例如t
dens
=0.06,表示连通区域的像素密度过低,可能是噪声、对角元素、矩形框等非文本。
[0095]
(3)连通区域的宽高比小于预设宽高比。
[0096]
具体的,在h
i
<w
i
(连通区域的高度小于宽度)时,hw
irate
<t
rate
,其中t
1rate
为第一预设宽高比(横向过滤的预设宽高比),通常设置在[0.05,0.07],例如t
1rate
=0.06。一般而言,文本像素的宽度不可能大于高度的16.66倍。
[0097]
在h
i
>w
i
(连通区域的高度大于宽度)时,hw
irate
<t
rate
,其中t
2rate
为第二预设宽高比(纵向过滤的预设宽高比),通常设置在[0.02,0.04],例如t
2rate
=0.03。
[0098]
通常,纵向过滤的预设宽高比较横向严格一些。
[0099]
(4)嵌套在连通区域最小外接矩形中的其他连通区域的第一数量大于第一值。具体可以由公式inc
i
>t
inside
表示,其中t
inside
为第一值,通常设置为4,表示嵌套在连通区域最小外接矩形中的其他连通区域的第一数量大于4个,则被视为非文本,该条件对拉丁文和中文文档均适用。
[0100]
需要说明的是,以上预设参数(包括预设像素数量、预设像素密度、预设宽高比、第一值)都是经过大量计算和验证得到的经验值,适合各种类型和分辨率的文档。
[0101]
本步骤的目的是消除二值化图像中明显的噪声或非文本元素,得到初步的分离结果。需要说明的是,上述的第三连通区域集合中除了文本元素的连通区域之外,还包括被识别为文本元素的非文本元素的连通区域,即上述过程可能存在非文本元素被误判为文本元素的情况。为了提高文本非文本分离的准确率,需要进一步执行步骤105和步骤106,将文本区域中的非文本元素进一步分离出来,具体过程参见下文。
[0102]
步骤105、获取第三连通区域集合中各连通区域的属性特征和相邻位置关系。
[0103]
参见步骤102可知,第三连通区域集合中各连通区域的属性特征包括各连通区域的像素数量、像素密度、宽高比,以及嵌套在各连通区域最小外接矩形中的其他连通区域的第一数量。
[0104]
在本步骤中,获取第三连通区域集合中各连通区域的相邻位置关系,包括以下步骤:对第三连通区域集合中各连通区域进行空白区域分析,确定第三连通区域集合中各连通区域对应的相邻连通区域;获取第三连通区域集合中各连通区域对应的相邻位置信息。
[0105]
其中,相邻位置信息包括每一个连通区域与每一个连通区域对应的相邻连通区域的距离,每一个连通区域的左连通区域数量以及右连通区域数量。
[0106]
为了便于理解,下面结合图4以及图5对上述空白区域分析进行说明。
[0107]
图4为本发明实施例提供的某一连通区域附近的示意图。参见图4,在上述空白区域分析中,对于连通区域cc
i
需要计算如下变量:
[0108]
(1)lnn
i
和rnn
i
:lnn
i
表示cc
i
的左连通区域(即cc
i
的左邻居),rnn
i
表示cc
i
的右连通区域(即cc
i
的右邻居)。
[0109]
需要说明的是,cc
i
的左连通区域或右连通区域可能包括一个或多个。在左连通区域或右连通区域包括多个时,lnn
i
具体表示最靠近cc
i
的左连通区域,rnn
i
具体表示最靠近cc
i
的右连通区域。
[0110]
示例性的,图4中的cc3的lnn3={cc2},rnn3={cc4};cc4的lnn4={cc3},
[0111]
需要指出的是,cc
i
的左连通区域和右连通区域需要和cc
i
在同一行方向上。
[0112]
(2)lnws
i
,rnws
i
:lnws
i
表示cc
i
与左连通区域之间的距离(空白大小),rnws
i
表示cc
i
与右连通区域之间的距离(空白大小)。设cc
i
的左邻居为lnn
i
={cc
j
},右邻居为rnn
i
={cc
k
},于是lnws
i
和rnws
i
计算公式为:
[0113]
lnws
i
=xl
i-xr
j
[0114]
rnws
i
=xl
k-xr
i
[0115]
(3)ln
i
,rn
i
:ln
i
表示cc
i
成为其他连通区域的右连通区域时的其他连通区域的集合;rn
i
表示cc
i
成为其他连通区域的左连通区域时的其他连通区域集合。
[0116][0117][0118]
示例性的,图4中的cc3的ln3={cc1,cc2},rn3={cc4,cc5}。
[0119]
(4)numln
i
,numrn
i
:numln
i
表示cc
i
成为其他连通区域的右连通区域时的其他连通区域的数量;numrn
i
表示cc
i
成为其他连通区域的左连通区域时的其他连通区域的数量。
[0120]
numln
i
=|ln
i
|
[0121]
numrn
i
=|rn
i
|
[0122]
示例性的,图4中cc3的numln3=numrn3=2
[0123]
(5)ws:表示所有空白区域组成的集合。
[0124]
ws={rnws
i
>0|cc
i
∈cc
u
}或者ws={lnws
i
>0|cc
i
∈cc
u
}
[0125]
其中,cc
u
表示文档图像中所有的连通区域。
[0126]
通过对第三连通区域集合中各连通区域进行空白区域分析,得到第三连通区域集合中各连通区域的上述变量,获知各连通区域与其附近连通区域的相邻位置信息。
[0127]
上述空白区域分析仅考虑了文档图像中连通区域相互分离的情况,如图4所示。然而,文档图像中还会出现连通区域重叠的情况。图5为本发明实施例提供的两个连通区域的位置关系示意图,如图5所示,可能出现两个连通区域相互重叠的情况。
[0128]
具体的,对于英文文档,可能出现图5(b)的重叠情况,对于中文文档,可能出现图5(b)、(c)、(d)的重叠情况。需要指出的是,无论是英文文档还是中文文档,均不会出现图5(e)的情况,此时cc
i
和cc
j
必定连通为一个连通区域。
[0129]
示例性的,中英文的斜体字存在图5(b)的重叠情况,中文汉字“画”存在图5(c)的重叠情况,中文汉字“回”存在图5(d)的重叠情况。
[0130]
对于图5(b)的重叠情况,判断cc
i
和cc
j
之间的左右位置关系,图5(b)中cc
i
为cc
j
的左连通区域,cc
j
为cc
i
的右连通区域,两者之间的距离设定为0;对于图5(c)的重叠情况,cc
i
和cc
j
互为左/右连通区域,两者之间的距离设定为0;对于图5(d)的重叠情况,进行嵌套抑制,cc
j
不存在左/右连通区域,cc
i
和cc
j
的距离设定为0。
[0131]
需要指出的是,本实施例在确定某连通区域对应的相邻连通区域时,不仅考虑了连通区域相互分离的位置关系,而且还考虑了连通区域左右重叠、上下重叠以及嵌套的位置关系,为后续条件判断提供更为准确的判断依据,从而避免中英文文档中的英文字母或者汉字被误判为非文本元素。
[0132]
步骤106、根据第三连通区域集合中各连通区域的属性特征和相邻位置信息,从第三连通区域集合中确定文本元素的连通区域。
[0133]
在本实施例中,第三连通区域集合中的连通区域可能包括步骤104中未被识别出的非文本元素,例如文本元素附近的小图标、噪声等。为了进一步提高文本非文本分离的准确率,可采用下述过程寻找和分离文本区域附近的非文本元素:
[0134]
判断第三连通区域集合中各连通区域的属性特征是否满足第二非文本元素条件;判断第三连通区域集合中各连通区域的相邻位置信息是否满足第三非文本元素条件;将第三连通区域集合中不满足第二非文本元素条件的连通区域,以及满足第二非文本元素条件但不满足第三非文本元素条件的连通区域确定为文本元素的连通区域。
[0135]
上述过程可以进一步提高文本非文本分离的准确性。
[0136]
上述的第二非文本条件包括第一条件和第二条件;或者,第一条件和第三条件;或者,第一条件、第二条件和第三条件。
[0137]
其中,第一条件可以表示为a
i
=max(ω1)∩a
i
>k1×
median(ω1);
[0138]
第二条件可以表示为h
i
=max(ω2)∩h
i
>k2×
median(ω2);
[0139]
第三条件可以表示为w
i
=max(ω3)∩w
i
>k3×
median(ω3)。
[0140]
式中,
[0141]
ω1表示第三连通区域集合中各连通区域的像素数量的集合;
[0142]
ω2表示第三连通区域集合中各连通区域的高度的集合;
[0143]
ω3表示第三连通区域集合中各连通区域的宽度的集合;
[0144]
mean表示计算平均值,median表示计算中位数;
[0145]
a
i
表示第三连通区域集合中cc
i
(第i个连通区域)的像素数量;
[0146]
h
i
表示第三连通区域集合中cc
i
的最小外接矩形的高度;
[0147]
w
i
表示第三连通区域集合中cc
i
的最小外接矩形的宽度。
[0148]
上述的第三非文本元素条件包括:
[0149]
每一个连通区域与每一个连通区域对应的相邻连通区域的距离大于或者等于预设距离;和/或
[0150]
每一个连通区域对应的相邻连通区域的第二数量大于或者等于第二值,第二数量为左连通区域数量与右连通区域数量中的最大值。
[0151]
上述的第三非文本元素条件可以用如下两个条件公式表示:
[0152]
条件公式1:min(lnws
i
,rnws
i
)≥10
×
max(medianws,meanws)
[0153]
条件公式2:max(numln
i
,numrn
i
)≥3
[0154]
其中,条件公式1可以理解为第四连通区域集合中的连通区域距离其相邻连通区域的距离过大,则被识别为非文本元素的连通区域;条件公式2可以理解为第四连通区域集合中的连通区域的高度过大,跨过了三行文本,则被视为非文本元素的连通区域。
[0155]
只要满足下述两个条件公式的至少一个,即可将对应的连通区域识别为非文本元素的连通区域。
[0156]
相应的,将距离小于预设距离的连通区域,且第二数量小于第二值的连通区域确定为文本元素的连通区域。
[0157]
可选的,对于中文文档,条件公式2可改为:max(numln
i
,numrn
i
)>4,防止出现对中文文档的误识别。图6为本发明实施例提供的中文文档空白区域分析的示意图,如图6所示,在未考虑图5(c)、5(d)的情况下,图6(a)中的“受”字共有5个连通区域,“身”字共有1个连通区域,“受”字的4个连通区域的左连通区域均为“身”字,根据max(numln
i
,numrn
i
)>3,“身”字将被误判为非文本元素的连通区域。在考虑图5(c)、5(d)的情况下,图6(a)中的“受”字内部的连通区域互为左右连通区域,“受”字仅有一个连通区域的左连通区域为“身”字,不满足max(numln
i
,numrn
i
)>3,因此“身”字不会被误判为非文本元素的连通区域。
[0158]
在未考虑图5(b)、(d)的情况下,图6(b)中的“求”字共有4个连通区域,“要”字共有1个连通区域,“求”字的4个连通区域的左连通区域均为“要”字,根据max(numln
i
,numrn
i
)>3,“要”字将被误判为非文本元素的连通区域。在考虑图5(b)、5(d)的情况下,图6(b)中的“求”字内部的连通区域互为左右连通区域,“求”字仅有一个连通区域的左连通区域为“要”字,不满足max(numln
i
,numrn
i
)>3,因此“要”字不会被误判为非文本元素的连通区域。
[0159]
综上,空白区域分析可以避免汉字被误判为非文本元素的连通区域。
[0160]
可选的,在一些实施例中,若第三连通区域集合中的连通区域同时满足上述第一条件和第二条件,或者,同时满足上述第一条件和第三条件,或者,同时满足上述三个条件,则该连通区域可作为候选的非文本元素的连通区域。若第三连通区域集合中的连通区域不满足第二非文本元素条件中的任一一种条件的组合,则该连通区域确定为文本元素的连通区域。
[0161]
进一步的,还可以对上述候选的非文本元素的连通区域作进一步分析,判断上述候选的非文本元素的连通区域的相邻位置关系是否满足第三非文本元素条件,若不满足第
三非文本元素条件,则将该连通区域确定为文本元素的连通区域,若满足第三非文本元素条件,则将该连通区域确定为非文本元素的连通区域。
[0162]
图7为本发明实施例提供的文档图像的区域分离方法的文本非文本分离结果示意图。如图7所示,图7(a)为原始的文档图像,图7(b)为分离后的非文本元素的连通区域,图7(c)为分离后的文本区域,可见经本实施例提供的区域分离方法,可以从文本区域中准确地提取出更多的非文本元素(例如图7(a)文本区域之间的条形非文本元素),提高了文档图像的文本非文本分离的准确性。
[0163]
本发明实施例提供的文档图像的区域分离方法,通过对文档图像进行预处理得到二值化图像,对二值化图像进行连通区域分析得到第一连通区域集合,根据第一连通区域集合中各连通区域的属性特征,将第一连通区域集合划分为第二连通区域集合和第三连通区域集合,其中第二连通区域集合中包括非文本元素的连通区域,第三连通区域集合中包括文本元素的连通区域以及被识别为文本元素的非文本元素的连通区域。进一步根据第三连通区域集合中各连通区域的属性特征和相邻位置信息,从第三连通区域集合中确定文本元素的连通区域。上述方法可以从文本区域中提取更多的非文本元素,提高了文档图像的文本非文本分离的准确性。
[0164]
图8为本发明另一实施例提供的文档图像的区域分离方法的流程示意图。在图1所示实施例的基础上,如图8所示,在步骤106之后,还包括:
[0165]
步骤201、获取与非文本元素的连通区域交叠的连通区域的最小外接矩形的第一像素数量。
[0166]
本实施例中的非文本元素的连通区域包括:上述实施例的步骤104中确定的第二连通区域集合中的非文本元素的连通区域,以及,上述实施例的步骤106中确定的非文本元素的连通区域。
[0167]
非文本元素的连通区域交叠的连通区域是指非文本元素的连通区域附近的预设范围内的连通区域,包括图5(a)、5(b)、5(c)、5(d)的情况。需要说明的是,图5(a)的两个连通区域之间的距离小于或者等于预设距离,可以被看作两个连通区域存在交叠。
[0168]
在确定与非文本元素的连通区域交叠的连通区域之后,获取该连通区域对应的最小外接矩形的像素值,即第一像素数量。
[0169]
步骤202、获取对非文本元素的连通区域进行膨胀操作后的第二像素数量。
[0170]
在本实施例中,对于非文本元素的连通区域,使用一个较小的核进行膨胀操作,其中核的大小为(mf,mf),mf是一个与图像分辨率相关的值,mf=min(h,w)/200,通常mf的取值范围为[3,10],h和w分别表示文档图像的高度和宽度。
[0171]
在对非文本元素的连通区域进行膨胀操作后,获取膨胀后的非文本元素的连通区域对应的最小外接矩形的像素值,即第二像素数量。
[0172]
步骤203、若第一像素数量大于第二像素数量,则将与非文本元素的连通区域交叠的连通区域确定为文本元素的连通区域。
[0173]
相应的,若第一像素数量小于或者等于第二像素数量,则将与非文本元素的连通区域交叠的连通区域确定为非文本元素的连通区域。
[0174]
上述过程可以看作是噪声消除过程,可以将非文本元素的连通区域附近的大小较小的连通区域正确判定为非文本元素的连通区域,其他不满足上述条件的连通区域判定为
文本元素的连通区域,从而进一步提升了文档图像的文本区域检测的准确性。
[0175]
本实施例提供的文档图像的区域分离方法在对文档图像进行非文本元素的识别过滤之后,进一步识别过滤非文本元素附近的大小较小的噪声区域,从而获得更加准确的文本区域。
[0176]
图9为本发明一实施例提供的文档图像的区域分离装置的功能结构示意图。如图9所示,本实施例提供的文档图像的区域分离装置300,包括:
[0177]
图像预处理模块301,用于对文档图像进行预处理,得到二值化图像;
[0178]
连通区域分析模块302,用于对所述二值化图像进行连通区域分析得到第一连通区域集合;
[0179]
获取模块303,用于获取所述第一连通区域集合中各连通区域的属性特征;
[0180]
连通区域划分模块304,用于根据所述第一连通区域集合中各连通区域的属性特征,将所述第一连通区域集合划分为第二连通区域集合和第三连通区域集合;所述第二连通区域集合中包括非文本元素的连通区域,所述第三连通区域集合中包括文本元素的连通区域;
[0181]
所述获取模块303,还用于获取所述第三连通区域集合中各连通区域的属性特征和相邻位置信息;
[0182]
所述连通区域划分模块304,还用于根据所述第三连通区域集合中各连通区域的属性特征和相邻位置信息,从所述第三连通区域集合中确定文本元素的连通区域。
[0183]
可选的,每一个所述连通区域的属性特征包括每一个所述连通区域的像素数量、像素密度、宽高比,以及嵌套在每一个所述连通区域的最小外接矩形中的其他连通区域的第一数量。
[0184]
可选的,所述连通区域划分模块304,具体用于:
[0185]
判断所述第一连通区域集合中各连通区域的属性特征是否满足第一非文本元素条件,将连通区域的属性特征满足第一非文本元素条件的连通区域划分到第二连通区域集合。
[0186]
可选的,所述第一非文本元素条件包括以下条件的至少一项:
[0187]
连通区域的像素数量小于预设像素数量;
[0188]
连通区域的像素密度小于预设像素密度;
[0189]
连通区域的宽高比小于预设宽高比;
[0190]
嵌套在连通区域的最小外接矩形中的其他连通区域的第一数量大于第一值。
[0191]
可选的,所述连通区域分析模块302,还用于:
[0192]
对所述第三连通区域集合中各连通区域进行空白区域分析,确定所述第三连通区域集合中各连通区域对应的相邻连通区域;
[0193]
所述获取模块303,具体用于获取所述第三连通区域集合中各连通区域对应的相邻位置信息,所述相邻位置信息包括每一个连通区域与所述每一个连通区域对应的相邻连通区域的距离,每一个连通区域的左连通区域数量以及右连通区域数量。
[0194]
可选的,所述连通区域划分模块304,具体用于:
[0195]
判断所述第三连通区域集合中各连通区域的属性特征是否满足第二非文本元素条件;
[0196]
判断所述第三连通区域集合中各连通区域的相邻位置信息是否满足第三非文本元素条件;
[0197]
将所述第三连通区域集合中不满足所述第二非文本元素条件的连通区域,以及满足所述第二非文本元素条件但不满足所述第三非文本元素条件的连通区域确定为文本元素的连通区域。
[0198]
可选的,所述第二非文本条件包括:
[0199]
第一条件和第二条件;或者,
[0200]
所述第一条件和第三条件;或者,
[0201]
所述第一条件、所述第二条件和所述第三条件;
[0202]
其中,所述第一条件为a
i
=max(ω1)∩a
i
>k1×
median(ω1);所述第二条件为h
i
=max(ω2)∩h
i
>k2×
median(ω2);第三条件为w
i
=max(ω3)∩w
i
>k3×
median(ω3);
[0203]
式中,ω1表示所述第三连通区域集合中各连通区域的像素数量的集合,ω2表示所述第三连通区域集合中各连通区域的高度的集合,ω3表示所述第三连通区域集合中各连通区域的宽度的集合,mean表示计算平均值,median表示计算中位数,a
i
表示所述第三连通区域集合中第i个连通区域的像素数量,h
i
表示所述第三连通区域集合中第i个连通区域的最小外接矩形的高度,w
i
表示所述第三连通区域集合中第i个连通区域的最小外接矩形的宽度。
[0204]
可选的,所述第三非文本元素条件包括:
[0205]
每一个连通区域与所述每一个连通区域对应的相邻连通区域的距离大于或者等于预设距离;和/或
[0206]
所述每一个连通区域对应的相邻连通区域的第二数量大于或者等于第二值,所述第二数量为左连通区域数量与右连通区域数量中的最大值。
[0207]
可选的,所述获取模块303,还用于获取与所述非文本元素的连通区域交叠的连通区域的最小外接矩形的第一像素数量;
[0208]
所述获取模块303,还用于获取对所述非文本元素的连通区域进行膨胀操作后的第二像素数量;
[0209]
所述连通区域划分模块304,还用于:若所述第一像素数量大于所述第二像素数量,则将与所述非文本元素的连通区域交叠的连通区域确定为文本元素的连通区域。
[0210]
本实施例提供的文档图像的区域分离装置,可以执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
[0211]
图10为本发明一实施例提供的文档图像的区域分离装置的硬件结构示意图。如图10所示,本实施例提供的文档图像的区域分离装置400,包括:
[0212]
存储器401;
[0213]
处理器402;以及
[0214]
计算机程序;
[0215]
其中,计算机程序存储在存储器401中,并被配置为由处理器402执行以实现如前述任一项方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
[0216]
可选的,存储器401既可以是独立的,也可以跟处理器402集成在一起。
[0217]
当存储器401是独立于处理器402之外的器件时,文档图像的区域分离装置400还包括:
[0218]
总线403,用于连接存储器401和处理器402。
[0219]
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器402执行以实现如上方法实施例中文档图像的区域分离装置400所执行的各个步骤。
[0220]
应理解,上述处理器可以是中央处理单元(英文:central processing unit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digital signal processor,简称:dsp)、专用集成电路(英文:application specific integrated circuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0221]
存储器可能包含高速ram存储器,也可能还包括非易失性存储nvm,例如至少一个磁盘存储器,还可以为u盘、移动硬盘、只读存储器、磁盘或光盘等。
[0222]
总线可以是工业标准体系结构(industry standard architecture,isa)总线、外部设备互连(peripheral component,pci)总线或扩展工业标准体系结构(extended industry standard architecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
[0223]
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0224]
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits,简称:asic)中。当然,处理器和存储介质也可以作为分立组件存在于文档图像的区域分离装置中。
[0225]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1