一种基于水平集分割的文本抽取方法

文档序号：8943380阅读：263来源：国知局

一种基于水平集分割的文本抽取方法
【技术领域】
[0001] 本发明涉及图像处理领域中的文本抽取方法，尤其涉及一种基于水平集分割的文本抽取方法。
【背景技术】
[0002] 随着网络和计算机技术的发展，越来越多的信息以图像或视频等多媒体的形式出现。图像或视频中含有丰富的文本信息，这些文本信息对图像或视频起着说明和诠释的作用。提取和识别这些文本信息对图像理解、视频内容分析、智能交通、机器视觉、智能控制等方面有着重要的意义。然而，由于文本信息通常处于复杂背景中，通用的OCR系统很难识别出文本信息。因而文本检测出来在提交给OCR系统之前还需要一个去除背景的过程即文本抽取过程。因此，如何从复杂背景图像中抽取文本信息，成为以文本信息为线索来理解图像内容的一个关键任务。
[0003] 现有的图像文本抽取技术主要分为基于阈值的方法、基于聚类的方法和基于统计模型的方法。基于阈值的方法主要利用文本和背景颜色的分割，设定阈值将文本和背景分离。阈值的选取有全局阀值和局部阀值两种。该种方法抽取的效果取决于阀值对图像背景和文本的区分度，一般适用于图像背景比较单一的情况。基于聚类的方法一般利用颜色信息将文本块图像分为K类，然后根据某一聚类算法和设定的阀值将符合规则的类聚合，逐步的减少颜色的分类数。文本像素最后对应其中的一类，其余各类均为背景。这类方法但当背景中含有与文本颜色相同或相近的成分时，这些成分会被误分入文本类，从而产生大量的残余背景，影响OCR识别。基于统计模型的方法对文本块中的所有像素建立概率模型，然后设定合理的概率模型中的参数，然后根据最大似然法则确定每个像素是否属于文本像素。概率模型方法中模型参数一般需要统计学习得到，需要大量的学习样本。
[0004] 上述各种文本抽取方法，只利用了图像底层局部的灰度或彩色信息，对复杂背景图像中的文本或空心字进行抽取时，往往存在残余背景，文本抽取效果不好。

【发明内容】

[0005] 本发明的目的就是为了解决上述问题，提供一种基于水平集分割的文本抽取方法。首先采用水平集函数把图像分为两个区域，然后对两个域进行极性判断，判断出文本区域和背景区域，最后对文本区域滤波，去除背景噪声。该方法利用了图像的全图信息，不仅能够抽取复杂背景中的文本信息，而且对空心字图像的抽取效果也十分理想。具有一定的通用性和实用性。
[0006] 为了实现上述目的，本发明采用如下技术方案：
[0007] -种基于水平集分割的文本抽取方法，包括：
[0008] 读取图像数据信息，确定边界曲线；对读取的图像进行灰度化；抽取灰度特征值；根据灰度特征值采用水平集函数将图像分为边界曲线内区域和边界曲线外区域；对分割出的两个区域进行二值化；对二值化的两个区域分别进行连通元标定；对两个区域中标定的连通元进行滤波；对滤波后的区域进行极性判定，判断出文本像素区域和背景像素区域；对文本区域进行滤波，滤除背景噪声；输出文本抽取结果。
[0009] 具体步骤包括：
[0010] 步骤⑴：给定图像uQ(x，y), (x，y) e Ω, Ω为图像区域，ω为Ω的开子集，C为 ω的边界曲线，读取图像信息；
[0011] 步骤⑵：对读取的图像灰度化；
[0012] 步骤⑶：抽取图像的灰度特征值；
[0013] 步骤（4):采用水平集函数图像分割成边界曲线内区域和边界曲线外区域；
[0014] 步骤（5):判断分割是否完成，如果完成则进入步骤（6)，否则，返回步骤⑷；
[0015] 步骤（6):对分割的两个区域进行二值化，即曲线内区域用黑色像素表示，曲线外区域用白色像素表示；
[0016] 步骤（7):对二值化后的两个区域分别采用区域增长法进行连通元标定；
[0017] 步骤（8):判断连通元标定是否完成，如果完成进入步骤（9)，否则，返回步骤 (7)；
[0018] 步骤（9):对两个区域中的连通元进行滤波；
[0019] 步骤（10):判断两个区域连通元滤波是否完成，如果完成进入步骤（11)，否则，返回步骤（9);
[0020] 步骤（11):对滤波后的两个区域进行极性判定，以判断两个区域中哪个区域为文本区域；通过比较两个区域中连通元的数目，取连通元数目多的区域为文本区域，取连通元数目少的区域为背景区域；
[0021] 步骤（12):对确定的文本区域，进一步滤波去除残余背景；
[0022] 步骤（13):输出文本抽取结果。
[0023] 所述步骤⑷中，水平集分割的能量函数为：
[0025] 其中，^入1，入2均是正常数，(：1，(3 2分别是图像11。〇^)中曲线边界(：内部与外部的灰度平
[0026] 均值，H(Z)和δ (ζ)分别表示正则化的Heaviside函数H(Z)和Dirac函数δ (ζ); 其中，
[0027]
[0028] 所述步骤（4)中的具体方法为：
[0029] 步骤（4-1):将边界曲线曲线C用水平集函数代替，如果点（X，y)在曲线C 内部，则皆〇^)>0，如果点（1，7)在曲线〇外部，则^〇，>')<0，如果点〇^)在曲线(：上，则 ?φ:'ι.) = 0.;
[0030] 步骤（4-2):初始化水平集函数，令# = k = 0，为常数值；
[0031] 步骤（4-3):最小化水平集的能量函数F(q，c2，勿，固定#，#为第K次迭代供的值，计算 Clk和c2k的值；
[0032] 步骤（4-4):最小化水平集的能量函数汽心心^^固定彳和"^计算梦^其中 #+1表示第k次迭代时W的值；
[0033] 步骤（4-5):判断#1的解是否趋于稳定，如果不是趋于稳定，则另k = k+Ι，返回步骤（4-3)，继续迭代运算，否则停止迭代进入步骤（4-6);
[0034] 步骤（4-6):输出水平集函数分割结果。
[0035] 所述步骤（4-3)第k次迭代时计算cdP c 2值的方法为：
[0036]
[0037]
[0038] 其中，uQ(x, y)为给定图像上的点，丑(炉i^(X5J))为正则化的Heaviside函数。
[0039] 计算Phi的具体方法为：
[0040] 利用步骤（4-3)中计算的Clk和c Λ按照下式先计算
，然后积分求出#+1:
[0041]
[0042] 其中，（1"代表散度算子、￥代表梯度算子，以，\人1，\2均是正常数，（31，(3 2分别是图像U(](x，y)中曲线边界C内部与外部的灰度平均值。
[0043] 所述步骤（7)中对二值化后的两个区域分别采用区域增长法进行连通元标定的方法为：
[0044] 步骤（7-1):对区域中的像素分别按从上到下、从左到右的顺序进行搜索，若搜索到像素点未进行标记，则赋该像素点新的标记号；
[0045] 步骤（7-2):以新标记的像素点为起始点进行8邻域搜索，若在其8邻域搜索到未标记的像素点，则为搜索到的未标记像素点赋相同标号，并以新标记的像素点为起始点进行8邻域搜索；
[0046] 步骤（7-3):若在8邻域内未搜索到未标记的像素点，则结束该次搜索；
[0047] 步骤（7-4):判断所有像素点标记是否完成；如果完成进入步骤（7-5);如果未完成进入步骤（7-1)，对区域中所有未标记的像素点进行标记，直到完成所有像素点标记为止；
[0048] 步骤（7-5):将具有相同标号的像素点作为一个连通元。
[0049]

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕英俊;李敏花;柏猛;吕雪菲;
技术所有人：山东科技大学;
我是此专利的发明人

上一篇：一种复杂背景下的车牌定位方法
上一篇：基于贝叶斯融合稀疏表示分类器的人脸情感识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。