一种脱机手写体文本的行结构分析方法与流程

文档序号:14836511发布日期:2018-06-30 12:38阅读:309来源:国知局

本发明涉及倾斜文本行分析技术领域,具体为一种脱机手写体文本的行结构分析方法。



背景技术:

在倾斜文本行、不规则文本行片段以及行片段组合等条件下,行结构分析准确与否将严重制约脱机手写体文本识别的效率,现有的脱机手写体文本研究主要集中于提升字符识别准确率以及降低字符识别的时间复杂度和空间复杂度。相比较而言,研究脱机手写体文本预处理的文献则更少,其原因可以在已有公开的汉字识别数据库找到,如HIT-MW、CASIA-HWDB和HCL2000等,这些数据库中的文本图像具有整行整段的数据结构,缺乏现实情况下的零散字符片段的数据。



技术实现要素:

针对现有技术的不足,本发明提供了一种脱机手写体文本的行结构分析方法,解决了背景技术中提出的困难问题。

为实现以上目的,本发明通过以下技术方案予以实现:一种脱机手写体文本的行结构分析方法,包括字符高度估计单元、字符重心聚类单元、字符文本行拟合单元和字符高度优化单元;所述字符高度估计单元用于通过随机方式选择多个字符笔迹像素点,并计算他们对应的字符高度,为后续行结构分析提供准确的字符高度估值;所述字符重心聚类单元用于利用了聚类方法的类内紧凑而类间分离的基本思想,将同一文本行的字符重心聚为一类,不同文本行的字符重心聚到不同类别中;所述字符文本行拟合单元主要运用最小二乘法多项式曲线拟合,根据给定的m个点,并不要求这条曲线精确地经过这些点,而是曲线y=f(x)的近似曲线y=Φ(x);其优点是过滤噪声字符重心以得出这些字符重心所对应字符所在的真实的行信息;利用最小二乘法多项式实现字符文本行拟合的原理:给定字符重心簇中的字符重心pi=(xi,yi),i=1,2,…,m;求近似曲线y=Φ(x),并且使得近似曲线与y=f(x)的偏差最小;近似曲线在点pi处的偏差δi=Φ(xi)-y,i=1,2,…,m,其中最小偏差平方和的表达式为字符高度优化单元有效解决初始字符高度估计的偏差;增加字符高度会降低单字符存在多个字符重心的比率。

作为本发明的进一步优选方案,所述字符文本行拟合单元具体实现过程:(1)设拟合多项式及偏差平方和

y=a0+a1x+…+akxk

(2)为了求得符合条件的a值,对等式右边求ai偏导数及化简

(3)把这些等式表示成矩阵的形式,就可以得到下面的矩阵:

(4)将这个范德蒙得矩阵简化后可得到:

(5)也就是说,X*A=Y,那么A=(X'*X)-I*X'*Y,便得到了系数矩阵A。同时,也得到了对应的拟合曲线。

有益效果

本发明提供了一种脱机手写体文本的行结构分析方法。具备以下有益效果:

该脱机手写体文本的行结构分析方法,通过随机方式选择多个字符笔迹像素点,并计算他们对应的字符高度,为后续行结构分析提供准确的字符高度估值。优点:该方式能够自适应于不同脱机手写体文本的文字高度,同时,以同一簇中的字符重心为坐标点进行拟合,能够获取该簇字符重心所在的行结构;相对于字符重心而言,拟合得到的行结构更稳定,也更好地反映脱机手写体的字符分布信息,实用性强,易于推广使用。

附图说明

图1为本发明的脱机手写体文本的行结构分析流程图;

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明提供一种技术方案:一种脱机手写体文本的行结构分析方法,包括字符高度估计单元、字符重心聚类单元、字符文本行拟合单元和字符高度优化单元。

字符高度估计单元:运用连通域分析法进行字符高度估计。文字高度h作为一个自适应变量,它与文本图像的字符大小直接关联。首先明确相邻像素点概念,即每个像素点含有相邻像素点的数目为八(除边缘位置),它们分别处于该像素点的左、右、上、下、左上、右上、左下和右下八个位置;接着,笔迹像素点的连通域概念,即每个连通域是由若干个笔迹(有效)像素点组成的序列,该连通域的高度是最上方笔迹像素点位置与最下方笔迹像素点位置之差。然后,运用连通域分析法进行文字高度估计,具体步骤如下:(1)以文本图像的左上角和右下角为极限位置,随机选择k个位置点,即{(x1,y1),(x2,y2),…,(xk,yk)},其中k≥10;(2)获取每一个随机位置点的最邻近笔迹像素点,当该位置点的像素值为1,则最邻近像素点为自身。对第i个随机位置点(xi,yi)而言,最邻近笔迹像素点(xi,yi)应满足如下条件:

其中,Dist1表示一种距离度量函数,如欧式距离、曼哈顿距离和切比雪夫距离;表示文本图像第xj行第yj列的像素值,其值为1,表示该位置存在笔迹像素。(3)运用连通域来计算k个最邻近笔迹像素点所在的笔迹连通域高度{h1,h2,…,hk}。实验结果表明,k取值范围为[20,30],字符高度处于k个通域的平均高度与最大高度之间且偏向于后者。为此,将k个连通域的高度值按小到大排序,选择第个高度值作为字符初始高度估计值。

字符重心聚类单元:

字符重心定位既可以准确地得到单个字符在文本图像中的位置,又可以由字符重心来区分不同字符;对于倾斜文本行、不规则文本片段以及粘连字符的脱机手写体文本,字符重心定位方法能够快速准确地区分不同字符,进而为后续单字符或多字符识别以及非显著切分式文本识别提供有力的支持。字符重心聚类利用了聚类方法的类内紧凑而类间分离的基本思想,将同一文本行的字符重心聚为一类,不同文本行的字符重心聚到不同类别中。

参考专利“一种脱机手写体文本识别的字符重心定位方法”,专利号:201710606575.1,字符重心C={c1,c2,…,ci,…,cn'},其中n'表示字符重心的总数量,i表示字符重心的下标,ci表示第i个字符中心的纵向值和横向值(对图坐标而言,纵向值由小到大对应于由图上方到图下方,横向值由小到大对应于由图左方到图右方),即ci=(ci(1),ci(2))。为了更有效地实现字符重心聚类,此处需要提前完成字符重心排序和字符重心距离定义。前者以字符重心的纵向值为主序及横向值为次序按从小到大的排序方式,进行字符重心排序。后者两个字符重心之间的距离采用类似于曼哈顿距离的度量方式,即第i个字符重心(ci(1),ci(2))和第j个字符重心(cj(1),cj(2))之间的距离如下:

Dist2((ci(1),ci(2)),(cj(1),cj(2)))=|ci(1)-cj(1)|×w1+|ci(2)-cj(2)|×w2 (2)

公式2的设计原因:不同的横向和纵向的权重,使得邻近重心聚类向权重大的方向进行。

其中,w1和w2分别表示横向和纵向的权重,且w1+w2=1。通常,脱机手写体文本的书写顺序是从左到右,那么计算两个字符重心距离时应使得横向权重小于纵向权重,换言之,若某一对象A存在相同距离的横向位置B对象和纵向位置C对象时,考虑到横向权重小于纵向权重,那么对象A的最近邻对象应为B。结合实验结果得出,w1的取值范围[0.33,0.45]。

字符重心聚类的具体步骤如下:

(1)字符重心聚类后的存储结构SCCSMaxRows×MaxChars,其中MaxRows表示文本的最大行数值,MaxChars表示每一行的最大字符重心数值,SCCS(i,j)表示字符重心聚类得到的第i个行片段中第j个字符重心所对应的字符序号,这一序号对应于字符重心C中。CenTag=zeros(1,n′)表示C中对应的字符重心是否已聚类,初始值为0。rows_V=1表示当前行片段的序号,chars_V=0表示当前行片段中的字符重心的数量。近邻字符重心之间的距离阈值threshold_V=charHeight。

(2)定义字符重心的临时行片段结构SCCS_t,大小为1×MaxChars;确定CenTag中第一个零元素的下标,并将值赋给charCur;分别寻找charCur最邻近的左侧和右侧字符重心,它们与charCur的距离小于或等于阈值threshold_V,更新簇中字符重心的数值chars_V和对应字符重心标记CenTag的值;

(3)采用迭代法,寻找左侧字符重心最邻近的左侧字符重心直至它们之间的距离大于threshold_V时停止迭代;寻找右侧字符重心最邻近的右侧字符重心,直至它们之间的距离大于threshold_V时停止迭代。

(4)根据(3)中的CenRow,rows_V和chars_V,更新SCCS。判断CenTag是否存在0值,若存在,则rows_V=rows_V+1并执行(3);否则输出字符重心聚类结果。

算法第3步能够使得倾斜行(倾斜度不大于15)的字符重心聚到同一簇中。

字符文本行拟合单元:

最小二乘法多项式曲线拟合,根据给定的m个点,并不要求这条曲线精确地经过这些点,而是曲线y=f(x)的近似曲线y=Φ(x)。其优点是过滤噪声字符重心以得出这些字符重心所对应字符所在的真实的行信息。利用最小二乘法多项式实现字符文本行拟合的原理:给定字符重心簇中的字符重心pi=(xi,yi),i=1,2,…,m。求近似曲线y=Φ(x),并且使得近似曲线与y=f(x)的偏差最小。近似曲线在点pi处的偏差δi=Φ(xi)-y,i=1,2,…,m。其中最小偏差平方和的表达式为

具体实现过程:

(1)设拟合多项式及偏差平方和

y=a0+a1x+…+akxk

(2)为了求得符合条件的a值,对等式右边求ai偏导数及化简

(3)把这些等式表示成矩阵的形式,就可以得到下面的矩阵:

(4)将这个范德蒙得矩阵简化后可得到:

(5)也就是说,X*A=Y,那么A=(X'*X)-I*X'*Y,便得到了系数矩阵A。同时,也得到了对应的拟合曲线。

字符高度优化单元:

对于文本图片而言,合理的字符文本行具有如下特性:A1、字符重心到对应拟合曲线的距离之和应尽可能小;A2、字符重心映射到对应拟合曲线的点之间距离应近似于字符高度优化值;A3、拟合曲线(文本行片段)的数目适中且垂直间距大于字符高度值。综合考虑上述三个特性,曲线拟合函数(CurveFittingFunction,CFF)设计如下:

其中hi代表第i个字符重心到对应拟合曲线的高度,bi代表第i个和第i+1个字符重心分别映射到对应曲线的点之间的距离,height代表字符高度优化值,其值采用固定步长更新法,步长大小为charHeight/10;字符高度优化能有效解决初始字符高度估计的偏差;增加字符高度会降低单字符存在多个字符重心的比率;曲线拟合函数能满足最优字符文本行的三个特性。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1