一种复杂表格及其内部手写数字识别方法与流程

文档序号:11134613阅读:来源:国知局

技术特征:

1.一种复杂表格及其内部手写数字识别方法,其特征在于,包括以下步骤:

步骤1:对模板表格进行直线检测、角点检测,以解析扫描表格中的每个单元格结构间的拓扑关系,实现模板表格结构描述;

步骤2:对纸质手写表格转成的电子手写表格进行预处理,即对纸质手写表格经扫描转成的电子手写表格进行位置标定、倾斜矫正、噪点剔除预处理,使电子手写表格结构与步骤1得到模板表格结构一致;

步骤3:对步骤2中电子手写表格的每个单元格进行去除边线处理;

步骤4:对步骤3得到的单元格,将其中的数字图像提取出来,对字符分割预处理及分割成独立字符;

步骤5:对大量数字文本提取特征并训练得到分类器,将步骤4得到的独立字符送入分类器进行识别,得到识别结果;

步骤6:对步骤5得到的手写字符进行后处理,包括对于小数点、写字符常出现特殊情况的字符进行特殊处理,最后将识别出来的数字自动录入到电子表格对应位置。

2.根据权利要求1所述的一种复杂表格及其内部手写数字识别方法,其特征在于,所述步骤1实现模板表格单元格结构描述具体如下:针对复杂结构表格模版,对其进行霍夫变换实现线段检测,采用Shi-Tomasi方法进行角点检测实现行及列分类排序,根据设定的线段、行角点、列角点统计规则解析表格拓扑关系,实现模板表格结构描述。

3.根据权利要求1所述的一种复杂表格及其内部手写数字识别方法,其特征在于,所述步骤2对纸质手写表格转成的电子手写表格进行预处理:将对纸质手写表格经扫描转成的电子手写表格进行霍夫变换,对整张表格进行外轮廓提取,并求得外轮廓的外接矩形即表格的最外围边线,任取一条作为矫正基准线与模板表格对应边线进行匹配,通过旋转、缩放使模板表格结构与电子手写表格的结构一致。

4.根据权利要求1所述的一种复杂表格及其内部手写数字识别方法,其特征在于,所述步骤3对每个单元格进行处理具体如下:通过步骤2进行模版适配,得到电子手写表格中每个单元格的准确位置,再次通过边界及角点检测提取感兴趣的区域ROI(region of interest),最终得到所要提取的单元格。

5.根据权利要求1所述的一种复杂表格及其内部手写数字识别方法,其特征在于,所述步骤4提取单元格中数字图像具体如下:对步骤3得到的ROI单元格采取去除单元格边线、放大图像、二值化处理方式得到待识别数字的ROI区域,通过本文框方式将单个的字符取出并按取出顺序排列。

6.根据权利要求1所述的一种复杂表格及其内部手写数字识别方法,其特征在于,所述步骤5对数字文本提取特征并训练得到分类器具体如下:采用MNIST数字字符集作为训练样本,对字符集每个数字集筛选出字符规则的3000个样本,采用轮廓法提取出每个样本的字符;同时对10个字符总共30000个样本采用KNN算法进行训练,得到分类器,并利用该分类器对步骤4提取的数字进行识别。

7.根据权利要求1所述的一种复杂表格及其内部手写数字识别方法,其特征在于,所述步骤6对手写字符进行后处理具体为:

对于小数点的处理方式如下:若得到的识别自负的数组长度大于1,则可能存在小数点,首先选出最小高度minh的图像,并求其余待识别字符的图像平均高度aveh,若minh<aveh/2,则认为是小数点;

对于手写体中数字5的处理方式如下:数字5必须封口,若不封口,采用屏蔽处理,即若提取字符的图像满足:width>2*height,则屏蔽该字符图像,其中,width为字符图像的宽度,height为字符图像的高度。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1