基于移动设备的问卷和表格数字化识别方法及系统的制作方法

文档序号:8905450阅读:323来源:国知局
基于移动设备的问卷和表格数字化识别方法及系统的制作方法
【技术领域】
[0001] 本发明设及的是一种机器学习和图像处理技术领域的系统,具体是一种基于移动 设备的快速高效的问卷和表格数字化识别方法及系统。
【背景技术】
[0002] 问卷和表格在当今社会生活中被广泛地使用。比如开展一个新的项目或者生产一 个新的产品,都要通过市场问卷调查来分析项目的可行性或者产品的需求量。同样在银行 或则学校,通常需要填写一些表格来登记注册信息。虽然现在网络调查和注册已经越来越 流行了,但是纸质的问卷和表格对于调查和统计分析也是必不可少的。由于市场上识别纸 质问卷和表格的设备或者应用太少,当该些问卷或者表格被填写好后,问卷和表格的统计 分析只能靠人工来进行,需要大量的人力和物力,该既消耗了大量的人力和物力,也浪费里 宝贵的时间。所W设计需要一个快速高效的问卷和表格识别来帮助工作人员完成对纸质问 卷和表格的数据的统计和录入工作。
[0003] 要实现问卷和表格的数字化识别,需要实现问卷和表格的分割、标定和识别=个 部分。对于图像分割,传统的方法有基于颜色分割、差分运动检测分割和Ad油oost训练分 类器来进行分割。由于纸质问卷和表格一般只有白色和黑色两种颜色,包含的颜色信息不 多,所W采用颜色分割的效果不好;而识别问卷和表格一般通过拍照采用静态识别,不包含 运动的信息,所W差分运动检测的效果也不甚理想;最后,通过训练Ad油oost分类器来识 别问卷和表格,Ad油oost分类器是机器学习里面的一种训练方法,但该项工作需要大量的 样本图片才能确定较好的效果,而且分类器在复杂环境下和光照变化较大的情况下,识别 率较低;对于图像标定,一般通过检测直线的交点来计算出纸质的问卷和表格的四个角的 坐标,然后通过仿射变换来校准图片,但在复杂环境下,直线检测不太稳定,并且计算出来 的角点的坐标存在偏差,严重的影响了后续步骤。另外二维码识别的方法来标定图片的方 法,设定标志来标定图片,但对于问卷和表格,设定标准显得太过复杂,不切实可行。表格识 别部分,一般的想法是通过文字识别来判断出被选中的选项,但对于文字的识别过于复杂, 现有的技术对文字的识别率较低,可行性较低。
[0004] 现有专利中,如申请号为CN201310455065. 0中国发明专利,该专利提供了一种表 格识别方法与系统,但该技术通过分割出表格的基本图元,采用无向图,抽取页面内的图 像,检测水平和垂直直线的交叉点,检测交叉点的外包络矩阵,将所述分割文本行是否落入 外包络矩阵作为局部关系特征,然后使用聚类和SVM向量机等机器学习的方法建立表格模 型来识别表格。该方法只是在整个文档中找到表格,而对于表格中的内容没有做任何的识 另IJ,类似于对表格的分割,而且在对表格的识别过程中文档必须竖直放置,对于文档旋转和 有遮挡的情况下,识别率较低。并且该技术只是纯粹的对表格的识别,而对于表格中的内容 没有做任何处理,对于表格的数据统计的用处不大。
[0005] 基于上述,需要设计一种新的识别方法和系统,来在复杂环境先分割出问卷和表 格,并且识别出表格和问卷中那些被选择的内容W方便数据的统计分析,增加实用性。

【发明内容】

[0006] 针对上述现有技术的不足,本发明提供一种快速高效的移动设备问卷和表格数字 化识别方法及系统,可W快速而高效的识别了整个问卷或者表格,准确率几乎达到百分之 百,方便工作人员对问卷和表格信息的统计和录入。
[0007] 为实现上述目的,本发明采用W下技术方案:
[000引根据本发明的一方面,提供一种基于移动设备的问卷和表格数字化识别方法,包 括如下步骤:
[0009] 步骤一,问卷或表格的分割:根据纸质问卷或者表格图片的角点特征,使用 化化riaSDK训练样本图片,在复杂多变的背景中快速高效的分割出问卷或表格;
[0010] 步骤二问卷或表格的校准;根据化en化系统中的坐标变换,将分割出问卷或表 格的物体坐标转换为屏幕坐标,并通过仿射变换来校准各种位置的问卷或表格;
[0011] 步骤S,问卷或表格的识别对校准的问卷或表格进行图像处理,按照顺序将表中 的选项数字化,根据选择框中黑色区域占整个区域的比例来判读该选项是否被选,输出被 选中的选项的数字标号;根据数字标号和本地建立的问卷或者表格选项内容的S化库,输 出被选中的选项及内容。
[0012] 优选地,所述步骤一,具体为;从复杂背景中分割出问卷,求出问卷或表格的四 个顶点坐标,首先根据问卷或表格的角点特征训练出相应的库,然后在移动设备中启动 化化riaSDK使用训练的库对问卷或表格进行识别,识别过程中采用化en化擅染移动设 备的界面,计算出问卷或表格的四个顶点在W问卷或表格为中屯、建立的坐标系下的=维坐 标。
[0013] 优选地,所述步骤二,具体为:将问卷或表格的=维顶点坐标通过矩阵变换转换成 移动设备的屏幕坐标,即利用化en化中坐标系的转换,建立模视矩阵(ModelviewMatrix) 和投影矩阵(ProjectionMatrix),并通过视口变换(ViewportTransform)将物体坐标系 下的=维坐标转换为屏幕坐标,然后根据仿射变换将不同位置的问卷或表格校准。
[0014] 进一步的,所述步骤二,包括如下操作步骤:
[0015] 首先得到问卷的顶点坐标,即在模型坐标系的坐标(x"w,y。^Z。^w"w),照相机坐 标系的坐标是由模型坐标乘W模视矩阵得:
[0016]
0)
[0017] 眼坐标通过乘W投影矩阵得到裁剪坐标系下顶点的坐标(Xdip,ydip,Ztiip,Wtiip):
[00化]
口)
[0019]将裁减坐标系下的坐标除WWtiip,即得到归一化的设备坐标(x"d。,y"d。,,该坐 标经过平移和缩放就得到屏幕坐标,通过视口变换(ViewportTransform)就将该坐标转换 成屏幕坐标(X,,y,,Z,);
[0020]
[002U其中(X,y,W,h)是屏幕窗口的起点和大小,(X,y)是屏幕窗口起点的坐标,W是屏 幕的宽度,h是屏幕的高度,(n,f)是屏幕的深度范围,线性情况下n--l,f一 1。
[0022] 通过仿射变换在移动设备屏幕上将在不同位置的问卷或者表格校准。其中使用的 仿射变换的矩阵为:
[0023]平移变换;将屏幕上点(X,y)平移到点(x+dx,y+dy),dx是横坐标平移的距离,dy 是纵坐标平移的距离,变换矩阵为:
[0024]
(4)
[0025]旋转变换;将屏幕上点(X,y)围绕远点逆时针旋转0,变换矩阵为;
[0026]

[0027] 缩放变换;将屏幕上点(X,y)的横坐标放大或缩小到原来的SX倍,纵坐标放大或 缩小到原来的sy倍,变换矩阵为:
[002引
巧)
[0029] 优选地,所述步骤=,具体为:首先将整个问卷和表格的内容数字化,即按照从上 到下及从左往右的顺序建立问卷内容的数据库,W数字来代表问卷的选项,然后标定出每 个选项的选择框的位置,将数据保存在本地文件中,最后通过自适应阔值处理标定后的图 片,通过阔值处理、腐蚀、膨胀、腐蚀等形态学操作将图片二值化,然后计算每个选项区域中 涂黑部分占整个区域的比例,若比例大于某一阔值则判定该选项被选择,输出代表该选项 的数字,然后在数据库中匹配出该数字代表的选项及其内容,并输出结果。
[0030] 根据本发明的另一方面,提供一种基于移动设备的问卷和表格数字化识别系统, 所述系统包括:问卷或表格的分割部分、校准部分和识别部分,其中:
[0031] 所述问卷或表格的分割部分:根据纸质问卷或者表格图片的角点特征,使用 化化riaSDK训练样本图片,在复杂多变的背景中快速高效的分割出问卷或表格;
[0032] 所述问卷或表格的校准部分;根据化en化系统中的坐标变换,将分割出问卷或表 格的物体坐标转
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1