一种自动采集固定格式数据的装置及系统的制作方法

文档序号:14006256阅读:188来源:国知局
一种自动采集固定格式数据的装置及系统的制作方法

本实用新型涉及数据采集技术领域,具体涉及一种自动采集固定格式数据的装置及系统。



背景技术:

固定格式数据,一般是指数据具有相同的固定类型模板,不同样本数据之间存在一定的重复性内容,如体检表、证书等。目前针对固定格式的数据采集主要有以下方式:

第一,通过人工向信息系统中输入原始单据。缺点:速度慢,正确率难以保证;原始纸质单据无法输入到系统中,电子数据容易被篡改;数据只能在事后收集,时效性差。

第二,通过带有文档识别功能的设备扫描原始单据,然后上传扫描结果和原件。缺点:设备价格昂贵;扫描准确率不高,处理速度慢;通用的扫描设备采取全文扫描的方式,不能针对结果中的有效信息进行检索;扫描结果需要人工校对准确性,工作量大,且容易出错;扫描设备本身没有数据上报接口,必须搭配人员和计算机才能实现数据采集。

第三,通过人工把原始信息转录到特殊输入介质上,例如答题卡或者射频卡,然后通过专有的录入设备扫描输入介质后实现信息的电子化。缺点:设备价格昂贵,输入介质(答题卡/射频卡等)相对纸介质价格昂贵,且需要提前准备;对人员的素质要求高,系统必须由熟悉计算机系统的人员操作;使用前准备工作繁琐,使用前必须将采集对象的组织结构输入到系统;设备容错能力差,一旦系统中出现未登记的人员或者是输入数值错误系统会停止工作;操作繁琐,向介质上输入数据的速度小于手写输入速度;系统内置数据格式和输入项目更新复杂,需要专门的技术人员手动更新,可维护性差。

目前,采集固定格式数据存在以下问题:

现有方案所含硬件只能完成单一的数据采集功能,数据采集之后需要人工上报数据,只上报扫描结果,原始同扫描结果之间无法形成对应关系只能丢弃;

现有方案用户完成数据采集后,用户需要通过电脑或者第三方工具软件对数据进行采集加工,操作繁琐;

现有技术方案都是以单个点作为服务对象,没有企业联网数据采集支持。



技术实现要素:

本实用新型的目的在于提供一种自动采集固定格式数据的装置及系统,在采集完成后即可对外提供基于浏览器数据访问页面,用户通过电脑或者手机可以完成对数据的修改、纠错、电子表格导出等操作,同时能够对数据进行存储功能,用户无需另存数据,可以根据需要进行数据采集更新,便于数据上报与维护。

为实现上述目的,本实用新型的技术方案为:一种自动采集固定格式数据的装置,所述装置包括微处理器,所述装置还包括数据接口模块、硬件控制模块、智能识别模块、数据存储模块、模板配置模块;所述数据接口模块用于所述装置连接扫描终端;所述硬件控制模块连接有所述数据接口模块,硬件控制模块用于对扫描终端进行控制,硬件控制模块通过数据接口模块获取扫描终端的扫描数据;所述智能识别模块与所述硬件控制模块连接,智能识别模块用于识别扫描终端的扫描数据;所述数据存储模块与所述硬件控制模块连接,数据存储模块与所述智能识别模块连接,数据存储模块用于储存智能识别模块的识别结果;所述模板配置模块与所述智能识别模块连接,模板配置模块用于配置智能识别模块对扫描数据的识别模板。

如上所述的一种自动采集固定格式数据的装置,所述装置运行有Linux操作系统,装置内运行有主控程序,所述主控程序用于对所述硬件控制模块、智能识别模块、模板配置模块进行控制。硬件控制模块采用硬件控制器,硬件控制模块属于现有技术。智能识别模块采用基于卷积神经网络的手写识别技术,相对于基于图像识别技术的前一代手写识别技术更加精确快速。

如上所述的一种自动采集固定格式数据的装置,所述数据接口模块采用USB数据接口。该装置可以通过USB数据接口连接扫描终端,进而实现装置与扫描终端之间的数据信息交互。

本实用新型提供一种自动采集固定格式数据的系统,所述系统采用上述装置,所述系统还包括扫描终端、主服务器、企业主终端和企业分终端;所述扫描终端与所述装置通过数据接口模块连接;所述主服务器与所述装置通过网络进行连接,主服务器至少连接一个所述装置,主服务器用于为所述装置提供网络支持,接收数据扫描结果,合并扫描结果提供给企业分终端;所述企业主终端与所述主服务器连接,企业主终端用于操作人员进行扫描数据样式配置;所述企业分终端与所述主服务器通过所述装置连接,企业分终端数量至少为1个,企业分终端用于操作人员根据企业主终端配置的扫描数据样式进行数据采集、编辑与上传到所述主服务器。

如上所述的一种自动采集固定格式数据的系统,所述扫描终端采用扫描仪,扫描终端与所述装置通过USB数据线连接。在组建自动采集固定格式数据的系统时,将扫描终端与上述装置通过USB数据线连接。

如上所述的一种自动采集固定格式数据的系统,所述主服务器位于数据云中,主服务器通过云计算平台进行拓展同时为至少2个上述装置提供服务。主服务器可以通过云计算平台拓展同时为海量的采集设备提供服务。主服务器为多个本实用新型中所提到自动采集固定格式数据的装置提供网络支持,接收扫描结果,合并扫描结果提供企业用户数据支持,同时还提供远程技术支持,为数据采集公司提供数据访问接口。采集的数据可实时上报,便于远程升级维护。

如上所述的一种自动采集固定格式数据的系统,所述主服务器设有移动数据接口,主服务器连接有移动终端,移动终端采用手机终端或平板电脑。企业操作人员可以通过手机终端或平板电脑进行数据访问。

本实用新型还提供一种自动采集固定格式数据的方法,所述方法采用上述装置并通过上述系统,所述方法包括以下步骤:

企业主终端根据数据采集需要设计对应的数据采集模板,在数据采集模板界面上配置定位码,并将数据采集模板通过服务器下发到企业分终端;

企业主终端对照数据采集表格设计相应的数据识别模板,配置智能识别模块为对应的数据识别模板样式;

企业分终端将按照数据采集模板采集的数据进行扫描,扫描终端通过智能识别模块对扫描的数据按照数据识别模板进行识别;

将识别的扫描结果通过数据存储模块进行存储,并将扫描结果上传到服务器以供使用。

如上所述的一种自动采集固定格式数据的方法,所述定位码设置在数据采集模板的界面上端,定位码的数量至少为2个,每个定位码的样式互不相同,通过所述定位码识别纸张的位移、旋转与缩放信息。定位码通过在扫描件上增加特殊标记增强数据采集设备对原始内容的定位能力,提高精确度,速度。传统的方式在页眉页脚处设置定位点,一般形式为十字交叉的直线或者是圆点等便于识别的图形,定位点之间只有位置不同,其他外观完全一致,不能提供旋转、朝向、形变等信息,本方法中每个定位码都含有唯一id,所以多个定位点(2个以上)一起可以提供整个输入数据的方向、旋转、不规则变形等更多辅助信息,对于输入资料的污损等有更好的纠错能力。

现有采集方法一次只能针对一种数据格式进行采集,不能多种格式混合采集,本方法基于定位码的唯一id,可以识别出原始信息的分类,即使多种格式的原始数据一起进行数据采集,设备也可以自动分类,分别提取。

现有技术方案不支持多页的原始信息录入,即使信息全部采集也无法把原始输入按照用户分成多个集合,本方法采用的唯一定位码技术,可以包含用户id,从而实现多用户多页数据的采集。

如上所述的一种自动采集固定格式数据的方法,智能识别模块通过卷积神经网络识别算法对识别对象进行数据训练。卷积神经网络识别算法卷积神经网络(CNN),是近年发展起来,并引起广泛重视的一种高效识别方法。20世纪60年代,Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了卷积神经网络。现在,CNN已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后,更多的科研工作者对该网络进行了改进。其中,具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”,该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

本实用新型具有如下优点:使用简单,使用前设备会自动配置,不需要人工干预,也无需提前准备;对使用者要求低,无需专业电脑技能,只要能够正确书写就能进行数据采集;使用成本低廉,无需特别制作采集表格或者是设备卡,使用普通打印纸就可以正常工作;采集速度快,每台装置每小时可以采集超过1500份数据;手写数据识别准确度高,对普通的书写习惯可以达到95%的准确度,对不同用户手写数据的适应性好;人工复核速度快,在遇到不能确定的输入数据时可以估计出准确率,人工复合结果时重点检查这些模糊的结果即可,大大加快人工复合速度,而目前其他的技术方案需要对人工通篇检查识别结果;功能全面,可实现数据采集、加工、保存,联网后可以支持企业用户的多点数据采集;维护简单,只要接入网络后技术人员就可以处理绝大部分(95%)以上的技术问题;系统可以在线升级。

附图说明

图1为自动采集固定格式数据的装置示意图;

图2为自动采集固定格式数据的系统原理图;

图3为自动采集固定格式数据的系统组建示意图;

图4为自动采集固定格式数据的方法流程图。

具体实施方式

以下实施例用于说明本实用新型,但不用来限制本实用新型的范围。

如图1、图2所示,一种自动采集固定格式数据的装置,所述装置包括微处理器1,微处理器1用于装置完成取指令、执行指令,以及与外界扫描终端和自身各模块件间的逻辑运算操作,是装置的运算控制部分。所述装置还包括数据接口模块2、硬件控制模块3、智能识别模块4、数据存储模块5、模板配置模块6;所述数据接口模块2用于所述装置连接扫描终端7;所述硬件控制模块3连接有所述数据接口模块2,硬件控制模块3用于对扫描终端7进行控制,硬件控制模块3通过数据接口模块2获取扫描终端7的扫描数据;所述智能识别模块4与所述硬件控制模块3连接,智能识别模块4用于识别扫描终端7的扫描数据;所述数据存储模块5与所述硬件控制模块3连接,数据存储模块5与所述智能识别模块4连接,数据存储模块5用于储存智能识别模块4的识别结果;所述模板配置模块6与所述智能识别模块4连接,模板配置模块6用于配置智能识别模块4对扫描数据的识别模板。

自动采集固定格式数据的装置的一个实施例中,所述装置运行有Linux操作系统,装置内运行有主控程序,所述主控程序用于对所述硬件控制模块3、智能识别模块4、模板配置模块6进行控制。硬件控制模块3采用硬件控制器,硬件控制模块3属于现有技术。智能识别模块4采用基于卷积神经网络的手写识别技术,相对于基于图像识别技术的前一代手写识别技术更加精确快速。

自动采集固定格式数据的装置的一个实施例中,所述数据接口模块2采用USB数据接口。该装置可以通过USB数据接口连接扫描终端7,进而实现装置与扫描终端7之间的数据信息交互。

如图1、图2、图3所示,本实用新型提供一种自动采集固定格式数据的系统,所述系统采用上述装置,所述系统还包括扫描终端7、主服务器8、企业主终端9和企业分终端10;所述扫描终端7与所述装置通过数据接口模块2连接;所述主服务器8与所述装置通过网络进行连接,主服务器8至少连接一个所述装置,主服务器8用于为所述装置提供网络支持,接收数据扫描结果,合并扫描结果提供给企业分终端10;所述企业主终端9与所述主服务器8连接,企业主终端9用于操作人员进行扫描数据样式配置;所述企业分终端10与所述主服务器8通过所述装置连接,企业分终端10数量至少为1个,企业分终端10用于操作人员根据企业主终端9配置的扫描数据样式进行数据采集、编辑与上传到所述主服务器8。

自动采集固定格式数据的系统的一个实施例中,所述扫描终端7采用扫描仪,扫描终端7与所述装置通过USB数据线连接。在组建自动采集固定格式数据的系统时,将扫描终端7与上述装置通过USB数据线连接。

自动采集固定格式数据的系统的一个实施例中,所述主服务器8位于数据云11中,主服务器8通过云计算平台进行拓展同时为至少2个扫描终端7提供服务。主服务器8可以通过云计算平台拓展同时为海量的采集设备提供服务。主服务器8为多个本实用新型中所提到自动采集固定格式数据的装置提供网络支持,接收扫描结果,合并扫描结果提供企业用户数据支持,同时还提供远程技术支持,为数据采集公司提供数据访问接口。采集的数据可实时上报,便于远程升级维护。

自动采集固定格式数据的系统的一个实施例中,所述主服务器8设有移动数据接口,主服务器8连接有移动终端12,移动终端12采用手机终端或平板电脑。企业操作人员可以通过手机终端或平板电脑进行数据访问。

如图4所示,本实用新型还提供一种自动采集固定格式数据的方法,所述方法采用上述装置并通过上述系统,所述方法包括以下步骤:

S1:企业主终端9根据数据采集需要设计对应的数据采集模板,在数据采集模板界面上配置定位码,并将数据采集模板通过服务器下发到企业分终端10;

S2:企业主终端9对照数据采集表格设计相应的数据识别模板,配置智能识别模块4为对应的数据识别模板样式;

S3:企业分终端10将按照数据采集模板采集的数据进行扫描,扫描终端7通过智能识别模块4对扫描的数据按照数据识别模板进行识别;

S4:将识别的扫描结果通过数据存储模块5进行存储,并将扫描结果上传到服务器以供使用。

自动采集固定格式数据的方法的一个实施例中,所述定位码设置在数据采集模板的界面上,比如可以设置在边角位置,定位码的数量至少为2个,每个定位码的样式互不相同,通过所述定位码识别纸张的位移、旋转与缩放信息。定位码通过在扫描件上增加特殊标记增强数据采集设备对原始内容的定位能力,提高精确度,速度。传统的方式在页眉页脚处设置定位点,一般形式为十字交叉的直线或者是圆点等便于识别的图形,定位点之间只有位置不同,其他外观完全一致,不能提供旋转、朝向、形变等信息,本方法中每个定位码都含有唯一id,所以多个定位点(2个以上)一起可以提供整个输入数据的方向、旋转、不规则变形等更多辅助信息,对于输入资料的污损等有更好的纠错能力。

现有的表格样式即便有定位码,也是多个外形完全相同的定位码.本方案的定位码每个都是不同的(外形或者是内部细节),基于不同的定位码,就能推测出纸张的缩放、旋转以及破损恢复,现有的定位码模式是AAAA,如果纸张旋转了,那么提取到的定位信息并不能放映这个变化。本方案的定位码模式是ABCD(不一定是顺时针顺序),如果纸张旋转后可以发现定位码的位置变为了BCDA,如果纸张破损,那么基于AB、ABC、ACD…这样的剩余信息也可以推断出原始表单的朝向、缩放以及数据相对于定位码的位置。

需要进一步说明的是,利用本实用新型思路,任意外观有区别的图形都可以充当定位码,不仅限于本实施例中所使用的ABCD,定位码的数量不-定是4个,只要大于2个都能实现定位功能。需要指出的是,定位码数量越多,对于面积比较大的纸张定位效果越好。

同时,定位码的排列不一定是矩形,直线(2个),三角形(3个),多边形(多个),任意提前约定好的形状都可以。需要指出的是本实施中所提到的“多”并非交代不清楚,而是为了更好的阐明本实用新型的思路和实现方式。

现有采集方法一次只能针对一种数据格式进行采集,不能多种格式混合采集,本方法基于定位码的唯一id,可以识别出原始信息的分类,即使多种格式的原始数据一起进行数据采集,设备也可以自动分类,分别提取。现有技术方案不支持多页的原始信息录入,即使信息全部采集也无法把原始输入按照用户分成多个集合,本方法采用的唯一定位码技术,可以包含用户id,从而实现多用户多页数据的采集。

自动采集固定格式数据的方法的一个实施例中,智能识别模块4通过卷积神经网络识别算法对识别对象进行数据训练。卷积神经网络识别算法卷积神经网络(CNN),是近年发展起来,并引起广泛重视的一种高效识别方法。20世纪60年代,Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了卷积神经网络。现在,CNN已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后,更多的科研工作者对该网络进行了改进。其中,具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”,该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

本实用新型中数据采集设备在采集完成后即可对外提供基于浏览器数据访问页面,用户通过电脑或者手机可以完成对数据的修改、纠错、电子表格导出等操作,同时数据采集设备也包含数据存储功能,用户无需另存数据。与现有技术方案中以单个点作为服务对象,没有企业联网数据采集支持的方式相比,本实用新型所有采集设备都支持联网在线上报数据和更新数据采集格式,对于企业用户,只需要在中心节点(例如总公司)上下发新的数据采集模板,信息可以自动更新到所有子节点(子公司、办事处等),提高企业用户内部交流效率,避免操作失误。本实用新型所有节点都支持实时联网,中心节点(例如总公司)可以实时收集所有接入设备的数据,对于本方案的使用者来说,完成了数据收集也就同时完成了数据上报。采集设备采用联网设备,采集到的数据和原始输入图像信息可以直接上传到网络,采集设备同时也具有本地数据处理能力,用户无需额外工具就可以完成大部分数据加工操作。

虽然,上文中已经用一般性说明及具体实施例对本实用新型作了详尽的描述,但在本实用新型基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本实用新型精神的基础上所做的这些修改或改进,均属于本实用新型要求保护的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1