一种基于阅卷系统的图片内容自动标记方法及系统与流程

文档序号:17624028发布日期:2019-05-10 23:27阅读:466来源:国知局
一种基于阅卷系统的图片内容自动标记方法及系统与流程

本发明涉及图像处理技术领域,具体公开了一种基于阅卷系统的图片内容自动标记方法及系统。



背景技术:

现在存在大量的线上试卷批改系统,这些试卷批改系统的运作模式是将试卷扫描上传到系统中,通过比较参考答案和学生的做题答案是否一致进行判断对错,最终记录得分。这种方式改卷效率十分低,而且容易出错。

随着人工智能图像处理技术的持续发展,学生试卷的自动批改变得越来越紧迫,而要实现自动批改需要进行模型的训练,一般的做法是构造一些文字,字母,数字,公式打印在一张纸上,找到一定数量的志愿者来抄写。然后将这些写好的纸张收集起来再扫描或者拍摄,再用程序再切图,最后进行归类标记。因为受限于人数有限,用来抄写的场景也有限,导致人工构造训练数据样本规模难以提高,也难以构造出样本的多样性,整个过程异常繁杂而且效果不好。

因此,需要一种能解决上述问题的方法。



技术实现要素:

为了克服现有技术中存在的缺点和不足,本发明的目的在于提供一种基于阅卷系统的图片内容自动标记方法及系统。

为实现上述目的,本发明采用如下方案。

一种基于阅卷系统的图片内容自动标记方法,包括:

将纸质试卷扫描成试卷图片上传至阅卷系统;

通过阅卷系统获取试卷扫描图片,将各个题目的答案部分从原始试卷扫描图片中分离出来;

对分离出来答案部分的图片切割成子图,其中子图包括印刷体图片和手写体图片,将各个印刷体图片依次记为h1、h2、h3…hi,将手写体图片依次对应记为c1、c2、c3…cn;

识别各个印刷体图片的内容,从阅卷系统数据库中读出与其对应题目的参考答案字符串,并标注于对应的印刷体图片上;

将每个题目的参考答案与其对应的手写体图片以同一页面呈现给试卷批改者核对两者是否相等;

若相等,则将手写体图片标注为参考答案字符串,保存本地缓存图片目录;若不相等,则系统自动判断能否识别手写体图片内容,若能识别出则将手写体图片标注相应的内容并保存本地缓存图片目录,若不能识别出则放弃标注;

定时将本地缓存图片上传至服务器,通过调用图片集合进行神经网络训练。

进一步地,所述将各个题目的答案部分从原始试卷扫描图片中分离出来,包括:

对获取到的扫描试卷图片进行矫正处理及二值化处理;

利用试卷的信息获取答案部分所在的区域位置,将答案信息绑定试卷id中;

根据答案部分所在的区域位置搜索,并进行切图分离出各个题目的答案部分。

进一步地,还包括接收上传的本地缓存图片后对图片进行预处理分类,具体为:

根据被标注图片的信息内容定义被标注图片的种类,所述被标注图片的种类包括字母类、数字类、汉字类、公式类及几何形状类;

对被标注图片的种类进行类型编码,并在后台进行注释说明;若上述被标注图片的种类可再进行子类划分,则在类型编码时增加子类型编码;

将手写体图片和印刷体图片按定义的种类作进一步划分,根据阅卷系统中题目的参考答案字符串的存储格式,判断参考答案字符串的类型,并标注对应的类型编码;其中,参考答案字符串的存储格式包括latex格式和html格式。

进一步地,还包括:对本地缓存图片文件名保存为type-time-random.jpg,其中type表示图片内容的类型,time表示当前时间,random是一个为了防止重复的32位10进制整数;并对应保存一文档label-type-time-random.txt,内容未被标注的答案字符串。

进一步地,还包括将编程接口进行封装集成到不同的阅卷系统中,以下载接口的方式获取不同阅卷系统的标注图片。

进一步地,下载接口的方式包括:

通过接口查询某个类型的图片集合列表,其中查询需提供查询账号和查询的图片对应的类型编码信息;

获取图片集合列表,从图片集合列表获取相应的图片集id、图片集大小、图片集中图片张数及声明的md5值,所述md5值用于校验图片集是否有被改动;

选定图片集id进行下载,并通过md5算法计算出下载的图片集的md5值,将其与声明的md5值进行比较,若相同则说明没有被改变,若不相同则被改变,需重新下载图片集。

一种基于阅卷系统的图片内容自动标记的系统,包括:本地缓存图片器,阅卷系统和自动标注系统后台;所述阅卷系统用于将各个题目的答案部分从原始试卷扫描图片中分离出来,并获取与题目对应的参考答案字符串进行标注;所述本地缓存图片器用于把标注的图片按照一定格式保存;所述阅卷系统包括自动标注子系统sdk,自动标注子系统sdk自动将本地缓存图片器图片批量上传至自动标标注系统后台;所述自动标标注系统后台用于调用图片集合,方便进行神经网络训练。

本发明的有益效果:提供一种基于阅卷系统的图片内容自动标记方法及系统,通过把答案部分从原来试卷中切出,建立起印刷体图片、手写体图片及参考答案字符串的关系,再经过人工判断答案内容,可以在不增加任何其他人工开销的情况下,同时实现试卷批改和将切出的碎片图片标注上了内容,方便快捷,便用于神经网络训练。

附图说明

图1为本发明实施例的标注类型编码表。

图2为本发明实施例自动标记系统的示意框架图。

具体实施方式

为了便于本领域技术人员的理解,下面结合实施例及附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。

一种基于阅卷系统的图片内容自动标记方法,包括:

先对学生考试的试卷进行扫描,获取纸质试卷扫描出来的试卷图片,将这些试卷图片上传至阅卷系统;随后通过阅卷系统获取试卷扫描图片,将各个题目的答案部分从原始试卷扫描图片中分离出来;这样分离出来既能用于后续的试卷批改,也能用于将图片内容进行自动标注以用于神经网络训练,也即无需增加其他繁杂的步骤就能用于进行两个事件的处理,方便快捷。

随后,对分离出来答案部分的图片切割成子图,其中子图包括印刷体图片和手写体图片,将各个印刷体图片依次记为h1、h2、h3…hi,将手写体图片依次对应记为c1、c2、c3…cn;由于印刷体图片和手写体图片是从同一张图片中切割出来的子图,因此容易将印刷体图片和手写体图片建立起对应关系,也即h1和c1对应,h2和c2对应,如此类推。然后识别各个印刷体图片的内容,由于印刷体图片一般都是题目内容等信息,字体都是比较端正规范的,而且在阅卷系统中自然会有保存有原始试卷的题目等信息,也就是说根据这些印刷体图片中的试卷题目等信息,可以在阅卷系统数据库中读出与其对应题目的参考答案字符串,并将参考答案字符串标注于对应的印刷体图片上;以此就初步建立起印刷体图片、手写体图片及参考答案字符串的关系。同样,建立三者的关系既能方便后续的改卷,同时也是在为实现自动标注作一些预先处理。而且通过对印刷体图片的识别准确率较高,相对现有的直接识别手写体答案来确定参考答案进行比较的方式大大降低了识别的错误率,而且还能防止系统刚使用时因神经网络训练样本不多而识别不出等问题。

此后,将每个题目的参考答案与其对应的手写体图片以同一页面呈现给试卷批改者核对两者是否相等;此时,既是改卷的过程,也是标注图片内容验证的过程,经过批改者处理后,正确答案的可以确定与标注的无误,可以放心用于后续的神经网络训练。

批改者核对两者是否相等时,若相等,则说明学生答案正确,将手写体图片标注为参考答案字符串,保存本地缓存图片目录;若不相等,则系统自动判断能否识别手写体图片内容,因为可能存在经神经网络训练后有些手写字体后台能识别出来,但答案不正确的情况,若把能识别出则将手写体图片标注相应的内容并保存本地缓存图片目录,不仅能增加神经网络训练的样本,进一步丰富神经网络训练库的内容,由于训练样本越丰富,训练后用于自动改卷的准确性更高。因此即使手写答案错误了,也作识别判断,增加了手写体图片进行标注的利用率;若不能识别出则放弃标注。而且还可能包括当前题目是判断题,说明答案错了,那么这个图片可以标记为相反的。比如题目参考答案是√,用户答案是×,因此这个题目没有做对,图片的内容就应该可以判断为与参考答案相反,标注为√。

更准确地,可以在系统在设置成当答案错误时,让改卷人员输入该错误手写字体的内容,根据改卷人员输入的内容进行标注。完成上述标注后,定时将本地缓存图片上传至服务器,当进行神经网络训练时可以通过调用图片集合进行神经网络训练。

本实施例中提供的一种基于阅卷系统的图片内容自动标记方法,通过把答案部分从原来试卷中切出,建立起印刷体图片、手写体图片及参考答案字符串的关系,再经过人工判断答案内容,可以在不增加任何其他人工开销的情况下,同时实现试卷批改和将切出的碎片图片标注上了内容,方便快捷,便用于神经网络训练。而且由于图片内容可以通过配置,避免提取某些涉及个人信息的部位,也就是内容已经被碎片化切分,达到脱敏不涉及到个人隐私的目的。

当经过神经网络训练后,批改试卷时,系统可以先自动识别手写体图片的内容,能识别出来的则先自动改卷核对手写体图片的内容与参考答案字符串是否正确,若系统已经能判断是否正确的,则无需再传给人工改卷,减少人工改卷的工作量;不能判断是否正确的传给人工改卷,在人工改卷时执行上述对图片内容自动标注等步骤,再作进一步神经网络训练,完成训练后自然达到更好的识别效果,利于自动改卷,能自动对以此到达改卷精准率和标注精准率最大化,当神经网络训练的样本库中足够丰富了,能实现全自动改卷,而且经过不断的反馈调节的过程,自动批改试卷的准确达到较高的水平。此外,神经网络训练的样本库还可以不限于批改试卷的识别训练,还包括票据等内容信息的识别等。

本实施例中,将各个题目的答案部分从原始试卷扫描图片中分离出来时,由于试卷扫描时可能出现试卷放置位置不对正,导致扫描出来的试卷图片存在歪斜等问题,因此先对获取到的扫描试卷图片进行矫正处理及二值化处理,以此方便切图,利用试卷的信息获取答案部分所在的区域位置,将答案信息绑定试卷id中;根据答案部分所在的区域位置搜索,并进行切图分离出各个题目的答案部分,从而能准确地切出答案部分。

本实施例中,接收上传的本地缓存图片后对图片进行预处理分类。更具体地,根据被标注图片的信息内容定义被标注图片的种类,如图1所示,所述被标注图片的种类包括字母类、数字类、汉字类、公式类及几何形状类;对被标注图片的种类进行类型编码,并在后台进行注释说明;若上述被标注图片的种类可再进行子类划分,则在类型编码时增加子类型编码;比如,字母类的类型编码成001、整数数字类002、分数数字类003,汉字004、公式类005及几何形状类006等,其中公式类再划分成分式子类型编码为005.001,积分式子005.002,求和式005.003,连乘式005.004,求导符号005.005等等,更细化地还可以划分成物理公式,化学公式,生物公式等等。将手写体图片和印刷体图片按定义的种类作进一步划分,根据阅卷系统中题目的参考答案字符串的存储格式,判断参考答案字符串的类型,并标注对应的类型编码;这样可以将现有的手写字体串划分为更细的一部分进行训练,从而实现在有限的样本中达到训练效果最大化,比如一个公式包括多个字母,经过分类编码后,可以进行该公式样本的标注,也可以利用上述标注步骤根据参考答案字符串再切割成多个字母,在对多个字母分别进行字母类的样本标注。

另外,经过分类编码后可以减免一些不必要的错误,例如手写体的符号“×”与字母“x”较相似,分类后给他们分别标注成对应的分类编码,可以避免两者混淆。

其中,参考答案字符串的存储格式包括latex格式和html格式。比如,参考答案字符串是用latex格式存储的,参考答案中含有\begin{equation}数学公式\end{equation}模式,可以判断参考答案是公式;里面含有\frac{1}{2}就是分数:1/2。

本实施例中,对本地缓存图片文件名保存为type-time-random.jpg,其中type表示图片内容的类型,time表示当前时间,random是一个为了防止重复的32位10进制整数;并对应保存一文档label-type-time-random.txt,内容未被标注的答案字符串,方便查找。

本实施例中,将编程接口进行封装集成到不同的阅卷系统中,以下载接口的方式获取不同阅卷系统的标注图片。这种架构使得可以被集成到不同厂商的在线阅卷系统中去,从而可以收集到大量的标注图片。具体地,通过接口查询某个类型的图片集合列表,其中查询需提供查询账号和查询的图片对应的类型编码信息;获取图片集合列表,从图片集合列表获取相应的图片集id、图片集大小、图片集中图片张数及声明的md5值,所述md5值用于校验图片集是否有被改动;选定图片集id进行下载,并通过md5算法计算出下载的图片集的md5值,将其与声明的md5值进行比较,若相同则说明没有被改变,若不相同则被改变,需重新下载图片集,以此通过md5值的设置进行不可逆加密,防止图片集被改变,保证了安全性。

此外,本发明还提供一种基于阅卷系统的图片内容自动标记的系统,如图2所示,包括:本地缓存图片器,阅卷系统和自动标注系统后台;所述阅卷系统用于将各个题目的答案部分从原始试卷扫描图片中分离出来,并获取与题目对应的参考答案字符串进行标注;所述本地缓存图片器用于把标注的图片按照一定格式保存;所述阅卷系统包括自动标注子系统sdk,自动标注子系统sdk自动将本地缓存图片器图片批量上传至自动标标注系统后台;所述自动标标注系统后台用于调用图片集合,方便进行神经网络训练。

另外需要说明的是,本领域普通技术人员可以理解:实现上述方法实施的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序指令可以存储于一计算机可读取存储介质或存储设备中,该程序指令在执行时,执行上述议价管理方法的步骤;而前述存储介质或存储设备包括但不限于:rom、ram、磁盘或者光盘等各种可以存储程序代码的介质。

因此相应地,本发明实施例还提供了一种计算机可读存储设备,存储有计算机程序,所述计算机程序被处理器执行以实现上述方法

以上内容仅为本发明的较佳实施例,对于本领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1