一种基于图片OCR文字识别的学历认证报告识别方法与流程

文档序号:33045187发布日期:2023-01-24 22:20阅读:136来源:国知局
一种基于图片ocr文字识别的学历认证报告识别方法
技术领域
1.本发明涉及识别筛选技术领域,具体的说,是一种基于图片ocr文字识别的学历认证报告识别方法。


背景技术:

2.在学历教育报名系统中,涉及到了前学历填写和前学历认证的工作。目前前学历填写的工作,是老师通过手工输入的方式,逐项填写到报名系统中;另外,关于学历认证的工作,也是老师通过登录相关认证平台进行手工录入验证码。
3.在学历教育报名系统中,关于手工录入前学历信息的工作,已经手工录入认证报告验证码的工作,大大降低了老师的工作效率,并且也带来了很高的人力成本。
4.如果试图通过系统自动识别学历认证报告和学历备案表,则需要读取图片的文字,并且判断图片是哪类报告类别。


技术实现要素:

5.本发明的目的在于提供一种基于图片ocr文字识别的学历认证报告识别方法,以实现自动识别学历认证报告和学历备案表并判断报告类别的目的。
6.为了实现上述目的,本发明采用以下技术手段:一种基于图片ocr文字识别的学历认证报告识别方法,包括对图片进行ocr识别后得到的json字符串,并对所述json字符串进行聚类分析。
7.作为优选的,所述聚类分析采用基于划分的方法对所述json字符串进行识别和分组。
8.进一步的,在进行聚类分析时,由以下步骤组成:数据预处理和质心样本定义;所述数据预处理包括选择数量、类型以及特征标度;经过所述数据处理的特征数据作为所述质心样本定义步骤所定义的第一初始质心。
9.更进一步的,每一个所述第一初始质心作为第一类,并且把每个观测指派到距离其自身最近的所述第一初始质心的位置,与所述第一初始质心共同形成第二类,并重新计算所述第二类的质心作为校准质心。
10.更进一步的,将所述校准质心继续作为第二初始质心,并且再将每个观测指派到距离其自身最近的所述第二初始质心的,与所述第二初始质心共同形成新的第二类,并且重新计算新的第二类的质心,不断重复确定所述第二初始质心、形成新的第二类以及计算新的第二类的质心的步骤,直至新的质心不再发生变化时或者达到最大迭代次数时结束,分类识别完成。
11.更进一步的,所述聚类算法采用k-均值算法。
12.本发明在使用的过程中,具有以下有益效果:数据预处理包括选择数量、类型和特征的标度。例如学历认证报告自考模板的特
征是第一个数据项是“中国高等教育学历认证报告”;而历史模板该报告的第一个数据项是“教育部公告”,并且包括“打印日期”数据项;如果在历史模板中包括“报告日期”,则该模板不是表格排版。我们依靠特征选择和特征抽取,特征选择应该选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征。另外,还要将孤立点特征移除,因为孤立点特征经常会导致有偏差的聚类结果,因此要剔除此类特征。
13.通过特征的预处理,我们将特征数据输入到质心样本对象,该对象数据当做初始质心,每一个质心为一个类;把每个观测指派到离它最近的质心,于质心形成新的类;重新计算每个类的质心。重复前面的观测和指派、计算质心的动作,直到质心不在发生变化时或者达到最大迭代次数时,我们认定该特征已识别。
具体实施方式
14.为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。
15.因此,以下对本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
16.需要说明的是,在不冲突的情况下,本发明中的实施方式及实施方式中的特征可以相互组合。
17.实施例1一种基于图片ocr文字识别的学历认证报告识别方法,其特征在于:包括对图片进行ocr识别后得到的json字符串,并对所述json字符串进行聚类分析。
18.并且,所述聚类分析采用基于划分的方法对所述json字符串进行识别和分组。
19.同时,在进行聚类分析时,由以下步骤组成:数据预处理和质心样本定义;所述数据预处理包括选择数量、类型以及特征标度;经过所述数据处理的特征数据作为所述质心样本定义步骤所定义的第一初始质心。
20.再者,每一个所述第一初始质心作为第一类,并且把每个观测指派到距离其自身最近的所述第一初始质心的位置,与所述第一初始质心共同形成第二类,并重新计算所述第二类的质心作为校准质心。
21.而且,将所述校准质心继续作为第二初始质心,并且再将每个观测指派到距离其自身最近的所述第二初始质心的,与所述第二初始质心共同形成新的第二类,并且重新计算新的第二类的质心,不断重复确定所述第二初始质心、形成新的第二类以及计算新的第二类的质心的步骤,直至新的质心不再发生变化时或者达到最大迭代次数时结束,分类识别完成。
22.更进一步的,所述聚类算法采用k-均值算法。
23.在本实施例中,数据预处理包括选择数量、类型和特征的标度。例如学历认证报告自考模板的特征是第一个数据项是“中国高等教育学历认证报告”;而历史模板该报告的第一个数据项是“教育部公告”,并且包括“打印日期”数据项;如果在历史模板中包括“报告日
期”,则该模板不是表格排版。我们依靠特征选择和特征抽取,特征选择应该选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征。另外,还要将孤立点特征移除,因为孤立点特征经常会导致有偏差的聚类结果,因此要剔除此类特征。
24.通过特征的预处理,我们将特征数据输入到质心样本对象,该对象数据当做初始质心,每一个质心为一个类;把每个观测指派到离它最近的质心,于质心形成新的类;重新计算每个类的质心。重复前面的观测和指派、计算质心的动作,直到质心不在发生变化时或者达到最大迭代次数时,我们认定该特征已识别。
25.实施例2一种基于图片ocr文字识别的学历认证报告识别方法,其特征在于:包括对图片进行ocr识别后得到的json字符串,并对所述json字符串进行聚类分析。
26.并且,所述聚类分析采用基于划分的方法对所述json字符串进行识别和分组。
27.同时,在进行聚类分析时,由以下步骤组成:数据预处理和质心样本定义;所述数据预处理包括选择数量、类型以及特征标度;经过所述数据处理的特征数据作为所述质心样本定义步骤所定义的第一初始质心。
28.再者,每一个所述第一初始质心作为第一类,并且把每个观测指派到距离其自身最近的所述第一初始质心的位置,与所述第一初始质心共同形成第二类,并重新计算所述第二类的质心作为校准质心。
29.而且,将所述校准质心继续作为第二初始质心,并且再将每个观测指派到距离其自身最近的所述第二初始质心的,与所述第二初始质心共同形成新的第二类,并且重新计算新的第二类的质心,不断重复确定所述第二初始质心、形成新的第二类以及计算新的第二类的质心的步骤,直至新的质心不再发生变化时或者达到最大迭代次数时结束,分类识别完成。
30.更进一步的,所述聚类算法采用k-medoids算法。
31.数据预处理包括选择数量、类型和特征的标度。例如学历认证报告自考模板的特征是第一个数据项是“中国高等教育学历认证报告”;而历史模板该报告的第一个数据项是“教育部公告”,并且包括“打印日期”数据项;如果在历史模板中包括“报告日期”,则该模板不是表格排版。我们依靠特征选择和特征抽取,特征选择应该选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征。另外,还要将孤立点特征移除,因为孤立点特征经常会导致有偏差的聚类结果,因此要剔除此类特征。
32.通过特征的预处理,我们将特征数据输入到质心样本对象,该对象数据当做初始质心,每一个质心为一个类;把每个观测指派到离它最近的质心,于质心形成新的类;重新计算每个类的质心。重复前面的观测和指派、计算质心的动作,直到质心不在发生变化时或者达到最大迭代次数时,我们认定该特征已识别。
33.实施例3一种基于图片ocr文字识别的学历认证报告识别方法,其特征在于:包括对图片进行ocr识别后得到的json字符串,并对所述json字符串进行聚类分析。
34.并且,所述聚类分析采用基于划分的方法对所述json字符串进行识别和分组。
35.同时,在进行聚类分析时,由以下步骤组成:数据预处理和质心样本定义;
所述数据预处理包括选择数量、类型以及特征标度;经过所述数据处理的特征数据作为所述质心样本定义步骤所定义的第一初始质心。
36.再者,每一个所述第一初始质心作为第一类,并且把每个观测指派到距离其自身最近的所述第一初始质心的位置,与所述第一初始质心共同形成第二类,并重新计算所述第二类的质心作为校准质心。
37.而且,将所述校准质心继续作为第二初始质心,并且再将每个观测指派到距离其自身最近的所述第二初始质心的,与所述第二初始质心共同形成新的第二类,并且重新计算新的第二类的质心,不断重复确定所述第二初始质心、形成新的第二类以及计算新的第二类的质心的步骤,直至新的质心不再发生变化时或者达到最大迭代次数时结束,分类识别完成。
38.更进一步的,所述聚类算法采用k-prototype算法。
39.数据预处理包括选择数量、类型和特征的标度。例如学历认证报告自考模板的特征是第一个数据项是“中国高等教育学历认证报告”;而历史模板该报告的第一个数据项是“教育部公告”,并且包括“打印日期”数据项;如果在历史模板中包括“报告日期”,则该模板不是表格排版。我们依靠特征选择和特征抽取,特征选择应该选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征。另外,还要将孤立点特征移除,因为孤立点特征经常会导致有偏差的聚类结果,因此要剔除此类特征。
40.通过特征的预处理,我们将特征数据输入到质心样本对象,该对象数据当做初始质心,每一个质心为一个类;把每个观测指派到离它最近的质心,于质心形成新的类;重新计算每个类的质心。重复前面的观测和指派、计算质心的动作,直到质心不在发生变化时或者达到最大迭代次数时,我们认定该特征已识别尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1