一种快速标注OCR错误的方法与流程

文档序号:34368824发布日期:2023-06-05 00:04阅读:27来源:国知局
一种快速标注OCR错误的方法与流程

本发明涉及教育,尤其涉及一种快速标注ocr错误的方法。


背景技术:

1、ocr识别错误数据对后续的ocr修复、训练都有很大帮助。但是要很快找到ocr识别错误的数据却是比较麻烦的;

2、传统的标注方法是需要人工一个个依次标注,比较缓慢,整体效率有待提高。

3、为此,我们提出一种快速标注ocr错误的方法。


技术实现思路

1、本发明主要是解决上述现有技术所存在的技术问题,提供一种快速标注ocr错误的方法。

2、为了实现上述目的,本发明采用了如下技术方案,一种快速标注ocr错误的方法,包括以下步骤:

3、1)、读取小题数据:读取一个小题的ocr识别数据;

4、2)、小题数据排序:采用特定的方式对识别转换的小题数据进行特定的综合排序;

5、3)、显示缩略图:识别出的数据对应特定的数据图像,将排序后的数据对应的图像进行压缩处理,处理后的图像进行缩略图显示;

6、4)、快速框选错误:查看缩略图找出ocr异常的数据并进行选中;

7、5)、导出数据。

8、作为优选,所述步骤一中在进行识别时,单次ocr识别仅限于同一小题内,识别后的字符转换为计算机文字并进行储存。

9、作为优选,所述步骤二中排序时仅限于同一小题内数据进行排序,排序方式有四种。

10、作为优选,所述步骤2中的排序方式包括以下:a.按与答案接近的程度进行排序;

11、b.按照机器批阅结果进行排序;

12、c.按文字词汇正确的程度进行排序;

13、d.按文字的置信程度进行排序。

14、作为优选,所述步骤三中同一小题内的所有数据图片进行经过压缩处理后的得到对应的小图,对应的小图即为缩略图,缩略图显示可供相关人员一次察看多个数据照片。

15、作为优选,所述步骤四中在对数据进行数据框选时采用人工框选的方式。

16、有益效果

17、本发明提供了一种快速标注ocr错误的方法。具备以下有益效果:

18、(1)、该一种快速标注ocr错误的方法,读取一个小题的ocr识别数据,识别后的字符转换为计算机文字并进行储存,然后采用特定的方式对识别转换的小题数据进行特定的综合排序,排序时仅限于同一小题内数据进行排序,识别出的数据对应特定的数据图像,将排序后的数据对应的图像进行压缩处理,处理后的图像进行缩略图显示,同一小题内的所有数据图片进行经过压缩处理后的得到对应的小图,人工观察快速查看缩略图找出ocr异常的数据进行选中,在同一个小题内,考生的书写内容不会有太多可能的写法,通过让同一个小题内的数据进行排序,然后使用缩略图以观察错误数据,这样即可很快的找出有错误的ocr数据,并且进行标注。

19、(2)、该一种快速标注ocr错误的方法,通过在对同一小题的识别数据进行排序时可采用四种不同的排序方式,在识别时可选择不同的排序方式进行排序,排序方式可选择,根据不同排序方式对应的排序结果可进行对比,整体排序准确度提高。

20、(3)、该一种快速标注ocr错误的方法,通过在对让同一个小题内的数据进行排序,然后使用缩略图以观察错误数据,缩略图可从人员一次察看多张数据图片,整体效率更快速便捷。



技术特征:

1.一种快速标注ocr错误的方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种快速标注ocr错误的方法,其特征在于:所述步骤一中在进行识别时,单次ocr识别仅限于同一小题内,识别后的字符转换为计算机文字并进行储存。

3.根据权利要求1所述的一种快速标注ocr错误的方法,其特征在于:所述步骤二中排序时仅限于同一小题内数据进行排序,排序方式有四种。

4.根据权利要求3所述的一种快速标注ocr错误的方法,其特征在于:所述步骤2中的排序方式包括以下:a.按与答案接近的程度进行排序;

5.根据权利要求1所述的一种快速标注ocr错误的方法,其特征在于:所述步骤三中同一小题内的所有数据图片进行经过压缩处理后的得到对应的小图,对应的小图即为缩略图,缩略图显示可供相关人员一次察看多个数据照片。

6.根据权利要求1所述的一种快速标注ocr错误的方法,其特征在于:所述步骤四中在对数据进行数据框选时采用人工框选的方式。


技术总结
本发明涉及教育技术领域,且公开了一种快速标注OCR错误的方法,包括以下步骤:1)、读取小题数据:读取一个小题的OCR识别数据;2)、小题数据排序:采用特定的方式对识别转换的小题数据进行特定的综合排序;3)、显示缩略图:识别出的数据对应特定的数据图像,将排序后的数据对应的图像进行压缩处理,处理后的图像进行缩略图显示;4)、快速框选错误:查看缩略图找出ocr异常的数据并进行选中;5)、导出数据。本发明通过让同一个小题内的数据进行排序,然后使用缩略图以观察错误数据,这样即可很快的找出有错误的ocr数据,并且进行标注,在对同一小题的识别数据进行排序时可采用四种不同的排序方式,排序方式可选择,整体排序准确度提高。

技术研发人员:王冠
受保护的技术使用者:可之(宁波)人工智能科技有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1