本技术涉及数据处理领域及金融科技领域,应用于保险机构利用ocr技术进行理赔材料录入处理的场景中,尤其涉及一种ocr结果评估方法、系统、计算机设备及存储介质。
背景技术:
1、随着金融科技的发展,保险机构采用ocr系统辅助理赔材料录入已经演变为一种较为成熟的应用场景。ocr(optical character recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
2、尽管ocr技术可以帮助保险机构更加高效、快速地进行理赔材料录入处理,但由于理赔材料通常包含大量的票据,而票据类型的材料往往存在图像质量参差不齐、票据格式种类繁多的问题,因此,可能出现难以准确识别并提取票据中的文本内容,导致ocr结果存在错字、漏字、排版或格式有误等现象,需要人工辅助录入得到最终的理赔录入结果。
3、在这种情况下,为了实现理赔材料录入的自动化,并确保理赔材料录入的准确性,对ocr结果进行评估是有必要的。传统的评估ocr结果的方式,是将ocr系统输出的置信度作为评估标准,该置信度通常由ocr系统根据系统内各环节的模型输出结果进行计算,并按照特定规则进行一系列更新得到,反映了ocr结果的可信程度。然而,这种方式往往需要由人工制定因材料类型和版式而异的置信度规则,并且无法充分利用ocr系统内各环节的模型输出结果或服务调用结果,使得置信度不高。
技术实现思路
1、本技术实施例的目的在于提出一种ocr结果评估方法、系统、计算机设备及存储介质,以解决通过ocr技术录入保险理赔案件的理赔材料时,不能合理地评估ocr结果的置信度的技术问题。
2、为了解决上述技术问题,本技术实施例提供一种ocr结果评估方法,采用了如下所述的技术方案:
3、一种ocr结果评估方法,包括下述步骤:
4、在数据仓库中查询目标时间段内的目标理赔案件,并获取所述目标理赔案件对应的案件数据,所述案件数据包括ocr提取结果和理赔录入结果;
5、根据所述案件数据进行特征提取,得到所述目标理赔案件对应的特征集;
6、根据所述ocr提取结果和所述理赔录入结果构建目标变量,并根据所述目标变量和所述特征集进行数据拼接,得到第一数据集和第二数据集;
7、根据所述第一数据集构建目标分类模型,根据所述第二数据集构建目标回归模型;
8、根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的ocr结果进行预测,得到预测结果,并根据所述预测结果评估所述ocr结果的置信度和修正难度。
9、进一步的,所述目标向量包括分类模型目标标签和回归模型目标值,所述根据所述ocr提取结果和所述理赔录入结果构建目标变量,并根据所述目标变量和所述特征集进行数据拼接,得到第一数据集和第二数据集的步骤,具体包括:
10、将所述ocr提取结果与所述理赔录入结果进行对比,得到对比结果,根据所述对比结果确定所述分类模型目标标签;
11、根据所述ocr提取结果和所述理赔录入结果之间的编辑距离,计算所述回归模型目标值;
12、将所述分类模型目标标签与所述特征集进行数据拼接,得到所述第一数据集;
13、将所述回归模型目标值与所述特征集进行数据拼接,得到所述第二数据集。
14、进一步的,所述根据所述第一数据集构建目标分类模型,根据所述第二数据集构建目标回归模型的步骤,具体包括:
15、将所述第一数据集划分为第一训练集和第一测试集,将所述第二数据集划分为第二训练集和第二测试集;
16、建立基于机器学习算法的分类模型,根据所述第一训练集对所述分类模型进行训练,并根据所述第一测试集对所述分类模型进行优化,将完成训练和优化的分类模型作为所述目标分类模型;
17、建立基于机器学习算法的回归模型,根据所述第二训练集对所述回归模型进行训练,并根据所述第二测试集对所述回归模型进行优化,将完成训练和优化的回归模型作为所述目标回归模型。
18、进一步的,所述根据所述案件数据进行特征提取,得到所述目标理赔案件对应的特征集的步骤,具体包括:
19、根据所述案件数据进行数据拼接,得到图片维度的原始数据集;
20、根据所述原始数据集进行数据清洗和筛选,得到对应的数据表字段;
21、根据所述数据表字段生成各个基础特征,并根据各个所述基础特征构建所述特征集。
22、进一步的,在所述根据所述数据表字段生成各个基础特征,并根据各个所述基础特征构建所述特征集的步骤之后,还包括:
23、根据各个所述基础特征进行特征组合,得到衍生特征,并根据所述衍生特征更新所述特征集。
24、进一步的,所述预测结果包括第一预测结果和第二预测结果,所述根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的ocr结果进行预测,得到预测结果,并根据所述预测结果评估所述ocr结果的置信度和修正难度的步骤,具体包括:
25、将所述ocr结果输入所述目标分类模型,根据所述目标分类模型对所述ocr结果进行预测,得到所述第一预测结果;
26、将所述ocr结果输入所述目标回归模型,根据所述目标回归模型对所述ocr结果进行预测,得到所述第二预测结果;
27、根据所述第一预测结果,确定所述置信度对应的置信度分数,并根据所述第二预测结果,确定所述修正难度对应的修正难度分数。
28、进一步的,在所述根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的ocr结果进行预测,得到预测结果,并根据所述预测结果评估所述ocr结果的置信度和修正难度的步骤之后,还包括:
29、将所述置信度分数与预设的第一阈值进行对比,并将所述修正难度分数与预设的第二阈值进行对比;
30、若所述置信度分数大于所述第一阈值并且所述修正难度分数小于所述第二阈值,则将所述ocr结果作为所述理赔材料录入流程对应的录入结果;
31、若所述置信度分数小于等于所述第一阈值和/或所述修正难度分数大于等于所述第二阈值,则向所述理赔材料录入流程对应的用户端发送人工审核通知。
32、为了解决上述技术问题,本技术实施例还提供一种ocr结果评估系统,采用了如下所述的技术方案:
33、一种ocr结果评估系统,包括:
34、获取模块,用于在数据仓库中查询目标时间段内的目标理赔案件,并获取所述目标理赔案件对应的案件数据,所述案件数据包括ocr提取结果和理赔录入结果;
35、提取模块,用于根据所述案件数据进行特征提取,得到所述目标理赔案件对应的特征集;
36、第一构建模块,用于根据所述ocr提取结果和所述理赔录入结果构建目标变量,并根据所述目标变量和所述特征集进行数据拼接,得到第一数据集和第二数据集;
37、第二构建模块,用于根据所述第一数据集构建目标分类模型,根据所述第二数据集构建目标回归模型;
38、评估模块,用于根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的ocr结果进行预测,得到预测结果,并根据所述预测结果评估所述ocr结果的置信度和修正难度。
39、为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
40、一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的ocr结果评估方法的步骤。
41、为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
42、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的ocr结果评估方法的步骤。
43、与现有技术相比,本技术实施例主要有以下有益效果:
44、本技术公开的ocr结果评估方法,通过在数据仓库中查询目标时间段内的目标理赔案件,并获取所述目标理赔案件对应的案件数据,所述案件数据包括ocr提取结果和理赔录入结果;根据所述案件数据进行特征提取,得到所述目标理赔案件对应的特征集;根据所述ocr提取结果和所述理赔录入结果构建目标变量,并根据所述目标变量和所述特征集进行数据拼接,得到第一数据集和第二数据集;根据所述第一数据集构建目标分类模型,根据所述第二数据集构建目标回归模型;根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的ocr结果进行预测,得到预测结果,并根据所述预测结果评估所述ocr结果的置信度和修正难度。本技术通过结合分类模型与回归模型,在保险理赔案件的理赔材料录入流程中实现对于ocr结果的评估,不但确保了ocr系统内各环节的模型输出结果或服务调用结果得到充分利用,还降低了对于人工制定的置信度规则的依赖,最终合理地反映了ocr结果的置信度和修正难度。