一种基于OCR的智能查验方法、系统及设备与流程

文档序号:35872094发布日期:2023-10-28 07:11阅读:123来源:国知局
一种基于OCR的智能查验方法、系统及设备与流程

本发明涉及金融信息审核,更具体地,涉及一种基于ocr的智能查验方法、系统及设备。


背景技术:

1、当前通过中登网查重结果主要以文件形式返回,并且无法通过发票号、合同号等关键字搜索直接返回查重是否命中的结论。需要人工下载文件比对。并且中登登记当前并没有对登记信息做强校验,因此返回的查重信息格式和内容参差不齐。比如从中登查重返回的登记证明文件:融资合同号字段为空,融资合同号被写在了转让财产描述里,而融资合同金额可能被误填到了转让财产价值中(全额质押融资时财产价值=融资合同金额)。查重结果除了统一格式的证明文件,还会返回登记时上传的附件。附件格式则完全没有数量、格式规范。人工对融资交易进行查重时,需要依次下载各文件并搜索,工作量十分巨大,很容易遗漏。

2、目前在审批企业应收账款是否出现有重复登记,或者核验登记文件中的信息是否正确时,都需要人工通过肉眼去辨别,有较大出错风险:举例说明,若甲为供应商,乙为购买方,甲与乙进行一笔100万的交易,甲向乙交付了商品,由此甲拥有一笔对乙的应收账款,甲需要资金周转时将该笔应收账款转让或质押给丙平台,丙平台的工作人员查询该笔交易是否被重复登记,即该笔交易应收账款对应的合同、发票等是否在中登网上被登记过,经过查询在中登网上甲公司作为出让人的登记数量为100笔,假设每笔登记包括一份登记证明文件和三份附件,那人工肉眼需要审批400份文件,极其容易造成人工失误,此外目前在审批登记文件过程中,也有不少文件存在错误填写登记信息的情况,导致需要人工查询原始合同号核对文件的正确性。而在核对的过程中也非常容易造成遗漏。

3、基于以上相关技术背景,现有技术中提出了一种基于登记数据的智能核验方法及装置,利用nlp(自然语言处理技术)中的ner(命名实体识别)模型从中自动抽取出财产描述部分重要的信息(即实体词),便于后续利用财产描述部分的重要信息与输入的查重信息进行文本相似度的比较。同时,在存在重复登记情况下,在进行首次查重时,只需要对目标待识别文件中的登记证明文件中的财产描述部分(根据登记类型不同又称为质押、抵押、租赁、转让财产描述)的进行pdf处理,即可发现重复交易的存在,无需对与每份登记证明文件关联的附件全部进行ocr处理,加快了查重速度并且降低了查重处理时对计算机占用的占用率。该技术的缺陷是,无法识别出错误填写登记信息的情况,不支持批量处理,也不支持查重结果返回校正识别模型,模型正确率较低。

4、为此,结合以上需求和现有技术的缺陷,本技术提出了一种基于ocr的智能查验方法、系统及设备。


技术实现思路

1、本发明提供了一种基于ocr的智能查验方法、系统及设备,利用中登网的登记文件,发票文件,在预设的智能查验模型上对关键信息进行标注,同时采用查重结果中的错误样本对模型进行校正训练,从而得到一个准确率高,识别速度快的查验模型与查验方法。

2、本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:

3、本发明第一方面提供了一种基于ocr的智能查验方法,包括以下步骤:

4、s1、获取企业用户完成注册或发起融资申请时的中登网登记文件信息。

5、s2、将对所述登记文件信息进行预处理,得到一类字符串信息,所述预处理过程包括使用ocr和nlp对登记文件进行处理。

6、s3、获取企业用户发起融资审批时提交的企业融资信息,对所述企业融资信息进行处理,得到二类字符串信息,将二类字符串信息和一类字符串信息进行查重比对,判断是否存在同类型的字符串信息,若是,执行步骤s4;否则,输出查重比对结果,执行步骤s6。

7、其中,所述登记文件信息从中登网获取,所述同类型的字符串信息包括有发票号、发票号区间、交易金额或设定的关键字。

8、s4、输出查重比对结果和带有相同字符串信息的登记文件信息,等待人工决策。

9、s5、判断预处理的结果与查重比对结果是否正确,若是,输出查重比对结果,执行步骤s6;否则,将人工决策结果和查重比对结果进行数据回流。

10、s6、结束查验。

11、进一步的,步骤s1中获取企业发起融资申请时的登记文件信息的过程具体包括:通过中间件canal监听预设的客户中心mysql数据库,企业用户发起融资申请时,判断mysql数据库中的信息是否出现更改,若是,更新信息,通过网络接口向中登网发起登录查询,获取企业用户的登记文件,转存至文件系统,执行步骤s2;否则,执行步骤s2;其中,根据企业用户注册时提交的客户数据信息获取企业信息,根据所述企业信息从中登网获取登记信息,所述预设的客户中心mysql数据库存储企业用户提交的客户数据信息和获取登记信息的记录。

12、所述中间件canal监听所述客户中心mysql数据库的过程具体为:中间件canal定时向mysql数据库发送监听信息,判断mysql数据库中是否存在新的客户数据信息,若是,从新客户数据信息中获取企业信息,根据企业信息通过网络接口从中登网获取登记文件,优先处理新客户数据信息,执行步骤s2。

13、进一步的,对所述登记文件信息进行预处理的过程具体为:解析登记文件的主文件,解析得到主文件信息;判断登记文件是否存在贸易背景附件,若是,则使用智能查验模型对贸易背景附件进行识别,得到企业关键信息和贸易财产信息,将主文件信息、企业关键信息和贸易财产信息作为一类字符串信息存储至mongodb数据库;否则,将主文件信息作为一类字符串信息存储至mongodb数据库;其中,所述一类字符串信息包括:文件名称和md5码。

14、其中,所述智能查验模型包括:ocr文字识别模型和nlp语义分析模型,所述ocr文字识别模型用于获取登记文件的企业关键信息和贸易财产信息,所述nlp语义分析模型用于合并相近语义的字符串信息。

15、所述ocr文字识别模型包括有:卷积层、递归层和解析层;所述卷积层用于识别文字内容区,所述递归层从文字内容区中抽取文字,包括有双向神经网络和长短期记忆神经网络,能够根据在先的单词预测下一个单词,所述解析层使用字符串编辑距离算法方程,并采用动态规划方案进行逻辑计算,分析递归层提取文字的语义并输出整体结果。

16、其中,文字识别的过程具体为:将登记文件信息和发票信息输入至文字识别模型的卷积层,卷积层首先将登记文件信息和发票信息转化为特征图,再通过候选区生成网络和感兴趣区域池化层后,经目标区回归输出文字内容区至递归层;递归层经双向神经网络和长短期记忆神经网络从文字内容区抽取文字,输出包含字符特征的特征序列和时间序列的分类结果至解析层;解析层使用字符串编辑距离算法方程和动态规划方案进行逻辑计算,分析特征序列中字符特征的先后关系,对时间序列的分类结果进行解码,输出一类字符信息。

17、所述nlp语义分析模型用于解析一类字符信息中的关键字语义,并自动识别相同语义的关键词,合并输出一类字符串信息。

18、进一步的,对所述企业融资信息进行处理的过程具体为:根据企业用户提交的融资信息得到影像文件,将影像文件上传至文件系统,文件系统返回影像文件的影像id及影像地址,利用智能查验模型对影像文件进行识别,得到二类字符串信息,所述二类字符串信息包括:文件名称和md5码。

19、进一步的,所述查重比对的过程具体为:

20、s31、查询查重比对对象在mysql数据库中的登记信息记录,判断登记信息记录对应的登记文件是否全部解析完毕,若是,执行步骤s32;否则,返回执行步骤s2。

21、s32、根据输入的查重参数对二类字符串信息进行查重,查重方式包括:关键字查重和批量查重。所述同类型的字符串信息包括有发票号、发票号区间、交易金额或设定的关键字。

22、s33、输出查重比对结果。

23、进一步的,所述关键字查重包括对登记文件的主文件查重和贸易背景附件查重;所述关键字查重具体为:从mongodb数据库中查询主文件或贸易背景附件对应的一类字符串信息,根据输入的发票号、发票号区间、交易金额或设定的关键字进行查重;所述批量查重的过程具体为:生成查重信息表格,根据所述查重信息表格归并查重对象及查重要素,根据查重要素遍历查重对象,完成批量查重。

24、进一步的,所述数据回流的过程具体为:

25、s51、获取结果文件,将结果文件存储至文件系统;所述结果文件的内容包括:智能查验模型的识别结果、人工审核结果、查重比对结果、影像id、影像地址和坐标信息;所述人工审核结果包括人工审核的结论与修正后的识别结果。

26、其中所述坐标信息用于确定ocr识别结果的坐标点。

27、s52、通过定时任务定期从文件系统中获取结果文件,将结果文件转换为json格式,根据影像id从文件系统中获取影像文件;将影像文件和json格式的结果文件作为训练智能查验模型的训练集。

28、s53、将智能查验模型更新为训练完毕的智能查验模型。

29、本发明第二方面提供了一种基于ocr的智能查验系统,其特征在于,包括企业登记信息数仓系统,文件系统,交易业务系统,智能查验系统;其中:

30、所述智能查验系统包括有训练平台,所述企业登记信息数仓系统上设有中登网接口、mysql数据库和mongodb数据库;企业用户通过所述交易业务系统完成注册和融资申请,交易业务系统向所述企业登记信息数仓系统发送融资审批申请,所述企业登记信息数仓系统通过中登网接口获取登记文件信息,调用智能查验系统,返回查重比对结果至所述交易业务系统,所述交易业务系统执行人工审核流程,输出查重比对结果和融资审核结果;所述训练平台读取人工审核流程的结果文件,并对智能查验系统进行训练。

31、进一步的,所述企业登记信息数仓系统通过中间件canal监听mysql数据库,当监听到mysql数据库的数据信息发生变化时,执行预处理步骤:

32、a1、企业登记信息数仓系统通过中登网接口向中登网发出登录查询请求,获取登记文件,转存至文件系统,更新mysql数据库的数据信息。

33、a2、企业登记信息数仓系统调用智能查验系统解析获取的登记文件,得到一类字符串信息,将一类字符串信息存储至mongodb数据库。

34、企业用户向交易业务系统提出融资审批请求后,所述交易业务系统和企业登记信息数仓系统执行交易业务步骤:

35、b1、所述交易业务系统调用智能查验系统解析企业用户提交的融资信息,得到影像文件、将影像文件上传至文件系统,返回影像id及影像地址。

36、b2、企业登记信息数仓系统调用智能查验系统解析影像id及影像地址,输出二类字符串信息,存储至mongodb数据库,所述企业登记信息数仓系统执行查重比对过程,输出二类字符串信息与一类字符串信息的查重比对结果,将结果返回至交易业务系统。

37、b3、交易业务系统执行业务复核,对企业登记信息数仓系统返回的查重比对结果进行人工审核,输出人工审核结果。

38、b4、获取结果文件并存储至文件系统,所述结果文件是以日期命名的txt文件,包括:智能查验系统的识别结果、人工审核结果、查重比对结果、影像id、影像地址和坐标信息。

39、b5、训练平台通过定时任务定期从文件系统中获取结果文件,将结果文件转换为json格式,根据影像id从文件系统中获取影像文件;将影像文件和json格式的结果文件作为训练智能查验系统的训练集,对智能查验系统进行训练。

40、本发明第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器存储有在处理器上运行的基于ocr的智能查验程序,所述基于ocr的智能查验程序被所述处理器执行时实现所述的基于ocr的智能查验方法。

41、与现有技术相比,本发明技术方案的有益效果是:

42、本发明提供了一种基于ocr的智能查验方法、系统及设备,通过预设的智能查验模型可以实现系统对从中登网下载的登记文件和附件进行自动解析,通过判断是否具有同类型的字符串信息能够对登记文件和附件进行查重比对,查重比对的结果作为机审初判结论与关键信息一并返回人工复核。复核人只要通过几行简单的文字比对就可以完成审核,大大节省了工作量。本发明收集智能查验模型识别结果中错误或是漏查的样本以及对应的人工复核结果,对智能查验模型进行持续训练,无需线下收集识别错误样本,降低了优化模型所需要的时间成本与人力成本,可以有效提升智能查验模型的识别精度,实现机审辅助人审提效,人审训练机审的良性循环。本发明对智能查验模型识别结果进行了预处理,存储在数据库中,并通过中间件监听客户信息数据,实现数据库的及时更新;当客户发起融资申请时,系统直接从数据库中调取预处理后的数据,减少得到智能查验模型识别结果的等待时间,优化计算机资源的利用率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1