征信报告识别方法、装置、计算机设备及存储介质与流程

文档序号:14266378阅读:193来源:国知局
征信报告识别方法、装置、计算机设备及存储介质与流程

本发明涉及数据处理领域,特别是涉及一种征信报告识别方法、装置、计算机设备及存储介质。



背景技术:

征信报告是金融行业信用评估的主要信息来源和依据。在传统技术中,对征信报告中信息的利用主要是通过人工查看和审核,由于每份征信报告含有的信息不同,在人工查看和审核时,通常需要逐份查看并对征信报告进行分类,再将审核结果一一入库。

传统技术的这种对征信报告的处理方式比较复杂,需要耗费大量的人力、物力、财力。并且,通过人工查看审核的结果往往不够精确,还容易泄露征信报告中的信息。



技术实现要素:

基于此,有必要针对上述审核结果不够精确以及容易泄露征信报告中信息的问题,提供一种征信报告识别方法、装置、计算机设备及存储介质。

一种征信报告识别方法,所述方法包括:

获取征信报告,所述征信报告为含有信用信息的影印资料,所述征信报告携带有唯一标识;

采用ocr技术识别所述征信报告以将所述影印资料转换为文本信息,将所述文本信息作为识别结果输出;

检测所述识别结果的准确率;

当所述识别结果的准确率符合预设条件时,输出识别结果。

在一个实施例中,所述获取征信报告,包括:

获取征信报告的唯一标识;

当数据库中不存在获取的所述征信报告的唯一标识时,则获取的征信报告为未下载过的征信报告;

检测所述未下载过的征信报告的唯一标识在日志中的记录,当存在日志记录时,征信报告获取成功。

在一个实施例中,所述采用ocr技术识别所述征信报告以将所述影印资料转换为文本信息,包括:

获取所述征信报告的类别,根据所述类别获取对应的预设ocr识别模板,根据所述预设ocr识别模板识别所述征信报告以将所述影音资料转换为文本信息。

在一个实施例中,在获取征信报告之前还包括:

获取征信报告样本,对所述征信报告样本进行分类;

根据所述分类设置对应的ocr识别模板,并在所述ocr识别模板中设置模板定位字符、字符依赖关系以及识别结果输出结构。

在一个实施例中,所述检测所述识别结果的准确率,包括:

计算所述识别结果中的字符的置信度;

根据所述字符的置信度得出所述识别结果的准确率。

在一个实施例中,所述当所述识别结果的准确率符合预设条件时,输出识别结果,包括:

当所述识别结果的准确率达到预设字符精度时,将所述识别结果按照所述识别结果输出结构进行输出。

在一个实施例中,在所述输出识别结果之后,还包括:

当输出的识别结果达到设定数量时,对所述识别结果进行批量入库。

一种征信报告识别装置,所述装置包括:

报告获取模块,用于获取征信报告,所述征信报告为含有信用信息的影印资料,所述征信报告携带有唯一标识;

信息转换模块,用于采用ocr技术识别所述征信报告以将所述影印资料转换为文本信息,将所述文本信息作为识别结果输出;

结果检测模块,用于检测所述识别结果的准确率;

结果输出模块,用于当所述识别结果的准确率符合预设条件时,输出识别结果。

一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。

上述征信报告识别方法、装置、计算机设备及存储介质,获取征信报告,征信报告为含有信用信息的影印资料,征信报告携带有唯一标识,采用ocr技术识别征信报告以将影印资料转换为文本信息,将文本信息作为识别结果输出,检测识别结果的准确率,当识别结果的准确率符合预设条件时,输出识别结果。由于使用了ocr技术,在对征信报告进行查看和审核的时候,只需要终端自动进行操作,不需要耗费大量的人力和物力,而且,通过终端自动进行操作结果比较精确,不易泄露征信报告中的信息。

附图说明

图1为一个实施例中征信报告识别方法的应用环境图;

图2为一个实施例中图1中终端的内部结构图;

图3为一个实施例中征信报告识别方法的流程图;

图4为一个实施例中获取征信报告的方法流程图;

图5为一个实施例中设置模板的方法流程图;

图6为一个实施例中检测识别结果准确率的方法流程图;

图7为一个实施例中征信报告识别装置的结构框图;

图8为另一个实施例中征信报告识别装置的结构框图;

图9为再一个实施例中征信报告识别装置的结构框图。

具体实施方式

为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。

图1为一个实施例中征信报告识别方法的应用环境图。如图1所示,该应用环境包括终端110和服务器120,其中,终端110和服务器120之间通过网络进行通信。

终端110可为笔记本电脑、台式计算机、个人数字电脑、便携式膝上型电脑等,但并不局限于此。终端110通过服务器120获取征信报告的影印文件,并对获取到的影印文件进行检测,以确定成功获取征信报告的影印文件。终端110采用ocr技术识别征信报告,得到识别结果并对识别结果的准确率进行检测后,终端110会按照固定的格式输出识别结果,再将输出的识别结果批量入库,终端110会将入库的识别结果上传到服务器120中进行存储。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端110,图1中的终端110的内部结构如图2所示,该终端110包括通过系统总线连接的处理器、存储介质、内存、显示器和网络接口。其中,终端110的存储介质存储有操作系统、数据库,还包括用于实现征信报告识别方法和装置的计算机程序。该处理器用于提供计算和控制能力,支撑整个终端110的运行。终端110中的显示器用于显示信息,例如,当征信报告影印资料获取失败时,会接收到邮件通知,显示器用于显示收到的邮件,内存为存储介质中实现征信报告识别方法和装置的计算机程序的运行提供环境,网络接口用于与服务器120进行网络通信,例如,网络接口可将按照格式输出的识别结果批量入库并上传到服务器120进行存储。图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种征信报告识别方法,以应用于上述应用环境中的终端来举例说明,如图3所示,包括如下步骤:

步骤s302,获取征信报告,征信报告为含有信用信息的影印资料,征信报告携带有唯一标识。

其中,征信报告是金融行业信用评估的主要来源和依据,分为个人信用报告和企业信用报告,用于查询个人或企业的社会信用。终端通过服务器从数据库获取到征信报告,这里获取到的征信报告是纯图片格式,并且每份征信报告都携带有唯一标识。

步骤s304,采用ocr技术识别征信报告以将影印资料转换为文本信息,将文本信息作为识别结果输出。

其中,ocr技术是光学字符识别的缩写(opticalcharacterrecognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

采用ocr技术对征信报告进行识别,利用ocr中的文字识别可以将征信报告的影印资料转化为文本信息,这个文本信息就是使用ocr技术对征信报告的识别结果。终端可以将这个文本信息,也就是识别结果输出。

步骤s306,检测识别结果的准确率。

准确率反映了对征信报告进行识别的准确程度,输出识别结果后,终端可以根据识别结果中涉及的字符检测出识别结果的准确率。

步骤s308,当识别结果的准确率符合预设条件时,输出识别结果。

其中,预设条件是预先设置好的某一个数值的范围,这个范围是根据实际对识别精度和识别覆盖率来确定的一个数值范围。当识别结果落入这个数值范围时,这个识别结果就是符合条件的,说明对征信报告进行识别是足够准确的,终端就可以将这个符合条件的识别结果输出。

通过获取征信报告,征信报告为含有信用信息的影印资料,征信报告携带有唯一标识,采用ocr技术识别征信报告以将影印资料转换为文本信息,将文本信息作为识别结果输出,检测识别结果的准确率,当识别结果的准确率符合预设条件时,输出识别结果。由于使用了ocr技术,在对征信报告进行查看和审核的时候,只需要终端自动进行操作,不需要耗费大量的人力和物力,而且,通过终端自动进行操作结果比较精确,不易泄露征信报告中的信息。

在一个实施例中,提供的一种征信报告识别方法还包括获取征信报告的过程,如图4所示,包括如下步骤:

步骤s402,获取征信报告的唯一标识。

每份征信报告都含有唯一的标识,用于与其他征信报告区别,终端在获取征信报告时首先获取到的是征信报告的唯一标识。

步骤s404,当数据库中不存在获取的征信报告的唯一标识时,则获取的征信报告为未下载过的征信报告。

数据库中存储有很多已经下载过的征信报告的唯一标识。获取征信报告的唯一标识后,在数据库的标识中进行查找,若存在,则表明获取到的这份征信报告是已经下载过的征信报告。反之,当获取到的征信报告的唯一标识在数据库的标识中不存在时,则表明获取到的这份征信报告是没有下载过的征信报告。

步骤s406,检测未下载过的征信报告的唯一标识在日志中的记录,当存在日志记录时,征信报告获取成功。

获取到的征信报告是没有下载过的征信报告时,日志中会记录有这个征信报告的唯一标识。终端可以对这个日志中的记录进行检测,若存在日志记录,表明征信报告已经成功获取。当征信报告获取不成功时,终端可以弹出一个告警信息,还可以通过发送邮件的方式告知征信报告获取不成功。

通过获取征信报告的唯一标识,判断获取到的征信报告是否为未下载过的征信报告,再检测征信报告是否获取成功。这一系列的过程都不需要人工进行操作,提高了获取征信报告的效率,由于是终端在执行这些操作,保证了信息不会泄露。

在一个实施例中,提供的一种征信报告识别方法还包括将影印资料转换为文本信息的过程,具体包括:获取征信报告的类别,根据类别获取对应的预设ocr识别模板,根据预设ocr识别模板识别征信报告以将影印资料转换为文本信息。

其中,征信报告的类别包括个人基本信息类、信用交易信息类以及其他信息类。进一步的,每种征信报告类别中涉及的信息都不一样,预设的ocr识别模板可以包括个人基本信息类模板、信用交易信息类模板以及其他信息类模板。通过预设的ocr识别模板,再利用ocr识别技术,就可以将征信报告以影印资料转换为文本信息。

获取征信报告的类别,根据类别获取对应的预设ocr识别模板,根据预设ocr识别模板识别征信报告以将影印资料转换为文本信息。这种利用ocr识别技术将影印资料转换为文本信息的方式,不仅提高了征信报告的识别效率,而且不需要耗费大量的人力和物力。

在一个实施例中,如图5所示,提供的一种征信报告识别方法还包括设置模板的过程,具体步骤如下:

步骤s502,获取征信报告样本,对征信报告样本进行分类。

终端可以从服务器获取到征信报告的样本,按照征信报告的类别对征信报告样本进行分类。例如,可以将征信报告分为个人基本信息类征信报告、信用交易信息类征信报告以及其他信息类征信报告。

步骤s504,根据分类设置对应的ocr识别模板,并在ocr识别模板中设置模板定位字符、字符依赖关系以及识别结果输出结构。

不同的征信报告类别对应的ocr识别模板不同,ocr识别模板中可以设置模板定位字符、字符依赖关系以及识别结果输出结构。其中,模板定位字符用于在ocr识别模板中确定字符的位置,便于输出识别结果的时候使字符按照特定的位置输出。字符依赖关系是指字符之间的前后关系,便于输出识别结果的时候使字符按照特定的前后顺序输出。模板定位字符和字符依赖关系用于根据字符的位置和前后关系设置不同的ocr识别模板,便于识别结果的输出。识别结果输出结构定义了识别结果输出的数据结构形式。例如,按照ocr识别模板的结构输出识别结果。

通过获取征信报告样本,对征信报告样本进行分类,根据分类设置对应的ocr识别模板,并在ocr识别模板中设置模板定位字符、字符依赖关系以及识别结果输出结构。由于每一种征信报告的类别都对应有ocr识别模板,这些模板只需要按照类别设置一次就可以了,提高了征信报告识别的效率。

在一个实施例中,提供的一种征信报告识别方法还包括检测识别结果准确率的过程,如图6所示,包括如下步骤:

步骤s602,计算识别结果中的字符的置信度。

其中,置信度也称为可靠度,是估计值与总体参数在一定允许的误差范围以内相应的概率。终端可以通过识别结果中的字符计算出相应的置信度。

步骤s604,根据字符的置信度得出识别结果的准确率。

字符的置信度是一个概率,终端可以根据这个概率得出识别结果的准确率。

通过计算识别结果中的字符的置信度,根据字符的置信度得出识别结果的准确率。终端根据字符的置信度来得到识别结果的准确率,由于每个字符的位置是相对固定的,根据置信度可以使识别结果更加精确。

在一个实施例中,提供的一种征信报告识别方法还包括当识别结果的准确率符合预设条件时,输出识别结果,具体包括:当识别结果的准确率达到预设字符精度时,将识别结果按照识别结果输出结构进行输出。

其中,预设字符精度有一定的范围值,这个值是根据实际对识别精度和识别覆盖率来确定的一个数值。当识别结果的准确率达到预设的字符精度范围时,将根据模板定位字符、字符依赖关系得到的识别结果,按照识别结果输出结构进行输出。

当识别结果的准确率达到预设字符精度时,将识别结果按照识别结果输出结构进行输出。通过对识别结果的准确率进行判断,当达到精度时,将识别结果输出,提高了输出结果的准确率。

在一个实施例中,提供的一种征信报告识别方法还包括:当输出的识别结果达到设定数量时,对识别结果进行批量入库。

输出的识别结果有多个时,终端可以按照预定数量对识别结果进行批量入库。例如,每当识别结果的数量达到20个时,就对识别结果进行批量入库。终端还可以按照天数对识别结果进行批量入库。例如,每隔一天就对识别结果进行一次批量入库。

当输出的识别结果达到设定数量时,对识别结果进行批量入库。当识别结果累计到一定量时再进行入库,这样不仅可以减少网络通信负担,还可以提高效率。

在一个实施例中,提供一种征信报告识别方法,实现该方法的具体步骤如下所述:

首先,终端需要获取征信报告样本,并对征信报告样本进行分类。终端可以从服务器获取到征信报告的样本,按照征信报告的类别对征信报告样本进行分类。再根据分类设置对应的ocr识别模板,并在ocr识别模板中设置模板定位字符、字符依赖关系以及识别结果输出结构。不同的征信报告类别对应的ocr识别模板不同,ocr识别模板中的可以设置模板定位字符、字符依赖关系以及识别结果输出结果。其中,模板定位字符和字符依赖关系用于根据字符的位置和前后关系设置不同的ocr识别模板,便于识别结果的输出。这些模板仅需要制作一次。

接着,终端可以获取征信报告的唯一标识,当数据库中不存在获取的所述征信报告的唯一标识时,则获取的征信报告为未下载过的征信报告,检测未下载过的征信报告的唯一标识在日志中的记录,当存在日志记录时,征信报告获取成功。

然后,成功获取到征信报告后,获取征信报告的类别,根据类别获取对应的预设ocr识别模板,根据预设ocr识别模板识别征信报告以将影印资料转换为文本信息。进一步的,每种征信报告类别中涉及的信息都不一样,预设的ocr识别模板可以包括个人基本信息类模板、信用交易信息类模板以及其他信息类模板。通过预设的ocr识别模板,再利用ocr识别技术,就可以将征信报告以影印资料转换为文本信息。

进一步的,检测识别结果的准确率。具体包括:计算识别结果中的字符的置信度,根据字符的置信度得出识别结果的准确率。终端可以通过识别结果中的字符计算出相应的置信度,再根据这个概率得出识别结果的准确率。

当识别结果的准确率符合预设条件时,输出识别结果。预设条件是预先设置好的某一个数值的范围,这个范围是根据实际对识别精度和识别覆盖率来确定的一个数值范围。当识别结果落入这个数值范围时,这个识别结果就是符合条件的,终端就可以将这个符合条件的识别结果输出。具体包括:将识别结果的准确率达到预设字符精度时,将识别结果按照识别结果输出结构进行输出。其中,预设字符精度有一定的范围值,这个值是根据实际对识别精度和识别覆盖率来确定的一个数值。当识别结果的准确率达到预设的字符精度范围时,将根据模板定位字符、字符依赖关系得到的识别结果,按照识别结果输出结构进行输出。当输出的识别结果达到设定要求时,对识别结果进行批量入库。输出的识别结果有多个时,终端可以按照预定数量对识别结果进行批量入库。例如,每当识别结果的数量达到20个时,就对识别结果进行批量入库。终端还可以按照天数对识别结果进行批量入库。例如,每隔一天就对识别结果进行一次批量入库。

如图7所示,在一个实施例中,提供一种征信报告识别装置,包括:

报告获取模块710,用于获取征信报告,征信报告为含有信用信息的影印资料,征信报告携带有唯一标识。

信息转换模块720,用于采用ocr技术识别征信报告以将影印资料转换为文本信息,将文本信息作为识别结果输出。

结果检测模块730,用于检测识别结果的准确率。

结果输出模块740,用于当识别结果的准确率符合预设条件时,输出识别结果。

在一个实施例中,报告获取模块710用于获取征信报告的唯一标识,当数据库中不存在获取的所述征信报告的唯一标识时,则获取的征信报告为未下载过的征信报告,检测未下载过的征信报告的唯一标识在日志中的记录,当存在日志记录时,征信报告获取成功。

在一个实施例中,信息转换模块720用于获取征信报告的类别,根据类别获取对应的预设ocr识别模板,根据预设ocr识别模板识别征信报告以将影印资料转换为文本信息。

如图8所示,在一个实施例中,提供的一种征信报告识别装置还包括:

样本获取模块750,用于获取征信报告样本,对征信报告样本进行分类。

模板设置模块760,用于根据分类设置对应的ocr识别模板,并在ocr识别模板中设置模板定位字符、字符依赖关系以及识别结果输出结构。

在一个实施例中,结果检测模块730用于计算识别结果中的字符的置信度;根据字符的置信度得出识别结果的准确率。

在一个实施例中,结果输出模块740用于当识别结果的准确率达到预设字符精度时,将识别结果按照识别结果输出结构进行输出。

如图9所示,在一个实施例中,提供的一种征信报告识别装置还包括:

结果入库模块770,用于当输出的识别结果达到设定要求时,对识别结果进行批量入库。

在一个实施例中,还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述各个实施例中的接口测试方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的非易失性存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1