基于文字识别的材料审核方法及设备与流程

文档序号:18601961发布日期:2019-09-03 22:45阅读:284来源:国知局
基于文字识别的材料审核方法及设备与流程

本发明实施例涉及模式识别技术领域,尤其涉及一种基于文字识别的材料审核方法及设备。



背景技术:

在车辆上牌、排放标准登记等多种业务应用场合中,用户比照纸质资料(如车辆登记证等),将关键信息录入到系统中,并提交业务申请。传统的业务流程为:工作人员对照纸质资料,对用户提交的信息进行审核;工作人员通过高拍仪将纸质文档扫描上传系统,进行信息存档。

由于信息准确性要求高,需配备信息审核岗位进行审核。这个工作流程导致以下问题:信息由于审核的时间较长,造成客户业务办理时间长,满意度低;信息审核岗位的工作强度大,压力大,岗位稳定性差。因此,找到一种通过文字识别对扫描材料进行自动录入与审核,对扫描的图片进行文字识别,从而简化信息审核过程,提高工作效率的方法,就成为业界亟待解决的技术问题。



技术实现要素:

针对现有技术存在的上述问题,本发明实施例提供了一种基于文字识别的材料审核方法及设备。

第一方面,本发明的实施例提供了一种基于文字识别的材料审核方法,包括:调用文字识别引擎,对已分类图片进行文字识别,得到文字识别后的已分类图片,对所述文字识别后的已分类图片中的文字,进行文字聚类,得到最终识别用图片;对所述最终识别用图片进行文字比对,将比对结果发送至审核端,若所述比对结果一致,则材料审核通过;其中,所述已分类图片为所述材料经过扫描后得到的图片。

进一步地,在上述方法实施例内容的基础上,本发明实施例中提供的基于文字识别的材料审核方法,所述对所述文字识别后的已分类图片中的文字,进行文字聚类,得到最终识别用图片,包括:从所述文字识别后的已分类图片中,提取若干关联文字,将所述若干关联文字组合成字符串,根据所述字符串,对所述文字识别后的已分类图片进行匹配,得到最终识别用图片。

进一步地,在上述方法实施例内容的基础上,本发明实施例中提供的基于文字识别的材料审核方法,所述对所述最终识别用图片进行文字比对,包括:将输入文字与所述最终识别用图片中的文字进行比对,若所述输入文字与所述最终识别用图片中的文字,相同率大于判断阈值,则判定为比对结果一致。

进一步地,在上述方法实施例内容的基础上,本发明实施例中提供的基于文字识别的材料审核方法,所述将输入文字与所述最终识别用图片中的文字进行比对,包括:定义若干易混淆字符集,将所述输入文字中的一字符,与所述最终识别用图片中的文字中的另一字符进行比对,若所述一字符与所述另一字符属于同一易混淆字符集,则判定所述一字符与所述另一字符相同。

进一步地,在上述方法实施例内容的基础上,本发明实施例中提供的基于文字识别的材料审核方法,还包括:若所述比对结果不一致,则在审核端上对不一致的文字进行标记,根据所述标记进行后续审核。

第二方面,本发明的实施例提供了一种基于文字识别的材料审核装置,包括:

图片分类模块,用于调用文字识别引擎,对已分类图片进行文字识别,得到文字识别后的已分类图片,对所述文字识别后的已分类图片中的文字,进行文字聚类,得到最终识别用图片;

文字比对模块,用于对所述最终识别用图片进行文字比对,将比对结果发送至审核端,若所述比对结果一致,则材料审核通过;

其中,所述已分类图片为所述材料经过扫描后得到的图片。

第三方面,本发明的实施例提供了一种电子设备,包括:

至少一个处理器;以及

与处理器通信连接的至少一个存储器,其中:

存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的基于文字识别的材料审核方法。

第四方面,本发明的实施例提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的基于文字识别的材料审核方法。

本发明实施例提供的基于文字识别的材料审核方法及设备,通过对材料的已分类图片进行文字识别和文字聚类,实现对图片的两次分类,并对分类后的图片进行文字比对,可以自动确定在电子设备上录入的文字与材料上书写的文字是否一致,减轻了人工审核的压力,提高了审核的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于文字识别的材料审核方法流程图;

图2为本发明实施例提供的对不一致文字进行标记示意图;

图3为本发明实施例提供的基于文字识别的材料审核装置结构示意图;

图4为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外,本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合,以形成可行的技术方案,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

本发明实施例提供了一种基于文字识别的材料审核方法,参见图1,该方法包括:

101、调用文字识别引擎,对已分类图片进行文字识别,得到文字识别后的已分类图片,对所述文字识别后的已分类图片中的文字,进行文字聚类,得到最终识别用图片;其中,所述最终识别用图片,是指对已分类图片(此处指人工分类图片,可能存在一定误差)进行调用引擎识别后,并进行文字聚类后得到的分类图片(如报税类资料、车辆信息类资料等种类),所述最终识别用图片是经过精确分类的图片(即纸质资料的扫描图片),提高了后续文字输入比对的正确率和比对效率。

102、对所述最终识别用图片进行文字比对,将比对结果发送至审核端,若所述比对结果一致,则材料审核通过。

其中,所述已分类图片为所述材料经过扫描后得到的图片。

基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于文字识别的材料审核方法,所述对所述文字识别后的已分类图片中的文字,进行文字聚类,得到最终识别用图片,包括:从所述文字识别后的已分类图片中,提取若干关联文字,将所述若干关联文字组合成字符串,根据所述字符串,对所述文字识别后的已分类图片进行匹配,得到最终识别用图片。

基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于文字识别的材料审核方法,所述对所述最终识别用图片进行文字比对,包括:将输入文字与所述最终识别用图片中的文字进行比对,若所述输入文字与所述最终识别用图片中的文字,相同率大于判断阈值(该判断阈值可以为80%,85%,90%或95%),则判定为比对结果一致。

基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于文字识别的材料审核方法,所述将输入文字与所述最终识别用图片中的文字进行比对,包括:定义若干易混淆字符集,将所述输入文字中的一字符,与所述最终识别用图片中的文字中的另一字符进行比对,若所述一字符与所述另一字符属于同一易混淆字符集,则判定所述一字符与所述另一字符相同。

基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于文字识别的材料审核方法,还包括:若所述比对结果不一致,则在审核端上对不一致的文字进行标记,根据所述标记进行后续审核。具体地,所述标记可以参见图2,图2中包括:车辆vin码、发动机型号、车辆类型、整备质量(2805)、载客人数、出厂时间(2019-03-0700:00:00)、机动车品牌、使用性质、最大总质量(4495)、排放标准(国v)、车辆型号、发动机号码(sc138k00129)、标记201、车牌种类和燃油类型。由图2中可见,由于在审核端上发动机号码的材料文字和材料扫描后的图片文字不一致,所以将sc138k00129用标记201标出。

本发明实施例提供的基于文字识别的材料审核方法,通过对材料的已分类图片进行文字识别和文字聚类,实现对图片的两次分类,并对分类后的图片进行文字比对,可以自动确定在电子设备上录入的文字与材料上书写的文字是否一致,减轻了人工审核的压力,提高了审核的效率。

为了更加清晰的阐述本发明的技术方案的本质,在上述实施例的基础上,拟提出一个整体的实施例,从整体上展现本发明技术方案的全貌。需要说明的是,该整体实施例仅仅是为了将本发明的技术本质进一步体现出来,并不是对本发明保护范围的限制,本领域技术人员在本发明各个实施例的基础上,通过组合技术特征,得到的任何满足本发明技术方案本质的组合型技术方案,只要能够实际实施,均在本专利的保护范围之内。具体步骤包括:

扫描纸质资料,并分类上传;

服务器端调用百度图片文字识别引擎,对每个上传的图片进行文字识别;

用户扫描图片时,系统强制要求用户选择图片的类别(如登记证书、发票等),但实际使用中,图片的类别存在选择错误的情况,给后续文字模糊识别造成较大影响。为了准确分类扫描图片,对已分类的扫描图片所识别的文字,进行文字聚类,找出各类图片中关联文字,如购置发票中带有“税号”、“开户行”等字符,车辆登记证中带有“排放标准”、“车架号”等字符,通过多个字符串组合进行文字匹配,可准确对扫描图片进行分类。

根据图片识别出来的文字和图片分类,可以调用不同的模糊匹配算法进行文字比对。具体如下:

获取用户输入的数据值,与文字识别结果按照字段进行逐一对比,每个字段的对比算法如下:

定义易混淆字符集,如:{1,l,i},{5,s,s},{o,o,0,()},{-,~}以及{和,及,与}等,该易混淆字符集可进行动态添加。

对用户输入和文字识别结果,进行逐一字符对比,对于在同一个混淆字符集内的字符,可认定为单一字符一致。然后对一致字符占比进行评分,对于占比大于90%的认为用户输入与文字识别结果一致。否则不一致。

将对比结果返回到审核页面前端,对于对比结果完全一致的自动审核为通过。否则将在审核页面上将不一致的内容标记(如标红),提示工作人员进行人工审核。

本发明总体实施例提供的方法,在高拍仪设置正确的情况下,高拍图片的识别率可达到85%以上,从而使自动审核成为可能。自动审核的精度可高达95%以上。使用传统的工作模式,一个熟练的审核人员每小时可审核材料20份,改用本方案,一个熟练的审核人员每小时可审核55份材料,工作效率提升175%。

本发明各个实施例的实现基础是通过具有处理器功能的设备进行程序化的处理实现的。因此在工程实际中,可以将本发明各个实施例的技术方案及其功能封装成各种模块。基于这种现实情况,在上述各实施例的基础上,本发明的实施例提供了一种基于文字识别的材料审核装置,该装置用于执行上述方法实施例中的基于文字识别的材料审核方法。参见图3,该装置包括:

图片分类模块301,用于调用文字识别引擎,对已分类图片进行文字识别,得到文字识别后的已分类图片,对所述文字识别后的已分类图片中的文字,进行文字聚类,得到最终识别用图片;

文字比对模块302,用于对所述最终识别用图片进行文字比对,将比对结果发送至审核端,若所述比对结果一致,则材料审核通过;

其中,所述已分类图片为所述材料经过扫描后得到的图片。

本发明实施例提供的基于文字识别的材料审核装置,采用图片分类模块和文字比对模块,通过对材料的已分类图片进行文字识别和文字聚类,实现对图片的两次分类,并对分类后的图片进行文字比对,可以自动确定在电子设备上录入的文字与材料上书写的文字是否一致,减轻了人工审核的压力,提高了审核的效率。

需要说明的是,本发明提供的装置实施例中的装置,除了可以用于实现上述方法实施例中的方法外,还可以用于实现本发明提供的其他方法实施例中的方法,区别仅仅在于设置相应的功能模块,其原理与本发明提供的上述装置实施例的原理基本相同,只要本领域技术人员在上述装置实施例的基础上,参考其他方法实施例中的具体技术方案,通过组合技术特征,在保证技术方案具备实用性的前提下,就可以对上述装置实施例中的装置进行改进,从而得到相应的装置类实施例,用于实现其他方法类实施例中的方法。例如:

基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于文字识别的材料审核装置,包括:

关联文字提取模块,用于从所述文字识别后的已分类图片中,提取若干关联文字,将所述若干关联文字组合成字符串,根据所述字符串,对所述文字识别后的已分类图片进行匹配,得到最终识别用图片。

基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于文字识别的材料审核装置,包括:

判断阈值模块,用于将输入文字与所述最终识别用图片中的文字进行比对,若所述输入文字与所述最终识别用图片中的文字,相同率大于判断阈值,则判定为比对结果一致。

基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于文字识别的材料审核装置,包括:

相同字符判定模块,用于定义若干易混淆字符集,将所述输入文字中的一字符,与所述最终识别用图片中的文字中的另一字符进行比对,若所述一字符与所述另一字符属于同一易混淆字符集,则判定所述一字符与所述另一字符相同。

基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于文字识别的材料审核装置,还包括:

后续审核模块,用于若所述比对结果不一致,则在审核端上对不一致的文字进行标记,根据所述标记进行后续审核。

本发明实施例的方法是依托电子设备实现的,因此对相关的电子设备有必要做一下介绍。基于此目的,本发明的实施例提供了一种电子设备,如图4所示,该电子设备包括:至少一个处理器(processor)401、通信接口(communicationsinterface)404、至少一个存储器(memory)402和通信总线403,其中,至少一个处理器401,通信接口404,至少一个存储器402通过通信总线403完成相互间的通信。至少一个处理器401可以调用至少一个存储器402中的逻辑指令,以执行如下方法:调用文字识别引擎,对已分类图片进行文字识别,得到文字识别后的已分类图片,对所述文字识别后的已分类图片中的文字,进行文字聚类,得到最终识别用图片;对所述最终识别用图片进行文字比对,将比对结果发送至审核端,若所述比对结果一致,则材料审核通过;其中,所述已分类图片为所述材料经过扫描后得到的图片。

此外,上述的至少一个存储器402中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。例如包括:调用文字识别引擎,对已分类图片进行文字识别,得到文字识别后的已分类图片,对所述文字识别后的已分类图片中的文字,进行文字聚类,得到最终识别用图片;对所述最终识别用图片进行文字比对,将比对结果发送至审核端,若所述比对结果一致,则材料审核通过;其中,所述已分类图片为所述材料经过扫描后得到的图片。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。基于这种认识,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

在本专利中,术语"包括"、"包含"或者其任何其它变体意在涵盖非排它性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句"包括……"限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1