保险单号码识别方法、装置、电子设备及存储介质与流程

文档序号:17993144发布日期:2019-06-22 00:58阅读:358来源:国知局
保险单号码识别方法、装置、电子设备及存储介质与流程

本发明涉及模式识别技术领域,具体涉及一种保险单号码识别方法、装置、电子设备及存储介质。



背景技术:

目前,保险公司中有很多保险单以图片的形式进行存储,每一份保险单或第一保险单图片均有唯一的保险单号码与其对应。对于第一保险单图片,保险单号码是关键信息,工作人员一般需要根据保险单号码进行保险信息的检索或查询等操作。如果要从多张第一保险单图片中获取保险单号码等图片信息时,一般是通过人工操作的方式一张张获取,当第一保险单图片的数量较多,工作人员无法快速地得到每一张第一保险单图片的保险单号码,导致工作量非常大,降低工作效率。

尽管现有技术中,基于机器学习训练得到第一识别模型对保险单号码进行识别,但机器学习第一识别模型也无法确保百分之百的准确率,且不同的保险人手写字符的特点不同,目前基于机器学习训练得到的模型识别保险单号码时并未考虑到不同保险人的手写特点。



技术实现要素:

鉴于以上内容,有必要提出一种保险单号码识别方法、装置、电子设备及存储介质,在保险单的整个识别过程中几乎不需要人工参与,针对不同的保险人,能够快速地从第一保险单图片中获取保险单号码,大大减少工作量,提高工作效率。

本发明的第一方面提供一种保险单号码识别方法,所述方法包括:

接收到第一保险单图片时,识别所述第一保险单图片对应的保险类型;

基于预先设定的保险类型与保险单号码在第一保险单图片中的位置关系提取所述第一保险单图片中的保险单号码所在的第一目标行字符区域;

调用预先训练生成的第一识别模型对所述第一目标行字符区域进行识别,并输出字符识别结果及所述字符识别结果中的每一个字符识别结果对应的得分值;

统计所有得分值中大于预设得分值阈值的目标得分值的个数是否为1;

当确定所有得分值中大于所述预设得分值阈值的目标得分值的个数为1时,将所述目标得分值对应的字符识别结果作为所述第一目标行字符区域中的字符的识别结果。

优选的,当确定所有得分值中大于所述预设得分值阈值的目标得分值的个数大于1时,所述方法还包括:

将所述得分值中大于所述预设得分值阈值的目标得分值对应的字符识别结果作为所述第一目标行字符区域的字符的候选字符集;

显示所述候选字符集中的候选字符识别结果列表及每一个候选字符识别结果对应的得分值;

当侦测到所述候选字符识别结果列表中的候选字符识别结果被选定时,将被选定的候选字符识别结果作为所述第一目标行字符区域中的字符的识别结果。

优选的,在识别出所述第一目标行字符区域中的字符后,所述方法还包括:

基于预先设定的保险类型与保险人姓名在所述第一保险单图片中的位置关系提取所述第一保险单图片中的保险人姓名所在的第二目标行字符区域;

调用预先训练生成的第二第一识别模型对所述第二目标行字符区域进行识别得到所述第一保险单图片中的保险人姓名。

优选的,在识别出所述第二目标行字符区域中的保险人姓名后,所述方法还包括:

将识别出的保险单号码、保险人姓名、候选字符集、被选定的候选字符识别结果及所述第一保险单图片进行关联存储。

优选的,所述方法还包括:

当再次接收到同一个保险人的第二保险单图片,且若调用所述预先训练生成的第一识别模型对所述第二保险单图片的第一目标行字符区域进行字符识别后得到多个候选字符识别结果时,根据所述保险人、候选字符集及被选定的候选字符识别结果的关联关系,将所选定的字符识别结果作为所述第二保险单图片的第一目标字符区域中的对应字符的识别结果。

优选的,所述方法还包括:

提供一显示界面;

在所述显示界面上根据预设显示方式显示所述候选字符集中的候选字符识别结果列表及每一个候选字符识别结果对应的得分值。

优选的,所述预设显示方式包括:

将所述得分值按照由大到小的顺序进行排序后分行显示;

显示所述第一保险单图片;

对应每行得分值显示一个勾选框,用以接收到工作人员的勾选操作之后,将被勾选的候选字符识别结果作为所述目标行字符区域中的字符的识别结果。

本发明的第二方面提供一种保险单号码识别装置,所述装置包括:

接收模块,用于接收到第一保险单图片时,识别所述第一保险单图片对应的保险类型;

提取模块,用于基于预先设定的保险类型与保险单号码在第一保险单图片中的位置关系提取所述第一保险单图片中的保险单号码所在的第一目标行字符区域;

识别模块,用于调用预先训练生成的第一识别模型对所述第一目标行字符区域进行识别,并输出字符识别结果及所述字符识别结果中的每一个字符识别结果对应的得分值;

判断模块,用于统计所有得分值中大于预设得分值阈值的目标得分值的个数是否为1;

输出模块,用于当所述判断模块确定所有得分值中大于所述预设得分值阈值的目标得分值的个数为1时,将所述目标得分值对应的字符识别结果作为所述第一目标行字符区域中的字符的识别结果。

本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述保险单号码识别方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述保险单号码识别方法。

本发明所述的保险单号码识别方法、装置、电子设备及存储介质,首先识别第一保险单图片的保险类型,通过保险类型与保险单号码在第一保险单图片中的位置关系,可以提取到保险单号码对应的第一目标行字符区域,然后再调用预先训练生成的第一识别模型来识别出该第一目标行字符区域中的字符并给出字符识别结果及对应的得分值,在确定所有得分值中大于预设得分值阈值的目标得分值只有一个时,将该目标得分值对应的字符识别结果作为第一目标行字符区域中的字符的识别结果号码,整个操作过程几乎不需要人工参与,能够快速地从大量的第一保险单图片中获取保险单号码,大大减少工作量,提高工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的保险单号码识别方法的流程图。

图2是本发明实施例二提供的保险单号码识别装置的功能模块图。

图3是本发明实施例三提供的电子设备的示意图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

本发明实施例的保险单号码识别方法应用在一个或者多个电子设备中。所述保险单号码识别方法也可以应用于由电子设备和通过网络与所述电子设备进行连接的服务器所构成的硬件环境中。网络包括但不限于:广域网、城域网或局域网。本发明实施例的保险单号码识别方法可以由服务器来执行,也可以由电子设备来执行;还可以是由服务器和电子设备共同执行。

对于需要进行保险单号码识别方法的电子设备,可以直接在电子设备上集成本发明的方法所提供的保险单号码识别功能,或者安装用于实现本发明的方法的客户端。再如,本发明所提供的方法还可以以软件开发工具包(softwaredevelopmentkit,sdk)的形式运行在服务器等设备上,以sdk的形式提供保险单号码识别功能的接口,电子设备或其他设备通过提供的接口即可实现本发明所述的方法。

实施例一

图1是本发明实施例一提供的保险单号码识别方法的流程图。根据不同的需求,该流程图中的执行顺序可以改变,某些步骤可以省略。

s1,接收到第一保险单图片时,识别所述第一保险单图片对应的保险类型。

本实施例中,保险单或第一保险单图片的类型有多种,例如有车险保险单、寿险保险单及意外伤害保险单等,每一种保险单为一种保险类型。对于不同类型的保险单,其保险单号码所处的位置并不相同,例如有些保险单号码位于保险单右上角偏上的位置,有些保险单号码位于保险单右上角偏左的位置。在接收到第一保险单图片后,首先识别该第一保险单图片所属的保险类型,具体的识别过程为:通过对保险单的大小、颜色及内容布局等进行综合识别,以判断该第一保险单图片所属的保险类型,另外,也可以通过其他的方法识别该第一保险单图片所属的保险类型,例如通过识别该保险图片的内容信息来判断其所属的保险类型等。

s2,基于预先设定的保险类型与保险单号码在第一保险单图片中的位置关系提取所述第一保险单图片中的保险单号码所在的第一目标行字符区域。

本实施例预先将不同类型的保险单与保险单号码在保险单图片中所处的位置进行关联存储。在识别出其所属的保险类型后,基于该保险类型与保险单号码在第一保险单图片中的位置关系提取所述保险单号码在所述第一保险单图片中对应的第一目标行字符区域,在提取了保险单号码对应的第一目标行字符区域后,只需要进一步识别该第一目标行字符区域中的字符即可得到保险单号码。

s3,调用预先训练生成的第一识别模型对所述第一目标行字符区域进行识别,并输出字符识别结果及所述字符识别结果中的每一个字符识别结果对应的得分值。

本实施例中,预先训练生成第一识别模型,第一识别模型可以是图像处理相关的多种模型中的一种。

调用第一识别模型对第一目标行字符区域进行字符识别,以识别得到该第一目标行字符区域中的每一个字符,一般来说,保险单号码为数字,当所有的字符识别出来后,可以得到保险单号码。在识别第一目标行字符区域中的某一个字符时,调用预先训练生成的第一识别模型进行识别,并输出该字符的字符识别结果及所述字符识别结果中的每一个字符识别结果对应的得分值。示例性的,第一保险单图片的第一目标行字符区域中的保险单号码是“25481”,则在识别保险单号码中的字符“4”时,调用预先训练生成的第一识别模型进行识别可以得到10个字符识别结果:0,1,2,3,4,5,6,7,8,9。这10个字符识别结果都有对应的得分值:0,0,0,0,99%,0,0,0,0,95%。所述得分值表示所识别出的字符与保险单号码的字符“4”的相似度,相似度越大,认为所识别出的字符的准确率越高,相似度越小,认为所识别出的字符的准确率越低。

优选地,所述第一识别模型的训练过程包括:

1)获取预设数量的保险单样本图片,将包含保险单号码的保险单样本图片作为第一图片集,并将不包含保险单号码的保险单样本图片作为第二图片集;

2)从所述第一图片集和第二图片集中分别提取出第一预设比例的保险单样本图片作为待训练的样本图片,并将第一图片集和第二图片集中剩余的保险单样本图片作为待验证的样本图片;

3)利用各待训练的样本图片进行模型训练,以生成所述卷积神经网络模型,并利用各待验证的样本图片对所生成的卷积神经网络模型进行验证;

4)若验证通过率大于等于预设阈值,则训练完成,否则增加所述保险单样本图片的数量,以重新进行训练及验证。

示例性的,假设获取10万张保险单号码样本图片,其中,保险单号码样本图片仅包含一行数字,该行数字为保险单号码,字体为黑色,背景为白色,并可将各个保险单号码样本图片的名称命名为所含的保险单号码。提取第二预设比例的保险单号码样本图片作为训练集,并将预设数量的保险单号码样本图片中剩余的保险单号码样本图片作为测试集,训练集中的保险单号码样本图片的数量大于测试集中的保险单号码样本图片的数量,例如将保险单号码样本图片中的80%的保险单号码样本图片作为训练集,将剩余的20%的保险单号码样本图片作为测试集。

在第一次训练卷积神经网络模型时,该卷积神经网络模型的参数采用默认的参数进行训练,在训练过程不断调整参数,在训练生成该卷积神经网络模型后,利用各待验证的样本图片对所生成的卷积神经网络模型进行验证,如果验证通过率大于等于预设阈值,例如通过率大于等于98%,则训练结束,以该训练得到的卷积神经网络模型为进行识别第一目标行字符区域的模型;如果验证通过率小于预设阈值,例如小于98%,则增加保险单样本图片的数量,并重新执行上述的步骤,直至验证通过率大于等于预设阈值。

在测试时,使用训练得到的卷积神经网络模型对测试集中的保险单号码样本图片进行保险单号码识别,并将识别结果与该保险单号码样本图片的所用的名称进行对比(该保险单号码样本图片利用该保险单号码进行命名),以评估所训练的卷积神经网络模型的识别效果。

s4:统计所有得分值中大于预设得分值阈值的目标得分值的个数是否为1。

本实施例中,将所述第一目标行字符区域输入至预先训练生成的第一识别模型中进行字符识别,本质上是利用预先训练生成的第一识别模型对第一目标行字符区域中的字符进行得分值计算。比如,第一目标行字符区域中的字符4,通过预先训练生成的第一识别模型进行识别得到结果为1的得分值为0,得到结果为2的得分值为0,得到结果为4的得分值为99,得到结果为6的得分值为0,得到结果为9的得分值为95。

本实施例中,可以预先设置得分值阈值,得分值阈值表示识别结果具有的可信度。例如,可以预先设置得分值阈值为85,得分值大于85表明对应识别得到的结果具有较高的可信度,得分值低于85表明对应识别得到的结果具有较低的可信度。

当确定所有得分值中大于所述预设得分值阈值的目标得分值的个数为1时,执行s5;否则,当确定所有得分值中大于所述预设得分值阈值的目标得分值的个数大于1时,执行s6。

s5,将所述目标得分值对应的字符识别结果作为所述第一目标行字符区域中的字符的识别结果。

本实施例中,通过预先训练生成的第一识别模型对所述第一目标行字符区域进行字符识别,得到的所有得分值中只有1个目标得分值大于预设得分值阈值,则表明识别出的结果具有唯一性,因而可将该识别出的唯一结果作为所述第一目标行字符区域的字符的识别结果。

应当理解的是,通过训练生成的第一识别模型对所述第一目标行字符区域进行字符识别,得到的得分值中大于预设得分值阈值的目标得分值要么唯一,要么为多个,不可能为零。

s6,将所述得分值中大于所述预设得分值阈值的目标得分值对应的字符识别结果作为所述第一目标行字符区域的字符的候选字符集。

本实施例中,通过预先训练生成的第一识别模型对所述第一目标行字符区域进行字符识别,得到的所有得分值中有多个(例如,2个)目标得分值大于预设得分值阈值,则表明识别出的结果不具有唯一性,该多个识别结果具有相同的概率作为正确的识别结果,因而可将该识别出的多个候选字符识别结果作为所述第一目标行字符区域的字符的候选字符集。

示例性的,调用预先训练生成的第一识别模型对所述第一目标行字符区域4进行字符识别,并输出得分值预设预设得分值阈值对应的候选字符识别结果及每个候选字符识别结果对应的得分值分别为:字符4、得分值99;字符9、得分值95。所述多个得分值均大于预设得分值阈值85,因而可将候选字符识别结果4及9作为所述第一目标行字符区域4的候选字符集。

s7:显示所述候选字符集中的候选字符识别结果列表及每一个候选字符识别结果对应的得分值。

本实施例中,可以提供一显示界面,在所述显示界面上根据预设显示方式显示所述候选字符集中的候选字符识别结果列表及每一个候选字符识别结果对应的得分值。

优选的,所述预设显示方式包括:

将所述得分值按照由大到小的顺序进行排序后分行显示;

显示所述第一保险单图片;

对应每行得分值显示一个勾选框,用以接收到工作人员的勾选操作之后,将被勾选的候选字符识别结果作为所述目标行字符区域中的字符的识别结果。

本实施例中,将所述得分值按照由大到小的顺序进行排序,最高得分值及对应最高得分值的候选字符识别结果显示在第一行;次高得分值及对应次高得分值的候选字符识别结果显示在第二行;以此类推;最低得分值及对应最低得分值的候选字符识别结果显示在最后一行,如此可便于工作人员快速且直观的查看候选字符识别结果。另外,在显示候选字符识别结果列表及每个候选字符识别结果对应的得分值的同时还显示接收到的所述第一保险单图片。显示所述第一保险单图片,便于工作人员对照所述第一保险单图片确定所述候选字符集中的哪一个候选字符为最终的字符识别结果。

s8:当侦测到所述候选字符识别结果列表中的候选字符识别结果被选定时,将被选定的候选字符识别结果作为所述第一目标行字符区域中的字符的识别结果。

工作人员可以通过触摸或者点击所述勾选框来选定字符识别结果作为所述第一目标行字符区域的字符的识别结果。

优选的,在识别出所述第一目标行字符区域中的字符后,所述方法还包括:

基于预先设定的保险类型与保险人姓名在所述第一保险单图片中的位置关系提取所述第一保险单图片中的保险人姓名所在的第二目标行字符区域;

调用预先训练生成的第二识别模型对所述第二目标行字符区域进行识别得到所述第一保险单图片中的保险人姓名。

对于不同类型的保险单,其保险人姓名所处的位置也不相同。可以预先将不同类型的保险单与保险人姓名在保险单图片中所处的位置进行关联存储。在识别出其所属的保险类型后,基于该保险类型与保险人姓名在第一保险单图片中的位置关系提取所述保险人姓名在所述第一保险单图片中对应的第二目标行字符区域,在提取了保险人姓名对应的第二目标行字符区域后,只需要调用预先训练生成的第二识别模型进一步识别出该第二目标行字符区域中的字符即可得到保险人姓名。

关于所述第二识别模型的训练过程同所述第一识别模型的训练过程,本文在此不再详细阐述。

优选的,在识别出所述第二目标行字符区域中的保险人姓名后,所述方法还包括:

将识别出的保险单号码、保险人姓名、候选字符集、被选定的候选字符识别结果及所述第一保险单图片进行关联存储。

在识别得到保险单号码及保险人姓名后,将该保险单号码、保险人姓名候选字符集、被选定的候选字符识别结果与该第一保险单图片进行关联存储,以便工作人员在通过该保险单号码进行查询或者检索时,可以通过该保险单号码查询或者检索到与其关联的第一保险单图片。另外,后续还可使用到保险人姓名候选字符集、被选定的候选字符识别结果的关联关系作进一步的应用。

优选的,所述方法还可以包括:

当再次接收到同一个保险人的第二保险单图片,且若调用所述预先训练生成的第一识别模型对所述第二保险单图片的第一目标行字符区域进行字符识别后得到多个候选字符识别结果时,根据所述保险人、候选字符集及被选定的候选字符识别结果的关联关系,将所选定的字符识别结果作为所述第二保险单图片的第一目标字符区域中的对应字符的识别结果。

本实施例中,后续若再接收到同一个保险人的第二保险单图片之后,即使识别出有多个大于预设得分值阈值的得分值,即有候选字符集时,也无需再显示候选字符集中的多个字符识别结果列表及对应的得分值,而是直接将先前被选定的候选字符识别结果作为所述目标字符区域的字符的识别结果并直接输出。如此,可以进一步减少工作人员的操作,节省工作人员的时间,且也不会降低识别结果。

当然,本发明实施例也可以在最开始接收到第一保险单图片后,先获取所述第一保险单图片中的保险人,后续在识别出有多个候选字符时,直接输出先前被选定的候选字符识别结果作为所述目标字符区域的字符的识别结果。

综上所述,本发明实施例提供的保险单号码识别方法,首先识别第一保险单图片的保险类型,通过保险类型与保险单号码在第一保险单图片中的位置关系,可以提取到保险单号码对应的第一目标行字符区域,然后再调用预先训练生成的第一识别模型来识别出该第一目标行字符区域中的字符并给出字符识别结果及对应的得分值,在确定所有得分值中大于预设得分值阈值的目标得分值只有一个时,将该目标得分值对应的字符识别结果作为第一目标行字符区域中的字符的识别结果号码,整个操作过程几乎不需要人工参与,能够快速地从大量的第一保险单图片中获取保险单号码,大大减少工作量,提高工作效率。

其次,通过得分值确定候选字符集,并显示候选字符集列表,由工作人员根据同时显示的第一保险单图片进行人工确认,以弥补第一识别模型识别精度不能百分百的缺陷。而先通过第一识别模型识别后,待确认的候选字符集的量非常少,此时再由人工确认不会浪费时间,且准确率更高。

以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。

下面结合第2至3图,分别对实现上述保险单号码识别方法的电子设备的功能模块及硬件结构进行介绍。

实施例二

图2为本发明保险单号码识别装置较佳实施例中的功能模块图。

在一些实施例中,所述保险单号码识别装置20运行于电子设备中。所述保险单号码识别装置20可以包括多个由程序代码段所组成的功能模块。所述保险单号码识别装置20中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行(详见图1及其相关描述)保险单号码识别方法。

本实施例中,所述保险单号码识别装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:接收模块201、提取模块202、识别模块203、判断模块204、输出模块205、显示模块206、勾选模块207及关联模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在一些实施例中,关于各模块的功能将在后续的实施例中详述。

接收模块201,用于接收到第一保险单图片时,识别所述第一保险单图片对应的保险类型。

本实施例中,保险单或第一保险单图片的类型有多种,例如有车险保险单、寿险保险单及意外伤害保险单等,每一种保险单为一种保险类型。对于不同类型的保险单,其保险单号码所处的位置并不相同,例如有些保险单号码位于保险单右上角偏上的位置,有些保险单号码位于保险单右上角偏左的位置。在接收到第一保险单图片后,首先识别该第一保险单图片所属的保险类型,具体的识别过程为:通过对保险单的大小、颜色及内容布局等进行综合识别,以判断该第一保险单图片所属的保险类型,另外,也可以通过其他的方法识别该第一保险单图片所属的保险类型,例如通过识别该保险图片的内容信息来判断其所属的保险类型等。

提取模块202,用于基于预先设定的保险类型与保险单号码在第一保险单图片中的位置关系提取所述第一保险单图片中的保险单号码所在的第一目标行字符区域。

本实施例预先将不同类型的保险单与保险单号码在保险单图片中所处的位置进行关联存储。在识别出其所属的保险类型后,基于该保险类型与保险单号码在第一保险单图片中的位置关系提取所述保险单号码在所述第一保险单图片中对应的第一目标行字符区域,在提取了保险单号码对应的第一目标行字符区域后,只需要进一步识别该第一目标行字符区域中的字符即可得到保险单号码。

识别模块203,用于调用预先训练生成的第一识别模型对所述第一目标行字符区域进行识别,并输出字符识别结果及所述字符识别结果中的每一个字符识别结果对应的得分值。

本实施例中,预先训练生成第一识别模型,第一识别模型可以是图像处理相关的多种模型中的一种。

调用第一识别模型对第一目标行字符区域进行字符识别,以识别得到该第一目标行字符区域中的每一个字符,一般来说,保险单号码为数字,当所有的字符识别出来后,可以得到保险单号码。在识别第一目标行字符区域中的某一个字符时,调用预先训练生成的第一识别模型进行识别,并输出该字符的字符识别结果及所述字符识别结果中的每一个字符识别结果对应的得分值。示例性的,第一保险单图片的第一目标行字符区域中的保险单号码是“25481”,则在识别保险单号码中的字符“4”时,调用预先训练生成的第一识别模型进行识别可以得到10个字符识别结果:0,1,2,3,4,5,6,7,8,9。这10个字符识别结果都有对应的得分值:0,0,0,0,99%,0,0,0,0,95%。所述得分值表示所识别出的字符与保险单号码的字符“4”的相似度,相似度越大,认为所识别出的字符的准确率越高,相似度越小,认为所识别出的字符的准确率越低。

优选地,所述第一识别模型的训练过程包括:

1)获取预设数量的保险单样本图片,将包含保险单号码的保险单样本图片作为第一图片集,并将不包含保险单号码的保险单样本图片作为第二图片集;

2)从所述第一图片集和第二图片集中分别提取出第一预设比例的保险单样本图片作为待训练的样本图片,并将第一图片集和第二图片集中剩余的保险单样本图片作为待验证的样本图片;

3)利用各待训练的样本图片进行模型训练,以生成所述卷积神经网络模型,并利用各待验证的样本图片对所生成的卷积神经网络模型进行验证;

4)若验证通过率大于等于预设阈值,则训练完成,否则增加所述保险单样本图片的数量,以重新进行训练及验证。

示例性的,假设获取10万张保险单号码样本图片,其中,保险单号码样本图片仅包含一行数字,该行数字为保险单号码,字体为黑色,背景为白色,并可将各个保险单号码样本图片的名称命名为所含的保险单号码。提取第二预设比例的保险单号码样本图片作为训练集,并将预设数量的保险单号码样本图片中剩余的保险单号码样本图片作为测试集,训练集中的保险单号码样本图片的数量大于测试集中的保险单号码样本图片的数量,例如将保险单号码样本图片中的80%的保险单号码样本图片作为训练集,将剩余的20%的保险单号码样本图片作为测试集。

在第一次训练卷积神经网络模型时,该卷积神经网络模型的参数采用默认的参数进行训练,在训练过程不断调整参数,在训练生成该卷积神经网络模型后,利用各待验证的样本图片对所生成的卷积神经网络模型进行验证,如果验证通过率大于等于预设阈值,例如通过率大于等于98%,则训练结束,以该训练得到的卷积神经网络模型为进行识别第一目标行字符区域的模型;如果验证通过率小于预设阈值,例如小于98%,则增加保险单样本图片的数量,并重新执行上述的步骤,直至验证通过率大于等于预设阈值。

在测试时,使用训练得到的卷积神经网络模型对测试集中的保险单号码样本图片进行保险单号码识别,并将识别结果与该保险单号码样本图片的所用的名称进行对比(该保险单号码样本图片利用该保险单号码进行命名),以评估所训练的卷积神经网络模型的识别效果。

判断模块204,用于统计所有得分值中大于预设得分值阈值的目标得分值的个数是否为1。

本实施例中,将所述第一目标行字符区域输入至预先训练生成的第一识别模型中进行字符识别,本质上是利用预先训练生成的第一识别模型对第一目标行字符区域中的字符进行得分值计算。比如,第一目标行字符区域中的字符4,通过预先训练生成的第一识别模型进行识别得到结果为1的得分值为0,得到结果为2的得分值为0,得到结果为4的得分值为99,得到结果为6的得分值为0,得到结果为9的得分值为95。

本实施例中,可以预先设置得分值阈值,得分值阈值表示识别结果具有的可信度。例如,可以预先设置得分值阈值为85,得分值大于85表明对应识别得到的结果具有较高的可信度,得分值低于85表明对应识别得到的结果具有较低的可信度。

输出模块205,用于当所述判断模块204确定所有得分值中大于所述预设得分值阈值的目标得分值的个数为1时,将所述目标得分值对应的字符识别结果作为所述第一目标行字符区域中的字符的识别结果。

本实施例中,通过预先训练生成的第一识别模型对所述第一目标行字符区域进行字符识别,得到的所有得分值中只有1个目标得分值大于预设得分值阈值,则表明识别出的结果具有唯一性,因而可将该识别出的唯一结果作为所述第一目标行字符区域的字符的识别结果。

应当理解的是,通过训练生成的第一识别模型对所述第一目标行字符区域进行字符识别,得到的得分值中大于预设得分值阈值的目标得分值要么唯一,要么为多个,不可能为零。

所述输出模块205,还用于当确定所有得分值中大于所述预设得分值阈值的目标得分值的个数大于1时,将所述得分值中大于所述预设得分值阈值的目标得分值对应的字符识别结果作为所述第一目标行字符区域的字符的候选字符集。

本实施例中,通过预先训练生成的第一识别模型对所述第一目标行字符区域进行字符识别,得到的所有得分值中有多个(例如,2个)目标得分值大于预设得分值阈值,则表明识别出的结果不具有唯一性,该多个识别结果具有相同的概率作为正确的识别结果,因而可将该识别出的多个候选字符识别结果作为所述第一目标行字符区域的字符的候选字符集。

示例性的,调用预先训练生成的第一识别模型对所述第一目标行字符区域4进行字符识别,并输出得分值预设预设得分值阈值对应的候选字符识别结果及每个候选字符识别结果对应的得分值分别为:字符4、得分值99;字符9、得分值95。所述多个得分值均大于预设得分值阈值85,因而可将候选字符识别结果4及9作为所述第一目标行字符区域4的候选字符集。

显示模块206,用于显示所述候选字符集中的候选字符识别结果列表及每一个候选字符识别结果对应的得分值。

本实施例中,可以提供一显示界面,在所述显示界面上根据预设显示方式显示所述候选字符集中的候选字符识别结果列表及每一个候选字符识别结果对应的得分值。

优选的,所述预设显示方式包括:

将所述得分值按照由大到小的顺序进行排序后分行显示;

显示所述第一保险单图片;

对应每行得分值显示一个勾选框,用以接收到工作人员的勾选操作之后,将被勾选的候选字符识别结果作为所述目标行字符区域中的字符的识别结果。

本实施例中,将所述得分值按照由大到小的顺序进行排序,最高得分值及对应最高得分值的候选字符识别结果显示在第一行;次高得分值及对应次高得分值的候选字符识别结果显示在第二行;以此类推;最低得分值及对应最低得分值的候选字符识别结果显示在最后一行,如此可便于工作人员快速且直观的查看候选字符识别结果。另外,在显示候选字符识别结果列表及每个候选字符识别结果对应的得分值的同时还显示接收到的所述第一保险单图片。显示所述第一保险单图片,便于工作人员对照所述第一保险单图片确定所述候选字符集中的哪一个候选字符为最终的字符识别结果。

勾选模块207,用于当侦测到所述候选字符识别结果列表中的候选字符识别结果被选定时,将被选定的候选字符识别结果作为所述第一目标行字符区域中的字符的识别结果。

工作人员可以通过触摸或者点击所述勾选框来选定字符识别结果作为所述第一目标行字符区域的字符的识别结果。

所述提取模块202,还用于基于预先设定的保险类型与保险人姓名在所述第一保险单图片中的位置关系提取所述第一保险单图片中的保险人姓名所在的第二目标行字符区域。

所述识别模块203,还用于调用预先训练生成的第二识别模型对所述第二目标行字符区域进行识别得到所述第一保险单图片中的保险人姓名。

对于不同类型的保险单,其保险人姓名所处的位置也不相同。可以预先将不同类型的保险单与保险人姓名在保险单图片中所处的位置进行关联存储。在识别出其所属的保险类型后,基于该保险类型与保险人姓名在第一保险单图片中的位置关系提取所述保险人姓名在所述第一保险单图片中对应的第二目标行字符区域,在提取了保险人姓名对应的第二目标行字符区域后,只需要调用预先训练生成的第二识别模型进一步识别出该第二目标行字符区域中的字符即可得到保险人姓名。

关于所述第二识别模型的训练过程同所述第一识别模型的训练过程,本文在此不再详细阐述。

关联模块208,用于将识别出的保险单号码、保险人姓名、候选字符集、被选定的候选字符识别结果及所述第一保险单图片进行关联存储。

在识别得到保险单号码及保险人姓名后,将该保险单号码、保险人姓名候选字符集、被选定的候选字符识别结果与该第一保险单图片进行关联存储,以便工作人员在通过该保险单号码进行查询或者检索时,可以通过该保险单号码查询或者检索到与其关联的第一保险单图片。另外,后续还可使用到保险人姓名候选字符集、被选定的候选字符识别结果的关联关系作进一步的应用。

优选的,所述保险单号码识别装置20还可以包括:

当再次接收到同一个保险人的第二保险单图片,且若调用所述预先训练生成的第一识别模型对所述第二保险单图片的第一目标行字符区域进行字符识别后得到多个候选字符识别结果时,根据所述保险人、候选字符集及被选定的候选字符识别结果的关联关系,将所选定的字符识别结果作为所述第二保险单图片的第一目标字符区域中的对应字符的识别结果。

本实施例中,后续若再接收到同一个保险人的第二保险单图片之后,即使识别出有多个大于预设得分值阈值的得分值,即有候选字符集时,也无需再显示候选字符集中的多个字符识别结果列表及对应的得分值,而是直接将先前被选定的候选字符识别结果作为所述目标字符区域的字符的识别结果并直接输出。如此,可以进一步减少工作人员的操作,节省工作人员的时间,且也不会降低识别结果。

当然,本发明实施例也可以在最开始接收到第一保险单图片后,先获取所述第一保险单图片中的保险人,后续在识别出有多个候选字符时,直接输出先前被选定的候选字符识别结果作为所述目标字符区域的字符的识别结果。

综上所述,本发明实施例提供的保险单号码识别装置,首先识别第一保险单图片的保险类型,通过保险类型与保险单号码在第一保险单图片中的位置关系,可以提取到保险单号码对应的第一目标行字符区域,然后再调用预先训练生成的第一识别模型来识别出该第一目标行字符区域中的字符并给出字符识别结果及对应的得分值,在确定所有得分值中大于预设得分值阈值的目标得分值只有一个时,将该目标得分值对应的字符识别结果作为第一目标行字符区域中的字符的识别结果号码,整个操作过程几乎不需要人工参与,能够快速地从大量的第一保险单图片中获取保险单号码,大大减少工作量,提高工作效率。

其次,通过得分值确定候选字符集,并显示候选字符集列表,由工作人员根据同时显示的第一保险单图片进行人工确认,以弥补第一识别模型识别精度不能百分百的缺陷。而先通过第一识别模型识别后,待确认的候选字符集的量非常少,此时再由人工确认不会浪费时间,且准确率更高。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,双屏设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

实施例三

图3为本发明实施例三提供的电子设备的示意图。

所述电子设备3包括:存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33及至少一条通讯总线34。

所述至少一个处理器32执行所述计算机程序33时实现上述方法实施例中的步骤。

示例性的,所述计算机程序33可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述至少一个处理器32执行,以完成本发明上述方法实施例中的步骤。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序33在所述电子设备3中的执行过程。

所述电子设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,所述示意图4仅仅是电子设备3的示例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备、总线等。

所述至少一个处理器32可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等,所述处理器32是所述电子设备3的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。

所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中,应该理解到,所揭露的电子设备和方法,可以通过其它的方式实现。例如,以上所描述的电子设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1