证件的识别方法和装置、电子设备、计算机存储介质与流程

文档序号：14796916发布日期：2018-06-29 19:25阅读：223来源：国知局

本发明涉及图像识别技术，尤其是一种证件的识别方法和装置、电子设备、计算机存储介质。

背景技术：

证件是指用来证明身份、经历等的证书和文件。在实际应用中，常常需要对证件进行识别和审核，以便确定身份、经历等信息，通常对于证件的识别是通过人工完成的。例如：机动车驾驶证是机动车驾驶人员被许可驾驶的证件，机动车行驶证是准予机动车行驶的法定证件。这两类证件在处理交通问题、申请牌照、买卖车辆及征信时经常被用到，但证件审核和查验需要大量的人力。

技术实现要素：

本发明实施例提供一种证件的识别技术。

本发明实施例提供的一种证件的识别方法，包括：

将待识别图像输入神经网络；所述待识别图像中包括至少一个证件图像，每个所述证件图像包括至少一个具有格式信息，所述格式信息用于识别对应类型的证件图像；

经所述神经网络获取所述待识别图像中各证件图像包括的文本框中的文字内容；

将所述文本框中的文字内容与格式信息进行匹配；

根据所述文本框中的文字内容匹配的格式信息，确认所述证件图像的证件类型。

在基于本发明上述方法的另一个实施例中，将所述文本框中的文字内容与格式信息进行匹配，包括：

基于所述证件图像中已知的格式信息，获得分别对应各所述格式信息的正则表达式；

将各所述文本框中的文字内容分别与所述获得的正则表达式进行匹配。

在基于本发明上述方法的另一个实施例中，根据所述文本框中的文字内容匹配的格式信息，确认所述证件图像的证件类型，包括：

根据匹配的格式信息获取所述证件图像中包括信息的种类和位置；

通过所述获取的信息的种类和位置与证件模板进行匹配，根据所述匹配的证件模板确定所述证件图像的类型；所述证件模板包括设定种类和位置的格式信息。

在基于本发明上述方法的另一个实施例中，所述根据匹配的格式信息获取所述证件图像中包括信息的种类和位置，包括：

根据与所述文本框中的文字内容匹配的格式信息获得所述文本框包括的信息的种类，根据所述文本框在所述证件图像中的位置获得所述信息的位置。

在基于本发明上述方法的另一个实施例中，经所述神经网络获取所述待识别图像中各证件图像包括的文本框中的文字内容，包括：

利用第一神经网络对所述待识别图像中证件图像进行特征提取，基于得到的特征获得所述证件图像中的文本框和所述文本框的位置；

利用第二神经网络对所述获得的文本框进行文字识别，得到所述文本框中的文字内容。

在基于本发明上述方法的另一个实施例中，基于得到的特征获得所述证件图像中的文本框和所述文本框的位置，包括：

通过预设的候选区域在所述得到的特征图上移动，基于候选区域中包括的所有像素均预测为文字的所述候选区域获得文本框；所述候选区域包括预设的固定宽度和可变高度；

基于所述包括的所有像素均预测为文字的候选区域确定所述获得的文本框的坐标，根据所述文本框的坐标确定所述文本框的位置。

在基于本发明上述方法的另一个实施例中，所述利用第二神经网络对所述获得的文本框进行文字识别之前，还包括：

基于所述文本框的位置将所述文本框从所述证件图像中剪裁出来，得到文本图像；

在宽高比不变的基础上，将所述文本图像进行缩放得到缩放后的文本图像；所述缩放后的文本图像高度为设定高度值，且宽度大于或等于设定宽度值；或者，所述缩放后的文本图像宽度为设定宽度值，且高度大于或等于设定高度值。

在基于本发明上述方法的另一个实施例中，所述利用第二神经网络对所述获得的文本框进行文字识别，包括：

利用第二神经网络将所述缩放后的文本图像处理为高度为1的特征图；

基于CTC连续时序分类模型对所述特征图进行解码，得到长度对应所述特征图宽度的标签序列；

基于所述标签序列获得所述文本图像中的文字内容；所述标签序列包括至少一个标签，每个所述标签用于表示一个文字。

在基于本发明上述方法的另一个实施例中，基于所述标签序列获得所述文本图像中的文字内容，包括：

基于空格将所述标签序列分割为至少两个子序列，将所述子序列中连续的相同标签合并为一个标签；

基于每个所述子序列中的标签获得对应的文字内容；

按所述子序列的顺序连接所述获得的文字内容，得到所述文本图像中的文字内容。

在基于本发明上述方法的另一个实施例中，所述将待识别图像输入神经网络之前，还包括：

利用第三神经网络和第四神经网络对所述待识别图像进行处理，获得所述待识别图像中的证件图像。

在基于本发明上述方法的另一个实施例中，所述利用第三神经网络和第四神经网络对所述待识别图像进行处理，包括：

经第三神经网络对所述待识别图像进行特征提取，基于提取到的特征图获取设定大小的备选区域；所述备选区域与证件模板框的大小相适配，所述证件模板框标注有证件类型；

基于第四神经网络从所述备选区域中获取证件图像；所述证件图像与所述预先标注的证件模板框的交并比大于预设阈值。

在基于本发明上述方法的另一个实施例中，所述基于第四神经网络从所述备选区域中获取证件图像，包括：

基于第四神经网络计算所述备选区域与所述预先标注的证件模板框的交并比，获取与所述证件模板框交并比大于预设阈值的所述备选区域；

基于所述证件模板框对所述获取的备选区域进行范数回归，将回归后的备选区域作为证件图像。

在基于本发明上述方法的另一个实施例中，获得所述待识别图像中的证件图像之后，还包括：

对所述证件图像进行特征提取，基于提取的特征对所述证件图像进行范数回归，获得所述证件图像的顶点坐标。

在基于本发明上述方法的另一个实施例中，所述将待识别图像输入神经网络之前，还包括：

基于所述证件图像的位置坐标对所述获得的证件图像进行转正处理，得到平铺证件图像。

在基于本发明上述方法的另一个实施例中，基于所述证件图像的位置坐标对所述获得的证件图像进行转正处理，包括：

基于所述证件图像的位置坐标获得所述证件图像的顶点坐标；

基于获得的所述证件图像的顶点坐标进行投影变换实现对证件图像的进行转正处理。

在基于本发明上述方法的另一个实施例中，基于所述证件图像的位置坐标获得所述证件图像的顶点坐标之后，还包括：

基于所述证件图像的位置坐标获得所述证件图像的边框坐标，基于所述两个顶点坐标和顶点坐标之间的边框坐标获得所述证件图像的边框，计算所述边框的曲率；

基于所述边框的曲率确定所述边框是否为曲线，将所述边框为曲线的证件图像处理为边框为直线的证件图像。

根据本发明实施例的一个方面，提供的一种证件的识别装置，包括：

输入单元，用于将待识别图像输入神经网络；所述待识别图像中包括至少一个证件图像，每个所述证件图像包括至少一个具有格式信息，所述格式信息用于识别对应类型的证件图像；

检测识别单元，用于经所述神经网络获取所述待识别图像中各证件图像包括的文本框中的文字内容；

匹配单元，用于将所述文本框中的文字内容与格式信息进行匹配；

类型判断单元，用于根据所述文本框中的文字内容匹配的格式信息，确认所述证件图像的证件类型。

在基于本发明上述装置的另一个实施例中，所述匹配单元，具体用于基于所述证件图像中已知的格式信息，获得分别对应各所述格式信息的正则表达式；将各所述文本框中的文字内容分别与所述获得的正则表达式进行匹配。

在基于本发明上述装置的另一个实施例中，所述类型判断单元，包括：

信息判断模块，用于根据匹配的格式信息获取所述证件图像中包括信息的种类和位置；

模板匹配模块，用于通过所述获取的信息的种类和位置与证件模板进行匹配，根据所述匹配的证件模板确定所述证件图像的类型；所述证件模板包括设定种类和位置的格式信息。

在基于本发明上述装置的另一个实施例中，所述信息判断模块，具体用于根据与所述文本框中的文字内容匹配的格式信息获得所述文本框包括的信息的种类，根据所述文本框在所述证件图像中的位置获得所述信息的位置。

在基于本发明上述装置的另一个实施例中，所述检测识别单元，包括：

检测模块，用于利用第一神经网络对所述待识别图像中证件图像进行特征提取，基于得到的特征获得所述证件图像中的文本框和所述文本框的位置；

识别模块，用于利用第二神经网络对所述获得的文本框进行文字识别，得到所述文本框中的文字内容。

在基于本发明上述装置的另一个实施例中，所述检测模块，具体用于通过预设的候选区域在所述得到的特征图上移动，基于候选区域中包括的所有像素均预测为文字的所述候选区域获得文本框；所述候选区域包括预设的固定宽度和可变高度；基于所述包括的所有像素均预测为文字的候选区域确定所述获得的文本框的坐标，根据所述文本框的坐标确定所述文本框的位置。

在基于本发明上述装置的另一个实施例中，所述检测识别单元，还包括：

剪裁模块，用于基于所述文本框的位置将所述文本框从所述证件图像中剪裁出来，得到文本图像；

缩放模块，用于在宽高比不变的基础上，将所述文本图像进行缩放得到缩放后的文本图像；所述缩放后的文本图像高度为设定高度值，且宽度大于或等于设定宽度值；或者，所述缩放后的文本图像宽度为设定宽度值，且高度大于或等于设定高度值。

在基于本发明上述装置的另一个实施例中，所述识别模块，包括：

图像处理模块，用于利用第二神经网络将所述缩放后的文本图像处理为高度为1的特征图；

解码模块，用于基于CTC连续时序分类模型对所述特征图进行解码，得到长度对应所述特征图宽度的标签序列；

内容识别模块，用于基于所述标签序列获得所述文本图像中的文字内容；所述标签序列包括至少一个标签，每个所述标签用于表示一个文字。

在基于本发明上述装置的另一个实施例中，所述内容识别模块，具体用于基于空格将所述标签序列分割为至少两个子序列，将所述子序列中连续的相同标签合并为一个标签；基于每个所述子序列中的标签获得对应的文字内容；按所述子序列的顺序连接所述获得的文字内容，得到所述文本图像中的文字内容。

在基于本发明上述装置的另一个实施例中，还包括：

证件识别单元，用于利用第三神经网络和第四神经网络对所述待识别图像进行处理，获得所述待识别图像中的证件图像。

在基于本发明上述装置的另一个实施例中，所述证件识别单元，包括：

备选证件模块，用于经第三神经网络对所述待识别图像进行特征提取，基于提取到的特征图获取设定大小的备选区域；所述备选区域与证件模板框的大小相适配，所述证件模板框标注有证件类型；

证件获取模块，用于基于第四神经网络从所述备选区域中获取证件图像；所述证件图像与所述预先标注的证件模板框的交并比大于预设阈值。

在基于本发明上述装置的另一个实施例中，所述证件获取模块，具体用于基于第四神经网络计算所述备选区域与所述预先标注的证件模板框的交并比，获取与所述证件模板框交并比大于预设阈值的所述备选区域；基于所述证件模板框对所述获取的备选区域进行范数回归，将回归后的备选区域作为证件图像。

在基于本发明上述装置的另一个实施例中，所述证件识别单元，还用于对所述证件图像进行特征提取，基于提取的特征对所述证件图像进行范数回归，获得所述证件图像的顶点坐标。

在基于本发明上述装置的另一个实施例中，还包括：

转正单元，用于基于所述证件图像的位置坐标对所述获得的证件图像进行转正处理，得到平铺证件图像。

在基于本发明上述装置的另一个实施例中，所述转正单元，具体用于基于所述证件图像的位置坐标获得所述证件图像的顶点坐标；基于获得的所述证件图像的顶点坐标进行投影变换实现对证件图像的转正处理。

在基于本发明上述装置的另一个实施例中，所述转正单元，还用于基于所述证件图像的位置坐标获得所述证件图像的边框坐标，基于所述两个顶点坐标和顶点坐标之间的边框坐标获得所述证件图像的边框，计算所述边框的曲率；基于所述边框的曲率确定所述边框是否为曲线，将所述边框为曲线的证件图像处理为边框为直线的证件图像。

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上所述的证件的识别装置。

根据本发明实施例的一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述证件的识别方法的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上所述证件的识别方法的操作。

基于本发明上述实施例提供的一种证件的识别方法和装置、电子设备、计算机存储介质，将待识别图像输入神经网络；经神经网络获取待识别图像中各证件图像包括的文本框中的文字内容；通过神经网络识别到待识别图像包括的文本框中的文字内容，以便于后续根据文本框中的文字内容判断该证件的类型，无需人工参与识别；将文本框中的文字内容与格式信息进行匹配；根据匹配的格式信息确认证件图像的证件类型；实现了通过文字内容自动识别当前待处理图像中包括的证件图像的类型，实现了证件的自动识别和查验，不需要人工指定证件类型和正副页，提高了处理效率的同时，节省了人工。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明证件的识别方法一个实施例的流程图。

图2a-b为本发明证件的识别方法中对证件图像转正一个具体示例的示意图。

图3为本发明证件的识别装置一个实施例的结构示意图。

图4为用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本发明证件的识别方法一个实施例的流程图。如图1所示，该实施例方法包括：

步骤101，将待识别图像输入神经网络。

其中，待识别图像中包括至少一个证件图像，每个证件图像包括至少一个具有格式信息，所述格式信息用于识别对应类型的证件图像。

步骤102，经神经网络获取待识别图像中各证件图像包括的文本框中的文字内容。

具体地，可通过一个神经网络实现检测图像中的文本框和识别文本框中的文字内容，或通过两个神经网络分布实现检测图像中的文本框和识别文本框中的文字内容。

步骤103，将文本框中的文字内容与格式信息进行匹配。

具体地，匹配可以是基于正则表达式进行匹配的，正则表达式Regular Expression，又称规则表达式，是计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串(包括普通字符(例如，a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，模式描述在搜索文本时要匹配的一个或多个字符串。

步骤104，根据文本框中的文字内容匹配的格式信息，确认证件图像的证件类型。

基于本发明上述实施例提供的一种证件的识别方法，将待识别图像输入神经网络；经神经网络获取待识别图像中各证件图像包括的文本框中的文字内容；通过神经网络识别到待识别图像包括的文本框中的文字内容，以便于后续根据文本框中的文字内容判断该证件的类型，无需人工参与识别；将文本框中的文字内容与格式信息进行匹配；根据匹配的格式信息确认证件图像的证件类型；实现了通过文字内容自动识别当前待处理图像中包括的证件图像的类型，实现了证件的自动识别和查验，不需要人工指定证件类型和正副页，提高了处理效率的同时，节省了人工。

在本发明证件的识别方法上述实施例的一个具体示例中，操作103包括：

基于证件图像中已知的格式信息，获得分别对应各格式信息的正则表达式；

将各文本框中的文字内容分别与获得的正则表达式进行匹配。

本实施例中，正则表达式是对字符串操作的一种逻辑公式，通过事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”(本实施例中指设定格式信息的正则表达式)，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

给定一个正则表达式和另一个字符串，可以达到如下的目的：给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”)，本实施例中应用的该过滤逻辑获得与格式信息匹配的文字内容，例如：匹配身份证号的正则表达式为“([1-9]\\d{7}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3})|([1-9]\\d{5}[1-9]\\d{3}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])((\\d{4})|\\d{3}[x]))$”，符合该正则表达式的字符串被认为是身份证号码；还可以通过正则表达式，从字符串中获取想要的特定部分。

在本发明证件的识别方法上述各实施例的一个具体示例中，操作104包括：

根据匹配的格式信息获取证件图像中包括信息的种类和位置；

通过获取的信息的种类和位置与证件模板进行匹配，根据匹配的证件模板确定证件图像的类型；证件模板包括设定种类和位置的格式信息。

本实施例中，先通过正则表达式匹配到证件中的信息的种类和位置，信息包括：身份证号、车牌号、档案编号、日期等；由于每种证件包括的信息的种类和位置都不同，因此，可基于匹配的信息的种类和位置确定证件的类型以及正副页；为提高处理速度，可以先匹配部分文本框中的文字内容，将证件类型缩小范围，根据缩小范围后的证件模板再进行比对和填空，实现快速确认证件的类型；例如：匹配到身份证号即可将证件类型范围缩小至驾驶证正页或副页正面，匹配到车牌号可将范围缩小至行驶证等，经过多种信息缩小范围，最终确定证件类型。已知证件类型后，即可通过文本框和文本框中的文字内容对剩余字段进行比对和填空，将剩余未匹配的文字区域匹配到剩余未填充的文字字段。

在本发明证件的识别方法上述各实施例的一个具体示例中，根据匹配的格式信息获取证件图像中包括信息的种类和位置，包括：

根据与文本框中的文字内容匹配的格式信息获得文本框包括的信息的种类，根据文本框在所述证件图像中的位置获得信息的位置。

在本实施例中，通过与文本框相匹配的格式信息确定证件图像中该文本框中信息的种类，通过文本框的坐标确定该信息的位置。

本发明证件的识别方法的另一个实施例，在上述各实施例的基础上，操作102包括：

利用第一神经网络对待识别图像中证件图像进行特征提取，基于得到的特征获得证件图像中的文本框和文本框的位置；

利用第二神经网络对获得的文本框进行文字识别，得到文本框中的文字内容。

在本实施例中，分别通过两个神经网络对证件图像进行文本框检测和文字内容识别，检测文本框的过程即通过神经网络获得文本内容位置的过程；获得文本框和文本框位置后，通过第二神经网络将文字内容进行识别，获得文本框中的文字内容。

在本发明证件的识别方法上述各实施例的一个具体示例中，基于得到的特征获得证件图像中的文本框和文本框的位置，包括：

通过预设的候选区域在得到的特征图上移动，基于候选区域中包括的所有像素均预测为文字的候选区域获得文本框；候选区域包括预设的固定宽度和可变高度；

基于包括的所有像素均预测为文字的候选区域确定文本框的坐标，根据文本框的坐标确定文本框的位置。

本实施例，具体实施过程可以包括：文字检测基于CTPN(Connectionist Text Proposal Network，连接文字建议网络)的网络结构，首先利用VGG网络对图片进行特征提取得到feature map特征图，再通过预设固定宽度，不同高度(因为文字大多很长，如果宽度不固定容易出现将文字中的某几个字选作负样本的情况)的Ancanchor(候选区域)，对之前提取的feature map特征图上的每一个像素进行预测，预测它是否为文字以及所对应文字的坐标，同时在网络中加入LSTM长短期记忆网络，由于图片中的文字大多宽度很大，加入LSTM可以更好地利用文字区域周围的信息，使得文本的连续性语义信息在训练和测试中得到应用，最终得到较高准确率较快速度的检测结果(图片中文字所在的位置)。

在本发明证件的识别方法上述各实施例的一个具体示例中，利用第二神经网络对获得的文本框进行文字识别之前，还包括：

基于文本框的位置将文本框从证件图像中剪裁出来，得到文本图像；

在宽高比不变的基础上，将文本图像进行缩放得到缩放后的文本图像；缩放后的文本图像高度为设定高度值，且宽度大于或等于设定值；或者，缩放后的文本图像宽度为设定宽度值，且高度大于或等于设定高度值。

在本实施例中，已知文本框的位置即可将证件图像从待处理图像中剪裁处理，作为单独的文本图像；将每张得到的文本图像按比例缩放，使得图像高度为设定高度值(如：32像素)，缩放后宽度小于设定宽度值(如：32像素)的文本图像将被废弃，符合条件的文本图像作为文字识别模型的输入；或将图像宽度缩放为设定宽度值(如：32像素)，缩放后高度小于该设定高度值(如：32像素)的文本图像将被废弃，符合条件的文字图像作为文字识别模型的输入。

在本发明证件的识别方法上述各实施例的一个具体示例中，利用第二神经网络对获得的文本框进行文字识别，包括：

利用第二神经网络将缩放后的文本图像处理为高度为1的特征图；

基于CTC连续时序分类模型进行解码，得到长度对应特征图宽度的标签序列；

基于标签序列获得文本图像中的文字内容；标签序列包括至少一个标签，每个标签用于表示一个文字。

本实施例中，通过第二神经网络进行池化操作，得到高度为1的特征图，具体可以是：通过4次池化操作将原高度32依次变为16、8、4、2，最后使用一个填充为0，使用卷积核为2的卷积层将高度变为1，经过上述操作得到一个高度为1的特征图，该特征图的宽度与输入图片宽度相关；然后，将得到的特征图转置，对通道这一维度做全连接，将通道数映射为5000维左右，最终输出维数比实际需要识别的汉字字符种类数多1，最后用CTC(Connectionist Temporal Classification，连接时序分类)进行解码；得到一个标签序列，每个标签对应一个文字；通过标签即可确定文字内容。CTC解码的具体过程包括：先对输出的特征图用Softmax归一化得到概率分布矩阵，矩阵行数为全连接的通道数，列数为特征图的宽度，每一列和为1，表示该位置每个汉字的概率，第0类表示空白，获得每一列的最大值的序号作为该位置的标签，得到一个长度为特征图宽度的标签序列。

在本发明证件的识别方法上述各实施例的一个具体示例中，基于标签序列获得文本图像中的文字内容，包括：

基于空格将标签序列分割为至少两个子序列，将子序列中连续的相同标签合并为一个标签；

基于每个子序列中的标签获得对应的文字内容；

按子序列的顺序连接获得的文字内容，得到文本图像中的文字内容。

在本实施例中，在得到的标签序列中，有个别位置对应的标签为第0类，即该位置为空白，在证件中，空白表示间隔或区分，因此以空白将序列分为若干子序列，使每个子序列中不包含空白，在各子序列中将连续相同的标签合并为一个，最终按顺序连接所有子序列作为最后文字识别标签，再将标签映射为对应的文字内容。

本发明证件的识别方法的又一个实施例，在上述各实施例的基础上，操作101之前，还包括：

利用第三神经网络和第四神经网络对待识别图像进行处理，获得待识别图像中的证件图像和证件图像的位置坐标。

在本实施例中，对于一个待处理图像中包括一个或两个以上证件图像的情况，首先需要通过第三神经网络和第四神经网络对待识别图像进行处理，识别出待处理图像中的所有证件图像，并确定所有证件图像的位置坐标，以便后续对每个证件图像的类型进行识别。

在本发明证件的识别方法上述各实施例的一个具体示例中，利用第三神经网络和第四神经网络对待识别图像进行处理，包括：

经第三神经网络对待识别图像进行特征提取，基于提取到的特征图获取设定大小的备选区域；备选区域与证件模板框的大小相适配，证件模板框标注有证件类型；

基于第四神经网络从备选区域中获取证件图像；证件图像与预先标注的证件模板框的交并比大于预设阈值。

本实施例中，通过预设的证件模板框从特征图中获取备选区域，从备选区域中筛选得到证件图像，实现了从待处理图像中识别所有证件图像。

在本发明证件的识别方法上述各实施例的一个具体示例中，基于第四神经网络从备选区域中获取证件图像，包括：

基于第四神经网络计算备选区域与预先标注的证件模板框的交并比，获取与证件模板框交并比大于预设阈值的备选区域；

基于证件模板框对获取的备选区域进行范数回归，将回归后的备选区域作为证件图像。

本实施例中，具体可通过RPN(region proposal network，区域建议网络)对事先设定好的一系列固定的Anchor(备选区域)进行判断，计算Anchor与预先标注的证件模板框的IOU(Intersection over Union，交并比)，选择IOU大于阈值的Anchor为正样本；同时RPN回归Anchor所对应的证件模板框的坐标，将回归后的Anchor备选区域作为证件图像。

在本发明证件的识别方法上述各实施例的一个具体示例中，获得待识别图像中的证件图像和证件图像的位置坐标，包括：

对证件图像进行特征提取，基于提取的特征对证件图像进行范数回归，获得证件图像的顶点坐标。

本实施中，通过对证件图像进行范数回归，确定了证件图像的顶点坐标，根据各顶点坐标即可确定当前证件图像的位置，并对图像的倾斜情况有所了解，为下一步转正提供了基础。

本发明证件的识别方法的还一个实施例，在上述各实施例的基础上，所述将待识别图像输入神经网络之前，还包括：

基于证件图像的位置坐标对获得的证件图像进行转正处理，得到平铺证件图像。

本实施例中，基于获得的证件图像的顶点坐标可以确定当前证件图像是否需要转正，通过位置坐标对证件图像进行转正，使本实施例适用范围更广，克服了现有技术中需要对证件对齐拍摄的问题，对于扭曲或倾斜的证件实现自动转正，使得文字方向均为水平方向。

在本发明证件的识别方法上述各实施例的一个具体示例中，基于证件图像的位置坐标对获得的证件图像进行转正处理，包括：

基于证件图像的位置坐标获得证件图像的顶点坐标；基于获得的证件图像的顶点坐标进行投影变换实现对证件图像的进行转正处理。

本实施例中，预测证件图像四个顶点变换后对应的四点，得到四点对应关系即可计算出投影矩阵，图2a-b为本发明证件的识别方法中对证件图像转正一个具体示例的示意图。如图2a所示，为待转正的证件图像；如图2b所示，为基于图2a的证件图像转正后的图像，具体转正过程包括：证件图像的顶点坐标记为(xi，yi)，目标点记为(Xi，Yi)，投影矩阵M为3x3矩阵，M(3,3)＝1，应满足公式(1)：

其中，Si是尺度参数，用于归一化；M为投影矩阵。通过求解公式(1)得到投影矩阵M，对图片进行投影变换。投影变换需要将目标图上的每个点的像素对应到原图中位置选择像素进行填充，像素填充采用双线性插值实现，通过公式(2)实现填充：

即目标点(Xi，Yi)在原图中对应的位置为将该位置的像素值赋予目标点即可。

在本发明证件的识别方法上述各实施例的一个具体示例中，基于证件图像的位置坐标获得证件图像的顶点坐标之后，还包括：

基于证件图像的位置坐标获得证件图像的边框坐标，基于两个顶点坐标和顶点坐标之间的边框坐标获得证件图像的边框，计算边框的曲率；

基于边框的曲率确定边框是否为曲线，将边框为曲线的证件图像处理为边框为直线的证件图像。

本实施例中，曲线的曲率(curvature)就是针对曲线上某个点的切线方向角对弧长的转动率，通过微分来定义，表明曲线偏离直线的程度。数学上表明曲线在某一点的弯曲程度的数值。当曲率为0时，该曲线为直线，此时，直接应用投影变换即可实现对证件图像的转正处理；而当曲率不为0时，需要将边框为曲线的证件图像处理为边框为直线的证件图像，再进行投影变换实现对证件图像的转正处理。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图3为本发明证件的识别装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图3所示，该实施例的装置包括：

输入单元31，用于将待识别图像输入神经网络。

其中，待识别图像中包括至少一个证件图像，每个证件图像包括至少一个具有格式信息，所述格式信息用于识别对应类型的证件图像。

检测识别单元32，用于经神经网络获取待识别图像中各证件图像包括的文本框中的文字内容。

匹配单元33，用于将文本框中的文字内容与格式信息进行匹配。

类型判断单元34，用于根据文本框中的文字内容匹配的格式信息，确认证件图像的证件类型。

基于本发明上述实施例提供的一种证件的识别装置，将待识别图像输入神经网络；经神经网络获取待识别图像中各证件图像包括的文本框中的文字内容；通过神经网络识别到待识别图像中的文本框中的文字内容，以便于后续根据文本框和文字内容判断该证件的类型，无需人工参与识别；将文本框中的文字内容与格式信息进行匹配；根据匹配的格式信息确认证件图像的证件类型；实现了通过文字内容自动识别当前待处理图像中包括的证件图像的类型，实现了证件的自动识别和查验，不需要人工指定证件类型和正副页，提高了处理效率的同时，节省了人工。

在本发明证件的识别装置上述实施例的一个具体示例中，匹配单元33，具体用于基于证件图像中已知的格式信息，获得分别对应各格式信息的正则表达式；将各文本框中的文字内容分别与获得的正则表达式进行匹配。

在本发明证件的识别装置上述各实施例的一个具体示例中，类型判断单元34，包括：

信息判断模块，用于根据匹配的格式信息获取证件图像中包括信息的种类和位置；

模板匹配模块，用于通过获取的信息的种类和位置与证件模板进行匹配，根据匹配的证件模板确定证件图像的类型；证件模板包括设定种类和位置的格式信息。

在本发明证件的识别装置上述实施例的一个具体示例中，信息判断模块，具体用于根据与文本框中的文字内容匹配的格式信息获得文本框包括的信息的种类，根据文本框在证件图像中的位置获得信息的位置；信息种类和位置的组合节课确定证件图像对应哪一种证件模板，进而确定证件图像的证件类型。

本发明证件的识别装置的另一个实施例，在上述各实施例的基础上，检测识别单元32，包括：

检测模块，用于利用第一神经网络对待识别图像中证件图像进行特征提取，基于得到的特征获得证件图像中的文本框和文本框的位置；

识别模块，用于利用第二神经网络对获得的文本框进行文字识别，得到文本框中的文字内容。

在本发明证件的识别装置上述实施例的一个具体示例中，检测模块，具体用于通过预设的候选区域在得到的特征图上移动，基于候选区域中包括的所有像素均预测为文字的候选区域获得文本框；候选区域包括预设的固定宽度和可变高度；基于包括的所有像素均预测为文字的候选区域确定获得的文本框的坐标，根据文本框的坐标确定文本框的位置。

在本发明证件的识别装置上述实施例的一个具体示例中，检测识别单元，还包括：

剪裁模块，用于基于文本框的位置将文本框从证件图像中剪裁出来，得到文本图像；

缩放模块，用于在宽高比不变的基础上，将文本图像进行缩放得到缩放后的文本图像；缩放后的文本图像高度为设定高度值，且宽度大于或等于设定宽度值；或者，缩放后的文本图像宽度为设定宽度值，且高度大于或等于设定高度值。

在本发明证件的识别装置上述实施例的一个具体示例中，识别模块，包括：

图像处理模块，用于利用第二神经网络将缩放后的文本图像处理为高度为1的特征图；

解码模块，用于基于CTC连续时序分类模型对特征图进行解码，得到长度对应特征图宽度的标签序列；

内容识别模块，用于基于标签序列获得文本图像中的文字内容；标签序列包括至少一个标签，每个标签用于表示一个文字。

在本发明证件的识别装置上述实施例的一个具体示例中，内容识别模块，具体用于基于空格将标签序列分割为至少两个子序列，将子序列中连续的相同标签合并为一个标签；基于每个子序列中的标签获得对应的文字内容；按子序列的顺序连接获得的文字内容，得到文本图像中的文字内容。

本发明证件的识别装置的又一个实施例，在上述各实施例的基础上，还包括：

证件识别单元，用于利用第三神经网络和第四神经网络对待识别图像进行处理，获得待识别图像中的证件图像。

在本发明证件的识别装置上述各实施例的一个具体示例中，证件识别单元，包括：

备选证件模块，用于经第三神经网络对待识别图像进行特征提取，基于提取到的特征图获取设定大小的备选区域；备选区域与证件模板框的大小相适配，证件模板框标注有证件类型；

证件获取模块，用于基于第四神经网络从备选区域中获取证件图像；证件图像与预先标注的证件模板框的交并比大于预设阈值。

在本发明证件的识别装置上述各实施例的一个具体示例中，证件获取模块，具体用于基于第四神经网络计算备选区域与预先标注的证件模板框的交并比，获取与证件模板框交并比大于预设阈值的备选区域；基于证件模板框对获取的备选区域进行范数回归，将回归后的备选区域作为证件图像。

在本发明证件的识别装置上述各实施例的一个具体示例中，证件识别单元，还用于对证件图像进行特征提取，基于提取的特征对证件图像进行范数回归，获得证件图像的顶点坐标。

本发明证件的识别装置的还一个实施例，在上述各实施例的基础上，还包括：

转正单元，用于基于证件图像的位置坐标对获得的证件图像进行转正处理，得到平铺证件图像。

在本发明证件的识别装置上述各实施例的一个具体示例中，转正单元，具体用于基于证件图像的位置坐标获得证件图像的顶点坐标；基于获得的证件图像的顶点坐标进行投影变换实现对证件图像的转正处理。

在本发明证件的识别装置上述各实施例的一个具体示例中，转正单元，还用于基于证件图像的位置坐标获得证件图像的边框坐标，基于两个顶点坐标和顶点坐标之间的边框坐标获得证件图像的边框，计算边框的曲率；基于边框的曲率确定边框是否为曲线，将边框为曲线的证件图像处理为边框为直线的证件图像。

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，处理器包括本发明上述任一实施例所述的证件的识别装置。

根据本发明实施例的一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与存储器通信以执行可执行指令从而完成本发明证件的识别方法上述任一实施例的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行本发明证件的识别方法上述任一实施例的操作。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图4，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备400的结构示意图：如图4所示，计算机系统400包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)401，和/或一个或多个图像处理器(GPU)413等，处理器可以根据存储在只读存储器(ROM)402中的可执行指令或者从存储部分408加载到随机访问存储器(RAM)403中的可执行指令而执行各种适当的动作和处理。通信部412可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器402和/或随机访问存储器430中通信以执行可执行指令，通过总线404与通信部412相连、并经通信部412与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，将待识别图像输入神经网络；经神经网络获取待识别图像中各证件图像包括的文本框中的文字内容；将文本框中的文字内容与格式信息进行匹配；根据文本框中的文字内容匹配的格式信息，确认证件图像的证件类型。

此外，在RAM 403中，还可存储有装置操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。在有RAM403的情况下，ROM402为可选模块。RAM403存储可执行指令，或在运行时向ROM402中写入可执行指令，可执行指令使处理器401执行上述通信方法对应的操作。输入/输出(I/O)接口405也连接至总线404。通信部412可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

需要说明的，如图4所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图4的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，将待识别图像输入神经网络；经神经网络获取待识别图像中各证件图像包括的文本框中的文字内容；将文本框中的文字内容与格式信息进行匹配；根据文本框中的文字内容匹配的格式信息，确认证件图像的证件类型。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梁鼎
技术所有人：北京市商汤科技开发有限公司
我是此专利的发明人

上一篇：一种建筑用幕墙的制作方法
上一篇：一种具有二级防水结构的双曲面幕墙的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。