基于语义分割的证件定位及分类方法与流程

文档序号：35369570发布日期：2023-09-08 06:04阅读：29来源：国知局

本发明涉及计算机视觉，具体为基于语义分割的证件定位及分类方法。

背景技术：

1、物体检测旨在图像中定位出预先定义的物体实例，用边界框表示物体位置，边界框即标准矩形框，可用两个坐标点(左上角坐标和右下角坐标)或者中心点坐标与宽高值唯一确定。基于深度学习的常用的物体检测算法有两阶段的r-cnn系列和为实时推理设计的单阶段算法，如ssd、ret i nanet、yolo系列。身份证件照片广泛用于在线理财、互联网金融和电子商务领域，对于用户拍摄的证件图像，往往包含大量背景，而证件只占部分区域，因此，精确定位出证件区域极其重要，尤其还要关注拍摄上传的证件是否包含有旋转、倾斜、翻转、破损、残缺、遮挡问题。

2、1.现有专利(公开号：cn112017245a)公开了一种证件定位方法。获取待检测图像，将所述待检测图像输入目标检测模型，通过所述目标检测模型对所述待检测图像进行目标检测，得到检测结果；所述检测结果包括所述待检测图像中证件的类型信息、所述待检测图像中证件的位置信息、所述待检测图像中证件的顶点的位置信息、所述待检测图像中证件的方向信息。通过增加预测结构的数目来改变现有目标检测模型的结构，从而新增证件的目标检测中证件整体方向和证件顶点位置两项检测数据，实现了在更快证件检测的同时提升证件检测的效果；2.现有专利(公开号：cn114240952a)公开了一种证件定位方法、装置、电子设备以及可读存储介质，该方法先获取样本图像，其中，样本图像可以通过对目标证件的原始图像进行变换得到，再对样本图像中目标证件的所有顶点坐标进行标注，并基于样本图像构建损失函数，基于该损失函数进行模型参数迭代至收敛，以获得模型定位模块，该模型定位模型采用对目标证件的原始图像进行变换得到的样本图像训练，且对目标证件的所有顶点进行标注，该变换包括旋转、斜切、扭曲、透视、仿射等，使得训练得到的证件定位模型对图像中非规整形状的目标证件能够实现精准的定位，为后续证件中信息的检测、识别、提取等提供了基础，扩大了证件定位的适用性。

3、基于物体检测算法，专利1同时对证件进行定位、分类，获取证件方向信息。专利2针对非规整矩形的证件无法有效检测的问题，提出对证件的顶点进行标注，基于yo l o框架预测出证件的四个顶点。

4、以上方法存在明显的缺点，即无论通过标准矩形框还是四个点的四边形框都无法准确描述证件边缘(比如有透视、破损的证件)，无法基于检测结果判断证件是否存在破损、残缺质量问题。虽然检测四个顶点的方法一定程度上能够判断证件的倾斜角度，但是无法判断证件朝向，比如是否翻转、是否旋转180°的问题。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本发明提供了基于语义分割的证件定位及分类方法，解决了无论通过标准矩形框还是四个点的四边形框都无法准确描述证件边缘的问题。

3、(二)技术方案

4、为实现以上目的，本发明通过以下技术方案予以实现：基于语义分割的证件定位及分类方法，所述方法包括：

5、基于模型的特征提取网络、特征融合和预测分支网络，其中预测分支网络包括语义分割分支和证件类型分类分支。

6、优选的，所述方法中包括模型设计，是对于模型主体框架的选择，可用任意的轻量级实时语义分割模型，需要对其进行改进以适应证件和人像区域的定位，以及证件的分类。

7、优选的，所述方法中还包括处理流程，是对待检测输入图像，预处理阶段将图像转换为浮点型张量，大小缩放到指定尺寸，将像素值归一化到0和1之间。

8、优选的，所述模型设计具体包括以下步骤：

9、s1.由于人像区域完全包含在证件区域，对于分割分支输出的特征图，通用的语义分割模型在某一像素点进行多分类，即一个像素只能属于某一类，而证件和人像重叠区域的像素可同时属于证件和人像；

10、s2.将证件的分类和分割解耦，分割分支只负责证件和人像的特征图输出，证件分类分支专门负责证件类别的分类。

11、优选的，所述处理流程具体包括以下步骤：

12、1).特征提取网络使用基于cnn的模型提取图像特征；

13、2).特征融合阶段将特征提取网络得到的多尺度的特征图进行融合；

14、3).预测分支网络的设计，包括语义分割分支和证件类型分类分支，共用特征提取网络，各分支负责不同任务；

15、4).针对证件的特点，不同于通用语义分割模型所处理的其他物体对象，比如天空、草原。

16、(三)有益效果

17、本发明提供了基于语义分割的证件定位及分类方法。具备以下有益效果：

18、本发明提供了基于语义分割的证件定位及分类方法，本发明基于语义分割模型而不是物体检测模型，预测证件和人像区域，使用掩膜表示，能更加精细地表示证件区域，基于掩膜能精准裁剪出证件用于后续处理，并且根据人像区域在证件中的相对位置，可以判断证件朝向，如翻转、旋转。

19、本发明提供了基于语义分割的证件定位及分类方法，本发明能够将证件分割和证件分类解耦，便于分割分支和分类分支单独优化，提升各分支性能，模型训练阶段，可有效避免数据不均衡造成的问题，假设训练数据集中有5000张身份证，10张驾照，如果采用通用的语义分割模型，那几乎只能学到身份证的信息而无法实现证件分类，解耦之后，分割分支只需要关注证件即可，不需要关注是身份证还是驾照，另外，便于模型的扩展，假设新增证件类型，则优化模型时，可将特征提取网络和分割分支冻结，只需要收集新类型证件用于优化分类分支，从而避免对新类型数据的证件区域标注，节省大量人力物力支出。

20、本发明提供了基于语义分割的证件定位及分类方法，本发明能够将语义分割的多分类替换为二分类，便于对证件特征图的专门优化，基于证件区域的特点设计特定的mask区域损失函数，使得到的mask更加精细，并且模型得到的证件mask可用于判断证件是否破损、残缺、遮挡质量问题。

技术特征：

1.基于语义分割的证件定位及分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于语义分割的证件定位及分类方法，其特征在于：所述方法中包括模型设计，是对于模型主体框架的选择，可用任意的轻量级实时语义分割模型，需要对其进行改进以适应证件和人像区域的定位，以及证件的分类。

3.根据权利要求1所述的基于语义分割的证件定位及分类方法，其特征在于：所述方法中还包括处理流程，是对待检测输入图像，预处理阶段将图像转换为浮点型张量，大小缩放到指定尺寸，将像素值归一化到0和1之间。

4.根据权利要求2所述的基于语义分割的证件定位及分类方法，其特征在于：所述模型设计具体包括以下步骤：

5.根据权利要求3所述的基于语义分割的证件定位及分类方法，其特征在于：所述处理流程具体包括以下步骤：

技术总结
本发明提供基于语义分割的证件定位及分类方法，涉及计算机视觉技术领域。本发明能够像素级分类，并精确输出证件区域，然后使用掩膜MASK进行表示，同时能够标注证件和证件中人像区域，通过基于人像在证件中的相对位置，能够判断证件是否翻转、180°旋转朝向的问题，还可通过掩膜MASK得到边界框，通过边界框判断证件旋转角度，而由基于模型输出的证件掩膜MASK，可据此判断证件是否残缺、破损、遮挡质量问题，在基于掩膜MASK精确裁剪证件区域，不包含背景信息，避免背景信息对后续处理的干扰，并在对证件区域进行精确定位的同时，设计一个分类分支网络，对证件类型起到分类的作用。

技术研发人员：高利军,黄泽琪,罗凡,李茜
受保护的技术使用者：唯思电子商务（深圳）有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高利军黄泽琪罗凡李茜
技术所有人：唯思电子商务（深圳）有限公司
我是此专利的发明人

上一篇：一种花卉蔬菜种植用施肥灌溉装置的制作方法
上一篇：一种用于色母切粒机的出粒机构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。