图像分类方法和装置、电子设备及存储介质与流程

文档序号:33366973发布日期:2023-03-07 23:15阅读:44来源:国知局
图像分类方法和装置、电子设备及存储介质与流程

1.本技术涉及人工智能技术领域,尤其涉及一种图像分类方法和装置、电子设备及存储介质。


背景技术:

2.随着人们生活水平的提高,人们购买保险的意愿越来越强,在保险行业积累着大量的文档资料。而随着时间的推移,需要将这些文档进行归类,比如分为银行卡、身份证、户口本、发票和病历等图像资料,保险行业作为金融行业的一个很重要的场景,对应用户上传的图像资料需要严格进行归档,以便后续保险流程的处理,比如将用户上传的资料区分为身份证、户口本、发票和病历图像资料后,对应的图像资料可以快速进入后续步骤,身份图像资料可以快速针对性校验用户的身份信息,病历图像资料则可以快速用于针对性校验健康信息等。而业内对于客户图像资料的处理,目前需要采用多个不同的app端分别录入对应的图像资料,因此需要人为区分不同app端的入口,但是这种方式容易产生误判,且容易干扰用户的行为,耗时耗力。


技术实现要素:

3.本技术实施例的主要目的在于提出一种图像分类方法和装置、电子设备及存储介质,能够对图像资料自动准确识别并分类,以便于快速完成客户图像资料上传并归档,从而减少与客户的交互次数,减少以人为区分不同app端的入口再录入对应图像资料这种方式带来的误判,省时省力,提高效率。
4.为实现上述目的,本技术实施例的第一方面提出了一种图像分类方法,所述方法包括:
5.获取目标图像;
6.将所述目标图像输入至预先训练好的分类模型,其中,所述分类模型基于se-resnet网络对所述目标图像进行分类识别;
7.通过所述分类模型对所述目标图像进行图像分类,生成图像分类结果。
8.在一些实施例,所述分类模型的训练方法包括:
9.获取训练图像,并对所述训练图像进行预处理,得到正样本及负样本;
10.利用faster-rcnn网络检测所述正样本及所述负样本,得到至少一个初始候选区域;
11.利用softmax-nms算法对至少一个所述初始候选区域进行筛选,得到至少一个中间候选区域;
12.将至少一个所述中间候选区域输入至所述se-resnet网络,得到特征金字塔;
13.将至少一个所述中间候选区域及所述特征金字塔输入至所述faster-rcnn网络,并根据所述faster-rcnn网络的输出调整所述faster-rcnn网络的参数,直至所述faster-rcnn网络收敛,得到所述分类模型。
14.在一些实施例,获取所述训练图像,并对所述训练图像进行预处理,得到正样本及负样本,包括:
15.从所述训练图像中获取带有目标标识的第一图像;
16.对所述第一图像进行图像增强处理,得到正样本;
17.从所述训练图像中获取不带有所述目标标识的第二图像,得到负样本。
18.在一些实施例,利用softmax-nms算法对所述至少一个所述初始候选区域进行筛选,得到至少一个中间候选区域,包括:
19.获取每个所述初始候选区域的置信度;
20.根据每个所述初始候选区域的所述置信度计算每个所述初始候选区域的softmax;
21.对每个所述初始候选区域的softmax进行高斯加权处理,得到每个所述初始候选区域的置信度分值;
22.从至少一个所述初始候选区域中删除所述置信度分值小于预设阈值的所述初始候选区域,得到所述至少一个中间候选区域。
23.在一些实施例,将所述至少一个所述中间候选区域输入至所述se-resnet网络,得到特征金字塔,包括:
24.将所述至少一个所述中间候选区域分别输入至所述se-resnet网络中的各个残差块,得到对应各个所述残差块的多个不同的尺度特征;
25.对多个不同的所述尺度特征进行特征融合,得到特征金字塔。
26.在一些实施例,所述将至少一个所述中间候选框及所述特征金字塔输入至所述faster-rcnn网络,包括:
27.对所述至少一个所述中间候选框及所述特征金字塔进行池化,得到多个ro i区域;
28.将多个所述ro i区域的大小统一成预定尺寸,并输入至所述faster-rcnn网络的边框回归层和边框分类层。
29.在一些实施例,所述方法还包括:
30.将所述分类模型转换为tflite模型文件,其中,所述tflite模型文件用于部署在所述电子设备的app端。
31.为实现上述目的,本技术实施例的第二方面提出了一种图像分类装置,所述装置包括:
32.获取模块,用于获取目标图像;
33.识别模块,用于将所述目标图像输入至预先训练好的分类模型,其中,所述分类模型基于se-resnet网络对所述目标图像进行分类识别;
34.分类模块,用于通过所述分类模型对所述目标图像进行图像分类,生成图像分类结果。
35.为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
36.为实现上述目的,本技术实施例的第四方面提出了一种计算机可读存储介质,所
述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
37.本技术提出的图像分类方法和装置、电子设备及存储介质,获取目标图像;将目标图像输入至预先训练好的分类模型,其中,分类模型基于se-resnet网络对目标图像进行分类识别;通过分类模型对目标图像进行图像分类,生成图像分类结果。基于此,本技术将目标图像输入至分类模型,通过分类模型对目标图像进行图像分类,得到图像分类结果,从而能够对图像资料自动准确识别并分类,以便于快速完成客户图像资料上传并归档,从而减少与客户的交互次数,减少以人为区分不同app端的入口再录入对应图像资料这种方式带来的误判,省时省力,提高效率。需要指出的是,分类模型是基于se-resnet网络对目标图像进行分类识别,se-resnet网络是将se(squeeze-and-excitat ion)模块嵌入到resnet(res i dua l networks)网络而得到,其中,se模块的结构非常简单,其具有轻量化的特点,特别容易部署,不需要引入新的函数或者卷积层,并且增加的参数量微乎其微,因此,便于在电子设备的app端进行部署。此外,通过引入se模块可以提升分类模型对于图像通道之间的特征感知能力,提升分类模型性能,可以让分类模型获得图像全面深层次特征,增加分类模型泛化能力。se模块能够对图像特征的重要性进行重调使得全局信息能够用来对每一个特征的重要性进行衡量,而且将se模块嵌入到resnet网络能够提取图像的特征更为丰富,从而使得分类模型对图像的分类识别的准确率更高。
附图说明
38.图1是本技术实施例提供的图像分类方法的流程图;
39.图2是分类模型的训练方法的流程图;
40.图3是图2中的步骤s201的流程图;
41.图4是图2中的步骤s203的流程图;
42.图5是图2中的步骤s204的流程图;
43.图6是图2中的步骤s205的流程图;
44.图7是本技术实施例提供的图像分类装置的结构示意图;
45.图8是本技术实施例提供的电子设备的硬件结构示意图。
具体实施方式
46.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
47.需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
48.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
49.首先,对本技术中涉及的若干名词进行解析:
50.人工智能(art ificia l i nte l l igence,ai):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
51.保险:是指投保人根据合同约定,向保险人支付保险费,保险人对于合同约定的可能发生的事故因其发生所造成的财产损失承担赔偿保险金责任,或者被保险人死亡、伤残、疾病或者达到合同约定的年龄、期限等条件时承担给付保险金责任的商业保险行为。
52.应用(app l icat ion,app):主要指安装在智能手机上的软件,完善原始系统的不足与个性化。使手机完善其功能,为用户提供更丰富的使用体验的主要手段。手机软件的运行需要有相应的手机系统,市场常用的手机系统:苹果公司的ios、谷歌公司的android(安卓)系统、华为公司的(鸿蒙)系统、塞班平台和微软平台。
53.残差网络(res idua l network,resnet):是一种非常有效的缓解梯度消失问题网络,极大的提高了可以有效训练的网络的深度。其由来自microsoft research的4位学者提出的卷积神经网络,在2015年的imagenet大规模视觉识别竞赛(imagenet large sca l e vi sua l recogn it i on cha l l enge,i lsvrc)中获得了图像分类和物体识别的优胜。残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。需要说明的是,resnet是由残差块(res i dua l b l ock)构建的。
54.faster-rcnn(faster-reg i ons with cnn features):是通过区域提议网络实现实时目标检测。输入一张图片至faster-rcnn中,faster-rcnn不仅能够检测出该张图片中的对象,还能用锚定框(例如,矩形框)框选出这些对象的位置以及这些位置的置信概率。
55.非极大值抑制(non-maximum suppress i on,nms):是一种去除非极大值的算法,常用于计算机视觉中的边缘检测、物体识别、人脸检测、目标检测(dpm,yolo,ssd,faster-rcnn)等。其思想是搜素局部最大值,抑制非极大值。非极大值抑制顾名思义就是抑制不是极大值的元素,可以理解为局部最大搜索。这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小。
56.ro l(regi on of i nterest):即感兴趣区域。在机器视觉、图像处理中,从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域,称为感兴趣区域,ro i。在ha l con、opencv、mat l ab等机器视觉软体上常用到各种运算元(operator)和函式来求得感兴趣区域ro i,并进行图像的下一步处理。
57.softmax函数:又称归一化指数函数,在数学尤其是概率论和相关领域中是逻辑函数的一种推广。它能将一个含任意实数的k维向量z“压缩”到另一个k维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。该函数多用于多分类问题中。
58.tfli te(tensorf l ow lite)模型:是从训练的模型转换而来的,其目的是为了在app设备上使用。tensorf l ow lite的设计旨在在各种设备上高效执行模型。这种高效
部分源于在存储模型时,采用了一种特殊的格式。tensorf l ow模型在能被tensorf l ow l ite使用前,必须转换成这种格式。
59.基于此,本技术实施例提供了一种图像分类方法和装置、电子设备及存储介质,通过获取目标图像,将目标图像输入至预先训练好的分类模型,其中,分类模型基于se-resnet网络对目标图像进行分类识别,通过分类模型对目标图像进行图像分类,生成图像分类结果。基于此,本技术将目标图像输入至分类模型,通过分类模型对目标图像进行图像分类,得到图像分类结果,从而能够对图像资料自动准确识别并分类,以便于快速完成客户图像资料上传并归档,从而减少与客户的交互次数,减少以人为区分不同app端的入口再录入对应图像资料这种方式带来的误判,省时省力,提高效率。需要指出的是,分类模型是基于se-resnet网络对目标图像进行分类识别,se-resnet网络是将se模块嵌入到resnet网络而得到,其中,se模块的结构非常简单,其具有轻量化的特点,特别容易部署,不需要引入新的函数或者卷积层,并且增加的参数量微乎其微,因此,便于在电子设备的app端进行部署。此外,通过引入se模块可以提升分类模型对于图像通道之间的特征感知能力,提升分类模型性能,可以让分类模型获得图像全面深层次特征,增加分类模型泛化能力。se模块能够对图像特征的重要性进行重调使得全局信息能够用来对每一个特征的重要性进行衡量,而且将se模块嵌入到resnet网络能够提取图像的特征更为丰富,从而使得分类模型对图像的分类识别的准确率更高。
60.本技术实施例提供的图像分类方法和装置、电子设备及存储介质,具体通过如下实施例进行说明,首先描述本技术实施例中的图像分类方法。
61.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(art i f i c i a l i nte l l i gence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
62.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
63.本技术实施例提供的图像分类方法,涉及人工智能技术领域。本技术实施例提供的图像分类方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现图像分类方法的应用等,但并不局限于以上形式。
64.本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例
程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
65.需要说明的是,在本技术的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关国家和地区的相关法律法规和标准。此外,当本技术实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本技术实施例能够正常运行的必要的用户相关数据。
66.图1是本技术实施例提供的图像分类方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤s101至步骤s103。
67.步骤s101,获取目标图像;
68.步骤s102,将目标图像输入至预先训练好的分类模型,其中,分类模型基于se-resnet网络对目标图像进行分类识别;
69.步骤s103,通过分类模型对目标图像进行图像分类,生成图像分类结果。
70.需要说明的是,本方法可以应用于电子设备,电子设备包括但不限于手机、智能相机等智能设备。
71.在一些实施例的步骤s101中,可以通过智能相机拍摄图像资料来获取目标图像,其中,目标图像可以包括但不限于身份证人像面、身份证国徽面、户口本、银行卡、发票和病历等图像资料。
72.在一些实施例的步骤s102中,将目标图像输入至预先训练好的分类模型,其中,分类模型基于se-resnet网络对目标图像进行分类识别。se-resnet网络是将se模块嵌入到resnet网络而得到,其中,se模块的结构非常简单,其具有轻量化的特点,特别容易部署,不需要引入新的函数或者卷积层,并且增加的参数量微乎其微,因此,便于在电子设备的app端进行部署。此外,通过引入se模块可以提升分类模型对于图像通道之间的特征感知能力,提升分类模型性能,可以让分类模型获得图像全面深层次特征,增加分类模型泛化能力。se模块能够对图像特征的重要性进行重调使得全局信息能够用来对每一个特征的重要性进行衡量,而且将se模块嵌入到resnet网络能够提取图像的特征更为丰富,从而使得分类模型对图像的分类识别的准确率更高。
73.在一些实施例的步骤s103中,通过分类模型对目标图像进行图像分类,生成图像分类结果。本技术通过分类模型对图像资料自动准确识别并分类,能够便于快速完成客户图像资料上传并归档,从而减少与客户的交互次数,减少以人为区分不同app端的入口再录入对应图像资料这种方式带来的误判,省时省力,提高效率。
74.在一些实施例中,在分类模型的训练阶段,可以通过收集公司特定身份证人像面、身份证国徽面、户口本、银行卡、发票和病历等图片,标识不同的标记l abe l、并进行数据增强,形成对应标签的正样本,并收集其他不包含上述类型的作为负样本。采用faster-rcnn主干网络进行人像面、身份证国徽面、户口本、银行卡、发票和病历的检测,形成这些l abe l对应的的候选区域,共形成3种不同大小和3种不同面积的anchor,在对这些候选框进
行nms采用改进的softmax-nms,即《xi,yi,w,h,socre》假设为其中一个候选区域,与nms不同的是,不是简单地进行score进行排序再剔除小score的候选区域,而是对score计算他的softmax并采用高斯加权,然后再进行score的排序,并基于阈值剔除小于阈值的候选区域。对上述softmax-nms后的候选框区域送入4个b l ock模块b l ock1、b l ock2、b l ock3、b l ock4,每个b l ock采用resnet50卷积模块结合senet模块,得到每个卷积模块的特征。再对得到的4个b l ock模块的不同尺度特征v1、v2、v3、v4进行特征融合,例如,可以将v1和v3进行特征融合,v2和v4进行特征融合,从而得到特征金字塔。再将得到的候选区域和特征金字塔经过池化得到一系列roi区域,可以将这些区域进行统一尺寸9*9,并送入fasterrcnn的框分类和回归部分。训练分类模型并调参至收敛。将训练好的分类模型通过tflite部署在app端,当用户唤起摄像头拍照上传资料的时候,利用tflite推断得到当前要拍的这幅图片的类别,进而客户资料的归类。
75.本技术实施例所示意的步骤s101至步骤s103,通过获取目标图像,将目标图像输入至预先训练好的分类模型,其中,分类模型基于se-resnet网络对目标图像进行分类识别,通过分类模型对目标图像进行图像分类,生成图像分类结果。基于此,本技术能够对图像资料自动准确识别并分类,以便于快速完成客户图像资料上传并归档,从而减少与客户的交互次数,减少以人为区分不同app端的入口再录入对应图像资料这种方式带来的误判,省时省力,提高效率。需要指出的是,分类模型是基于se-resnet网络对目标图像进行分类识别,se-resnet网络是将se模块嵌入到resnet网络而得到,其中,se模块的结构非常简单,其具有轻量化的特点,特别容易部署,不需要引入新的函数或者卷积层,并且增加的参数量微乎其微,因此,便于在电子设备的app端进行部署。此外,通过引入se模块可以提升分类模型对于图像通道之间的特征感知能力,提升分类模型性能,可以让分类模型获得图像全面深层次特征,增加分类模型泛化能力。se模块能够对图像特征的重要性进行重调使得全局信息能够用来对每一个特征的重要性进行衡量,而且将se模块嵌入到resnet网络能够提取图像的特征更为丰富,从而使得分类模型对图像的分类识别的准确率更高。
76.请参阅图2,在一些实施例中,分类模型的训练方法可以包括但不限于包括步骤s201至步骤s205:
77.步骤s201,获取训练图像,并对训练图像进行预处理,得到正样本及负样本;
78.步骤s202,利用faster-rcnn网络检测正样本及负样本,得到至少一个初始候选区域;
79.步骤s203,利用softmax-nms算法对至少一个初始候选区域进行筛选,得到至少一个中间候选区域;
80.步骤s204,将至少一个中间候选区域输入至se-resnet网络,得到特征金字塔;
81.步骤s205,将至少一个中间候选区域及特征金字塔输入至faster-rcnn网络,并根据faster-rcnn网络的输出调整faster-rcnn网络的参数,直至faster-rcnn网络收敛,得到分类模型。
82.在一些实施例的步骤s201中,在保险场景中,训练图像可以为身份证人像面、身份证国徽面、户口本、银行卡、发票和病历等图像资料。标识不同的标记l abe l,形成对应标签的正样本,并收集其他不包含上述类型的作为负样本。
83.在一些实施例的步骤s202中,faster-rcnn为通过区域提议网络实现实时目标检
测。输入一张图片至faster-rcnn中,faster-rcnn不仅能够检测出该张图片中的对象,还能用锚定框(例如,矩形框)框选出这些对象的位置以及这些位置的置信概率。分别将正样本和负样本输入至faster-rcnn网络中,采用faster-rcnn主干网络分别在所述正样本及所述负样本中进行目标标识的检测,例如,身份证的检测。当在正样本或者负样本中检测到了目标标识,则用锚定框框选出目标标识所在的区域,例如,身份证人像所在的区域。由于锚定框框选出的区域中有些是真实的目标标识,有些是误检测的,因此,将锚定框框选出的区域确定为候选区域。本实施例中,可以在正样本中检测到一个或者多个对象,也可以在负样本中检测到一个或者多个对象,不同的对象可以用不同的锚定框进行框选。
84.在一些实施例的步骤s203中,获取至少一个初始候选区域中每个初始候选区域的置信度;根据每个初始候选区域的置信度计算每个初始候选区域的softmax;对每个初始候选区域的softmax进行高斯加权处理,得到每个初始候选区域的置信度分值;从至少一个初始候选区域中删除置信度分值小于配置分值的初始候选区域,得到至少一个中间候选区域。传统的非极大值抑制算法(non-maximum suppress i on,nms)只是简单地进行置信度分值的排序,再剔除较小置信度分值对应的候选区域,本实施方式采用softmax-nms(基于softmax的非极大值抑制算法)以改进原有的nms算法,即:计算置信度分值的softmax,并进行高斯加权,然后再进行置信度分值的排序,并将配置分值作为阈值,从而剔除小于阈值的候选区域。在本发明的至少一个实施例中,对每个初始候选区域的softmax进行高斯加权处理,得到每个初始候选区域的置信度分值包括:获取softmax最大的初始候选区域;计算softmax最大的初始候选区域与每个初始候选区域的交并比;根据每个初始候选区域的softmax及对应的交并比计算得到每个初始候选区域的置信度分值。
85.在一些实施例的步骤s204中,可以将至少一个中间候选区域输入至se-resnet网络进行特征提取,得到特征金字塔。例如,可以对上述softmax-nms后的中间候选区域输入至4个b l ock模块,4个b l ock模块分别为b l ock1、b l ock2、b l ock3和b l ock4,每个b l ock采用resnet50卷积模块结合senet模块,得到每个卷积模块的特征。再对得到的4个b l ock模块的不同尺度特征v1、v2、v3、v4进行特征融合,例如,可以将v1和v3进行特征融合,v2和v4进行特征融合,以得到特征金字塔。通过多级特征融合,可以让浅层特征融合深层特征,增加模型在小目标的上的模型效果,以便于在app端进行部署,同时实现不同维度的特征融合,使提取的特征更加全面、细致,表达也更清晰。
86.在一些实施例的步骤s205中,由于至少一个中间候选区域是通过基于softmax的非极大值抑制算法(softmax-nms),从至少一个初始候选区域中筛选得到的,而特征金字塔为将每一个卷积神经网络层的特征进行特征融合得到的,因此,将至少一个中间候选区域及特征金字塔作为faster-rcnn网络的输入,实现了将改进的softmax-nms及特征融合得到的特征金字塔的结合并训练得到分类模型。特征金字塔关注的是图像的整体特征,至少一个中间候选区域更关注的是文字等细节特征,因此,将特征金字塔和至少一个中间候选区域共同作为faster-rcnn网络的输入,不仅能关注到全局特征,还能兼顾局部细节,使提取的特征更加清晰,进而有效提升了分类模型的准确度,使模型的分类效果更好。
87.请参阅图3,在一些实施例中,步骤s201可以包括但不限于包括步骤s301至步骤s303:
88.步骤s301,从训练图像中获取带有目标标识的第一图像;
89.步骤s302,对第一图像进行图像增强处理,得到正样本;
90.步骤s303,从训练图像中获取不带有目标标识的第二图像,得到负样本。
91.在保险场景中,训练图像可以为身份证人像面、身份证国徽面、户口本、银行卡、发票和病历等图像资料。对训练图像标识不同的标记l abe l,形成对应标签的正样本,并收集其他不包含上述类型的作为负样本。
92.由于第一图像的数量本身是有限的,因此,为了将客户保险中不同类型的第一图像准确的分类出来,本实施例可以对第一图像进行图像增强处理,例如,几何变换,反转,裁剪等,从而扩充第一图像的数量,即扩充正样本的数量。增加了正样本的数量,相当于增加了训练模型的样本的数量,模型的训练样本的数量的增加,能够提高模型训练的精度。
93.请参阅图4,在一些实施例中,步骤s203可以包括但不限于包括步骤s401至步骤s402:
94.步骤s401,获取每个初始候选区域的置信度;
95.步骤s402,根据每个初始候选区域的置信度计算每个初始候选区域的softmax;
96.步骤s403,对每个初始候选区域的softmax进行高斯加权处理,得到每个初始候选区域的置信度分值;
97.步骤s404,从至少一个初始候选区域中删除置信度分值小于预设阈值的初始候选区域,得到至少一个中间候选区域。
98.传统的非极大值抑制算法(non-maximum suppress ion,nms)只是简单地进行置信度分值的排序,再剔除较小置信度分值对应的候选区域,本实施方式采用softmax-nms(基于softmax的非极大值抑制算法)以改进原有的nms算法,即:计算置信度分值的softmax,并进行高斯加权,然后再进行置信度分值的排序,并将配置分值作为阈值,从而剔除小于阈值的候选区域。
99.在本技术的一些实施例中,对每个初始候选区域的softmax进行高斯加权处理,得到每个初始候选区域的置信度分值包括:获取softmax最大的初始候选区域;计算softmax最大的初始候选区域与每个初始候选区域的交并比;根据每个初始候选区域的softmax及对应的交并比计算得到每个初始候选区域的置信度分值。
100.请参阅图5,在一些实施例中,步骤s204可以包括但不限于包括步骤s501至步骤s502:
101.步骤s501,将至少一个中间候选区域分别输入至se-resnet网络中的各个残差块,得到对应各个残差块的多个不同的尺度特征;
102.步骤s502,对多个不同的尺度特征进行特征融合,得到特征金字塔。
103.在本技术的一些实施例中,将至少一个中间候选区域输入至se-resnet网络中的各个残差块(b l ock),以4个b l ock模块为例,4个b l ock模块分别为b l ock1、b l ock2、b l ock3和b l ock4,每个b l ock采用resnet50卷积模块结合senet模块,得到每个卷积模块的特征。再对分别得到的4个b l ock模块的不同尺度特征v1、v2、v3、v4进行特征融合,例如,可以将v1和v3进行特征融合,v2和v4进行特征融合,以得到特征金字塔。通过多级特征融合,可以让浅层特征融合深层特征,增加模型在小目标的上的模型效果,以便于在app端进行部署,同时实现不同维度的特征融合,使提取的特征更加全面、细致,表达也更清晰。
104.请参阅图6,在一些实施例中,步骤s205可以包括但不限于包括步骤s601至步骤s602:
105.步骤s601,对至少一个中间候选框及特征金字塔进行池化,得到多个ro i区域;
106.步骤s602,将多个roi区域的大小统一成预定尺寸,并输入至faster-rcnn网络的边框回归层和边框分类层。
107.在本技术的一些实施例中,对上述得到的候选区域和特征金字塔经过池化得到一系列ro i区域,将这些ro i区域进行统一尺寸,例如像素9*9,再送入fasterrcnn网络的边框回归层和边框分类层。
108.在本技术的一些实施例中,由于至少一个中间候选区域是通过基于softmax的非极大值抑制算法(softmax-nms),从至少一个初始候选区域中筛选得到的,而特征金字塔为将每一个卷积神经网络层的特征进行特征融合得到的,因此,将至少一个中间候选区域及特征金字塔作为faster-rcnn网络的输入,实现了将改进的softmax-nms及特征融合得到的特征金字塔的结合并训练得到分类模型。特征金字塔关注的是图像的整体特征,至少一个中间候选区域更关注的是文字等细节特征,因此,将特征金字塔和至少一个中间候选区域共同作为faster-rcnn网络的输入,不仅能关注到全局特征,还能兼顾局部细节,使提取的特征更加清晰,进而有效提升了分类模型的准确度,使模型的分类效果更好。
109.在一些实施例中,本方法还可以包括但不限于步骤s701:
110.步骤s701,将分类模型转换为tflite模型文件,其中,tfli te模型文件用于部署在电子设备的app端。
111.在本技术的一些实施例中,将分类模型转换为tflite模型文件,以使得分类模型可以通过tfl ite模型文件部署在app端,当用户唤起电子设备的摄像头拍照上传资料的时候,利用tflite推断得到当前要拍的这幅图片的类别,进而客户资料的归类。基于此,本技术能够对图像资料自动准确识别并分类,以便于快速完成客户图像资料上传并归档,从而减少与客户的交互次数,减少以人为区分不同app端的入口再录入对应图像资料这种方式带来的误判,省时省力,提高效率。
112.以下结合具体实施例进一步说明本技术的图像分类方法。
113.在分类模型的训练阶段,可以通过收集公司特定身份证人像面、身份证国徽面、户口本、银行卡、发票和病历等图片,标识不同的标记l abe l、并进行数据增强,形成对应标签的正样本,并收集其他不包含上述类型的作为负样本。采用faster-rcnn主干网络进行人像面、身份证国徽面、户口本、银行卡、发票和病历的检测,形成这些l abe l对应的的候选区域,共形成3种不同大小和3种不同面积的anchor,在对这些候选框进行nms采用改进的softmax-nms,即《xi,yi,w,h,socre》假设为其中一个候选区域,与nms不同的是,不是简单地进行score进行排序再剔除小score的候选区域,而是对score计算他的softmax并采用高斯加权,然后再进行score的排序,并基于阈值剔除小于阈值的候选区域。对上述softmax-nms后的候选框区域送入4个b l ock模块b l ock1、b l ock2、b l ock3、b l ock4,每个b l ock采用resnet50卷积模块结合senet模块,得到每个卷积模块的特征。再对得到的4个b l ock模块的不同尺度特征v1、v2、v3、v4进行特征融合,例如,可以将v1和v3进行特征融合,v2和v4进行特征融合,从而得到特征金字塔。再将得到的候选区域和特征金字塔经过池化得到一系列ro i区域,可以将这些区域进行统一尺寸9*9,并送入fasterrcnn的框分类和回
归部分。训练分类模型并调参至收敛。将训练好的分类模型通过tflite部署在app端,当用户唤起摄像头拍照上传资料的时候,利用tflite推断得到当前要拍的这幅图片的类别,进而客户资料的归类。
114.基于此,本技术能够对图像资料自动准确识别并分类,以便于快速完成客户图像资料上传并归档,从而减少与客户的交互次数,减少以人为区分不同app端的入口再录入对应图像资料这种方式带来的误判,省时省力,提高效率。需要指出的是,分类模型是基于se-resnet网络对目标图像进行分类识别,se-resnet网络是将se模块嵌入到resnet网络而得到,其中,se模块的结构非常简单,其具有轻量化的特点,特别容易部署,不需要引入新的函数或者卷积层,并且增加的参数量微乎其微,因此,便于在电子设备的app端进行部署。此外,通过引入se模块可以提升分类模型对于图像通道之间的特征感知能力,提升分类模型性能,可以让分类模型获得图像全面深层次特征,增加分类模型泛化能力。se模块能够对图像特征的重要性进行重调使得全局信息能够用来对每一个特征的重要性进行衡量,而且将se模块嵌入到resnet网络能够提取图像的特征更为丰富,从而使得分类模型对图像的分类识别的准确率更高。
115.请参阅图7,本技术实施例还提供一种图像分类装置,可以实现上述图像分类方法,该装置包括:
116.获取模块710,用于获取目标图像;
117.识别模块720,用于将目标图像输入至预先训练好的分类模型,其中,分类模型基于se-resnet网络对目标图像进行分类识别;
118.分类模块730,用于通过分类模型对目标图像进行图像分类,生成图像分类结果。
119.在本技术的一些实施例中,获取模块710获取目标图像,识别模块720,将目标图像输入至预先训练好的分类模型,其中,分类模型基于se-resnet网络对目标图像进行分类识别,分类模块730通过分类模型对目标图像进行图像分类,生成图像分类结果。
120.在本技术的一些实施例中,获取模块710可以通过智能相机拍摄图像资料来获取目标图像,其中,目标图像可以包括但不限于身份证人像面、身份证国徽面、户口本、银行卡、发票和病历等图像资料。
121.在本技术的一些实施例中,识别模块720可以将目标图像输入至预先训练好的分类模型,其中,分类模型基于se-resnet网络对目标图像进行分类识别。se-resnet网络是将se模块嵌入到resnet网络而得到,其中,se模块的结构非常简单,其具有轻量化的特点,特别容易部署,不需要引入新的函数或者卷积层,并且增加的参数量微乎其微,因此,便于在电子设备的app端进行部署。此外,通过引入se模块可以提升分类模型对于图像通道之间的特征感知能力,提升分类模型性能,可以让分类模型获得图像全面深层次特征,增加分类模型泛化能力。se模块能够对图像特征的重要性进行重调使得全局信息能够用来对每一个特征的重要性进行衡量,而且将se模块嵌入到resnet网络能够提取图像的特征更为丰富,从而使得分类模型对图像的分类识别的准确率更高。
122.在本技术的一些实施例中,分类模块730可以通过分类模型对目标图像进行图像分类,生成图像分类结果。本技术通过分类模型对图像资料自动准确识别并分类,能够便于快速完成客户图像资料上传并归档,从而减少与客户的交互次数,减少以人为区分不同app端的入口再录入对应图像资料这种方式带来的误判,省时省力,提高效率。
123.基于此,本技术实施例的图像分类装置,获取模块710获取目标图像,识别模块720,将目标图像输入至预先训练好的分类模型,其中,分类模型基于se-resnet网络对目标图像进行分类识别,分类模块730通过分类模型对目标图像进行图像分类,生成图像分类结果。基于此,本技术将目标图像输入至分类模型,通过分类模型对目标图像进行图像分类,得到图像分类结果,从而能够对图像资料自动准确识别并分类,以便于快速完成客户图像资料上传并归档,从而减少与客户的交互次数,减少以人为区分不同app端的入口再录入对应图像资料这种方式带来的误判,省时省力,提高效率。需要指出的是,分类模型是基于se-resnet网络对目标图像进行分类识别,se-resnet网络是将se模块嵌入到resnet网络而得到,其中,se模块的结构非常简单,其具有轻量化的特点,特别容易部署,不需要引入新的函数或者卷积层,并且增加的参数量微乎其微,因此,便于在电子设备的app端进行部署。此外,通过引入se模块可以提升分类模型对于图像通道之间的特征感知能力,提升分类模型性能,可以让分类模型获得图像全面深层次特征,增加分类模型泛化能力。se模块能够对图像特征的重要性进行重调使得全局信息能够用来对每一个特征的重要性进行衡量,而且将se模块嵌入到resnet网络能够提取图像的特征更为丰富,从而使得分类模型对图像的分类识别的准确率更高。
124.该图像分类装置的具体实施方式与上述图像分类方法的具体实施例基本相同,在此不再赘述。
125.本技术实施例还提供了一种电子设备,电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述图像分类方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
126.请参阅图8,图8示意了另一实施例的电子设备的硬件结构,电子设备包括:
127.处理器801,可以采用通用的cpu(centra l process i ngun i t,中央处理器)、微处理器、应用专用集成电路(app l i cat i onspec i f i c i ntegratedci rcu it,as i c)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本技术实施例所提供的技术方案。
128.存储器802,可以采用只读存储器(readon l ymemory,rom)、静态存储设备、动态存储设备或者随机存取存储器(randomaccessmemory,ram)等形式实现。存储器802可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器802中,并由处理器801来调用执行本技术实施例的图像分类方法,即通过获取目标图像,将目标图像输入至预先训练好的分类模型,其中,分类模型基于se-resnet网络对目标图像进行分类识别,通过分类模型对目标图像进行图像分类,生成图像分类结果。基于此,本技术能够对图像资料自动准确识别并分类,以便于快速完成客户图像资料上传并归档,从而减少与客户的交互次数,减少以人为区分不同app端的入口再录入对应图像资料这种方式带来的误判,省时省力,提高效率。需要指出的是,分类模型是基于se-resnet网络对目标图像进行分类识别,se-resnet网络是将se模块嵌入到resnet网络而得到,其中,se模块的结构非常简单,其具有轻量化的特点,特别容易部署,不需要引入新的函数或者卷积层,并且增加的参数量微乎其微,因此,便于在电子设备的app端进行部署。此外,通过引入se模块可以提升分类模型对于图像通道之间的特征感知能力,提升分类模型性能,可以让分类模型获得图像全面深层次特征,增加分类模型泛化能力。se
模块能够对图像特征的重要性进行重调使得全局信息能够用来对每一个特征的重要性进行衡量,而且将se模块嵌入到resnet网络能够提取图像的特征更为丰富,从而使得分类模型对图像的分类识别的准确率更高。
129.输入/输出接口803,用于实现信息输入及输出。
130.通信接口804,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wi f i、蓝牙等)实现通信。
131.总线,在设备的各个组件(例如处理器801、存储器802、输入/输出接口803和通信接口804)之间传输信息。
132.其中处理器801、存储器802、输入/输出接口803和通信接口804通过总线实现彼此之间在设备内部的通信连接。
133.本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述图像分类方法。
134.存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
135.本技术实施例提供的图像分类方法、图像分类装置、电子设备及存储介质,通过获取目标图像,将目标图像输入至预先训练好的分类模型,其中,分类模型基于se-resnet网络对目标图像进行分类识别,通过分类模型对目标图像进行图像分类,生成图像分类结果。基于此,本技术能够对图像资料自动准确识别并分类,以便于快速完成客户图像资料上传并归档,从而减少与客户的交互次数,减少以人为区分不同app端的入口再录入对应图像资料这种方式带来的误判,省时省力,提高效率。需要指出的是,分类模型是基于se-resnet网络对目标图像进行分类识别,se-resnet网络是将se模块嵌入到resnet网络而得到,其中,se模块的结构非常简单,其具有轻量化的特点,特别容易部署,不需要引入新的函数或者卷积层,并且增加的参数量微乎其微,因此,便于在电子设备的app端进行部署。此外,通过引入se模块可以提升分类模型对于图像通道之间的特征感知能力,提升分类模型性能,可以让分类模型获得图像全面深层次特征,增加分类模型泛化能力。se模块能够对图像特征的重要性进行重调使得全局信息能够用来对每一个特征的重要性进行衡量,而且将se模块嵌入到resnet网络能够提取图像的特征更为丰富,从而使得分类模型对图像的分类识别的准确率更高。
136.本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读程序、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和
不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读程序、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
137.本技术实施例描述的实施例是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
138.本领域技术人员可以理解的是,图中示出的技术方案并不构成对本技术实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
139.以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
140.本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
141.本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
142.应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
143.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
144.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
145.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
146.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例的方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-on l y memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等各种可以存储程序的介质。
147.以上参照附图说明了本技术实施例的优选实施例,并非因此局限本技术实施例的权利范围。本领域技术人员不脱离本技术实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本技术实施例的权利范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1