一种图像分类器建立方法及装置与流程

文档序号:12597376阅读:187来源:国知局
一种图像分类器建立方法及装置与流程
本发明涉及计算机
技术领域
,尤其涉及一种图像分类器建立方法及装置。
背景技术
:标识(LOGO)识别是图像识别的一种,通过特征比对判断图像中是否包含目标LOGO,这对于企业商品管理来说是非常重要的一个方面,例如,通过LOGO识别判断企业商标是否被他人冒用,通过LOGO识别判断商品类型等诸多方面。目前对于LOGO识别多采用通过人工提取特征,然后训练分类器的方法。但是人工提取的方法对LOGO提取的特征是人为指定的,对于机器的识别,可能存在覆盖面不足等情况,此外,由于LOGO特征需要人工提取,就使得训练分类器时无法获得足够大的样本库,因此获得的分类器对于图像识别的准确率并不高,没有办法达到实用的目的。综上,目前仍缺少一种高准确率的基于LOGO识别的图像分类器。技术实现要素:本发明提供一种图像分类器建立方法及装置,用以提供一种高准确率的基于目标图像识别的图像分类器。本发明实施例提供一种图像分类器建立方法,包括:获取样本图片集,样本图片集中包含含目标图像的正样本和不含目标图像的负样本;对样本图片集中的样本图片进行变形处理,得到扩充后的样本图片集;根据扩充后的样本图片集和深度卷积神经网络模型,获得针对目标图像的分类器;其中,深度卷积神经网络模型中对卷积层的输出进行归一化处理。可选地,对样本图片集中的样本图片进行变形处理,包括以下至少之一:镜像翻转、旋转、随机裁剪、亮度调整。可选地,包括:深度卷积神经网络模型为Googlenet模型;根据扩充后的样本图片集和深度卷积神经网络模型,获得针对目标图像的分类器,包括:将样本图片输入初始化的Googlenet模型中;前向传播获取Googlenet模型的损失函数loss值;根据loss值反向传播更新Googlenet模型参数,直至Googlenet模型的loss值符合预设条件,得到针对目标图像的分类器。可选地,深度卷积神经网络模型中对卷积层的输出进行归一化处理,包括:对深度卷积神经网络模型中的每层卷积层的输出值进行归一化处理。本发明实施例提供一种根据本发明实施例提供的方法建立的图像分类器的图像识别方法,包括:获取待识别图片;将待识别图片输入分类器,得到待识别图片是否包含目标图像的分类结果。本发明实施例提供一种图像分类器建立装置,包括:获取模块,用于获取样本图片集,样本图片集中包含含目标图像的正样本和不含目标图像的负样本;扩充模块,用于对样本图片集中的样本图片进行变形处理,得到扩充后的样本图片集;处理模块,用于根据扩充后的样本图片集和深度卷积神经网络模型,获得针对目标图像的分类器;其中,深度卷积神经网络模型中对卷积层的输出进行归一化处理。可选地,扩充模块,具体用于对样本图片集中的样本图片进行如下至少之一的变形处理:镜像翻转、旋转、随机裁剪、亮度调整。可选地,处理模块采用的深度卷积神经网络模型为Googlenet模型;处理模块具体用于:将样本图片输入初始化的Googlenet模型中;前向传播获取Googlenet模型的损失函数loss值;根据loss值反向传播更新Googlenet模型参数,直至Googlenet模型的loss值符合预设条件,得到针对目标图像的分类器。可选地,处理模块,具体用于对深度卷积神经网络模型中的每层卷积层的输出值进行归一化处理。本发明实施例提供一种图像识别装置,包括:获取模块,用于获取待识别图片;处理模块,用于将待识别图片输入目标图像的分类器,得到待识别图片是否包含目标图像的分类结果,其中,目标图像的分类器由本发明实施例提供的图像分类器建立装置得到。综上所述,本发明实施例提供了一种图像分类器建立方法及装置,包括:获取样本图片集,样本图片集中包含含目标图像的正样本和不含目标图像的负样本;对样本图片集中的样本图片进行变形处理,得到扩充后的样本图片集;根据扩充后的样本图片集和深度卷积神经网络模型,获得针对目标图像的分类器;其中,深度卷积神经网络模型中对卷积层的输出进行归一化处理。通过上述方法,只需人工标识有限的样本图片集,之后再对有限的样本图片集进行扩充,从而扩大了样本数量,提高了分类器的准确性,此外,采用深度卷积神经网络模型进一步提高了分类器的识别精度,因此,本方案能够提供一种识别精度更高的针对目标图像的分类器。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种图像分类器建立方法流程示意图;图2为本发明实施例提供的一种Googlenet模型结构示意图;图3为本发明实施例提供的一种图像识别方法流程图;图4为本发明实施例提供的一种图像分类器建立装置结构示意图;图5为本发明实施例提供的一种图像识别装置结构示意图。具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。图1为本发明实施例提供的一种图像分类器建立方法流程示意图,如图1所示,包括以下步骤:S101:获取样本图片集,样本图片集中包含含目标图像的正样本和不含目标图像的负样本;S102:对样本图片集中的样本图片进行变形处理,得到扩充后的样本图片集;S103:根据扩充后的样本图片集和深度卷积神经网络模型,获得针对目标图像的分类器;其中,深度卷积神经网络模型中对卷积层的输出进行归一化处理。具体实施过程中,目标图像为一个固定的图像,该图像的形态可能不规整、色泽可能不清晰等等。目标图像可以为公司标识、注册商标、认证标识、图像作品等多种形式。对于目标图像的识别指的是判断待识别图片中是否包含目标图像。在步骤S101的具体实施过程中,获取样本图片集的方式和渠道并没有限制,可以通过网络爬取从互联网中获取样本图片集,也可以通过人工拍摄的方式获取样本图片集,也可以通过其它渠道或者方式获得,更可以将多种渠道或者方式相结合以获得足够多的样本图片以构成样本图片集。样本图片集的样本图片中,既有包含目标图像的样本图片,又有不包含目标图像的样本图片。这样可以得到可识别目标图像的分类器,如包含目标图像,分类器输出1,不包含目标图像,分类器输出0。可选地,对样本图片集进行人工标注,将样本图片集分为包含目标图像的正样本和不包含目标图像的负样本。可选地,对于正样本人工标注为1,对于负样本人工标注为0。表一为本发明实施例提供的一种标注列表,如表一所示,表一中记录了样本图片集中各样本图片的名称及其对应的路径和标注信息,其中,路径用来表示样本图片的存储位置,标注用来区分样本图片为正样本还是负样本,如表1中Pic1,其存储位置为D:\A\B\Pictures1,且Pic1中包含有目标图像,所以其标注信息为1,是一个正样本。表1图片路径标注………Pic1D:\A\B\Pictures11Pic2D:\A\B\Pictures20Pic3D:\A\B\Pictures31………在步骤S102的具体实施过程中,通过对样本图片进行变形来扩充样本图片集。可选地,对样本图片集中的样本图片进行变形处理,包括以下至少之一:镜像翻转、旋转、随机裁剪、亮度调整。通过扩充样本图片集确保了获得的分类器在进行图片识别的准确性。需指出的是,在对样本图片进行变形的过程中应尽量避免改变样本图片标注特征,即如果样本图片含有目标图像,则应尽量避免在变形处理之后获得的图片中不包含目标图像的情况发生,例如,只对目标图像位于中央部分的样本图片进行随机剪裁处理,而不去裁剪目标图像位于边缘位置的样本图片。镜像翻转和旋转操作一般并不会改变样本图片的标注特征,因此可以对所有的样本图片进行镜像翻转和选择操作。亮度过亮或过暗会影响后续图片特征的提取,因此只对原始亮度适中的样本图片进行亮度调整处理。可选地,对于训练集的扩充应为多种变形处理的结合以增加样本图片集中的图片种类。通过上述操作,可以在原有样本图片集的基础上扩充样本图片集的大小,此外,在扩充是尽量避免改变原有图片的标注特征从而不需对扩充后的大容量样本集再次进行人工标注,增加了分类器建立效率,降低了人工和时间成本。在步骤S103的具体实施过程中,根据扩充后的样本图片集和深度卷积神经网络模型,获得针对目标图像的分类器,这里的深度卷积神经网络模型可以为Googlenet模型;根据扩充后的样本图片集和深度卷积神经网络模型,获得针对目标图像的分类器,包括:将样本图片输入初始化的Googlenet模型中;前向传播获取Googlenet模型的损失函数loss值;根据loss值反向传播更新Googlenet模型参数,直至Googlenet模型的loss值符合预设条件,得到针对目标图像的分类器。当然,本发明实施例也可以采用其他深度卷积神经网络模型。深度学习分类器训练具有许多模型可以实现,典型网络结构有:亚历克斯网络(Alexnet)模型、VGG模型、Googlenet模型、残差网络(Resnet)模型,Alexnet模型较容易训练得到但最终识别率不够高;其它三种网络层次更深,VGG模型深度为19层、Googlenet模型深度为22层、Resnet模型深度为152层,因而识别率更佳,但不容易训练;VGG模型与Resnet模型的训练需要很大的显卡显存,而Googlenet模型却不需要,Googlenet模型在有限的显卡显存条件下便可以实现较佳的识别率,且Googlenet模型的网络参数最小约50M,而VGG模型的网络参数为500M,Resnet模型的网络参数为100M,Googlenet模型更适合后续系统部署。图2为本发明实施例提供的一种Googlenet模型结构示意图,如图2所示,Googlenet模型包括1个卷积模块、9个起始inception模块、3个softmax模块,其中,每3个inception模块并联一个softmax模块。表2为图2所示的Googlenet模型预设参数,如表2和图2所示,表2中前两组卷积(conv)参数和最大池(maxpool)参数为图2中卷积模块的参数,之后为9个inception参数及其之间的最大池参数,最大池的作用是降低模型维度。表2如图2所示,每3个inception模块连接有一个softmax模块,softmax模块的作用主要是在模型训练过程中,检测模型的损失函数(loss)值,前两个softmax的作用是为了防止深度过深,最后一个softmax模块对较浅层模块不能准确检测的问题。可选地,在模型训练之前,将获取的样本图片集按比例分为训练集、验证集和测试集,这里的比例可以按经验或者实际需求来决定。训练集用于训练分类器,验证集用于验证模型是否收敛,测试集用于测试最后获取的分类器的识别率。可选地,测试集图片的种类应较验证集更为丰富,这样测试结果的可信度才够高。可选地,在模型训练之前还需对Google模型进行初始化,先为待训练的参数赋予一个初值,可选地,采用标准差为0.1的泽维尔(Xavier)算法随机初始化模型中的待训练参数,可以确保模型最后能够收敛。可选地,将训练集和验证集分批次(batch)处理,如训练batch为256,验证batch为64。利用如图2所示的Googlenet模型进行分类器训练的具体过程为:前向传播,将训练集中一个批次的样本图片归一化为固定大小后输入Googlenet模型,循环输入预设次数后,如循环输入1000次,获取此时的分类器模型,将一个批次的验证batch输入此时的分类器模型,循环输入预设次数,如100次,获取分类器模型输出的预测值,并与实际值对比,得到此时分类器模型的loss值及准确率;之后,判断分类器模型的loss值和准确率是否收敛,若并没有收敛,则继续进行反向传播,使用梯度下降法根据梯度和学习率的大小更新模型权值;更新权值后,更换下一批训练batch重复前向传播和反向传播直至loss值和准确率趋于稳定;判断稳定后的loss值是否小于预设的loss阈值且准确率是否高于预设的准确率阈值,若否,则分类器模型训练失败,需更换训练模型,若是,则继续判断此时的学习率是否高于预设的学习率阈值;若是,则返回训练集样本输入步骤,重复上述循环,若否,则输出此时的分类器模型,即获得目标图像分类器。可选地,此处的loss值是三个softmax模块分别获取的loss值的权重计算结果,softmax模块层数越深,其权重越高,例如,对于最浅层的softmax所测得的loss值,其计算时的权重为0.3,对于中间的softmax模块其计算时的权重为0.3,对于最深层的softmax模块,其计算时的权重为1。可选地,对深度卷积神经网络模型中的每层卷积层的输出值进行归一化处理。可以加速模型训练收敛,提高识别率。图3为本发明实施例提供的一种图像识别方法流程图,图像识别所用模块为经上述实施例获取的目标图像分类器,如图3所示,包括以下步骤:S301:获取待识别图片;S302:将待识别图片输入分类器,得到待识别图片是否包含目标图像的分类结果。综上所述,本发明实施例提供了一种图像分类器建立方法,包括:获取样本图片集,样本图片集中包含含目标图像的正样本和不含目标图像的负样本;对样本图片集中的样本图片进行变形处理,得到扩充后的样本图片集;根据扩充后的样本图片集和深度卷积神经网络模型,获得针对目标图像的分类器;其中,深度卷积神经网络模型中对卷积层的输出进行归一化处理。通过上述方法,只需人工标识有限的样本图片集,之后再对有限的样本图片集进行扩充,从而扩大了样本数量,提高了分类器的准确性,此外,采用深度卷积神经网络模型进一步提高了分类器的识别精度,因此,本方案能够提供一种识别精度更高的针对目标图像的分类器。基于相同的技术构思,本发明实施例还提供一种图像分类器建立装置,该装置可执行上述方法实施例。图4为本发明实施例提供的一种图像分类器建立装置结构示意图,如图4所示,建立装置400包括:获取模块401、扩充模块402和处理模块403,其中:获取模块401,用于获取样本图片集,样本图片集中包含含目标图像的正样本和不含目标图像的负样本;扩充模块402,用于对样本图片集中的样本图片进行变形处理,得到扩充后的样本图片集;处理模块403,用于根据扩充后的样本图片集和深度卷积神经网络模型,获得针对目标图像的分类器;其中,深度卷积神经网络模型中对卷积层的输出进行归一化处理。可选地,扩充模块402,具体用于对样本图片集中的样本图片进行如下至少之一的变形处理:镜像翻转、旋转、随机裁剪、亮度调整。可选地,处理模块403采用的深度卷积神经网络模型为Googlenet模型;处理模块403具体用于:将样本图片输入初始化的Googlenet模型中;前向传播获取Googlenet模型的损失函数loss值;根据loss值反向传播更新Googlenet模型参数,直至Googlenet模型的loss值符合预设条件,得到针对目标图像的分类器。可选地,处理模块403,具体用于对深度卷积神经网络模型中的每层卷积层的输出值进行归一化处理。基于相同的技术构思,本发明实施例还提供一种图像识别装置,该装置可执行上述图像识别方法实施例。图5为本发明实施例提供的一种图像识别装置结构示意图,如图5所示,识别装置500包括:获取模块501和处理模块502,其中:获取模块501,用于获取待识别图片;处理模块502,用于将待识别图片输入目标图像的分类器,得到待识别图片是否包含目标图像的分类结果,其中,目标图像的分类器由本发明实施例提供的图像分类器建立方法获得。综上所述,本发明实施例提供了一种图像分类器建立方法及装置,包括:获取样本图片集,样本图片集中包含含目标图像的正样本和不含目标图像的负样本;对样本图片集中的样本图片进行变形处理,得到扩充后的样本图片集;根据扩充后的样本图片集和深度卷积神经网络模型,获得针对目标图像的分类器;其中,深度卷积神经网络模型中对卷积层的输出进行归一化处理。通过上述方法,只需人工标识有限的样本图片集,之后再对有限的样本图片集进行扩充,从而扩大了样本数量,提高了分类器的准确性,此外,采用深度卷积神经网络模型进一步提高了分类器的识别精度,因此,本方案能够提供一种识别精度更高的针对目标图像的分类器。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1