一种图片检测方法及设备的制造方法

文档序号:10625016阅读:438来源:国知局
一种图片检测方法及设备的制造方法
【专利摘要】本申请的目的是提供一种图片检测方法及设备。与现有技术相比,本申请中的图片检测设备获取已分别标注图片类型的多个训练图片,其中,所述图片类型包括正常类型或违禁类型;再基于所述多个训练图片经卷积神经网络训练得对应的图片检测模型;并且,获取所述图片检测模型所对应的图片检测阈值;再利用所述图片检测模型及所述图片检测阈值确定第一图片的图片类型。本申请能够高效、准确地识别待检测图片的图片类型,有效缩短了图片的审核时间,改善用户的使用体验。
【专利说明】
-种图片检测方法及设备
技术领域
[0001] 本申请设及计算机领域,尤其设及一种图片检测技术。
【背景技术】
[0002] 随着互联网技术的发展,图片因其相对文字具有表达直观、内容丰富等优势,在越 来越多的网页及应用中被广泛应用。例如,网购平台为各电商提供了各种商品信息发布机 审IJ,商家可W上传多角度、多背景的商品照片,W吸引用户。
[0003] 然而,在实际应用中,一些商家为博取眼球效应,上传的图片不符合网购平台甚至 法律的规定。若将运类图片予W展示不仅阻碍了用户获取所需信息,也浪费了用户宝贵的 带宽资源、降低了用户的屏幕利用率。显然,鉴于互联网的开放性本质,运样的情况将会持 续存在;而且,由于互联网信息的爆发性,试图通过人工来审核运些图片的陈列方式也是不 可行的。
[0004] 为此,现有技术中采用了 LLC(X〇calit}f-constrained Linear Coding,局部限制 的线性编码)+liblinear (-个适用于大规模数据的线性分类库)等方式对图片进行分类 训练和检测。运些方式主要是采用检测特征颜色区域,包括颜色直方图和梯度直方图等对 图片特征进行描述与分析,再对图片进行分类。然而,现有的检测方式只能够识别一小部分 违禁类图片(如色情图片等),且会有很多图片被误杀。另外针对不同的应用场景,现有技 术需要手工设计不同的颜色特征,运个给工程师带来了巨大的工作量。

【发明内容】
阳0化]本申请的目的是提供一种的图片检测方法及设备。
[0006] 根据本申请的一个方面,提供了一种图片检测方法,包括:
[0007] 获取已分别标注图片类型的多个训练图片,其中,所述图片类型包括正常类型或 违禁类型;
[000引基于所述多个训练图片经卷积神经网络训练得对应的图片检测模型;
[0009] 获取所述图片检测模型所对应的图片检测阔值;
[0010] 利用所述图片检测模型及所述图片检测阔值确定第一图片的图片类型。
[0011] 根据本申请的另一方面,还提供了一种图片检测设备,其包括:
[0012] 第一装置,用于获取已分别标注图片类型的多个训练图片,其中,所述图片类型包 括正常类型或违禁类型;
[0013] 第二装置,用于基于所述多个训练图片经卷积神经网络训练得对应的图片检测模 型;
[0014] 第Ξ装置,用于获取所述图片检测模型所对应的图片检测阔值;
[0015] 第四装置,用于利用所述图片检测模型及所述图片检测阔值确定第一图片的图片 类型。
[0016] 与现有技术相比,本申请利用卷积神经网络建立图片检测模型,并根据图片检测 模型和图片检测阔值来检测图片的图片类型,能够高效、准确地识别待检测图片的图片类 型,有效缩短了图片的审核时间,改善用户的使用体验。
【附图说明】
[0017] 通过阅读参照W下附图所作的对非限制性实施例所作的详细描述,本申请的其它 特征、目的和优点将会变得更明显:
[0018] 图1示出根据本申请一个方面的一种图片检测设备示意图;
[0019] 图2示出根据本申请一个优选实施例的一种图片检测设备中第一装置的示意图;
[0020] 图3示出根据本申请另一个优选实施例的一种图片检测设备示意图;
[0021] 图4示出根据本申请另一个方面的一种图片检测方法流程图;
[0022] 图5示出根据本申请一个优选实施例的一种图片检测方法中步骤S1的流程图;
[0023] 图6示出根据本申请另一个优选实施例的一种图片检测方法流程图。
[0024] 附图中相同或相似的附图标记代表相同或相似的部件。
【具体实施方式】
[0025] 下面结合附图对本申请作进一步详细描述。
[00%] 在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个 处理器(CPU)、输入/输出接口、网络接口和内存。
[0027] 内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/ 或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质 的示例。
[0028] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可W由任何方法 或技术来实现信息存储。信息可W是计算机可读指令、数据结构、程序的模块或其他数据。 计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、 动态随机存取存储器值RAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电 可擦除可编程只读存储器巧EPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘值VD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性 存储设备或任何其他非传输介质,可用于存储可W被计算设备访问的信息。按照本文中的 界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信 号和载波。
[0029] 图1示出根据本申请一个方面的一种图片检测设备1,其中,所述图片检测设备1 包括:第一装置11、第二装置12、第Ξ装置13和第四装置14。具体地,所述第一装置11用 于获取已分别标注图片类型的多个训练图片,其中,所述图片类型包括正常类型或违禁类 型;所述第二装置12用于基于所述多个训练图片经卷积神经网络训练得对应的图片检测 模型;所述第Ξ装置13用于获取所述图片检测模型所对应的图片检测阔值;所述第四装置 14用于利用所述图片检测模型及所述图片检测阔值确定第一图片的图片类型。
[0030] 在此,所述图片检测设备1可由网络主机、单个网络服务器、多个网络服务器集或 多个服务器构成的云等实现。在此,云由基于云计算(Cloud Computing)的大量主机或网 络服务器构成,其中,云计算是分布式计算的一种,由一群松散禪合的计算机集组成的一个 超级虚拟计算机。本领域技术人员应能理解上述图片检测设备1仅为举例,其他现有的或 今后可能出现的网络设备如可适用于本申请,也应包含在本申请保护范围W内,并在此W 引用方式包含于此。在此,所述图片检测设备1包括一种能够按照事先设定或存储的指令, 自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路 (ASIC)、可编程口阵列(FPGA)、数字处理器值SP)、嵌入式设备等。
[0031] 具体地,所述第一装置11按照所述第二装置12构建图片检测模型所要求的尺寸、 格式等,通过http、https等约定通信方式远程调用、或通过本地读取等方式获取训练图片 及所对应的图片类型。其中,所述图片类型中的违禁类型包括但不限于:色情类型等。其 中,所述训练图片可W是所存储的源图片,也可W是对源图片进行修剪之后所得到的图片 等。所述第一装置11按照预设的图片类型的获取比例来获取各训练图片。其中,所述获取 比例可按照实际需要进行设定。例如,所获取的正常类型的图片与违禁类型的图片的数量 比例为l:n,其中,η大于1。
[0032] 为了得到更合适的训练图片,所述第一装置11还可W包括:第一一单元111和第 一二单元112。如图2所示。具体地,所述第一一单元111用于获取已分别标注图片类型的 多个样本图片,其中,所述图片类型包括正常类型或违禁类型;所述第一二单元112用于对 每个样本图片进行预处理W获得对应的训练图片。
[0033] 在此,所述第一一单元111通过http、https等约定通信方式远程调用、或通过本 地读取等方式获取多个样本图片及相应的图片类型。由于所获取的样本图片的尺寸、格式 等各不相同,则所述第一二单元112对每个样本图片进行预处理,W得到符合预设规格、数 量等要求的各训练图片。
[0034] 在此,所述第一二单元112对每个样本图片进行预处理的方式包括:从所获取的 样本图片中选取符合预设规格、数量等要求的图片作为所述训练图片。
[0035] 由于图库中的违禁类型的图片的数量通常远小于正常类型的图片的数量。为了得 到足够多的违禁类型的训练图片。所述第一二单元112还用于对标注为违禁类型的每个样 本图片进行变换扩展。
[0036] 在此,所述第一二单元112对标注为违禁类型的每个样本图片进行变换扩展的方 式包括但不限于:1)将每个标注有违禁类型的样本图片进行平移,W得到新的样本图片。 例如,所述第一二单元112将标注为违禁类型的样本图片沿着预设的X轴和y轴方向平行 移动,则所述第一二单元112的平移操作可W表示为兩二rand(-10,10),y"= rand(-10, 10),所得到的新的样本图片的各点像素值为:Inew(x,y) = I(x+xo, y+y。)。其中,X。表示 X轴方向的平移幅度,y。表示y轴方向的平移幅度。I (X,y)表示坐标为(X,y)处图像的像 素值,Inew(x,y)表示平移后坐标为(X,y)处图像的像素值。如果(X+X。,y+y。)超出原始 图像区域,则所述第一二单元112用预设的像素值予W填充。由此,所述第一二单元112得 到了新的样本图片。
[0037] 2)通过对标注为违禁类型的每个样本图片进行旋转,W得到新的样本图片。例如, 预设Θ = rand(-10,10),Θ表示对样本图片进行逆时针旋转的角度,所述第一二单元112 利用=R(e) 0l(x,y)公式,得到旋转后的样本图片,其中0表示逆时针旋转操 作。
[0038] 3)通过对标注为违禁类型的每个样本图片进行模糊处理。其中,所述模糊处理的 方式包括但不限于:高斯滤波、均值滤波中的至少一种。例如,所述第一二单元112可仅选 择高斯滤波或均值滤波来模糊处理所有标注为违禁类型的样本图片。又如,所述第一二单 元112可随机的选择高斯滤波或均值滤波来模糊处理标注为违禁类型的每个样本图片。
[0039] 为了处理不同尺寸和/或不同亮度的训练图片,所述第一二单元112对每个样本 图片进行预处理的方式还包括:对每个样本图片进行归一化处理W获得对应的训练图片。
[0040] 具体地,所述归一化处理的方式包括但不限于W下至少任一项:1)将样本图片缩 放至预定分辨率。例如,所述第一二单元112将所得到的1024*768尺寸的样本图片缩成 256巧56尺寸的训练图片。又如,所述第一二单元112将所获取的157*124尺寸的样本图片 放大至256*256尺寸的训练图片。2)对样本图片进行减均值处理。例如,所述第一二单元 112先将所获取的样本图片缩放至预定分辨率,再计算缩放后的所述样本图片的像素均值, 并将缩放后的所述样本图片的每个像素值与所述像素均值相减,由此来去除平均图像对缩 放后的所述样本图片的干扰,并得到相应的训练图片。
[0041] 当所述第一装置11得到足够多的标注有图片类型的训练图片时,将各所述训练 图片传输至所述第二装置12。则所述第二装置12基于所述多个训练图片经卷积神经网络 训练得对应的图片检测模型。
[0042] 具体地,所述第二装置12将所述各训练图片送入预设的包含有多卷积层和多全 连接通层的神经网络进行训练。其中,各卷积层包含卷积核。所述第二装置12将每个所述 训练图片在每一卷积层中提取的特征输至下一卷积层,W提取更加高阶的特征。再由所述 全连接通层将各卷积层逐层提取后得到的各特征按照对应的图片类型进行连接分类处理, 由此得到关于标注图片类型的图片检测模型。其中,所述特征包括但不限于:训练图片中的 特征向量、训练图片中的特征信息等。
[0043] 在此,所述卷积神经网络优选的包括:相级联的五个卷积层、Ξ个全连接通层和一 个 Softmax 层。
[0044] 其中,每个所述卷积层的卷积操作相当于矩阵乘法。例如,所述第二装置12利用 公式1执行各所述卷积层的操作。
[0045]
[0046] 其中fk表示第k个特征映射,其中,所述特征映射为所述卷积层所得到的特征与 图片类型之间的映射关系。Wk表示第k个卷积核的参数,每一个卷积核表示一种特征,在一 个卷积层中,可W包含多个卷积核。X表示上一层的特征。relu(x) = max (0, X)表示非线 性的神经元函数。i和j分别表示所述第k个特征映射所在维度的序列编号。bk表示第k 个卷积核在执行卷积运算时的偏移量。
[0047] 更为优选地,所述神经网络中还包括:设置在至少一个所述卷积层中的Max pooling (最大池化)。所述Max Pooling是对通过各卷积层得到的特征的下采样操作。所 述Max Pooling的操作包括但不限于:平均池化操作,最大池化操作等。例如,在所述神 经网络中设置了最大池化操作,所述第二装置12通过最大池化操作,不仅降低了特征的维 度,而且使得最终得到的图片检测模型具有了平移不变性质。
[0048] 所述Max pooling可W设置在每个卷积层后,也可W选择性的设置在部分卷积层 后。 W例例如,第一个卷积层包含kl个卷积核,每个卷积核大小为xlXylXzl,通过max pooling进行降维,输出为χΓ Xyl' ΧζΓ的特征映射。 W50] 第二个卷积层包含k2个卷积核,每个卷积核大小为x2Xy2Xz2,通过max pooling进行降维,输出为Xy2' Xz2'的特征映射。
[0051] 第Ξ个卷积层包含k3个卷积核,每个卷积核大小为x3Xy3Xz3,输出为 x3' Xy3' Xz3'的特征映射。运层不包含max pooling。 阳化2] 第四个卷积层包含k4个卷积核,每个卷积核大小为x4Xy4Xz4,输出为 x4' Xy4' Xz4'的特征映射。运层不包含max pooling。 W53] 第五个卷积层包含k5个卷积核,每个卷积核大小为巧X巧X巧,通过max pooling进行降维,输出为巧'X巧'X巧'的特征映射。其中,每个卷积层中的卷积核的数 量和大小按照实际需求来设置。
[0054] 所述神经网络中还可W进一步的包括:归一化层(Normalization层)。所述 Normalization层是将不同特征映射之间做归一化操作。 阳化5] 例如,所述第二装置12利用公式2来将相邻的特征映射进行归一化操作。
[0056]
[0057] 其中,N,α,β为预设的常数参数。与?表示第k个特征映射。
[0058]
表示对相邻特征映射之间进行归一化。
[0059] 所述全连接通层用于将两所述卷积层中的各个节点(即特征)相互连接。当所述 神经网络中包含五个卷积层时,则所述全连接通层对应包含Ξ个。 W60] 例如,第一个全连接通层的含有al*bl个参数,输出为cl个节点(特征)的值。
[0061] 第二个全连接通层的含有曰2冲2个参数,输出为c2个节点(特征)的值。
[0062] 第Ξ个全连接通层的含有曰3冲3个参数,输出为c3个节点(特征)的值。其中, al〉a2〉a3, bl〉b2〉b3, cl〉c2〉c3。
[0063] 所述Softmax层设置在所述神经网络中的全连接通层之后。所述第二装置12利 用所述Softmax层来将各特征映射按照图片类型进行分类。由此,所述第二装置12构建出 了基于图片类型的图片检测模型,并启动所述第Ξ装置13来获取所述图片检测模型所对 应的图片检测阔值。
[0064] 在此,所述图片检测阔值可W是用于确定待检测的第一图片属于违禁类型或正常 类型的概率。该图片检测阔值可W预先固定设置,所述第Ξ装置13仅从预设的存储单元予 W提取即可。 阳〇化]优选地,所述第Ξ装置13利用所述图片检测模型对已标注图片类型的第二图片 进行检测,W获得对应的感受性曲线;再根据所述感受性曲线确定所述图片检测模型所对 应的图片检测阔值。其中,所述第二图片可W从各训练图片中选取,也可W从图库中另行选 取。
[0066] 所述第Ξ装置13将已标注图片类型的多个所述第二图片输入所述图片检测模 型,W得到对应各图片类型FP(假正类i^ilse positive)、FN(假负类false negative)、 ΤΡ(真正类True positive)、TN(真负类True negative)的概率,并得到相应的感受性曲 线,例如,该感受性曲线的横坐标及纵坐标分别对应误判率(例如F巧和准确率(例如TP)。 接着,所述第Ξ装置13根据所述感受性曲线确定所述图片检测模型中FP、FN、TP和/或 TN的图片检测阔值。例如,基于本方案所得到的某一感受性曲线,本领域技术人员可W把 FP(误判率)控制在2%,从而得到模型的准确率为80% ;因此,留给审核人员审核的只有 2%的运部分数据,从而大幅降低了审核的工作量。
[0067] 当用户上传待检测的第一图片时,所述第四装置14获取所述第一图片,并送入所 述图片检测模型W得到所述第一图片对应各图片类型的图片检测信息。其中,所述图片检 测信息包括但不限于:所述第一图片对应各图片类型的检测概率等。接着,所述第四装置 14将所得到的图片检测信息与所述图片检测阔值进行比较。
[0068] 当所述图片检测信息满足TP对应的图片检测阔值,则所述第四装置14认定所述 第一图片的图片类型为正常类型。当所述图片检测信息满足FP对应的图片检测阔值,则所 述第四装置14认定所述第一图片的图片类型为违禁类型。当所述图片检测信息满足TN或 FN对应的图片检测阔值,则所述第四装置14无法确定所述第一图片的图片类型,此时,所 述第四装置14将所述第一图片提供给更其他检测设备或提供给人工处理,W便进行更精 准的确定。
[0069] 当其他检测设备或人工检测完成后,将所述第四装置14所提供的第一图片的图 片类型予W返回时,所述图片检测设备1还包括:第五装置15 (如图3所示),用于根据所 述第一图片经再检测所确定的图片类型,调整所述图片检测模型。
[0070] 具体地,所述第五装置15将所述第一图片和所得到的图片类型提供给所述第一 装置11。由所述第一装置11对所述第一图片进行预处理W获得相应的训练图片,并交由 所述第二装置12 W便利用卷积神经网络继续训练并调整了当前的图片检测模型。在此,该 "再检测"操作可W是人工完成的,也可W是其他图片检测应用或工具完成的。本领域技术 人员应能理解,通过对于该图片检测模型的输出结果再检测,并根据再检测所获得的图片 类型信息来进一步优化该图片检测模型,从而在后续图片检测中可W获得更好的检测准确 度。
[0071] 优选地,为了提高所述图片检测模型的检测精准度,所述第二装置12还可W根据 所述训练图片的数量来调整调整学习率。其中,所述学习率表示梯度下降的速度。例如,初 始化的学习率设置为ratel,所述第二装置12在迭代预设轮次W后,将其改为rate2, W此 类推。其中,ratel〉rate2。
[0072] 图4示出根据本申请又一个方面的一种图片检测方法,其中,所述图片检测方法 主要由图片检测设备来执行。所述图片检测方法包括:步骤S1、S2、S3和S4。具体地,在步 骤S1中,所述图片检测设备获取已分别标注图片类型的多个训练图片,其中,所述图片类 型包括正常类型或违禁类型;在步骤S2中,所述图片检测设备基于所述多个训练图片经卷 积神经网络训练得对应的图片检测模型;在步骤S3中,所述图片检测设备获取所述图片检 测模型所对应的图片检测阔值;在步骤S4中,所述图片检测设备利用所述图片检测模型及 所述图片检测阔值确定第一图片的图片类型。
[0073] 在此,所述图片检测设备可由网络主机、单个网络服务器、多个网络服务器集或多 个服务器构成的云等实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络 服务器构成,其中,云计算是分布式计算的一种,由一群松散禪合的计算机集组成的一个超 级虚拟计算机。本领域技术人员应能理解上述图片检测设备仅为举例,其他现有的或今后 可能出现的网络设备如可适用于本申请,也应包含在本申请保护范围W内,并在此W引用 方式包含于此。在此,所述图片检测设备包括一种能够按照事先设定或存储的指令,自动进 行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、 可编程口阵列(FPGA)、数字处理器值SP)、嵌入式设备等。
[0074] 具体地,所述图片检测设备按照欲构建图片检测模型所要求的尺寸、格式等,通过 http、https等约定通信方式远程调用、或通过本地读取等方式获取训练图片及所对应的图 片类型。其中,所述图片类型中的违禁类型包括但不限于:色情类型等。其中,所述训练图 片可W是所存储的源图片,也可W是对源图片进行修剪之后所得到的图片等。所述图片检 测设备按照预设的图片类型的获取比例来获取各训练图片。其中,所述获取比例可按照实 际需要进行设定。例如,所获取的正常类型的图片与违禁类型的图片的数量比例为l:n,其 中,η大于1。
[0075] 为了得到更合适的训练图片,所述步骤S1还可W包括:步骤S11和步骤S12。如 图5所示。具体地,在步骤S11中,所述图片检测设备获取已分别标注图片类型的多个样本 图片,其中,所述图片类型包括正常类型或违禁类型;在步骤S12中,所述图片检测设备对 每个样本图片进行预处理W获得对应的训练图片。
[0076] 在此,所述图片检测设备通过http、https等约定通信方式远程调用、或通过本地 读取等方式获取多个样本图片及相应的图片类型。由于所获取的样本图片的尺寸、格式等 各不相同,则所述图片检测设备对每个样本图片进行预处理,W得到符合预设规格、数量等 要求的各训练图片。
[0077] 在此,所述图片检测设备对每个样本图片进行预处理的方式包括:从所获取的样 本图片中选取符合预设规格、数量等要求的图片作为所述训练图片。
[007引 由于图库中的违禁类型的图片的数量通常远小于正常类型的图片的数量。为了得 到足够多的违禁类型的训练图片。所述图片检测设备还对标注为违禁类型的每个样本图片 进行变换扩展。
[0079] 在此,所述图片检测设备对标注为违禁类型的每个样本图片进行变换扩展的方式 包括但不限于:1)将每个标注有违禁类型的样本图片进行平移,W得到新的样本图片。例 如,所述图片检测设备将标注为违禁类型的样本图片沿着预设的X轴和y轴方向平行移动, 则图片检测设备的平移操作可W表示为。。=rand (-10,10) · y。= rand (-10,10),所得到 的新的样本图片的各点像素值为:i"e?(x,y) = l(x+x。,y+y。)。其中,X。表示X轴方向的平 移幅度,y。表示y轴方向的平移幅度。I (X,y)表示坐标为(X,y)处图像的像素值,I。。"^, y)表示平移后坐标为(X,y)处图像的像素值。如果(X+X。,y+y。)超出原始图像区域,则所 述第一二单元用预设的像素值予W填充。由此,所述图片检测设备得到了新的样本图片。
[0080] 2)通过对标注为违禁类型的每个样本图片进行旋转,W得到新的样本图片。例如, 预设Θ = rand(-10,10),Θ表示对样本图片进行逆时针旋转的角度,所述图片检测设备利 用Inew(x,y) = R( Θ ) 0 I (x,y)公式,得到旋转后的样本图片,其中0表示逆时针旋转操 作。
[0081] 3)通过对标注为违禁类型的每个样本图片进行模糊处理。其中,所述模糊处理的 方式包括但不限于:高斯滤波、均值滤波中的至少一种。例如,所述图片检测设备可仅选择 高斯滤波或均值滤波来模糊处理所有标注为违禁类型的样本图片。又如,所述图片检测设 备可随机的选择高斯滤波或均值滤波来模糊处理标注为违禁类型的每个样本图片。
[0082] 为了从有限数量的样本图片中获取足够多的训练图片,所述图片检测设备对每个 样本图片进行预处理的方式还包括:对每个样本图片进行归一化处理W获得对应的训练图 片。
[0083] 具体地,所述归一化处理的方式包括但不限于W下至少任一项:1)将样本图片 缩放至预定分辨率。例如,所述图片检测设备将所得到的1024*768尺寸的样本图片缩成 256巧56尺寸的训练图片。又如,所述图片检测设备将所获取的157*124尺寸的样本图片放 大至256*256尺寸的训练图片。2)对样本图片进行减均值处理。例如,所述图片检测设备 先将所获取的样本图片缩放至预定分辨率,再计算缩放后的所述样本图片的像素均值,并 将缩放后的所述样本图片的每个像素值与所述像素均值相减,由此来去除平均图像对缩放 后的所述样本图片的干扰,并得到相应的训练图片。
[0084] 当所述图片检测设备得到足够多的标注有图片类型的训练图片后,执行步骤S2, 即基于所述多个训练图片经卷积神经网络训练得对应的图片检测模型。
[00化]具体地,所述图片检测设备将所述各训练图片送入预设的包含有多卷积层和多全 连接通层的神经网络进行训练。其中,各卷积层包含卷积核。所述图片检测设备将每个所述 训练图片在每一卷积层中提取的特征输至下一卷积层,W提取更加高阶的特征。再由所述 全连接通层将各卷积层逐层提取后得到的各特征按照对应的图片类型进行连接分类处理, 由此得到关于标注图片类型的图片检测模型。其中,所述特征包括但不限于:训练图片中的 特征向量、训练图片中的特征信息等。
[0086] 在此,所述卷积神经网络优选的包括:相级联的五个卷积层、Ξ个全连接通层和一 个 Softmax 层。
[0087] 其中,每个所述卷积层的卷积操作相当于矩阵乘法。例如,所述图片检测设备利用 公式1执行各所述卷积层的操作。
[0088]
[0089] 其中fk表示第k个特征映射,其中,所述特征映射为所述卷积层所得到的特征与 图片类型之间的映射关系。Wk表示第k个卷积核的参数,每一个卷积核表示一种特征,在一 个卷积层中,可W包含多个卷积核。X表示上一层的特征。relu(x) = max (0, X)表示非线 性的神经元函数。i和j分别表示所述第k个特征映射所在维度的序列编号。bk表示第k 个卷积核在执行卷积运算时的偏移量。
[0090] 更为优选地,所述神经网络中还包括:设置在至少一个所述卷积层中的Max pooling (最大池化)。所述Max Pooling是对通过各卷积层得到的特征的下采样操作。所 述Max Pooling的操作包括但不限于:平均池操作,最大池化操作等。例如,在所述神经网 络中设置了最大池化操作,所述图片检测设备通过最大池化操作,不仅降低了特征的维度, 而且使得最终得到的图片检测模型具有了平移不变性质。
[0091] 所述Max pooling可W设置在每个卷积层后,也可W选择性的设置在部分卷积层 后。 阳092] 例如,第一个卷积层包含kl个卷积核,每个卷积核大小为xlXylXzl,通过max pooling进行降维,输出为χΓ Xyl' ΧζΓ的特征映射。 W93] 第二个卷积层包含k2个卷积核,每个卷积核大小为x2Xy2Xz2,通过max pooling进行降维,输出为x2' Xy2' Xz2'的特征映射。
[0094] 第Ξ个卷积层包含k3个卷积核,每个卷积核大小为x3Xy3Xz3,输出为 x3' Xy3' Xz3'的特征映射。运层不包含max pooling。
[0095] 第四个卷积层包含k4个卷积核,每个卷积核大小为x4Xy4Xz4,输出为 x4' Xy4' Xz4'的特征映射。运层不包含max pooling。 W96] 第五个卷积层包含k5个卷积核,每个卷积核大小为巧X巧X巧,通过max pooling进行降维,输出为巧' X巧' X巧'的特征映射。其中,每个卷积层中的卷积核的数 量和大小按照实际需求来设置。
[0097] 所述神经网络中还可W进一步的包括:归一化层(Normalization层)。所述 Normalization层是将不同特征映射之间做归一化操作。
[009引例如,所述图片检测设备利用公式2来将相邻的特征映射进行归一化操作。
[0099]
[0100] 其中,N,α,β为预设的常数参数。增隶示第k个特征映射。 阳101 ]
表示对相邻特征映射之间进行归一化。 阳102] 所述全连接通层用于将两所述卷积层中的各个节点(即特征)相互连接。当所述 神经网络中包含五个卷积层时,则所述全连接通层对应包含Ξ个。
[0103] 例如,第一个全连接通层的含有al*bl个参数,输出为cl个节点(特征)的值。
[0104] 第二个全连接通层的含有曰2冲2个参数,输出为c2个节点(特征)的值。
[01化]第Ξ个全连接通层的含有曰3冲3个参数,输出为c3个节点(特征)的值。其中, al〉a2〉a3, bl〉b2〉b3, cl〉c2〉c3。
[0106] 在所述神经网络中的全连接通层之后设置所述Softmax层设置在所述神经网络 中的全连接通层之后。所述图片检测设备利用所述Softmax层来将各特征映射按照图片类 型进行分类。由此,所述图片检测设备构建出了基于图片类型的图片检测模型,并执行步骤 S3来获取所述图片检测模型所对应的图片检测阔值。 阳107] 在此,所述图片检测设备的第Ξ装置获取所述图片检测模型所对应的图片检测阔 值可W是用于确定待检测的第一图片属于违禁类型或正常类型的概率。该图片检测阔值的 方式包括可W预先固定设置,所述图片检测设备仅从预设的存储单元予W提取即可。在所 述神经网络中的全连接通层之后设置一个Softmax (软性核函数)层,来确定用于检测出属 于违禁类型的图片的图片检测阔值。 阳10引优选地,所述图片检测设备利用所述图片检测模型对已标注图片类型的第二图片 进行检测,W获得对应的R0C感受性曲线;再根据所述感受性曲线确定所述图片检测模型 所对应的图片检测阔值。其中,所述第二图片可W从各训练图片中选取,也可W从图库中另 行选取。
[0109] 所述图片检测设备将已标注图片类型的多个所述第二图片输入所述图片检测模 型,W得到对应各图片类型FP(假正类i^ilse positive)、FN(假负类false negative)、 ΤΡ(真正类True positive)、TN(真负类True negative)的概率,并得到相应的感受性曲 线,例如,该感受性曲线的横坐标及纵坐标分别对应误判率(例如F巧和准确率(例如TP)。 接着,所述图片检测设备根据所述感受性曲线确定所述图片检测模型中FP、FN、TP和/或 TN的图片检测阔值。例如,基于本方案所得到的某一感受性曲线,本领域技术人员可W把 FP(误判率)控制在2%,从而得到模型的准确率为80% ;因此,留给审核人员审核的只有 2%的运部分数据,从而大幅降低了审核的工作量。
[0110] 当用户上传待检测的第一图片时,所述图片检测设备获取所述第一图片,并送入 所述图片检测模型W得到所述第一图片对应各图片类型的图片检测信息。其中,所述图片 检测信息包括但不限于:所述第一图片对应各图片类型的检测概率等。接着,所述图片检测 设备将所得到的图片检测信息与所述图片检测阔值进行比较。 阳111] 当所述图片检测信息满足TP对应的图片检测阔值,则所述图片检测设备认定所 述第一图片的图片类型为正常类型。当所述图片检测信息满足FP对应的图片检测阔值,贝U 所述图片检测设备认定所述第一图片的图片类型为违禁类型。当所述图片检测信息满足 TN或FN对应的图片检测阔值,则所述图片检测设备无法确定所述第一图片的图片类型,此 时,所述图片检测设备将所述第一图片提供给更其他检测设备或提供给人工处理,W便进 行更精准的确定。
[0112] 当其他检测设备或人工检测完成后,将所述图片检测设备所提供的第一图片的图 片类型予W返回时,所述图片检测方法还包括:步骤S5。如图6所示。
[0113] 在所述步骤S5中,所述图片检测设备根据所述第一图片经再检测所确定的图片 类型,调整所述图片检测模型。如图6所示。
[0114] 具体地,所述图片检测设备将所述第一图片进行预处理W获得相应的训练图片, 并输入卷积神经网络继续训练并调整了当前的图片检测模型。在此,该"再检测"操作可W 是人工完成的,也可W是其他图片检测应用或工具完成的。本领域技术人员应能理解,通过 对于该图片检测模型的输出结果再检测,并根据再检测所获得的图片类型信息来进一步优 化该图片检测模型,从而在后续图片检测中可W获得更好的检测准确度。
[0115] 优选地,为了提高所述图片检测模型的检测精准度,所述图片检测设备还可W根 据所述训练图片的数量来调整调整学习率。其中,所述学习率表示梯度下降的速度。例如, 初始化的学习率设置为ratel,所述图片检测设备在迭代预设轮次W后,将其改为rate2, W此类推。其中,ratel〉rate2。
[0116] 综上所述,本申请的图片检测方法及设备,利用卷积神经网络建立图片检测模型, 再利用所述图片检测模型和图片检测阔值来检测图片的图片类型,能够高效、准确地识别 待检测图片的图片类型,有效缩短了图片的审核时间,改善用户的使用体验。
[0117] 与现有技术相比,本申请的误判率显著降低(如表1所示)。 阳1化]表1 阳119]
[0120] 另外,本申请对所获取的样本图片进行归一化处理,有利于建模时对训练图片的 统一处理,实现了使用较少的样本图片的数量来获得足够多的训练图片,提高建模效率。 阳121] 还有,采用五层卷积层和Ξ层全连通层来进行神经网络训练,能够有效提高图片 检测模型的准确性;此外,将未能利用所述图片检测模型检测出图片类型的图片作为训练 图片,能够有效调整所述图片检测模型,提高所述图片检测模型今后的识别正确率。所W, 本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
[0122] 对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在 不背离本申请的精神或基本特征的情况下,能够W其他的具体形式实现本申请。因此,无论 从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权 利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有 变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所设及的权利要求。此 夕F,显然"包括"一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多 个单元或装置也可W由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来 表示名称,而并不表示任何特定的顺序。
【主权项】
1. 一种图片检测方法,包括: 获取已分别标注图片类型的多个训练图片,其中,所述图片类型包括正常类型或违禁 类型; 基于所述多个训练图片经卷积神经网络训练得对应的图片检测模型; 获取所述图片检测模型所对应的图片检测阈值; 利用所述图片检测模型及所述图片检测阈值确定第一图片的图片类型。2. 根据权利要求1所述的方法,其中,所述获取所述图片检测模型所对应的图片检测 阈值包括: 利用所述图片检测模型对已标注图片类型的第二图片进行检测,以获得对应的感受性 曲线; 根据所述感受性曲线确定所述图片检测模型所对应的图片检测阈值。3. 根据权利要求1或2所述的方法,其中,所述利用所述图片检测模型及所述图片检测 阈值确定第一图片的图片类型包括: 利用所述图片检测模型对第一图片进行检测以获得对应的图片检测信息; 将所述图片检测信息与所述图片检测阈值相比较,以确定第一图片的图片类型。4. 根据权利要求1至3中任一项所述的方法,其中,该方法还包括: 根据所述第一图片经再检测所确定的图片类型,调整所述图片检测模型。5. 根据权利要求1至4中任一项所述的方法,其中,所述获取已分别标注图片类型的多 个训练图片包括: 获取已分别标注图片类型的多个样本图片,其中,所述图片类型包括正常类型或违禁 类型; 对每个样本图片进行预处理以获得对应的训练图片。6. 根据权利要求5所述的方法,其中,所述对每个样本图片进行预处理以获得对应的 训练图片包括: 对每个样本图片进行归一化处理以获得对应的训练图片。7. 根据权利要求6所述的方法,其中,所述归一化处理包括以下至少任一项: 将样本图片缩放至预定分辨率; 对样本图片进行减均值处理。8. 根据权利要求5至7中任一项所述的方法,其中,所述对每个样本图片进行预处理以 获得对应的训练图片还包括: 对标注为违禁类型的每个样本图片进行变换扩展以得到多个训练图片。9. 根据权利要求1至8中任一项所述的方法,其中,所述卷积神经网络包括相级联的五 个卷积层、三个全连接通层及一个Softmax层。10. -种图片检测设备,包括: 第一装置,用于获取已分别标注图片类型的多个训练图片,其中,所述图片类型包括正 常类型或违禁类型; 第二装置,用于基于所述多个训练图片经卷积神经网络训练得对应的图片检测模型; 第三装置,用于获取所述图片检测模型所对应的图片检测阈值; 第四装置,用于利用所述图片检测模型及所述图片检测阈值确定第一图片的图片类 型。11. 根据权利要求10所述的设备,其中,所述第三装置用于: 利用所述图片检测模型对已标注图片类型的第二图片进行检测,以获得对应的感受性 曲线; 根据所述感受性曲线确定所述图片检测模型所对应的图片检测阈值。12. 根据权利要求10或11所述的设备,其中,所述第四装置用于: 利用所述图片检测模型对第一图片进行检测以获得对应的图片检测信息; 将所述图片检测信息与所述图片检测阈值相比较,以确定第一图片的图片类型。13. 根据权利要求10至12中任一项所述的设备,其中,该设备还包括: 第五装置,用于根据所述第一图片经再检测所确定的图片类型,调整所述图片检测模 型。14. 根据权利要求10至13中任一项所述的设备,其中,所述第一装置包括: 第一一单元,用于获取已分别标注图片类型的多个样本图片,其中,所述图片类型包括 正常类型或违禁类型; 第一二单元,用于对每个样本图片进行预处理以获得对应的训练图片。15. 根据权利要求14所述的设备,其中,所述第一二单元用于: 对每个样本图片进行归一化处理以获得对应的训练图片。16. 根据权利要求15所述的设备,其中,所述归一化处理包括以下至少任一项: 将样本图片缩放至预定分辨率; 对样本图片进行减均值处理。17. 根据权利要求14至16中任一项所述的设备,其中,所述第一二单元还用于: 对标注为违禁类型的每个样本图片进行变换扩展以得到多个训练图片。18. 根据权利要求10至17中任一项所述的设备,其中,所述卷积神经网络包括相级联 的五个卷积层、三个全连接通层及一个Softmax层。
【文档编号】G06K9/00GK105989330SQ201510055621
【公开日】2016年10月5日
【申请日】2015年2月3日
【发明人】陈岳峰
【申请人】阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1