一种图片识别方法、装置、计算机设备和介质与流程

文档序号：17937548发布日期：2019-06-18 22:44阅读：171来源：国知局

本发明实施例涉及互联网技术，尤其涉及一种图片识别方法、装置、计算机设备和介质。

背景技术：

大部分的互联网应用都允许用户上传头像、图片等，图片的内容包罗万象。但是，国家对上传到网络中的图片的内容具有严格的规定，禁止上传、分享黄色图片，即淫秽色情图片。因此，在图片成功上传到网络之前要经过检测，判断是否为淫秽色情图片等不能在网络上传播的图片。

目前，一些主流的ai公司、云服务厂商以及业务安全厂商都提供了api服务，用于检测图片、头像是否为淫秽色情图片，简称为鉴黄服务。通常，鉴黄服务都是基于深度学习模型，提取图片中的特征，并根据提取到的特征判断图片内容是否涉黄。

但是，一些不法用户(网络黑产)在不确定鉴黄服务使用的鉴黄服务模型时，通过在上传的图片上增加扰动的方式生成干扰图片，对鉴黄服务模型进行黑盒攻击，尝试绕过鉴黄过滤，使淫秽色情图片无法被正常的识别，从而将淫秽色情图片发布到网络上，扰乱网络秩序。

技术实现要素：

本发明实施例提供一种图片识别方法、装置、计算机设备和介质，以实现识别经过对抗样本技术处理的图片，提高对抗样本的过滤能力。

第一方面，本发明实施例提供了一种图片识别方法，该方法包括：

将用户上传的第一图片输入至去干扰自编码器进行预处理，以过滤所述第一图片中的干扰，输出第二图片，其中，所述去干扰自编码器通过至少两类干扰样本集进行训练而得，不同类型干扰样本集中所加入的扰动方式包括下述至少两种：噪音、仿射变化、滤波模糊化、亮度变化和单色化；

将所述第二图片输入至图片鉴黄模型进行识别。

第二方面，本发明实施例还提供了一种图片识别装置，该装置包括：

图片预处理模块，用于将用户上传的第一图片输入至去干扰自编码器进行预处理，以过滤所述第一图片中的干扰，输出第二图片，其中，所述去干扰自编码器通过至少两类干扰样本集进行训练而得，不同类型干扰样本集中所加入的扰动方式包括下述至少两种：噪音、仿射变化、滤波模糊化、亮度变化和单色化；

图片识别模块，用于将所述第二图片输入至图片鉴黄模型进行识别。

第三方面，本发明实施例还提供了一种计算机设备，该计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例中任一所述的图片识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如发明实施例中任一所述的图片识别方法。

本发明实施例通过使用预先训练好的去干扰自编码器对用户上传的图片进行去干扰预处理，得到过滤掉干扰的图片，然后将经过预处理的图片输入至图片鉴黄模型进行识别，解决了淫秽色情图片通过对抗样本技术通过图片鉴黄模型的鉴定成功上传到网络的问题；可以实现识别经过对抗样本技术处理的图片，提高对抗样本的过滤能力，净化网络环境。

附图说明

图1是本发明实施例一中的图片识别方法的流程图；

图2a是本发明实施例二中的图片识别方法的流程图；

图2b是本发明实施例二中的自编码器神经网络结构示意图；

图3是本发明实施例三中的图片识别装置的结构示意图；

图4是本发明实施例四中的计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的图片识别方法的流程图，本实施例可适用于对用户上传到网络中的图片进行鉴黄过滤的情况，该方法可以由图片识别装置实现，具体可通过设备中的软件和/或硬件来实施，该装置可以配置于执行鉴黄处理的计算机设备中，例如，第三方业务服务提供商为用户提供业务服务的服务器中。如图1所示，图片识别方法具体包括：

s110、将用户上传的第一图片输入至去干扰自编码器进行预处理，以过滤所述第一图片中的干扰，输出第二图片，其中，所述去干扰自编码器通过至少两类干扰样本集进行训练而得，不同类型干扰样本集中所加入的扰动方式包括下述至少两种：噪音、仿射变化、滤波模糊化、亮度变化和单色化。

其中，第一图片的内容十分广泛，可以是互联网用户在网络或网络应用中上传的头像或内容图片。但是，根据国家的互联网安全管理的相关法律法规，用户上传的头像或图片不能有关于淫秽色情、暴力凶杀等造成不良社会影响的内容。因此，需要将第一图片进行过滤，在确定第一图片不含有敏感内容的情况下才能将第一图片成功发布到网络上。在一些情况下，第一图片可能会被不法用户通过对抗样本技术进行图片干扰处理，从而使包含有淫秽色情、暴力凶杀等内容的图片绕过图片鉴黄模型的识别，发布到网络上。

进一步的，将第一图片输入到去干扰自编码器进行预处理，即可滤除第一图片的干扰，得到第二图片。对于未添加干扰信息的第一图片，去干扰自编码器的预处理是对该图片没有影响的。其中，去干扰自编码器通过至少两类干扰样本集进行训练而获得的，不仅能过滤掉单一图片干扰处理的干扰，还可以滤掉多种干扰处理方法组合的干扰，提高对抗样本图片中的扰动过滤效果。

具体的，每一类抗干扰样本集中，包含有至少一个样本对，每一个样本对都包含有一个原始图片，以及一个与该原始图片相对应的对抗样本。在一类抗干扰样本集中，各对抗样本相对于相应的原始图片均进行了相同类型的扰动处理。所谓相同类型，是指采用的扰动方式的组合相同。扰动方式的组合可以包括单一一种扰动方式，或者也可以包括两种或多种扰动方式的组合。在一类抗干扰样本集中，采用的扰动方式组合相同，但各扰动方式所采用的具体参数可以相同或不同。本发明实施例中所采用的扰动方式可能由多种，可选的，扰动方式包括噪音、仿射变化、滤波模糊化、亮度变化和单色化中的至少两种。

s120、将所述第二图片输入至图片鉴黄模型进行识别。

其中，鉴黄模型通常为基于深度学习的网络模型。

第二图片中没有干扰信息，便可输入至图片鉴黄模型，进行图片内容的提取与识别。当判断出第二图片包含有淫秽色情、暴力凶杀等内容时，可将第一图片进行屏蔽，并对上传该图片的用户进行提示或警告。若第二图片不包含淫秽色情、暴力凶杀等内容，通过了鉴定，即可成功发布到网络或相关的网络应用中，以供更多的用户浏览。

本实施例的技术方案，通过使用预先训练好的去干扰自编码器对用户上传的图片进行去干扰预处理，得到过滤掉干扰的图片，然后将经过预处理的图片输入至图片鉴黄模型进行识别，解决了淫秽色情图片通过对抗样本技术通过图片鉴黄模型的鉴定成功上传到网络的问题；可以实现识别经过对抗样本技术处理的图片，提高对抗样本的过滤能力，净化网络环境。

本发明实施例的技术方案，尤为适用于一些不法用户(网络黑产)在不确定鉴黄服务所使用的深度学习模型时所发起的黑盒攻击。这种黑盒攻击不同于白盒攻击。白盒攻击往往是在已知鉴黄服务的深度学习模型时有针对性的采用fgsm、cw、jsma等对抗样本算法进行白盒攻击。而黑盒攻击在不确定鉴黄深度学习模型时，会通过诸如噪音、仿射变化、滤波模糊化、亮度变化和单色化等扰动方式，发起复杂多变的黑盒攻击。本发明实施例有效解决不发用户发起黑盒攻击的问题，过滤掉了黑盒攻击时增加的扰动，让鉴黄服务的深度学习模型能有效进行识别过滤。

实施例二

图2a为发明实施例二提供的一种图片识别方法的流程图。本实施例以上述实施例中各个可选方案为基础，提供了去干扰自编码器的训练过程。如图2a所示，本发明实施例中提供的图片识别方法包括如下步骤：

s210、在原始图片的基础上增加至少两种干扰，以形成至少两类干扰样本集。

其中，原始图片是未增加过干扰的图片，图片的内容可以是人物、风景、文字、或物品等内容，如果为了进行用户头像的鉴黄服务，那优选是采用各类原始头像作为训练用的原始图片。获取原始图片的途径可以是通过带有摄像功能的终端拍摄而得，也可以是在某一个视频中进行截取。在获取原始图片之后，则开始生成样本集。首先，通过加噪音、增加仿射变化、叠加滤波模糊化变化、叠加亮度变化、叠加单色化变化中的一种或多种扰动方式，对原始图片进行处理，以形成干扰图片。然后，将原始图片与干扰图片作为一个样本对，选择至少两类样本对集合作为所述干扰样本集。对于每类干扰样本集确定采用相同的扰动方式组合。

示例性的，在第一原始图片增加仿射变化和滤波模糊化变化，生成一个第一干扰图片，该第一原始图片与该第一干扰图片即为一个样本对。同样的，在其他的原始图片增加仿射变化和滤波模糊化变化生成相应的干扰图片，得到多个样本对，那么经过相同变化得到的样本对同属于一类样本对集合，即第一类样本对集合。如果，在第一原始图片中，叠加滤波模糊化变化、叠加亮度变化及叠加单色化变化，也会生成相应的干扰图片，组成相应的样本对，此时得到的样本对集合为不同于第一类样本对集合的第二类样本对集合。同理，选择在原始图片上叠加不同的种类及数量的干扰信息之后，可得到更多不同类别的样本对集合。从而，选择至少两类样本对集合作为所述干扰样本集，以使训练样本更加全面，能够覆盖更多的扰动方式，从而能够提高对抗样本的滤除出率。

在另一种实施方式中，在通过加噪音、增加仿射变化、叠加滤波模糊化变化、叠加亮度变化、叠加单色化变化中的一种或多种扰动方式，对所述原始图片进行处理之前，还可以调整任一类型扰动方式中的至少一项扰动参数值，以形成至少两种扰动，从而增加对于同一个原始图片生成干扰图片的数量，进而增加样本对集合的数量。示例性的，调整任一类型扰动方式中的至少一项扰动参数值，以形成至少两种扰动可以包括下述至少一种：

调整放射变化中的缩放比例参数，以形成不同缩放比例的扰动；调整滤波模糊化中的模糊控制器的输入参数，以形成模糊程度不同的扰动；调整亮度变化中的亮度值，以形成不同亮度的扰动；调整单色化变化中的像素点的像素值，以形成不同颜色的扰动。当其中一种扰动方式包含多个扰动参数时，可同时改变多个参数值，形成不同的干扰图片，如同时改变放射变化中的翻转角度参数和剪切角度参数，以及亮度变化中的亮度值。

s220、将各所述干扰样本集中的样本对分别作为输入图片和输出图片，输入至自编码器以进行训练，得到去干扰自编码器。

自动编码器(autoencoders)是深度学习中常见的一种模型，其结构是一个三层神经网络结构，该结构中包括一个输入层、一个隐藏层和一个输出层，其中，输出层和输入层具有相同的维数，具体可参考图2b。具体的，输入层和输出层分别代表代表神经网络的输入层和输出层，隐藏层承担的编码器和解码器的工作，编码的过程就是从高维度的输入层转化到低维度的隐藏层的过程，反之，解码过程就是低维度的隐藏层到高维度的输出层的转化过程，因此，自编码器是个有损转化的过程，通过对比输入和输出的差别来定义损失函数。训练的过程不需要对数据进行标记，整个过程就是不断求解损失函数最小化的过程。

在本实施例中，将任一样本对中的叠加了噪声的干扰图片输入至输入层，然后，在输出层得到经过自编码器的隐藏层还原的图片，然后，将原始图片和经过还原的图片同时输入到损失函数中，根据损失函数的输出结果判断是否需要对自动编码器进行优化，当损失函数的输出结果满足预设条件时，即可停止训练过程，最终得到去干扰自编码器。

s230、将用户上传的第一图片输入至去干扰自编码器进行预处理，以过滤所述第一图片中的干扰，输出第二图片。

其中，去干扰自编码器即是经过s210和s220得到的去干扰自编码器，是通过至少两类干扰样本集进行训练而得，不同类型干扰样本集中所加入的扰动方式包括下述至少两种：噪音、仿射变化、滤波模糊化、亮度变化和单色化。

将第一图片输入到图片鉴黄模型之前可输入到去干扰自编码器进行预处理，以滤除掉可能存在的干扰。

s240、将所述第二图片输入至图片鉴黄模型进行识别。

本实施例的技术方案，通过在原始图片通过不同的扰动方式添加干扰噪声形成不同类的干扰样本集，训练自编码器，得到了可滤掉多种干扰的去干扰自编码器，然后使用该去干扰自编码器对用户上传的图片进行去干扰预处理，得到过滤掉干扰的图片，将经过预处理的图片输入至图片鉴黄模型进行识别，解决了淫秽色情图片通过对抗样本技术通过图片鉴黄模型的鉴定成功上传到网络的问题；可以实现识别经过对抗样本技术处理的图片，提高对抗样本的过滤能力，净化网络环境。

实施例三

图3示出了本公开实施例三提供的一种图片识别装置的结构示意图，本公开实施例可适用于对用户上传到网络中的图片进行鉴黄过滤的情况。

如图3所示，本公开实施例中图片识别装置，包括：图片预处理模块310和图片识别模块320。

其中，图片预处理模块310，用于将用户上传的第一图片输入至去干扰自编码器进行预处理，以过滤所述第一图片中的干扰，输出第二图片，其中，所述去干扰自编码器通过至少两类干扰样本集进行训练而得，不同类型干扰样本集中所加入的扰动方式包括下述至少两种：噪音、仿射变化、滤波模糊化、亮度变化和单色化；图片识别模块320，用于将所述第二图片输入至图片鉴黄模型进行识别。

进一步的，图片识别装置还包括：

样本集生成模块，用于在原始图片的基础上增加至少两种干扰，以形成至少两类干扰样本集；

自编码器训练模块，用于将各所述干扰样本集中的样本对分别作为输入图片和输出图片，输入至自编码器以进行训练。

可选的，样本集生成模块具体用于：

获取原始图片；

通过加噪音、增加仿射变化、叠加滤波模糊化变化、叠加亮度变化、叠加单色化变化中的一种或多种扰动方式，对所述原始图片进行处理，以形成干扰图片；

将原始图片与干扰图片作为一个样本对，选择至少两类样本对集合作为所述干扰样本集。

可选的，样本集生成模块还用于，在通过加噪音、增加仿射变化、叠加滤波模糊化变化、叠加亮度变化、叠加单色化变化中的一种或多种扰动方式，对所述原始图片进行处理之前，调整任一类型扰动方式中的至少一项扰动参数值，以形成至少两种扰动。

可选的，样本集生成模块还用于：

调整放射变化中的缩放比例参数，以形成不同缩放比例的扰动；和/或

调整滤波模糊化中的模糊控制器的输入参数，以形成模糊程度不同的扰动；和/或

调整亮度变化中的亮度值，以形成不同亮度的扰动；和/或

调整单色化变化中的像素点的像素值，以形成不同颜色的扰动。

可选的，所述自编码器的输入层和输出层结构相同，以使输出图片与原始图片具有相同的分辨率。

本发明实施例所提供的图片识别装置可执行本发明任意实施例所提供的图片识别方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4是本发明实施例四中的计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备412的框图。图4显示的计算机设备412仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机设备412以通用计算设备的形式表现。计算机设备412的组件可以包括但不限于：一个或者多个处理器或者处理单元416，系统存储器428，连接不同系统组件(包括系统存储器428和处理单元416)的总线418。

总线418表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(isa)总线，微通道体系结构(mac)总线，增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

计算机设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备412访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器428可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)430和/或高速缓存存储器432。计算机设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块442的程序/实用工具440，可以存储在例如存储器428中，这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器424等)通信，还可与一个或者多个使得用户能与该计算机设备412交互的设备通信，和/或与使得该计算机设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口422进行。并且，计算机设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器420通过总线418与计算机设备412的其它模块通信。应当明白，尽管图4中未示出，可以结合计算机设备412使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理单元416通过运行存储在系统存储器428中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的图片识别方法，该方法主要包括：

将所述第二图片输入至图片鉴黄模型进行识别。

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的图片识别方法，该方法主要包括：

将所述第二图片输入至图片鉴黄模型进行识别。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘焱;王洋;郝新
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。