敏感图像识别方法及装置与流程

文档序号:12034626阅读:238来源:国知局
敏感图像识别方法及装置与流程

本发明涉及图像识别领域,特别涉及一种敏感图像识别方法及装置。



背景技术:

随着互联网的普及,互联网已经成为各种信息传播的重要途径。用户在通过互联网获取大量有用信息的同时,还会获取到大量不良信息,比如内容涉及色情、招嫖、暴力、政治敏感等法律法规禁止传播的敏感图像等。这些不良信息会对用户造成不良影响,因此,需要对敏感图像进行识别,进而净化网络环境。

现有技术中,对敏感图像的识别过程为:建立敏感图像数据库,通常情况下,该敏感图像数据库中包含属于相同敏感图像类别的图像指纹;在获取到待识别图像时,提取待识别图像的图像指纹;之后,若在图像数据库中获取到与待识别图像的图像指纹匹配的目标图像指纹,则确定待识别图像的类别为该敏感图像类别。

在实现本发明的过程中,发明人发现现有技术至少存在以下问题:

上述敏感图像识别方法依赖于敏感图像数据库,敏感图像数据库的建立受到各种条件的限制,比如存储资源限制、查找速度限制、人力限制等,其中敏感图像数据库的存储资源和查找速度的限制不允许太多的敏感图像添加。并且,人力限制会导致不能及时地将新出现的不同类别的敏感图像进行审核,进而不能及时对敏感图像数据库进行更新,使得基于敏感数据库仅识别出实际传播敏感图像中的极少比例的敏感图像。因此,上述敏感图像识别方法的识别范围窄,识别效果差。



技术实现要素:

为了解决现有技术的问题,本发明实施例提供了一种敏感图像识别方法及装置。所述技术方案如下:

一方面,提供了一种敏感图像识别方法,所述方法包括:

获取待识别图像;

检测敏感图像数据库中是否存在目标图像,得到检测结果,所述敏感图像数据库用于存储多个敏感图像以及每个敏感图像的所属类别,所述目标图像为与所述待识别图像相同的图像;

通过图像识别模型对所述待识别图像进行类别预测,得到预测结果,所述预测结果包括所述待识别图像的多个可能所属类别以及每个可能所属类别的概率,所述图像识别模型根据敏感图像样本进行学习建立;

根据所述检测结果和所述预测结果,得到所述待识别图像的所属类别。

另一方面,提供了一种敏感图像识别装置,所述装置包括:

获取模块,用于获取待识别图像;

检测模块,用于检测敏感图像数据库中是否存在目标图像,得到检测结果,所述敏感图像数据库用于存储多个敏感图像以及每个敏感图像的所属类别,所述目标图像为与所述待识别图像相同的图像;

类别预测模块,用于通过图像识别模型对所述待识别图像进行类别预测,得到预测结果,所述预测结果包括所述待识别图像的多个可能所属类别以及每个可能所属类别的概率,所述图像识别模型根据敏感图像样本进行学习建立;

类别确定模块,用于根据所述检测结果和所述预测结果,得到所述待识别图像的所属类别。

本发明实施例提供的技术方案带来的有益效果是:

通过结合基于敏感图像数据库的识别方法和基于图像识别模型的识别方法,实现在识别典型敏感图像的同时,能够识别新出现的或传播范围小的敏感图像,扩展了敏感图像的识别范围,识别效果好。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种敏感图像识别方法的流程图;

图2是本发明实施例提供的一种敏感图像识别方法的流程图;

图3是本发明实施例提供的一种用于实现敏感图像识别方法的系统架构图;

图4是本发明实施例提供的一种敏感图像识别装置的框图;

图5是本发明实施例提供的一种敏感图像识别装置的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种敏感图像识别方法的流程图,参见图1,包括以下步骤:

101、获取待识别图像。

102、检测敏感图像数据库中是否存在目标图像,得到检测结果,敏感图像数据库用于存储多个敏感图像以及每个敏感图像的所属类别,目标图像为与待识别图像相同的图像。

103、通过图像识别模型对待识别图像进行类别预测,得到预测结果,预测结果包括待识别图像的多个可能所属类别以及每个可能所属类别的概率,图像识别模型根据敏感图像样本进行学习建立。

104、根据检测结果和预测结果,得到待识别图像的所属类别。

本发明实施例提供的方法,通过结合基于敏感图像数据库的识别方法和基于图像识别模型的识别方法,实现在识别典型敏感图像的同时,能够识别新出现的或传播范围小的敏感图像,扩展了敏感图像的识别范围,识别效果好。

可选地,根据检测结果和预测结果,得到待识别图像的所属类别包括:

若检测结果指示待识别图像为非敏感图像,则判断每个可能所属类别的概率中是否存在第一概率,第一概率为大于预设概率阈值的概率;

若存在,则将第一概率对应的可能所属类别确定为待识别图像的所属类别。

可选地,通过图像识别模型对待识别图像进行类别预测,得到预测结果之前,该方法还包括:

通过机器学习方法对通用图像样本进行学习,建立初始识别模型,通用图像样本中包含多个通用图像类别的图像;

基于初始识别模型,对敏感图像样本进行学习,建立图像识别模型,敏感图像样本中包含多个敏感图像类别的图像,多个敏感图像类别与多个通用图像类别之间没有交集。

可选地,根据检测结果和预测结果,得到待识别图像的所属类别之后,该方法还包括:

判断每个可能所属类别的概率中是否存在第二概率,第二概率为在预设概率区间内的概率;

若存在,则获取待识别图像的人工标注类别,为待识别图像添加人工标注类别,人工标注类别用于指示由用户为待识别图像所指定的类别。

可选地,根据检测结果和预测结果,得到待识别图像的所属类别之后,该方法还包括:

基于添加人工标注类别的待识别图像,对敏感图像样本进行更新;

基于更新后的敏感图像样本,对图像识别模型进行优化,后续基于优化后的图像识别模型进行敏感图像识别。

可选地,根据检测结果和预测结果,得到待识别图像的所属类别之后,该方法还包括:

若待识别图像的人工标注类别为典型敏感图像,则基于待识别图像对敏感图像数据库进行更新,后续基于更新后的敏感图像数据库进行敏感图像识别。

可选地,敏感图像数据库还用于存储每个敏感图像的来源信息,检测敏感图像数据库中是否存在目标图像,得到检测结果之后,该方法还包括:

当检测结果指示敏感图像数据库中存在目标图像时,基于待识别图像的第一来源信息和目标图像的第二来源信息,得到目标图像的传播路径;

获取目标图像的匹配成功次数,将匹配成功次数确定为目标图像的传播热度;

基于传播路径和传播热度,对传播目标图像的用户执行账号禁用操作。

上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。

图2是本发明实施例提供的一种敏感图像识别方法的流程图,参见图2,执行主体为提供敏感图像识别服务的服务器,包括以下步骤:

201、通过机器学习方法对通用图像样本进行学习,建立初始识别模型,通用图像样本中包含多个通用图像类别的图像。

具体地,建立初始识别模型的过程可以为:获取通用图像样本,该通用图像样本包含多个通用图像类别的图像,每个图像均携带有指示其所属类别的类别标签;基于携带类别标签的通用图像样本,采用机器学习技术,对通用图像样本进行学习,得到初始识别模型。

其中,通用图像样本中包含图像的数目可以是百万级的,多个通用图像类别可以是数百个图像类别或者数千个图像类别,比如,多个通用图像类别可以包括女人、男人、小孩、老人、植物、动物、天空、桌子、花、草、树木等,本发明实施例对此不做具体限定。其中,图像的基本特征是指构成图像的基本元素的特征,比如边缘特征、色彩特征等,本发明实施例对此不做具体限定。通过对上述通用图像样本的学习,使得建立的初始识别模型具有识别属于通用图像类别的图像的能力。

需要说明的是,上述机器学习技术可以是深度学习技术,也可以是其他具有分类检测能力的机器学习技术,本发明实施例对此不做具体限定。

202、基于初始识别模型,对敏感图像样本进行学习,建立图像识别模型,敏感图像样本中包含多个敏感图像类别的图像,多个敏感图像类别与多个通用图像类别之间没有交集。

在本发明实施例中,建立图像识别模型的过程可以为:获取包含多个敏感图像类别的敏感图像样本,该敏感图像样本中的每个图像均携带有指示其所属类别的类别标签;基于初始识别模型,采用迁移学习技术,对敏感图像样本进行学习,建立图像识别模型。

其中,敏感图像是指包含不良信息的图像,比如色情、招嫖、暴力、政治敏感等法律法规禁止传播的图像。多个敏感图像类别可以包括政治敏感图像、性感(无较多文字)、性感(有较多文字)、色情(露点)、色情(不露点)、色情(有性行为)、色情(无性行为)、暴恐(有血腥场面)、暴恐(无血腥场面)等,本发明实施例对此不做具体限定。其中,在具体分类时,可以将正常(有较多文字)用来指示谣言等政治敏感图像,性感(有较多文字)可以指示招嫖类。

需要说明的是,一般情况下对敏感图像的分类仅包括色情和正常,这样的 分类在识别的过程中会漏掉一些“擦边图像”,比如包含裸露皮肤但是无露点的图像就会被确定为正常图像。为了更全面地对敏感图像进行识别,提高对敏感图像的识别效果,本发明实施例对敏感图像进行了更细粒度的分类,其中包含了“缓冲”类别,比如,将一般情况下的色情类别细分为性感、色情(露点)、色情(不露点)等,其中性感和色情(不露点)即为“缓冲”类别。该“缓冲”类别提高了图像识别的粒度。

进一步地,对敏感图像进行更细粒度的分类,还可以提高图像识别的灵活性,比如,在对政治敏感类的图像进行识别时,可以将识别范围缩小到正常(有较多文字)类别的图像范围内。对于招嫖广告类图像,识别的主要范围可以缩小到分为性感(有较多文字)类别的图像范围内;对于色情(无露点)、暴恐(无血腥场景)等危害低的敏感图像可以区别于高危类型敏感图像灵活处理,比如,根据用户需求,可以不对危害低的敏感图像进行识别。

需要说明的是,上述多个敏感图像类别的数目不是固定的,其数目可以是2、3、4、5、6、7、8、9、10等,可以根据实际需求进行调整,该调整可为增加类别或减少类别,本发明实施例对此不做具体限定。

上述步骤201和步骤202是本发明实施例建立图像识别模型的两个阶段,步骤201为建立初始识别模型的阶段;步骤202为基于初始识别模型建立图像识别模型的阶段。采用上述两个阶段建立图像识别模型的优势在于:

第一,由于初始识别模型的建立是基于包含多个通用图像类别的通用图像样本,使得初始识别模型能够识别的图像的基本特征更加全面和完善,因此,在初始识别模型的基础上,可以更加准确的学习敏感图像样本具有的图像特征,进而提高了图像识别模型的识别准确率。

第二,由于初始识别模型具有识别不同类别通用图像的基本特征的能力,因此,在初始识别模型的基础上对敏感图像样本进行学习,可以加快学习的速度,进而缩短图像识别模型的建立时间。

例如,初始识别模型具有识别正方形的能力,现需要建立一个能够识别立方体的图像识别模型,则需基于初始识别模型,对包含立方体的图像样本进行学习,进而建立相应的图像识别模型。相比于直接对包含立方体的图像样本进行学习,建立相应的图像识别模型来说,前者是在能够识别正方形的基础上学习识别立方体,而后者是零基础学习立方体,因此,前者的学习速度更快,缩 短了图像识别模型的建立时间。

第三,由于初始识别模型具有识别图像的基本特征,因此,基于初始识别模型可以对图像识别模型能够识别出的敏感图像类别进行灵活扩展,还可以基于该初始识别模型建立其他图像识别模型,比如卡通类、游戏类、儿童类等,本发明实施例对此不做具体限定。为了提高后续在线对图像的识别效率,初始识别模型和图像识别模型均可以通过离线的方式进行预先建立,本发明实施例对此不做具体限定。

203、获取待识别图像。

在本发明实施例中,待识别图像可以为用户上传或下载的图像,或者为企业申请的某一业务涉及到的上传或下载的图像等,本发明对此不做具体限定。具体地,可在接入层提供网络接口,通过网络接口获取待识别图像。

在获取待识别图像之前可以对用户的身份进行验证,也即是,在获取到登录请求时,服务器对登录请求中包含的账号和密码进行验证,若验证成功则向用户提供敏感图像识别服务。另外,还可在获取到待识别图像后,获取用户的用户权限,该用户权限用于限制能够对待识别图像进行识别的类别范围,之后,基于用户权限,对待识别图像进行敏感图像识别。对待识别图像进行敏感图像识别的具体过程详见下述步骤204和步骤205,其中步骤204是基于敏感图像数据库进行识别,步骤205是基于图像识别模型进行识别。此外,还可在接入层进行流量控制、记录图像识别日志等事务。通过对用户进行身份验证可以提高服务器进行敏感图像识别的安全系数;通过根据不同用户权限提供不同的敏感图像识别服务,可以提高敏感图像识别的针对性。

204、检测敏感图像数据库中是否存在目标图像,得到检测结果,目标图像为与待识别图像相同的图像。

本步骤是基于敏感图像数据库进行敏感图像识别的方法,识别过程可以为:在获取到待识别图像后,提取待识别图像的图像指纹;在敏感图像数据库中,检测是否存在与该图像指纹匹配的目标图像,也即是,检测是否存在与该图像指纹相同的目标图像,得到检测结果。

其中,检测结果包含两种情况,第一,若敏感图像数据库中存在目标图像,则检测结果包含目标图像的所属类别,用于指示待识别图像为敏感图像;第二,若敏感图像数据库中不存在目标图像,则检测结果用于指示待识别图像为非敏 感图像。具体地,检测结果可以用二进制数值进行描述,比如采用“0”指示待识别图像为敏感图像,“1”指示待识别图像为非敏感图像,检测结果还可以用字符串进行描述,本发明实施例对检测结果的描述形式不做具体限定。

在本发明实施例中,将基于敏感图像数据库识别出的敏感图像统称为典型敏感图像。图像指纹可以唯一确定一个图像。此外,除上述利用图像指纹的方式对待识别图像进行识别以外,还可以采用其他图像匹配技术进行识别,本发明实施例对此不做具体限定。

205、通过图像识别模型对待识别图像进行类别预测,得到预测结果,预测结果包括待识别图像的多个可能所属类别以及每个可能所属类别的概率,图像识别模型根据敏感图像样本进行学习建立。

在本发明实施例中,基于图像识别模型对敏感图像进行识别的过程可以为:在获取到待识别图像之后,通过图像识别模型对待识别图像进行类别预测,具体地,将待识别图像作为图像识别模型的输入参数,通过图像识别模型,计算待识别图像属于每个敏感图像类别的概率,得到预测结果,也即是,得到待识别图像的多个可能所属类别以及每个可能所属类别的概率。

例如,假设图像识别模型可以识别8个敏感图像类别,它们分别是a1、a2、a3、a4、a5、a6、a7、a8,则对于待识别图像p来说,当将p作为图像识别模型的输入参数时,图像识别模型会计算p分别属于a1、a2、a3、a4、a5、a6、a7、a8的概率,并输出计算得到的多个概率。其中,输出的多个概率之和为1。

在本发明实施例中,通过结合上述步骤204基于敏感图像数据库的识别方法和步骤205基于图像识别模型的识别方法,不仅可以对典型敏感图像进行识别,还可以对新出现的或小范围传播的敏感图像进行识别,扩大了敏感图像的识别范围,提高了识别效果。

206、根据检测结果和预测结果,得到待识别图像的所属类别。

在本发明实施例中,根据上述步骤204得到的检测结果和步骤203得到的预测结果,得到待识别图像的所属类别可以包括以下两种情况:

第一种情况,若检测结果指示待识别图像为敏感图像,也即是,若敏感图像数据库中存在目标图像,则将目标图像的类别,确定为待识别图像的所属类别。

第二种情况,若检测结果指示待识别图像为非敏感图像,则判断每个可能所属类别的概率中是否存在第一概率,第一概率为大于预设概率阈值的概率;若存在,则将第一概率对应的可能所属类别确定为待识别图像的所属类别。

其中,检测结果指示待识别图像为非敏感图像,指代敏感图像数据库中不存在目标图像,说明基于敏感数据库无法确定待识别图像的类别。预设概率阈值可以为90%及其以上数值,比如93%、95%、97%、98%、99%等,本发明实施例对此不做具体限定。当待识别图像可能所属类别的概率大于预设概率阈值时,确定该可能所属类别即为待识别图像的所属类别。

其中,预设概率阈值还可以根据实际需求进行灵活设置,比如,根据应用场景的不同可以灵活调整预设概率阈值的数值。例如,对于交友应用来说,其涉及的业务包含敏感图像的概率较大,此时可以降低对敏感图像的识别精度,将预设概率阈值调低;对于新闻应用来说,其涉及的业务包含敏感图像的概率较小,此时可以提高对敏感图像识别的精度,将预设概率阈值调高。

需要说明的是,若每个可能所属类别的概率中不存在第一概率,则确定待识别图像的所属类别为正常图像。

进一步地,为了提高基于图像识别模型的敏感图像识别方法的识别准确率,可以根据图像识别模型不能识别出的待识别图像,对图像识别模型进行优化,包括两个阶段如下:

第一阶段,为待识别图像添加人工标注类别,过程可以为:在得到待识别图像的所属类别后,在预测结果中,判断每个可能所属类别的概率中是否存在第二概率,第二概率为在预设概率区间内的概率;若存在,则获取待识别图像的人工标注类别,为待识别图像添加人工标注类别,人工标注类别用于指示由用户为待识别图像所指定的类别。其中,若待识别图像可能所属类别的概率在预设概率区间内,则说明该待识别图像可能是该可能所属类别,但是不能确定是该可能所属类别,也就是说图像识别模型对该待识别图像的识别准确率不够高,因此,可将该待识别图像交由人工审核,获取待识别图像的人工标注类别,该人工标注类别为该待识别图像的所属类别。

第二阶段,对图像识别模型进行优化,过程可以为:基于添加人工标注类别的待识别图像,对敏感图像样本进行更新;基于更新后的敏感图像样本,对图像识别模型进行优化,后续基于优化后的图像识别模型进行敏感图像识别。

需要说明的是,为了避免频繁对敏感图像样本进行更新造成不必要的资源消耗,具体实施时,可以在获取到指定数量的添加人工标注类别的待识别图像后,再执行对图像识别模型进行优化的操作。此外,用户在发现服务器未检测出的敏感图像后,也可将发现的敏感图像进行反馈,当服务器接收到反馈的敏感图像后,为该反馈的敏感图像添加人工标注类别,之后,基于该添加人工标注类别的敏感图像,对敏感图像样本进行更新。其中,为了提高服务器在线识别图像的效率,可以预先对图像识别模型进行备份,基于备份的图像识别模型对图像识别模型进行离线优化,之后,再将优化后的图像识别模型上传至服务器,本发明实施例图像模型的优化方式不做具体限定。

需要说明的是,为了避免由于用户的恶意操作导致服务器的敏感图像识别准确率降低,比如,用户上传一些经过特殊处理的敏感图像,导致服务器无法识别,本发明实施例可以对敏感图像样本进行周期性更新,过程可以为:基于预设周期,在服务器识别过的图像中,随机抽取指定数目的图像,交由人工审核,获取每个图像的人工标注类别,若人工标注类别与指定图像被服务器识别出的类别不一致,则为该指定图像添加人工标注类别,之后,基于该指定图像对敏感图像样本进行更新。

进一步地,为了提高基于敏感图像数据库的敏感图像识别方法的识别准确率,可以对敏感图像数据库进行更新,过程可以为:在获取到待识别图像的人工标注类别后,若待识别图像的人工标注类别为典型敏感图像,则基于待识别图像对敏感图像数据库进行更新,后续基于更新后的敏感图像数据库进行敏感图像识别。

在另一实施例中,为了更好地遏制敏感图像的传播,提升网络环境的安全系数,还可从敏感图像传播源头限制敏感图像的传播。具体地,当检测结果指示敏感图像数据库中存在目标图像时,基于待识别图像的第一来源信息和目标图像的第二来源信息,得到目标图像的传播路径;获取目标图像的匹配成功次数,将匹配成功次数确定为目标图像的传播热度;基于传播路径和传播热度,对传播目标图像的用户执行账号禁用操作。其中,图像的来源信息中至少包括上传该图像的用户信息、上传时间、上传地点、上传该图像的应用等,本发明实施例对此不做具体限定。上述账号禁用操作的触发条件可以为传播热度达到预设次数,比如50次、100次等,本发明实施例对此不做具体限定。

例如,当某一目标图像的传播热度为2次时,对传播该目标图像的用户执行账户禁用操作。假如用户a在时间点1通过应用x上传了一张敏感图像,与目标图像1匹配,且该目标图像1匹配成功的次数为1,则记录该目标图像1的传播热度为1次。若该目标图像1由用户s在时间点t通过应用y上传,则可确定该目标图像1的传播路径为(用户s,时间点t,应用y)-(用户a,时间点1,应用x)。之后,若用户b在时间点2上通过应用z上传了一张敏感图像也与目标图像1匹配,则确定该目标图像1的传播热度为2次。此时,得到目标图像1的传播路径为(用户s,时间点t,应用y)-(用户a,时间点1,应用x)-(用户b,时间点2,应用z)。由于目标图像1的传播热度到达2次,则根据传播路径可得到传播该目标图像1的用户为,用户s、用户a和用户b,进而,可对上述三个用户执行账号禁用操作。上述应用x、应用y和应用z可以为相同应用或不同应用,本发明实施例对此不做具体限定。

需要说明的是,本发明实施例中对敏感图像的识别方法,还可以应用到对视频文件的识别上,得到该视频文件所属的敏感类别。具体地,对视频文件进行多个关键帧截取,对每个关键帧采用上述方法进行识别,获取每个关键帧的所属敏感图像类别;计算每个所属敏感图像类别中包含的关键帧的数目;若计算出的关键帧的数目占多个关键帧的比例超过预设阈值,则确定该视频文件为所属敏感图像类别的视频文件。其中,预设阈值可以为10%、20%、30%等,本发明实施例对此不做具体限定。

需要说明的是,根据用户的实际需求,可以仅采用上述步骤203或仅采用上述步骤204给出的方法进行敏感图像的识别。比如,若用户仅要求能够识别出典型敏感图像,则可仅采用上述步骤203给出的识别方法,即基于敏感图像数据库的识别方法;若用户要求识别出某类新出现的敏感图像,则可仅采用上述步骤204给出的方法,即基于图像识别模型的识别方法。

需要说明的是,本发明的应用场景可以包括面向个人的网络安全审核,比如,未成年人上网保护;也可用于面向企业的业务图像审核,比如,违规内容控制,净化业务网络环境;也可用于监管部门的网络安全抽查评估等,本发明实施例对此不做具体限定。

在本发明实施例中,还可以根据不同用户或企业或政策的需求,对具有不同危害等级的敏感图像进行识别并处理,以便提供更有针对性的服务,同时提 高敏感图像识别的灵活性。具体地,可以为每个敏感图像类别设置相应的危害等级以及相应的图像处理方式,该危害等级用于指示每个敏感图像类别的危害程度;可以预先设置敏感图像类别对应的危害等级;之后,当确定待识别图像的敏感图像类别对应的危害等级时,根据该危害等级对应的图像处理方式进行处理。

此外,对于同一个敏感图像类别,可以根据待识别图像针对于该敏感图像类别的概率,分为不同的危害等级,以实现对敏感图像危害等级的更细粒度的识别,具体地,每个敏感图像类别可以根据不同的概率阈值分为不同的危害等级,当待识别图像的可能所属类别的概率小于第一概率阈值时,其危害等级为低级;当待识别图像的可能所属类别的概率大于第一概率阈值且小于第二概率阈值时,其危害等级为中级;当待识别图像的可能所属类别的概率大于第二概率阈值时,其危害等级为高级。其中,第一概率阈值小于第二概率阈值,且第一概率阈值和第二概率阈值均小于1,第一概率阈值和第二概率阈值可以通过预先设置得到。本发明仅以低级、中级、高级三个危害等级为例,对危害等级的划分数目不做具体限定。

其中,不同危害等级对应不同的图像处理方式,比如,危害等级为低级的其图像处理方式可以为删除待识别图像;危害等级中级的其图像处理方式可以为删除待识别图像,并对上传该待识别图像的用户给予警告;危害等级为高级的其图像处理方式可以为删除待识别图像,并禁用传播该待识别图像的用户账号等;图像处理方式可以根据不同需求进行灵活设置,本发明实施例对此不做具体限定。

本发明实施例提供的方法,通过结合基于敏感图像数据库的识别方法和基于图像识别模型的识别方法,实现在识别典型敏感图像的同时,能够识别新出现的或传播范围小的敏感图像,扩展了敏感图像的识别范围,识别效果好。进一步地,在建立图像识别模型的过程中,先建立具有识别通用图像能力的初始识别模型,之后基于初始识别模型建立图像识别模型,这种图像识别模型的建立方法,提高了图像识别模型的建立速度,并且可以识别出更细粒度的敏感图像类别,识别准确率高,极大地解放了审核人力。

图3是本发明实施例提供的一种用于实现敏感图像识别方法的系统架构图, 以企业的业务图像审核为例。其中,业务层用于接收企业用户上传的业务相关的待识别图片或直接获取与业务相关的待识别图片,并将获取到的待识别图片通过接入层提供的网络接口发送至服务器层;服务器层用于对敏感图像进行识别并返回识别结果。服务器层可以包括多个服务器以降低服务器的数据处理压力,比如,服务器层可包括服务器1、服务器2、服务器3和服务器4。服务器1用于获取待识别图像,并对用户进行身份验证,当用户身份验证成功后,将待识别图像发送至服务器2和服务器3;服务器2用于实现检测敏感图像数据库中是否存在目标图像,得到检测结果,并将检测结果发送至服务器4;服务器3用于实现通过图像识别模型对待识别图像进行类别预测,得到预测结果,并将预测结果发送至服务器4;服务器4用于实现根据检测结果和预测结果,得到待识别图像的所属类别,并将待识别图像的所属类别发送到业务层,由业务层展示待识别图像的所属类别。

此外,服务器层还可包括离线处理服务器,用于当服务器3确定每个可能所属类别的概率中存在第二概率时,接收待识别图像;为待识别图片添加人工标注类别,并基于添加人工标注类别的待识别图像,对敏感图像样本进行更新;基于更新后的敏感图像样本,对于图像识别模型进行优化,并将优化后的图像识别模型对应的待更新文件发送至服务器3,由服务器3根据待更新文件获取优化后的图像识别模型,并基于优化后的图像识别模型进行敏感图像的识别。

离线处理服务器还用于当检测到人工标注类别为典型敏感图像时,将添加人工标注类别的待识别图像发送至服务器2,由服务器2根据接收到的待识别图像对敏感图像数据库进行更新,并基于更新后的敏感图像数据库进行敏感图像识别。

图4是本发明实施例提供的一种敏感图像识别装置的框图,参见图4,包括:获取模块401、检测模块402、类别预测模块403、类别确定模块404。

其中,获取模块401与检测模块402连接,用于获取待识别图像;检测模块402与类别预测模块403连接,用于检测敏感图像数据库中是否存在目标图像,得到检测结果,敏感图像数据库用于存储多个敏感图像以及每个敏感图像的所属类别,目标图像为与待识别图像相同的图像;类别预测模块403与类别确定模块404连接,用于通过图像识别模型对待识别图像进行类别预测,得到 预测结果,预测结果包括待识别图像的多个可能所属类别以及每个可能所属类别的概率,图像识别模型根据敏感图像样本进行学习建立;类别确定模块404,用于根据检测结果和预测结果,得到待识别图像的所属类别。

可选地,类别确定模块用于若检测结果指示待识别图像为非敏感图像,则判断每个可能所属类别的概率中是否存在第一概率,第一概率为大于预设概率阈值的概率;若存在,则将第一概率对应的可能所属类别确定为待识别图像的所属类别。

可选地,该装置还包括:

第一模型建立模块,用于通过机器学习装置对通用图像样本进行学习,建立初始识别模型,通用图像样本中包含多个通用图像类别的图像;

第二模型建立模块,用于基于初始识别模型,对敏感图像样本进行学习,建立图像识别模型,敏感图像样本中包含多个敏感图像类别的图像,多个敏感图像类别与多个通用图像类别之间没有交集。

可选地,该装置还包括:

判断模块,用于判断每个可能所属类别的概率中是否存在第二概率,第二概率为在预设概率区间内的概率;

标注模块,用于若存在,则获取待识别图像的人工标注类别,为待识别图像添加人工标注类别,人工标注类别用于指示由用户为待识别图像所指定的类别。

可选地,该装置还包括:

第一更新模块,用于基于人工标注类别的待识别图像,对敏感图像样本进行更新;

优化模块,用于基于更新后的敏感图像样本,对图像识别模型进行优化,后续基于优化后的图像识别模型进行敏感图像识别。

可选地,该装置还包括:

第二更新模块,用于若待识别图像的人工标注类别为典型敏感图像,则基于待识别图像对敏感图像数据库进行更新,后续基于更新后的敏感图像数据库进行敏感图像识别。

可选地,敏感图像数据库还用于存储每个敏感图像的来源信息,装置还包括:

传播路径获取模块,用于当检测结果指示敏感图像数据库中存在目标图像时,基于待识别图像的第一来源信息和目标图像的第二来源信息,得到目标图像的传播路径;

传播热度获取模块,用于获取目标图像的匹配成功次数,将匹配成功次数确定为目标图像的传播热度;

禁用模块,用于基于传播路径和传播热度,对传播目标图像的用户执行账号禁用操作。

本发明实施例提供的装置,通过结合基于敏感图像数据库的识别方法和基于图像识别模型的识别方法,实现在识别典型敏感图像的同时,能够识别新出现的或传播范围小的敏感图像,扩展了敏感图像的识别范围,识别效果好。

需要说明的是:上述实施例提供的敏感图像识别装置在识别敏感图像时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的敏感图像识别装置与敏感图像识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

图5是本发明实施例提供的一种敏感图像识别装置的框图。例如,装置500可以被提供为一服务器。参照图5,装置500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理部件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述敏感图像识别方法。

装置500还可以包括一个电源组件526被配置为执行装置500的电源管理,一个有线或无线网络接口550被配置为将装置500连接到网络,和一个输入输出(i/o)接口558。装置500可以操作基于存储在存储器532的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于 一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1