图像审核模型、方法及电子设备与流程

文档序号:29922327发布日期:2022-05-07 09:26阅读:101来源:国知局
图像审核模型、方法及电子设备与流程

1.本发明实施例涉及计算机技术领域,尤其涉及一种图像审核模型、方法及电子设备。


背景技术:

2.随着互联网飞速发展和信息量的暴增,大量的非法(例如法律法规不允许传播、展示等的)图像夹杂于信息中,影响互联网健康发展。近些年计算机视觉技术发展迅速,机器学习技术在处理图像分类任务上已经成熟。使用机器学习模型对互联网图像进行分类,判断图像是否违规,可以极大地减少人工审核工作量。
3.使用单个卷积神经网络处理一种分类问题能取得很高的准确率。但是,若要同时分析图像在多个任务(分为多类)上的结果,需要分别训练多个机器学习模型,预测时同样需要运行多个模型,造成资源和时间浪费。


技术实现要素:

4.本技术提供了一种图像审核模型、方法及电子设备,以解决现有技术中针对同一图像,执行不同的分类任务时,需要同时训练多个分类模型,预测时同样需要运行多个模型,造成资源和时间浪费的技术问题。
5.第一方面,本技术提供了一种图像审核模型,该图像审核模型包括:特征提取模块、多个注意力模块,以及多个分类模块,其中,每个注意力模块对应预获取的多种特征提取规则中的一种特征提取规则,每一类特征提取规则对应一类特征标签;
6.特征提取模块,用于根据预设图像,提取第一图像特征;
7.多个注意力模块中的每一个注意力模块,分别用于根据与自身对应的特征提取规则,对第一图像特征进行处理,获取第二图像特征;
8.每一个分类模块,分别用于分别根据每一个第二图像特征,预测图像所属类别,其中每一个分类模块预测的图像所属类别包括:多种特征提取规则分别对应的类别中的其中一种类别;
9.统计输出模块,用于统计图像所属的所有类别,并输出结果。
10.第二方面,本技术提供了一种图像审核方法,该方法应用于如第一方面的图像审核模型,该方法包括:
11.根据图像,提取第一图像特征;
12.根据预获取的多个特征提取规则中的每一个特征提取规则,对第一图像特征进行处理,获取多个第二图像特征;
13.分别根据每一个第二图像特征,预测图像所属类别,其中每一个分类模块预测的图像所属类别包括:多种特征提取规则分别对应的类别中的其中一种类别;
14.统计图像所属的所有类别,并输出结果。
15.第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其
中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
16.存储器,用于存放计算机程序;
17.处理器,用于执行存储器上所存放的程序时,实现第二方面任一项实施例的图像审核方法的步骤。
18.第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如第二方面任一项实施例的图像审核方法的步骤。
19.本技术实施例提供的上述技术方案与现有技术相比具有如下优点:
20.本技术实施例提供的该图像审核模型,特征提取模块根据预设图像,提取第一图像特征。多个注意力模块中的每一个注意力模块,分别用于根据与自身对应的特征提取规则,对第一图像特征进行处理,获取第二图像特征。每一个分类模块,分别用于根据第二图像特征,预测图像所属类别。其中,每一个分类模块预测的图像所属类别均是多种特征提取规则分别对应的类别中的其中一种。也即是说,通过该图像审核模型,可以利用多个注意力模块中的每一个注意力模块,根据特征提取规则的不同,针对同一图像可以提取不同的图像特征,进而根据不同的图像特征来分别预测并输出图像的所属类别。将注意力机制引入到不同任务分支(对应不同特征提取规则),可以让每个任务分别获取所需特征,避免硬共享参数。而且,该模型在训练过程中也可以同时针对多个任务同时训练,多个任务不会互相影响,易于训练,各个任务也都可以取得很高的准确率。使用经过训练好的模型,可以同时处理多种图片内容审核任务,单次推理即可获得所有结果,因而就存在吞吐量大的优点。
附图说明
21.图1为本发明实施例提供的一种图像审核模型结构框图;
22.图2为本发明实施例提供的另一种图像审核模型结构框图;
23.图3为本发明提供的特征提取模块的具体结构示意图;
24.图4本发明提供的一种图像审核模型实际应用中的整体示意结构图;
25.图5为本发明提供的图4中用以表示注意力模块与subnet模块,以及 flatten模块之间的结构关系的局部示意图;
26.图6为本发明提供的特征拼接模块与分类模块之间的关系的结构示意图;
27.图7为本发明提供的一种注意力机制模块的具体结构示意图;
28.图8为本发明提供的一种子网络结构的具体结构示意图;
29.图9为本发明实施例提供的一种图像审核方法流程示意图;
30.图10为本发明提供的针对多任务的图像审核模型的训练过程以及首次应用流程示意图;
31.图11为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
32.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
33.为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
34.针对背景技术中所提及的技术问题,本技术实施例提供了一种图像审核模型,具体参见图1所示,图1为本发明实施例提供的一种图像审核模型结构框图。该方该图像审核模型包括:特征提取模块101、多个注意力模块102、多个分类模块103,以及统计输出模块104。
35.其中,每个注意力模块102对应预获取的多种特征提取规则中的一种特征提取规则,每一类特征提取规则对应一类特征标签。
36.特征提取模块101,用于根据预设图像,提取第一图像特征。
37.多个注意力模块102中的每一个注意力模块102,分别用于根据与自身对应的特征提取规则,对第一图像特征进行处理,获取第二图像特征。
38.每一个分类模块103,分别用于分别根据每一个第二图像特征,预测图像所属类别,其中每一个分类模块103预测的图像所属类别包括:多种特征提取规则分别对应的类别中的其中一种类别。
39.统计输出模块104,用于统计图像所属的所有类别,并输出结果。
40.具体的,特征提取模块101,用于对预设图像进行初步的特征提取,以获取第一图像特征。注意力模块102,是一种用于前馈卷积神经网络的简单而有效的注意力模块102,其可以通过加权方式使得网络学习模型获取对目标任务有用的特征。也即是,通过加权方式使得本技术实施例中的图像审核模型,可以获取与特征提取规则对应的有用特征。在本实施例中,可以配置一个注意力模块102对应一种特征提取规则。而每一类特征提取规则对应一类特征标签,该类特征标签,可以是与某一个任务对应的特征标签。
41.每一个注意力模块102根据与自身对应的特征提取规则,分别对第一图像特征进行处理(进一步提取图像特征),获取第二图像特征。也正是因为不同的注意力模块102对应的特征提取规则不同,所以每一个注意力模块102针对同一预设图像所提取的图像特征不同。
42.顺应的,本实施例中的图像审核模型还包括多个分类模型,用于分别根据每一个第二图像特征,来预测图像所属类别。其中,每一个分类模块 103预测的图像所属类别包括多特征提取规则分别对应的类别中的其中一种类别。
43.最终,统计输出模块104,统计图像所属的所有类别,并输出结果。
44.即,每一个分类模块103都会得到一个结果,统计模块则对所有的分类结果进行统计并输出。
45.本发明实施例提供的图像审核模型,特征提取模块根据预设图像,提取第一图像特征。多个注意力模块中的每一个注意力模块,分别用于根据与自身对应的特征提取规则,对第一图像特征进行处理,获取第二图像特征。每一个分类模块,分别用于根据第二图像特征,预测图像所属类别。其中,每一个分类模块预测的图像所属类别均是多种特征提取规则分别对应的类别中的其中一种。也即是说,通过该图像审核模型,可以利用多个注意力模块中的每一个注意力模块,根据特征提取规则的不同,针对同一图像可以提取不同的图像特征,进而根据不同的图像特征来分别预测并输出图像的所属类别。将注意力机制引入到不同任务分支(对应不同特征提取规则),可以让每个任务分别获取所需特征,避免硬共享参
数。而且,该模型在训练过程中也可以同时针对多个任务同时训练,多个任务不会互相影响,易于训练,各个任务也都可以取得很高的准确率。使用经过训练好的模型,可以同时处理多种图片内容审核任务,单次推理即可获得所有结果,因而就存在吞吐量大的优点。
46.在一个可选的例子中,具体参见图2所示,考虑到注意力模块102对第一图像特征进行处理,获取第二图像特征为高维图像特征,不易被分类模块103处理。因此,该图像审核模型还可以包括:降维模块105,用于对第二图像特征进行降维,获取降维特征。以便后续分类模块103可以根据降维特征,预测预设图像的所属类别。
47.在另外一个可选的例子中,当特征提取模块101包括基于基础网络生成的多层特征金字塔结构时,每一层金字塔结构分别与多个注意力模块 102中的每一个注意力模块102建立连接;
48.每一层特征金字塔均用于针对预设图像提取第一图像特征,并将第一图像特征分别输入到不同的注意力模块102中,获取多个第二图像特征,其中,每一层金字塔结构提取的第一图像特征不同。
49.具体参见3所示,图3示意出了特征提取模块101的具体结构示意图。其包括共享的基础网络以及特征金字塔结构(shared backbone and featurepyramid network)。
50.从基础卷积神经网络(backbone)中获取三个层的输出,记作c1、 c2、c3,c3层宽和高分别为c2层宽和高的2倍,c2层宽和高分别为c1 层宽和高的2倍。c1层经过一个1x1的卷积得到p1层,c2层经过一个 1x1的卷积拼接p1层经过2倍上采样的结果得到p2层,c3层经过一个1x1 的卷积拼接p3层经过2倍上采样的结果得到p3层。由此得到三个具有相同通道数、不同宽高的层p1、p2、p3。p1宽度最小,特征更加抽象,有利于大目标的分类。p3宽度最大、特征更具体,有利于小目标的分类。
51.其中,p1层、p2层,以及p3层即为多层特征金字塔结构的其中一个可是实现示例,但并不代表特征金字塔的结构仅为三层,其可以为4层,5 层甚至更多层。针对每一层中宽和高的比例也并非要局限于2倍,层与层之间更是没有倍数限制。例如可以是4倍,7倍等等。具体可以根据实际情况设定,这里不再赘述。
52.利用共享的基础网络和特征金字塔结构相结合,是可以保证同一图像在提取特征时,可以根据需要(层次不同)提取出不同类别图像特征。例如有利于大目标的分类、小目标的分类特征等等。
53.将每一层金字塔结构分别与多个注意力模块102中的每一个注意力模块102建立连接;其目的是为了将不同层次的分类特征依次输入到不同的注意力模块102中,利用注意力模块102的再次提取到不同任务所需的特征。具体参见图4所示。假设任务包括两种,每一层特征金字塔输出的第一图像特征,均要输入到不同的注意力模块102中,假设任务包括2个,金字塔结构包括3层。那么,其对应的注意力模块102则共同包括6个。即,每一层金字塔输出的第一图像特征均输入到两个注意力模块102中,每一个注意力模块102对应一种特征提取规则。
54.通过该方式,所获取的第二图像特征都是针对某一个任务对应的图像特征,其对于后续任务的标签分类提供了更好的依据,使得最终的任务分类将会更加的精确。
55.进一步可选的,图像审核模型还可以包括多个获取模块106,以及多个特征融合模块107,具体参见图2所示。
56.其中,每一个获取模块106分别与一个注意力模块102建立连接,以及与一个特征融合模块107连接,特征融合模块107与降维模块105连接。
57.获取模块106,用于获取与第二图像特征对应的增强数据;
58.特征融合模块107,用于将第二图像特征与增强数据进行融合,获取与每一个特征提取规则对应的融合特征。
59.降维模块105具体用于,对融合特征进行降维,获取降维特征。
60.在一个截图的例子中,获取模块106与特征融合模块107可以为一个整体,例如图4中所示的subnet模块。subnet模块为卷积神经网络中的一个子网络,其通常为卷积(convolution)、激活函数(activation)、batch norm 函数等的组合。其主要是增加一些参数与第二图像特征进行拟合,也即是, subnet模块中会获取到与第二图像特征对应的增强数据,用以与第二图像特征融合后,增加第二图像特征的非线性特性。
61.而特征融合模块107,则与降维模块105建立连接。具体参见图4所示,子网络subnet后连接flatten模块,用于将多维的融合图像特征降维,形成一维化图像特征。
62.图5示意出了图4中的局部示意图,用以表示注意力模块102与subnet 模块,以及flatten模块之间的结构关系。
63.在另一个可选的例子中,当与每一个特征提取规则对应的降维特征包括多个时,图像审核模型还包括:特征拼接模块,具体参见图2所示。
64.特征拼接模块108,用于将与每一个特征提取规则对应的多个降维特征进行拼接,获取拼接特征。
65.具体参见图4所示,图4中的特征拼接模块108concat包括两个,特征拼接模块108的数量与待执行的任务(或者说特征提取规则)的个数相同。每一个特征提取模块101均用于将于自身对应的特征提取规则的多个降维特征进行拼接,获取拼接特征。
66.然后,将拼接特征输入到对应的分类模块103classification中,用于预测图像的所属类别。图6中示意出了特征拼接模块108与分类模块103之间的关系。不同任务对应不同的特征拼接模块108,以及不同的分类模块103。
67.进一步可选的,考虑到不同分类模块103针对图像都会输出一个相应的分类标签。但是该标签所对应的概率可能并不是很大,也即是说,该图像属于该类的概率会很小。为了避免这种情况的方法,因此该图像审核模型还包括:确定模块109,具体参见图2所示。
68.确定模块109,用于分别确定每一个分类模块103预测的图像所属类别的概率值是否超过预设概率阈值;
69.当确定图像所属类别中一个或多个类别对应的概率值超过预设概率阈值时,确定一个或多个类别为图像最终所属类别。
70.在一个具体的例子中,假设图像审核模型要执行的任务包括任务a和任务b。任务a对应的标签包括a1、a2,以及a3。而b任务对应的标签为b1、b2、以及b3。
71.首先,收集a类任务所需的图像和b类任务所需的图像,然后分别根据a1至a3,以及b1至b3的标签对图像做适应性的标记工作。
72.假设图像1对应的标签为a1,b2。图像2对应的标签为a2,b3。
73.采用的基础网络(backbone)为resnet50,注意力机制模块为 convolutional bottleneck attention module,参见图7所示,是一种卷积神经网络注意力模块,这里不再
赘述。选择的c1、c2、c3层分别为resnet50 中的stage 3、stage 2、stage 1的最后一层,对应的大小分别为 1024x14x14、512x28x28、256x56x56,chw通道、通道可以是多倍。宽和高,宽和高是相同的,连接的1x1卷积通道数分别为256、256、256。选择的子网络结构如图8所示,子网络结构示意图为现有结构示意图,因此这里不再过多赘述。分类模块103(classification)为全连接层。任务1的输出为output1,长度为3,任务2的输出为output2,长度为7。损失函数loss 为交叉熵值损失(cross entropy loss),两个任务的损失分别记为loss1、 loss2。
74.对图像进行预处理,大小变为3x224x224,记作x,输入交叉熵值损失函数中计算损失,对于两个任务,分别设置损失权重为1.0、1.0,即总损失loss=1.0*loss1(output1,a)+1.0*loss2(output2,b),误差反向传播并更新参数,重复这个过程,直至网络收敛。
75.预测时先将图像进行预处理,处理为3x224x224大小,输入上述所介绍的图像审核模型,得到两个输出output1和output2,对output1和output2 分别使用sigmoid函数,得到各个类别在[0,1.0]范围的分数。当某个类别分数大于预设阈值时,识别为该类别。
[0076]
以上,为本技术所提供的图像审核几个图像审核模型实施例,下文中则介绍说明本技术所提供的图像审核其他实施例,具体参见如下。
[0077]
图9为本发明实施例提供的一种图像审核方法,该方法应用于如上述任一实施例所介绍的图像审核模型,该方法包括:
[0078]
步骤910,根据图像,提取第一图像特征。
[0079]
步骤920,根据预获取的多个特征提取规则中的每一个特征提取规则,对第一图像特征进行处理,获取多个第二图像特征。
[0080]
步骤930,分别根据每一个第二图像特征,预测图像所属类别。
[0081]
其中,每一个分类模块预测的图像所属类别包括:多种特征提取规则分别对应的类别中的其中一种类别。
[0082]
步骤940,统计图像所属的所有类别,并输出结果。
[0083]
可选的,根据与自身对应的特征提取规则,对第一图像特征进行处理,获取第二图像特征之后,该方法还包括:对第二图像特征进行降维,获取降维特征。
[0084]
可选的,当如上任一实施例中所介绍的图像审核模型中的特征提取模块包括基于基础网络生成的多层特征金字塔结构时,该方法还包括:
[0085]
利用每一层特征金字塔针对预设图像提取第一图像特征,并将第一图像特征分别输入到不同的注意力模块中,获取多个第二图像特征,其中,每一层金字塔结构提取的第一图像特征不同。
[0086]
可选的,该方法还包括:获取与第二图像特征对应的增强数据;
[0087]
将第二图像特征与增强数据进行融合,获取与每一个特征提取规则对应的融合特征。
[0088]
可选的,当与每一个特征提取规则对应的降维特征包括多个时,该方法还包括:
[0089]
将与每一个特征提取规则对应的多个融合特征进行拼接,获取拼接特征。
[0090]
可选的,分别根据每一个第二图像特征,预测图像所属类别之后,该方法还可以包括:
[0091]
分别确定每一个分类模块预测的图像所属类别的概率值是否超过预设概率阈值;
[0092]
当确定图像所属类别中一个或多个类别对应的概率值超过预设概率阈值时,确定一个或多个类别为图像最终所属类别。
[0093]
本发明实施例提供的图像审核方法中各部件所执行的功能均已在上述任一图像审核模型实施例中做了详细的描述,因此这里不再赘述。
[0094]
本发明实施例提供的一种图像审核方法,根据预设图像,提取第一图像特征。分别根据多中特征提取规则中的每一种,对第一图像特征进行处理,进而可以获取多个第二图像特征。然后,根据每一个第二图像特征,预测图像所属类别。其中,每一个分类模块预测的图像所属类别均是多种特征提取规则分别对应的类别中的其中一种。也即是说,通过该图像审核模型,可以利用多个注意力模块中的每一个注意力模块,根据特征提取规则的不同,针对同一图像可以提取不同的图像特征,进而根据不同的图像特征来分别预测并输出图像的所属类别。将注意力机制引入到不同任务分支(对应不同特征提取规则),可以让每个任务分别获取所需特征,避免硬共享参数。而且,该模型在训练过程中也可以同时针对多个任务同时训练,多个任务不会互相影响,易于训练,各个任务也都可以取得很高的准确率。使用经过训练好的模型,可以同时处理多种图片内容审核任务,单次推理即可获得所有结果,因而就存在吞吐量大的优点。
[0095]
图10示意出了针对多任务的图像审核模型的训练过程以及首次应用流程,具体参见图10所示,该方法包括:
[0096]
步骤1010,收集多个任务所需的图片并进行标注,其中每张图在每个任务上都产生一个类别标签。
[0097]
步骤1020,利用步骤1010所收集的样本数据,对多任务的图像审核模型的初始模型进行迭代训练,获取图像审核模型。
[0098]
步骤1030,将预设图像预处理后输入到训练好的图像审核模型中,获取多个任务的预测结果。
[0099]
步骤1040,根据审核需求以及各任务预设的阈值,获取需要的标签结果。
[0100]
以上操作过程中,对于模型的训练过程属于现有技术,对于模型的应用过程则已经在上文中做了详细介绍,因此这里不再过多赘述。
[0101]
如图11所示,本技术实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口 112,存储器113通过通信总线114完成相互间的通信。
[0102]
存储器113,用于存放计算机程序;
[0103]
在本技术一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个图像审核方法实施例提供的图像审核方法步骤,包括:
[0104]
根据图像,提取第一图像特征;
[0105]
根据预获取的多个特征提取规则中的每一个特征提取规则,对第一图像特征进行处理,获取多个第二图像特征;
[0106]
分别根据每一个第二图像特征,预测图像所属类别,其中每一个分类模块预测的图像所属类别包括:多种特征提取规则分别对应的类别中的其中一种类别;
[0107]
统计图像所属的所有类别,并输出结果。
[0108]
可选的,对第二图像特征进行降维,获取降维特征。
[0109]
可选的,当如上任一实施例中所介绍的图像审核模型中的特征提取模块包括基于基础网络生成的多层特征金字塔结构时,该方法还包括:
[0110]
利用每一层特征金字塔针对预设图像提取第一图像特征,并将第一图像特征分别输入到不同的注意力模块中,以获取多个第二图像特征,其中,每一层金字塔结构提取的第一图像特征不同。
[0111]
可选的,该方法还包括:获取与第二图像特征对应的增强数据;
[0112]
将第二图像特征与增强数据进行融合,获取与每一个特征提取规则对应的融合特征。
[0113]
可选的,当与每一个特征提取规则对应的降维特征包括多个时,该方法还包括:
[0114]
将与每一个特征提取规则对应的多个融合特征进行拼接,获取拼接特征。
[0115]
可选的,分别根据每一个第二图像特征,预测图像所属类别之后,该方法还可以包括:
[0116]
分别确定每一个分类模块预测的图像所属类别的概率值是否超过预设概率阈值;
[0117]
当确定图像所属类别中一个或多个类别对应的概率值超过预设概率阈值时,确定一个或多个类别为图像最终所属类别。
[0118]
本技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如前述任意一个图像审核方法实施例提供的图像审核方法的步骤。
[0119]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、图像审核模型、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、图像审核模型、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、图像审核模型、物品或者设备中还存在另外的相同要素。
[0120]
以上仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1