本发明属于计算机,具体涉及一种基于对抗对比学习的黄暴内容识别方法与系统。
背景技术:
1、近年来,随着互联网技术的进步以及智能手机的普及,由网络获取信息的途径日益丰富。但是,由于信息内容庞杂,准入门槛较低,且管理难度大,导致部分网络信息中掺杂一些暴力、色情的内容,对青少年成长极为不利。
2、目前,针对网络信息中的黄暴内容,现有的识别系统通常表现不佳,究其原因,主要存在以下问题:首先,黄暴内容识别往往存在样本数量少,样本难收集,难以有效识别的情况;其次,黄暴内容识别往往存在鲁棒性不高和泛化性不足的问题,输入的轻微扰动可能严重影响模型的判断。
3、综上可见,亟需一种高效、准确的黄暴内容识别方法及系统,以应对当前网络信息中隐含黄暴内容的问题。
技术实现思路
1、本发明实施例中提供了一种基于对抗对比学习的黄暴内容识别方法与系统,以解决现有技术中黄暴内容识别存在数据量极少,以及,鲁棒性不高和泛化性不足的问题。
2、为了解决上述技术问题,本发明实施例公开了如下技术方案:
3、本发明的一个方面提供一种基于对抗对比学习的黄暴内容识别方法,包括:
4、建立预训练数据集,所述预训练数据集中的每个样本均由一个句子和句子所属的类型构成,其中,句子的类型包括黄暴内容和非黄暴内容;
5、利用预训练数据集对预设的训练模型进行预训练,构建初始的识别模型;
6、对预训练数据集中的样本进行增强处理,获得增强后的新样本;
7、利用增强后的新样本和预训练数据集中的样本建立训练数据集;
8、采用引入扰动的对抗对比损失函数,基于训练数据集对初始的识别模型进行训练,得到最终的黄暴内容识别模型;
9、将待判断的句子输入黄暴内容识别模型,确定所述待判断句子是否包含黄暴内容。
10、可选地,所述利用预训练数据集对预设的训练模型进行预训练,构建初始的识别模型,包括:
11、对预训练数据集所有样本中的句子进行分词处理,分别获得每个句子的子词序列;
12、按照n-gram掩码策略对每个句子的子词序列进行掩码处理;
13、采用掩码处理后的子词序列对electra预训练模型进行mlm训练,获得初始的识别模型。
14、可选地,所述按照n-gram掩码策略对每个句子的子词序列进行掩码处理,包括:
15、按照以下方式进行掩码处理:
16、以45%的百分比进行一个子词的掩码处理;
17、以35%的百分比进行连续两个子词的掩码处理;
18、以15%的百分比进行连续三个子词的掩码处理;
19、以5%的百分比进行连续四个子词的掩码处理。
20、可选地,所述对预训练数据集中的样本进行增强处理,获得增强后的新样本,包括:
21、针对预训练数据集每个样本中的句子,均按照以下方法进行增强处理:
22、将所述句子以字节为单位进行拆分;
23、以预设概率在所述句子的字节后加入标点,得到一个新句子;
24、根据所述新句子生成一个新的样本,所述新句子的类型与对应的所述句子的类型一致。
25、可选地,所述采用引入扰动的对抗对比损失函数,基于训练数据集对初始的识别模型进行训练,得到最终的黄暴内容识别模型,包括:
26、对训练数据集进行重构;
27、建立引入扰动的对抗对比损失函数;
28、基于对抗对比损失函数,利用重构后训练数据集中的样本训练初始的识别模型,获得最终的黄暴内容识别模型。
29、可选地,所述对训练数据集进行重构,包括:
30、分别判断每个样本中句子的字节数量是否大于预设长度,如果是,将字节数量大于预设长度的句子截断,使截断后的每个子句的字节数量均不大于预设长度;
31、分别根据每个子句生成一个新的样本,并加入训练数据集,所述子句的类型与对应的被截断句子的类型一致;
32、在训练数据集中去除被截断句子的样本;
33、将重构后的训练数据集表示为:
34、{xi,yi}i=1,...n
35、其中,n为训练数据集中当前的样本总数;xi为第i个样本对应的输入数据,由第i个样本中句子的所有字节构成;
36、xi={[cls],t1,t2,…,tl,[eos]}
37、其中,[cls]表示开始的标识符;t1为第i个样本中句子的第一个字节,x2为第i个样本中句子的第二个字节,以此类推,tl为第i个样本中句子的第l个字节,即句子最后一个字节,l不大于预设长度;[eos]表示结束的标识符;
38、yi为第i个样本对应的标签,即将xi输入到初始识别模型后的输出数据,由第i个样本对应的类型构成。
39、可选地,所述建立引入扰动的对抗对比损失函数,包括:
40、按照以下方式建立对抗对比损失函数:
41、令训练数据集中相同类型的样本进行对比,每个类型的对比学习损失函数如下所示:
42、
43、其中,n为训练数据集中样本的总数;yi为第i个样本的标签;n3i为在训练数据集中,与yi具有相同标签的样本数量;τ为一个大于0的温度调节因子;φ(xi)表示xi输入初始的识别模型后,将最后四层hidden layer的输出数据进行最大池化后,通过softmax层之前的结果;φ(xj)表示xj输入初始的识别模型后,将最后四层hidden layer的输出数据进行最大池化后,通过softmax层之前的结果;xj为在训练数据集中,除第i个样本之外,其余样本对应的输入数据;
44、令训练数据集中不同类型的样本进行对比,按照以下方法建立对抗学习损失函数:
45、在训练数据集每个样本中xi的embedding词嵌入上添加扰动,具体采用公式如下:
46、
47、其中,表示样本xi的embedding编码;表示的梯度进行归一化之后的值;δ为添加的扰动;ε为预设超参数;
48、根据添加过扰动的建立对抗学习损失函数,公式如下:
49、
50、其中,yi,c表示类型为c的第i个样本的标签;表示经过模型后的输出数据;
51、根据对比学习损失函数和对抗学习损失函数,获得最终的对比对抗损失函数,公式如下:
52、
53、可选地,所述基于对抗对比损失函数,利用重构后训练数据集中的样本训练初始的识别模型,获得最终的黄暴内容识别模型,包括:
54、采用神经网络训练方式对初始的识别模型进行训练,得到最终的黄暴内容识别模型。
55、本发明的另一方面提供一种基于对抗对比学习的黄暴内容识别系统,包括:
56、预训练数据集建立模块,用于建立预训练数据集,所述预训练数据集中的每个样本均由一个句子和句子所属的类型构成,其中,句子的类型包括黄暴内容和非黄暴内容;
57、预训练模块,用于利用预训练数据集对预设的训练模型进行预训练,构建初始的识别模型;
58、增强模块,用于对预训练数据集中的样本进行增强处理,获得增强后的新样本;
59、训练数据集建立模块,用于利用增强后的新样本和预训练数据集中的样本建立训练数据集;
60、模型训练模块,用于采用引入扰动的对抗对比损失函数,基于训练数据集对初始的识别模型进行训练,得到最终的黄暴内容识别模型;
61、判断模块,用于将待判断的句子输入黄暴内容识别模型,确定所述待判断句子是否包含黄暴内容。
62、本发明实施例公开的一种基于对抗对比学习的黄暴内容识别方法与系统,通过引入对比学习,进行类间的对比,克服了黄暴内容样本较少,难以有效识别信息中黄暴内容的情况。同时,采用引入扰动的对抗训练,强化黄暴内容识别模型的鲁棒性和泛化能力,大大提升黄暴内容识别系统的性能。