基于多模态特征融合的网站敏感内容分类方法、系统、设备及介质

文档序号:37941784发布日期:2024-05-11 00:20阅读:10来源:国知局
基于多模态特征融合的网站敏感内容分类方法、系统、设备及介质

本发明属于图像处理分析,尤其涉及一种基于多模态特征融合的网站敏感内容分类方法、系统、设备及介质。


背景技术:

1、用户使用互联网的终端主要分为移动应用端与网页端,移动互联网应用蓬勃发展,国内市场上监测到的活跃app数量达260万款,进一步覆盖网民日常学习、工作、生活,万物互联基础不断夯实。在网页端,我国目前的网站数量约为387万个,虽然呈现逐年下降的趋势,但仍然有许多网络服务是通过网站提供的。网站数量逐年下降的现象体现了背后管理运维人员的下降,甚至有的网站已经被放弃使用但是并未被注销。这导致了数量庞大的缺少维护网站被非法利用,篡改成非法网站。同时,存在数量庞大的境外非法网站,由于服务器位于境外,进一步加大了对其处理的难度与对社会造成的危害。

2、在日常校园网站的维护过程中发现以下现象:原有的合法域名链接,在使用过程中,已经被广泛发布在校内网的网站上,当这些合法域名例如国际会议域名www.****.org等,在完成使命或者网站服务后,注册人不再续费,就会被一些人非法重新注册,用于非法网站,利用高校网站推广非法网站,损害了教育机构的正面形象,影响十分恶劣。一旦被域名被非法网站利用,电信安全部门检测到后,就要求立即清理,否则切断学校电信出口,管理员工作很被动。目前只能电信发现一个非法域名管理员手动处理一个。为了更加深入和全面地主动维护校园网络环境,有必要提出一个能准确检测非法网站的方法,主动发现存在于学校网站页面上的非法网站。

3、与本发明最相近的实现方案有ying liu等人在2021年提出了一种基于图卷积网络模型(graph convolutional network,gcn)的敏感信息检测方法。该方法应用预训练模型对给定文档和语料库中的关键字进行编码。其次,应用图注意力网络来提取结构和文本信息,将这些信息用于形成分类。本方法只针对网站中的文本信息进行敏感信息检测。

4、其他实现方案还有junren chen等人在2020年提出了一种基于视觉注意机制的深度单分类算法(docaporn)用于识别非法图像。基于深度学习的单分类,可以避免由于只识别目标物体而导致的负样本类型无限多的问题。从而避免了负样本不足的问题。此外,将视觉注意力机制引入深度单分类,使神经网络更专注于目标对象。提出的方法提高了对图像进行非法信息识别的准确率。但本方法只针对非法敏感内容图片有较好的分类效果,并且单纯使用注意力机制会缺乏对局部信息的关注。

5、公开号为cn107862050a、名称为一种网站内容安全检测系统及方法的专利申请,通过爬取网页的图像信息作为分类依据,通过fpga硬件加速器加速训练图像分类模型。实现快速且准确的网站内容安全检测目的。但本方法只针对网站中的图像内容进行分类存在局限性。


技术实现思路

1、为了克服上述现有技术的不足,本发明的目的在于提出基于多模态特征融合的网站敏感内容分类方法、系统、设备及介质,利用seresnet提取的初步特征中包含了局部特征,降低整体模型的计算参数;再通过transformer模块,利用自注意力机制学习图像的全局信息,提升非法图像分类的准确率;使用多模态特征融合,将非法网站上的文本信息特征与图像信息特征结合成一个全局的特征向量,提高了分类的准确率。

2、为了实现上述目的,本发明采用的技术方案如下:

3、一种基于多模态特征融合的网站敏感内容分类方法,具体包括以下步骤:

4、步骤1,获取网站内容的多模态数据集;

5、步骤2,根据步骤1获取的数据集构建基于seresnet-transformer的网站敏感图像内容分类模型;

6、步骤3,根据步骤1得到的多模态数据集与步骤2的基于seresnet-transformer的网站敏感图像内容分类模型,构建基于多模态特征融合的网站敏感内容分类模型;

7、步骤4,将在步骤1构建的网站内容的多模态数据集输入步骤3构建的基于多模态特征融合的网站敏感内容分类模型中,获取网站敏感内容分类结果。

8、所述步骤1的具体方法为:

9、步骤1.1数据采集

10、步骤1.1a中文文本内容采集

11、首先,使用自动化测试工具模拟浏览器访问该网页的过程,在向下滚动网页页面的过程中等待网页完成渲染与脚本加载完成,之后,再进行采集网页html源代码,获得网页实际显示的内容的html源代码;再采用正则表达式匹配的方法采集中文文本内容;

12、步骤1.1b图像数据的采集

13、根据html源代码中<img>标签中的src属性或data-origin属性提取页面内的图片内容;

14、步骤1.2数据处理

15、步骤1.2a文本内容的数据处理:

16、使用python的jieba分词库对网页文本数据进行分词,对分词后的结果进行停用词挖掘,获得一个高频出现却与网页实际内容无关的网页文本数据特有的停用词表;得到网页文本数据特有的停用词表后,对分词的结果删除其中的停用词;

17、步骤1.2b图像内容的数据处理:

18、首先,筛选出以jpg、jpeg、png与gif后缀结尾的图像文件,剔除其他格式错误的图像文件;

19、其次,选择剔除高度与宽度均低于像素阈值的图片;对gif格式动图先解码为一系列帧,再逐帧转换为jpg格式的文件,并对图像进行统一大小的缩放;获得网站的文本模态与图像模态的数据集。

20、所述网页文本数据停用词挖掘过程为:首先,将使用python的jieba分词库对网页文本数据进行分词后的每个词使用tf-idf(term frequency-inverse documentfrecuency,逆文档频率)进行编码;tf-idf编码用于评估一个词语在一个文本数据集中的重要性,即一个词语的在一个文档中出现的次数越多越重要,但一个词语出现在一个数据集的越多文档中,这个词语重要性反而下降;据此,将每个词语的tf-idf编码值从低到高排序,即按每个词语在数据集中的重要性从低到高排列,截取前n(n≥100)个词语即获得一个高频出现却与网页实际内容无关的网页文本数据特有的停用词表,得到网页文本数据特有的停用词表后,对分词的结果删除其中的停用词。

21、所述步骤2具体包括以下步骤:

22、步骤2.1,构建基于seresnet模型的初步特征提取模块:

23、首先,将resnet-50作为骨干网络的结构进行改进,以调整输出的特征向量维度;

24、然后,利用包括压缩和激励部分的se模块进行压缩操作:将特征向量尺寸用h*w表示,特征向量通道数为c,则se模块压缩部分的公式如下:

25、

26、其中,uc为每个尺寸为h*w的特征向量通道,经过全局平均池化操作后得到尺寸为1*1的zc像素点;一个h*w*c的特征向量经过压缩操作后得到1*1*c的特征向量;

27、se模块激励部分操作:对压缩后得到的1*1*c的特征向量,先通过一个全连接层把1*1*c的特征向量降维成一个的向量,接着输入一个relu激活层;再通过一个全连接层把的向量重新升维为一个1*1*c的向量,接着输入一个sigmoid的激活层;se模块激励部分的公式为:

28、fex(z,w)=σ(g(z,w))=sigmoid(w2*relu(w1z))

29、最终,将通道注意力向量与特征向量相乘,校准了特征向量,得到加入了通道注意力的特征向量:

30、fscale(uc,sc)=scuc

31、步骤2.2,使用基于transformer模块的全局特征聚焦模块聚焦网站图像的全局特征:

32、基于步骤2.1构建的seresnet模型的初步特征提取模块,提取出的图像初步特征,首先,添加class token,再添加位置编码;随后通过由多个transformer encoder模块组成的全局特征聚焦模块;transformer encoder模块不改变输入输出大小,输入特征与输出特征维度相同,多个叠加输出特征不变;最终,在输出特征向量中取出class token,传入把特征向量转换成分类结果的工具mlp多层感知机与softmax函数。

33、所述resnet-50骨干网络结构改进的方法为:将resnet-50网络中的stage-1重复堆叠3次,stage-2重复堆叠4次,stage-3重复堆叠9次,下采样率设置为16。

34、所述步骤3的具体方法为:

35、将步骤1获取的多模态数据集中的文本模态数据去除停用词后,输入albert文本分类模型,得到文本模态特征向量;将步骤2.2转换后的特征向量输入seresnet模型的初步特征提取模块、transformer encoder模块中,去除transformer encoder模块后的mlp多层感知机与softmax函数,提取图像模态特征向量;最后,将得到的文本模态特征向量和图像模态特征向量拼接并输入全连接层与softmax函数,输出多模态(图像+文本)分类结果,构建得到基于多模态特征融合的网站敏感内容分类模型。

36、所述步骤4具体方法为:

37、将在步骤1构建的网站内容的多模态数据集输入步骤3提出的基于多模态特征融合的网站敏感内容分类模型中,输出多模态(图像+文本)分类结果,从输出的多模态(图像+文本)分类结果获取网站敏感内容分类结果;使用准确率、精确率、召回率及f1分数来对网站敏感内容分类结果进行综合评价。

38、一种基于多模态特征融合的网站敏感内容分类系统,包括:

39、图像采集及预处理模块,用于步骤1中对网页文本数据进行停用词挖掘,剔除网页文本数据特有的停用词与中文常见停用词;对图像内容的数据筛选剔除格式错误的图像文件,获取符合要求的图像数据,进行统一缩放;获得网站的文本模态与图像模态的数据集;

40、seresnet模型的初步特征提取模块,用于步骤2.1中提取图像初步特征,能够对输入seresnet网络的待分类图片在压缩和激励操作后获得图像初步的特征信息;

41、基于transformer模块的全局特征聚焦模块,用于步骤2.2中聚集图像全局特征,利用自注意力机制学习图像的全局信息,提升非法图像分类的准确率;

42、多模态特征融合模块,用于步骤3中融合图像特征向量与文本特征向量,能够将非法网站上的文本信息特征与图像信息特征结合成一个全局的特征向量,从而将不同模态之间的特征信息互补,获得更全面的全局特征,从而提高分类的准确率。

43、一种基于多模态特征融合的网站敏感内容分类的电子设备,包括:存储器和处理器,所述存储器存储有计算机程序,使得所述处理器执行步骤1至4任意一项所述多模态特征融合的网站敏感内容分类的方法。

44、一种接收用户输入程序存储介质,所存储的计算机程序被处理器执行时能够基于权利要求1至7任一项所述的多模态特征融合的网站敏感内容分类的方法,基于多模态特征融合对网站敏感内容进行分类。

45、本发明与现有技术相比,具有如下优点:

46、(1)本发明使用图像分类技术,通过seresnet模型提取图像的初级特征,通过transformer模块学习图像的全局信息,最终通过全连接神经网络与softmax函数输出分类结果,解决非法敏感图像的关键区域在空间上的分布尺度较大且缺少规律的问题,提高非法敏感图像分类的准确率。

47、(2)本方法利用seresnet提取的初步特征中包含了局部特征,且降低了后续输入transformer模块的序列长度,降低整体模型的计算参数。

48、(3)本发明通过transformer模块,利用自注意力机制学习图像的全局信息,提升非法图像分类的准确率。

49、(4)本发明使用多模态特征融合的方法,将非法网站上的文本信息特征与图像信息特征结合成一个全局的特征向量,从而将不同模态之间的特征信息互补,获得更全面的全局特征,从而提高分类的准确率。

50、(5)本发明相较于基于图卷积网络模型的敏感信息检测方法,更全面地分析网站所包含的信息,除了文本信息之外还将图像信息纳入分类过程中,使用多模态特征融合的方法将文本内容与图像内容相融合,提高非法网站分类的准确率。

51、(6)相较于基于视觉注意机制的深度单分类方法相比,该方法只针对非法敏感内容图片有较好的分类效果,并且单纯使用注意力机制会缺乏对局部信息的关注。而本发明针对非法敏感图像的关键区域在空间上的分布尺度较大且缺少规律的特点,提出seresnet-transformer模型,首先将待分类图片输入seresnet网络获得图像初步的特征信息,再将特征向量输入transformer模块利用自注意力机制学习图像的全局信息,最终通过全连接神经网络与softmax函数输出分类结果,更全面地分析网站所包含的信息,除了图像信息之外还将文本信息纳入分类过程中,使用多模态特征融合的方法将文本内容与图像内容相融合,提高非法网站分类的准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1