一种基于加密流量的不良信息样本扩增方法和系统与流程

文档序号:37790888发布日期:2024-04-30 17:01阅读:6来源:国知局
一种基于加密流量的不良信息样本扩增方法和系统与流程

本发明属于网络通信领域,尤其涉及一种基于加密流量的不良信息样本扩增方法和系统。


背景技术:

1、近年来,随着网络技术的快速发展,信息安全问题越来越受到人们的重视,因此加密技术得到深入研究并被广泛应用到各种软件和协议中。然而,一些用户利用加密技术来隐藏自己的恶意操作或非法行为,以达到逃避检测及监管的目的,为不良信息的传播制造了条件,加大了网络信息安全监管的难度。

2、现网加密流量指的是在现实网络环境通信过程中,为了提升数据传输的安全性,将https,ssh,thunder,emule,skype 等加密协议应用到具体应用或软件中,对传输的信息进行加密处理后得到的实际明文内容。

3、不良信息指的是具有色情、暴力、欺诈、诱导、误导、骚扰等特点,对公众传播不良价值观、不良人生观、有违社会道德等信息。该类信息在现网传播环境中,一旦受到加密流量的加持,将难以破解,而且不良信息网站即便被监管部门处置,相同的信息仍会以其他网站作为入口呈现,这样不但对网络安全带来巨大隐患,对网络治理带来巨大的挑战。

4、在检测样本方面,由于人为预先获取加密不良信息的途径有限且获取难度较大,现有的研究大多是基于有限的加密不良信息开展的,即便是获取到了某一场景下对应的明文信息,明文信息在不同网站平台、网络环境中传输或同一场景下的明文信息稍作调整,识别能力仍然存在较大局限。此外,样本数据集存在的数据不平衡的问题仍难避免,对于使用人工智能技术进行检测的识别模型来说,识别准确率不高,泛化性不足。因此基于此条件下的研究将会导致未来检测模型仅适用于固定且已知的不良信息检测有效,对不良信息样本的搜集数量、质量等多方面带来较大负担。

5、受网络环境的发展变化、应用场景的切换和应用需求的不断变化的影响,现网传输环境将变得更为新颖而复杂,对于研究者来说,需要获取丰富场景下不良信息样本数据的同时,解决现有识别技术对新型复杂的加密流量识别局限性的问题。

6、在检测过程中,构建样本特征库是非常重要的环节,通常在加密流量样本的识别过程中,需要对每一个样本进行特征提取并将该样本的特征存入特征库,随着网络流量信息样本量的增多,特征库的规模也将变大,对于未来的数据存储资源消耗和检测性能、效率将带来诸多问题。


技术实现思路

1、为解决上述技术问题,本发明提出一种基于加密流量的不良信息样本扩增方法的技术方案,以解决上述技术问题。

2、本发明第一方面公开了一种基于加密流量的不良信息样本扩增方法,所述方法包括:

3、步骤s1、应用传统图像数据增强方法和基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强;采用机审与人工审核相结合的方式对增强后的不良信息明文数据进行审核,形成扩增后的明文数据库;

4、步骤s2、构建模拟网络环境,模拟网络使用场景,采集不同环境下的pcap格式的流量数据包,进而扩展机器学习训练样本;

5、步骤s3、对所述pcap格式的流量数据包进行https协议解析;然后,通过对解析后的流量数据包进行特征提取,根据提取出来的特征,生成与加密pcap文件相对应的指纹;

6、步骤s4、使用dhash算法、phash算法或哈希表进行指纹库的建立;采用有监督的加密流量指纹压缩或无监督加密流量指纹压缩对生成指纹的特征进行特征压缩;将特征压缩后的指纹保存到指纹库中。

7、根据本发明第一方面的方法,在所述步骤s1中,所述应用传统图像数据增强方法对不良信息明文数据进行数据增强的方法包括:

8、使用数据采集工具在网络环境中,根据不同平台、不同网络环境以及不同网络公害类型对不良信息分别进行数据采集,并分类保存不良信息的明文数据;

9、对于单样本的所述明文数据,采用翻转、平移、放大/缩小、旋转、扭曲、调整颜色、加噪和随机擦除进行数据增强;

10、对于多样本的所述明文数据,采用翻转、平移、放大/缩小、旋转、扭曲、调整颜色、加噪、随机擦除、剪切、合成和拼接进行数据增强,生成带有通用型特征的数据样本。

11、根据本发明第一方面的方法,在所述步骤s1中,所述应用基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强的方法包括:

12、使用数据采集工具在网络环境中,根据不同平台、不同网络环境以及不同网络公害类型对不良信息分别进行数据采集,并分类保存不良信息的明文数据;

13、以所述明文数据为标注样例,通过在现有aigc大模型基础上,采用模型微调技术进行训练,使得模型既融合了通用生成能力又能够学习到不良信息特点;

14、提供不良问题集作为生成种子集,引导和指挥生成模型产生不良明文数据。

15、根据本发明第一方面的方法,在所述步骤s1中,所述种子集的获取方法包括:

16、首先设计m个不良问题集合,然后利用语言大模型生成能力,诱导所述语言大模型生成一系列与问题语义一致的同义句n条,如此来产生不良问题集m*n条,即种子集;

17、所述种子集的获取方法还包括:

18、通过关键词生成、连续问题生成和相似问题生成对不良问题集进行扩充,得到种子集。

19、根据本发明第一方面的方法,在所述步骤s2中,所述模拟网络使用场景指的是将明文数据在不同门户网站、不良信息平台、传输协议和应用终端的模拟环境下采用不同的传输协议进行数据通信的场景。

20、根据本发明第一方面的方法,在所述步骤s2中,所述构建模拟网络环境的方法包括:

21、要启用https,需要一个ssl证书;

22、选择一个web 服务器,并配置所述web 服务器使用所述ssl证书;同时将不良信息明文样本上传至所述web 服务器;

23、启动所述web 服务器,并确保web 服务器监听https端口,确保防火墙允许流量通过https端口;

24、在实验室环境中打开浏览器,访问配置的实际域名,检测是否可正常打开,以及上传的不良信息明文样本是否存在,来测试web 服务器。

25、根据本发明第一方面的方法,在所述步骤s2中,所述采集不同环境下的pcap格式的流量数据包的方法包括:

26、在模拟网络环境中,配置网络分析工具wireshark捕获特定网卡上的流量,确保wireshark已经安装且能正常工作;

27、使用自动化工具或手动点击浏览器,模拟用户在https网站上访问不良信息样本;触发数据通信,从而生成相应的流量;

28、根据对不良信息样本的模拟点击情况,调用网络分析工具wireshark的起止操作,进而获取数据流量,然后将pcap格式文件分类存储至指定路径,捕获pcap包。

29、本发明第二方面公开了一种基于加密流量的不良信息样本扩增系统,所述系统包括:

30、第一处理模块,被配置为,应用传统图像数据增强方法和基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强;采用机审与人工审核相结合的方式对增强后的不良信息明文数据进行审核,形成扩增后的明文数据库;

31、第二处理模块,被配置为,构建模拟网络环境,模拟网络使用场景,采集不同环境下的pcap格式的流量数据包,进而扩展机器学习训练样本;

32、第三处理模块,被配置为,对所述pcap格式的流量数据包进行https协议解析;然后,通过对解析后的流量数据包进行特征提取,根据提取出来的特征,生成与加密pcap文件相对应的指纹;

33、第四处理模块,被配置为,使用dhash算法、phash算法或哈希表进行指纹库的建立;采用有监督的加密流量指纹压缩或无监督加密流量指纹压缩对生成指纹的特征进行特征压缩;将特征压缩后的指纹保存到指纹库中。

34、本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开第一方面中任一项的一种基于加密流量的不良信息样本扩增方法中的步骤。

35、本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开第一方面中任一项的一种基于加密流量的不良信息样本扩增方法中的步骤。

36、综上,本发明提出的方案首先采用数据扩增技术对不良信息样本进行数量扩增;其次,通过模拟现网的数据传输场景,研究搭建模拟现网的通信环境;再次,使用自研的pcap包采集工具在模拟通信环境中抓取样本的传输流量;然后,将获取到样本流量数据包逐一进行指纹生成;最后,将生成指纹构建指纹库,并采用数据压缩方法规模化精简指纹库规模。本发明提出的方案对于整体样本扩增流程思路明确,可扩展至对加密通信领域其他样本数据集的扩增,为有效解决样本数据不足与指纹库构建问题提供思路,方法的普适性较好。

37、本发明提出的方案能够得到的扩增样本标签与原样本相同:

38、1)旨在通过明文信息扩增样本数据量、丰富数据多样性、提高模型的泛化能力;

39、2)根据研究需求搭建不同网络条件的硬件环境,模拟不良信息在网络中的传输过程,通过数据抓包的方式获取不良信息在网络环境中传输的加密流量包(pcap包),对开展多种场景下的样本流量特征研究提供数据基础;

40、3)设置了样本特征库压缩环节;

41、4)初步构建的样本特征库存储占用资源较大,且调用效率较低,通过采用无监督降维方法和有监督降维方法,提高有效特征的利用率,从而降低无效特征的存储,提高模型对有效样本特征的识别效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1