基于半监督模糊综合评价法的网络机器人行为检测方法

文档序号:37859635发布日期:2024-05-07 19:34阅读:10来源:国知局
基于半监督模糊综合评价法的网络机器人行为检测方法

本发明属于网络安全领域,具体为基于半监督模糊综合评价法的网络机器人行为检测方法。


背景技术:

1、在当前的网络安全环境中,对于web访问行为的检测成为一项至关重要的任务。目前已有的检测方法可以分为两类:基于特征码和基于web统计特征。

2、基于特征码的检测方法主要包括以下几种:(1)useragent字段识别:通过解析和识别http请求中的useragent字段来判断访问者的身份。正常用户的useragent通常包含有关浏览器和操作系统的信息,而机器访问者可能采用自定义的useragent来伪装身份。然而,这种方法容易受到恶意用户的伪装攻击,因为useragent字段可以被轻松修改。(2)访问robots.txt:通过监测访问robots.txt文件,检测网络爬虫的存在。规范的网络爬虫在访问网站时应该首先请求robots.txt文件,其中包含了对爬虫访问的规定。然而,这种方法局限于只能检测遵循规范的网络爬虫,对于恶意机器人可能不够敏感。

3、基于web统计特征的检测方法主要包括以下几种:(1)返回码统计:通过统计http请求的返回码,如200(成功)、404(未找到)等,来判断访问的成功与否。然而,该方法忽略了http记录间的关系,无法全面了解访问行为的复杂性。(2)请求方法统计和文件类型统计:通过统计请求方法(get、post等)和文件类型(html、css、js等)等特征,以识别访问者的行为。然而,这种方法同样存在无法深入分析http记录之间关系的问题,可能导致对复杂访问行为的误判。

4、然而,现有的检测方法存在一些不足之处:(1)伪装攻击容易成功:恶意用户和机器人可以通过伪造特征码来规避检测,降低了检测的准确性;(2)缺乏对http记录间关系的全面考虑:现有方法过于依赖特定的统计特征,未能充分考虑http记录之间的关联,导致对复杂访问行为的识别不足。


技术实现思路

1、针对上述问题,本发明旨在提供基于半监督模糊综合评价法的网络机器人行为检测方法,在面对已知样本较少情况下,进行准确的判断。

2、技术方案如下:

3、步骤1:web会话识别;

4、web会话是指一个用户从访问某个具体的web页面到离开该页面的一组活动。该步骤主要从原始web访问记录中提取、聚合、排序并切割得到web会话。主要分为以下几个过程:

5、步骤1.1:预设访问ip的web访问序列提取:令为某个srcip的按时间先后排序过的web访问序列,srcip表示web访问者的ip,其中 为第i条web日志记录;

6、步骤1.2:根据时间间隔对序列re进行切割,假设切割阈值为delta,若re内相邻的2条记录 和 的时间间隔超过delta,则对序列re进行一次切割。经过以上处理后,序列re被切割为多段序列,每段序列表示一条切割好的web会话,进而将web访问序列re转换为会话序列,其中 表示其中第i条web会话。

7、步骤1.3:参考步骤1.1-步骤1.2,对全体访问ip的web访问记录进行提取,得到每个访问ip的会话序列。

8、步骤2:web访问行为特征提取:

9、该步骤主要从每个ip访问的会话内部和会话间分别提取行为特征,实现对用户web访问行为的刻画。主要分为以下几个过程:

10、步骤2.1:会话内行为特征提取:如果会话序列中包括多条web会话,则求下列特征的均值;

11、步骤2.1.1:使用cookie指数:使用cookie的http请求占比;

12、步骤2.1.2:使用referer指数:包含referer信息的http请求占比;

13、步骤2.1.3:脚本使用指数:http请求记录中js资源占比;

14、步骤2.1.4:每个会话请求的资源数:该会话内访问的资源数;

15、步骤2.1.5:每个会话的资源类型复杂的指数:将请求的资源类型分为主页面、js类型、css类型、图片类型、文件类型、其他类型,统计该会话内各类资源的占比,然后根据信息熵计算复杂指数;

16、步骤2.2:会话间行为特征提取;

17、步骤2.2.1:会话间隔时间:各相邻web会话之间的时间间隔均值;

18、步骤2.2.2:会话间隔方差系数:各相邻web会话之间的时间间隔方差;

19、步骤2.2.3:访问路径深度方差:每条web会话访问的url路径深度的方差;

20、步骤2.2.4:访问页面重复率:web会话主页面的重复率;

21、步骤2.2.5:访问网站的有序性:web会话序列中host交叉访问统计情况的信息熵。

22、步骤3:基于半监督模糊综合评价法的模型训练;

23、该步骤依据已标记训练数据集的分布特性自动构建模糊综合评价的隶属函数和权重,然后通过自监督迭代式评估,将置信度高的未标记样本纳入训练集中,以此提升隶属函数的准确度和模型整体性能。主要分为以下几个过程:

24、步骤3.1:给定数据集 ,其中 代表有标签数据集,其中 为其中第i个样本,为该样本特征向量,为其标签;代表待测试的无标签数据集, 为其中第i个样本。

25、步骤3.2:在ld数据集上进行模糊综合评价法的模型训练工作,通过统计数据分布特性,自动构建模糊综合评价的隶属函数和权重。

26、步骤3.3:训练结果在ud上进行预测,得到,其中中的表示预测类别,表示将预测为的置信度。

27、步骤3.4:从pd中提取置信度高于阈值delta的样本,然后与ld合并为新的ld’替代ld。

28、步骤3.5:重复上述步骤,直到迭代到设定的最大次数n或模型预测准确率不再提升。

29、其中的步骤3.2中模糊综合评价法过程如下:

30、步骤3.2.1:建立因素集,设,其中 为第i个因素。本发明共十个因素分别为会话内和会话间共10个行为特征,即m=10。

31、步骤3.2.2:建立评语集,设,是评价者对被评价对象做出的各种总的评价结果组成的评语等级的集合。其中代表第j个评价结果,j=1, 2,…, n,n为总的评价结果数。本发明拟设计2个等级用于表示网络机器人的检测评估结果,即n=2,分别为:h、r,h表示人类用户,r表示网络机器人。

32、步骤3.2.3:对每个因素进行分箱, ,假设每个因素分为l段,则分箱 , 表示第k个因素进行分箱的结果, 表示中第i个分箱结果,其中h和r分别表示落在该分箱中的h和r样本的占比。

33、步骤3.2.4:基于分箱结果统计计算每个因素的隶属函数,对中的h、r进行归一化,得到在该分箱的隶属度。对于第k个因素,其隶属函数表示为,其中表示 中第i个分箱的隶属度。对所有因素进行如上处理,进而得到整体的隶属函数。

34、步骤3.2.5:统计计算模糊权矢量a,即每个因素的权重。通过常见的机器学习特征有效性度量方法对特征的重要性进行量化评估,并作为模糊综合的权重。这里包括但不限于信息价值iv(information value)等方法。

35、步骤4:网络机器人行为检测;

36、步骤4.1:提取隶属度;

37、根据样本特征值落在分箱中的情况,基于隶属函数mb分别提取属于h和r的隶属度。对于第k个因素 ,假设该样本在的特征值分箱后落在第i个分箱,则从中提取出,作为该样本在因素方面,对h、r这2个评价集的隶属度,即 ,其中 ,  。

38、步骤4.2:确立模糊关系矩阵g;

39、通过步骤4.1逐个对被评价对象从每个因素上进行量化,也就是确定从单因素来看被评价对象对各等级模糊子集的隶属度,进而得到模糊关系矩阵:

40、,

41、其中 表示某个被评价对象从因素 来看对等级模糊子集 的隶属度。一个被评价对象在某个因素方面的表现是通过模糊矢量 来刻画的,称为单因素评价矩阵,可以看作是因素集u和评语集v之间的一种模糊关系。

42、步骤4.3:多指标综合评价;

43、利用合适的模糊合成算子(表示合成算子)将模糊权矢量a与模糊关系矩阵g合成得到各被评价对象的模糊综合评价结果矢量b。模糊综合评价结果矢量的模型为:

44、,

45、其中 表示被评级对象从整体上看对评价等级模糊子集元素的隶属程度,在检测时,值最大的评价结果代表该样本的检测结果(所属类别)。

46、本发明的有益效果是:

47、本发明采用web会话(web会话)作为基本单位,综合考虑了每个ip访问的会话内部和会话间的web访问行为,实现了对用户行为的全面评估。通过分析用户行为,本发明能够准确地判断网页访问者是人类用户还是机器,为网络安全管理提供了重要的技术支持。此外,本发明采用了一种创新的半监督模糊综合评价方法,这一方法依据已标记训练数据集的分布特性自动构建模糊综合评价的隶属函数和权重,并通过迭代式评估,将置信度高的未标记样本纳入训练集中,以此提升隶属函数的准确度和模型整体性能。这种模糊性和迭代学习的特点,极大地增强了模型在面对实际应用场景中常见的低质量训练数据问题时的鲁棒性,即便在数据标注存在误差的情况下,也能保持良好的性能表现。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1