一种基于字符串相似性计算的URL分类方法、装置及系统

文档序号:36389679发布日期:2023-12-15 06:25阅读:25来源:国知局
一种基于字符串相似性计算的

本发明属于网络安全领域,更具体地,涉及一种基于字符串相似性计算的url分类方法、装置及系统。


背景技术:

1、近年来,网络安全问题给社会各界带来的影响越来越严重,特别是随着基于源代码审计技术的供应链攻击导致各种0day漏洞层出不穷,而此类漏洞也是最难防护的。公开号为cn 111259279 a的中国发明专利公开了一种基于动态特征提取的攻击url检测方法,该方法使用深度学习中的循环神经网络对攻击url进行特征提取,从而学习攻击url共用的特征,手工编写匹配规则进行匹配。公开号为cn 108965336 a的中国发明专利公开了一种攻击检测方法及装置,该方法及装置预先配置攻击特征决策树,该决策树由顺序连接的若干层组成,且每层由顺序连接的若干节点组成,通过遍历所述决策树中的各节点,查找网络报文中是否包括各节点存储的攻击。此外,各种恶意url检测或者分类技术层出不穷,例如静态、动态识别技术,静态识别技术主要又分为基于黑名单技术、基于规则匹配和基于机器学习技术三种。

2、以上方法都需要同一个预先条件,即需要掌握大量已知的先验知识,从中总结发现特征后,再由此发现其他已知或未知的攻击,因而存在对某些全新的0day攻击url无法发现的问题,且由于web网站的多样性还可能出现误报的问题。


技术实现思路

1、针对现有技术的以上缺陷或改进需求,本发明提供了一种基于字符串相似性计算的url分类方法、装置及系统,该方法不需要对任何已知攻击知识的掌握,通过对待分类的url的路径部分进行模式化处理得到的模式化字符串的与白名单url模式化字符串的相似性即可实现对url的精确分类。

2、为实现上述目的,按照本发明的第一方面,提供了一种基于字符串相似性计算的url分类方法,包括:

3、s1,实时采集并保存目标网站或信息系统的访问日志;

4、s2,从访问日志中提取待分类的访问url,删除其参数部分,并对其路径部分进行模式化处理,得到访问url的模式化字符串;

5、其中,所述模式化处理包括:以路径符及所有路径中的小数点为分隔符将路径部分分为多个字符串,分别将除最后一个字符串之外的各字符串作为目标字符串进行预处理得到对应的模式化子字符串;若所述最后一个字符串的长度小于长度阈值,则将其复制到其上一级模式化子字符串的串尾,否则将其作为目标字符串进行所述预处理到对应的模式化子字符串;

6、所述预处理为:设定模式化子字符串的开头,将所述目标字符串的长度添加至模式化子字符串的串尾;当所述目标字符串中分别存在大写字母、小写字母、数字、连字符、其它字符时,在所述模式化子字符串的串尾对应添加第一、第二、第三、第四、第五字符串标识符;经所述预处理后,各模式化子字符串的开头相同;

7、s3,删除所述目标网站或信息系统的各白名单url的参数部分,并对其路径部分进行所述模式化处理,得到所述各白名单url的模式化字符串;

8、s4,若所述访问url的模式化字符串与各白名单url的模式化字符串的相似度均小于设定阈值,则所述访问url为非正常url,否则所述访问url为正常url。

9、按照本发明的第二方面,提供了一种基于字符串相似性计算的url分类装置,包括:

10、日志采集模块,用于实时采集并保存目标网站或信息系统的访问日志;

11、第一处理模块,用于从访问日志中提取待分类的访问url,删除其参数部分,并对其路径部分进行模式化处理,得到访问url的模式化字符串;

12、其中,所述模式化处理包括:以路径符及所有路径中的小数点为分隔符将路径部分分为多个字符串,分别将除最后一个字符串之外的各字符串作为目标字符串进行预处理得到对应的模式化子字符串;若所述最后一个字符串的长度小于长度阈值,则将其复制到其上一级模式化子字符串的串尾,否则将其作为目标字符串进行所述预处理到对应的模式化子字符串;

13、所述预处理为:设定模式化子字符串的开头,将所述目标字符串的长度添加至模式化子字符串的串尾;当所述目标字符串中分别存在大写字母、小写字母、数字、连字符、其它字符时,在所述模式化子字符串的串尾对应添加第一、第二、第三、第四、第五字符串标识符;经所述预处理后,各模式化子字符串的开头相同;

14、第二处理模块,用于删除所述目标网站或信息系统的各白名单url的参数部分,并对其路径部分进行所述模式化处理,得到所述各白名单url的模式化字符串;

15、分类模块,用于若所述访问url的模式化字符串与各白名单url的模式化字符串的相似度均小于设定阈值,则认为所述访问url为非正常url,否则认为所述访问url为正常url。

16、按照本发明的第三方面,提供了一种基于字符串相似性计算的url分类系统,包括:计算机可读存储介质和处理器;

17、所述计算机可读存储介质用于存储可执行指令;

18、所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如第一方面所述的方法。

19、按照本发明的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如第一方面任一项所述的方法。

20、总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:

21、本发明提供的基于字符串相似性计算的url分类方法,涉及web安全中异常url访问识别研究,是一种基于网站/信息系统已知正常的url集合,即白名单url比对的分类方法。本方法通过将同一网站/信息系统中的url所具有的编制规律用统一的算法转化为较为规则的字符串形式后,再利用字符串相似性来判定两url是否为相同分类,这样可以较好地降低目前一些直接计算字符串相似度并进行分类的方法所存在的误报和漏报率,比如:url长度将成为转化后字符串的一小部分,大大降低其对整体字符串比对的影响。特别是不需要基于任何先验攻击知识,对未知攻击可以起到提前预防的作用。



技术特征:

1.一种基于字符串相似性计算的url分类方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述预处理还包括:当所述目标字符串中分别存在中文字符、英文单词、空白符时,在所述模式化子字符串的串尾对应添加第六、第七、第八字符串标识符。

3.如权利要求1或2所述的方法,其特征在于,所述预处理还包括:在所述字符串标识符添加完毕后,在所述模式化子字符串的串尾添加尾部标识符。

4.如权利要求1所述的方法,其特征在于,若所述访问url为正常url,则将其添加到白名单url集合。

5.如权利要求1所述的方法,其特征在于,所述待分类的访问url为未被安全设备拦截的访问url。

6.如权利要求1所述的方法,其特征在于,所述访问日志包括日期时间、源ip地址、目的ip地址、目的端口、应用协议、http请求头host部分、完整url、http响应码。

7.如权利要求1所述的方法,其特征在于,所述白名单url从访问日志中周期提取。

8.一种基于字符串相似性计算的url分类装置,其特征在于,包括:

9.一种基于字符串相似性计算的url分类系统,其特征在于,包括:计算机可读存储介质和处理器;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如权利要求1-7任一项所述的方法。


技术总结
本发明公开了一种基于字符串相似性计算的URL分类方法、装置及系统,属于网络安全领域,该方法通过将同一网站/信息系统中的URL所具有的编制规律用统一的算法转化为较为规则的字符串形式后,再利用字符串相似性来判定两URL是否为相同分类,这样可以较好地降低目前一些直接计算字符串相似度并进行分类的方法所存在的误报和漏报率,比如:URL长度将成为转化后字符串的一小部分,大大降低其对整体字符串比对的影响。特别是不需要基于任何先验攻击知识,对未知攻击可以起到提前预防的作用。

技术研发人员:周丽娟,洪剑珂,刘恋,严格知,张洁卉,章勇
受保护的技术使用者:华中科技大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1