一种恶意url检测方法及其实现系统的制作方法

文档序号：8415618阅读：498来源：国知局

一种恶意url检测方法及其实现系统的制作方法
【技术领域】
[0001] 本发明涉及一种计算机信息安全认证技术，综合利用计算机网络及机器学习算法实现，可应用于在各终端上执行与钱财往来的信息确认等需要进行身份认证的系统及领域，具体涉及一种恶意URL检测方法及其实现系统。
【背景技术】
[0002] 按照RFC1738 规范，URL(UniformResourceLocator)的语法格式一般表不成如下形式："<scheme>:〈scheme-specific-part>"，一个URL包含了方案名称（〈scheme〉）和方案描述部分（〈scheme-specific-part>)，方案描述部分完全由其使用的方案来决定。方案名称通常是HTTP协议，方案部分如果省略也默认是HTTP协议，则其相应的方案描述部分形式如下："//〈user>:〈password>@〈host>:〈port>/〈u;rl-path>?〈sea;rchpa;rt>"，其中 "〈user〉： <password>@"，" ：〈password〉''，" ：〈port〉''，"/〈url-path>?〈sea;rchpa;rt>'' 和 "？〈searchpart〉"都有可能被省略。"〈searchpart〉"是查询字符串，在检测URL是否恶意的过程中可以忽略，即：剔除"〈searchpart〉"及其前面的"？ "得到的新URL与待检测URL 的恶意性是实质意义上相同的。
[0003] 随着微博的快速发展，短URL服务逐渐活跃。短URL，顾名思义就是形式上比较短的网址。短网址服务可以把一个长网址缩短，从而方便在社交网络和微博上分享链接。因为微博等内容一般都有字数限制，较长的URL地址会挤压正文的空间，而短网址服务正好解决了这种问题，借助短网址服务可以用简短的网址代替原来冗长的网址。然而这也带来了安全隐患，由于短网址都是采用压缩的算法生成，这使得一些恶意的短网址更加具有隐蔽性，同时给URL检测增加了困难。但是短URL恶意性检测已经刻不容缓，《赛门铁克互联网安全威胁报告16》显示，2010年，将近2/3的恶意链接都采用了短链接，全球范围内达数百万条。
[0004] 目前业界的恶意URL检测方法主要包括：基于静态字符串匹配的方法，将恶意URL 存放在文件中，对待检测URL进行匹配判断；基于哈希值的对比检测，提取并保存恶意URL 的哈希值，对待检测URL计算哈希值并对比判断；基于URL所在的消息和内容，提取恶意 URL所在的消息内容和该URL对应的页面资源，对待检测URL判断是否包含恶意内容。上述的这些方法可以处理大部分的恶意URL检测问题，不幸的是当前终端设备无法完全规避 URL灵活性、常变性导致的恶意入侵，时刻威胁着用户终端的系统安全和更重要的财产安全等。

【发明内容】

[0005] 本发明针对现有技术的迫切需求，提出了一种恶意URL检测方法及其实现系统，以期提供一种检测方式更灵活，更加安全可靠的URL检测技术解决方案。
[0006] 本发明的上述第一个目的得以实现的技术解决方案是：一种恶意URL检测方法，其特征在于包括步骤：S1、根据RFC1738规范将待检测URL拆分为字符串，并采用补全、修改字符串的方式整理得到实质相同的新URL;S2,将S1所得到的新URL在URL知识库中遍历匹配，将包含于URL知识库中并直接匹配的URL检测结果输出；S3,对无法在URL知识库中查到的新URL通过预定义规则进行判断并分类检测，包括步骤S31-S33:S31、对规则判断包含恶意特征的URL检测结果输出；S32、对规则判断为简短化的URL，采用还原法转换成相应长度的URL并执行步骤S2 ;S33、对于规则无法判断的URL，提取特征字段构建预测文件，并通过线下训练且不断更新的分类器对预测文件作模型预测恶意性并输出。
[0007] 进一步地，步骤S1中所述补全、修改字符串的方式是指：面向拆分待检测URL所得的字符串，判断是否存在协议或是否包含查询字符串，对缺失协议的情况补充默认的HTTP 协议；对包含查询字符串的情况去除该查询字符串及其前面的"？"字符，形成实质相同的新URL。
[0008] 进一步地，步骤S2中所述URL知识库包含正常URL、恶意URL及正常URL的顶级域名，待检测URL或待检测URL的顶级域名存在于URL知识库中直接匹配，将URL检测结果输出。
[0009] 进一步地，步骤S3中所述预定义规则包括恶意特征筛检和简短化URL筛检，其中恶意特征筛检指的是标识只包含英文字母或数字的待检测URL，简短化URL筛检指的是标识包含短URL服务商、URL只有三层路径且第三层中只包含英文字母或数字的待检测URL。
[0010] 进一步地，步骤S33中所述分类器的线下训练方式为：基于URL知识库从中提取 URL的相关特征构建训练文件，然后采用分类算法进行训练、优化并保存模型，其中分类算法至少为决策树、支持向量机、逻辑回归、随机森林或多种复用；所述分类器的线下训练为随URL知识库变化定期或非定期地更新，在对预定义规则无法判断的URL进行恶意性检测时，提取URL的相关特征字段构建预测文件，而后采用所保存的模型对预测文件作检测，得到预测结果并输出。
[0011] 本发明的上述第二个目的得以实现的技术解决方案是：一种恶意URL检测的实现系统，其特征在于由整理模块、匹配模块、规则识别模块和模型预测模块相连构成，其中所述整理模块具有待检测URL的接收端且为按照RFC1738规范对待检测URL通过采用拆分，补全、修改的方式整理得到实质相同的新URL的处理装置；所述匹配模块接收连至整理模块且匹配模块中包含URL知识库及匹配处理装置，所述规则识别模块具有预定义规则及基于该规则的分类处理装置，且规则识别模块对应分类判断的结果分别输出连至模型预测模块、整理模块或检测结果输出端，所述模型预测模块具有线下训练且持续更新的分类器，并具有基于分类器对预测文件作恶意性检测的处理装置。
[0012] 进一步地，匹配模块中所述URL知识库中包含持续更新的正常URL、恶意URL及正常URL的顶级域名。
[0013] 应用本发明的上述技术方案，较之于传统恶意URL检测方法具有显著的技术效果：针对URL形式的灵活性、常变性，能识别新出现的恶意网站，有效提高了URL恶意检测的准确性，抵御恶意URL的危害，大幅提尚用户彳目息的安全性能。
【附图说明】
[0014] 图1为本发明恶意URL检测方法的运行流程图。
[0015] 图2为本发明恶意URL检测模型的训练流程图。
[0016] 图3为本发明恶意URL检测的实现系统框图。
【具体实施方式】
[0017] 本发明针对现有移动支付等飞速发展的网络安全需求，创新提出了一种恶意URL 检测系统解决方案，为用户提供安全、可靠的网络环境。为了清楚地阐述本发明的目的、特征和优点，下面将结合附图对本发明作进一步的描述。根据RFC1738规范，URL规范化形式一般是：''〈scheme>://〈user>:〈password>@〈host>:〈port>/〈url-path&

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汪德嘉;叶芸;胡振中;葛彦霆;刘伟;
技术所有人：江苏通付盾信息科技有限公司;
我是此专利的发明人

上一篇：一种基于Web服务器的带宽放大攻击漏洞检测方法
上一篇：IPv4-IPv6过渡协议调度方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。