一种基于多策略融合的网络智能监控方法与流程

文档序号：25367183发布日期：2021-06-08 16:17阅读：117来源：国知局

1.本发明涉及网络监控技术领域，特别是涉及一种基于多策略融合的网络智能监控方法。

背景技术：

2.处于当今的信息时代，网络已覆盖了人们的日常生活。在享受外卖、快递等网络应用所带来的生活便利的同时，我们也要意识到：随着这些应用的不断普及，其同样对网络信息安全各方面提出了更高的要求。域名系统(domain name system,dns)的主要职责是将易于人民记忆的域名转换为实际ip地址(ipv4或ipv6)。由于域名系统在internet中的关键作用，域名已成为恶意攻击者运行各种网络犯罪所需的重要网络资源之一。一些不法分子专门趁机利用恶意软件窃取用户个人信息、索取用户财产，给用户造成巨大的经济损失和生活影响。例如，利用一组被称为“僵尸”的易受攻击的计算机组成僵尸网络，僵尸网络被黑客广泛用于执行命令与控制(command and control,c&c)通信；冒充域名(外观接近常用域名，如把o替换成0)制作钓鱼网站等。因此，如何有效地区分和阻止与恶意活动有关的域名始终是网络安全研究中的热门话题。
3.为了避免检测和混淆跟踪，入侵者常用fast
‑
flux，domain
‑
flux和double
‑
flux等dns技术来隐藏他们真正的c&c服务器。例如，使用fast
‑
flux，攻击者可以通过不断更改域名到ip地址的映射规则来保护恶意服务的真实位置。domain
‑
flux的基本思想是将其c&c服务器的恶意域名隐藏于域名生成算法(domain name generation algorithm,dga)生成的大量域名。dga可以根据种子(比如当前的系统时钟、随机数等)生成包括字母和数字的随机组合并将其作为一个随机域名。double
‑
flux则是通过循环更新dns的a记录和ns记录规避检测。这些规避技术使得传统的安全策略无效，如域名黑名单、ip范围限制、或其他基于签名的方法。
4.恶意软件常采用dga自动生成海量域名，规避常规安全软件的黑名单检测，并嵌入命令控制和病毒来控制攻击用户的计算机。面对现在大量的微信、抖音分享的域名链接，如何快速精准区别其是否包含恶意软件攻击程序成为一个越来越重要的难题。

技术实现要素：

5.本发明基于域名的字符特征进行分析研究，提取字符特征，通过多种dga检测模型进行域名检测，解决了dga域名变种快，人工构造特征难的问题。
6.为实现上述目的，本发明提供了如下方案：
7.一种基于多策略融合的网络智能监控方法，包括以下步骤：
8.s1、通过机器学习的方法对待检测域名进行初步判断；
9.s2、若所述待检测域名网站为恶意域名网站，则利用网络爬虫提取网页信息，进行合规性判断；
10.s3、若所述步骤s1和所述步骤s2都判定所检测域名网站为恶意网站，则利用网络
探针对所述网站进行危害性度量，生成总体分析报告。
11.优选地，所述步骤s1包括：
12.数据预处理：对所述待检测域名进行分析，使用随机采样和dbscan聚类算法处理黑白域名样本,所述黑白域名样本为真实域名样本，其中黑域名样本是标签为“恶意域名的样本”，白域名样本是标签为“正常域名”的样本；
13.域名样本特征提取：结合字符规律特征、词袋模型
‑
ascii和词袋模型
‑
ngram技术，对所述域名的字符特征进行分析和提取，生成字符词汇表，得到所述域名的字符数据特征；
14.模型训练：使用基于机器学习的分类算法设计检测模型，经过模型训练和参数调整，得出不同的检测模型，使用测试样本集评估各个检测模型的检测精度，挑选出检测效果最优的检测模型，所述测试样本集是所述黑白域名样本的子集，包括恶意域名样本和正常域名样本；
15.域名检测：将域名输入到得到的检测模型中，经过运算判断出输入的域名是否为恶意域名。
16.优选地，所述字符规律特征包括元音字母比例、字符随机性和唯一字符数；
17.所述检测效果是检测的分类准确率，预测结果和样本标签相同的数量越多，检测效果越好，其计算公式为：
[0018][0019]
其中，tp是正确预测为恶意域名的数量、tn是正确预测为正常域名的数量、fp是错误预测为恶意域名的数量、fn是错误预测为正常域名的数量，每个检测模型通过所述式(1)计算得到其分类准确率accuracy值，分类准确率accuracy值最大时检测效果最优。
[0020]
优选地，所述步骤s2包括：
[0021]
输入所述待检测域名网站的初始url；
[0022]
网页获取：通过网络爬虫模拟客户端浏览器向服务器端发出http请求，获取所述服务器端响应后，得到所述待检测域名网站的网页信息；
[0023]
对所述网页信息进行网页去噪，对得到的网页信息的html结构进行解析，过滤掉无用的网页信息；
[0024]
提取信息：采取正则表达,根据页面字符串结构提取网络爬虫信息，同时对所述页面字符串结构进行分析，判断所述页面字符串的结构是否变化；
[0025]
合规性判断：将得到的域名信息作为基于网络爬虫的域名安全检测的评估指标，判断所述域名是否为恶意域名。
[0026]
优选地，在进行网页去噪的同时，自动识别网页中所有的url，并将其加入到爬虫队列，按照定义的搜索策略访问爬虫队列url，采集对应的url网页信息存储到数据库中，再根据新的url爬取页面信息，直到完成系统设置的停止条件结束网络爬虫。
[0027]
优选地，所述网络爬虫信息包括seo信息、alexa信息、备案信息、索引和反链。
[0028]
优选地，所述步骤s3基于网络探针的网站危害性度量检测包括：dns实时监控，ping实时监控和http实时监控，得到dns、ping和http三个评价指标，度量恶意网站的危害性。
[0029]
优选地，所述dns实时监控为选择待检测区域的节点进行域名或ip地址的访问，得
到访问情况、各节点的dig解析结果、dns解析时间、查询时间、记录值，根据dns响应报文分析，得到dns的检测指标。
[0030]
优选地，所述ping实时监控为选择待检测区域的节点进行域名或ip地址的访问，得到访问情况、各节点的丢包率、延迟时间、数据包大小、ttl、发送包数量、接收包数量，根据响应信息获取域名的服务器解析ip地址，判断服务器是否正常工作。
[0031]
优选地，所述http实时监控为选择待检测区域的节点进行url地址的访问，获取http实时监控数据；状态码直接反应客户端和服务器端是否正常工作，首字节时间主要反映dns的解析效率，总体请求时长反映服务器的分发请求效率。
[0032]
本发明的有益效果为：
[0033]
(1)本发明采用爬虫技术和网络运营商监控节点对疑似恶意域名进行检测，提高了域名检测的精确率，从多角度分析和识别dga域名。
[0034]
(2)本发明基于域名的字符特征进行分析研究，提取字符特征，通过多种dga检测模型进行域名检测，解决了dga域名变种快，人工构造特征难的问题。
附图说明
[0035]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0036]
图1为本发明基于多策略融合的网络智能监控方法流程图；
[0037]
图2为本发明基于机器学习的恶意域名检测的系统流程图；
[0038]
图3为本发明网络爬虫过程和实现原理示意图；
[0039]
图4为本发明基于网络探针的网站危害性度量示意图。
具体实施方式
[0040]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0041]
为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0042]
如图1所示，本发明提供一种基于多策略融合的网络智能监控方法，包括基于机器学习的恶意域名检测、基于网络爬虫的恶意网页检测和基于网络探针的网站危害性度量。
[0043]
给定欲检测域名“www.923pay.com”。
[0044]
s1、基于机器学习的恶意域名检测。
[0045]
如图2所示为本发明基于机器学习的恶意域名检测流程图，包括：
[0046]
s1.1、域名样本分析：在大量域名样本的基础上，使用随机采样和dbscan聚类算法处理黑白域名样本，即尽可能地平衡数据，以降低偏斜类所导致的分类精度差，提高域名样本质量。黑白域名样本来自于网络安全公司收集的真实域名样本。其中，黑域名样本是标签
为“恶意域名”的样本，白域名样本是标签为“正常域名”的样本。
[0047]
1.2：域名样本特征提取：在上一步数据预处理的基础上，结合字符规律特征(元音字母比例、字符随机性、唯一字符数)、词袋模型
‑
ascii和词袋模型
‑
ngram技术，对域名的字符特征进行分析和提取，生成字符词汇表，得到数据的特征表示。
[0048]
1.3：模型训练：使用基于机器学习的分类算法设计检测模型，经过模型训练和参数调整，得出不同的检测模型。使用测试样本集评估各个检测模型的检测精度，并挑选出检测效果最优的检测模型。
[0049]
所述测试样本集是黑白域名样本总体的一个子集，占黑白域名样本总数的25％，包括恶意域名样本和正常域名样本。
[0050]
所述检测效果指检测的分类准确率，预测结果和样本标签相同的数量越多，那么检测效果就越好，其计算公式如下：
[0051][0052]
其中，tp是正确预测为恶意域名的数量、tn是正确预测为正常域名的数量、fp是错误预测为恶意域名的数量、fn是错误预测为正常域名的数量。每个检测模型都可以通过上述计算得到其分类准确率accuracy值，检测效果最优即分类准确率accuracy值最大。
[0053]
1.4：域名检测：将待检测域名输入到上一步得到的检测模型中，检测模型在经过一系列运算会判断输入域名是否为恶意域名，若为恶意域名则进行基于网络爬虫的网页检测。
[0054]
s2、基于网络爬虫的网页检测。
[0055]
网络爬虫可以自动化浏览网络中的信息，定向抓取相关网络资源的程序或者脚本。网络爬虫的主要作用是在海量的互联网信息中进行爬取，抓取有效信息并存储，用来数据分析和挖掘，本发明利用网络爬虫获取域名的备案信息、注册信息等，来识别恶意域名。图3为网络爬虫过程和实现原理示意图。
[0056]
s2.1、输入初始url。
[0057]
s2.2、网页获取：网络爬虫从上一步给定的一个或者多个初始url开始，模拟客户端浏览器向服务器端发出http请求，获取服务器端响应后，获取网页信息。
[0058]
s2.3、网页解析与过滤：一个网页以html为架构，承载网页各种报表资源信息，网页解析可以理解为网页去噪的过程，对上一步得到网页信息的html结构解析，过滤无用的网页信息。此外，自动识别网页中的所有url，并将其加入到爬虫队列，按照定义的搜索策略访问爬虫队列url，采集对应的url的网页信息存储到数据库中，再根据新的url爬取页面信息，直到完成系统设置的停止条件结束网络爬虫。
[0059]
s2.4、提取信息：在上一步完成后，采取正则表达根据页面字符串结构提取符合爬虫主题关键信息，同时对页面字符串结构进行分析，判断页面字符串结构是否变化。
[0060]
s2.5、合规性判断：将上一步得到的域名的seo信息、alexa信息、备案信息、索引和反链作为基于网络爬虫的域名安全检测的评估指标，判断待检测域名是否为恶意域名。若判断待检测域名为恶意域名，则进行下一步骤。
[0061]
s3、基于网络探针的网站危害性度量。
[0062]
s3.1、dns实时监控。
[0063]
选择全国所有的省份及直辖市、6大运营商及大部分小型运营商的节点进行域名或ip地址的访问，到访问情况，各节点的dig解析结果、dns解析时间，查询时间、记录值等。根据dns响应报文分析，通过会话标识可以区分dns应答报文是哪个请求的响应；查询名是需要查询的域名，查询类型表明资源纪录的类型，包含cname(查询规范名称)、hinfo(主机信息)等；生存时间是资源记录的生命周期，表明该资源记录的稳定程度；资源数据按照查询段的要求返回的相关资源记录的数据。最终dns的解析指标选取如表1：
[0064]
表1
[0065][0066][0067]
s3.2、ping实时监控。
[0068]
选择全国所有的省份及直辖市、6大运营商及大部分小型运营商的节点进行域名或ip地址的访问，得到访问情况，各节点的丢包率、延迟时间、数据包大小、ttl、发送包数量、接收包数量等。ping命令响应原文，ping命令用64字节的数据包测试是否能连接域名为“www.923pay.com”的服务器主机。若连接成功后获得服务器ip地址、响应时间、ttl值、丢包率、延迟时间等。若连接失败，返回错误设置ip地址、dns配置不正确、网卡驱动不正常、域名服务器有故障等信息。
[0069]
从ping域名的结果响应信息中，我们可以获取域名的服务器解析ip地址，判断服务器是否正常工作；根据ttl值(dns记录在dns服务器上存在的时间)判断服务器端所使用的操作系统及数据包经过路由器数量；根据各省节点服务器访问目标域名的响应时间，反映服务器的响应请求效率。最终ping的检测指标选取如表2：
[0070]
表2
[0071][0072]
[0073]
s3.3、http实时监控。
[0074]
选择全国所有的省份及直辖市、6大运营商及大部分小型运营商的节点进行url地址的访问，获取http实时监控数据。根据http响应内容的分析，状态码直接反应客户端和服务器端是否正常工作。首字节时间主要反映dns的解析效率。总体请求时长反映服务器的分发请求效率。
[0075]
对http协议中描述ip地址特征进行分析统计网络流量的来源，识别服务ip的服务类型。对http协议字段中的host、cookie、url、user
‑
agent进行提取和分析，实现对服务器设备分析。对http响应正文进行分析，分析其中的用户数据，是否直接上传账号密码。最终http的检测指标选取如表3：
[0076]
表3
[0077][0078]
如图4所示为网站危害性度量的三个组成成分，通过网络探针技术，可以得到dns、ping和http共三个评价指标，用以度量恶意网站的危害性。
[0079]
本发明采用爬虫技术和网络运营商监控节点对疑似恶意域名进行监测，提高了域名检测的精确率，从多角度分析和识别dga域名；本发明基于域名的字符特征进行分析研究，提取字符特征，通过多种dga检测模型进行域名检测，解决了dga域名变种快，人工构造特征难的问题。
[0080]
以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑彬彬;茅剑;文太友;胡善辉
技术所有人：厦门帝恩思科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。