一种基于日志的僵木蠕网络分析方法和系统的制作方法_3

文档序号：8265846阅读：来源：国知局

僵木蠕分析过程。
[0088]其中，日志清洗是指将日志中对于统计没有影响的字段去掉，保留或修改影响统计结果的字段。具体算法如下图2所示:
[0089]将日志提交到实现Mapper接口类的Map方法。基于HADOOP分布式计算，Map方法在多台机器上并行计算，Map方法的主要功能是根据输入的日志信息，将有效的字段输出。输出的的格式为KEY+\t+VALUE。DNS日志的格式:日期、时间、访问信息、请求IP信息、请求域名信息、请求域名特征、解析类型、解析IP信息、DNS服务器特征。清洗过后的日志格式:“请求IP信息+\t+Long型时间戳+\t+请求域名+\t解析IP信息” ;RADIUS日志的格式有82个字段，清洗过后的日志格式:“请求IP信息+\t+用户名+\t+开始时间+\t+结束时间”。
[0090]第二，可疑域名获取和可疑域名分析过程，主要如下:
[0091]可疑域名获取是指通过本平台的其他分析程序，获取符合指定特征的域名。具体特征包括:
[0092]1、域名访问量排名变化按变化率排名取前100个；2、解析结果类型为“域名未找到”的域名按访问量排名取前100个；3、解析结果类型为“服务器错误”的域名按访问量排名取前100个；4、按招受递归攻击量排名取前100个。符合上述特征的域名很有可能招受了僵木蠕攻击。
[0093]第三，僵木蠕分析过程，具体包括:
[0094]将可疑域名与DNS日志结合，分析访问这些可疑域名的用户群的共同特征，确定僵木蠕域名，生成僵木蠕域名。
[0095]具体步骤为:
[0096]1、分析访问可疑域名的用户IP信息列表；2、分析用户IP信息列表中IP都共同访问了哪些域名，并过滤白名单(可信域名列表)；
[0097]3、按照共同访问度排名，生成僵木蠕样本，注入僵木蠕域名分析算法:
[0098]共同访问度定义:访问可疑域名的用户IP数记为m，如某域名被m中的η个用户IP共同访问过，那么共同访问度即为((n/m)*100)%
[0099]观察共同访问度高于80 %的域名，并人工查询此类域名的whois (域名注册信息)信息以及具体的页面信息，筛选确定是否属于僵木蠕域名。生成僵木蠕样本。
[0100]1.4.4僵木蠕分析算法是将僵木蠕样本再次与DNS日志和RADIUS日志，通过分布式分析平台，获取如下结果:
[0101]1、疑似僵木蠕域名:
[0102]通过分析僵木蠕样本库的解析地址，得出相同解析地址下的其他域名:
[0103]通过分析DNS日志可得到某个僵木蠕样本域名的解析IP信息；
[0104]再次分析DNS日志，获取具有相同解析IP信息的其他域名信息，并过滤白名单后即为疑似僵木蠕域名；
[0105]2、肉鸡IP地址:
[0106]清洗后的DNS日志信息格式为:“请求IP信息+\t+Long型时间戳+\t+请求域名+\t解析IP信息”，将其中的请求域名与僵木蠕病毒库中的域名进行匹配，获取请求IP信息，即为肉鸡IP地址；
[0107]3、肉鸡账户信息:
[0108]获取肉鸡账户信息，提供给运营商向用户推送杀毒提醒:
[0109]上述获取肉鸡IP地址的过程，同时可得出该肉鸡IP访问僵木蠕样本的具体时间，以Long型时间戳表示；
[0110]RADIUS日志格式为:请求IP信息+\t+用户名+\t+开始时间+\t+结束时间，如RADIUS日志中的请求IP信息=肉鸡IP地址，并且Long型时间戳大于开始时间，小于结束时间，那么改用户名即为肉鸡IP地址当前对应的肉鸡账户信息。
[0111]本发明技术方案带来的有益效果:
[0112]通过上面的描述可以看出，这种方案带来的好处有下面几点:
[0113]1.5.1基于HADOOP大数据平台，可以全量分析用户的访问域名情况，挖掘出潜在的僵尸、木马、蠕虫域名。
[0114]1.5.2分析确定僵尸、木马、蠕虫服务器IP地址，可以针对IP地址进行封杀。
[0115]1.5.3找出受僵尸、木马、蠕虫感染的肉鸡IP及账户信息，及时提醒用户杀毒，遏制僵尸、木马、蠕虫的扩散。
[0116]此外，与本发明方法实施例相对应，提供了一种基于日志的僵木蠕网络分析系统，包括:
[0117]日志获取单元，用于获取DNS日志和RADIUS日志；
[0118]所述DNS日志包括:日期、时间、访问信息、请求IP信息、请求域名信息、请求域名特征、解析类型、解析IP信息、DNS服务器特征信息；
[0119]日志清洗单元，用于分别对DNS日志和RADIUS日志进行日志清洗，将统计没有影响的字段去掉，保留或修改影响统计结果的字段；
[0120]可疑域名获取单元，用于根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名；
[0121]域名分析单元，用于根据所述可疑域名的用户访问DNS日志和RADIUS日志，分析访问这些可疑域名的用户群的特征，并根据用户群的特征确定僵木蠕域名。
[0122]优选的是，所述日志清洗单元，进一步用于基于HADOOP分布式计算，清洗后的DNS日志包括:请求IP ?目息+\t+Long型时间戮+\t+请求域名+\t解析IP彳目息；
[0123]清洗后的RADIUS日志包括:请求IP信息+\t+用户名+\t+开始时间+\t+结束时间?目息。
[0124]优选的是，所述可疑域名获取单元，用于根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名，其中，共同行为特征选择以下或者任一:域名访问量排名变化按变化率排名取前100个；
[0125]解析结果类型为“域名未找到”的域名按访问量排名取前100个；
[0126]解析结果类型为“服务器错误”的域名按访问量排名取前100个；或者，按招受递归攻击量排名取前100个。
[0127]优选的是，所述可疑域名获取单元，用于根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名，具体包括:
[0128]通过分析僵木蠕样本库的解析地址，得出相同解析地址下的其他域名:
[0129]通过分析DNS日志得到某个僵木蠕样本域名的解析IP信息；
[0130]再次分析DNS日志，获取具有相同解析IP信息的其他域名信息，并过滤白名单后即为疑似僵木蠕域名。
[0131]优选的是，所述域名分析单元，用于根据所述可疑域名的用户访问DNS日志和RADIUS日志，分析访问这些可疑域名的用户群的特征，并根据用户群的特征确定僵木蠕域名，具体包括:
[0132]将清洗后的DNS日志中的请求域名与僵木蠕病毒库中的域名进行匹配，获取请求IP信息，即为肉鸡IP地址；
[0133]获取肉鸡账户信息，并得出该肉鸡IP访问僵木蠕样本的具体时间，以Long型时间戮表不;
[0134]分析RADIUS日志，如RADIUS日志中的请求IP信息=肉鸡IP地址，并且Long型时间戳大于开始时间，小于结束时间，那么改用户名即为肉鸡IP地址当前对应的肉鸡账户信息。
[0135]本发明采取了上述方案以后，基于HADOOP大数据平台，可以全量分析用户的访问域名情况，挖掘出潜在的僵尸、木马、蠕虫域名。并且，其通过分析确定僵尸、木马、蠕虫服务器IP地址，可以针对IP地址进行封杀，此外，去还可以找出受僵尸、木马、蠕虫感染的肉鸡IP及账户信息，及时提醒用户杀毒，遏制僵尸

完整全部详细技术资料下载

当前第3页1 2 3 4