挖掘潜在威胁域名的方法、系统和服务器与流程

文档序号:29435108发布日期:2022-03-30 08:21阅读:117来源:国知局
挖掘潜在威胁域名的方法、系统和服务器与流程

1.本技术涉及通信领域,尤其涉及一种挖掘潜在威胁域名的方法、系统和服务器。


背景技术:

2.随着科学的进步和通讯技术的发展,手机已经成为人们日常生活不可缺少的组成。近些年来,越来越多用户通过移动互联网去浏览网页、观看视频资讯,使用各类手机应用程序(app)来进行社交、娱乐、学习、生活等,产生了巨大的移动互联网访问数据。很多不法分子会通过网络服务器对用户手机进行攻击,,给网络安全带来极大的威胁。因此,对于潜在威胁域名的有效挖掘已经是迫不及待的任务。
3.在相关技术中,对于潜在威胁域名的挖掘,往往会建立域名内容识别引擎。这种方式基于网页内容的相似度识别技术,通过对网页的元素进行特征挖掘再分类预测识别。但是,由于这种方式需要成功访问网站页面才能获取内容元素,因而面对海量数据,分析效率低下,难以实现全网日志的有效分析。
4.由此可见,目前亟需一种挖掘潜在威胁域名的方法,以提升挖掘威胁域名的效率。


技术实现要素:

5.本技术实施例提供了一种挖掘潜在威胁域名的方法,用以解决采用现有的威胁域名识别方法,对于海量数据,分析效率低下的问题。
6.本技术实施例还提供了一种挖掘潜在威胁域名的系统,用以解决采用现有的威胁域名识别方法,面对海量数据,分析效率低下,难以实现全网日志的有效分析。
7.本技术实施例采用下述技术方案:
8.第一方面,提供一种挖掘潜在威胁域名的方法,包括:
9.基于预先获取的第一特征集,获取第二特征集,其中,所述第一特征集为与潜在威胁域名相关的特征集,所述第二特征集为所述第一特征集的子集且所述第二特征集包括动态场景特征和静态场景特征;
10.通过对所述第二特征集中的特征进行关联计算获取疑似威胁域名集合。
11.第二方面,提供一种潜在威胁域名的挖掘系统,包括:
12.获取模块,用于基于预先获取的第一特征集,获取第二特征集,其中,所述第一特征集为与潜在威胁域名相关的特征集,所述第二特征集为所述第一特征集的子集且所述第二特征集包括动态场景特征和静态场景特征;
13.处理模块,用于通过对所述第二特征集中的特征进行关联计算获取疑似威胁域名集合。
14.第三方面,提供一种服务器,包括:
15.获取模块,用于基于预先获取的第一特征集,获取第二特征集,其中,所述第一特征集为与潜在威胁域名相关的特征集,所述第二特征集为所述第一特征集的子集且所述第二特征集包括动态场景特征和静态场景特征;
16.处理模块,用于通过对所述第二特征集中的特征进行关联计算获取疑似威胁域名集合。
17.第四方面,提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储程序,当所述程序被执行时,实施以下过程:
18.基于预先获取的第一特征集,获取第二特征集,其中,所述第一特征集为与潜在威胁域名相关的特征集,所述第二特征集为所述第一特征集的子集且所述第二特征集包括动态场景特征和静态场景特征;
19.通过对所述第二特征集中的特征进行关联计算获取疑似威胁域名集合。
20.本技术实施例采用的上述至少一个技术方案能够达到以下有益效果:
21.在本发明实施例中,基于预先获取的第一特征集,获取第二特征集,其中,所述第一特征集为与潜在威胁域名相关的特征集,所述第二特征集为所述第一特征集的子集且所述第二特征集包括动态场景特征和静态场景特征;通过对所述第二特征集中的特征进行关联计算获取疑似威胁域名集合。如此,通过提前获取第一特征集,并从中获得第二特征集,可在大数据中快速圈定潜在威胁域名相关的特征集,基于第二特征集进行疑似威胁域名集合的获取可大大减少数据处理量,从而可以有效提高前端识别威胁域名的效率,实现对全网日志的有效分析。
附图说明
22.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
23.图1是本技术实施例提供的一种挖掘潜在威胁域名的方法的流程图;
24.图2是本技术实施例中一种示例的特征关联关系链路的示意图;
25.图3是本技术实施例中基于关联分析确定疑似威胁域名集合的流程图;
26.图4是本技术实施例提供的挖掘潜在威胁域名的方法的流程图;
27.图5是本技术实施例提供的系统的结构框图;
28.图6是本技术实施例提供的服务器的结构框图。
具体实施方式
29.本技术实施例提供一种挖掘潜在威胁域名的方法和系统。
30.为了使本技术领域的人员更好地理解本技术中的技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
31.图1是本技术实施例提供的一种挖掘潜在威胁域名的方法的流程图。如图1所示,本技术实施例提供的一种挖掘潜在威胁域名的方法可以包括以下步骤:
32.步骤110,基于预先获取的第一特征集,获取第二特征集,其中,所述第一特征集为
与潜在威胁域名相关的特征集,所述第二特征集为所述第一特征集的子集且所述第二特征集包括动态场景特征和静态场景特征。
33.在本技术实施例中,第一特征集具体可以包括但不限于:域名ip个数、访问用户数、访问次数、统一资源定位符(uniform resource locator,url)url个数、最大访问用户数、单用户平均url条数、url平均用户数、url平均访问次数、用户数标准差、访问数标准差、url访问数离散系数、访问用户数离散度、当天单个用户访问域名频繁访问用户数、域名访问的最多url次数占比、单用户访问url个数、域名存活时长、终端操作系统属性、访问载体属性、域名返回码属性、ip地域属性、url返回码属性中的至少二种。
34.在本技术实施例中,所述第二特征集具体可以包括动态场景特征和静态场景特征。
35.所述动态场景特征包括:通信特征和关联特征中的至少一种,其中,所述通信特征包括域名生成算法(domain generation algorithm,dga)属性,所述关联特征包括:域名返回码属性、域名ip地域属性和url返回码属性中的至少一种;所述静态场景特征包括:行为特征和指纹特征中的至少一种,其中,所述行为特征包括:访问用户数、访问用户数离散度、域名访问的最多url次数占比、单用户访问url个数以及域名存活时长中的至少一种,所述指纹特征包括:终端操作系统属性和访问载体属性中的至少一种。
36.所述dga属性具体指计算域名字符随机离散程度,即dga属性为域名熵值与域名元音占比值的比值,其中熵值指字符随机性程度值,域名元音值指域名的元音字母个数占域名总长度比值。
37.所述域名返回码属性具体指访问域名时,网址的跳转状态码属性,如:域名返回4xx错误,但url返回200请求成功或者返回204无内容。出现这些返回码的域名存在很大可疑。
38.所述ip地域属性具体指域名解析的ip地址归属地,一般境外的ip相比境内ip危险程度高。
39.所述url返回码属性具体指访问该域名下的url时,该url的状态码属性。例如:url返回302状态码,说明该url进行了重定向,存在可疑。
40.所述访问用户数具体指域名在当天的访问用户数越多,除了白名单域名外,说明该域名的影响范围广,危险程度高。
41.所述访问用户数离散度具体指白名单域名的访问由于用户的主观随机性,访问用户数会比较均衡;若某域名以及其url的访问用户数出现集中,说明该域名可能处于爆发访问阶段,危险程度高。
42.所述域名访问的最多url次数占比具体指域名下的url,如果出现集中访问的url,其访问次数占比越大,说明该url被利用可能性越高,危险程度越高。
43.所述单用户访问url个数具体指单个用户的访问行为如果受到控制后,其与恶意服务器域名不会频繁交互,该行为与非受控的正常用户行为存在很大差别,因此单用户访问url个数越小,危险程度越高。
44.所述域名存活时长具体指恶意域名以及灰色域名为了躲避监测,会定期更换新的域名,存活时长越短,危险程度越高。
45.在本技术实施例中,所述第二特征集为所述第一特征集的子集。即,第二特征集中
的任意一个特征都来自于第一特征集中。举例而言,第一特征集例如为用户数标准差、dga属性,第二特征集例如为dga属性。
46.在本技术实施例中,在步骤110之前,本技术实施例提供的挖掘潜在威胁域名的方法还可以包括获取第一特征集的步骤。具体地,获取第一特征集的过程可包括:获取运营商侧的数据;基于获取的所述运营商侧的数据,得到与潜在威胁域名相关的第一特征集。
47.运营商侧拥有广泛覆盖的通信网络,每时每刻都在产生着海量数据。运营商侧的数据既包括用户的基本信息,也包括用户的通信数据、社交活动数据、消费行为数据、位置信息数据等多个维度的信息。运营商侧的数据拥有独特的数据完整性、连续性、丰富性,这是其他任何行业数据都无法比拟的。因此,本技术实施例利用运营商侧海量的数据优势,可得到大量用户信息,例如不涉及用户隐私的信息,进而进行海量数据汇总后得到与潜在威胁域名相关的第一特征集,可保证得到的第一特征集的准确性。
48.在步骤110中,所述基于预先获取的第一特征集,获取第二特征集包括:对预先获取的所述第一特征集中的特征数据利用随机森林算法进行训练,以获取与潜在威胁域名相关的第二特征集。
49.通过随机森林算法对所述第一特征集进行训练后得到第二特征集,所述第二特征集是所述第一特征集中的子集,因此得到的所述第二特征集相较于原有的第一特征集数据量明显减少,更有利于提升数据的处理效率。
50.具体的,在本技术实施例中,所述利用随机森林算法进行训练的具体过程可以按照如下步骤进行:
51.子步骤一:对预先获取的所述第一特征集中的特征数据,采取有放回抽样的方式,构造n个新训练集;
52.其中,不同的新训练集中所述特征数据可以重复,同一个新数据集中所述特征数据也可以重复。
53.其中,所述特征数据可以指所述第一特征集中每个特征的在针对某一域名时的具体取值。
54.子步骤二:根据新训练集来构建子决策树;其中,每个所述子决策树对应一个新训练集;
55.其中,随机森林由n(n为正整数,n的具体取值具有随机性)个子决策树构成,决策树中的每个节点都是关于具体特征数据的判断条件。对其中一个节点举例而言,若以该节点作为父节点,那么该节点存在两个子节点,且位于该节点左右两侧,分别假设其为左子节点和右子节点。若该父节点为dga值,可以采用大于某值则生成其左子节点,小于某值则生成其右子节点的方式生成其左右子节点;若该父节点为终端操作系统属性,可以采用是/否的判断逻辑生成其左右子节点。
56.子步骤三:通过对所述n个子决策树的末端节点进行投票,得到所述与潜在威胁域名相关的第二特征集。
57.其中,所述投票是指对n个决策树的末端节点进行统计分析,选取出现次数多的节点作为投票结果。
58.为了直观展示所述与潜在威胁域名相关的第二特征集,通过上述子步骤,得到的所述与潜在威胁域名相关的第二特征集的示例化数据展示在下表1中。
[0059][0060]
表1
[0061]
步骤120,通过对所述第二特征集中的特征进行关联计算获取疑似威胁域名集合。
[0062]
本技术实施例提供的挖掘潜在威胁域名的方法,基于预先获取的第一特征集,获取第二特征集,其中,所述第一特征集为与潜在威胁域名相关的特征集,所述第二特征集为所述第一特征集的子集且所述第二特征集包括动态场景特征和静态场景特征;通过对所述第二特征集中的特征进行关联计算获取疑似威胁域名集合。如此,通过提前获取第一特征集,并从中获得第二特征集,可在大数据中快速圈定潜在威胁域名相关的特征集,基于第二特征集进行疑似威胁域名集合的获取可大大减少数据处理量,从而可以有效提高前端识别威胁域名的效率,实现对全网日志的有效分析。
[0063]
在本技术实施例中,对所述第二特征集中的特征进行关联计算可以采用多种方式,例如利用apriori算法、fp-tree算法等进行关联计算。下面仅是以apriori算法为例进行说明。
[0064]
其中,所述关联计算的具体计算方式可以通过apriori算法执行具体计算。apriori算法是用于挖掘出数据关联规则的算法,通过apriori算法可以挖掘出第二特征集之间的关联程度,进而形成疑似威胁域名集合。
[0065]
具体地,可参照图3,在本技术实施例中,步骤120可包括如下过程:
[0066]
步骤1201:确定潜在威胁域名特征集合的评估标准,所述评估标准包括支持度、置信度中的至少一种;
[0067]
潜在威胁域名特征集合的评估标准包括支持度、置信度等。一般而言,要选择一个数据集合中的频繁k项集,通常需要自定义评估标准。而在本技术所述apriori算法中,主要涉及支持度、置信度中的至少一种作为评估指标。
[0068]
其中,所述频繁k项集由关联程度紧密的k项数据组成。其中,k为正整数,且k≥2。
[0069]
其中,所述支持度就是若干个所述第二特征集中的特征具体值同时出现在一个域名中的概率。
[0070]
若在一个域名中,有两个要分析关联性的第二特征集中的特征具体值x和y,则其对应的支持度值为
[0071]
support(xy)=p(xy)=p(x)p(y|x)
[0072]
其中,p(xy)表示x和y同时发生的概率;p(x)表示x发生的概率;p(y|x)表示x发生的条件下y发生的概率;support(xy)表示xy对应的支持度。
[0073]
以此类推,若在一个域名中,有三个要分析关联性的第二特征集中的特征具体值x、y和z,则其对应的支持度值为
[0074]
support(xyz)=p(xyz)=p(x)p(y|x)p(z|xy)
[0075]
其中,p(xyz)表示x、y和z同时发生的概率;p(x)表示x发生的概率;p(y|x)表示x发生的条件下y发生的概率;p(z|xy)表示xy发生的条件下z发生的概率;support(xyz)表示xyz对应的支持度。
[0076]
其中,所述置信度就是统计学中条件概率的含义,结合上述举例,具体的confidence(x《=y)=p(x|y)
[0077]
confidence(x《=yz)=p(x|yz)
[0078]
其中,confidence(x《=y)表示x对y的置信度,confidence(x《=yz)表示x对yz的置信度,p(x|y)表示y发生的条件下x发生的概率,p(x|yz)表示yz发生的条件下x发生的概率。
[0079]
步骤1202:基于确定的所述评估标准和apriori算法,对所述第二特征集中的特征进行关联分析,以确定出疑似威胁域名集合。
[0080]
具体地,步骤1202可包括如下子步骤一至子步骤三。
[0081]
子步骤一:对所述第二特征集中的数据进行数据连接;对连接后得到的候选1项集按照预设评估标准进行剪枝处理,以得到频繁1项集;
[0082]
其中,所述候选1项集是将初始有效特征数据进行两两数据连接,并剔除相同项后得到的。举例而言,对于数据0和1而言,两两数据连接后会得到项集01和10,而项集01和10实质为相同项,只是顺序不一样而已,那么剔除相同项后,得到候选1项集中的一个项集01或10中的任意一个。对于数据中的其他数据的连接方式,均按照此两两连接方式进行连接。
[0083]
其中,所述剪枝处理是指低于预设评估标准的候选1项集进行删除。
[0084]
子步骤二:对频繁1项集中的元素进行连接,获取候选2项集,对候选2项集中低于预设评估标准的元素进行剪枝处理,以得到频繁2项集;
[0085]
其中,对于频繁1项集中的元素参照上述子步骤一的方式进行数据连接,从而得到候选2项集。对于候选2项集同样参照上述子步骤一的方式进行剪枝处理,得到频繁2项集。此处需要特别指出的是,对于已经进行过剪枝处理的候选1项集,那么与该候选1项集相关的候选2项集在进行剪枝处理之前,不需要按照预设评估标准进行判断,而是直接直接执行剪枝处理即可。
[0086]
子步骤三:针对频繁k项集,按照以上过程进行迭代,直到无法找到频繁k+1项集为止,将得到的频繁k项集确定为疑似威胁域名集合;其中,k为正整数,且k≥2。
[0087]
本技术中所述候选k项集可以是由k-1个初始有效特征组成的集合;频繁k项集是指满足预设评估标准的候选k项集。
[0088]
在apriori算法的运算过程中,若某个k项集是频繁的,那么该k项集的所有子集均是频繁的。那么可以理解的是,在进行剪枝处理的过程中,若某候选项集低于预设的评估标准,则其将会被删除,那么其所有的子集都将会被剪枝处理。通过利用上述过程,可以大大缩短算法遍历时长,进一步提高算法处理效率。
[0089]
通过apriori算法,能够采集到全部域名场景中的网络操作行为,下面通过简单的单链条模型进行实例化说明,在实际模型中,为多条单链条组成的混合模型。
[0090]
下面进行一个简单维度的关系链路示例分析,图3为本技术特征关联关系链路分析的示意图。
[0091]
下面针对步骤1202中的各个子步骤进行具体举例说明,如图3所示,在域名a中存在第二特征集中的特征的初始有效特征数据dga、ip属性、当天访问的用户数和域名存活时长。将dga标号为0,ip属性标号为1,当天访问的用户数标号为2,域名存活时长标号为3。
[0092]
对上述标号特征执行上述子步骤1,对所述第二特征集中的特征的初始有效特征数据进行数据连接得到连接后的数据集。
[0093]
具体的,dga(0)和ip属性(1)进行数据连接后得到数据集01;dga(0)和当天访问的用户数(2)进行连接后得到数据集02;ip属性(1)和当天访问的用户数(2)进行连接后得到数据集12;ip属性(1)和域名存活时长(3)进行连接后得到数据集13;当天访问的用户数(2)和域名存活时长(3)进行连接得到数据集23。
[0094]
然后对连接后得到的数据集按照预设评估标准进行剪枝处理,假设数据集23低于预设的评估标准,则对其进行剪枝处理,进而得到频繁1项集:01、02、03、12、13。
[0095]
对上述频繁1项集执行上述子步骤2,对频繁1项集中的元素进行连接,获取候选2项集。
[0096]
具体的,频繁1项集01、频繁1项集02和频繁1项集12进行连接后得到候选2项集012;频繁1项集01、频繁1项集03和频繁1项集13进行连接后得到候选2项集013;频繁1项集02、频繁1项集03和数据集23进行连接后得到候选2项集023;频繁1项集12、频繁1项集13和候选1项集23进行连接后得到候选2项集123。
[0097]
对候选2项集中低于预设评估标准的元素进行剪枝处理,以得到频繁2项集。此处需要说明的是,在上述步骤1中,已对候选1项集23进行了剪枝处理,那么以候选1项集23为父节点的候选2项集023和123同步进行剪枝处理。那么,剪枝处理后的频繁2项集为012、013。
[0098]
对上述频繁2项集执行上述子步骤3,针对频繁k项集(在此示例分析中k=2),按照以上过程进行迭代,直到无法找到频繁k+1(在此示例分析中k=2)项集为止,将得到的频繁k项集确定为疑似威胁域名集合。
[0099]
具体的,频繁2项集012、频繁2项集013、候选2项集023和候选2项集123进行连接后得到候选3项集0123。此处需要说明的是,在上述步骤2中,已对候选2项集023和123进行了剪枝处理,那么以候选2项集023和123为父节点的候选3项集0123同步进行剪枝处理,即此时已无法找到频繁3项集,将得到的频繁2项集确定为疑似威胁域名集合。
[0100]
可选地,在一个实施例中,本技术实施例提供的挖掘潜在威胁域名的方法还可以包括如下步骤:
[0101]
获取监测数据源中的域名数据的动静态特征;
[0102]
其中,所述监测数据源中的域名数据是指监测实时网络中的域名下的具体域名数据。
[0103]
将获取的所述域名数据的动静态特征与获取的所述疑似威胁域名集合进行比较,以得到域名检测结果。
[0104]
可选地,在一个实施例中,本技术实施例提供的挖掘潜在威胁域名的方法还可以包括如下步骤:在域名检测结果为检测到威胁域名的情况下,将所述域名检测结果反馈到
恶意链接库中。
[0105]
图4是本技术实施例提供的一种挖掘潜在威胁域名的方法的流程图。如图4所示,本技术实施例提供的一种挖掘潜在威胁域名的方法可以包括以下步骤:
[0106]
步骤410:获取运营商侧的数据;基于获取的所述运营商侧的数据,得到与潜在威胁域名相关的第一特征集。
[0107]
步骤420:对预先获取的所述第一特征集中的特征数据利用随机森林算法进行训练,以获取与潜在威胁域名相关的第二特征集。
[0108]
具体的随机森林算法处理数据的过程参见上述步骤110,在此不再赘述。
[0109]
通过随机森林算法对所述第一特征集进行训练后得到第二特征集,所述第二特征集是所述第一特征集中的子集,因此得到的所述第二特征集相较于原有的第一特征集数据量明显减少,更有利于提升数据的处理效率。
[0110]
步骤430:确定潜在威胁域名特征集合的评估标准,所述评估标准包括支持度、置信度中的至少一种。
[0111]
步骤440:对所述第二特征集中的特征的初始有效特征数据进行数据连接;对连接后得到的候选1项集按照预设评估标准进行剪枝处理,以得到频繁1项集。
[0112]
步骤450:对频繁1项集中的元素进行连接,获取候选2项集,对候选2项集中低于预设评估标准的元素进行剪枝处理,以得到频繁2项集。
[0113]
步骤460:针对频繁k项集,按照以上过程进行迭代,直到无法找到频繁k+1项集为止,将得到的频繁k项集确定为疑似威胁域名集合。
[0114]
步骤470:获取监测数据源中的域名数据的动静态特征。
[0115]
步骤480:将获取的所述域名数据的动静态特征与获取的所述疑似威胁域名集合进行比较,以得到域名检测结果。
[0116]
本技术实施例提供的挖掘潜在威胁域名的方法,基于预先获取的第一特征集,获取第二特征集,其中,所述第一特征集为与潜在威胁域名相关的特征集,所述第二特征集为所述第一特征集的子集且所述第二特征集包括动态场景特征和静态场景特征;通过对所述第二特征集中的特征进行关联计算获取疑似威胁域名集合。如此,通过提前获取第一特征集,并从中获得第二特征集,可在大数据中快速圈定潜在威胁域名相关的特征集,基于第二特征集进行疑似威胁域名集合的获取可大大减少数据处理量,从而可以有效提高前端识别威胁域名的效率,实现对全网日志的有效分析。
[0117]
图5是本技术实施例提供的一种挖掘潜在威胁域名的系统的结构框图。参照图5,本技术实施例提供的潜在威胁域名的挖掘系统可包括:
[0118]
获取模块502,用于基于预先获取的第一特征集,获取第二特征集,其中,所述第一特征集为与潜在威胁域名相关的特征集,所述第二特征集为所述第一特征集的子集且所述第二特征集包括动态场景特征和静态场景特征;
[0119]
处理模块504,用于通过对所述第二特征集中的特征进行关联计算获取疑似威胁域名集合。
[0120]
本发明实施例提供的挖掘潜在威胁域名的系统,基于预先获取的第一特征集,获取第二特征集,其中,所述第一特征集为与潜在威胁域名相关的特征集,所述第二特征集为所述第一特征集的子集且所述第二特征集包括动态场景特征和静态场景特征;通过对所述
第二特征集中的特征进行关联计算获取疑似威胁域名集合。如此,通过提前获取第一特征集,并从中获得第二特征集,可在大数据中快速圈定潜在威胁域名相关的特征集,基于第二特征集进行疑似威胁域名集合的获取可大大减少数据处理量,从而可以有效提高前端识别威胁域名的效率,实现对全网日志的有效分析。
[0121]
可选地,在本技术的一个实施例中,在获取第二特征集的过程中,所述获取模块502,可用于对预先获取的所述第一特征集中的特征数据利用随机森林算法进行训练,以获取与潜在威胁域名相关的第二特征集。
[0122]
可选地,在本技术的一个实施例中,在基于预先获取的第一特征集,获取第二特征集之前,所述获取模块502还用于:
[0123]
获取运营商侧的数据;基于获取的所述运营商侧的数据,得到与潜在威胁域名相关的第一特征集;
[0124]
在本技术实施例中,可选地,所述第一特征集包括:域名ip个数、访问用户数、访问次数、url个数、最大访问用户数、单用户平均url条数、url平均用户数、url平均访问次数、用户数标准差、访问数标准差、url访问数离散系数、访问用户数离散度、当天单个用户访问域名频率访问用户数、域名访问的最多url次数占比、单用户访问url个数、域名存活时长、终端操作系统属性、访问载体属性、域名返回码属性、ip地域属性、url返回码属性中的至少二种。
[0125]
在本技术实施例中,可选地,所述动态场景特征包括:通信特征和关联特征中的至少一种,其中,所述通信特征包括dga属性,所述关联特征包括:域名返回码属性、域名ip地域属性和url返回码属性中的至少一种;所述静态场景特征包括:行为特征和指纹特征中的至少一种,其中,所述行为特征包括:访问用户数、访问用户数离散度、域名访问的最多url次数占比、单用户访问url个数以及域名存活时长中的至少一种,所述指纹特征包括:终端操作系统属性和访问载体属性中的至少一种。
[0126]
在本技术实施例中,可选地,所述处理模块502用于:
[0127]
确定潜在威胁域名特征集合的评估标准,所述评估标准包括支持度、置信度中的至少一种;
[0128]
基于确定的所述评估标准和apriori算法,对所述第二特征集中的特征进行关联分析,以确定出疑似威胁域名集合。
[0129]
可选地,在基于确定的所述评估标准和apriori算法,对所述第二特征集中的特征进行关联分析,以确定出疑似威胁域名集合的过程中,所述处理模块504用于:
[0130]
对所述第二特征集中的特征的初始有效特征数据进行数据连接;对连接后得到的候选1项集按照预设评估标准进行剪枝处理,以得到频繁1项集;
[0131]
对频繁1项集中的元素进行连接,获取候选2项集,对候选2项集中低于预设评估标准的元素进行剪枝处理,以得到频繁2项集;
[0132]
针对频繁k项集,按照以上过程进行迭代,直到无法找到频繁k+1项集为止,将得到的频繁k项集确定为疑似威胁域名集合;其中,k为正整数,且k≥2。
[0133]
可选地,所述获取模块502还用于:获取监测数据源中的域名数据的动静态特征。相应地,所述处理模块504还用于:将获取的所述域名数据的动静态特征与获取的所述疑似威胁域名集合进行比较,以得到域名检测结果。
[0134]
在本技术实施例提供的挖掘潜在威胁域名的系统中的各个模块所执行的步骤的具体过程可参见方法实施例,在此不再赘述。
[0135]
图6是本技术实施例提供的一种服务器的结构框图。参照图6,本技术实施例提供的潜在威胁域名的服务器可包括:
[0136]
获取模块602,用于基于预先获取的第一特征集,获取第二特征集,其中,所述第一特征集为与潜在威胁域名相关的特征集,所述第二特征集为所述第一特征集的子集且所述第二特征集包括动态场景特征和静态场景特征;
[0137]
处理模块604,用于通过对所述第二特征集中的特征进行关联计算获取疑似威胁域名集合。
[0138]
在本技术实施例中,基于预先获取的第一特征集,获取第二特征集,其中,所述第一特征集为与潜在威胁域名相关的特征集,所述第二特征集为所述第一特征集的子集且所述第二特征集包括动态场景特征和静态场景特征;通过对所述第二特征集中的特征进行关联计算获取疑似威胁域名集合。如此,通过提前获取第一特征集,并从中获得第二特征集,可在大数据中快速圈定潜在威胁域名相关的特征集,基于第二特征集进行疑似威胁域名集合的获取可大大减少数据处理量,从而可以有效提高前端识别威胁域名的效率,实现对全网日志的有效分析。
[0139]
可选地,在本技术的一个实施例中,在获取第二特征集的过程中,所述获取模块602,可用于对预先获取的所述第一特征集中的特征数据利用随机森林算法进行训练,以获取与潜在威胁域名相关的第二特征集。
[0140]
可选地,在本技术的一个实施例中,在基于预先获取的第一特征集,获取第二特征集之前,所述获取模块602还用于:
[0141]
获取运营商侧的数据;基于获取的所述运营商侧的数据,得到与潜在威胁域名相关的第一特征集;
[0142]
在本技术实施例中,可选地,所述第一特征集包括:域名ip个数、访问用户数、访问次数、url个数、最大访问用户数、单用户平均url条数、url平均用户数、url平均访问次数、用户数标准差、访问数标准差、url访问数离散系数、访问用户数离散度、当天单个用户访问域名频率访问用户数、域名访问的最多url次数占比、单用户访问url个数、域名存活时长、终端操作系统属性、访问载体属性、域名返回码属性、ip地域属性、url返回码属性中的至少二种。
[0143]
在本技术实施例中,可选地,所述动态场景特征包括:通信特征和关联特征中的至少一种,其中,所述通信特征包括dga属性,所述关联特征包括:域名返回码属性、域名ip地域属性和url返回码属性中的至少一种;所述静态场景特征包括:行为特征和指纹特征中的至少一种,其中,所述行为特征包括:访问用户数、访问用户数离散度、域名访问的最多url次数占比、单用户访问url个数以及域名存活时长中的至少一种,所述指纹特征包括:终端操作系统属性和访问载体属性中的至少一种。
[0144]
在本技术实施例中,可选地,所述处理模块602用于:
[0145]
确定潜在威胁域名特征集合的评估标准,所述评估标准包括支持度、置信度中的至少一种;
[0146]
基于确定的所述评估标准和apriori算法,对所述第二特征集中的特征进行关联
分析,以确定出疑似威胁域名集合。
[0147]
可选地,在基于确定的所述评估标准和apriori算法,对所述第二特征集中的特征进行关联分析,以确定出疑似威胁域名集合的过程中,所述处理模块604用于:
[0148]
对所述第二特征集中的特征的初始有效特征数据进行数据连接;对连接后得到的候选1项集按照预设评估标准进行剪枝处理,以得到频繁1项集;
[0149]
对频繁1项集中的元素进行连接,获取候选2项集,对候选2项集中低于预设评估标准的元素进行剪枝处理,以得到频繁2项集;
[0150]
针对频繁k项集,按照以上过程进行迭代,直到无法找到频繁k+1项集为止,将得到的频繁k项集确定为疑似威胁域名集合;其中,k为正整数,且k≥2。
[0151]
可选地,所述获取模块602还用于:获取监测数据源中的域名数据的动静态特征。相应地,所述处理模块604还用于:将获取的所述域名数据的动静态特征与获取的所述疑似威胁域名集合进行比较,以得到域名检测结果。
[0152]
在本技术实施例提供的服务器中的各个模块所执行的步骤的具体过程可参见方法实施例,在此不再赘述。
[0153]
此外,本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储程序,当所述程序被执行时,实施以下过程:
[0154]
基于预先获取的第一特征集,获取第二特征集,其中,所述第一特征集为与潜在威胁域名相关的特征集,所述第二特征集为所述第一特征集的子集且所述第二特征集包括动态场景特征和静态场景特征;
[0155]
通过对所述第二特征集中的特征进行关联计算获取疑似威胁域名集合。
[0156]
其中,以上各个步骤的具体实施过程可参照上文描述,在此不再赘述。
[0157]
本技术实施例提供的存储介质,基于预先获取的第一特征集,获取第二特征集,其中,所述第一特征集为与潜在威胁域名相关的特征集,所述第二特征集为所述第一特征集的子集且所述第二特征集包括动态场景特征和静态场景特征;通过对所述第二特征集中的特征进行关联计算获取疑似威胁域名集合。如此,通过提前获取第一特征集,并从中获得第二特征集,可在大数据中快速圈定潜在威胁域名相关的特征集,基于第二特征集进行疑似威胁域名集合的获取可大大减少数据处理量,从而可以有效提高前端识别威胁域名的效率,实现对全网日志的有效分析。
[0158]
需指出的是,本技术实施例中,通过随机森林算法训练出与威胁域名相关联的有效特征,有效避免了与威胁域名无关的特征造成的干扰。由于随机森林算法中两个随机性的引入(新训练集样本的随机选取,频繁特征的随机选取),使得随机森林算法不容易陷入过拟合,投票选取出的有效特征具有相对准确性。提取威胁域名的动静态特征,通过关联规则apriori算法实现在混合场景下挖掘潜在威胁域名特征集合,能够全面反映域名的静态和动态规律,由多个有效特征组成的特征集合,能更加准确对未知域名进行拟合,提高了对未知域名的识别能力。对移动通信网络中的海量数据按照本技术的处理流程进行挖掘,在大数据中可以快速准确的圈定潜在威胁域名范围,进而提高域名识别的效率。
[0159]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有
的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0160]
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1