一种针对DNS数据预测的方法与流程

文档序号:20161919发布日期:2020-03-24 21:06阅读:424来源:国知局
一种针对DNS数据预测的方法与流程

本发明属于计算机网络信息领域,具体的,本发明涉及一种针对dns数据预测的方法。



背景技术:

dns(domainnameserver,域名服务器)是进行域名(domainname)和与之相对应的ip地址(ipaddress)转换的服务器。dns中保存了一张域名(domainname)和与之相对应的ip地址(ipaddress)的表,以解析消息的域名。在域名注册查询域名并购买了主机服务后,你需要将域名解析到所购买的主机上,才能看到网站内容。目前,存在在dns网络中无法对网络流量以及网站安全做出预测的问题。



技术实现要素:

针对上述技术问题,本发明的目的在于,提出了一种针对dns数据预测的方法,可以对dns数据收集、预处理、降维、分类、回归、预测分析。可以解决高维数据所带来的维数灾难问题,提高了分类回归树预测的准确性,从而可以分析网站流量去向以及网站安全性等方面。

一种针对dns数据预测的方法,包括以下步骤:

利用采集器等工具对dns服务器的日志数据进行收集;

对采集的数据根据其特征值进行预处理;

根据相似度把采集的数据进行降维处理;

把低维空间的数据进行分类;

对分类过后的低维数据使用回归进行预测;

收集预测结果分析走向。

作为优选,采集的信息是dns服务器的日志,其中包括启动、重启、关闭、输出日志、报文信息。

作为优选,数据预处理操作包括:

数据包括;源ip单位时间内的dns请求次数、dns请求次数的峰值、dns请求失败的比例、源端口的信息熵、域名种类的信息熵、域名种类数峰值、非法域名的比例、异常包的比例、服务器拒绝服务率;其中,数据预处理过程依次包括规范化与归一化处理;对于特征属性的实际最小值和最大值未知的情况,采用标准分数进行标准化化处理;随后再对所有数据进行归一化处理。

作为优选,对数据的降维操作过程包括:采用条件概率代替欧氏距离来表示高维空间映射到低维空间的相似性,考虑两点的对称性,在原高维空间用高斯核函数度量了两两点之间的相似度,在映射后低维空间使用t分布度量两两点之间的相似度,最后用梯度下降法最小化平均kl散度,得到梯度,至此,数据实现降维。

作为优选,对低维数据的分类操作过程包括:分类操作为划分数据的界限,把不同特征的数据划分开,具体的操作过程为给出所有的低维数据和其对应的分类标记,如果数据线性可分,那就直接找出其超平面,如果线性不可分,那就映射到n+1维空间,找出超平面。

作为优选,对数据使用回归进行预测过程包括:首先对分类后数据进行构建树,找到数据的最佳待切分特征,判断其是否可以切分,若果不可切分,则设定为叶子节点,若可以切分,则按照最佳待切分特征将数据集切分成左右子树,然后对左右子树进行构造树;

其中,找出最佳切分特征的过程为,计算每次对于数据切分的误差,如果当前误差小于当前最小误差,那么将当前切分设定为最佳切分并更新最小值;

基于回归树进行预测的过程为,判断当前的回归树是否为叶子节点,如果是则进行预测,如果不是,将测试数据相应特征上的特征值与当前回归树进行比较,如果测试数据特征值大,那么就判断当前的回归树的左右子树是否为叶子节点,如果是则进行预测,如果不是则从左右子树开始回归预测。

通过本发明,一种针对dns数据预测的方法,可以对处理后的数据进行降维,通过对低维数据进行分类,然后构造出回归进行预测,可以对户上网活跃性、以及安全方面进行分析。

附图说明

图1示出了依据本发明一实施方式的针对dns数据预测的方法流程图

图2示出了依据本发明一实施方式的针对dns数据预测的方法结构图

图3示出了依据本发明一实施方式的针对dns数据预测的方法网络组织流程图

具体实施方式

下文为对本发明实施方式的详细描述,所述实施方式在附图中已标示出,所有附图中以相同或者类似的标号表示相同或类似的组件或具有相同功能或类似功能的组件。下面通过参考附图描述的实施方式使示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或“耦接”。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

如图1所示,本发明一实施方式一种针对dns数据预测的方法:

101:利用采集器等工具对dns服务器的日志数据进行收集;

102:对采集的数据根据其特征值进行预处理;

103:根据相似度把采集的数据进行降维处理;

104:把低维空间的数据进行分类;

105:对分类过后的低维数据使用回归进行预测;

106:收集预测结果分析走向。

在步骤101中,对日志数据进行采集包括:

采集的信息是dns服务器的日志,其中包括启动、重启、关闭、输出日志、报文等信息。

在步骤102中,对数据的预处理操作过程包括:

dns数据的属性包括ip单元时间、dns请求从dns查询时间、不寻常的包共享、dns请求失败、源端口熵、域名、信息熵、域名峰值、非法域名次数百分比峰值、、服务器拒绝服务的比例。

dns原始数据存在以下几个问题:数据的不一致、数据重复、含有噪声、数据维度高。对数据的预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。

在步骤103中,对数据的降维操作过程包括:

采用条件概率代替欧氏距离来表示高维空间映射到低维空间的相似性,考虑两点的对称性,在原高维空间用高斯核函数度量了两两点之间的相似度,在映射后低维空间使用t分布度量两两点之间的相似度,最后用梯度下降法最小化平均kl散度,得到梯度,至此,数据实现降维。

在步骤104中,对低维数据的分类操作过程包括:

分类操作的目的是划分数据的界限,把不同特征的数据划分开,具体的操作过程为给出所有的低维数据和其对应的分类标记,如果数据线性可分,那就直接找出其超平面,如果线性不可分,那就映射到n+1维空间,找出超平面,至此,可以得到超平面的表达式,也就是分类函数。低维数据得以分类。

在步骤105中,对数据使用回归进行预测过程包括:

首先对分类后数据进行构建树,找到数据的最佳待切分特征,判断其是否可以切分,若果不可切分,则设定为叶子节点,若可以切分,则按照最佳待切分特征将数据集切分成左右子树,然后对左右子树进行构造树。

其中,找出最佳切分特征的过程为,计算每次对于数据切分的误差,如果当前误差小于当前最小误差,那么将当前切分设定为最佳切分并更新最小值。

其次,基于回归树进行预测的过程为,判断当前的回归树是否为叶子节点,如果是则进行预测,如果不是,将测试数据相应特征上的特征值与当前回归树进行比较,如果测试数据特征值大,那么就判断当前的回归树的左右子树是否为叶子节点,如果是则进行预测,如果不是则从左右子树开始回归预测。

在步骤106中,预测结果分析过程包括:

预测包括预测网站用户活跃量、网站的安全性,通过回归对分类处理的低维数据进行预测,分析对于广告的使用以及安全方面有着重要的作用。

图2示出了依据本发明一实施方式的针对dns数据预测的方法结构图,其中采集dns服务器数据是对dns服务器的日志,其中包括启动、重启、关闭、输出日志、报文等信息的采取。数据的预处理操作含数据清洗、数据集成、数据变换和数据归约几种方法。对数据的降维操作过程主要是用条件概率代替欧氏距离来表示高维空间映射到低维空间的相似性以此实现降维,主要目的是消除冗余,减少被处理数据的数量。分类操作主要目的是使数据回归的效果达到最佳。构造回归树主要是用来预测数据,然后通过预测的结果来分析网站的访问量,以此可以判断网站对于广告的投放以及网站安全性等问题。

图3示出了依据本发明一实施方式的针对dns数据预测的方法网络组织流程图,本方法首先运用数据采集器等工具对dns服务器的日志信息等数据进行收集,其次通过数据清洗、集成、变换、归约等方法对数据进行预处理,接着对数据进行降维处理,以此达到有效信息的提取以及无用信息的摈弃,然后对低维数据实行分类处理,通过分类,可以较好的构造树,对于数据回归预测的准确性有很大的提高,接着通过构造回归树实现对于数据的预测,通过预测的数据,对于网站的流量分析、网站的安全性方面有很大的作用。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1