基于六维空间流量分析模型的木马回联检测系统及方法与流程

文档序号：15049706发布日期：2018-07-27 23:58阅读：389来源：国知局

本发明涉及信息安全技术领域，尤其涉及基于六维空间流量分析模型的木马回联检测系统及方法。

背景技术：

早期的木马回联流量检测技术多是基于固定特征的检测方法，这也主要是因为早期的木马回联地址很多都是加密或非加密的硬编码在恶意样本中的，所以通过样本分析，提取其回联地址加入特征库，即可检测出被感染终端的回联行为，以此精确定位到被感染终端，实现安全防护。

而攻击者为了躲避这一类安全检测，产生了dga算法。dga（domaingenerationalgorithm）算法，也即域名生成算法，常被用在botnet中，恶意代码利用一个私有的随机字符串生成算法，按照日期或随机种子，每天生成一些随机字符串域名，然后选择其中一些作为c&c域名，以此来逃避特征匹配的检测。当恶意代码回联c&c域名时，会依次访问dga生成的域名，并在其中寻找可以访问成功的，以此滤过干扰域名。针对这一类样本，基于传统七元组模型的特征检测方法是无法实现安全防护的。所以，需要更为高效、准确的检测方法来解决这一技术问题。

技术实现要素：

针对上述现有技术中存在的问题，本发明提出了基于六维空间流量分析模型的木马回联检测系统及方法，将流量数据拓展扩大，以六维空间、23元组的数据来观察使用了dga算法的木马回联流量，得到更为高效、准确的检测方法。

具体发明内容包括：

一种六维空间流量分析模型生成系统，包括：

维度建立模块，用于建立由源ip、源端口、目的ip、目的端口、协议号组成的基本要素维度；建立由每一次会话的开始时间和结束时间组成的时间维度；建立由斜率、传输速度组成的变化维度；建立由固定关键字、浮动关键字、关键载荷信息、用户身份标识、应用标识组成的信息维度；建立根据相同五元组包数形成的关联维度；建立由源ip经度、源ip纬度、源ip国家、源ip城市、目的ip经度、目的ip纬度、目的ip国度、目的ip城市组成的空间维度；

其中，时间维度记录每一次会话、每一次ip通信时长，包括每一次攻击行为、每一个攻击动作的持续时长；变化维度记录每一对上下行通信数据包比例，以及每一次通信数据包大小与时间的比例；信息维度不负责信息的还原，只按照需求、规定和场景记录安全分析所需要的关键信息；相同五元组代表一次会话，并代表零散信息的关联性，五元组包数多少代表一次通信时间长短以及传输信息的大小，故而关联维度可对攻击行为的类别以及动作内容做初步的判断；空间维度记录每一个通信ip的精确地理位置，包括每一次攻击的精确的源发起地理位置；

模型建立模块，用于将所述基本要素维度、时间维度、变化维度、信息维度、关联维度、空间维度进行组合，得到六维空间流量分析模型。

进一步地，所述斜率，其计算方式为：具有相同五元组的数据包中，上行数据包的个数与下行数据包的个数进行求商计算。

进一步地，所述传输速度，其计算方式为：数据包大小之和与传输时间进行求商计算。

一种基于六维空间流量分析模型的木马回联检测系统，包括：

数据提取模块，用于根据六维空间流量分析模型中基本要素维度、时间维度、信息维度所包含的表征元素提取待分析流量中相应的信息，并将提取的信息相应的映射到基本要素维度、时间维度、信息维度上；

数据处理模块，用于根据数据提取模块得到的待分析流量的基本要素维度、时间维度、信息维度上的信息，计算得出待分析流量的关联维度和变化维度上的信息；

特征匹配模块，用于将待分析流量经数据提取模块和数据处理模块得到的各维度上的信息按规定进行特征匹配和权重计算，分别得到待分析流量不同维度上信息的权重；

阈值比较模块，用于将特征匹配模块中得到的权重按规定进行加权求和计算，判断计算结果是否大于规定阈值，若是则视为待分析流量包含使用了dga算法的木马，并有回联行为，否则视为待分析流量不包含木马。

进一步地，所述特征匹配模块具体用于：根据待分析流量的变化维度上的信息判断待分析流量中是否存在斜率大于第一规定值的ip，若是则视为相应ip为可疑ip，并按规定对相应ip设置权重；根据待分析流量的关联维度上的信息判断待分析流量中是否存在相同五元组包数大于第二规定值的ip，若是则视为相应ip为可疑ip，并按规定对相应ip设置权重；根据待分析流量的信息维度上的固定关键字信息判断待分析流量中是否存在dns请求成功次数与请求失败次数的比值小于第三规定值的ip，若是则视为相应ip为可疑ip，并按规定对相应ip设置权重。

进一步地，所述阈值比较模块具体用于：将特征匹配模块中得到的权重，根据每个ip进行加权求和计算，判断是否存在加权求和的值大于规定阈值的ip，若存在，则视为待分析流量包含使用了dga算法的木马，并有回联行为，若不存在，则视为待分析流量不包含木马。

进一步地，还包括追踪溯源模块，具体用于：当分析出待分析流量包含使用了dga算法的木马，并有回联行为时，根据六维空间流量分析模型中空间维度所包含的表征元素对流量中的相应信息进行提取，完成恶意行为的追踪溯源。

一种基于六维空间流量分析模型的木马回联检测方法，包括：

根据六维空间流量分析模型中基本要素维度、时间维度、信息维度所包含的表征元素提取待分析流量中相应的信息，并将提取的信息相应的映射到基本要素维度、时间维度、信息维度上；

根据得到的待分析流量的基本要素维度、时间维度、信息维度上的信息，计算得出待分析流量的关联维度和变化维度上的信息；

将得到的待分析流量的各维度上的信息按规定进行特征匹配和权重计算，分别得到待分析流量不同维度上信息的权重；

将得到的权重按规定进行加权求和计算，判断计算结果是否大于规定阈值，若是则视为待分析流量包含使用了dga算法的木马，并有回联行为，否则视为待分析流量不包含木马。

进一步地，所述将得到的待分析流量的各维度上的信息按规定进行特征匹配和权重计算，分别得到待分析流量不同维度上信息的权重，具体为：根据待分析流量的变化维度上的信息判断待分析流量中是否存在斜率大于第一规定值的ip，若是则视为相应ip为可疑ip，并按规定对相应ip设置权重；根据待分析流量的关联维度上的信息判断待分析流量中是否存在相同五元组包数大于第二规定值的ip，若是则视为相应ip为可疑ip，并按规定对相应ip设置权重；根据待分析流量的信息维度上的固定关键字信息判断待分析流量中是否存在dns请求成功次数与请求失败次数的比值小于第三规定值的ip，若是则视为相应ip为可疑ip，并按规定对相应ip设置权重。

进一步地，所述将得到的权重按规定进行加权求和计算，判断计算结果是否大于规定阈值，若是则视为待分析流量包含使用了dga算法的木马，并有回联行为，否则视为待分析流量不包含木马，具体为：将得到的权重，根据每个ip进行加权求和计算，判断是否存在加权求和的值大于规定阈值的ip，若存在，则视为待分析流量包含使用了dga算法的木马，并有回联行为，若不存在，则视为待分析流量不包含木马。

进一步地，还包括：当分析出待分析流量包含使用了dga算法的木马，并有回联行为时，根据六维空间流量分析模型中空间维度所包含的表征元素对流量中的相应信息进行提取，完成恶意行为的追踪溯源。

本发明的有益效果是：

本发明不再利用传统的固定特征识别方式，而采用模型化、统计化的检测方式；

本发明不用维护一个庞大的特征库，并且可以高效、准确的检测到使用dga算法的木马回联流量；

本发明将流量特征发散到23元组，将流量各部分特征通过六维空间模型表征出来，通过该模型能够有效实现对流量更加全面的分析；

进一步地，本发明可对恶意行为进行追踪溯源。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种六维空间流量分析模型生成系统的结构图；

图2为本发明一种基于六维空间流量分析模型的木马回联检测系统的结构图；

图3为本发明一种基于六维空间流量分析模型的木马回联检测方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术方案作进一步详细的说明。

本发明给出了一种六维空间流量分析模型生成系统的实施例，如图1所示，包括：

维度建立模块101，用于建立由源ip、源端口、目的ip、目的端口、协议号组成的基本要素维度；建立由每一次会话的开始时间和结束时间组成的时间维度；建立由斜率、传输速度组成的变化维度；建立由固定关键字、浮动关键字、关键载荷信息、用户身份标识、应用标识组成的信息维度；建立根据相同五元组包数形成的关联维度；建立由源ip经度、源ip纬度、源ip国家、源ip城市、目的ip经度、目的ip纬度、目的ip国度、目的ip城市组成的空间维度；

模型建立模块102，用于将所述基本要素维度、时间维度、变化维度、信息维度、关联维度、空间维度进行组合，得到六维空间流量分析模型。

优选地，所述斜率，其计算方式为：具有相同五元组的数据包中，上行数据包的个数与下行数据包的个数进行求商计算；例如，统计a与b的所有通信回话，记a到b的数据包总数为x，记b到a的数据包总数为y，则a的斜率ka=x/y，b的斜率kb=y/x。

优选地，所述传输速度，其计算方式为：数据包大小之和与传输时间进行求商计算。

本发明还给出了一种基于六维空间流量分析模型的木马回联检测系统的实施例，如图2所示，包括：

数据提取模块201，用于根据六维空间流量分析模型中基本要素维度、时间维度、信息维度所包含的表征元素提取待分析流量中相应的信息，并将提取的信息相应的映射到基本要素维度、时间维度、信息维度上；

数据处理模块202，用于根据数据提取模块201得到的待分析流量的基本要素维度、时间维度、信息维度上的信息，计算得出待分析流量的关联维度和变化维度上的信息；

特征匹配模块203，用于将待分析流量经数据提取模块201和数据处理模块202得到的各维度上的信息按规定进行特征匹配和权重计算，分别得到待分析流量不同维度上信息的权重；

阈值比较模块204，用于将特征匹配模块203中得到的权重按规定进行加权求和计算，判断计算结果是否大于规定阈值，若是则视为待分析流量包含使用了dga算法的木马，并有回联行为，否则视为待分析流量不包含木马。

优选地，所述特征匹配模块203具体用于：

根据待分析流量的变化维度上的信息判断待分析流量中是否存在斜率大于第一规定值的ip，若是则视为相应ip为可疑ip，并按规定对相应ip设置权重；根据上述描述的斜率的计算方式可知，当向ip发送的包较多，而回包较少时，相应计算出的斜率越大，斜率越大说明通信双方的数据量越不对等，数据量越不对等说明相应ip的可疑性越大，所以在这里可将斜率大于第一规定值的相应的ip，按照斜率越大则相应ip权重越大，斜率越小则相应ip权重越小的方式来设置相应ip的权重；例如，将斜率x带入公式(1-1/x)进行计算，其计算结果即为斜率x对应ip的权重，斜率x越大，此公式计算结果也越接近1；其中，根据不同场景和需求，第一规定值的取值有所不同，可由用户自行定义，一般情况下第一规定值的取值在0和1之间（不包括0或1），在对安全性要求越高的场景下，第一规定值的取值越小，相反的，其取值越大；

根据待分析流量的关联维度上的信息判断待分析流量中是否存在相同五元组包数大于第二规定值的ip，若是则视为相应ip为可疑ip，并按规定对相应ip设置权重；流量中相同五元组包数越多，说明相同的dns请求越多，同时相应ip的可疑性越大，所以这里可将相同五元组包数大于第二规定值的ip，按照相同五元组包数越多则相应ip权重越大，相同五元组包数越少则相应ip权重越小的方式来设置相应ip的权重；例如，统计对某ip的传输流量中，相同五元组包数为x，总包数为y，计算x/y，其计算结果即为该ip的权重，相同五元组包数比例越高，该计算结果越接近1；其中，根据不同场景和需求，第二规定值的取值有所不同，可由用户自行定义，一般情况下，在对安全性要求越高的场景下，第二规定值的取值越小，相反的，其取值越大；

根据待分析流量的信息维度上的固定关键字信息判断待分析流量中是否存在dns请求成功次数与请求失败次数的比值小于第三规定值的ip，若是则视为相应ip为可疑ip，并按规定对相应ip设置权重；当向外进行了多次dns请求，其中n（远大于极少数）次请求失败，只有1次或极少数次请求成功时，说明相应ip的可疑性越大，这里第三规定值根据不同场景和需求，其取值有所不同，一般情况下取值在0和1之间（不包括0或1），在对安全性要求越高的场景下，第三规定值的取值越小，相反的，其取值越大；对于相应ip权重的设置可以采取只要dns请求成功次数与请求失败次数的比值小于第三规定值，则相应ip的权重就为1的方式进行设置。

优选地，所述阈值比较模块204具体用于：将特征匹配模块203中得到的权重，根据每个ip进行加权求和计算，判断是否存在加权求和的值大于规定阈值的ip，若存在，则视为待分析流量包含使用了dga算法的木马，并有回联行为，若不存在，则视为待分析流量不包含木马；该过程对于特征匹配模块得到的可疑性高的ip，整理每个ip对应的权重，并分别计算不同ip对应的权重的和，判断是否存在权重之和大于规定阈值的ip；其中，根据不同场景和需求，阈值的取值有所不同，可由用户自行定义，一般情况下，在对安全性要求越高的场景下，阈值的取值越小，相反的，其取值越大；根据上述举例的权重的计算方式，这里的阈值的取值可选在在1和2之间（包括1或2）。

优选地，还包括追踪溯源模块，具体用于：当分析出待分析流量包含使用了dga算法的木马，并有回联行为时，根据六维空间流量分析模型中空间维度所包含的表征元素对流量中的相应信息进行提取，完成恶意行为的追踪溯源；其中，提取信息的过程可采用关联共有或私有库获取ip地理位置的方式。

本发明还给出了一种基于六维空间流量分析模型的木马回联检测方法的实施例，如图3所示，包括：

s301：根据六维空间流量分析模型中基本要素维度、时间维度、信息维度所包含的表征元素提取待分析流量中相应的信息，并将提取的信息相应的映射到基本要素维度、时间维度、信息维度上；

s302：根据得到的待分析流量的基本要素维度、时间维度、信息维度上的信息，计算得出待分析流量的关联维度和变化维度上的信息；

s303：将得到的待分析流量的各维度上的信息按规定进行特征匹配和权重计算，分别得到待分析流量不同维度上信息的权重；

s304：将得到的权重按规定进行加权求和计算，判断计算结果是否大于规定阈值，若是则视为待分析流量包含使用了dga算法的木马，并有回联行为，否则视为待分析流量不包含木马。

优选地，所述将得到的待分析流量的各维度上的信息按规定进行特征匹配和权重计算，分别得到待分析流量不同维度上信息的权重，具体为：根据待分析流量的变化维度上的信息判断待分析流量中是否存在斜率大于第一规定值的ip，若是则视为相应ip为可疑ip，并按规定对相应ip设置权重；根据待分析流量的关联维度上的信息判断待分析流量中是否存在相同五元组包数大于第二规定值的ip，若是则视为相应ip为可疑ip，并按规定对相应ip设置权重；根据待分析流量的信息维度上的固定关键字信息判断待分析流量中是否存在dns请求成功次数与请求失败次数的比值小于第三规定值的ip，若是则视为相应ip为可疑ip，并按规定对相应ip设置权重。

优选地，所述将得到的权重按规定进行加权求和计算，判断计算结果是否大于规定阈值，若是则视为待分析流量包含使用了dga算法的木马，并有回联行为，否则视为待分析流量不包含木马，具体为：将得到的权重，根据每个ip进行加权求和计算，判断是否存在加权求和的值大于规定阈值的ip，若存在，则视为待分析流量包含使用了dga算法的木马，并有回联行为，若不存在，则视为待分析流量不包含木马。

优选地，还包括：当分析出待分析流量包含使用了dga算法的木马，并有回联行为时，根据六维空间流量分析模型中空间维度所包含的表征元素对流量中的相应信息进行提取，完成恶意行为的追踪溯源。

本说明书中系统的实施例采用递进的方式描述，对于方法的实施例而言，由于其基本相似于系统实施例，所以描述的比较简单，相关之处参见系统实施例的部分说明即可。针对基于传统七元组模型的特征检测方法无法达到对使用了dga算法的木马的检测能力，本发明提出了基于六维空间流量分析模型的木马回联检测系统及方法，将流量数据拓展扩大，以六维空间、23元组的数据来观察使用了dga算法的木马回联流量，得到更为高效、准确的检测方法。本发明不再利用传统的固定特征识别方式，而采用模型化、统计化的检测方式；本发明不用维护一个庞大的特征库，并且可以高效、准确的检测到使用dga算法的木马回联流量；本发明将流量特征发散到23元组，将流量各部分特征通过六维空间模型表征出来，通过该模型能够有效实现对流量更加全面的分析；进一步地，本发明可对恶意行为进行追踪溯源。

虽然通过实施例描绘了本发明，本领域普通技术人员知道，本发明有许多变形和变化而不脱离本发明的精神，希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李波;肖天炜;侯文伶
技术所有人：北京安天网络安全技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。