一种基于远程桌面加密网络流量模式差异的用户行为检测方法及系统与流程

文档序号:19730057发布日期:2020-01-18 03:50阅读:567来源:国知局
一种基于远程桌面加密网络流量模式差异的用户行为检测方法及系统与流程

本发明属于网络安全领域,尤其涉及一种基于远程桌面加密网络流量模式差异的用户行为检测方法及系统。



背景技术:

远程桌面是通过互联网远程控制其它计算机的一种技术,该技术在远程办公、远程协助、远程管理等领域得到广泛应用。典型的远程桌面软件会捕获用户在客户端下发的控制指令,然后将控制指令发往受控主机;受控主机执行命令后将图形化结果交互式地反馈给客户端。这种实时交互式的工作模式在给用户带来便利的同时,也导致严重的隐私泄露问题。为了防止用户行为隐私的泄露,远程桌面开发商会加密客户端与受控主机之机的网络通信流量。

侧信道隐私泄露攻击是指从加密系统的物理实现中获取隐私信息而非暴力破解密文。近些年来,加密流量的侧信道隐私泄露话题已引起学术界和工业界的重视。d.song提出基于击键行为的ssh侧信道攻击方法,d.brumley提出使用时间攻击提取openssl私钥的方法,h.li观察到攻击者可以通过加密视频流推断出用户在家的日常行为。与此同时,加密流量分类技术也得到巨大的发展,一方面以基于机器学习方法为代表的新型加密流量分类方法取得了目前最好的分类效果,另外一方面基于网络流量尖峰的统计特征也越来越得到重视。不管是侧信道泄露还是加密流量的分类问题,目前主流方法都是基于不同行为的流量模式存在差异这一基本假设来展开。

尽管有很多研究侧信道和加密流量分类的工作,但是这些工作极少关注远程桌面加密流量上的用户行为隐私泄露问题。r.altschaffel提出一种基于统计特征区分teamviewer的文件传输、语音会议、视频会议、文字聊天以及常规会话网络流量的机器学习方法,但是该工作的缺点在于其研究的五类动作粒度过粗,而且文件传输、语音会议、视频会议、文字聊天这四类动作与远程桌面的关系不大,因为这四类动作基本不涉及使用鼠标、键盘去操纵远程主机的场景;而且他们的方法高度依赖于所选取的远程桌面软件(teamviewer),对于其它远程桌面流量上行为识别效果缺少实验论证,因而缺乏普遍性。



技术实现要素:

本发明提出一种基于远程桌面加密网络流量模式差异的用户行为检测方法及系统,其在远程桌面网络流量已经被加密的情况下,仍能检测不同操作行为所产生的网络流量在流量模式上的差异性。

为达到上述目的,本发明采用如下的技术方案:

一种基于远程桌面加密网络流量模式差异的用户行为检测方法,其步骤包括:

1)获取远程桌面客户端到远程桌面服务端的网络流量,并将所述网络流量分割成独立的网络流;

2)将每一条所述的网络流分割成若干个流尖峰,并根据每个流尖峰的包长序列和包到达时间序列获取向量化后的数据集;

3)将所述数据集送入用户行为检测模型,获取远程桌面客户端的粗粒度行为与细粒度动作。

进一步地,将所述流量按照五元组分割成彼此独立的网络流。

进一步地,所述五元组包括源ip地址、源端口号、目的ip地址、目的端口号、协议类型。

进一步地,所述流尖峰是指同一条网络流中相邻的若干数据包,且所述数据包的到达时间间隔都小于阈值。

进一步地,根据所述样本流尖峰的包长序列和包到达时间序列,建立多维度统计特征。

进一步地,将所述数据集经过归一化的处理后,送入至用户行为检测模型。

进一步地,所述用户行为检测模型的构建过程,包括以下步骤:

1)获取远程桌面客户端到远程桌面服务端的带有标签的样本网络流量,并将所述样本网络流量分割成独立的网络流;

2)将每一条所述的样本网络流分割成若干个样本流尖峰,并根据每个样本流尖峰的包长序列和包到达时间序列获取向量化后的样本数据集;

3)将所述样本数据集送入机器学习分类器进行训练,得到用户行为检测模型。

进一步地,所述机器学习分类器包括逻辑回归分类器、支持向量机分类器、梯度提升树分类器与随机森林分类器。

进一步地,所述粗粒度行为包括阅读文档、编辑文档、观看视频、安装软件、浏览视频,所述细粒度动作包括使用word2007、excel2007、notepad++、notepad编辑文档。

一种基于远程桌面加密网络流量模式差异的用户行为检测系统,包括:

1)网络流量采集模块,用以获取远程桌面客户端到远程桌面服务端的网络流量,并将所述网络流量分割成独立的网络流;

2)网络流量特征提取模块,用以将每一条所述的网络流分割成若干个流尖峰,并根据每个流尖峰的包长序列和包到达时间序列获取向量化后的数据集;

3)用户行为检测模块,用以将所述数据集送入用户行为检测模型,获取远程桌面客户端的粗粒度行为与细粒度动作。

与现有技术相比,本发明具有如下优点:

1、被动采集远程桌面客户端与服务端之间的通信流量,整个流量采集、行为检测过程对远程桌面用户来说是透明的。

2、无需对加密流量进行解密,只需利用流量的包长序列和到达时间序列提取统计特征即可实现对用户行为的检测。这些统计特征可以很好的表示远程桌面场景加密流量的模式,保证使用较少的特征能够充分的表示模式变化。

3、利用不同用户行为的流量模式差异性,可以以较高的准确率和较低的假阴率检测用户的行为类别。

4、本方法不仅可以检测用户的操作远程桌面时的粗粒度行为,例如阅读文档、编辑文档等行为,而且可以检测出诸如编辑文档所使用的具体编辑工具等细粒度动作。本方法具有较强的可扩展性,支持用户自定义行为类别。用户只需采集目标行为的带标签流量,然后使用本方法重新训练模型即可。

附图说明

图1远程桌面加密流量用户行为检测基本框图。

图2不同时间阈值对行为识别准确率的影响的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰,下面通过具体实施例和附图对本发明进行进一步详细阐述。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

本发明公开了一种基于远程桌面加密网络流量模式差异的用户行为检测方法,其用户行为检测基本框图如图1所示。

采集不同用户在不同操作行为下的远程桌面加密视频流量,我们通过若干台安装window10和window7的本地计算机,若干安装windowsserver2012和windowsserver2016的云虚拟专用服务器(virtualprivateserver,vps),一个路由器,多款常见远程桌面软件搭建一个实验环境;其中本地计算机充当远程桌面客户端,它们通过路由器访问互联网进而访问阿里云vps;阿里云vps则充当远程桌面中的受控主机,即远程桌面服务端;我们在路由器的一个镜像端口获取远程桌面客户端到远程桌面服务端的网络流量。不同志愿者在本地计算机安装特定的远程桌面客户端软件,并通过在该软件上持续执行特定动作(这些动作由粗粒度和细粒度动作组成,其中粗粒度动作包括阅读文档、编辑文档、观看视频、安装软件、浏览视频,细粒度动作包括使用word2007、excel2007、notepad++、notepad编辑文档)来远程控制阿里云vps,每次每个动作持续时间为30s,采集每个动作执行过程中的加密流量并为这些加密流量附加相应的行为标签。

通过机器学习方法对用户行为标签与加密网络流量模式之间的映射关系进行建模。首先将采集而来的带行为标签的远程桌面网络流量按照五元组(源ip地址、源端口号、目的ip地址、目的端口号、协议类型)分割成一条条独立的网络流;接着把每一条流分割成若干个流尖峰。流尖峰是指同一条流中相邻的若干数据包,这些相邻包的到达时间间隔都小于某个阈值。不同的时间阈值会导致同一条流不同的流尖峰的划分,通过实验得到如图2所示的不同时间阈值对行为识别准确率的影响,发现将该时间阈值设置为0.8s可取得最好的识别效果,。接着根据每个流尖峰的包长序列和包到达时间序列,从中提取66维统计特征得到向量化后的数据集,这些特征包括上述两个序列的从低阶到高阶的原点矩和中心矩,例如流包长序列的一阶中心矩、一阶原点矩、二阶中心矩、二阶原点矩、三阶中心矩、三阶原点矩、四阶中心矩、四阶原点矩、五阶中心矩以及五阶原点矩等。这样得到的标注数据集里面每个样本都是66维的向量,同时带有该样本的行为标签,每个样本对应一个流尖峰,样本的行为标签。随后将每个样本的统计特征都经过归一化的处理。

本发明将归一化后的数据集分为训练集、验证集和测试集。在训练阶段,使用多种机器学习模型(逻辑回归、支持向量机、梯度提升树、随机森林)训练样本标签到统计特征之间的映射关系。在测试阶段,为了提高检测的准确率,本方法将同一条流的多个流尖峰的预测结果看做一个整体,投票选择其中出现次数最多的标签作为这些流尖峰的预测标签。根据这些模型对用户行为检测的假阴率和准确率,选择最优模型即梯度提升树模型作为用户行为检测模型。

这四种典型的机器学习模型揭露出在远程桌面领域单纯使用加密手段是不足以保护用户的行为隐私的事实,远程桌面用户及开发商在今后需要采取相应的改善措施以保护行为隐私不被泄露。

本发明在windows7和windows10平台上,考察了六种常见的远程桌面软件(anydesk,connectwise,realvnc,zohoassist,mircords,teamviewer),收集了多名志愿者使用这些远程桌面软件执行日常办公动作的加密网络流量,这些动作由粗粒度动作和细粒度动作组成。其中粗粒度动作包括阅读文档、编辑文档、观看视频、安装软件、浏览视频,细粒度动作包括使用word2007、excel2007、notepad++、notepad编辑文档。通过长达一个月的采集时间,总共采集了10名志愿者共400g的远程桌面加密流量,构建了包含28320个样本的数据集。通过随机划分方法,将数据集80%用作训练集,10%用作验证集,10%用作测试集。分别使用逻辑回归、支持向量机、梯度提升树和随机森林构建分类模型,其中梯度提升树模型构建的分类器效果最好,在集成同一条流的多个流尖峰的分类结果后,梯度提升树模型对五类粗行为的准确率达到99.26%,对四类细行为的准确率达到99.15%。

以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1