一种基于样本流量分析的暗网发现、溯源方法及系统与流程

文档序号:17896650发布日期:2019-06-13 16:02阅读:1483来源:国知局
一种基于样本流量分析的暗网发现、溯源方法及系统与流程

本发明涉及数据安全领域,具体涉及一种基于样本流量分析的暗网发现及溯源方法及系统。



背景技术:

暗网,是隐藏在互联网的最深处,是一种被有意隐藏的内容,隐藏暗网的访问者信息、暗网的服务提供者信息,达到隐藏通信双方真实身份及传输内容的目标,使其不可被追踪。暗网(不可见网,隐藏网)不能通过超链接访问而需要通过动态网页技术访问的资源集合,不属于那些可以被标准搜索引擎索引的表面网络。暗网是深网(deepweb)的一个子集,属于深网的一小部分。据估计,暗网比表面网站大几个数量级。

tor洋葱路由器,是暗网通信的网络路由节点,这些节点主要是通过志愿者计算机节点组成,用户的所有网络流量将通过这些节点进行加密传输,使流量不能追溯到原始用户。洋葱路由器是一个类似于p2p原理的代理服务器,所有安装了洋葱路由的用户既是代理服务器的使用者也是代理服务器的提供者。洋葱路由器是由志愿者,花费自己的带宽建立起来的。

然而,tor的匿名服务已经违背了设计的初衷,并且被用于大量的非法活动,如销售毒品、买卖枪支、涉黄、涉赌、人口贩卖等,这些匿名服务可能被用于规避审查,并且也完全没有办法知道这些服务的提供者是谁,谁购买了这些服务。

对于庞大的“暗网”,搜索业界通行的策略主要有两种:其一,构建更有针对性的“暗网”爬虫,以便获取后台数据库;其二,与“暗网”网站合作,实现信息的对接和上浮。

对于第一种策略,它始终贯穿搜索引擎的发展过程。百度产品部相关人士对此表示,针对搜索引擎的升级和更新中,大部分与“暗网”问题有关,只不过对普通用户来讲,他们很难察觉。

第二种策略似乎更成效。不管是国外的谷歌、雅虎,还是国内的百度,都有针对性的计划,并且用户已经体验到了它们带来的变化。

对于暗网爬虫来说,一个简单粗暴的方式是:将各个输入框肯呢过的输入值组合起来形成查询,比如机票查询来说,将所有出发城市、所有目的城市和时间范围的选项一一组合,形成大量的查询,提交给垂直搜索引擎,从其搜索结果里提炼数据库记录。

google对此提出了解决方案,称之为富含信息查询模块技术。

假设为了描述一个职位,完整的查询由3个不同的属性构成:出发城市、到达城市和出发日期。如果在搜索引擎提交查询的时候,部分属性被赋予了值,而其他属性不赋值,则这几个赋值属性一起构成了一个查询模块。

如果模块包含一个属性,则称之为一维模块。图中模块1是一维模块,模块2和模块3是二维模块,模块4是三维模块。

模块1={出发城市}

模块2={出发城市,到达城市}

模块3={到达城市,出发日期}

模块4={出发城市,到达城市和出发日期}

对于某个固定的查询模块来说,如果给模块内每个属性都赋值,形成不同的查询组合,提交给垂直搜索引擎,观察所有返回页面的内容,如果相互之间内容差异较大,则这个查询模块就是富含信息查询模块。但是这将是一个庞大的查询组合基数,为了进一步减少提交的查询数目。google的方案使用了isit算法。

isit算法的基本思路是:首先从一维模块开始,对一维查询模块逐个查询,看其是否富含信息查询模块,如果是的话,则将这个一模模块扩展到二维,再次依次查询对应的二维模块,如此类推,逐步增加维数,直到再无法找到富含信息查询模块为止。通过这种方式,就可以找到绝大多数富含信息查询模块,同时也尽可能减少了查询总数,有效达到了目的。

然而现有技术中的暗网搜索技术,发现效率较低,而且运算复杂,无法实现暗网用户溯源。因此,我们迫切需要一种技术,可以高效率完成对暗网的发现,并完成暗网使用者及暗网服务提供身份识别的溯源技术。



技术实现要素:

为解决上述技术问题,本发明提供了一种基于样本流量分析的暗网发现及溯源方法,其特征在于,该方法包括以下步骤:

1)对暗网的用户终端植入木马,采集其上网行为通讯流量数据;

2)在暗网中设置受控的暗网路由节点,采集流量数据;

3)在暗网中设置受控的暗网服务器节点,采集流量数据;

4)通过采集的上述流量数据,实现对用户终端、暗网路由节点和暗网服务器节点之间的关联分析;

5)通过机器学习的方式对暗网的流量数据特征进行识别,并提取流量特征;

6)通过流量特征对流量数据进行匹配,实现暗网的发现及溯源。

根据本发明的方法,优选的,所述步骤1)对暗网的用户终端植入木马,采集其上网行为通讯流量数据具体包括:

对暗网用户终端植入木马,通过对该用户终端的国家进出口流量进行监测,如果发现该终端用户下载访问了暗网浏览器软件,则对其进行追踪并将该终端用户标识为潜在暗网用户,并通过木马植入技术发现其用户终端漏洞,监视其上网的浏览行为,采集其上网行为通讯流量数据。

根据本发明的方法,优选的,所述步骤3)设置受控的暗网服务器节点,采集流量数据具体包括:

通过在暗网网络中设置受控的路由节点,当有主机同其进行通讯时,采集netflow及网卡的原始流量信息。

根据本发明的方法,优选的,所述步骤3)设置受控的暗网服务器节点,采集流量数据具体包括:

通过在暗网中设置暗网服务器节点,当暗网服务器的开放资源被访问时,采集netflow及网卡的原始流量信息。

根据本发明的方法,优选的,所述步骤6)基于构建的暗网访问行为路径,达到暗网溯源的目的。

为解决上述技术问题,本发明提供了一种基于样本流量分析的暗网发现及溯源系统,该系统包括:暗网用户终端、暗网路由节点、暗网服务器;其特征在于,该系统还包括:

在暗网中设置受控路由节点、受控服务器、流量采集系统以及暗网流量关联分析处理系统;

通过对暗网的用户终端植入木马,流量采集系统采集其上网行为通讯流量数据;

流量采集系统采集受控暗网路由节点以及受控暗网服务器节点的流量数据;

将各流量数据发送给暗网流量关联分析处理系统,实现对用户终端、暗网路由节点和暗网服务器节点之间的关联分析;

暗网流量关联分析处理系统通过机器学习的方式对暗网的流量数据特征进行识别,并提取流量特征,通过流量特征对流量数据进行匹配,实现暗网的发现及溯源。

根据本发明的系统,优选的,流量采集系统通过对用户终端的国家进出口流量进行监测,如果发现该终端用户下载访问了暗网浏览器软件,则对其进行追踪并将该终端用户标识为潜在暗网用户,并通过木马植入技术发现用户终端漏洞,监视其上网的浏览行为,采集其上网行为通讯流量数据。

根据本发明的系统,优选的,通过在暗网网络中设置受控的路由节点,当有主机同其进行通讯时,流量采集系统采集netflow及网卡的原始流量信息;

通过在暗网中设置暗网服务器节点,当暗网服务器的开放资源被访问时,流量采集系统采集netflow及网卡的原始流量信息。

根据本发明的系统,优选的,暗网流量关联分析处理系统基于构建的暗网访问行为路径,达到暗网溯源的目的。

为解决上述技术问题,本发明提供了一种计算机可读存储介质,其特征在于,该介质包括计算机程序指令,通过执行所述计算机程序执行实现上述之一的方法。

采用本发明的技术方案,找到了一种具体可行的实施方法,突破暗网地址资源发现技术及溯源技术的世界性难题;通过对暗网的发现及溯源,完成对暗网非法行为的监控,有效打击恐怖活动。

附图说明

图1为本发明的系统架构图。

图2为本发明的方法流程图。

具体实施方式

随着系统的升级与漏洞的修补,入侵主机进而进行破坏的病毒攻击方式在攻击中所占比例逐渐减少,这些攻击转而改为恶意的消耗网络有限的资源或占用系统,进而破坏系统对外提供服务的能力;但传统的系统升级无法检测并预防此类攻击。针对此类攻击,业界提出了以检测网络数据流的方法来判断网络异常和攻击:借助实时的检测网络数据流信息,通过与历史记录模式匹配(判断是否正常)、或者与异常模式匹配(判断是否被攻击),让网络管理人员可以实时查看全网的状态,检测网络性能可能出现的瓶颈,并进行自动处理或告警显示,以保证网络高效、可靠地运转。

netflow提供网络流量的会话级视图,记录下每个tcp/ip事务的信息。也许它不能象tcpdump那样提供网络流量的完整记录,但是当汇集起来时,它更加易于管理和易读。netflow由cisco创造。

一个netflow流定义为在一个源ip地址和目的ip地址间传输的单向数据包流,且所有数据包具有共同的传输层源、目的端口号。

针对路由器送出的netflow数据,可以利用netflow数据采集软件存储到服务器上,以便利用各种netflow数据分析工具进行进一步的处理。

cisco提供了cisconetflowcollector(nfc)采集netflow数据,其它许多厂家也提供类似的采集软件。

暗网地址资源发现技术,是通过该技术主要解决暗网地址资源的发现问题,用以发现目前互联网中的暗网服务地址。

暗网能信实体追溯技术,是通过该技术主要解决暗网通信实体(暗网访问者、暗网服务提供者、暗网路由节点)难追溯的问题,实现暗网通信实体的追踪溯源。

下面结合附图,对本发明的具体实施方案进行介绍。

<系统架构>

如图1,本发明公开了一种基于样本流量分析的暗网发现及溯源系统,该系统包括:暗网用户终端、暗网路由节点、暗网服务器;此外,

在暗网中还设置了受控路由节点、受控服务器、流量采集系统以及暗网流量关联分析处理系统;

通过对暗网的用户终端植入木马,流量采集系统采集其上网行为通讯流量数据;

流量采集系统采集受控暗网路由节点以及受控暗网服务器节点的流量数据;

将各流量数据发送给暗网流量关联分析处理系统,实现对用户终端、暗网路由节点和暗网服务器节点之间的关联分析;

暗网流量关联分析处理系统通过机器学习的方式对暗网的流量数据特征进行识别,并提取流量特征,通过流量特征对流量数据进行匹配,实现暗网的发现及溯源。

流量采集系统通过对用户终端的国家进出口流量进行监测,如果发现该终端用户下载访问了暗网浏览器软件,则对其进行追踪并将该终端用户标识为潜在暗网用户,并通过木马植入技术发现用户终端漏洞,监视其上网的浏览行为,采集其上网行为通讯流量数据。

通过在暗网网络中设置受控的路由节点,当有主机同其进行通讯时,流量采集系统采集netflow及网卡的原始流量信息;

通过在暗网中设置暗网服务器节点,当暗网服务器的开放资源被访问时,流量采集系统采集netflow及网卡的原始流量信息。

暗网通信实体包括暗网用户、暗网路由节点、暗网服务器节点,为了达到溯源的目的,需要在暗网中搭建受控的暗网节点:

暗网用户端植入木马:通过对国家进出口的流量进行监测,如果发现有人下载访问暗网的浏览器软件则对其进行追踪,标识为潜在暗网用户,并通过木马植入技术发现其电脑终端漏洞,监视其上网的浏览行为,并回报给流量采集系统。

通过运营商的支持,获取国家进出口的流量,获取监控哪些暗网潜在客户在下载暗网访问软件客户端。

识别出流量特征之后,如果要达到完整的发现及溯源,必须采集全部流量,对其进行特征匹配。

受控暗网路由节点:通过在暗网网络中填加受控的路由节点,当有主机同其进行通讯时,其会将netflow及网卡的原始流量信息采集给流量采集系统。

受控暗网路由节点,是一台普通的服务器,其遵循tor网络协议,但是我们可以对该节点进行控制。

受控暗网服务器:通过在暗网中搭建暗网服务器节点,当有人访问暗网服务器开放的资源时,其会将netflow及网卡的原始流量信息采集给流量采集系统。

受控暗网服务器是一台普通的应用服务器,只是在服务输出时遵循tor网络协议。

这些系统所采集到的流量及netflow、暗网用户的访问行为数据将会统一上报给“流量采集系统”,其负责对这些流量进行采集和索引。

暗网的流量关联分析处理系统负责对收集的流量进行关联处理、特征学习,最终提取暗网的流量特征数据,对广域网中的流量进行识别,以达到暗网发现的目的。基于构建的暗网访问行为路径,达到暗网溯源的目的。

暗网的三个主要通信实体:暗网客户端、暗网路由节点、暗网服务节点之间存在通讯关系,要达到溯源的目的,必须将这三者的通信关系理清并进行关联处理。通过对这些流量进行基于有监督及无监督的机器学习算法,完成对流量特征的建模、识别、分析,完成对暗网流量特征的识别及特征学习,最终完成对广域网中的流量进行识别,达到暗网发现的目的。

在进行了暗网发现之后,暗网通信实体之间的通信关系,已经完全可以描绘出来,当对某个暗网的用户进行溯源时,则可以完整的构画出其在暗网的整个访问路径,从暗网的客户端到经过的路由节点,以及最后访问的暗网服务器。

<分析方法>

本发明提供了一种基于样本流量分析的暗网发现及溯源方法,该方法包括以下步骤:

1)对暗网的用户终端植入木马,采集其上网行为通讯流量数据;

2)在暗网中设置受控的暗网路由节点,采集流量数据;

3)在暗网中设置受控的暗网服务器节点,采集流量数据;

4)通过采集的上述流量数据,实现对用户终端、暗网路由节点和暗网服务器节点之间的关联分析;

5)通过机器学习的方式对暗网的流量数据特征进行识别,并提取流量特征;

6)通过流量特征对流量数据进行匹配,实现暗网的发现及溯源。

所述步骤1)对暗网的用户终端植入木马,采集其上网行为通讯流量数据具体包括:

对暗网用户终端植入木马,通过对该用户终端的国家进出口流量进行监测,如果发现该终端用户下载访问了暗网浏览器软件,则对其进行追踪并将该终端用户标识为潜在暗网用户,并通过木马植入技术发现其用户终端漏洞,监视其上网的浏览行为,采集其上网行为通讯流量数据。

所述步骤3)设置受控的暗网服务器节点,采集流量数据具体包括:

通过在暗网网络中设置受控的路由节点,当有主机同其进行通讯时,采集netflow及网卡的原始流量信息。

所述步骤3)设置受控的暗网服务器节点,采集流量数据具体包括:

通过在暗网中设置暗网服务器节点,当暗网服务器的开放资源被访问时,采集netflow及网卡的原始流量信息。

所述步骤6)基于构建的暗网访问行为路径,达到暗网溯源的目的。

如图2所示,首先,需要对暗网中的通信实体进行监控:针对暗网的用户通过木马植入方式来提取其上网行为通讯流量数据,针对暗网路由节点,可以搭建受控的暗网路由节点采集流量数据。搭建受控的暗网服务器节点,采集流量数据。

其次,对这些流量进行流量采集

接着,完成对不同通信节点之间流量关联分析。

然后,通过机器学习的方式对暗网的流量特征进行识别,并提取流量特征。

不同的网络应用都有不同的流量特征,如邮件协议和web协议,其流量特征是不同的,包括其对应的报文结构。

最后,通过流量特征对流量进行匹配,完成暗网的发现及溯源。

采用本发明的技术方案,找到了一种具体可行的实施方法,突破暗网地址资源发现技术及溯源技术的世界性难题;通过对暗网的发现及溯源,完成对暗网非法行为的监控,有效打击恐怖活动。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换以及改进等,均应保护在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1