一种基于时空相关性分析的身份识别方法及系统与流程

文档序号:20039120发布日期:2020-02-28 11:41阅读:572来源:国知局
一种基于时空相关性分析的身份识别方法及系统与流程

本发明涉及一种互联网应用技术领域和网络安全的身份识别管理方法,特别是涉及一种基于时空相关性分析的身份识别方法及系统。



背景技术:

随着互联网的快速普及和各种网络应用的不断出现,网络安全事件不断发生,网路安全已成为国家安全的重要内容,如何从加密业务中提取情报,对规范网路应用、净化网路环境以及保护网路安全具有重大意义。

传统网络安全和网络监管包括以下几种手段,一、开源情报,包括虚拟身份、威胁情报、潜在事件等;二、明文解析,包括dns、lot、gtp等协议解析;三、漏洞攻击,包括邮件、短信、app漏洞等。但随着加密技术的发展,传统的网络安全监管手段和能力难以有效的对数据进行监控和识别,如何从加密数据中获取有效信息成了研究网络安全方面技术的难点。

当前,色情类论坛和其它一些违法类网络应用主要采用https加密通讯,现有技术只能获取到访问者的ip和时间等信息,无法获取通讯内容,仅仅通过解析网络流量已经不能拿到有效信息来定位和识别用户身份,对于这类网络应用难以进行监管。



技术实现要素:

针对互联网应用中难以对重点账号进行身份识别的现状,本发明提供了一种基于时空相关性分析的身份识别方法及系统,解决了通过将实时网路流量解析和网页内容采集到的时间轴进行比对的身份识别的问题,其技术方案如下所述:

一种基于时空相关性分析的身份识别方法,包括以下步骤:

s1:实时流量分析模块通过分流设备,将网络流量接入到解析设备上;使用解析程序对流量数据进行分析,通过网页爬取提取上网时间轴信息,将解析的数据保存到数据库;

s2:时间轴比对任务模块创建时间轴比对任务,将任务信息封装成文件,搬运给网页内容采集模块;

s3:网页内容采集模块实时监控时间轴比对任务模块下发过来的文件,获取互联网应用的账号或者id信息;

s4:网页内容采集模块构建互联网应用模板,根据模板提取该账号的时间轴信息数据,将采集到的账号时间轴信息封装成文件,并下发给时间轴比对模块;

s5:时间轴比对模块对于时间轴结果文件进行时间轴文件解析以及比对,根据匹配度进行真实身份关联。

进一步的,在步骤s2中,包括以下几个步骤:

s21:时间轴比对任务模块初始化,对任务结果文件目录进行监听,对目录下有改动的文件进行读取;

s22:时间轴比对任务模块创建时间轴比对任务,填写网络论坛的账号信息并存入数据库;

s23:时间轴比对任务模块封装任务,发布任务文件,内容包括任务id和网络论坛的账号信息。

进一步的,在步骤s3中,包括以下几个步骤:

s31:网页内容采集模块初始化,对任务文件目录进行监听,对目录下有改动的文件进行读取;

s32:网页内容采集模块获取新的任务文件,创建任务线程,解析任务内容,获取网络应用类型和账号等信息;

s33:通过无头浏览器访问网络论坛,用预先申请号的账号登录网络论坛。

进一步的,在步骤s4中,包括以下几个步骤:

s41:通过无头浏览器访问该任务中账号的首页地址,对页面内容进行爬取;

s42:解析采集下来的页面内容,提取包括发布内容和时间点在内的信息;

s43:将提取到的信息封装成任务结果文件,发布给时间轴比对模块。

进一步的,步骤s5中,包括以下几个步骤:

s51:时间轴比对模块获取结果文件并进行解析,将时间轴信息存入数据库;

s52:开始进行任务比对,根据结果文件采集到的时间轴信息去数据库中查询捷信模块解析得到的数据,如果查询到,则将手机号提取出来,该手机号有可能与任务中的账号有关联,将手机号存入数据库;

s53:比对任务完成以后,统计手机号出现的次数,次数越多说明手机号和任务中的账号关联度越高,将手机号举荐出来;

s54:关联真实身份库,通过手机号获取到用户姓名和身份证号等信息。

进一步的,步骤s4中,所述互联网应用模板是指包括网页文档对象模型的整体结构和提取的属性名称。

其中,步骤s52的操作之前,解析模块已经将手机号和相关操作时间点存入数据库。

一种基于时空相关性分析的身份识别系统,包括以下模块:

1)实时流量分析模块:通过分流设备,将境内流量接入到解析设备,通过机器学习算法构建分类模型,提取时间轴数据,将解析到的数据存入到数据库中;

2)网页内容采集模块:根据账号或者id对互联网应用的内容进行采集,通过采集模板将内容中的时间轴信息提取出来,并封装成文件;

3)时间轴比对任务模块:创建时间轴比对任务,封装任务,发送任务文件到网页内容采集模块;

4)时间轴比对模块:将网页内容采集模块采集到的时间轴信息和实时流量分析到的时间轴信息进行比对,举荐出互联网应用账号或id的真实身份信息并进行验真。

实时流量分析模块包括依次相连接的流量接入子模块、数据解析子模块和数据入库子模块。

所述基于时空相关性分析的身份识别方法能够有效的对境内单个或多个网络论坛虚拟身份目标进行快速的真实身份(姓名、电话、证件信息等)分析及举荐,且具有隐蔽性,该操作不会被网络用户发现。

附图说明

图1是本发明中对于实时数据流的解析流程图;

图2是本发明中的时间轴比对任务流程图。

具体实施方式

本发明提供了一种基于时空相关性分析的身份识别方法及系统,所述基于时空相关性分析的身份识别系统包括以下三个模块:

1、实时流量分析模块:

包括依次相连接的流量接入子模块、数据解析子模块和数据入库子模块。

如图1所示,接入分流设备,用户相关操作都将被获取,如登录色情类网络论坛、发布信息等,所述流量接入子模块用于接入网络用户访问色情类网络的实时流量数据,发送到解析设备上;通过解析设备的数据解析子模块进行解析,采用机器学习算法构建分类模型,使用解析程序对流量数据进行分析,提取上网时间轴信息,即分析用户的上网类型和时间点,获取到手机号或者上网账号的时间轴数据;最后将解析的数据通过数据入库子模块保存到数据库。

其中实时流量分析模块包括以下功能:

a1.流量接入:通过分流设备,将境内流量接入到我方的解析设备;

a2.数据解析:通过机器学习算法构建分类模型(按照网络会话对数据包进行分组;提取数据包应用层加密内容长度,按照对应会话组构建列表,每个会话对应一个长度列表,列表构建顺序对应会话的数据流顺序;长度数值有正负区分,区分依据具有流量的交互模式;对长度列表按照滑动窗口的方式进行切分提取等长的数组,数值为长度值,并按照数组的正负号组合类型进行区分,构建完整数据集;完整数据集分别通过pearson相关系数和余弦相似度的方式进行分类,对相似度满足一定阈值的数据,认为该类数据为一组相似数据),提取时间轴数据;

a3.数据入库:将解析到的数据存入到数据库中。

2、网页内容采集模块:根据账号或者id对互联网应用的内容进行采集,通过网页爬取将内容中的时间轴信息提取出来,并封装成文件。

其中网页内容采集模块包括以下功能:

b1.任务文件读取:实时监控时间轴比对任务模块下发过来的文件,获取互联网应用的账号或者id信息;

b2.账号内容采集:构建互联网应用模板,模板包括网页dom(文档对象模型)的整体结构和提取的属性名称等,根据模板提取该账号的时间轴信息数据;

b3.任务结果文件下发:将采集到的账号时间轴信息封装成文件,并下发给时间轴比对模块。

3、时间轴比对任务模块:创建时间轴比对任务,封装任务,发送任务文件到网页内容采集模块;

其中时间轴比对任务模块包括以下功能:

c1.任务文件下发:创建时间轴比对任务,将任务信息封装成文件,下发给网页内容采集模块。

4、时间轴比对模块:将网页内容采集模块采集到的时间轴信息和实时流量分析到的时间轴信息进行比对,可以举荐出互联网应用账号或id的真实身份信息,并可以进行验真。

其中时间轴比对模块包括以下功能:

c2.时间轴文件解析:实时监控网页内容采集模块下发过来的时间轴结果文件,解析时间轴信息,并封装;

c3.时间轴比对:将c2中解析到的时间轴数据同实时流量分析模块获取到的时间轴数据进行比对,将匹配上的手机号举荐出来,匹配度越高,排名越靠前;

c4.真实身份关联:将真实身份信息存入到数据库,可以通过手机号获取到姓名、身份证号等信息。

所述时间轴比对任务模块和时间轴比对模块结合,与网页内容采集模块相配合,实现对境内单个或多个网络论坛虚拟身份目标进行快速的真实身份分析及举荐的功能。

通过基于时空相关性分析的身份识别系统的识别方法包括以下步骤:

s1:实时流量分析模块通过分流设备,将网络流量接入到解析设备上;使用解析程序对流量数据进行分析,提取上网时间轴信息,将解析的数据保存到数据库;

s2:时间轴比对任务模块创建时间轴比对任务,将任务信息封装成文件,搬运给网页内容采集模块;

s3:网页内容采集模块实时监控时间轴比对任务模块下发过来的文件,获取互联网应用的账号或者id信息;

s4:网页内容采集模块构建互联网应用模板,根据模板提取该账号的时间轴信息数据,将采集到的账号时间轴信息封装成文件,并下发给时间轴比对模块;

s5:时间轴比对模块对于时间轴结果文件进行时间轴文件解析以及比对,根据匹配度进行真实身份关联。

其中,

在步骤s2中,包括以下几个步骤:

s21:时间轴比对任务模块初始化,对任务结果文件目录进行监听,对目录下有改动的文件进行读取;

s22:时间轴比对任务模块创建时间轴比对任务,填写网络论坛的账号信息并存入数据库;

s23:时间轴比对任务模块封装任务,发布任务文件,内容包括任务id和网络论坛的账号信息。

在步骤s3中,包括以下几个步骤:

s31:网页内容采集模块初始化,对任务文件目录进行监听,对目录下有改动的文件进行读取;

s32:网页内容采集模块获取新的任务文件,创建任务线程,解析任务内容,获取网络应用类型和账号等信息;

s33:通过无头浏览器访问网络论坛,用预先申请号的账号登录网络论坛。

在步骤s4中,包括以下几个步骤:

s41:通过无头浏览器访问该任务中账号的首页地址,对页面内容进行爬取;

s42:解析采集下来的页面内容,提取发布内容和时间点等信息;

s43:将提取到的信息封装成任务结果文件,发布给时间轴比对模块。

步骤s5中,包括以下几个步骤:

s51:时间轴比对模块获取结果文件并进行解析,将时间轴信息存入数据库;

s52:开始进行任务比对,根据结果文件采集到的时间轴信息去数据库中查询解析模块解析得到的数据(在这之前解析模块已经将手机号和相关操作时间点存入了数据库),如果查询到,则将手机号提取出来,该手机号有可能与任务中的账号有关联,将手机号存入数据库;

s53:比对任务完成以后,统计手机号出现的次数,次数越多说明手机号和任务中的账号关联度越高,将手机号举荐出来;

s54:关联真实身份库,通过手机号获取到用户姓名和身份证号等信息。

所述基于时空相关性分析的身份识别方法能够有效的对境内单个或多个网络论坛虚拟身份目标进行快速的真实身份(姓名、电话、证件信息等)分析及举荐,且具有隐蔽性,该操作不会被网络用户发现。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1