一种固网WiFi环境下手机号码特征关键字自动提取方法与流程

文档序号:12278215阅读:622来源:国知局
一种固网WiFi环境下手机号码特征关键字自动提取方法与流程

本发明涉及网络安全审计和流量经营分析技术领域,特别是一种固网WiFi环境下手机号码特征关键字自动提取方法。



背景技术:

互联网应用的精确识别与分类是网络流量工程、网络管理与安全监测、网络设计与规划等网络行为的前提和基础。随着家庭自建WiFi、免费WiFi的出现,越来越多的移动终端(尤其是手机终端)通过WiFi接入固定宽带互联网来获得移动互联网内容。通信网络运营商通过对网络流量的解析与识别,达到网络安全审计和流量经营分析的目的。目前常用的互联网流量识别与分类方法包括:端口分析法、应用层净荷分析法、流量行为特征分析法、流统计特征识别法等。其中净荷分析法由于其识别精度高,并能实现早期检测,已成为运营商实际使用的主流方法。

特征字发现是净荷分析法中的基础,特征字的准确定义是提高识别准确度的关键。目前大多数的特征字发现是采用人工离线的方法进行:即通过人工模拟用户使用特定应用的行为,并进行抓包,通过经验和肉眼比对提取关键特征字,形成针对特定应用的特征字库。离线的人工比对获取特征字的方法工作量大、低效且模拟行为有限,且对人员的要求较高。



技术实现要素:

本发明所要解决的技术问题是克服现有技术的不足而提供一种固网WiFi环境下手机号码特征关键字自动提取方法,本方法实现了手机号码关键字的自动在线提取:通过hyperscan查找匹配数据包中的疑似手机号码来提取关键字;在此基础上通过时间维度、地理维度的关联数据分析进一步筛选出准确度较高的关键字作为自动提取的结果。

本发明为解决上述技术问题采用以下技术方案:

根据本发明提出的一种固网WiFi环境下手机号码特征关键字自动提取方法,包括以下步骤:

I、构建固网WiFi环境下手机号码特征关键字的感知与分析提取环境:包括部署在固网WiFi环境下的被动感知装置和集中部署的分析提取中心;

II、一次过滤丢弃http协议中除get和post类型报文以外的数据包,对剩下的数据包进行二次过滤,丢弃对图片资源进行请求的数据包;

III、通过初始化时配置在hyperscan数据库中手机号码字冠对步骤II中二次过滤后的数据包进行匹配,发现其中的疑似手机号码,并将该疑似手机号码及其前面的关键字与被动感知装置解析的时间戳、固网宽带账号、统一资源标识符、主机名、用户代理、上级引用源、cookie数据和报文体内容合并从而形成初步分析结果记录;其中,疑似手机号码是指以hyperscan数据库定义的七位字冠为首的十一位数字;

IV、分析提取中心对初步分析记录进行空间、时间维度的关联数据分析,进一步筛选出在一个固定宽带账号下出现在多个应用中的疑似手机号码关键字,且该关键字与固网wifi下宽带账号满足1对1或者多对1的关系。

作为本发明所述的一种固网WiFi环境下手机号码特征关键字自动提取方法进一步优化方案,所述步骤II中对图片资源进行请求的数据包是uri字段中以jpg、gif、png、js、jpeg作为扩展名的数据包。

作为本发明所述的一种固网WiFi环境下手机号码特征关键字自动提取方法进一步优化方案,所述步骤III中所述手机号码字冠是指符合我国手机号码编码规则的七位数字串;其中,七位数字串的前三位数字用于区别网络运营商,后四位数字用于地区编码。

作为本发明所述的一种固网WiFi环境下手机号码特征关键字自动提取方法进一步优化方案,所述步骤IV中,所述空间维度的关联数据分析是指通过不同WiFi环境下部署的被动感知装置入库的数据,构建出固网wifi下宽带账号与疑似手机号码之间1对1、1对多、多对1、多对多的对应关系表。

作为本发明所述的一种固网WiFi环境下手机号码特征关键字自动提取方法进一步优化方案,所述时间维度的关联数据分析是指在某一时间段内固定宽带账号下同一号码在不同应用中出现的频度分析。

本发明采用以上技术方案与现有技术相比,具有以下技术效果:

(1)本发明提供的手机号码特征关键字自动提取方法,利用了hyperscan可以同时对多个正则表达式进行并行匹配的特点缩减了手机号码的查找匹配时间;通过时间、地理维度的数据关联分析提高了手机号识别的准确度;在此基础上实现了手机号码对应特征关键字的自动提取与发现;

(2)本发明可应用于与手机号码类似的其它号码或数字对应特征关键字的自动提取。

附图说明

图1为本发明自动提取方法的实施步骤图;

图2为本发明利用抓包软件对数据包进行的字段解析截图;

图3为本发明中时间、空间数据关联分析的流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明:

结合图1所示:本发明提供一种固网WiFi环境下手机号码特征关键字自动提取方法,所述方法包括如下步骤:

1、构建固网WiFi环境下手机号码特征关键字的感知与分析提取环境:包括固网WiFi环境下的被动感知装置和集中部署的分析提取中心。被动感知装置与WiFi环境下的AP部署在同一局域网交换机下,通过端口镜像/分光等方式获取入/出本AP的所有业务流量,通过DPI等对业务报文进行解析获取必要的信息。分析提取中心统一集中部署,负责收集来自所有被动感知装置的初步感知结果,通过时间维度、地理维度的关联数据分析进一步筛选出准确度较高的关键字作为自动提取的结果。

2、通过一次过滤丢弃http协议中不满足条件的数据包,对剩下的数据包进行报文解析提取其中uri、host、ua、referer、cookie、content等字段内容;对报文进行二次过滤,丢弃uri字段中资源类型不符合的数据包。被动感知装置获取入/出本AP的所有业务流量数据包,由于http协议中只有get和post类型流量的数据包有可能包含手机号码等信息,因此首先通过一次过滤丢弃除get和post类型流量外的其它数据包以降低后面的分析提取工作量;一次过滤后对报文内容进行解析提取其中uri、host、ua、referer、cookie、content等字段内容,由于uri字段标识被请求的资源,因此可以从uri字段值的扩展名判断出请求资源的类型,对于uri字段中以jpg、gif、png、js、jpeg等结尾的数据包,由于其标识的是一个图片资源,因此这里进行二次过滤丢弃掉这些明显不包括手机号码资源的数据包,进一步减轻分析工作量,如图2所示。

3、通过初始化时配置在hyperscan数据库中手机号码字冠对数据包进行快速匹配,发现其中的疑似手机号码,并和其他相关信息形成初步分析结果记录送入分析提取中心进行进一步的分析。手机号码的前七位具有各自的意义,分析这七位字冠的含义并以正则表达式的方式进行离线描述,记入hyperscan数据库中用于手机号码的匹配。Hyperscan可以使用块模式、流模式等不同模式对用正则表达式定义的多个目标串进行快速匹配,大大缩短了匹配时间。匹配主要针对上述的uri、cookie、content等字段中的内容:凡内容中包含hyperscan数据库定义的七位字冠,则检查后四位是否是数字,若为非数字,则过滤掉;若都是数字,则将此十一位数字列为疑似手机号码,并将此疑似手机号码前的关键字提取下来。初步分析结果形成的记录包括:时间戳、固网宽带账号、疑似手机号码、关键字、uri、host、ua、referer、cookie、content等信息,每个WiFi环境下的被动感知装置将初步分析记录发送给分析提取中心做进一步的数据分析和清洗以提高关键字准确性。

4、对来自各被动感知装置的初步分析记录进行空间、时间维度的关联数据分析,进一步筛选出符合条件的关键字作为自动提取的结果。图3为本发明中时间、空间数据关联分析的流程图,其中时间维度的关联分析是指某一时间段内固定宽带账号下同一号码出现在不同应用中的频度。一般在离线号码判断中,认为在一段时间内,如果一个固定宽带账号下,一个号码出现在多个应用中,则认为该号码是一个与该宽带帐号绑定的用户手机号,其前缀是一个号码关键字的可能性很大。空间维度的关联分析是指通过入库的数据中宽带账号与疑似手机号码的对应关系,构建出固网wifi下宽带账号与疑似手机号码之间“1对1”、“1对多”、“多对1”、“多对多”的关系表。应用离线号码的分析规则,认为宽带账号与疑似手机号码之间“1对1”、“1对多”关系时疑似手机号码是真实号码的概率大于“多对1”、“多对多”时的概率。通过长时间的分析及对门限值的修正,最终形成真实手机号码的清单,与这些号码所关联的特征字也作为真实的关键字。

显然,以上所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1