一种网吧客户机IP范围识别方法与流程

文档序号:16848929发布日期:2019-02-12 22:34阅读:509来源:国知局
一种网吧客户机IP范围识别方法与流程

本发明涉及网吧行为监管领域,具体的说是涉及一种网吧客户机ip范围识别方法。



背景技术:

文网卫士监控系统(路由器、服务端、网吧助手、终端客户端)是文化部门依法行使监管职责的重要技术手段,为了提高执法人员对网吧行为监管的力度和对网吧的监管效率,则必须保证文网卫士监管系统(路由器、服务端、网吧助手、终端客户端)的正确安装。而对于安装率不达标的网吧,很大程度上降低了执法人员对网吧行为监管的力度和对网吧的监管效率。针对这种情况,提出通过断网的惩罚措施来提升网吧安装率。而网吧存在客户机和非客户机,客户机为网吧的上网电脑、非客户机有如:无盘服务器、摄像头、收银机、wifi等设备,首先非客户机为不用安装客户端的设备,其次非客户机重启耗时对网吧经营有一定影响,故断网只考虑断网吧的客户机设备,故需识别出客户机地址,地址有mac和ip地址,因断网策略仅能针对ip进行设置,故需要识别客户机ip地址。



技术实现要素:

为解决上述背景技术中提出的问题,本发明的目的在于提供一种网吧客户机ip范围识别方法。

为实现上述目的,本发明采取的技术方案为:

本发明提供了一种网吧客户机ip范围识别方法,包括以下步骤:

(1)数据采集:有两种数据采集方式,其中,第一种数据采集是通过路由器每隔半小时监控网吧在线ip地址、mac地址和是否安装客户端;第二种数据采集是网吧中安装了客户端的电脑,每次开机关机都会通过客户端上传上网人员信息、客户机ip信息,数据采集次数不固定,且为累计数据;

(2)获取全部ip和安装客户端ip:通过步骤(1)中的两种数据采集方式获得数据后合并得到网吧的全部ip,并从网吧全部ip中去识别客户机ip范围;将两种数据中安装客户端的ip进行合并,得到网吧全部安装客户端的ip;

(3)识别客户机ip的规则:筛选出mac地址对应出现的且mac地址被采集比例≤β的mac地址,则mac地址对应的ip地址即为客户机ip,其中和β为待确定的参数;

(4)需断网的客户机ip范围的识别

根据步骤(3)的客户机ip规则识别出客户机ip,进而识别出需断网的客户机ip范围,包括下述子步骤:

(4-1)确定样本:选择湖北省、湖南省、广东省、四川省中受文网卫士监管且客户端安装率为100%的所有网吧在某一时间段的第一种采集数据和第二种采集数据作为样本;

(4-2)确定网吧全部ip和真实客户机ip:采用步骤(2)的方法获取网吧全部ip和全部安装客户端的ip,而安装率100%的网吧,即每台客户机都安装客户端,全部安装客户端的ip即为客户机ip的全量范围,即网吧的真实客户机ip。

(4-3)提取变量:使用步骤(1)中的第一种采集数据,能每隔半小时获取网吧在线mac地址和ip地址,统计出样本中每个网吧每个mac地址对应的ip数以及mac地址被采集的次数;

(4-4)预测客户机ip:根据(4-3)中提取的变量,筛选出mac地址对应出现的且mac地址被采集比例≤β的mac地址,将其对应的ip地址当做预测的客户机ip;其中,取值范围大于等于1,β取值范围在0-1之间;

(4-5)确定客户机ip范围:剔除预测的客户机ip中不属于连续区间范围内的离群ip值,对步骤(4-4)中使用和β参数得到的客户机ip进行分段,根据取值比较连续的ip分成一段,ip间隔较大的进行分段的原则,确定分段间隔gap1和段内数量gap2,得到不同的ip段并确定划分的段是否为非离群的个体或区间,也即只有达到一定样本量的区间才被当做客户机ip范围;

(4-6)预测正确率:将根据步骤(4-1)至(4-5)后所得的预测的客户机ip范围与真实客户机ip使用第一正确率和第二错误率来衡量最终的正确率;

其中,第一种正确率:真实客户机ip中被预测为客户机ip的比例=真实客户机中落入预测的客户机ip范围中的ip数/真实客户机中ip总数;

第二种错误率:预测的客户机ip中非真实客户机ip的比例=预测的客户机ip在预测的客户机ip范围中但不在真实客户机ip中的ip总数/预测的客户机ip在预测的客户机ip范围中的总数;

(4-7)调参:根据(4-6)中的公式计算所有网吧所有网段的第一种正确率的均值和第二种错误率的均值,去衡量整体预测效果;其中,第一个正确率越高、第二个错误率越低表明预测效果越好;

(5)根据步骤(4-1)至(4-7)循环设置β、gap1和gap2的参数,并从整体预测效果最佳的角度确定β、gap1和gap2的取值,确定四个参数后,使用和β参数筛选mac地址对应出现的且mac地址被采集比例≤β的mac地址,其对应的ip地址即为预测的客户机ip,然后将预测的客户机ip由小到大排序,将相邻间隔超过gap1的进行分段,将ip数量超过gap2的段当做客户机ip范围。

上述技术方案中,第一种采集方式的具体方法为:路由器通过udp广播包通知客户端,客户端收到广播包后回应约定的消息给路由器,路由器根据客户端的回应来判断是否安装,并将网吧在线mac地址、ip地址和是否安装客户端的标识变量上传到hadoop平台,一天共采集网吧48次数据。

上述技术方案中,所述mac地址被采集比例为在第一种数据采集中mac地址被采集的次数与固定采集次数的比值。

上述技术方案中,以1为间隔在[1,3]间取值;β以0.05为间隔在[0.55,0.9]间取值,gap1以5为间隔在[5,25]间取值;gap2以1为间隔在[5,15]间取值。

上述技术方案中,确定的β、gap1和gap2的最佳参数为下述参数组合中的任意一个,包括:

β=0.75、gap1=20、gap2=14;

β=0.7、gap1=15、gap2=13;

β=0.75、gap1=15、gap2=14;

β=0.75、gap1=20、gap2=15;

β=0.8、gap1=15、gap2=14

β=0.75、gap1=15、gap2=15;

β=0.8、gap1=15、gap2=15。

与现有技术相比,本发明的有益效果是:

本发明建立了网吧客户机ip范围与全部ip之间的识别规则,识别出网吧的客户机ip范围,从而用于对安装率不达标的网吧进行客户机ip断网。

1、将第一种数据采集方式与第二种数据采集方式合并应用,能够更全面的覆盖网吧所有设备的ip以及已经安装客户端的客户机ip,对于安装率100%的网吧,已经安装客户端的客户机ip即为真实客户机ip,在获取全部ip和真实客户机ip的情况下,使用有监督的识别方法,能够提高识别客户机ip的准确度。

2、循环设置β、gap1和gap2参数,在每组参数中,使用和β参数筛选出客户机ip,再通过gap1和gap2找到客户机ip范围,跟真实客户机ip进行对比,计算第一正确率和第二错误率。从整体预测效果最佳的角度确定β、gap1和gap2参数,使用最佳参数能提高客户机ip的识别准确性,从而提高了执法人员对网吧行为监管的力度和对网吧的监管效率。

附图说明

图1为实施例1中第一种正确率和第二种错误率的关系图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合附图和具体实施方式,进一步阐述本发明是如何实施的。

本发明提供了一种网吧客户机ip范围识别方法,包括以下步骤:

(1)数据采集:有两种数据采集方式,其中,第一种数据采集是通过路由器每隔半小时监控网吧在线ip地址、mac地址和是否安装客户端;第一种采集方式的具体方法为:路由器通过udp广播包通知客户端,客户端收到广播包后回应约定的消息给路由器,路由器根据客户端的回应来判断是否安装,并将网吧在线mac地址、ip地址和是否安装客户端的标识变量上传到hadoop平台,一天共采集网吧48次数据。

第二种数据采集是网吧中安装了客户端的电脑,每次开机关机都会通过客户端上传上网人员信息、客户机ip信息,数据采集次数不固定,且为累计数据;

以上两种数据来源,当数据采集时间足够长时,比如半个月,第一种能获取网吧全部ip,包括:已安装客户端的客户机ip和未安装客户端的ip(可能为客户机或非客户机),原因是时间足够长时,网吧的每台设备(可能为电脑,也可能为摄像头等非客户机)都应该有被使用过,若被使用过则一定会被识别出ip,若长时间未在线则可认为该设备基本处于闲置的状态,做断网策略时可以不予考虑,也即不用识别该设备为客户机ip或非客户机ip。

同样的,采集时间足够长时,全部非闲置的客户机都应当被使用过,则第二种能获取全部已安装客户端的客户机ip。

将第一种与第二种合并,能够更全面的覆盖网吧所有设备的ip以及已经安装客户端的客户机ip,故从第一种与第二种数据合并得到的网吧全部ip中去识别出客户机ip范围。

(2)获取全部ip和安装客户端ip:通过步骤(1)中的两种数据采集方式获得数据后合并得到网吧的全部ip,并从网吧全部ip中去识别客户机ip范围;将两种数据中安装客户端的ip进行合并,得到网吧全部安装客户端的ip;

(3)识别客户机ip规则:筛选出mac地址对应出现的且mac地址被采集比例≤β的mac地址,mac地址对应的ip地址即为客户机ip,其中和β为待确定的参数;

(4)需断网的客户机ip范围的识别

根据步骤(3)的客户机ip规则识别出客户机ip,进而识别出需断网的客户机ip范围,包括下述子步骤:

(4-1)确定样本:选择湖北省、湖南省、广东省、四川省中受文网卫士监管且客户端安装率为100%的所有网吧在某一时间段的第一种采集数据和第二种采集数据作为样本;

(4-2)确定网吧全部ip和真实客户机ip:采用步骤(2)中的数据采集方法获取网吧全部ip和全部安装客户端的ip;而安装率100%的网吧,即每台客户机都安装客户端,全部安装客户端的ip即为客户机ip的全量范围,即网吧的真实客户机ip;

其中,根据数据来源的说明可知,第一种与第二种数据合并能获得网吧全部ip,包括:已安装客户端的客户机ip、未安装客户端的ip(可能为客户机或非客户机),当网吧客户端安装率较低时,即不是每台客户机都安装了客户端,则获取到的未安装客户端的ip会包含部分客户机,而当网吧客户端安装率100%时,每台客户机都安装了客户端,则检测到的已安装客户端的客户机ip即为客户机ip的全量范围。即只有安装率100%的网吧,能够获得客户机ip的真实范围;

(4-3)提取变量:根据步骤(1)中的第一种采集数据,能每隔半小时获取网吧在线mac地址和ip地址,统计出样本中每个网吧每个mac地址对应的ip数以及mac地址被采集的次数;

(4-4)预测客户机ip:根据(4-3)中提取的变量,筛选出mac地址对应出现的且mac地址被采集比例≤β的mac地址,将其对应的ip地址当做预测的客户机ip;其中,取值范围大于等于1,β取值范围在0-1之间;

(4-5)确定客户机ip范围:剔除预测的客户机ip中不属于连续区间范围内的离群ip值,对步骤(4-4)中使用和β参数得到的客户机ip进行分段,根据取值比较连续的ip分成一段,ip间隔较大的进行分段的原则,确定分段间隔gap1和段内数量gap2,得到不同的ip段并确定划分的段是否为非离群的个体或区间,也即只有达到一定样本量的区间才被当做客户机ip范围;

(4-6)预测正确率:将根据步骤(4-1)至(4-5)后所得的预测的客户机ip范围与真实客户机ip使用第一正确率和第二错误率来衡量最终的正确率;

其中,第一种正确率:真实客户机ip中被预测为客户机ip的比例=真实客户机中落入预测的客户机ip范围中的ip数/真实客户机中ip总数;

第二种错误率:预测的客户机ip中非真实客户机ip的比例=预测的客户机ip在预测的客户机ip范围中但不在真实客户机ip中的ip总数/预测的客户机ip在预测的客户机ip范围中的总数;

(4-7)调参:根据(4-6)中的公式计算所有网吧所有网段的第一种正确率的均值和第二种错误率的均值,去衡量整体预测效果;其中,第一个正确率越高、第二个错误率越低表明预测效果越好;

(5)根据步骤(4-1)至(4-7)循环设置β、gap1和gap2的参数,并从整体预测效果最佳的角度确定β、gap1和gap2的取值,确定四个参数后,使用和β参数筛选mac地址对应出现的且mac地址被采集比例≤β的mac地址,其对应的ip地址即为预测的客户机ip,然后将预测的客户机ip由小到大排序,将相邻间隔超过gap1的进行分段,将ip数量超过gap2的段当做客户机ip范围。

本发明中,所述采集比例为在第一种数据采集中mac地址被采集的次数与固定采集次数的比值。

本发明中,以1为间隔在[1,3]间取值;β以0.05为间隔在[0.55,0.9]间取值,gap1以5为间隔在[5,25]间取值;gap2以1为间隔在[5,15]间取值。

本发明中,确定的β、gap1和gap2的最佳参数为下述参数组合中的任意一个,包括:

β=0.75、gap1=20、gap2=14;

β=0.7、gap1=15、gap2=13;

β=0.75、gap1=15、gap2=14;

β=0.75、gap1=20、gap2=15;

β=0.8、gap1=15、gap2=14

β=0.75、gap1=15、gap2=15;

β=0.8、gap1=15、gap2=15。

实施例1

本实施例使用20180709-20180723期间共15天的采集数据,对湖北省、湖南省、广东省、四川省中受文网卫士监管且客户端安装率为100%的所有网吧且ip数大于2的网段的全部ip和真实客户机ip进行有监督的识别训练,筛选mac地址对应出现的且mac地址被采集比例≤β的mac地址,从而筛选出客户机ip,再使用gap1和gap2参数识别出客户机ip范围,将其与真实客户机ip进行对比,以客户机ip范围预测正确率最佳的角度确定四个参数。有监督的识别训练需要具备:全部客户机ip、真实客户机ip、mac地址对应ip数及mac地址采集次数三种数据条件。具体方法如下:

一种网吧客户机ip范围识别方法,包括以下步骤:

(1)数据采集、获取全部ip和安装客户端ip:通过两种数据采集方式获得数据后合并得到网吧全部ip,并从网吧全部ip中去识别客户机ip范围;将两种数据中安装客户端的ip进行合并,得到网吧全部安装客户端的ip;

其中,第一种数据采集是通过路由器每隔半小时监控网吧在线ip地址、mac地址和是否安装客户端;第一种采集方式的具体方法为:路由器通过udp广播包通知客户端,客户端收到广播包后回应约定的消息给路由器,路由器根据客户端的回应来判断是否安装,并将网吧在线mac地址、ip地址和是否安装客户端的标识变量上传到hadoop平台,一天共采集网吧48次数据。

第二种数据采集是网吧中安装了客户端的电脑,每次开机关机都会通过客户端上传上网人员信息、客户机ip信息,数据采集次数不固定,且为累计数据;

(2)识别客户机ip规则:筛选出mac地址对应出现且mac地址被采集比例≤β的mac地址,则mac地址对应的ip地址即为客户机ip,其中和β为待确定的参数;

设备地址分mac地址(物理地址)和ip地址,mac地址属于设备唯一标识,是固定的,但ip地址由网络位置决定的,非设备的唯一标识。识别出客户机的mac地址做断网策略或许会更准确,但因断网策略仅能针对ip地址进行设置,故需找出客户机ip。

但mac地址与ip地址间存在一定的对应关系,如wifi设备(非客户机),能被多个用户的手机设备使用,也即wifi设备的mac地址会对应很多个ip地址,而客户机、监控、收银机、服务器等设备,ip地址相对较稳定,并不会频繁变动,mac地址对应的ip地址个数较少,故筛选出ip数较少的mac地址,其对应的ip地址非wifi设备,然后,再结合时长连续性筛选出客户机,原因为:服务器、监控、收银机等非客户机设备,并不会频繁的开机关机,会在一个较长段时间内一直在线,而客户机主要用于用户上网,用户上网大概在几个小时以内,也即客户机不会在一个较长的时间段内一直在线,数据表现为:

在第一种数据采集中,同一采集时间段内,非客户机mac地址被采集到的次数更多,客户机mac地址被采集到的次数相对较少,将采集次数少的mac地址对应的ip地址当做客户机ip。

故客户机有以下两个特征:1、mac地址对应的ip个数更少;2、第一种数据采集中,客户机mac地址被采集的次数更少。筛选出mac地址对应出现的且mac地址被采集比例≤β的mac地址,mac地址对应的ip地址即为客户机ip,其中和β为待确定的参数。mac地址的采集比例=被采集的次数/固定采集次数(第一种数据采集的采集次数)。

(3)需断网的客户机ip范围的识别

根据步骤(2)的客户机ip规则识别出客户机ip,进而识别出需断网的客户机ip范围,包括下述子步骤:

(3-1)确定样本、获取网吧全部ip和全部安装客户端的ip:选择湖北省、湖南省、广东省、四川省中受文网卫士监管且客户端安装率为100%的所有网吧在20180709-20180723期间的数据作为样本,采用步骤(1)中的数据采集方法获取网吧全部ip和全部安装客户端的ip;

如表1所示,为部分网吧的第一种(a)数据和第二种(b)数据中安装了客户端的ip,如网吧4302810044的网段192.168.2,ip_addressa与ip_addressb合并后得到的192.168.2.2-21范围间的ip为安装了客户端的ip,又因为筛选的安装率为100%的网吧,故192.168.2.2-21范围间的ip即为网吧4302810044在网段192.168.2中的真实客户机ip范围;另外,如网吧4419710014存在两个网段192.168.1、192.168.0,首先192.168.1的网段,仅192.168.1.1的ip安装了客户端,为客户机真实ip,经查询该网吧该网段仅有192.168.1.1,对于这种网段内的ip数过少的,不适合参与模型计算,主要是ip数少的网段,不易建立客户机ip与全部ip之间的识别规则,偶然性太多,可能是全部为客户机、也可能全部不为客户机或者随机的某几个为客户机,而ip较多的网段,为了便于管理,网吧业主在设置客户机和非客户机时,一般会划分范围,某个范围内属于客户机,另个范围属于非客户机,而不会将客户机与非客户机随机的混合在一起,也即具有一定的设置规则;故筛选ip数大于2的网段识别客户机ip范围。

表1部分网吧的第一种(a)数据和第二种(b)数据中安装了客户

端的ip

(3-2)提取变量:根据步骤(1)中的第一种采集数据,能每隔半小时获取网吧在线mac地址和ip地址,统计出样本中每个网吧每个mac地址对应的ip数以及mac地址被采集的次数;因采集时长共15天,第一种数据每天采集48次,故每个网吧最多采集720次。如表2所示,为部分网吧部分mac地址的指标数据,其中ip_num表示mac地址对应的ip数,online_count表示mac地址被采集的次数,ip_address表示mac地址对应出现的ip地址,因每次采集数据均会采集mac和ip地址,当ip地址变动时,mac地址不会变动,故会存在一个mac地址对应多个ip地址的情况,ip_address即汇总了mac地址对应的所有出现过的ip地址。

表2部分网吧部分mac地址的指标数据

以上三种mac地址属于比较典型的三种特征,第一种:mac地址为40-c6-2a-85-58-2e,对应的ip数较多,属于之前提到了wifi设备的特征,同一mac被多个设备使用;第二种:mac地址为b8-97-5a-64-24-bb,mac地址与ip地址唯一对应且采集次数并不算多,仅60%的采集比例(437/720),比较像客户机ip;第三种:mac地址为40-8d-5c-99-f4-35,mac地址与ip地址唯一对应且采集次数很多,达99.6%(717/720),即15天中,每隔半小时采集一次数据,该mac地址均在线,比较像服务器之类的非客户机ip。

故将且online_count/固定采集次数≤β的当做客户机。因一个mac地址至少对应出现过一个ip地址,故取值范围大于等于1;因网吧固定采集次数为720次,而online_count并不能很直观的体现mac地址被采集的算多还是少,故将β作为采集比例,也即将且online_count/720≤β的mac地址对应的ip地址当做客户机,β取值范围在0-1之间,和β需确定最佳参数使得客户机ip的预测效果最佳。

(3-3)预测客户机ip:根据(3-2)中提取的变量,筛选出mac地址对应出现的且mac地址被采集比例≤β的mac地址,将其对应的ip地址当做预测的客户机ip;其中,取值范围大于等于1,β取值范围在0-1之间;

且β=0.7为例,筛选ip_num≤1且online_count≤0.7的mac_address,将其对应的ip_address当做客户机ip,并将网吧的所有客户机ip按照网段分别汇总,得到客户机ip估计值ip_address_e,并与每个网吧的每个网段的真实客户机ip进行对比,其中真实客户机ip即为上述中的ip_addressa与ip_addressb的并集。如表3所示,为部分网吧部分网段的估计与真实的客户机ip。

表3部分网吧部分网段的估计与真实的客户机ip

从以上结果中可以看出估计的客户机ip大部分与真实客户机ip吻合,说明使用mac地址对应的ip数、mac地址被采集的次数去识别客户机ip具有一定的合理性。从真实客户机ip中可以看出,客户机ip是在某个范围内的连续取值或者非连续但小间断的取值,可以认为客户机ip是存在一个范围的。而估计的客户机ip也大致都在连续范围内,如网吧4202020084的网段192.168.0,估计的客户机ip基本都落在1-96范围间且取值连续,133、218比较脱离于该范围,属于比较特殊的存在,其更可能是非客户机ip,也即可能在收银机之类的非客户机上安装了客户端,可以认为该网吧该网段的客户机ip范围为192.168.0.1-96;网吧4202030021的网段192.168.1,估计的客户机ip大部分落在100-121、150-175之间,65、201均不在这两个连续或近似连续区间内,因从真实客户机ip中可大概看出客户机ip落在一个连续范围内,故65、201脱离连续区间,并不将其当做客户机ip,而150-175区间,后续通过调参(β、gap1和gap2)使整体预测效果最佳的角度去确定其是否为客户机ip范围;网吧4302810103的网段192.168.0,估计的客户机ip落在2-51的连续范围内,可以认为该网吧的客户机ip范围为192.168.0.2-51;网吧4311030107的网段192.168.1,估计的客户机ip主要落在1-74的连续范围内,244比较脱离该连续范围,并不将其当做客户机ip。

可以看出使用和β筛选出客户机ip后,会存在一定的估计误差,这种误差主要来源于:有些是非客户机的设备安装了客户端,比如收银机安装客户端,但非用户上网设备,非客户机,但被认为是客户机(因为一般只有客户机才安装客户端),即ip_addressab当真实客户机ip也存在一定误差;另外某些非客户机mac可能开机时间并没有那么长,或者采集的那段时间并不是一直在线,导致online_count的采集比例在的阈值β以下。故基于这些原因,将估计得到的客户机ip不属于连续区间范围内的离群ip值剔除。

(3-4)确定客户机ip范围:剔除预测的客户机ip中不属于连续区间范围内的离群ip值,对步骤(3-3)中使用和β参数得的客户机ip进行分段,根据取值比较连续的ip分成一段,ip间隔较大的进行分段的原则,确定分段间隔gap1和段内数量gap2,得到不同的ip段并确定划分的段是否为非离群的个体或区间,也即只有达到一定样本量的区间才被当做客户机ip范围;

离群即离ip取值数量较多的连续区间比较远,而独自或者与其他ip又难以形成具有一定ip数量的连续区间。在确定离群之前需要先将ip分段,将取值比较连续的ip分成一段,ip间隔较大的进行分段。

假设以20作为分段间隔(gap1),以表3中的网吧4202030021的网段192.168.1估计出的客户机ip为例,65与100、121与150、175与201之间均间隔超过20,在两两之间进行分段,最后得到的段为65、[100,121]、[150,175]、201,每个段内的样本量分别为:1、18、11、1,离群表示不能独自成段或段内样本量过少,65和201独自不能成段,不被当做客户机ip,而[150,175]是否成段主要取决于11的样本量是否被当做一个段,也即11是否达到了成段的数量临界值(gap2),该临界值由后续调参确定。

从以上例子可知,得到客户机ip范围除了需要确定和β参数,也需要确定分段间隔gap1和段内数量gap2,得到不同的ip段并确定划分的段是否为非离群的个体或区间,也即只有达到一定样本量的区间才被当做客户机ip范围。

(3-5)预测正确率:将根据步骤(3-1)至(3-4)后所得的预测的客户机ip范围与真实客户机ip使用第一正确率和第二错误率来衡量最终的正确率;其中,第一种正确率:真实客户机ip中被预测为客户机ip的比例(正确率)=真实客户机ip_addressab中落入预测的客户机ip范围中的ip数/真实客户机ip_addressab中ip总数;

第二种错误率:预测的客户机ip中非真实客户机ip的比例(错误率)=预测的客户机ip在预测的客户机ip范围中但不在真实客户机ip_addressab中的ip总数/预测的客户机ip在预测的客户机ip范围中的总数;

不使用预测的客户机ip的ip总数做分母而使用客户机ip范围内的ip数做分母,是因为客户机ip范围是最终的预测结果,应该在这个结果中去判断非客户机被预测成客户机的比例。

第一个正确率越高、第二个错误率越低表明预测效果越好,如果单纯的提升第一个比例,会导致客户机ip范围比较大,因为这样真实的客户机ip落入预测的客户机ip范围中的比例会更高,但是客户机ip范围越大,纳入非客户机ip的数量也会增加(比例如何改变并不清楚)。故提出使用第一正确率和第二错误率来衡量最终的正确率。(3-6)调参:根据(3-5)中的公式计算所有网吧所有网段的第一种正确率的均值和第二种错误率的均值,去衡量整体预测效果;其中,第一个正确率越高、第二个错误率越低表明预测效果越好;

(4)根据步骤(3-1)至(3-6)循环设置β、gap1和gap2的参数,并从整体预测效果最佳的角度确定β、gap1和gap2的取值,确定四个参数后,使用和β参数筛选mac地址对应出现的且mac地址被采集比例≤β的mac地址,其对应的ip地址即为预测的客户机ip,然后将预测的客户机ip由小到大排序,将相邻间隔超过gap1的进行分段,将ip数量超过gap2的段当做客户机ip范围。

β=0.7、gap1=20、gap2=8为例,即首先筛选出ip_num<=1且online_count<=0.7的mac地址,将其对应的ip地址当做客户机ip,按照网吧的网段分别汇总,网段内将ip由小到大排序,以20作为分段间隔,筛选样本量大于8的段,作为客户机ip范围。如表4所示,为部分网吧部分网段预测的客户机ip范围ip_address_bin以及第一种正确率(correct_ratio)和第二种错误率(false_ratio)的结果。

表4一组参数下部分网吧部分网段预测的第一种正确率和第二种错

误率

从结果中可以看出网吧4202020084、4302810103、4311030107各自的网段第一种正确率接近100%、第二种错误率又为0,属于预测效果最好的一种;而因gap2设置为8,样本量大于8的段就被保留,故网吧4202030021的网段192.168.1预测的客户机ip范围有[100,121]、[150,175]两段范围,第一种正确率为100%,但第二种错误率达37%,错误率比较高。

以上仅展示了一组参数(β=0.7、gap1=20、gap2=8)下部分网吧部分网段的第一种正确率和第二种错误率,调参是从整体预测效果最佳的角度去选择,而非个体预测效果最佳的角度去选择。

故计算所有网吧所有网段的第一种正确率的均值和第二种错误率的均值,去衡量整体预测效果。在调参中各参数取值范围为:以1为间隔在[1,3]间取值、β以0.05为间隔在[0.55,0.9]间取值、gap1以5为间隔在[5,25]间取值、gap2以1为间隔在[5,15]间取值。因参数组合有1320种,数量较多,仅展示第一种正确率高、第二种错误率低的参数组合,第二种错误率仅出现了0.01、0.02、0.03三种情况,选取这三种情况下第一种正确率最高的部分参数组合进行展示,如表5所示。

表5不同参数组合下的第一种正确率和第二种错误率

从结果中可以看出第一种正确率的最高值为98%,但是最高值对应的第二种错误率为2%或3%,非最低错误率;而且同一正确率或错误率会有多种可能的参数组合。

然后使用所有参数组合下计算得到的正确率和错误率绘制散点图,观察提高第一种正确率的时候对第二种错误率的影响,见图1。

从图中可以看出提高第一种正确率时,对第二种错误率的影响微弱。也即提高第一种正确率可能会或多或少的扩大预测出的客户机ip范围,但因大部分网吧客户机ip和非客户机ip的ip_num和online_count具有很大区别,如网吧的非客户机ip的在线时长一直很长,而客户机ip的在线时长很短,则通过β对采集次数进行约束就很容易筛选出客户机ip,甚至设置0.6、0.7、0.8的不同阈值均能筛选出客户机ip,也即很多网吧的网段通过和β参数筛选出的ip可能就是真实的客户机ip,甚至与真实客户机ip完全相同(类似网吧4202020084的网段192.168.0)且筛选出的ip具有连续取值的特征或者脱离连续区间的离群值并不多,即筛选出的ip即为一个连续区间的取值,gap1和gap2的约束对客户机ip范围并无影响,故大部分网吧通过和β筛选出的ip中包含非客户机ip的比例很少,所以第二种错误率的平均值并没有大的变化,更不会受第一种正确率的影响。

而鉴于无法筛选第一种正确率高、第二种错误率低的最佳结果,则通过业务的角度去确定,因识别客户机ip的目的是对安装率低的网吧进行客户机ip断网的惩罚,而又不能断掉服务器、收银机之类的非客户机ip,故客户机ip可以漏识别但不能误识别,即不能将非客户机ip识别成客户机ip,而可以将客户机ip识别成非客户机ip,即需要第二种错误(预测的客户机ip中非真实客户机ip的比例)尽可能低,故在第二种错误为最低值1%的情况下,筛选出第一种正确率最高值97%对应的参数组合。因有几组不同参数组合达到的效果一样,故本文任意选一参数组合作为最终的参数:β=0.75、gap1=20、gap2=14。使用该组参数计算客户机ip范围,部分网吧部分网段的客户机ip范围预测值和真实值的结果,如表6所示:

表6部分网吧部分网段的客户机ip范围预测值和真实值的结果(其

β=0.75、gap1=20、gap2=14)

可以看出该组参数下预测的客户机ip范围包含了大部分真实客户机ip,预测效果比较好,整体预测第一种正确率平均为97%,第二种错误率平均为1%。

本发明采用安装率100%的网吧数据作为训练样本,并非预测样本(因为只有100%的网吧能获取真实的客户机ip,才能用有监督的方法识别客户机);使用训练样本做有监督的训练后,得到参数β、gap1和gap2的值,然后使用4个参数值(β、gap1和gap2)去预测新的网吧的客户机范围(安装率达标或不达标的都可预测);

本发明提供的方法适用范围:监控网吧的客户端安装率,对于安装率未达到60%的网吧实施客户机ip断网的惩罚措施;本发明提高了识别网吧的客户机ip范围的准确率,保障了后续网吧安装率不达标断网措施的监管,提高了执法人员对网吧行为监管的力度和对网吧的监管效率。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1