钓鱼网站识别方法和系统的制作方法_3

文档序号:8299186阅读:来源:国知局
padding_left:40px ;background:url(images/num_14.gif)
[0080]no-repeat Opx Opx ;〃>〈b>四等奖20名:〈/b>《奔跑吧兄弟》节目现场入场券一张!
[0081]</p>
[0082]〈p style = "color:#0000FF ;Iine-height:30px ;padding-left:5px ;"> 注:幸运用户需凭着系统所发送给您的验证码进行验证您所获得的相关奖项进行领取。
[0083]每一位被抽选的幸运用户领取时间在24小时以内,如个人逾期视为自动放弃,幸运资格将留取下一位。〈/P〉
[0084]根据上述网页数据的网页内容,使用正则表达式提取出的特征关键词分别为:幸运用户、苹果笔记本电脑一台和获得的相关奖项等。
[0085]当获取到待识别网站的IP地址、域名信息、收录信息和网页数据中的各个特征关键词后,需要对获取到的上述数据进行分析对比。而在分析对比之前,为了加快审核识别的速率和准确率,需要首先确定待识别网站的类型,以及预存数据库中与待识别网站的类型相匹配的第一模板库。
[0086]作为一种可实施方式,其具体的确定过程可包括如下步骤:
[0087]步骤S210,依次在预存数据库的各模板库中内置的特征字符中扫描网页数据中的各个特征关键词,并对各个特征关键词在同一模板库中出现的次数进行求和或加权叠加,获取相应的多个特征统计值。
[0088]步骤S220,由多个特征统计值中筛选出最大特征统计值。
[0089]步骤S230,根据最大特征统计值,确定待识别网站的类型,并调取预存数据库中与待识别网站的类型相匹配的模板库作为第一模板库。
[0090]如,当待识别网站的网页数据中的特征关键词为幸运用户、苹果笔记本电脑和获得的相关奖项时,首先在浙江卫视官网的模板库存储的特征字符中依次扫描“幸运用户”、“苹果笔记本电脑”和“获得的相关奖项”,并对“幸运用户”出现的次数、“苹果笔记本电脑”出现的次数和“获得的相关奖项”出现的次数进行求和或加权叠加,得到一个特征统计值,该特征统计值为5。
[0091]然后,再在工商银行官网的模板库存储的特征字符中依次查找“幸运用户”、“苹果笔记本电脑”和“获得的相关奖项”,并对“幸运用户”出现的次数、“苹果笔记本电脑”出现的次数和“获得的相关奖项”出现的次数进行求和或加权叠加,得到另一个特征统计值,该特征统计值则为I。
[0092]通过在上述得到中的两个特征统计值中进行筛选,筛选出最大特征统计值,即最大特征统计值为5。然后,根据该最大特征统计值确定待识别网站的类型为电视节目类型,进而调取预存数据库中与电视节目类型相匹配的模板库(即浙江卫视官网模板库)作为第一模板库。
[0093]当确定待识别网站的类型和与待识别网站的类型相匹配的第一模板库后,通过通讯连接第一模板库,将待识别网站的IP地址、域名信息、收录信息和特征关键词分别与第一模板库中存储的数据进行对比分析,从而得到每项的单风险值,并将每项单风险值进行综合,得到待识别网站的总风险值,从而进行待识别网站的审核识别。
[0094]其中,作为一种可实施方式,其具体分析对比过程可包括如下步骤:
[0095]步骤S310,分析IP地址,IP地址为第一国外IP地址信息时,设置IP地址的单风险值为第一预设值。如,待识别网站的IP地址为59.188.224.46时,分析出该IP地址为香港地区,则其不在中国大陆境内,因此可设置该IP地址的单风险值为8。
[0096]此处,需要说明的是,当分析出IP地址为国内的IP地址时,对应的IP地址的单风险值可相应设置为其它值。
[0097]步骤S320,对比域名信息与第一模板库中存储的可信任域名信息,域名信息与可信任域名信息完全不同时,设置域名信息的单风险值为第二预设值。如,当待识别网站的域名信息为http://rtaSZXW.cc/,且第一模板库为浙江卫视官网模板库时,由于待识别网站的域名信息为httD: //rtaszxw.cc/,而浙江卫视的官网域名信息(即可信任域名信息)为http: //z istv.com/。通过比车交 http://rtaszxw.cc/矛口 http: //z istv.com/,可得知待识另丨丨网站的域名信息与第一模板库存储的可信任域名信息完全不同,因此可设置该域名信息的单风险值为6。
[0098]此处需要说明的是,第一模板库中存储的可信热域名信息可为与该模板库相对应的官网的域名信息。
[0099]同时,当域名信息与可信任域名信息存在部分相同的字符时,其单风险值可设置为另一预设值。当域名信息与可信任域名信息完全相同时,其单风险值又可设置为又一预设值。也就是说,域名信息与可信任域名信息完全相同时、部分相同时、完全不同时,设置的其单风险值不同。优选的,其单风险值的设置可根据与可信任域名信息完全相同、部分相同和完全不同的情况,呈依次递增的趋势。
[0100]步骤S330,对比收录信息与第一模板库中存储的第一收录信息,收录信息小于第一收录信息时,设置收录信息的单风险值为第三预设值。如,当待识别网站的收录信息为0,而第一模板库中存储的第一收录信息为40000时,通过对比O和40000,可知O小于40000,因此可设置该收录信息的单风险值为8。
[0101]步骤S340,对比特征关键词在网页数据中的总数量与第一模板库中存储的相应的第一特征字符统计值,特征关键词的总数量大于第一特征字符统计值预设值时,设置特征关键词的总数量的单风险值为第四预设值。
[0102]如,当待识别网站的特征关键词为幸运用户、苹果笔记本电脑和获得的相关奖项时,其中,幸运用户在待识别网站的网页数据中的数量为1,苹果笔记本电脑在待识别网站中的网页数据中的数量为1,获得的相关奖项在待识别网站的网页数据中的数量为1,通过进行求和或加权叠加,得到特征关键词在待识别网站的网页数据中的总数量为3。
[0103]而第一模板库中存储的幸运用户的数量为O,苹果笔记本电脑的数量为O,获得的相关奖项的数量为1,进而相应的第一特征字符统计值则为对幸运用户、苹果笔记本电脑和获得的相关奖项在第一模板库中的数量的求和或加权叠加后得到的统计值,即第一模板库中存储的第一特征字符统计值为I。
[0104]通过对比3和1,可知3比I大2,因此可设置关键词的总数量的单风险值为9。
[0105]需要说明的是,特征关键词的总数量大于第一特征字符统计值的预设值可根据实际情况自由设置。并且,该预设值可为正整数,也可为负整数。当预设值为负整数时,则表征了特征关键词的总数量小于第一特征字符统计值时的情况,此时,特征关键词的总数量的单风险值的设置则不同于第四预设值。
[0106]步骤S350,对IP地址的单风险值、域名信息的单风险值、收录信息的单风险值和特征关键词的总数量的单风险值进行求和或加权叠加,得到待识别网站的总风险值。
[0107]S卩,通过对IP地址的单风险值8、域名信息的单风险值6、收录信息的单风险值8和特征关键词的总数量的单风险值9进行求和或加权叠加,从而得到待识别网站的总风险值为31。
[0108]得到待识别网站的总风险值后,进而判断计算得到的该总风险值是否大于或等于预设风险值。其中,预设风险值的取值范围可根据具体情况自由设置。优选的,可设置为30-40ο也就是说,当通过求和计算得到的待识别网站的总风险值大于或等于30-40之间的任何一个数值时,则判定待识别网站为钓鱼网站。
[0109]当判定待识别网站为钓鱼网站后,将该待识别网站的域名信息上传至云端服务器,进而实现钓鱼网站的实时拦截。
[0110]进一步的,可通过对待识别网站的总风险值进行风险级别的划分,来判断其是否为钓鱼网站。其中,待识别网站的风险级别的划分可为:
[0111]当通过求和计算得到的待识别网站的总风险值的取值范围在1-15之间时,则判定待识别网站的风险级别为低风险。即,待识别网站为钓鱼网站的概率较小。此时,可再通过人工方式对其进行再次识别,以进一步保证判断结果的准确性。
[0112]当通过求和计算得到的待识别网站的总风险值的取值范围在
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1