钓鱼网站特性自学习挖掘方法及系统的制作方法

文档序号:6487469阅读:104来源:国知局
钓鱼网站特性自学习挖掘方法及系统的制作方法
【专利摘要】本发明属于计算机防御【技术领域】,具体公开了一种钓鱼网站特性自学习挖掘方法及系统。该方法以下步骤:根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;将每个网站的网页内容拆分为多个单词;根据公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率;若第一单词在钓鱼网站数据库中出现的概率大于预设的第一概率且在安全网站数据库中出现的概率小于预设的第二概率,则将该单词添加进一黑词数据库中。该系统包括与方法对应的网页内容获取模块、网页内容拆分模块、概率计算模块、以及黑词数据添加模块。通过本发明,可以更佳准确找出钓鱼网站的用词特征,进一步提高钓鱼网站的检测准确率,保障了用户的使用安全。
【专利说明】钓鱼网站特性自学习挖掘方法及系统
【技术领域】
[0001]本发明属于计算机防御【技术领域】,具体涉及一种钓鱼网站特性自学习挖掘方法及系统。
【背景技术】
[0002]钓鱼网站是一种网络欺诈行为,指不法分子利用各种手段,仿冒真实网站的URL地址以及页面内容,或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料或者让消费者直接以支付的方式将钱汇入骗子的银行账户中,严重地影响了在线金融服务、电子商务的发展,危害公众利益,影响公众应用互联网的信心。
[0003]为了预防钓鱼网站的危害,现有技术建立了钓鱼网站数据库和安全网站数据库,用于判断网站的安全性质,所述的钓鱼网站数据库中存储有已经确认的钓鱼网站的网址URL,所述的安全网站数据库中存储有已经确认的安全网站的网址URL。
[0004]上述防范方法其核心在于钓鱼网站数据库和安全网站数据库的及时更新,其关键在于钓鱼网站的判断和收集,现有的判断方法主要还通过人为判断和特征过滤的方式,特征过滤法主要关键是建立钓鱼网站的特征数据库,现有的钓鱼网站特征数据库的建立通常是通过数学建模的方式,其方式复杂而且其钓鱼网站检出率不一定高。

【发明内容】

[0005]为了解决上述问题,本发明的目的在于提供一种钓鱼网站特性自学习挖掘方法及系统,以更佳准确找出钓鱼网站的用词特征。
[0006]为了实现上述发明目的,本发明采用的技术方案如下:
[0007]一种钓鱼网站特性自学习挖掘方法,包括以下步骤:
[0008]根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;
[0009]将每个网站的网页内容拆分为多个单词;
[0010]根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率:
[0011]P1=X/M、P2=Y/N,
[0012]其中,Pl为单词在钓鱼网站数据库中出现的概率,
[0013]其中,P2为单词在安全网站数据库中出现的概率,
[0014]其中,X为包含有该单词的钓鱼网站数目,
[0015]其中,M为钓鱼网站数据库中包含的钓鱼网站数目,
[0016]其中,Y为包含有该单词的安全网站数目,
[0017]其中,N为安全网站数据库中包含的安全网站数目;
[0018]若第一单词在钓鱼网站数据库中出现的概率大于预设的第一概率且在安全网站数据库中出现的概率小于预设的第二概率,则将该单词添加进一黑词数据库中。[0019]进一步的,所述预设的第一概率为80%,所述预设的第二概率为10%。
[0020]一种钓鱼网站特性自学习挖掘系统,包括:
[0021]网页内容获取模块,用于根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;
[0022]网页内容拆分模块,用于将每个网站的网页内容拆分为多个单词;
[0023]概率计算模块,用于根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率:P1=X/M、P2=Y/N,
[0024]其中,Pl为单词在钓鱼网站数据库中出现的概率,
[0025]其中,P2为单词在安全网站数据库中出现的概率,
[0026]其中,X为包含有该单词的钓鱼网站数目,
[0027]其中,M为钓鱼网站数据库中包含的钓鱼网站数目,
[0028]其中,Y为包含有该单词的安全网站数目,
[0029]其中,N为安全网站数据库中包含的安全网站数目;
[0030]黑词数据添加模块,若第一单词在钓鱼网站数据库中出现的概率大于预设的概率且在安全网站数据库中出现的概率小于预设的概率,则将该单词添加进一黑词数据库中。
[0031]进一步的,所述预设的第一概率为80%,所述预设的第二概率为10%。
[0032]URL,英语 Uniform/Universal Resource Locator 的缩写,翻译为统一资源定位符,也被称为网页地址,是因特网上标准的资源的地址(Address)。
[0033]本发明根据已有的钓鱼网站数据库和安全网站数据库,获取各个单词在钓鱼网站数据库和安全网站数据库中出现的概率,然后根据该单词在网站中出现的概率来判定该词是否为黑词,所谓的黑词即是钓鱼网站通常会出现的词语,也即是钓鱼网站的特征之一。
[0034]由于本发明最后得到的黑词数据库,是在现有钓鱼网站数据库和安全网站数据库基础上学习发掘出来的,此特征将能够更准确判断一个网站是否为钓鱼网站,进一步提高钓鱼网站的检测准确率,保障了用户的使用安全。
【专利附图】

【附图说明】
[0035]此【专利附图】
附图
【附图说明】所提供的图片用来辅助对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的不当限定,在附图中:
[0036]图1是本发明方法对应的流程图;
[0037]图2是本发明系统对应的框图。
【具体实施方式】
[0038]如图1所示,本实施例公开了一种钓鱼网站特性自学习挖掘方法,包括以下步骤:
[0039]Stepl:根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;所谓的钓鱼网站数据库,是其中存储有已经确认的钓鱼网站的网址URL的数据库;所述的安全网站数据库,是其中存储有已经确认的安全网站的网址URL的数据库;URL就是网址,通过网址获取网页内容的常规方法很多,比如通过浏览器在互联网上下载网页内容;
[0040]Step2:将每个网站的网页内容拆分为多个单词,具体可以将网页内容保存为文本文档的格式,然后根据已有的汉语数据库和汉语规则将其进行拆分;
[0041]St印3:根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率:
[0042]P1=X/M、P2=Y/N,
[0043]其中,Pl为单词在钓鱼网站数据库中出现的概率,
[0044]其中,P2为单词在安全网站数据库中出现的概率,
[0045]其中,X为包含有该单词的钓鱼网站数目,
[0046]其中,M为钓鱼网站数据库中包含的钓鱼网站数目,
[0047]其中,Y为包含有该单词的安全网站数目,
[0048]其中,N为安全网站数据库中包含的安全网站数目;
[0049]St印4:若第一单词在钓鱼网站数据库中出现的概率大于预设的第一概率且在安全网站数据库中出现的概率小于预设的第二概率,则将该单词添加进一黑词数据库中;所述预设的第一概率为80%,所述预设的第二概率为10%。
[0050]按照上述方法,如果一个词在钓鱼网站数据库中出现的概率远大于在安全网站数据库中出现的概率,说明该词语很可能经常被钓鱼网站使用,那么该词语可以作为判断钓鱼网站的特征之一,将其添加到黑词数据库中,以供判断调用。
[0051]如图2所示,本实施例还公开了一种钓鱼网站特性自学习挖掘系统,包括:
[0052]网页内容获取模块1,用于根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;
[0053]网页内容拆分模块2,用于将每个网站的网页内容拆分为多个单词;
[0054]概率计算模块3,用于根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率:P1=X/M 、P2=Y/N,
[0055]其中,Pl为单词在钓鱼网站数据库中出现的概率,
[0056]其中,P2为单词在安全网站数据库中出现的概率,
[0057]其中,X为包含有该单词的钓鱼网站数目,
[0058]其中,M为钓鱼网站数据库中包含的钓鱼网站数目,
[0059]其中,Y为包含有该单词的安全网站数目,
[0060]其中,N为安全网站数据库中包含的安全网站数目;
[0061]黑词数据添加模块4,若第一单词在钓鱼网站数据库中出现的概率大于预设的概率且在安全网站数据库中出现的概率小于预设的概率,则将该单词添加进一黑词数据库中;所述预设的第一概率为80%,所述预设的第二概率为10%。
[0062]需要说明的是,上述第一概率和第二概率的具体数字是通过一个优选数值,并不代表对本发明的限定。
[0063]通过上述方法或者系统,从已有钓鱼网站数据库和安全数据库中学习和挖掘出了钓鱼网站的重要特征。
[0064]以上详细描述了本发明的较佳具体实施例,应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本【技术领域】中技术人员依本发明构思在现有技术基础上通过逻辑分析、推理或者根据有限的实验可以得到的技术方案,均应该在由本权利要求书所确定的保护范围之中。
【权利要求】
1.一种钓鱼网站特性自学习挖掘方法,其特征在于包括以下步骤: 根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容; 将每个网站的网页内容拆分为多个单词; 根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率: P1=X/M、P2=Y/N, 其中,Pl为单词在钓鱼网站数据库中出现的概率, 其中,P2为单词在安全网站数据库中出现的概率, 其中,X为包含有该单词的钓鱼网站数目, 其中,M为钓鱼网站数据库中包含的钓鱼网站数目, 其中,Y为包含有该单词的安全网站数目, 其中,N为安全网站数据库中包含的安全网站数目; 若第一单词在钓鱼网站数据库中出现的概率大于预设的第一概率且在安全网站数据库中出现的概率小于预设的第二概率,则将该单词添加进一黑词数据库中。
2.根据权利要求1所述的方法,其特征在于: 所述预设的第一概率为80%,所述预设的第二概率为10%。
3.一种钓鱼网站特性自学习挖掘系统,其特征在于包括: 网页内容获取模块,用于根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容; 网页内容拆分模块,用于将每个网站的网页内容拆分为多个单词; 概率计算模块,用于根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率:P1=X/M、P2=Y/N, 其中,Pl为单词在钓鱼网站数据库中出现的概率, 其中,P2为单词在安全网站数据库中出现的概率, 其中,X为包含有该单词的钓鱼网站数目, 其中,M为钓鱼网站数据库中包含的钓鱼网站数目, 其中,Y为包含有该单词的安全网站数目, 其中,N为安全网站数据库中包含的安全网站数目; 黑词数据添加模块,若第一单词在钓鱼网站数据库中出现的概率大于预设的概率且在安全网站数据库中出现的概率小于预设的概率,则将该单词添加进一黑词数据库中。
4.根据权利要求1所述的系统,其特征在于: 所述预设的第一概率为80%,所述预设的第二概率为10%。
【文档编号】G06F21/55GK103577449SQ201210269274
【公开日】2014年2月12日 申请日期:2012年7月30日 优先权日:2012年7月30日
【发明者】彭仁诚, 潘建波, 徐鸣 申请人:珠海市君天电子科技有限公司, 北京金山安全软件有限公司, 贝壳网际(北京)安全技术有限公司, 北京金山网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1