一种钓鱼网站识别系统及方法

文档序号：8265851阅读：631来源：国知局

一种钓鱼网站识别系统及方法
【专利说明】一种钓鱼网站识别系统及方法
[0001]本发明专利申请是申请日为2012年06月28日、申请号为201210224485.3、名称为“一种钓鱼网站识别系统及方法”的中国发明专利申请的分案申请。
技术领域
[0002]本发明涉及网络安全技术领域，特别涉及一种钓鱼网站识别系统及方法。
【背景技术】
[0003]随着互联网的发展，网民数量逐年增加。在上网时，除了传统的木马、病毒的威胁，近两年钓鱼网站的数量大幅增加。
[0004]当前主要的钓鱼网站识别技术是通过收集常见的钓鱼网站，制作成知识库，再计算新发现的网页与知识库中的钓鱼网站的相似度，从而判断是否是钓鱼网站。
[0005]上述通过钓鱼网站知识库识别钓鱼网站的方法，通常只能识别已知类别的钓鱼网站，对于新类型的钓鱼网站则无法识别，比如钓鱼网站知识库内只有中国银行相关的钓鱼网站时，对于仿冒工商银行的钓鱼网站就无法识别。

【发明内容】

[0006]本发明要解决的技术问题是:如何提供一种钓鱼网站识别系统及方法，以有效识别新类型的钓鱼网站。
[0007]为解决上述技术问题，本发明提供一种钓鱼网站识别系统，其包括:域名获取单元、域名统计单元和网站识别单元；
[0008]所述域名获取单元，适于收集待识别网站中出现的所有链接，得到所述链接对应的域名；
[0009]所述域名统计单元，适于统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名；
[0010]所述网站识别单元，适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。
[0011]其中，所述网站识别单元包括:比较子单元和识别子单元；
[0012]所述比较子单元，适于比较所述目标域名与所述自身域名，并在比较结果显示所述目标域名与所述自身域名相同时，判定所述待识别网站不是钓鱼网站；
[0013]所述识别子单元，适于在所述目标域名与所述自身域名不同时，计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及计算所述目标域名与所述自身域名之间的相似度，进而根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。
[0014]其中，所述识别子单元包括:比例计算模块、相似度计算模块和判断模块；
[0015]所述比例计算模块，适于计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例；
[0016]所述相似度计算模块，适于计算所述目标域名与所述自身域名之间的相似度；
[0017]所述判断模块，适于判断所述比例和所述相似度是否满足条件:所述比例大于预定比例，并且所述相似度大于预定阈值；如果满足，判定所述待识别网站是钓鱼网站；否则，判定所述待识别网站不是钓鱼网站。
[0018]其中，所述相似度计算模块包括:字符串对比子模块、初值计算子模块和终值计算子模块；
[0019]所述字符串对比子模块，适于构建所述目标域名的字符串与所述自身域名的字符串的对比阵列，将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定，将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动，对两行字符串中重叠的字符进行对比；
[0020]所述初值计算子模块，适于当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第m相似度计算值Qm;其中，m = n Jn2-1 A1表示所述目标域名的字符串长度，112表示所述自身域名的字符串长度；
[0021]所述终值计算子模块，适于根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Qniax:
[0022]Qmax= max {Q !，Q2，Q3，......Qj。
[0023]其中，所述初值计算子模块中，利用如下公式计算第i相似度计算值Q1:
[0024]Qi= Mi2XLi;
[0025]其中，i为自然数，并且，I彡i彡m;并且，
[0026]Mi= SiAi眶；
[0027]Li= r ^nmax;
[0028]其中，1^表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠的字符个数；1!_表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数；Li表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串的重叠率；si表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠并且相同的字符个数;Mi表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串的匹配率。
[0029]其中，所述初值计算子模块中，利用如下方式计算第i相似度计算值Q1:
[0030]在第i次对比时，计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数，将所述重叠并且相同的字符个数作为第i相似度计算值Qi。
[0031]其中，所述系统还包括:补充识别单元；
[0032]所述补充识别单元，适于将判断结果显示为钓鱼网站的待识别网站记作可疑网站，并对所述可疑网站进行补充识别，在识别结果显示所述可疑网站仍为钓鱼网站的情况下，将所述可疑网站送入钓鱼网站库。
[0033]其中，所述链接对应的域名为所述链接的绝对地址。
[0034]其中，所述系统还包括:网站获取单元；
[0035]所述网站获取单元，适于查找新建网站以作为待识别网站。
[0036]本发明还提供一种钓鱼网站识别方法，其包括步骤:
[0037]收集待识别网站中出现的所有链接，得到所述链接对应的域名；
[0038]统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名；
[0039]根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。
[0040]其中，所述根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站，进一步包括步骤:
[0041]判断所述目标域名与所述自身域名是否相同，如果是，判定所述待识别网站不是钓鱼网站，结束流程；否则，执行下一步；
[0042]计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及所述目标域名与所述自身域名之间的相似度，根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。
[0043]其中，所述计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及所述目标域名与所述自身域名之间的相似度，根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站，进一步包括步骤:
[0044]计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例；
[0045]计算所述目标域名与所述自身域名之间的相似度；
[0046]判断是否满足以下条件:所述比例大于预定比例，并且所述相似度大于预定阈值；如果是，判定所述待识别网站是钓鱼网站；否则，判定所述待识别网站不是钓鱼网站。
[0047]其中，所述计算所述目标域名与所述自身域名之间的相似度，进一步包括步骤:
[0048]构建所述目标域名的字符串与所述自身域名的字符串的对比阵列，将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定，将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动，对两行字符串中重叠的字符进行对比；
[0049]当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第m相似度计算值Qm;其中，m = n ^n2-L H1表示所述目标域名的字符串长度，H2表示所述自身域名的字符串长度；
[0050]根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Qmax:
[0051]Qmax= max{Q ^ Q2, Q

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈营营;
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。