一种钓鱼网站识别系统及方法

文档序号：6372508阅读：314来源：国知局

专利名称：一种钓鱼网站识别系统及方法
技术领域：
本发明涉及网络安全技术领域，特别涉及一种钓鱼网站识别系统及方法。
背景技术：
随着互联网的发展，网民数量逐年增加。在上网时，除了传统的木马、病毒的威胁，近两年钓鱼网站的数量大幅增加。当前主要的钓鱼网站识别技术是通过收集常见的钓鱼网站，制作成知识库，再计算新发现的网页与知识库中的钓鱼网站的相似度，从而判断是否是钓鱼网站。上述通过钓鱼网站知识库识别钓鱼网站的方法，通常只能识别已知类别的钓鱼网站，对于新类型的钓鱼网站则无法识别，比如钓鱼网站知识库内只有中国银行相关的钓鱼网站时，对于仿冒工商银行的钓鱼网站就无法识别。

发明内容
本发明要解决的技术问题是如何提供一种钓鱼网站识别系统及方法，以有效识别新类型的钓鱼网站。为解决上述技术问题，本发明提供一种钓鱼网站识别系统，其包括域名获取单元、域名统计单元和网站识别单元；所述域名获取单元，适于收集待识别网站中出现的所有链接，得到所述链接对应的域名；所述域名统计单元，适于统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名；所述网站识别单元，适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。其中，所述网站识别单元包括比较子单元和识别子单元；所述比较子单元，适于比较所述目标域名与所述自身域名，并在比较结果显示所述目标域名与所述自身域名相同时，判定所述待识别网站不是钓鱼网站；所述识别子单元，适于在所述目标域名与所述自身域名不同时，计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及计算所述目标域名与所述自身域名之间的相似度，进而根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。其中，所述识别子单元包括比例计算模块、相似度计算模块和判断模块；所述比例计算模块，适于计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例；所述相似度计算模块，适于计算所述目标域名与所述自身域名之间的相似度；所述判断模块，适于判断所述比例和所述相似度是否满足条件所述比例大于预定比例，并且所述相似度大于预定阈值；如果满足，判定所述待识别网站是钓鱼网站；否则，判定所述待识别网站不是钓鱼网站。其中，所述相似度计算模块包括字符串对比子模块、初值计算子模块和终值计算子模块；所述字符串对比子模块，适于构建所述目标域名的字符串与所述自身域名的字符串的对比阵列，将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定，将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动，对两行字符串中重叠的字符进行对比；所述初值计算子模块，适于当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值Q1 ;当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第m相似度计算值Qm ^1=Km=IiAn2-Ln1表示所述目标域名的字符串长度，n2表示所述自身域名的字符串长度；所述终值计算子模块，适于根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Qmax Q^maxtQp Q2, Q3, ......Qj。其中，所述初值计算子模块中，利用如下公式计算第i相似度计算值Qi :Qi=Mi2 X Li ；其中，i为自然数，并且，l^i^m ;并且，Mi=SiAiniax ；Li=IVnniax ；其中，ri表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠的字符个数；n_表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数山表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串的重叠率；Si表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠并且相同的字符个数鷓表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串的匹配率。其中，所述初值计算子模块中，利用如下方式计算第i相似度计算值Qi :在第i次对比时，计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数，将所述重叠并且相同的字符个数作为第i相似度计算值Qi。其中，所述系统还包括补充识别单元；所述补充识别单元，适于将判断结果显示为钓鱼网站的待识别网站记作可疑网站，并对所述可疑网站进行补充识别，在识别结果显示所述可疑网站仍为钓鱼网站的情况下，将所述可疑网站送入钓鱼网站库。其中，所述链接对应的域名为所述链接的绝对地址。其中，所述系统还包括网站获取单元；所述网站获取单元，适于查找新建网站以作为待识别网站。本发明还提供一种钓鱼网站识别方法，其包括步骤收集待识别网站中出现的所有链接，得到所述链接对应的域名；
统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名；根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。其中，所述根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站，进一步包括步骤判断所述目标域名与所述自身域名是否相同，如果是，判定所述待识别网站不是钓鱼网站，结束流程；否则，执行下一步；计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及所述目标域名与所述自身域名之间的相似度，根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。其中，所述计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及所述目标域名与所述自身域名之间的相似度，根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站，进一步包括步骤计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例；计算所述目标域名与所述自身域名之间的相似度；判断是否满足以下条件所述比例大于预定比例，并且所述相似度大于预定阈值；如果是，判定所述待识别网站是钓鱼网站；否则，判定所述待识别网站不是钓鱼网站。其中，所述计算所述目标域名与所述自身域名之间的相似度，进一步包括步骤构建所述目标域名的字符串与所述自身域名的字符串的对比阵列，将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定，将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动，对两行字符串中重叠的字符进行对比；当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值Q1 ；当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第m相似度计算值Qm ;其中，m=ni+n2-l, H1表示所述目标域名的字符串长度，n2表示所述自身域名的字符串长度；根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Qmax Q^maxtQp Q2, Q3, ......Qj。其中，所述当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值Q2 ;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第m相似度计算值Q111中，第i相似度计算值Qi的计算公式如下Qi=Mi2 X Li ；其中，i为自然数，并且，l^i^m ;并且，Mi=SiAiniax ；Li=IVnniax ；
其中，ri表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠的字符个数；n_表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数山表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串的重叠率；Si表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠并且相同的字符个数鷓表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串的匹配率。其中，所述当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值Q2 ;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第m相似度计算值Qm中,利用如下方式计算第i相似度计算值Qi 在第i次对比时，计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数，将所述重叠并且相同的字符个数作为第i相似度计算值Qi。
其中，在所述根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站之后还包括步骤将判断结果显示为钓鱼网站的待识别网站记作可疑网站，并对所述可疑网站进行补充识别，在识别结果显示所述可疑网站仍为钓鱼网站的情况下，将所述可疑网站送入钓鱼网站库。其中，所述链接对应的域名为所述链接的绝对地址。其中，在所述收集待识别网站中出现的所有链接，得到所述链接对应的域名之前还包括步骤查找新建网站以作为待识别网站。本发明的所述钓鱼网站识别系统及方法，基于网站中的链接关系进行钓鱼网站的识别，可以有效识别新类型的钓鱼网站；同时，有利于丰富钓鱼网站库中钓鱼网站的数量和类型，便于进一步的钓鱼网站识别和查找，在网络安全领域具有广泛的应用前景。

图I是本发明实施例一所述钓鱼网站识别系统的模块结构示意图；图2是所述网站识别单元的模块结构示意图；图3是所述识别子单元的模块结构示意图；图4是所述相似度计算模块的模块结构示意图；图5是本发明实施例二所述钓鱼网站识别系统的模块结构示意图；图6是本发明实施例三所述钓鱼网站识别方法的流程图；图7是本发明实施例四所述钓鱼网站识别方法的流程图。
具体实施例方式下面结合附图和实施例，对本发明的具体实施方式
作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。图I是本发明实施例一所述钓鱼网站识别系统的模块结构示意图，如图I所示，所述系统包括域名获取单元100、域名统计单元200和网站识别单元300。所述域名获取单元100，适于收集待识别网站中出现的所有链接，得到所述链接对应的域名。这里所述链接对应的域名为所述链接的绝对地址，如果所述待识别网站中出现的链接采用相对地址，需要将其转换为绝对地址。所述域名统计单元200，适于统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名。所述域名统计单元200会以域名为key，以出现次数为value,生成一个key-value表格，然后根据表格中value的数值,对域名进行排序,得到出现次数最多的域名。所述网站识别单元300，适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。图2是所述网站识别单元的模块结构示意图，如图2所示，所述网站识别单元300进一步包括比较子单元310和识别子单元320。所述比较子单元310，适于比较所述目标域名与所述自身域名，并在比较结果显示所述目标域名与所述自身域名相同时，判定所述待识别网站不是钓鱼网站。所述识别子单元320，适于在所述目标域名与所述自身域名不同时，计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及计算所述目标域名与所述自身域名之间的相似度，进而根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。图3是所述识别子单元的模块结构示意图，如图3所示，所述识别子单元320进一步包括比例计算模块321、相似度计算模块322和判断模块323。所述比例计算模块321，适于计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例。所述相似度计算模块322，适于计算所述目标域名与所述自身域名之间的相似度。图4是所述相似度计算模块的模块结构示意图，如图4所示，所述相似度计算模块322进一步包括字符串对比子模块322a、初值计算子模块322b和终值计算子模块322c。所述字符串对比子模块322a，适于构建所述目标域名的字符串与所述自身域名的字符串的对比阵列，将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定，将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动，对两行字符串中重叠的字符进行对比。所述初值计算子模块322b，适于当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值Q1 ;当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值Q2 ;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第m相似度计算值Qm;其中，nFni+r^-l, Ii1表示所述目标域名的字符串长度，n2表示所述自身域名的字符串长度。其中，所述初值计算子模块322b中，利用如下公式计算第i相似度计算值Qi Qi=Mi2 X Li ；其中，i为自然数，并且，l^i^m ;并且，Mi=SiAi隨；Li=IVnniax ；其中，ri表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠的字符个数；n_表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数山表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串的重叠率；Si表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠并且相同的字符个数鷓表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串的匹配率。举例来讲，假设自身域名为boc. cn自左向右移动，目标域名为cocc. cn保持位置固定。在第I次对比时，只有字符n与字符c重叠，相应地巧^，S1=O ;在第2次对比时，字符n与字符O重叠,字符c与字符c重叠,相应地r2=2, S2=I。另外，所述初值计算子模块中，还可以利用如下方式计算第i相似度计算值Qi :在第i次对比时，计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数，将所述重叠并且相同的字符个数作为第i相似度计算值Qi。对于第i相似度计算值Qi的计算方式，还可以采用一些公知现有方法，由于其非本发明重点，在此不再赘述。所述终值计算子模块322c，适于根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Qmax Q^maxtQp Q2, Q3, ......Qj。所述判断模块323，适于判断所述比例和所述相似度是否满足条件所述比例大于预定比例，并且所述相似度大于预定阈值；如果满足，判定所述待识别网站是钓鱼网站；否则，判定所述待识别网站不是钓鱼网站。所述预定比例和所述预定阈值可以根据实际使用情况进行设置和调整，本实施例，所述预定比例优选为I. 0，所述预定阈值优选为80%。图5是本发明实施例二所述钓鱼网站识别系统的模块结构示意图，如图5所示，本实施例所述系统与实施例一所述系统基本相同，其不同之处仅在于，本实施例所述系统还包括网站获取单元000和补充识别单元400。所述网站获取单元000，适于查找新建网站以作为待识别网站。一般情况下，钓鱼网站多是新建网站，因此，通过设置所述网站获取单元000，只将新建网站作为待识别网站，可以缩小钓鱼网站的识别范围，提高识别的准确度和速度。对于新建网站的查找可以采用如下方法通过特定关键词监控搜索引擎结果页；或者，通过客户端发现网民访问量极少的网站。所述补充识别单元000，适于将判断结果显示为钓鱼网站的待识别网站记作可疑网站，并对所述可疑网站进行补充识别，在识别结果显示所述可疑网站仍为钓鱼网站的情况下，将所述可疑网站送入钓鱼网站库。所述补充识别可以采用人工审查的方式。通过设置所述补充识别单元000，可以进一步提高钓鱼网站识别的准确度。图6是本发明实施例三所述钓鱼网站识别方法的流程图，如图6所示，所述方法包括步骤A :收集待识别网站中出现的所有链接，得到所述链接对应的域名。所述链接对应的域名为所述链接的绝对地址。B :统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名。C :根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。所述步骤C进一步包括步骤Cl :判断所述目标域名与所述自身域名是否相同，如果是，判定所述待识别网站不是钓鱼网站，结束流程；否则，执行步骤C2 ；C2 :计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及所述目标域名与所述自身域名之间的相似度，根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。所述步骤C2进一步包括步骤C21 :计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例。C22 :计算所述目标域名与所述自身域名之间的相似度。
·
所述步骤C22进一步包括步骤C221 :构建所述目标域名的字符串与所述自身域名的字符串的对比阵列，将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定，将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动，对两行字符串中重叠的字符进行对比。C222 当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值Q1 ;当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值Q2 ;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第m相似度计算值Qm;其中，Hi=Iidn2-Ln1表示所述目标域名的字符串长度，n2表示所述自身域名的字符串长度。所述步骤C222中，第i相似度计算值Qi的计算公式如下Qi=Mi2 X Li ；其中，i为自然数，并且，l^i^m ;并且，Mi=SiAiniax;Li=I^n眶；其中，r,表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠的字符个数；n_表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数山表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串的重叠率；Si表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠并且相同的字符个数鷓表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串的匹配率。另外，所述步骤C222中，也可以利用如下方式计算第i相似度计算值Qi 在第i次对比时，计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数，将所述重叠并且相同的字符个数作为第i相似度计算值Qi。C223 :根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Qmax Qmax=max (Q1, Q2, Q3, ......Qj。C23 :判断是否满足以下条件所述比例大于预定比例，并且所述相似度大于预定阈值；如果是，判定所述待识别网站是钓鱼网站；否则，判定所述待识别网站不是钓鱼网站。
图7是本发明实施例四所述钓鱼网站识别方法的流程图，如图7所示，本实施例所述方法与实施例三所述方法基本相同，其不同之处仅在于在所述步骤A之前还包括步骤A’ 查找新建网站以作为待识别网站。对于新建网站的查找可以采用如下方法通过特定关键词监控搜索引擎结果页；或者，通过客户端发现网民访问量极少的网站。在所述步骤C之后还包括步骤D :将判断结果显示为钓鱼网站的待识别网站记作可疑网站，并对所述可疑网站进行补充识别，在识别结果显示所述可疑网站仍为钓鱼网站的情况下，将所述可疑网站送入钓鱼网站库。所述补充识别可以采用人工审查的方式。
本发明实施例所述钓鱼网站识别系统及方法，基于网站中的链接关系进行钓鱼网站的识别，可以有效识别新类型的钓鱼网站；同时，有利于丰富钓鱼网站库中钓鱼网站的数量和类型，便于进一步的钓鱼网站识别和查找，在网络安全领域具有广泛的应用前景。以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。
权利要求
1.一种钓鱼网站识别系统，其包括域名获取单元、域名统计单元和网站识别单元；所述域名获取单元，适于收集待识别网站中出现的所有链接，得到所述链接对应的域名；所述域名统计单元，适于统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名；所述网站识别单元，适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。
2.如权利要求I所述的系统，其特征在于，所述网站识别单元包括比较子单元和识别子单元；所述比较子单元，适于比较所述目标域名与所述自身域名，并在比较结果显示所述目标域名与所述自身域名相同时，判定所述待识别网站不是钓鱼网站；所述识别子单元，适于在所述目标域名与所述自身域名不同时，计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及计算所述目标域名与所述自身域名之间的相似度，进而根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。
3.如权利要求2所述的系统，其特征在于，所述识别子单元包括比例计算模块、相似度计算模块和判断模块；所述比例计算模块，适于计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例；所述相似度计算模块，适于计算所述目标域名与所述自身域名之间的相似度；所述判断模块，适于判断所述比例和所述相似度是否满足条件所述比例大于预定比例，并且所述相似度大于预定阈值；如果满足，判定所述待识别网站是钓鱼网站；否则，判定所述待识别网站不是钓鱼网站。
4.如权利要求3所述的系统，其特征在于，所述相似度计算模块包括字符串对比子模块、初值计算子模块和终值计算子模块；所述字符串对比子模块，适于构建所述目标域名的字符串与所述自身域名的字符串的对比阵列，将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定，将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动，对两行字符串中重叠的字符进行对比；所述初值计算子模块，适于当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值Q1 ；当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值Q2 ;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第m相似度计算值Qm;其中，Hi=IiAn2-Ln1表示所述目标域名的字符串长度，n2表示所述自身域名的字符串长度；所述终值计算子模块，适于根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Qmax Qmax_maX{Ql,卩3，......QnJ。
5.如权利要求4所述的系统，其特征在于，所述初值计算子模块中，利用如下公式计算第i相似度计算值Qi Qi=Mi2XLi ；其中，i为自然数，并且，I ≤ i≤m;并且， Mi=SiAimax ； Li=ITiAlmax ；其中，r,表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠的字符个数；n_表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数A表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串的重叠率A表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠并且相同的字符个数鷓表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串的匹配率。
6.如权利要求4所述的系统，其特征在于，所述初值计算子模块中，利用如下方式计算第i相似度计算值Qi 在第i次对比时，计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数，将所述重叠并且相同的字符个数作为第i相似度计算值Qi。
7.如权利要求I所述的系统，其特征在于，所述系统还包括补充识别单元；所述补充识别单元，适于将判断结果显示为钓鱼网站的待识别网站记作可疑网站，并对所述可疑网站进行补充识别，在识别结果显示所述可疑网站仍为钓鱼网站的情况下，将所述可疑网站送入钓鱼网站库。
8.如权利要求I所述的系统，其特征在于，所述链接对应的域名为所述链接的绝对地址。
9.如权利要求I所述的系统，其特征在于，所述系统还包括网站获取单元；所述网站获取单元，适于查找新建网站以作为待识别网站。
10.一种钓鱼网站识别方法，其包括步骤收集待识别网站中出现的所有链接，得到所述链接对应的域名；统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名；根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。
11.如权利要求10所述的方法，其特征在于，所述根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站，进一步包括步骤判断所述目标域名与所述自身域名是否相同，如果是，判定所述待识别网站不是钓鱼网站，结束流程；否则，执行下一步；计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及所述目标域名与所述自身域名之间的相似度，根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。
12.如权利要求11所述的方法，其特征在于，所述计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及所述目标域名与所述自身域名之间的相似度，根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站，进一步包括步骤计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例；计算所述目标域名与所述自身域名之间的相似度；判断是否满足以下条件所述比例大于预定比例，并且所述相似度大于预定阈值；如果是，判定所述待识别网站是钓鱼网站；否则，判定所述待识别网站不是钓鱼网站。
13.如权利要求12所述的方法，其特征在于，所述计算所述目标域名与所述自身域名之间的相似度，进一步包括步骤构建所述目标域名的字符串与所述自身域名的字符串的对比阵列，将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定，将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动，对两行字符串中重叠的字符进行对比；当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值Q1 ;当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值Q2 ;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第m相似度计算值Qm ;其中，m=ni+n2-l，H1表示所述目标域名的字符串长度，n2表示所述自身域名的字符串长度；根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Qmax Qmax_maX{Ql,卩3，......QnJ。
14.如权利要求13所述的方法，其特征在于，所述当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值Q1 ；当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第m相似度计算值Q111中，第i相似度计算值Qi的计算公式如下Qi=Mi2XLi ；其中，i为自然数，并且，I ( i≤m;并且， Mi=SiAimax ； Li=ITiAlmax ；其中，r,表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠的字符个数；n_表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数A表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串的重叠率A表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠并且相同的字符个数鷓表示在第i次对比时，所述自身域名的字符串与所述目标域名的字符串的匹配率。
15.如权利要求13所述的方法，其特征在于，所述当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值Q1;当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值Q2;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第m相似度计算值Qm中，利用如下方式计算第i相似度计算值Qi 在第i次对比时，计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数，将所述重叠并且相同的字符个数作为第i相似度计算值Qi。
16.如权利要求10所述的方法，其特征在于，在所述根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站之后还包括步骤将判断结果显示为钓鱼网站的待识别网站记作可疑网站，并对所述可疑网站进行补充识别，在识别结果显示所述可疑网站仍为钓鱼网站的情况下，将所述可疑网站送入钓鱼网站库。
17.如权利要求10所述的方法，其特征在于，所述链接对应的域名为所述链接的绝对地址。
18.如权利要求10所述的方法，其特征在于，在所述收集待识别网站中出现的所有链接，得到所述链接对应的域名之前还包括步骤查找新建网站以作为待识别网站。
全文摘要
本发明公开了一种钓鱼网站识别系统及方法，涉及网络安全领域。所述系统包括域名获取单元、域名统计单元和网站识别单元；所述域名获取单元，适于收集待识别网站中出现的所有链接，得到所述链接对应的域名；所述域名统计单元，适于统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名；所述网站识别单元，适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。所述系统及方法，基于网站中的链接关系进行钓鱼网站的识别，可以有效识别新类型的钓鱼网站；同时，有利于丰富钓鱼网站库中钓鱼网站的数量和类型，便于进一步的钓鱼网站识别和查找，在网络安全领域具有广泛的应用前景。
文档编号G06F21/00GK102801709SQ20121022448
公开日2012年11月28日申请日期2012年6月28日优先权日2012年6月28日
发明者陈营营申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈营营
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司
我是此专利的发明人

上一篇：数据查询处理装置和数据查询处理方法
上一篇：查询处理装置和查询处理方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。