钓鱼网站识别方法和系统的制作方法_4

文档序号：8299186阅读：来源：国知局

15-30之间时，则判定待识别网站的风险级别为中风险。此时，待识别网站为钓鱼网站的概率相对较大。同样，可通过人工方式对其进行再次识别，以避免对待识别网站的识别出现误判的现象。
[0113]而当通过求和计算得到的待识别网站的总风险值的取值范围在30-40之间时，则可判定待识别网站的风险级别为高风险。此时，待识别网站为钓鱼网站的概率非常大。因此，可直接判定其为钓鱼网站，并对其进行拦截。同样，为了避免误判的现象，也可再通过人工方式对其进行再次识别。
[0114]其通过综合评分机制来确定待识别网站的风险级别，进而根据待识别网站的风险级别判断其是否为钓鱼网站，进一步保证了识别的准确率。需要说明的是，其风险级别的划分可根据实际情况自由设置。在本发明提供的具体实施例中，对风险级别的划分设置了三个级别。在其他具体实施例中，则可划分三个以上的风险级别。其中，划分的风险级别越细，判断结果越准确。
[0115]更为具体的，参见图3，以待识别网站http://rtaszxw.cc/例，对本发明的钓鱼网站识别方法做进一步详细说明。
[0116]首先执行步骤S100，根据接收到的待识别网站，获取待识别网站的IP地址、域名信息、收录信息和网页数据后，通过通讯连接存储有各模板库的预存数据库，执行步骤S210，依次在预存数据库的各模板库中内置的特征字符中扫描网页数据中的各个特征关键词，并对各个特征关键词在同一模板库中出现的次数进行求和或加权叠加，获取相应的多个特征统计值。即，进行待识别网站的特征识别。如，通过将待识别网站的网页数据中各个特征关键词在预存数据库的各模板库内置的特征字符中进行扫描匹配。其在浙江卫视官网模板库中进行扫描匹配后，得到的特征统计值为5 ;在工商银行官网模板库中进行扫描匹配后得到的特征统计值为I。
[0117]然后，执行步骤S220，由多个特征统计值中筛选出最大特征统计值。在本具体实施例中，筛选出的最大特征统计值为5。进而，执行步骤S230，根据最大特征统计值，确定待识别网站的类型，并调取预存数据库中与待识别网站的类型相匹配的模板库作为第一模板库。由于本具体实施例中的最大特征统计值为5，因此可确定待识别网站http://rtaszxw.迎/的类型为电视节目类型。进而，调取相应的浙江卫视官网模板库作为第一模板库。
[0118]当确定待识别网站http://rtaszxw.cc/的类型及相应的第一模板库后，通过通讯连接第一模板库，以便于读取第一模板库中存储的各项数据，进而执行步骤S300，根据第一模板库(即浙江卫视官网模板库)中存储的数据，对待识别网站http://rtaszxw.cc/的IP地址、域名信息、收录信息和特征关键词进行分析对比，得到每项的单风险值。其中，在本具体实施例中，分别通过执行步骤S310，分析待识别网站http://rtaszxw.cc/的IP地址59.188.224.巡为香港地区，因此可设置为单风险值为8 ;执行步骤S320，对比待识别网站http://rtaszxw.cc/的域名信息与浙江卫视官网模板库中存储的浙江卫视的官网域名信息 http://www.z jstv.com，可知 http: //rtaszxw.cc与 http: //www.z istv.com完全不同，因此设置该单风险值为6 ;执行步骤S330，对比待识别网站http://rtaszxw.cc/的收录信息(为O)与浙江卫视官网模板库中存储的浙江卫视的官网收录信息(40000)，可知O远远小于40000，因此设置该单风险值为8 ;执行步骤S340，对比待识别网站http://rtaszxw.cc/的特征关键词在待识别网站http://rtaszxw.cc/的网页数据中出现的总数量与浙江卫视官网模板库中存储的特征字符在浙江卫视的官网中的统计值，可设置其单风险值为9。
[0119]进而执行步骤S350，对每项的单风险值进行求和，得到待识别网站的总风险值。在本具体实施例中，得到的总风险值为:8+6+8+9 = 31。进而执行步骤S400，根据计算得到的总风险值与预设风险值，判断待识别网站是否为钓鱼网站。当计算得到的总风险值大于或等于预设风险值时，即总风险值在预设高风险值范围内时，则执行步骤S400，判定待识别网站为钓鱼网站。在本具体实施例中，计算得到的待识别网站的总风险值31在预设高风险值范围30-40内，因此可直接判定待识别网站站http://rtaszxw.cc/为钓鱼网站。
[0120]另外，需要说明的是，通常待识别网站中会嵌入或链接一些其他网站。因此为了进一步提高待识别网站审核识别的准确性，可通过提取出待识别网站中嵌入或链接的网站依据上述任一种钓鱼网站识别方法进行进一步的审核识别。此处不再赘述。
[0121]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory, RAM)等。
[0122]相应的，基于同一发明构思，本发明还提供了一种钓鱼网站识别系统。由于本发明提供的钓鱼网站识别系统的工作原理与本发明提供的钓鱼网站识别方法的原理相同或相似，因此重复之处不再赘述。
[0123]参见图4，作为本发明的钓鱼网站识别系统的一具体实施例，包括数据获取模块110、类型匹配模块120、综合分析模块130和比较判断模块140。
[0124]数据获取模块110被配置为根据接收到的待识别网站，获取待识别网站的IP地址、域名信息、收录信息和网页数据。
[0125]类型匹配模块120与存储有各模板库的预存数据库(图中未示出)通讯连接，并被配置为根据网页数据中的各个特征关键词和预存数据库的各模板库中内置的特征字符，确定待识别网站的类型和预存数据库中与待识别网站的类型相匹配的第一模板库。
[0126]综合分析模块130与预存数据库中的第一模板库通讯连接，并被配置为根据第一模板库中的数据，分别对IP地址、域名信息、收录信息和特征关键词进行分析，得到每项的单风险值，并将每项单风险值进行综合，得到待识别网站的总风险值。
[0127]比较判断模块140被配置为比较总风险值与预设风险值，当总风险值大于或等于预设风险值时，判定待识别网站为钓鱼网站。
[0128]本发明提供的钓鱼网站识别系统，通过集成应用至防火墙软件等其他安全软件中后，即可实现网站的自动识别。减少了人工方式的审核步骤，从而有效提高了网站识别的效率和准确率。并且，通过用户直接输入待识别网站即可进行钓鱼网站的识别，增加了非专业人士对钓鱼网站的识别能力，降低了对钓鱼网站识别的难度。
[0129]进一步的，作为本发明提供的钓鱼网站识别系统的一具体实施例，还包括数据上传模块150，且数据上传模块150与云端服务器200通讯连接。
[0130]当比较判断模块140判断出待识别网站为钓鱼网站时，数据上传模块150被配置为读取数据获取模块110获取的域名信息，并上传域名信息至云端服务器200。
[0131]当钓鱼网站识别系统识别出待识别网站为钓鱼网站时，通过将待识别网站的域名信息上传至云端服务器200。进而通过与安全软件相互合作，使得安全软件由云端服务器200读取该域名信息后，第一时间即可将识别出的钓鱼网站进行拦截，保证了计算机运行环境的安全性和可靠性。
[0132]其中，数据获取模块110，用于根据接收到的待识别网站，使用socket通信模拟http数据包，获取网络服务器返回的待识别网站的IP地址、域名信息、收录信息和网页数据。
[0133]更进一步的，类型匹配模块120包括查找计算单元、特征筛选单元和模板库调取单元(图中未示出)。
[0134]查找计算单元被配置为依次在预存数据库的各模板库中内置的特征字符中扫描网页数据中的各个特征关键词，并对各个特征关键词在同一模板库中出现的次数进行求和或加权叠加，获取相应的多个特征统计值。
[0135]特征筛选单元被配置为由多个特征统计值中筛选出最大特征统计值。
[0136]模板库调取单元被配置为根据最大特征统计值，确定待识

完整全部详细技术资料下载

当前第4页1 2 3 4 5