1.一种基于Web页面特征的金融类钓鱼网页检测方法,其特征在于:该方法的执行基于预先建立的金融类第一Title关键词库、第二Title关键词库、敏感关键词库以及网页Logo图片特征点规则库;该方法具体包括以下步骤:
S1:使用爬虫获取的待测网页的HTML,提取Title标签中的文本信息,计算文本信息与第一Title关键词库、第二Title关键词的匹配度,若匹配度大于阈值,判定待测网页为钓鱼网页,否则,进入步骤S2对待测网页做进一步检测;
S2:提取待测网页特定标签中的文本信息,统计文本信息与敏感关键词库的匹配个数,计算出Web敏感特征值,若特征值大于阈值,判定待测网页为钓鱼网页,否则,进入步骤S3对待测网页做进一步检测;
S3:对待测网页进行定点截图,截图尽可能以最小的面积包含待测网页的Logo图片;
S4:提取出Logo截图的特征点,将其与网页Logo图片特征点规则库进行对比,根据特征点的匹配个数计算出两幅Logo图片的相似度,若相似度大于阈值,判定待测网页为钓鱼网页,否则,判定待测网页为正常网页。
2.根据权利要求1所述的基于Web页面特征的金融类钓鱼网页检测方法,其特征在于:在步骤S1中,所述使用爬虫获取的待测网页的HTML,提取Title标签中的文本信息,计算文本信息与第一Title关键词库、第二Title关键词的匹配度具体包括:
S11:通过网页爬虫工具,获取待测URL的Web页面Title文本信息,对Title文本做预处理,去除Title文本中的空格与下划线等干扰内容,对预处理后的Title文本使用分词技术进行分词,得到分词个数N0;
S12:将分词后得到的关键词与第一Title关键词库进行匹配,若两者匹配个数N1不小于1,再与第二Title关键词库匹配,也得到匹配个数N2;
S13:通过两次匹配,得到总的关键词匹配数,定义Title关键词匹配度α的大小表示待测网页与金融类网页Title的相似程度;可以根据与第一Title关键词库的匹配情况确定金融类钓鱼网页的具体仿冒对象。
3.根据权利要求1所述的基于Web页面特征的金融类钓鱼网页检测方法,其特征在于:在步骤S2中,所述提取待测网页特定标签中的文本信息,统计文本信息与敏感关键词库的匹配个数,计算出Web敏感特征值具体包括:
S21:获取待测网页HTML特定标签的文本信息,包括a标签、h标签以及span标签中的文本信息,预处理所获取的标签文本,并提取有效的文本信息及其条数i;
S22:将每条文本先与敏感关键词库进行第一次匹配,若匹配,则进行下一条文本的匹配,若不匹配,则将该条文本分词后得到的关键词与敏感关键词库进行第二次匹配,只要有一个关键词匹配成功,则进行下一条文本的匹配;
S23:通过一次或者两次匹配可以得到匹配的文本条数j(j≤i),定义Web敏感特征值β的大小反映待测网页文本特征与金融类网页文本特征的相似程度。
4.根据权利要求1所述的基于Web页面特征的金融类钓鱼网页检测方法,其特征在于:在步骤S3中,所述对待测网页进行定点截图,截图尽可能以最小的面积包含待测网页的Logo图标具体包括:
S31:调用自动化测试工具,自动打开浏览器获取待测网页,调整浏览器窗口尺寸大小为800*600,该尺寸足够包含网页的Logo;
S32:调用截图工具自动截取浏览器页面上方600*250的区域,该区域能以最小的面积包含所有待测网页的Logo图标,最小的Logo截图能够减小特征点计算量和降低金融类钓鱼网页检测误判率。
5.根据权利要求1所述的基于Web页面特征的金融类钓鱼网页检测方法,其特征在于:在步骤S4中,所述提取出Logo截图的特征点,将其与网页Logo图标特征点规则库进行对比,根据特征点的匹配个数计算出两幅Logo图片的相似度具体包括:
S41:利用图像特征点提取算法提取出Logo截图的特征点数据D0,并得到特征点个数k;
S42:从金融类Logo图片特征点规则库中取出一幅Logo图片特征点数据D,D有m个特征点;
S43:使用图像特征点匹配算法计算D0与D相匹配的特征点个数n(n≤k,m);
S44:定义两幅Logo图片的相似度为根据金融类Logo图片特征点规则库的信息确定金融类钓鱼网页的具体仿冒对象。