基于Web页面特征的金融类钓鱼网页检测方法与流程

文档序号:12278707阅读:来源:国知局

技术特征:

1.一种基于Web页面特征的金融类钓鱼网页检测方法,其特征在于:该方法的执行基于预先建立的金融类第一Title关键词库、第二Title关键词库、敏感关键词库以及网页Logo图片特征点规则库;该方法具体包括以下步骤:

S1:使用爬虫获取的待测网页的HTML,提取Title标签中的文本信息,计算文本信息与第一Title关键词库、第二Title关键词的匹配度,若匹配度大于阈值,判定待测网页为钓鱼网页,否则,进入步骤S2对待测网页做进一步检测;

S2:提取待测网页特定标签中的文本信息,统计文本信息与敏感关键词库的匹配个数,计算出Web敏感特征值,若特征值大于阈值,判定待测网页为钓鱼网页,否则,进入步骤S3对待测网页做进一步检测;

S3:对待测网页进行定点截图,截图尽可能以最小的面积包含待测网页的Logo图片;

S4:提取出Logo截图的特征点,将其与网页Logo图片特征点规则库进行对比,根据特征点的匹配个数计算出两幅Logo图片的相似度,若相似度大于阈值,判定待测网页为钓鱼网页,否则,判定待测网页为正常网页。

2.根据权利要求1所述的基于Web页面特征的金融类钓鱼网页检测方法,其特征在于:在步骤S1中,所述使用爬虫获取的待测网页的HTML,提取Title标签中的文本信息,计算文本信息与第一Title关键词库、第二Title关键词的匹配度具体包括:

S11:通过网页爬虫工具,获取待测URL的Web页面Title文本信息,对Title文本做预处理,去除Title文本中的空格与下划线等干扰内容,对预处理后的Title文本使用分词技术进行分词,得到分词个数N0

S12:将分词后得到的关键词与第一Title关键词库进行匹配,若两者匹配个数N1不小于1,再与第二Title关键词库匹配,也得到匹配个数N2

S13:通过两次匹配,得到总的关键词匹配数,定义Title关键词匹配度α的大小表示待测网页与金融类网页Title的相似程度;可以根据与第一Title关键词库的匹配情况确定金融类钓鱼网页的具体仿冒对象。

3.根据权利要求1所述的基于Web页面特征的金融类钓鱼网页检测方法,其特征在于:在步骤S2中,所述提取待测网页特定标签中的文本信息,统计文本信息与敏感关键词库的匹配个数,计算出Web敏感特征值具体包括:

S21:获取待测网页HTML特定标签的文本信息,包括a标签、h标签以及span标签中的文本信息,预处理所获取的标签文本,并提取有效的文本信息及其条数i;

S22:将每条文本先与敏感关键词库进行第一次匹配,若匹配,则进行下一条文本的匹配,若不匹配,则将该条文本分词后得到的关键词与敏感关键词库进行第二次匹配,只要有一个关键词匹配成功,则进行下一条文本的匹配;

S23:通过一次或者两次匹配可以得到匹配的文本条数j(j≤i),定义Web敏感特征值β的大小反映待测网页文本特征与金融类网页文本特征的相似程度。

4.根据权利要求1所述的基于Web页面特征的金融类钓鱼网页检测方法,其特征在于:在步骤S3中,所述对待测网页进行定点截图,截图尽可能以最小的面积包含待测网页的Logo图标具体包括:

S31:调用自动化测试工具,自动打开浏览器获取待测网页,调整浏览器窗口尺寸大小为800*600,该尺寸足够包含网页的Logo;

S32:调用截图工具自动截取浏览器页面上方600*250的区域,该区域能以最小的面积包含所有待测网页的Logo图标,最小的Logo截图能够减小特征点计算量和降低金融类钓鱼网页检测误判率。

5.根据权利要求1所述的基于Web页面特征的金融类钓鱼网页检测方法,其特征在于:在步骤S4中,所述提取出Logo截图的特征点,将其与网页Logo图标特征点规则库进行对比,根据特征点的匹配个数计算出两幅Logo图片的相似度具体包括:

S41:利用图像特征点提取算法提取出Logo截图的特征点数据D0,并得到特征点个数k;

S42:从金融类Logo图片特征点规则库中取出一幅Logo图片特征点数据D,D有m个特征点;

S43:使用图像特征点匹配算法计算D0与D相匹配的特征点个数n(n≤k,m);

S44:定义两幅Logo图片的相似度为根据金融类Logo图片特征点规则库的信息确定金融类钓鱼网页的具体仿冒对象。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1