基于Web页面特征的金融类钓鱼网页检测方法与流程

文档序号：12278707阅读：来源：国知局

技术特征：

1.一种基于Web页面特征的金融类钓鱼网页检测方法，其特征在于：该方法的执行基于预先建立的金融类第一Title关键词库、第二Title关键词库、敏感关键词库以及网页Logo图片特征点规则库；该方法具体包括以下步骤：

S1：使用爬虫获取的待测网页的HTML，提取Title标签中的文本信息，计算文本信息与第一Title关键词库、第二Title关键词的匹配度，若匹配度大于阈值，判定待测网页为钓鱼网页，否则，进入步骤S2对待测网页做进一步检测；

S2：提取待测网页特定标签中的文本信息，统计文本信息与敏感关键词库的匹配个数，计算出Web敏感特征值，若特征值大于阈值，判定待测网页为钓鱼网页，否则，进入步骤S3对待测网页做进一步检测；

S3：对待测网页进行定点截图，截图尽可能以最小的面积包含待测网页的Logo图片；

S4：提取出Logo截图的特征点，将其与网页Logo图片特征点规则库进行对比，根据特征点的匹配个数计算出两幅Logo图片的相似度，若相似度大于阈值，判定待测网页为钓鱼网页，否则，判定待测网页为正常网页。

2.根据权利要求1所述的基于Web页面特征的金融类钓鱼网页检测方法，其特征在于：在步骤S1中，所述使用爬虫获取的待测网页的HTML，提取Title标签中的文本信息，计算文本信息与第一Title关键词库、第二Title关键词的匹配度具体包括：

S11：通过网页爬虫工具，获取待测URL的Web页面Title文本信息，对Title文本做预处理，去除Title文本中的空格与下划线等干扰内容，对预处理后的Title文本使用分词技术进行分词，得到分词个数N₀；

S12：将分词后得到的关键词与第一Title关键词库进行匹配，若两者匹配个数N₁不小于1，再与第二Title关键词库匹配，也得到匹配个数N₂；

S13：通过两次匹配，得到总的关键词匹配数，定义Title关键词匹配度α的大小表示待测网页与金融类网页Title的相似程度；可以根据与第一Title关键词库的匹配情况确定金融类钓鱼网页的具体仿冒对象。

3.根据权利要求1所述的基于Web页面特征的金融类钓鱼网页检测方法，其特征在于：在步骤S2中，所述提取待测网页特定标签中的文本信息，统计文本信息与敏感关键词库的匹配个数，计算出Web敏感特征值具体包括：

S21：获取待测网页HTML特定标签的文本信息，包括a标签、h标签以及span标签中的文本信息，预处理所获取的标签文本，并提取有效的文本信息及其条数i；

S22：将每条文本先与敏感关键词库进行第一次匹配，若匹配，则进行下一条文本的匹配，若不匹配，则将该条文本分词后得到的关键词与敏感关键词库进行第二次匹配，只要有一个关键词匹配成功，则进行下一条文本的匹配；

S23：通过一次或者两次匹配可以得到匹配的文本条数j(j≤i)，定义Web敏感特征值β的大小反映待测网页文本特征与金融类网页文本特征的相似程度。

4.根据权利要求1所述的基于Web页面特征的金融类钓鱼网页检测方法，其特征在于：在步骤S3中，所述对待测网页进行定点截图，截图尽可能以最小的面积包含待测网页的Logo图标具体包括：

S31：调用自动化测试工具，自动打开浏览器获取待测网页，调整浏览器窗口尺寸大小为800*600，该尺寸足够包含网页的Logo；

S32：调用截图工具自动截取浏览器页面上方600*250的区域，该区域能以最小的面积包含所有待测网页的Logo图标，最小的Logo截图能够减小特征点计算量和降低金融类钓鱼网页检测误判率。

5.根据权利要求1所述的基于Web页面特征的金融类钓鱼网页检测方法，其特征在于：在步骤S4中，所述提取出Logo截图的特征点，将其与网页Logo图标特征点规则库进行对比，根据特征点的匹配个数计算出两幅Logo图片的相似度具体包括：

S41：利用图像特征点提取算法提取出Logo截图的特征点数据D₀，并得到特征点个数k；

S42：从金融类Logo图片特征点规则库中取出一幅Logo图片特征点数据D，D有m个特征点；

S43：使用图像特征点匹配算法计算D₀与D相匹配的特征点个数n(n≤k,m)；

S44：定义两幅Logo图片的相似度为根据金融类Logo图片特征点规则库的信息确定金融类钓鱼网页的具体仿冒对象。

完整全部详细技术资料下载

当前第2页1 2 3