钓鱼网站识别方法、装置和计算机可读存储介质与流程

文档序号:26938061发布日期:2021-10-12 13:16阅读:68来源:国知局
钓鱼网站识别方法、装置和计算机可读存储介质与流程

1.本发明涉及信息安全领域,特别涉及一种钓鱼网站识别方法、装置和计算机可读存储介质。


背景技术:

2.随着网络普及和在线交易的增加,通过钓鱼网站实行网络诈骗的行为越来越猖獗。钓鱼网站是犯罪分子模仿合法网页做出的诈骗网站,通常与银行网站或其他知名网站几乎相同,从而引诱网站使用者在钓鱼网站上提交敏感信息,例如:用户名、口令、银行帐号或信用卡详细信息等。
3.在相关技术中,钓鱼网站检测技术主要有黑名单过滤技术、启发式特征检测技术、基于感知哈希的视觉相似度检测技术等。黑名单过滤技术需要管理者对黑名单不断进行更新。启发式特征检测技术来自于钓鱼网站的统计特征和人工总结。基于感知哈希的视觉相似度检测技术对于图像的轮廓等信息进行识别,以确定相似的网站。


技术实现要素:

4.发明人对相关技术进行分析后发现,黑名单过滤技术依赖于人工审核,对钓鱼网站的发现周期长、漏报可能性大。启发式特征检测技术的识别率依赖于对相关领域知识了解的多少,并且部分合法内容也可能会因为含有某些启发式特征而被误判。基于哈希感知的视觉检测技术的识别粒度较粗,因此对于部分结构简单、色彩单调的待测网页,存在识别精准率低的缺陷。因此,相关技术对钓鱼网站进行识别的准确率均比较低。
5.本发明实施例所要解决的一个技术问题是:如何提高识别钓鱼网站的准确率。
6.根据本发明一些实施例的第一个方面,提供一种钓鱼网站识别方法,包括:对待识别的网页的网页图像进行分块,获得多个图像块;提取每个图像块的低频信息;根据预先确定的分箱数量,对每个图像块的低频信息进行编码;根据每个图像块的编码结果确定网页图像的编码;确定网页图像的编码与预设的白名单网页的图像的编码的相似度;在相似度高于预设值的情况下,将网页确定为钓鱼网站的网页。
7.在一些实施例中,根据预先确定的分箱数量,对每个图像块的低频信息进行编码包括:根据预先确定的分箱数量,确定每个图像块中低频信息的分位点;对于每个图像块,根据图像块对应的分位点和图像块的低频信息中每个元素的值,确定每个元素所属的分位区间;根据每个分位区间对应的预设编码值,确定每个图像块中低频信息的编码。
8.在一些实施例中,分箱数量是根据图像的复杂度确定的,分箱数量与复杂度成负相关关系。
9.在一些实施例中,复杂度为网页图像中低频信息的频数。
10.在一些实施例中,根据每个图像块的编码结果确定网页图像的编码包括:将网页图像中的每个图像块对应的编码进行叠加,获得网页图像的编码。
11.在一些实施例中,提取每个图像块的低频信息包括:对每个图像块进行二维离散
余弦变换,获得每个图像块的频率灰度矩阵;提取每个图像块的频率灰度矩阵中左上角的预设大小子矩阵,作为相应图像块的低频信息。
12.在一些实施例中,确定网页图像的编码与预设的白名单网页的图像的编码的相似度包括:计算网页图像的编码与预设的白名单网页的图像的编码之间的距离;将进行标准化处理后的距离确定为网页图像的编码与预设的白名单网页的图像的编码之间的相似度。
13.在一些实施例中,对待识别的网页的网页图像进行分块包括:将获取的待识别的网页的原始的网页图像调整为预设尺寸的图像;对调整尺寸后的网页图像进行灰度处理,获得灰度网页图像;对灰度网页图像进行分块。
14.在一些实施例中,待识别的网页为预先确定的、具有安全风险的网页。
15.根据本发明一些实施例的第二个方面,提供一种钓鱼网站识别装置,包括:分块模块,被配置为对待识别的网页的网页图像进行分块,获得多个图像块;低频信息提取模块,被配置为提取每个图像块的低频信息;图像块编码模块,被配置为根据预先确定的分箱数量,对每个图像块的低频信息进行编码;图像编码模块,被配置为根据每个图像块的编码结果确定网页图像的编码;相似度确定模块,被配置为确定网页图像的编码与预设的白名单网页的图像的编码的相似度;网页判定模块,被配置为在相似度高于预设值的情况下,将网页确定为钓鱼网站的网页。
16.根据本发明一些实施例的第三个方面,提供一种钓鱼网站识别装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述任意一种钓鱼网站识别方法。
17.根据本发明一些实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意一种钓鱼网站识别方法。
18.上述发明中的一些实施例具有如下优点或有益效果:本发明的实施例可以通过基于多分箱的方法,利用网页图像的低频信息对网页图像进行更精准的编码,从而可以更准确地筛选与待识别的网页相似的网页,提高了钓鱼网站识别的准确率。
19.通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
20.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
21.图1示出了根据本发明一些实施例的钓鱼网站识别方法的流程示意图。
22.图2示出了根据本发明一些实施例的钓鱼网站识别装置的结构示意图。
23.图3示出了根据本发明另一些实施例的钓鱼网站识别装置的结构示意图。
24.图4示出了根据本发明又一些实施例的钓鱼网站识别装置的结构示意图。
具体实施方式
25.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
26.除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
27.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
28.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
29.在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
30.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
31.图1示出了根据本发明一些实施例的钓鱼网站识别方法的流程示意图。如图1所示,该实施例的钓鱼网站识别方法包括步骤s102~s112。
32.在步骤s102中,对待识别的网页的网页图像进行分块,获得多个图像块。
33.在一些实施例中,可以预先对网页图像进行预处理。例如,将获取的待识别的网页的原始的网页图像调整为预设尺寸的图像;对调整尺寸后的网页图像进行灰度处理,获得灰度网页图像;对灰度网页图像进行分块。通过将网页图像处理为预设尺寸的灰度图,可以提高处理效率。在调整图像尺寸时,如果原始的网页图像小于预设的尺寸,可以通过插值的方式实现尺寸的扩展。
34.图像块的大小也可以是预设的,以便统一图像块的尺寸。
35.在一些实施例中,待识别的网页为预先确定的、具有安全风险的网页。例如,当通过某些安全检测技术判定某网站为恶意网站时,可以获取该网站的截图,并利用本发明的方法进一步判断网站的类型是否为钓鱼网站,以便后续进行有针对性的防御和管制策略。
36.在步骤s104中,提取每个图像块的低频信息。
37.在一些实施例中,对每个图像块进行二维离散余弦(discrete cosine transform,简称:dct)变换,获得每个图像块的频率灰度矩阵;提取每个图像块的频率灰度矩阵中左上角的预设大小子矩阵,作为相应图像块的低频信息。
38.频率灰度矩阵反映了图像块中像素灰度值的频率分布。从频率灰度矩阵的左上角至右下角方向,频率逐渐升高。因此,可以通过提取左上角的子矩阵获得图像块的低频信息。
39.低频信息能够反映图像中轮廓等具有特点的信息,这些信息更有助于将图像与其他不同的图像进行区分。
40.在步骤s106中,根据预先确定的分箱数量,对每个图像块的低频信息进行编码。
41.通常的图像编码方式是利用平均哈希、感知哈希等方法,将图像转换为由0和1构成的哈希序列。然而,这种编码方式比较粗糙。如果图像的结构和颜色比较简单,则仅通过0和1的编码难以准确地体现图像的特征。
42.而本技术利用了分箱的思想。分箱是一种将多个连续值分组为较少数量的离散值的数据处理方式。从而,可以通过灵活设置的分箱数量来对图像的低频信息进行更复杂的编码。在一些实施例中,分享数量大于2,从而编码结果相较于传统的0和1编码的方式,具有更大的信息量,可以更准确地描述网页。本发明使用的编码方式例如可以称为基于分箱的哈希编码。
43.在一些实施例中,根据预先确定的分箱数量,确定每个图像块中低频信息的分位点;对于每个图像块,根据图像块对应的分位点和图像块的低频信息中每个元素的值,确定每个元素所属的分位区间;根据每个分位区间对应的预设编码值,确定每个图像块中低频信息的编码。
44.例如,预先确定的分箱数量为4,则可以确定低频信息的三个四分位点,并确定相邻四分位点之间的区间以及区间对应的编码(例如四个区间依次采用0~3表示)。如果低频信息是以矩阵的形式表示的,则可以逐一比较矩阵中的元素与各个分位点之间的大小关系,从而确定元素所属的区间。
45.分箱数量可以是根据经验预先设置的,以简化处理过程。此外,也可以根据图像的复杂度自适应生成。在一些实施例中,确定图像的复杂度;根据复杂度确定分箱数量,其中,分箱数量与复杂度成负相关关系。即,图像复杂度越低,则分箱数量越大。从而对于简单的图像,可以更细致地对低频进行分箱,从而更精确地对图像中的细微差异进行细量化的编码。
46.在一些实施例中,复杂度为网页图像中低频信息的频数。用于统计复杂度的低频信息可以为各个图像块中提取的低频信息数的总和。
47.在步骤s108中,根据每个图像块的编码结果确定网页图像的编码。该编码可以视为是网页图像的指纹。
48.在一些实施例中,将网页图像中的每个图像块对应的编码进行叠加,获得网页图像的编码。例如,将各个图像块的编码按位相加。在一些实施例中,还可以对叠加后的结果进行标准化处理,得到网页图像的编码。
49.在步骤s110中,确定网页图像的编码与预设的白名单网页的图像的编码的相似度。
50.在一些实施例中,计算网页图像的编码与预设的白名单网页的图像的编码之间的距离,例如汉明距离;将进行标准化处理后的距离确定为网页图像的编码与预设的白名单网页的图像的编码之间的相似度。
51.预设的白名单网页的图像也可以是采用与待识别的网页的网页图像相同的编码方式进行编码的。
52.在步骤s112中,在相似度高于预设值的情况下,将网页确定为钓鱼网站的网页。
53.在一些实施例中,可以采用迭代的方式逐一判断待识别的网页与白名单列表中的网页的图像相似度,迭代次数为列表中的网页图像的数量。
54.通过上述实施例的方法,可以通过基于多分箱的方法,利用网页图像的低频信息对网页图像进行更精准的编码,从而可以更准确地筛选与待识别的网页相似的网页,提高了钓鱼网站识别的准确率。
55.下面参考图2描述本发明钓鱼网站识别装置的实施例。
56.图2示出了根据本发明一些实施例的钓鱼网站识别装置的结构示意图。如图2所示,该实施例的钓鱼网站识别装置20包括:分块模块210,被配置为对待识别的网页的网页图像进行分块,获得多个图像块;低频信息提取模块220,被配置为提取每个图像块的低频信息;图像块编码模块230,被配置为根据预先确定的分箱数量,对每个图像块的低频信息进行编码;图像编码模块240,被配置为根据每个图像块的编码结果确定网页图像的编码;相似度确定模块250,被配置为确定网页图像的编码与预设的白名单网页的图像的编码的相似度;网页判定模块260,被配置为在相似度高于预设值的情况下,将网页确定为钓鱼网站的网页。
57.在一些实施例中,图像编码模块240进一步被配置为根据预先确定的分箱数量,确定每个图像块中低频信息的分位点;对于每个图像块,根据图像块对应的分位点和图像块的低频信息中每个元素的值,确定每个元素所属的分位区间;根据每个分位区间对应的预设编码值,确定每个图像块中低频信息的编码。
58.在一些实施例中,分箱数量是根据图像的复杂度确定的,分箱数量与复杂度成负相关关系。
59.在一些实施例中,复杂度为网页图像中低频信息的频数。
60.在一些实施例中,图像编码模块240进一步被配置为将网页图像中的每个图像块对应的编码进行叠加,获得网页图像的编码。
61.在一些实施例中,低频信息提取模块220进一步被配置为对每个图像块进行二维离散余弦变换,获得每个图像块的频率灰度矩阵;提取每个图像块的频率灰度矩阵中左上角的预设大小子矩阵,作为相应图像块的低频信息。
62.在一些实施例中,相似度确定模块250进一步被配置为计算网页图像的编码与预设的白名单网页的图像的编码之间的距离;将进行标准化处理后的距离确定为网页图像的编码与预设的白名单网页的图像的编码之间的相似度。
63.在一些实施例中,分块模块210进一步被配置为将获取的待识别的网页的原始的网页图像调整为预设尺寸的图像;对调整尺寸后的网页图像进行灰度处理,获得灰度网页图像;对灰度网页图像进行分块。
64.在一些实施例中,待识别的网页为预先确定的、具有安全风险的网页。
65.图3示出了根据本发明另一些实施例的钓鱼网站识别装置的结构示意图。如图3所示,该实施例的钓鱼网站识别装置30包括:存储器310以及耦接至该存储器310的处理器320,处理器320被配置为基于存储在存储器310中的指令,执行前述任意一个实施例中的钓鱼网站识别方法。
66.其中,存储器310例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(boot loader)以及其他程序等。
67.图4示出了根据本发明又一些实施例的钓鱼网站识别装置的结构示意图。如图4所示,该实施例的钓鱼网站识别装置40包括:存储器410以及处理器420,还可以包括输入输出接口430、网络接口440、存储接口450等。这些接口430,440,450以及存储器410和处理器420之间例如可以通过总线460连接。其中,输入输出接口430为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口440为各种联网设备提供连接接口。存储接口450为sd卡、u盘等外置存储设备提供连接接口。
68.本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种钓鱼网站识别方法。
69.本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
70.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
71.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
72.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
73.以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1