钓鱼网站识别方法及系统与流程

文档序号:15497859发布日期:2018-09-21 22:03阅读:335来源:国知局

本发明涉及信息检测与处理领域,更具体的说,涉及钓鱼网站识别方法及系统。



背景技术:

网络钓鱼是一种利用社会工程学和技术手段来窃取消费者的个人身份数据和财务账户凭证的网络攻击方式。网络钓鱼本质上属于品牌仿冒,为了达到以假乱真的效果,钓鱼网站在视觉和语义上高度相似于品牌网站。

现有的钓鱼网站识别方法中,一种方案是先构建包含有各品牌网站视觉特征的视觉特征集,再获取待检测网站的视觉特征,通过待检测网站的视觉特征与构建好的视觉特征集中的视觉特征进行比对,来识别待检测网站的品牌信息,最后通过待检测网站的品牌信息与待检测网站之间进行信息比对,识别待检测网站是否为钓鱼网站。但是,该方案在每次识别待检测网站的品牌信息时,都需要遍历整个视觉特征集,在视觉特征集数据量较大的情况下,使得品牌信息的识别效率较低,从而影响钓鱼网站的识别效率。另一种方案是直接利用现有的搜索引擎(例如,google图片搜索),对待检测网站的视觉特征进行搜索,以获取相应的品牌信息,最后将搜索到的品牌信息与待检测网站之间进行信息比对,识别待检测网站是否为钓鱼网站,这种方案虽然不依赖于视觉特征集,但却依赖于第三方服务,品牌信息的识别受到第三方服务的服务效率及可用性影响,识别效率得不到保障,进而影响钓鱼网站的识别效率。

所以,目前迫切需要一种切实有效的钓鱼网站识别方案,以提高钓鱼网站的识别效率。



技术实现要素:

有鉴于此,本发明提供了一种钓鱼网站识别方法及系统,以解决现有技术中钓鱼网站识别效率较低且得不到保障的技术问题。

为实现上述目的,本发明提供如下技术方案:

一种钓鱼网站识别方法,包括:

获取目标网站的网页视觉特征;

利用预设的品牌识别模型,识别与所述目标网站的网页视觉特征相匹配的品牌信息,作为识别品牌信息;

根据所述识别品牌信息与所述目标网站的身份信息,识别所述目标网站是否属于钓鱼网站;

其中,所述预设的品牌识别模型为,以标记有品牌信息的网页视觉特征作为训练样本,训练得到的机器学习模型。

优选的,所述网页视觉特征包括:收藏夹图标、网页截图与品牌象征图片;相应的,所述预设的品牌识别模型包括第一识别模型、第二识别模型与第三识别模型;其中,

第一识别模型为,以标记有品牌信息的收藏夹图标作为训练样本,训练得到的机器学习模型;

第二识别模型为,以标记有品牌信息的网页截图作为训练样本,训练得到的机器学习模型;

第三识别模型为,以标记有品牌信息的品牌象征图片作为训练样本,训练得到的机器学习模型。

优选的,获取目标网站的收藏夹图标包括:

在浏览器加载所述目标网站的网页后,获取包含所述浏览器界面的屏幕截图;

从所述屏幕截图中截取指定区域的图片,得到所述目标网站的收藏夹图标;所述指定区域为,所述浏览器界面中用于显示收藏夹图标的区域。

优选的,获取目标网站的网页截图包括:

利用phantomjs动态加载所述目标网站的网页js代码,并获取所述网页js代码被加载后的所述目标网站的网页截图。

优选的,获取目标网站的品牌象征图片包括:

获取所述目标网站的网页html代码;

对所述网页html代码进行解析,获取所述目标网站的品牌象征图片。

优选的,所述利用预设的品牌识别模型,识别与所述目标网站的网页视觉特征相匹配的品牌信息,作为识别品牌信息包括:

利用所述第一识别模型,获取与所述目标网站的收藏夹图标相匹配的第一品牌信息;

利用所述第二识别模型,获取与所述目标网站的网页截图相匹配的第二品牌信息;

利用所述第三识别模型,获取与所述目标网站的品牌象征图片相匹配的第三品牌信息;

根据所述第一品牌信息、所述第二品牌信息与所述第三品牌信息,确定所述识别品牌信息。

优选的,所述第一品牌信息包括第一品牌集合以及所述第一品牌集合中各品牌的概率值;所述第二品牌信息包括第二品牌集合以及所述第二品牌集合中各品牌的概率值;所述第三品牌信息包括第三品牌集合以及所述第三品牌集合中各品牌的概率值;所述根据所述第一品牌信息、所述第二品牌信息与所述第三品牌信息,确定所述识别品牌信息包括:

根据所述第一品牌集合中各品牌的概率值、所述第二品牌集合中各品牌的概率值与所述第三品牌集合中各品牌的概率值,对所述第一品牌集合、所述第二品牌集合与所述第三品牌集合中覆盖的所有品牌分别进行评分,得到评分结果;

根据所述评分结果,从所述所有品牌中获取评分最高的品牌,作为识别品牌信息。

优选的,所述根据所述识别品牌信息与所述目标网站的身份信息,识别所述目标网站是否属于钓鱼网站包括:

根据所述识别品牌信息,获取与所述识别品牌信息相对应的品牌网站的身份信息;

根据所述品牌网站的身份信息与所述目标网站的身份信息的一致性,识别所述目标网站是否属于钓鱼网站。

优选的,所述方法还包括:

当所述目标网站的收藏夹图标获取失败时,将所述第一品牌信息设置为空;

当所述目标网站的网页截图获取失败时,将所述第二品牌信息设置为空;

当所述目标网站的品牌象征图片获取失败时,将所述第三品牌信息设置为空;

当所述第一品牌信息、所述第二品牌信息与所述第三品牌信息均为空时,直接确定所述目标网站为钓鱼网站。

优选的,所述预设的品牌识别模型为卷积神经网络cnn模型。

一种钓鱼网站识别系统,包括:

视觉特征获取单元,用于获取目标网站的网页视觉特征;

品牌信息识别单元,用于利用预设的品牌识别模型,识别与所述目标网站的网页视觉特征相匹配的品牌信息,作为识别品牌信息;

钓鱼网站识别单元,用于根据所述识别品牌信息与所述目标网站的身份信息,识别所述目标网站是否属于钓鱼网站;

其中,所述预设的品牌识别模型为,以标记有品牌信息的网页视觉特征作为训练样本,训练得到的机器学习模型。

从上述的技术方案可以看出,本发明提供的钓鱼网站识别方法及系统,获取目标网站的网页视觉特征;利用以标记有品牌信息的网页视觉特征作为训练样本,训练得到的品牌识别模型,识别与所述目标网站的网页视觉特征相匹配的品牌信息,作为识别品牌信息,根据所述识别品牌信息与所述目标网站的身份信息,识别所述目标网站是否属于钓鱼网站,充分利用了机器学习模型在数据分类方面的优点,提高了目标网站的识别品牌信息的获取效率,并且,相较于遍历视觉特征集与依赖第三方图片搜索服务来获取识别品牌信息的方式,无需针对网页视觉特征在视觉特征集进行大量的遍历操作,也无需依赖于第三方服务来实现识别品牌信息的获取,从整体上提升了钓鱼网站的识别能力和效率,更具有实际应用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的钓鱼网站识别方法的一种流程图;

图2为本申请实施例提供的品牌识别模型的训练示意图;

图3为本申请实施例提供的网页视觉特征获取过程的流程图;

图4为本申请实施例提供的钓鱼网站识别方法的另一种流程图;

图5为本申请实施例提供的品牌识别模型的应用示意图;

图6为本申请实施例提供的钓鱼网站识别过程的示例图;

图7为本申请实施例提供的钓鱼网站识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在对本申请实施例公开的钓鱼网站识别方法进行介绍之前,首先对本申请实施例公开的钓鱼网站识别方法的构思过程进行简要介绍,具体如下:

现有钓鱼网站识别方案中主要依靠品牌网站的视觉特征集的构建来识别待检测网站的品牌信息,或依赖于第三方提供的视觉特征搜索服务来识别待检测网站的品牌信息。依靠视觉特征集来识别待检测网站的品牌信息的方式,每次识别过程都需要遍历整个视觉特征集,识别效率较低;而依赖于第三方服务来识别待检测网站的品牌信息的方式,过多地受制于第三方服务的服务效率及可用性,使品牌信息的识别效率同样得不到保障。

鉴于上述问题,本发明在获取到目标网站的网页视觉特征后,利用预设的品牌识别模型,识别与所述目标网站的网页视觉特征相匹配的品牌信息,作为识别品牌信息;其中,所述预设的品牌识别模型为,以标记有品牌信息的网页视觉特征作为训练样本,训练得到的机器学习模型;最后,根据所述识别品牌信息与所述目标网站的身份信息,识别所述目标网站是否属于钓鱼网站,从而利用机器学习模型,实现了钓鱼网站的智能化识别,无需依赖于视觉特征集,节省了对视觉特征集进行遍历的过程,也无需依赖于第三方服务,使得品牌信息的识别效率能够得到保障,从整体上提高了钓鱼网站的识别效率。

接下来对本申请实施例提供的钓鱼网站识别方法进行介绍。

请参阅图1,图1为本申请实施例提供的钓鱼网站识别方法的一种流程图。

如图1所示,所述方法包括:

s101:获取目标网站的网页视觉特征。

不法分子为了通过钓鱼网站骗取用户的信任,会将钓鱼网站的网页设计成与合法网站的网页极为相似的网页,其中,相似的内容通常包括网站的页面布局、收藏夹图标、品牌象征图片(如网页logo图片、登录框界面、版权声明、服务标语、客服图标等)等多种网页视觉特征。

目标网站是指待识别是否为钓鱼网站的网站。目标网站的网页视觉特征从视觉效果上为用户展现了相匹配的品牌,所以,根据目标网站的网页视觉特征,可以获得目标网站从视觉效果上展示给用户的品牌信息。

s102:利用预设的品牌识别模型,识别与所述目标网站的网页视觉特征相匹配的品牌信息,作为识别品牌信息。

所述预设的品牌识别模型为,以标记有品牌信息的网页视觉特征作为训练样本,训练得到的机器学习模型。

所述品牌识别模型可采用卷积神经网络(cnn,convolutionalneuralnetworks)模型来实现,也可以采用深度神经网络(dnn,deepneuralnetwork)模型或其他类型的机器学习模型来实现,即,所述品牌识别模型可以为cnn模型,也可以为dnn模型或其他类型的机器学习模型。

其中,cnn模型对于图片的分类,具有较高的准确性及识别效率,采用cnn模型来实现品牌识别模型,能够有效提高识别品牌信息的获取效率及准确性,从而提高整个钓鱼网站识别过程的效率。

s103:根据所述识别品牌信息与所述目标网站的身份信息,识别所述目标网站是否属于钓鱼网站。

在实际情况中,与合法网站的网页视觉特征相匹配的识别品牌信息,与合法网站的身份信息之间具有一致性,所以,当识别品牌信息与目标网站的身份信息之间具有一致性时,表明该目标网站为该识别品牌信息的官方网站,据此识别出该目标网站为合法网站;当识别品牌信息与目标网站的身份信息之间不具有一致性或一致性极低时,表明该目标网站不是该识别品牌信息的官方网站,据此识别出该目标网站为钓鱼网站。

一示例中,根据所述识别品牌信息与所述目标网站的身份信息,识别所述目标网站是否属于钓鱼网站,可包括:根据所述识别品牌信息,获取与所述识别品牌信息相对应的品牌网站的身份信息;根据所述品牌网站的身份信息与所述目标网站的身份信息的一致性,识别所述目标网站是否属于钓鱼网站。

例如,当所述品牌网站的身份信息与所述目标网站的身份信息相同时,则判定所述品牌网站的身份信息与所述目标网站的身份信息具有一致性;否则,判定所述品牌网站的身份信息与所述目标网站的身份信息不具有一致性。

其中,网站的身份信息是指能够表征网站真实身份的信息,例如,网站的域名信息、网站的解析服务器所采用名称服务器信息等。

本实施例提供的钓鱼网站识别方法,获取目标网站的网页视觉特征;利用以标记有品牌信息的网页视觉特征作为训练样本,训练得到的品牌识别模型,识别与所述目标网站的网页视觉特征相匹配的品牌信息,作为识别品牌信息,根据所述识别品牌信息与所述目标网站的身份信息,识别所述目标网站是否属于钓鱼网站,充分利用了机器学习模型在数据分类方面的优点,提高了目标网站的识别品牌信息的获取效率,并且,相较于遍历视觉特征集与依赖第三方图片搜索服务来获取识别品牌信息的方式,无需针对网页视觉特征在视觉特征集进行大量的遍历操作,也无需依赖于第三方服务来实现识别品牌信息的获取,从整体上提升了钓鱼网站的识别能力和效率,更具有实际应用价值。

本申请实施例提供的钓鱼网站识别方法中,所述网页视觉特征可包括:收藏夹图标、网页截图与品牌象征图片;相应的,所述预设的品牌识别模型中可包括第一识别模型、第二识别模型与第三识别模型;其中,

第一识别模型为,以标记有品牌信息的收藏夹图标作为训练样本,训练得到的机器学习模型;

第二识别模型为,以标记有品牌信息的网页截图作为训练样本,训练得到的机器学习模型;

第三识别模型为,以标记有品牌信息的品牌象征图片作为训练样本,训练得到的机器学习模型。

一示例中,品牌识别模型的训练方式,可如图2所示:

首先,根据预先获取到的网页视觉特征构建训练样本集。具体地,根据标记有品牌信息的收藏夹图标,构建收藏夹图标样本集;根据标记有品牌信息的网页截图,构建网页截图样本集;根据标记有品牌信息的品牌象征图片,构建品牌象征图片样本集。

然后,采用收藏夹图标样本集、网页截图样本集与品牌象征图片,分别对单独的机器学习模型进行训练,进而得到单独的第一识别模型、第二识别模型与第三识别模型。

可选的,可基于tensorflow框架来构建cnn模型,并将三个尺度的样本集分别作为训练集,训练cnn模型,进而得到第一识别模型、第二识别模型与第三识别模型。其中,tensorflow是一个采用数据流图且用于数值计算的开源软件库。

本实施例提供的钓鱼网站识别方法,基于网站的收藏夹图标、网页截图与品牌象征图片等多个尺度的网页视觉特征,来识别与所述目标网站的网页视觉特征相匹配的品牌信息,最大程度地挖掘了目标网页的网页视觉特征,全面覆盖了网站的视觉特性,提高了识别品牌信息的准确性,从而更好地为钓鱼网站的识别提供了充分的数据支持,提高了钓鱼网站的识别效率及准确性。

针对于目标网站的收藏夹图标、网页截图与品牌象征图片等多个尺度的网页视觉特征,本申请实施例还提供了网页视觉特征的获取方案,用于对目标网站的收藏夹图标、网页截图与品牌象征图片进行获取。请参阅图3,图3为本申请实施例提供的网页视觉特征获取过程的流程图。

如图3所示,所述网页视觉特征获取过程包括:

s201:在浏览器加载所述目标网站的网页后,获取包含所述浏览器界面的屏幕截图。

在大多数浏览器中,收藏夹图标(favicon)通常被设置在浏览器的收藏夹、地址栏、页面选项卡等特定位置,用以标识不同的网站。

s202:从所述屏幕截图中截取指定区域的图片,得到所述目标网站的收藏夹图标。

其中,所述指定区域为,所述浏览器界面中用于显示收藏夹图标的区域。

在同一浏览器中,收藏夹图标所呈现的位置和大小通常是固定的,即,浏览器界面中用于显示收藏夹图标的区域与浏览器之间存在对应关系。所以,根据浏览器界面中用于显示收藏夹图标的区域与浏览器之间的对应关系,可以直接获得该浏览器的收藏夹图标分别位于什么区域。然后,基于包含所述浏览器界面的屏幕截图,将屏幕截图中的浏览器界面中用于显示收藏夹图标的区域作为指定区域,从所述屏幕截图中截取指定区域的图片,便可以得到所述目标网站的收藏夹图标。例如,截取屏幕截图中指定位置的16×16像素大小的图片,该图片即为收藏夹图标。

通过步骤s201-s202来获取目标网站的收藏夹图标的方式,相较于直接从网页html代码中按照预设规则提取收藏夹图标的方式,避免了收藏夹图标在网页html代码中以预设规则之外的方式与页面进行链接时,无法顺利提取到收藏夹图标的问题。

s203:利用phantomjs动态加载所述目标网站的网页js代码,并获取所述网页js代码被加载后的所述目标网站的网页截图。

网络钓鱼攻击者为了规避检测,有时会设计页面跳转,即用户实际上访问的网站的url(uniformresourcelocator,统一资源定位符)与初始点击的url并不相同,在利用浏览器访问页面时,往往仅能截取到初始url对应的网页截图,而无法正确获得目标网站的网页截图;而且,在利用浏览器访问页面时,往往只能获得页面的源码,而无法获得js动态加载的信息。所以,本实施例利用phantomjs动态加载所述目标网站的网页js代码,并获取所述网页js代码被加载后的所述目标网站的网页截图,从而能够获取真实访问的目标网站的网页截图。

其中,phantomjs是一个基于webkit的javascript应用程序编程接口(apiapplicationprogramminginterface);webkit是一个开源的浏览器引擎,javascript是一种属于网络的脚本语言。

s204:获取所述目标网站的网页html代码。

一示例中,可以利用phantomjs获取完全加载后的网页html代码。

s205:对所述网页html代码进行解析,获取所述目标网站的品牌象征图片。

一个网页中通常包含很多图片,其中一部分图片是与该网站的品牌身份相关的品牌象征图片,如网页logo图片、标语图片等。

具体地,可利用beautifulsoup对所述网页html代码进行解析,获取所述目标网站的品牌象征图片。优选的,所述品牌象征图片可具体为网页logo图片。

其中,beautifulsoup是一个可以从html或xml文件中提取数据的python库,python是一种面向对象的解释型计算机程序设计语言。

本实施例中,步骤s201-s202用于实现目标网站的收藏夹图标的获取,步骤s203用于实现目标网站的网页截图的获取,步骤s204-s205用于实现目标网站的品牌象征图片的获取。其中,收藏夹图标的获取过程、网页截图的获取过程与品牌象征图片的获取过程,是相互独立的,本实施例仅给出了其中一种可选的执行顺序,在其他实施例中,也可以采取其他执行顺序。

本实施提供的网页视觉特征获取方案,获取包含所述浏览器界面的屏幕截图,并从所述屏幕截图中截取指定区域的图片,得到所述目标网站的收藏夹图标,避免了收藏夹图标在网页html代码中以预设规则之外的方式与页面进行链接时,无法顺利提取到收藏夹图标的问题;利用phantomjs动态加载所述目标网站的网页js代码,并获取所述网页js代码被加载后的所述目标网站的网页截图,能够获取真实访问的目标网站的网页截图;获取所述目标网站的网页html代码,对所述网页html代码进行解析,获取所述目标网站的品牌象征图片,能够准确获得目标网站的品牌象征图片。

请参阅图4-5,图4为本申请实施例提供的钓鱼网站识别方法的另一种流程图。

如图4所示,所述方法包括:

s301:获取目标网站的收藏夹图标、网页截图与品牌象征图片。

其中,该步骤s301可参照前述实施例中的步骤s201-s205来实现,在此不再赘述。

s302:利用所述第一识别模型,获取与所述目标网站的收藏夹图标相匹配的第一品牌信息。

s303:利用所述第二识别模型,获取与所述目标网站的网页截图相匹配的第二品牌信息。

s304:利用所述第三识别模型,获取与所述目标网站的品牌象征图片相匹配的第三品牌信息。

s305:根据所述第一品牌信息、所述第二品牌信息与所述第三品牌信息,确定所述识别品牌信息。

一示例中,所述第一品牌信息包括第一品牌集合以及所述第一品牌集合中各品牌的概率值;所述第二品牌信息包括第二品牌集合以及所述第二品牌集合中各品牌的概率值;所述第三品牌信息包括第三品牌集合以及所述第三品牌集合中各品牌的概率值。

其中,第一品牌集合中各品牌均为与所述目标网站的收藏夹图标相匹配的品牌;第二品牌集合中各品牌均为与所述目标网站的网页截图相匹配的品牌;第三品牌集合中各品牌均为与所述目标网站的品牌象征图片相匹配的品牌。

相应的,所述根据所述第一品牌信息、所述第二品牌信息与所述第三品牌信息,确定所述识别品牌信息的过程,可包括。

其中,根据所述第一品牌集合中各品牌的概率值、所述第二品牌集合中各品牌的概率值与所述第三品牌集合中各品牌的概率值,对所述第一品牌集合、所述第二品牌集合与所述第三品牌集合中覆盖的所有品牌分别进行评分,得到评分结果;根据所述评分结果,从所述所有品牌中获取评分最高的品牌,作为识别品牌信息。所述识别品牌信息至少包括所述评分最高的品牌,也可以包括所述评分最高的品牌的具体评分值,或其他相关信息。

一示例中,每个品牌集合中的各品牌为,利用相应识别模型获取到的概率值最大的前k个品牌,k≥1。例如,利用所述第一识别模型,获取到与所述目标网站的收藏夹图标相匹配的m个品牌以及m个品牌的概率值;然后,根据m个品牌的概率值大小,从m个品牌中选出概率值最大的前k个品牌,得到由这k个品牌组成的第一品牌集合,1≤k≤m。

品牌的概率值越大,表明该品牌为目标网站所匹配品牌的可能性越大,则对该品牌的评分也就越高。根据三个品牌集合中各品牌的概率值,对三个品牌集合中覆盖的所有品牌进行评分后,评分最高的品牌为目标网站所匹配品牌的可能性最大,所以,从所有品牌中获取评分最高的品牌,作为识别品牌信息,具体可参见图5所示,其中,topk个品牌及概率是指概率最大的k个品牌及其相对应的概率值。

一示例中,所述识别品牌信息的获取过程中还可以包括以下策略:

当n≤5时,令k=1,即,每个品牌集合中仅包括一个品牌,然后,通过投票的方式,从各品牌集合中的品牌中确定出一个品牌,得到识别品牌信息;

当n>5时,令k=[log2(n)],即,每个品牌集合中仅包括[log2(n)]个品牌;然后,根据三个品牌集合中各品牌的概率值,对三个品牌集合中覆盖的所有品牌进行评分;最后,获取其中评分最高的品牌,从而得到识别品牌信息。

其中,n为品牌识别模型训练时所使用的训练样本所覆盖的品牌个数。

一示例中,第一识别模型、第二识别模型与第三识别模型均采用cnn模型来实现,其中,识别品牌信息中各品牌的概率值为各品牌(cnn分类结果)的的softmax概率值。

s306:根据所述识别品牌信息与所述目标网站的身份信息,识别所述目标网站是否属于钓鱼网站。

其中,该步骤s306与前述实施例中的步骤s103相类似,具体可参见前述实施例,在此不再赘述。

本实施提供的钓鱼网站识别方法,基于目标网站的收藏夹图标、网页截图与品牌象征图片的这三个尺度的网页视觉特征,并分别利用相应的识别模型,分别获取与各网页视觉特征相对应的多个品牌信息,并根据各品牌信息中的品牌集合与品牌集合中各品牌的概率值,来确定各品牌的评分结果,然后根据评分结果,识别出与目标网站相匹配的识别品牌信息,最后,根据所述识别品牌信息与所述目标网站的身份信息,识别所述目标网站是否属于钓鱼网站,充分利用了机器学习模型在数据分类方面的优点,提高了目标网站的识别品牌信息的获取效率,从整体上提升了钓鱼网站的识别能力和效率,更具有实际应用价值。

请参阅图6,图6为本申请实施例提供的钓鱼网站识别过程的示例图。

本实施例从实际应用的角度,对钓鱼网站识别过程进行了全方位的示例描述,具体如图6所示。

首先,在获知所要访问的目标网站后,分别获取目标网站的收藏夹图标、网页截图与品牌象征图片;

然后,分别判断目标网站的收藏夹图标、网页截图与品牌象征图片是否获取成功;

当所述目标网站的收藏夹图标获取成功时,利用第一识别模型获取与所述目标网站的收藏夹图标相匹配的第一品牌信息;当所述目标网站的收藏夹图标获取失败时,将所述第一品牌信息设置为空;

当所述目标网站的网页截图获取成功时,利用第二识别模型获取与所述目标网站的网页截图相匹配的第二品牌信息;当所述目标网站的收藏夹图标获取失败时,将所述第一品牌信息设置为空;

当所述目标网站的品牌象征图片获取成功时,利用第三识别模型获取与所述目标网站的品牌象征图片相匹配的第三品牌信息;当所述目标网站的品牌象征图片获取失败时,将所述第三品牌信息设置为空;

当所述第一品牌信息、所述第二品牌信息与所述第三品牌信息均为空时,直接确定所述目标网站为钓鱼网站;当

当所述第一品牌信息、所述第二品牌信息与所述第三品牌信息中至少一项不为空时,获取所述第一品牌信息、所述第二品牌信息与所述第三品牌信息中所覆盖品牌的评分结果;

然后,根据各品牌的评分结果,确定与所述目标网站的网页视觉特征相匹配的品牌信息,作为识别品牌信息;

最后,通过对所述识别品牌信息与所述目标网站的身份信息进行一致性判断,识别所述目标网站是否属于钓鱼网站。

本实施例提供的钓鱼网站识别过程,基于目标网站的收藏夹图标、网页截图与品牌象征图片的这三个尺度的网页视觉特征,并分别利用相应的识别模型,分别获取与各网页视觉特征相对应的多个品牌信息,并根据各品牌信息中的品牌集合与品牌集合中各品牌的概率值,来确定各品牌的评分结果,然后根据评分结果,识别出与目标网站相匹配的识别品牌信息,最后,根据所述识别品牌信息与所述目标网站的身份信息,识别所述目标网站是否属于钓鱼网站,并在各网页视觉特征均获取失败时,直接确定所述目标网站为钓鱼网站,使钓鱼网站的识别过程更完善,进一步提高了目标网站的识别品牌信息的获取效率。

本发明实施例还提供了钓鱼网站识别系统,所述钓鱼网站识别系统用于实现本发明实施例提供的钓鱼网站识别方法,下文描述的钓鱼网站识别系统内容,可与上文描述的钓鱼网站识别方法内容相互对应参照。

请参阅图7,图7为本申请实施例提供的钓鱼网站识别系统的结构示意图。

如图7所示,所述系统包括:

视觉特征获取单元100,用于获取目标网站的网页视觉特征;

品牌信息识别单元200,用于利用预设的品牌识别模型,识别与所述目标网站的网页视觉特征相匹配的品牌信息,作为识别品牌信息;

钓鱼网站识别单元300,用于根据所述识别品牌信息与所述目标网站的身份信息,识别所述目标网站是否属于钓鱼网站;

其中,所述预设的品牌识别模型为,以标记有品牌信息的网页视觉特征作为训练样本,训练得到的机器学习模型。

本实施例提供的钓鱼网站识别系统,获取目标网站的网页视觉特征;利用以标记有品牌信息的网页视觉特征作为训练样本,训练得到的品牌识别模型,识别与所述目标网站的网页视觉特征相匹配的品牌信息,作为识别品牌信息,根据所述识别品牌信息与所述目标网站的身份信息,识别所述目标网站是否属于钓鱼网站,充分利用了机器学习模型在数据分类方面的优点,提高了目标网站的识别品牌信息的获取效率,并且,相较于遍历视觉特征集与依赖第三方图片搜索服务来获取识别品牌信息的方式,无需针对网页视觉特征在视觉特征集进行大量的遍历操作,也无需依赖于第三方服务来实现识别品牌信息的获取,从整体上提升了钓鱼网站的识别能力和效率,更具有实际应用价值。

在本申请其他实施例提供的钓鱼网站识别系统中,所述网页视觉特征包括:收藏夹图标、网页截图与品牌象征图片;相应的,所述预设的品牌识别模型包括第一识别模型、第二识别模型与第三识别模型;其中,

第一识别模型为,以标记有品牌信息的收藏夹图标作为训练样本,训练得到的机器学习模型;

第二识别模型为,以标记有品牌信息的网页截图作为训练样本,训练得到的机器学习模型;

第三识别模型为,以标记有品牌信息的品牌象征图片作为训练样本,训练得到的机器学习模型。

一示例中,所述视觉特征获取单元100可包括收藏夹图标获取单元、网页截图获取单元与品牌象征图片获取单元,其中:

所述收藏夹图标获取单元用于:

在浏览器加载所述目标网站的网页后,获取包含所述浏览器界面的屏幕截图;从所述屏幕截图中截取指定区域的图片,得到所述目标网站的收藏夹图标;所述指定区域为,所述浏览器界面中用于显示收藏夹图标的区域。

所述网页截图获取单元用于:

利用phantomjs动态加载所述目标网站的网页js代码,并获取所述网页js代码被加载后的所述目标网站的网页截图。

所述品牌象征图片获取单元用于:

获取所述目标网站的网页html代码;对所述网页html代码进行解析,获取所述目标网站的品牌象征图片。其中,可利用phantomjs获取完全加载后的网页html代码,利用beautifulsoup对所述网页html代码进行解析,获取所述目标网站的品牌象征图片。

一示例中,品牌信息识别单元200可包括:

第一识别单元,用于利用所述第一识别模型,获取与所述目标网站的收藏夹图标相匹配的第一品牌信息;

第二识别单元,用于利用所述第二识别模型,获取与所述目标网站的网页截图相匹配的第二品牌信息;

第三识别单元,用于利用所述第三识别模型,获取与所述目标网站的品牌象征图片相匹配的第三品牌信息;

综合识别单元,用于根据所述第一品牌信息、所述第二品牌信息与所述第三品牌信息,确定所述识别品牌信息。

一示例中,所述第一品牌信息包括第一品牌集合以及所述第一品牌集合中各品牌的概率值;所述第二品牌信息包括第二品牌集合以及所述第二品牌集合中各品牌的概率值;所述第三品牌信息包括第三品牌集合以及所述第三品牌集合中各品牌的概率值。

其中,第一品牌集合中各品牌均为与所述目标网站的收藏夹图标相匹配的品牌;第二品牌集合中各品牌均为与所述目标网站的网页截图相匹配的品牌;第三品牌集合中各品牌均为与所述目标网站的品牌象征图片相匹配的品牌。

相应的,所述综合识别单元可具体用于:

根据所述第一品牌集合中各品牌的概率值、所述第二品牌集合中各品牌的概率值与所述第三品牌集合中各品牌的概率值,对所述第一品牌集合、所述第二品牌集合与所述第三品牌集合中覆盖的所有品牌分别进行评分,得到评分结果;根据所述评分结果,从所述所有品牌中获取评分最高的品牌,作为识别品牌信息。

一示例中,所述钓鱼网站识别单元300可包括:

身份信息获取单元,用于根据所述识别品牌信息,获取与所述识别品牌信息相对应的品牌网站的身份信息;

身份信息识别单元,用于根据所述品牌网站的身份信息与所述目标网站的身份信息的一致性,识别所述目标网站是否属于钓鱼网站。

其中,网站的身份信息是指能够表征网站真实身份的信息,例如,网站的域名信息、网站的解析服务器所采用名称服务器信息等。

一示例中,所述钓鱼网站识别单元300还用于:

当所述目标网站的收藏夹图标获取失败时,将所述第一品牌信息设置为空;当所述目标网站的网页截图获取失败时,将所述第二品牌信息设置为空;当所述目标网站的品牌象征图片获取失败时,将所述第三品牌信息设置为空;当所述第一品牌信息、所述第二品牌信息与所述第三品牌信息均为空时,直接确定所述目标网站为钓鱼网站。

本实施例提供的钓鱼网站识别系统,基于目标网站的收藏夹图标、网页截图与品牌象征图片的这三个尺度的网页视觉特征,并分别利用相应的识别模型,分别获取与各网页视觉特征相对应的多个品牌信息,并根据各品牌信息中的品牌集合与品牌集合中各品牌的概率值,来确定各品牌的评分结果,然后根据评分结果,识别出与目标网站相匹配的识别品牌信息,最后,根据所述识别品牌信息与所述目标网站的身份信息,识别所述目标网站是否属于钓鱼网站,并在各网页视觉特征均获取失败时,直接确定所述目标网站为钓鱼网站,使钓鱼网站的识别过程更完善,进一步提高了目标网站的识别品牌信息的获取效率。

最后,还需要说明的是,在本文中,诸如第一和第一等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式来实现。基于这样的理解,本申请的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1