钓鱼网站使用者信息的追溯方法、控制器和介质与流程

文档序号:16381685发布日期:2018-12-22 09:32阅读:306来源:国知局
钓鱼网站使用者信息的追溯方法、控制器和介质与流程

本发明涉及计算机信息安全处理技术领域,尤其涉及一种钓鱼网站使用者信息的追溯方法、控制器和介质。

背景技术

钓鱼网站是指伪装成银行及电子商务,窃取用户提交的银行帐号、密码等私密信息的网站,危害计算机信息安全,现有技术中通常采用以下几种方式来追溯钓鱼网站使用者信息:

(1)通过获取钓鱼网站域名的注册信息来追溯钓鱼网站使用者信息:

该方法通过钓鱼网站的域名注册信息,尝试获取域名的注册人名、注册电话、注册邮箱等相关信息。但是,钓鱼网站的使用者通常并不使用自己的个人信息进行域名注册,而是通过向第三方购买大量域名架设钓鱼服务用于钓鱼行骗;且目前大量的域名注册机构提供隐私保护服务,很难通过公开渠道获取到真实有效的钓鱼域名注册人信息。

(2)通过获取钓鱼网站服务器ip来追溯钓鱼网站使用者信息:

该方法通过钓鱼网站获取到网站的服务器ip地址,并尝试获取拥有服务器权限的人员信息。但是,钓鱼网站架设在短时间租赁的服务器上,无法通过公开渠道获取服务器的租赁人信息;此外,租赁服务器在很多情况下也是第三方中间人进行,并不是使用钓鱼网站进行行骗的人员,该方法成功率不高。

(3)通过钓鱼网站后台的访问行为来追溯钓鱼网站使用者信息:

该方法通过获取钓鱼网站的后台登录行为,来发现钓鱼网站使用者的行为信息。该方法相对前两种更为直接,但需要掌握钓鱼网站的后台路径;此外,对于并不存在后台页面的钓鱼网站,该方法并不适用,存在一定的局限性。

由此可知,现有的钓鱼网站使用者信息的追溯方法效率低、准确性差且通用性差,因此,如何提高钓鱼网站使用者信息的追溯方法的效率、准确性和通用性成为亟待解决的技术问题。



技术实现要素:

本发明所要解决的技术问题在于,提供一种钓鱼网站使用者信息的追溯方法、控制器和介质,能够准确高效地追溯钓鱼网站使用者信息,具有通用性。

为了解决上述技术问题,本发明提供了一种钓鱼网站使用者信息的追溯方法,包括以下步骤:

获取预设数量的钓鱼网站访问数据并进行分组;

以所述访问数据所划分的每个组作为节点,访问数据之间的访问关系作为边构造网络图;

对所构造的网络图进行处理,去除干扰项,获取待分析的访问数据信息;

根据所述待分析的访问数据信息追溯钓鱼网站使用者信息。

进一步的,所述获取预设数量的钓鱼网站访问数据并进行分组包括以下步骤:

获取预设数量的钓鱼域名和访问源ip,分别对所获取的钓鱼域名和访问源ip进行分组。

进一步的,所述对所获取的钓鱼域名信息进行分组包括以下步骤:

对所有钓鱼域名每两个为一组进行相似度计算;

将相似度大于相似度阈值的钓鱼域名划分为一组。

进一步的,所述对访问源ip进行分组包括以下步骤;

按照访问源ip的类型,以最小单位为ipc类段对访问源ip进行聚合分组,其中,访问源ip的类型包括普通宽带宽带ip、idc机房ip和基站ip。

进一步的,所述对所构造的网络图进行处理,去除干扰项,获取待分析的访问数据信息,包括以下步骤:

去除访问源ip为idc机房ip对应的节点,以及该节点所连的边;

去除访问k个以下钓鱼域名的访问源ip对应的边;

去除被m个以上访问源ip访问钓鱼域名对应的节点,以及该节点所连的边;

去除访问了n个以上的钓鱼域名访问源ip对应的节点,以及该节点所连的边,

其中,k、m、n均为正整数,k表示第一判断阈值,m表示第二判断阈值,n表示第三判断阈值。

进一步的,所述对所构造的网络图进行处理,去除干扰项之后,所述方法还包括:

设定访问阈值,获取去除干扰项后,访问钓鱼域名超过所述访问阈值的访问源ip集合。

进一步的,所述获取待分析的访问数据信息包括以下步骤:

判断访问源ip的类型,选取类型为基站ip的访问源ip以及其关联的钓鱼域名。

进一步的,所述根据所述待分析的访问数据信息追溯钓鱼网站使用者信息,包括以下步骤:

根据所选取的类型为基站ip的访问源ip和其关联的钓鱼域名,关联出该钓鱼域名的访问记录信息,所述访问记录信息包括时间信息、访问源ip和访问域名信息;

结合该钓鱼域名的访问记录相关的运营商数据,获取疑似钓鱼网站的使用者所使用的上网卡或物联网卡号码,以及上网设备所连接的基站位置信息;

根据疑似使用者所使用的上网卡或物联网卡号码,或者所述基站位置信息追溯钓鱼网站使用者信息;

其中,所述运营商数据包括上网日志留存数据和基站位置数据。

根据本发明又一方面,提供一种控制器,其包括存储器与处理器,所述存储器存储有计算机程序,所述程序在被所述处理器执行时能够实现所述方法的步骤。

根据本发明又一方面,提供一种计算机可读存储介质,用于存储计算机程序,所述程序在由一计算机或处理器执行时实现所述方法的步骤。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明一种钓鱼网站使用者信息的追溯方法、控制器和介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:

本发明通过抽样或者全量的钓鱼网站域名访问数据,以及访问源ip的类型属性,即可分析得到高度疑似钓鱼网站使用者的网络行为,进而结合运营商的相关信息,得到钓鱼网站使用者所使用的上网卡号码或者物联网卡号码,甚至可以通过相关信息得到上网设备所连接的基站位置信息,从而支撑对钓鱼网站使用者的溯源分析。本发明直接针对是钓鱼网站的使用者,而不是钓鱼网站域名和服务器的注册和租赁者,可直接有效的发现利用钓鱼网站进行行骗的人员的行为,从而准确、高效地追溯钓鱼网站使用者信息。此外,本发明无需钓鱼网站域名的注册信息以及网站服务器的租赁信息,也不需要预先知掌握各类钓鱼网站的后台路径,对于无后台页面的钓鱼网站的使用者发现也适用,具有通用性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。

附图说明

图1为本发明一实施例提供钓鱼网站使用者信息的追溯方法示意图;

图2为本发明一实施例对网络图进行处理,去除干扰项示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种钓鱼网站使用者信息的追溯方法、控制器和介质的具体实施方式及其功效,详细说明如后。

钓鱼网站域名的访问者通常分为三类,钓鱼网站的使用者,普通受害用户以及安全厂商的反钓鱼平台,三者访问者访问钓鱼网站域名的规律具有明显的差异性。钓鱼网站的使用者(即使用钓鱼网站来进行违法活动的人或单位)在钓鱼网站的架设初期以及钓鱼网站使用的过程中,通常需要获取自己掌握的钓鱼网站(往往是非常相似的多个钓鱼域名)上骗取的受害用户信息,并随时判断其掌握的网站、域名的可用性,因此会间歇性地对钓鱼网站的域名发起访问行为。此外,钓鱼网站的使用者通常采用上网卡、物联网卡等移动上网方式来访问钓鱼网站,进而期望通过nat后的动态ip尝试隐藏自身。普通受害用户通常只有少量的机会接触和访问到少量的钓鱼域名。安全厂商的反钓鱼平台通常使用相对固定的ip地址段,如部分idc机房ip访问大量的钓鱼域名,且安全厂商的反钓鱼平台所访问的钓鱼域名是多个钓鱼网站使用者所持有的钓鱼网站的总和。

基于上述分析,本发明实施例提供一种钓鱼网站使用者信息的追溯方法,如图1所示,包括以下步骤:

步骤s1、获取预设数量的钓鱼网站访问数据并进行分组。

其中,预设数量可根据具体分析需求进行设定,可以抽样选取钓鱼网站访问数据,或者全量选取钓鱼网站访问数据进行分析。钓鱼网站访问数据访问数据可包括钓鱼域名和访问源ip。

作为一种示例,步骤s1包括步骤s10:获取预设数量的钓鱼域名和访问源ip,分别对所获取的钓鱼域名和访问源ip进行分组。

步骤s10中,对所获取的钓鱼域名信息进行分组包括以下步骤:

步骤s101、对所有钓鱼域名每两个为一组进行相似度计算;

作为一种示例,假设任意一组包括钓鱼域名a和钓鱼域名b,二者相似度计算可采用以下公式计算获得:

通过上述公式可计算出任意两个钓鱼域名的相似度,其中,

最小编辑距离(域名a,域名b)和域名a的长度值和域名b的长度均可直接通过钓鱼域名的信息来获取。

步骤s102、将相似度大于相似度阈值的钓鱼域名划分为一组。

需要说明的是,相似度阈值可根据具体分析计算需求来设定,本示例中,相似度阈值设为80%。本示例中,以domain_group代表所划分的钓鱼域名组。domain_group中的钓鱼域名个数可能为一个,也可能为多个,当一个钓鱼域名与任意一起其他的钓鱼域名的相似度均低于相似度阈值时,该钓鱼域名单独被划分为一组;当一组中有多个钓鱼域名时,该组中的任意两个钓鱼域名的相似度均大于相似度阈值。

步骤s10中,对访问源ip进行分组包括以下步骤;

步骤s103、按照访问源ip的类型,以最小单位为ipc类段对访问源ip进行聚合分组,其中,访问源ip的类型包括普通宽带宽带ip、idc机房ip和基站ip,需要说明的是,普通宽带ip通常对应的是普通受害用户,idc机房ip通常对应的是安全厂商的反钓鱼平台,而基站ip中有可能存在所要寻找的钓鱼网站使用者ip。本示例中,以src_ip_group代表所划分的访问源ip组。

步骤s2、以所述访问数据所划分的每个组作为节点,访问数据之间的访问关系作为边构造网络图。

本示例中,使用domain_group以及src_ip_group作为节点,通过src_ip_group中访问源ip与domain_group中钓鱼域名的被访问关系作为边,构造网络图。

步骤s3、对所构造的网络图进行处理,去除干扰项,获取待分析的访问数据信息。

作为示例,步骤s3中通过以下步骤去除干扰项,如图2所示,包括以下步骤:

步骤s31、去除访问源ip为idc机房ip对应的节点,以及该节点所连的边。

步骤s32、去除访问k个以下钓鱼域名的访问源ip对应的边。

步骤s33、去除被m个以上访问源ip访问钓鱼域名对应的节点,以及该节点所连的边。

步骤s34、去除访问了n个以上的钓鱼域名访问源ip对应的节点,以及该节点所连的边。

其中,k、m、n均为正整数,k表示第一判断阈值,m表示第二判断阈值,n表示第三判断阈值。可通过枚举,并观察图的节点和边的数量变化较为平缓时对应的值来选择k、m、n的值,从而可以实现通过步骤s31可去除高度疑似各安全厂商反钓鱼平台的ip地址,通过步骤s32可去除高度疑似普通受害用户的网络行为,通过步骤s33可去除被几乎所有ip访问过的钓鱼域名,通过步骤s34可去除访问过几乎所有钓鱼域名的访问源ip。通过去除干扰项可以避免进行繁杂无用的计算,提高本发明实施例的计算效率和准确率。

作为示例,步骤s3中,获取待分析的访问数据信息包括以下步骤:

判断访问源ip的类型,选取类型为基站ip的访问源ip以及其关联的钓鱼域名。

为了进一步提高发明实施例的计算效率和准确率,缩小待分析的访问数据的筛选范围,所述对所构造的网络图进行处理,去除干扰项之后,所述方法还包括步骤s30:设定访问阈值,获取去除干扰项后,访问钓鱼域名超过所述访问阈值的访问源ip集合。其中,访问阈值可根据具体计算需求来设定,本示例中,访问阈值可设为95%。步骤s30可采用集合覆盖问题(setcoverproblem)算法来解决,setcoverproblem算法为现有算法,可直接使用,在此不再赘述。经过步骤s30后,再进行步骤s3中获取待分析的访问数据信息的步骤,进一步提高了本发明实施例所述方法的计算效率和准确度。

步骤s4、根据所述待分析的访问数据信息追溯钓鱼网站使用者信息。

作为示例,步骤s4包括以下步骤:

步骤s41、根据所选取的类型为基站ip的访问源ip和其关联的钓鱼域名,关联出该钓鱼域名的访问记录信息,所述访问记录信息包括时间信息、访问源ip和访问域名信息;

步骤s42、结合该钓鱼域名的访问记录相关的运营商数据,获取疑似钓鱼网站的使用者所使用的上网卡或物联网卡号码,以及上网设备所连接的基站位置信息;

步骤s43、根据疑似使用者所使用的上网卡或物联网卡号码,或者所述基站位置信息追溯钓鱼网站使用者信息,从而支撑对钓鱼网站使用者的溯源分析。

其中,所述运营商数据包括上网日志留存数据和基站位置数据。通过上述过程可为钓鱼网站使用者的溯源分析提供重要的帮助,例如警方可以根据疑似使用者的基站位置数据将锁定搜索位置范围,从而可以帮助警方有效破案。

本发明实施例还提供一种控制器,其包括存储器与处理器,所述存储器存储有计算机程序,所述程序在被所述处理器执行时能够实现钓鱼网站使用者信息的追溯方法的步骤。

本发明实施例还提供一种计算机可读存储介质,用于存储计算机程序,所述程序在由一计算机或处理器执行时实现钓鱼网站使用者信息的追溯方法的步骤。

本发明实施例通过抽样或者全量的钓鱼网站域名访问数据,以及访问源ip的类型属性,即可分析得到高度疑似钓鱼网站使用者的网络行为,进而结合运营商的相关信息,得到钓鱼网站使用者所使用的上网卡号码或者物联网卡号码,甚至可以通过相关信息得到上网设备所连接的基站位置信息,从而支撑对钓鱼网站使用者的溯源分析。本发明实施例直接针对是钓鱼网站的使用者,而不是钓鱼网站域名和服务器的注册和租赁者,可直接有效的发现利用钓鱼网站进行行骗的人员的行为,从而准确、高效地追溯钓鱼网站使用者信息。此外,本发明实施例无需钓鱼网站域名的注册信息以及网站服务器的租赁信息,也不需要预先知掌握各类钓鱼网站的后台路径,对于无后台页面的钓鱼网站的使用者发现也适用,具有通用性。

以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1