一种钓鱼网站检测方法及装置制造方法

文档序号:6551943阅读:136来源:国知局
一种钓鱼网站检测方法及装置制造方法
【专利摘要】本发明公开了一种钓鱼网站检测方法及装置,方法包括如下步骤:客户端获取被访问网页的待检测URL,客户端对被访问网页的待检测URL进行检测,获得客户端检测结果,所述客户端检测结果表示了所述被访问网页与钓鱼网站的相关程度;客户端将待检测URL发送给服务器,并接收服务器发送的对所述待检测URL进行检测得到的服务器检测结果,所述服务器检测结果表示了所述被访问网页与钓鱼网站的相关程度;客户端根据所述客户端检测结果和服务器检测结果对所述待检测URL进行综合评判,以判断所述待检测URL是否属于钓鱼网站。本发明可以提高检测钓鱼网站的准确度。
【专利说明】一种钓鱼网站检测方法及装置
【【技术领域】】
[0001]本发明涉及计算机领域,尤其涉及一种钓鱼网站检测方法及装置。
【【背景技术】】
[0002]随着信息时代的到来,越来越多的人开始利用互联网进行工作,购物,学习和娱乐等级活动。正是由于网民的逐渐增加,使得网络安全隐患的危害随之加深。网络钓鱼攻击就是众多安全隐患中的一种。同时钓鱼攻击也被认为是当今在线交易中最危险的一种欺诈形式。网络钓鱼Phishing是一种在线身份伪造的欺诈方式,使用社交工程和技术伎俩等手段窃取用户的个人敏感信息。
[0003]网络的社交工程是指,钓鱼的攻击者利用具有欺骗性的电子邮件和假冒的web登陆页面等,来进行网络诈骗活动。被攻击的用户往往会泄露重要的个人隐私。网络钓鱼诈骗者通常利用其仿冒的钓鱼站点,将自己伪装成知名的网上银行、热门的网络购物商和大型的网络游戏提供方等可信品牌,并且利用人性的弱点,以各种理由如中将信息、银行网站升级更新资料等等,来诱骗用户泄露自己的私人敏感信息,然后利用这些个人敏感信息谋取利益。网络钓鱼的技术伎俩是指,钓鱼攻击者利用恶意软件等技术来获取用户的机密信息。攻击者向用户的计算机中植入Keylogger、木马、间谋软件等恶意软件。当用户在正常的web站点提交个人敏感信息的时候,也就被攻击者的恶意软件所捕获,并发送回攻击者。
[0004]经济上的利益使得钓鱼攻击越来越猖獗,频繁的攻击使用用户信息感下降,对人们的正常工作,学习和生活造成了极大的影响,甚至还会影响到网上交易的发展,由此可见钓鱼攻击的危害之大,而研究如何抵御钓鱼攻击就显得尤其重要。目前一些钓鱼网站的检测装置虽然取得了一定的成果,但也存在一些风险。
[0005]黑白名单检测机制,其主要是应用过滤的原理将常规网站与钓鱼网站进行区分。所谓的黑名单是指其中数据均为钓鱼网址,白名单刚好与之相反为可信网站。该种机制的优势在于单练的字符串匹配可以实现快速命中,进而提供精确的结果反馈。其不足之处在于不能识别新产生的钓鱼网站,需要对知识库进行更新操作。
[0006]URL特征检测机制,其主要是应用URL字符串的某些钓鱼特征,并利用现今较为成熟的基于概率论的数学模型,进行是否是钓鱼网站的合理性估计。例如逻辑回归模型,该模型将一个事件发生的概率对应为一条S型的逻辑曲线,作为二分分类器使用时,通常将其阈值设置为0.5。这种方法虽然能取得一定的检测效果,但是单纯的URL特征检测使得该装置误判的风险较大。
[0007]页面文本特征检测机制,其主要是对页面源代码中的纯文本信息,进行分析、关键词提取和相似度对比,最终给出是否为钓鱼网站的预测。其预测方法存在多种方案,例如可以选用数学模型对提取的信息片进行处理并给出最终结果、也可以通过计算信息片与钓鱼模板的相似度进行相应的预测。
[0008]页面DOM文档对象模型特征检测机制,其主要是对页面源代码的DOM结构进行分析,最终给出特征检测页面是钓鱼页面的可能性。该种检测机制的提出主要是由于,当前钓鱼黑色生产链模板化生产,即相同的钓鱼模板添加上不同的以社交工程为钓鱼手段的欺诈性文字,就可以变为不同的钓鱼网站。所以该种方案的提出也是对单纯文本特征识别的一种补充。
[0009]第三方辅助信息检测机制,该种检测机制借助了可信的第三方机构提供的数据,作为测评该网站是否为钓鱼网站的理论依据。例如谷歌的PageRank排名、黑名单API库、ALEXA流量排名、Whois信息等都可以作为判定该网站是否具有钓鱼欺诈风险的辅助性依据,但不能够精确的判断出正在访问的网站是否为钓鱼网站。
[0010]身份认证的机制,合法网站都会有自己的证书,而钓鱼网站由于生存周期比较短,而从申请证书到证书颁发的周期比钓鱼网站的生存周期还要长,因此钓鱼网站一般不会有自己的合法的证书,那么,可以通过身份认证的方法来检测钓鱼网站。虽然身份认证方式检测钓鱼网站能取得不错的效果,但由于使用互联网的用户安全知识参差不齐,这种方法在实际应用中十分困难。
[0011]综合分析现有技术可知,现有的钓鱼网站检测技术的准确度都不够高。

【发明内容】

[0012]为了克服现有技术的不足,本发明提供了一种钓鱼网站检测方法,以提高对钓鱼网站检测准确度。
[0013]一种钓鱼网站检测方法,包括如下步骤:
[0014]SlO步骤,客户端获取被访问网页的待检测URL ;
[0015]S20步骤,所述客户端对所述待检测URL进行检测,获得客户端检测结果,所述客户端检测结果表示了所述被访问网页与钓鱼网站的相关程度;
[0016]S30步骤,所述客户端将所述待检测URL发送给服务器,并接收所述服务器发送的服务器检测结果,所述服务器检测结果表示了所述被访问网页与钓鱼网站的相关程度;
[0017]S40步骤,所述客户端根据所述客户端检测结果和所述服务器检测结果对所述待检测URL进行综合评判,以判断所述待检测URL是否属于钓鱼网站;其中,所述服务器检测结果和所述客户端检测结果在所述综合评判中具有不同的影响权重。
[0018]利用客户端检测结果和服务器检测结果进行综合评判,综合了客户端和服务器的两个检测结果,相比于现有技术仅仅依靠服务器或者客户端的检测而判断钓鱼网站,本方案提高了检测钓鱼网站的准确度。
[0019]在一个优选的实施例中,所述S20步骤包括如下步骤:
[0020]S201步骤,所述客户端从所述待检测URL提取出目标域名,并执行S202步骤;[0021 ] S202步骤,所述客户端计算所述目标域名与所述客户端存储的白名单中的白名单域名之间的域名相似度,并执行S203步骤;
[0022]S203步骤,若所述域名相似度等于1,则所述客户端判断所述被访问网页为正常网站;若所述域名相似度大于域名相似度阈值且小于1,则所述客户端判断所述被访问网页为钓鱼网站;若所述域名相似度小于所述域名相似度阈值,则所述客户端对所述待检测URL进行检测,获得客户端检测结果。
[0023] 本方案中,通过提取被访问网页的多组特征,使得作出的评判结果更加准确,也就是说客户端检测结果更加准确。
[0024]在一个优选的实施例中,所述S40步骤包括以下步骤:
[0025]根据如下算法判断所述待检测URL是否属于钓鱼网站:
[0026]确定评价因子集合U= (U11U2,...Ui,...,uj,其中,所述客户端检测结果的数量为多个,评价因子集合U的元素Ui表示所述客户端检测结果中的第i个客户端检测结果;
[0027]确定用于表示所述被访问网页分类的评价等级集合V = Iv1, V2,...Vj...,vn},其中,评价等级集合V的元素\表示所述评价等级集合V的第j个评价等级,一个评价等级Vj代表所述被访问网页的一个分类;
[0028]确定所述评价因子Ui对所述评价等级\的隶属度rip并确定隶属度集合^ ={rn, ri2,...,rin},其中所述隶属度集合!Ti表示所述评价因子Ui分别对所述评价等级集合V的所有评价等级的隶属度;
[0029]确定模糊子集A = {a” a2,...,屮...,aj,其中,模糊子集A的元素Bi表示所述评价因子Ui在综合评判中的影响权重;
[0030]确定等价子集B:
[0031]
【权利要求】
1.一种钓鱼网站检测方法,其特征是,包括如下步骤: SlO步骤,客户端获取被访问网页的待检测URL ; S20步骤,所述客户端对所述待检测URL进行检测,获得客户端检测结果,所述客户端检测结果表示了所述被访问网页与钓鱼网站的相关程度; S30步骤,所述客户端将所述待检测URL发送给服务器,并接收所述服务器发送的服务器检测结果,所述服务器检测结果表示了所述被访问网页与钓鱼网站的相关程度; S40步骤,所述客户端根据所述客户端检测结果和所述服务器检测结果对所述待检测URL进行综合评判,以判断所述待检测URL是否属于钓鱼网站;其中,所述服务器检测结果和所述客户端检测结果在所述综合评判中具有不同的影响权重。
2.如权利要求1所述的钓鱼网站检测方法,其特征是,所述S20步骤包括如下步骤: S201步骤,所述客户端从所述待检测URL提取出目标域名,并执行S202步骤; S202步骤,所述客户端计算所述目标域名与所述客户端存储的白名单中的白名单域名之间的域名相似度,并执行S203步骤; S203步骤,若所述域名相似度等于1,则所述客户端判断所述被访问网页为正常网站;若所述域名相似度大于域名相似度阈值且小于1,则所述客户端判断所述被访问网页为钓鱼网站;若所述域名相似度小于所述域名相似度阈值,则所述客户端对所述待检测URL进行检测,获得客户端检测结果。
3.如权利要求1或2所述的钓鱼网站检测方法,其特征是,所述S40步骤包括以下步骤: 根据如下算法判断所述待检测URL是否属于钓鱼网站: 确定评价因子集合U= (U11U2,...Ui,...,uj,其中,所述客户端检测结果的数量为多个,评价因子集合U的元素Ui表示所述客户端检测结果中的第i个客户端检测结果; 确定用于表示所述被访问网页分类的评价等级集合V = Iv1, V2,...Vj...,vn},其中,评价等级集合V的元素\表示所述评价等级集合V的第j个评价等级,一个评价等级\代表所述被访问网页的一个分类; 确定所述评价因子Ui对所述评价等级\的隶属度rip并确定隶属度集合ri ={rn, ri2,...,rin},其中所述隶属度集合!Ti表示所述评价因子Ui分别对所述评价等级集合V的所有评价等级的隶属度; 确定模糊子集A = {&1) a2,..., a,..., am},其中,模糊子集A的元素%表示所述评价因子Ui在综合评判中的影响权重; 确定等价子集B:
其中,h为所述评价等级Vj对所述等价子集B的隶属度,O是广义模糊算子; 确定所述等价子集B中最大的&将所述最大的h对应的评价等级 ' 作为所述被访问网页的评价等级。
4.如权利要求3所述的钓鱼网站检测方法,其特征是,根据如下算法判断所述待检测URL是否属于钓鱼网站: 确定所述评价因子集合U= {u1; U2, U3I,确定所述评价等级集合V= (V1, V2, V3I,确定所述模糊子集A= {ai,a2,a3};其中,所述客户端检测结果包括第一客户端检测结果和第二客户端检测结果,所述第一客户端检测结果是所述客户端将所述被访问网页的网页特征和所述待检测URL的URL特征输入复合分类器后获得的复合分类器结果,所述第二客户端检测结果是所述客户端将所述待检测URL输入简单分类器后获得的简单分类器结果,U1, U2和U3分别表示第一客户端检测结果、所述服务器检测结果和第二客户端检测结果,V1, V2和V3分别表示正常网站、可疑网站和钓鱼网站,B1, a2和a3分别表示所述第一客户端检测结果、所述服务器检测结果和所述第二客户端检测结果在综合评判中的影响权重; 确定所述等价子集B:
其中,参数h表示正常网站对所述评价子集B的隶属度,参数b2表示可疑网站对所述评价子集B的隶属度,参数匕表示钓鱼网站对所述评价子集B的隶属度;a1、a2和a3分别为所述第一客户端检测结果、所述服务器检测结果和所述第二客户端检测结果在综合评判中的影响权重,rn、r12和r13分别为所述第一客户端检测结果对正常网站、可疑网站和钓鱼网站的隶属度,r21、r22和r23分别为所述服务器检测结果对正常网站、可疑网站和钓鱼网站的隶属度,r21、r22和r23分别为所述第二客户端检测结果对正常网站、可疑网站和钓鱼网站的隶属度; 在参数b1、b2和b3中,若所述参数Id1最大,则将所述被访问网页判定为正常网站;若所述参数b2最大,则将所述被访问网页判定为可疑网站;若所述参数b3最大,则将所述被访问网页判定为钓鱼网站。
5.如权利要求3所述的钓鱼网站检测方法,其特征是, 根据如下算法判断所述待检测URL是否属于钓鱼网站: 确定所述评价因子集合U= {u1; U2, U3I,确定所述评价等级集合V= (V1, v2},确定所述模糊子集A= {ai,a2,a3};其中,所述客户端检测结果包括第一客户端检测结果和第二客户端检测结果,所述第一客户端检测结果是所述客户端将所述被访问网页的网页特征和所述待检测URL的URL特征输入复合分类器后获得的复合分类器结果,所述第二客户端检测结果是所述客户端将所述待检测URL输入简单分类器后获得的简单分类器结果,U1, U2和U3分别表示第一客户端检测结果、所述服务器检测结果和第二客户端检测结果,V1和V2分别表示正常网站和钓鱼网站,B1, a2和a3分别表示所述第一客户端检测结果、所述服务器检测结果和所述第二客户端检测结果在综合评判中的影响权重; 确定所述等价子集B:
.其中,参数h表示判断结果对正常网站的隶属度,参数b2表示判断结果对钓鱼网站的隶属度;a1、a2和a3分别为所述第一客户端检测结果、所述服务器检测结果和所述第二客户端检测结果在综合评判中的影响权重,rn和r12分别为所述第一客户端检测结果对正常网站和钓鱼网站的隶属度,r21和r22分别为所述服务器检测结果对正常网站和钓鱼网站的隶属度,r31和r32分别为所述第二客户端检测结果对正常网站和钓鱼网站的隶属度; 在参数匕和b2中,若所述参数Id1较大,则将所述被访问网页判定为正常网站;若所述参数b2较大,则将所述被访问网页判定为钓鱼网站。
6.如权利要求1所述的钓鱼网站检测方法,其特征是,所述服务器通过如下步骤得到服务器检测结果: S302步骤,所述服务器根据所述待检测URL获取第一 IP集; S303步骤,所述服务器从所述被访问网页中提取关键词,并执行S304步骤; S304步骤,所述服务器根据所述关键词在搜索引擎上进行搜索获得排在前N名的URL,并执行S305步骤; S305步骤,所述服务器根据所述排在前N名的URL获取第二 IP集; S306步骤,所述服务器判断所述待检测URL是否在所述服务器中的钓鱼网站黑名单中,若是则判断所述被访问网页是钓鱼网站,否则执行S307步骤; S307步骤,所述服务器计算所述第一 IP集和所述第二 IP集的所述IP集合相似度,其中,所述第一 IP集的任一 IP元素与所述第二 IP集的任一 IP元素的相似度中的最大值是所述IP集合相似度,所述 IP集合相似度作为所述服务器检测结果。
7.如权利要求6所述的钓鱼网站检测方法,其特征是,在所述S303步骤中,所述服务器通过分类器提取关键词: 提取训练样本中的关键词的关键词特征、位置特征、词频特征和词性特征,并将所述关键词的关键词特征、位置特征、词频特征和词性特征作为输入对所述分类器进行训练; 其中,词语为关键词和非关键词时所述关键词特征分别为I和O ;词语为关键词和非关键词时所述词频特征为I和O,所述词频特征为I和O时对应的词语出现的频率分别大于设定频率和不大于设定频率;词语为关键词和非关键词时所述词性特征为I和O时,所述词性特征为I和O时对应的词语为名词和非名词;词语为关键词和非关键词时所述位置特征为I和O,所述位置特征为I和O时对应的词语出现于特殊位置和非特殊位置; 将测试样本输入所述分类器进行训练; 获取所述被访问网页中的待检测的词语的特征,所述待检测词语的特征包括:关键词特征、位置特征、词频特征和词性特征; 将所述待检测词语的特征作为所述分类器的输入,若所述分类器的输出为1,则判断所述待检测的词语为关键词,若所述分类器的输出为O,则判断所述待检测的词语为非关键
ο
8.一种钓鱼网站检测装置,其特征是,包括客户端检测单元、服务器检测单元和综合判断单元; 所述客户端检测单元用于获取被访问网页的待检测URL,对所述待检测URL进行检测,获得客户端检测结果,所述客户端检测结果表示了所述被访问网页与钓鱼网站的相关程度; 所述服务器检测单元用于将所述待检测URL发送给服务器,并接收所述服务器发送的服务器检测结果,所述服务器检测结果表示了所述被访问网页与钓鱼网站的相关程度;所述综合判断单元用于根据所述客户端检测结果和所述服务器检测结果对所述待检测URL进行综合评判,以判断所述待检测URL是否属于钓鱼网站;其中,所述服务器检测结果和所述客户端检测结果在综合评判中具有不同的影响权重。
9.如权利要求8所述的钓鱼网站检测装置,其特征是,所述客户端检测单元包括: 第一客户端子单元,用于从所述待检测URL提取出目标域名; 第二客户端子单元,用于计算所述目标域名与所述客户端存储的白名单中的白名单域名之间的域名相似度; 第三客户端子单元,所述第三客户端子单元用于:若所述域名相似度等于1,则判断所述被访问网页为正常网站;若所述域名相似度大于域名相似度阈值且小于I时,则判断所述被访问网页为钓鱼网站;若所述域名相似度小于所述域名相似度阈值,则所述客户端检测单元对所述待检测URL进行检测,获得客户端检测结果。
10.如权利要求8或9所述的钓鱼网站检测装置,其特征是,所述综合判断单元包括: 第一综合判断子单元,用于确定评价因子集合U = Iu1, U2,...Ui,, um},其中,所述客户端检测结果的数量为多个,评价因子集合U的元素Ui表示所述客户端检测结果中的第i个客户端检测结果; 第二综合判断子单元,用于确定用于表示所述被访问网页分类的评价等级集合V =Iv1, V2,...Vj...,vn},其中,评价等级集合V的元素 ' 表示所述评价等级集合V的第j个评价等级,一个评价等级\代表所述被访问网页的一个分类; 第三综合判断子单元,用于确定所述评价因子Ui对所述评价等级\的隶属度1^,并确定隶属度集合A = {rn,ri2,...,rin},其中所述隶属度集合!Ti表示所述评价因子Ui分别对所述评价等级集合V的所有评价等级的隶属度; 第四综合判断子单元,用于确定模糊子集A = {au a2,..., at..., am},其中,模糊子集A的元素%表示所述评价因子Ui在综合评判中的影响权重; 第五综合判断子单元,用于确定等价子集B:
其中,h为所述评价等级Vj对所述等价子集B的隶属度,O是广义模糊算子; 第六综合判断子单元,用于确定所述等价子集B中最大的&将所述最大的h对应的评价等级\作为所述被访问网页的评价等级。
【文档编号】G06F17/30GK104077396SQ201410310819
【公开日】2014年10月1日 申请日期:2014年7月1日 优先权日:2014年7月1日
【发明者】肖喜, 付鹏, 刘睿彤, 李清, 王振龙 申请人:清华大学深圳研究生院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1