基于云端内容规则库识别可疑钓鱼网页的方法及系统的制作方法

文档序号:7813724阅读:139来源:国知局
基于云端内容规则库识别可疑钓鱼网页的方法及系统的制作方法
【专利摘要】本发明公开了一种基于云端内容规则库识别可疑钓鱼网页的方法、云端服务器及系统。其中方法包括:获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息;将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则;判断所述云端所匹配的至少一条规则是否涵盖所述云端内容规则库中任一规则集合所包含的一条或多条规则,根据判断结果识别所述网页为可疑钓鱼网页。本发明将标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,解决了网页URL为正常URL但该网页内容中嵌有钓鱼特征的情况却无法正确识别网页的技术问题,提高了钓鱼网页识别准确率。
【专利说明】基于云端内容规则库识别可疑钓鱼网页的方法及系统

【技术领域】
[0001] 本发明涉及互联网【技术领域】,具体涉及一种基于云端内容规则库识别可疑钓鱼网 页的方法、云端服务器及系统。

【背景技术】
[0002] 随着互联网的发展,基于WEB的应用日益普及,人们通过浏览器可以查询银行账 户、网上购物、电子商务、查询信息、获取知识、进行娱乐等,WEB为人们提供了方便和快捷的 交互方式。然而,人们在上网冲浪浏览网页的同时,经常会遭遇到恶意网站的侵袭,导致计 算机被病毒、木马等感染。
[0003] 恶意网站,例如钓鱼网站、或者是欺诈,仿冒网站等,主要是通过仿冒真实网站的 URL地址或是网页内容,伪装成银行及电子商务等类型的网站,或是利用真实网站服务器程 序上的漏洞,在该网站的某些网页中插入危险的网页代码,以此来骗取用户银行或信用卡 账号、密码等私人资料。恶意网页中包含着许多敏感的特征,例如,金融欺诈类的恶意网页 会在文字、图片等方面仿冒官网,或是在真实网页中插入虚假票务、虚假中奖、假冒网银、虚 假购物等信息,这些特征大多以文本串的形式出现在网页中。
[0004] 现有的为了防范恶意网站的主要手段是当用户访问某网站时,客户端将网站的 URL发送至服务器端的黑白名单数据库进行查询,然而当钓鱼作者利用安全正常网页为载 体,例如政府网站,在该网页中嵌入钓鱼特征,基于网页的URL检测钓鱼网页的方法,并不 能识别其内嵌的钓鱼特征,误判率较高。


【发明内容】

[0005] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的基于云端内容规则库识别可疑钓鱼网页的方法和相应的云端服务器及系统。
[0006] 根据本发明的一个方面,提供了一种基于云端内容规则库识别可疑钓鱼网页的方 法,所述云端内容规则库包含至少一个规则集合,每个规则集合包含一条或多条规则;所述 方法包括:
[0007] 获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息;
[0008] 将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则 进行匹配,获得云端所匹配的至少一条规则;
[0009] 判断所述云端所匹配的至少一条规则是否涵盖所述云端内容规则库中任一规则 集合所包含的一条或多条规则,根据判断结果识别所述网页为可疑钓鱼网页。
[0010] 根据本发明的另一方面,提供了一种云端服务器,包括:
[0011] 云端内容规则库,包含至少一个规则集合,每个规则集合包含一条或多条规则;
[0012] 接收模块,适于获取客户端在浏览器加载网页时抽取的一项或多项标签内容信 息;
[0013] 匹配模块,适于将一项或多项标签内容信息中的指定属性信息与所述云端内容规 则库中的规则进行匹配,获得云端所匹配的至少一条规则;
[0014] 识别模块,适于判断所述云端所匹配的至少一条规则是否涵盖所述云端内容规则 库中任一规则集合所包含的一条或多条规则,根据判断结果识别所述网页为可疑钓鱼网 页。
[0015] 根据本发明的又一方面,提供了一种基于云端内容规则库识别可疑钓鱼网页的系 统,包括:上述云端服务器以及客户端。
[0016] 根据本发明的方案,获取客户端在浏览器加载网页时抽取的一项或多项标签内容 信息;将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行 匹配,获得云端所匹配的至少一条规则;判断所述云端所匹配的至少一条规则是否涵盖所 述云端内容规则库中任一规则集合所包含的一条或多条规则,根据判断结果识别所述网页 为可疑钓鱼网页。本发明中,将标签内容信息中的指定属性信息与云端内容规则库中的规 则进行匹配,解决了网页URL为正常URL,但该网页内容中嵌有钓鱼特征的情况却无法正确 识别网页的技术问题,提高了钓鱼网页识别准确率。
[0017] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。

【专利附图】

【附图说明】
[0018] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0019] 图1示出了根据本发明一个实施例的基于云端内容规则库识别可疑钓鱼网页的 方法的流程图;
[0020] 图2示出了根据本发明另一个实施例的基于云端内容规则库识别可疑钓鱼网页 的方法的流程图;
[0021] 图3示出了根据本发明另一个实施例的基于云端内容规则库识别可疑钓鱼网页 的方法的流程图;
[0022] 图4示出了根据本发明另一个实施例的基于云端内容规则库识别可疑钓鱼网页 的方法的流程图;
[0023] 图5示出了根据本发明另一个实施例的基于云端内容规则库识别可疑钓鱼网页 的方法的流程图;
[0024] 图6示出了根据本发明一个实施例的云端服务器的结构示意图;
[0025] 图7示出了根据本发明一个实施例的基于云端内容规则库识别可疑钓鱼网页的 系统的结构示意图。

【具体实施方式】
[0026] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0027] 本申请的发明人在研究钓鱼网页识别方法的过程中,注意到钓鱼作者通过将钓鱼 特征嵌入到网页内容信息中的标签,对钓鱼特征进行了隐藏,使得基于原有的钓鱼网页识 别方法(例如对网页的URL进行识别)无法将标签内容信息中的钓鱼特征识别出来,基于 此,本申请的发明人提出了基于标签来识别钓鱼网页的方法。本文中标签指的是html标 签,html标签是html语目(超文本标记语目)中最基本的单位,是html最重要的组成部 分。在html语言中,标签通常是成对出现的,比如<b>和</b>,标签对中的第一个标签是开 始标签,第二个标签是结束标签,通过标签内的信息来限定html网页中的相关信息,这里 标签内容信息即标签内限定的信息,以标题标签为例,〈title〉淘宝页面〈/title〉,这里标 签内容信息即为"淘宝页面"。
[0028] 本发明提供了在云端服务器侧所建立的云端内容规则库,该云端内容规则库包含 至少一个规则集合,每个规则集合包含一条或多条规则,所述规则是根据已知钓鱼网页的 特征建立的,其中一个规则集合用于判断网页是否为可疑钓鱼网页。本发明中,云端内容规 则库中的规则是基于标签内容信息创建。例如,框架标签(iframe标签)一般用来包含别 的页面,iframe元素会创建包含另外一个文档的内联框架(即行内框架)。在iframe标 签中定义了多个属性,例如src属性、height属性、width属性等(在此不--列举),其中 src属性用于规定在iframe中显示文档的URL,该属性的属性值为URL ;height属性用于规 定iframe的高度,该属性的属值为pixels ;width属性用于规定iframe的宽度,该属性的 属性值为pixels。钓鱼作者可通过iframe标签中的src属性的属性值URL来实现钓鱼目 的,例如,将src属性的属性值URL修改为黑URL,因此这里将iframe标签的src属性的属 性值URL确定为iframe标签内容信息的指定属性信息,判断该URL是否属于URL黑名单或 者是否具有指定路径。
[0029] 图像标签(img标签)用于向网页中嵌入一幅图像,img标签创建的是被引用图像 的占位空间。在img标签中同样定义了很多属性,例如,src属性、alt属性、height属性、 width属性等(在此不一一列举),其中src属性用于规定显示图像的URL,该属性的属性 值为URL ;alt属性用于规定图像的替代文本,该属性的属性值为text ;height属性用于设 置图像的高度,该属性的属值为pixels% ;width属性用于设置图像的宽度,该属性的属性 值为pixels%。钓鱼作者可通过img标签中的src属性的属性值URL来实现钓鱼目的,例 如,将src属性的属性值URL修改为黑URL,因此这里将img标签的src属性的属性值URL 确定为img标签内容信息的指定属性信息,判断该URL是否具有指定路径或是否属于URL 黑名单。
[0030] 标题标签(title标签)用于定义文档的标题,在title标签中定义了 dir属性、 lang属性,其中dir属性用于规定元素中内容的文本方向;lang属性用于规定元素中内容 的语言代码,该属性的属性值为language_code。这里将lang属性的属性值language_code 确定为title标签内容信息的指定属性信息,判断标题内容是否具有指定关键字。
[0031] 超链接标签或锚标签(a标签)用于从一张页面链接到另一张页面。在a标签中定 义了多个属性,例如href属性、download属性、rel属性等(在此不--列举)其中,href 属性规定了链接指向的页面的URL,其属性值为URL ;download属性规定了被下载的超链 接目标,其属性值为filename ;rel属性规定了当前文档与被连接文档之间的关系,其属性 值为text。钓鱼作者可通过a标签中的href属性的属性值URL来实现钓鱼目的,例如,将 href属性的属性值URL修改为黑URL,因此这里将a标签的href属性的属性值URL确定为 a标签内容信息的指定属性信息,判断该URL是否属于URL黑名单或者是否具有指定路径。
[0032] 通过获取浏览器所打开网页的URL,根据该URL确定网页所属站点是否为新站点。
[0033] 若通过判断得到iframe标签、img标签或者a标签中的URL属于URL黑名单,贝丨J 可判断网页为可疑钓鱼网页,由此可确定URL属于黑名单可以作为一条规则用于判断网页 是否为可疑钓鱼网页,云端内容规则库内至少包含这条规则的规则集合可用于判断网页是 否为可疑钓鱼网页。
[0034] 若通过判断得到iframe标签、img标签或者a标签中的URL具有指定路径,且网 页所属站点为新站点,则可判断网页为可疑钓鱼网页,由此可确定URL具有指定路径和网 页所属站点为新站点可以作为两条规则用于判断网页是否为可疑钓鱼网页,云端内容规则 库内至少包含这两条规则的规则集合可用于判断网页是否为可疑钓鱼网页。
[0035] 若通过判断得到标题内容具有指定关键字,且网页所属站点为新站点,则可判断 网页为可疑钓鱼网页,由此可确定标题内容具有指定关键字和网页所属站点为新站点可以 作为两条规则用于判断网页是否为可疑钓鱼网页,云端内容规则库内至少包含这两条规则 的规则集合可用于判断网页是否为可疑钓鱼网页。
[0036] 本发明不仅限于基于上述规则集合来判断网页是否为可疑钓鱼网页,通过标签来 识别网页是否为钓鱼网页的方法均涵盖在本发明的保护范围之内,在此不再赘述。下面通 过几个具体实施例介绍钓鱼网页的识别方法:
[0037] 图1示出了根据本发明一个实施例的基于云端内容规则库识别可疑钓鱼网页的 方法的流程图。如图1所示,该方法包括以下步骤:
[0038] 步骤S100,获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息。
[0039] 具体地,用户通过客户端的浏览器打开网页,客户端在浏览器加载网页时抽取网 页的一项或多项标签内容信息,在客户端完成抽取后将抽取的一项或多项标签内容信息上 报给云端服务器。本发明中,客户端可以为计算机、移动终端、平板设备等,本发明对此不做 限制。
[0040] 步骤S110,将一项或多项标签内容信息中的指定属性信息与云端内容规则库中的 规则进行匹配,获得云端所匹配的至少一条规则。
[0041] 每一个html标签都拥有各自的属性,用来表示该标签的性质和特性,通常在开始 标签中指定标签的属性,以"属性名="值""的形式来表示。这里的指定属性信息是指标签 中特定属性的值,该指定属性信息用于与云端内容规则库中的规则进行匹配。
[0042] 步骤S120,判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则 集合所包含的一条或多条规则,根据判断结果识别网页为可疑钓鱼网页。
[0043] 任一规则集合包含一条或多条规则。云端服务器可以根据云端内容规则库中任一 规则集合来判断网页是否为可疑钓鱼网页。在根据指定属性信息获得云端所匹配的至少一 条规则后,判断云端所匹配的至少一条规则是否涵盖云端内容规则中的任一规则集合,若 是,则判断网页为可疑钓鱼网页。
[0044] 根据本发明上述实施例提供的方法,该方法的执行基于云端服务器侧所建立的云 端内容规则库,该云端内容规则库包含至少一个规则集合,每个规则集合包含一条或多条 规则;获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息;将一项或多项标 签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,获得云端所匹配的至 少一条规则;判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则集合所 包含的一条或多条规则,根据判断结果识别网页为可疑钓鱼网页。在本实施例中,将标签 内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,解决了网页URL为正常 URL,但该网页内容中嵌有钓鱼特征的情况却无法正确识别网页的技术问题,提高了钓鱼网 页识别准确率。
[0045] 图2示出了根据本发明另一个实施例的基于云端内容规则库识别可疑钓鱼网页 的方法的流程图。如图2所示,该方法包括以下步骤:
[0046] 步骤S200,获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息。
[0047] -项或多项标签内容信息包含以下信息的至少一项:标题标签、图像标签、框架标 签、锚标签、超链接标签中的内容信息。具体地,用户通过客户端的浏览器打开网页,客户端 在浏览器加载网页时抽取网页的标题标签、图像标签、框架标签、锚标签、超链接标签中的 内容信息,在客户端完成抽取后将抽取的标签内容信息上报给云端服务器。本发明中,客户 端可以为计算机、移动终端、平板设备等,本发明对此不做限制。
[0048] 步骤S210,将一项或多项标签内容信息中的指定属性信息与云端内容规则库中的 规则进行匹配,获得云端所匹配的至少一条规则。
[0049] 每一个html标签都拥有各自的属性,用来表示该标签的性质和特性,一般标签都 是成对出现的即开始标签和结束标签,通常在开始标签中指定标签的属性,以"属性名= "值""的形式来表示。这里的指定属性信息是指标签中特定属性的值,该指定属性信息用于 与云端内容规则库中的规则进行匹配。
[0050] 在步骤S200中抽取了标题标签、图像标签、框架标签、锚标签、超链接标签中的 内容信息,其中一项或多项标签内容信息中的指定属性信息具体为:标签内容信息中携带 的URL或标题内容。以锚标签为例,锚标签具有href属性、charset属性、download属性 等,其中,在href属性值为URL,即规定链接指向的页面的URL ;charset属性值为char_ encoding,即规定被连接文档的字符集;download属性值为filename,即规定被下载的超链 接目标。在锚标签中,该标签内容信息中的指定属性信息为href属性值URL。根据各标签 的属性确定,标题标签内容信息中的指定属性信息为标题内容,图像标签、框架标签、锚标 签、超链接标签内容信息中的指定属性信息为URL。将指定属性信息URL或标题内容与云端 内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则。
[0051] 具体地,判断一项或多项标签内容信息中任一项标签内容信息携带的URL是否属 于黑名单,若是,则确定该项标签内容信息携带的URL与第一规则匹配,获得云端所匹配的 第一规则。
[0052] 判断一项或多项标签内容信息中任一项标签内容信息携带的URL是否具有指定 路径,若是,则确定该项标签内容信息携带的URL与第二规则匹配,获得云端所匹配的第二 规则。这里的指定路径指URL中包含敏感关键字,例如taobao、shishicai等。
[0053] 判断一项或多项标签内容信息中任一项标签内容信息携带的标题内容是否具有 指定关键字,若是,则确定该项标签内容信息携带的标题内容与第三规则匹配,获得云端所 匹配的第三规则。
[0054] 判断网页所属站点是否为新站点,若是,则获得云端所匹配的第四规则。其中,通 过判断网页所属站点在预设时间段内的访问量是否小于预设值;若访问量小于预设值,则 确定网页所属站点为新站点。例如,根据网页的URL判断网页所属站点在一个月内的访问 量是否小于预设值5000,若访问量小于预设值5000,则确定网页所属站点为新站点。
[0055] 举例说明,将标签内容信息的指定属性信息与云端内容规则库内的规则匹配,确 定与第三规则、第四规则匹配即标题标签内含有淘宝、该站点为新站点,获得云端所匹配的 规则。
[0056] 步骤S220,采用基于网页内容进行识别的方法对网页进行识别,得到识别结果。
[0057] 在本实施例中介绍两种基于网页内容识别的方法:
[0058] 〈1> :在访问网页加载完成后,提取网页的多个内容片段,其中,内容片段可以是网 页上的文本内容按特定的编码转换后的二进制编码数据;获取每个内容片段对应的特征 ID,其中内容片段与特征ID唯一对应;将多个内容片段对应的特征ID与特征库中的特征 ID进行匹配,其中,特征库由服务器生成,是大量的钓鱼网页中的恶意内容片段对应的特征 ID的集合;若多个内容片段对应的特征ID中具有与特征库中的特征ID匹配的至少一个特 征ID,则根据网页的信息,计算网页的评估分;将网页的评估分与设定阈值进行比较,得到 比较结果。通过特征库和对网页信息的综合评分来对网页进行识别,提高了识别效率,而且 通过多层次的识别,降低了误判率,提高了识别准确率。
[0059] 〈2>:在浏览器的网页事件加载完成后,提取网页的多个内容片段,其中,内容片段 可以是网页上的文本内容按特定的编码转换后的二进制编码数据;获取每个内容片段对应 的特征ID,其中内容片段与特征ID唯一对应;将多个内容片段对应的特征ID与特征库中 的特征ID进行匹配,其中,特征库由服务器生成,是大量的钓鱼网页中的恶意内容片段对 应的特征ID的集合;若多个内容片段对应的特征ID中具有与特征库中的特征ID匹配的至 少一个特征ID,则将该匹配的至少一个特征ID进行组合计算得到至少一个模板ID,其中, 模板ID可以是通过特定的快速哈希算法生成的定长的二进制数据,例如,通过MD5算法生 成的64位的二进制串,与特征ID类似地,不同特征ID按照相同的顺序组合,按照相同的算 法计算得到的模板ID是唯一的并且是不可逆的;将至少一个模板ID与钓鱼网页识别库中 的模板ID进行匹配,得到匹配结果。在该方法中,对网页的识别结合了网页中的多个网页 元素的特征ID以及特征ID组合计算得到的模板ID,对网页进行了多层次的识别,通过上述 多层次的识别,降低了误判率,提高了识别准确率。
[0060] 步骤S220是本实施例的可选步骤。
[0061] 步骤S230,判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则 集合所包含的一条或多条规则,若是,则执行步骤S240 ;若否,则方法结束。
[0062] 其中,云端内容规则库包含:至少包含第一规则的第一规则集合;和/或,至少包 含第二规则和第四规则的第二规则集合;和/或,至少包含第三规则和第四规则的第三规 则集合;其中,第一规则为URL属于黑名单;第二规则为URL具有指定路径;第三规则为标 题内容具有指定关键字;第四规则为网页所属站点为新站点。
[0063] 步骤S240,结合网页内容识别结果,识别网页为可疑钓鱼网页。
[0064] 在判断云端所匹配的至少一条规则涵盖云端内容规则库中任一规则集合所包含 的一条或多条规则的情况下,结合步骤S220中基于网页内容对网页进行识别的结果,识别 网页为可疑钓鱼网页。
[0065] 下面分别介绍结合步骤S220中的两种识别结果,识别网页为可疑钓鱼网页:
[0066] 〈1>:根据网页的信息计算得到网页的评估分,将网页的评估分与设定阈值例如 〇. 7进行比较,若网页的评估分大于0. 7,且云端所匹配的至少一条规则涵盖云端内容规则 库中任一规则集合所包含的一条或多条规则,则将网页识别为可疑钓鱼网页;若网页的评 估分小于〇. 7,则可将网页的URL发送给审核人员,由审核人员进行审核,从而更精确的判 断网页是否为可疑钓鱼网页。
[0067] 〈2> :在步骤S220中介绍了通过提取网页的多个内容片段,并将内容片段的特征 ID与特征库中的特征ID进行匹配,将匹配的至少一个特征ID进行组合计算得到至少一 个模板ID,将至少一个模板ID与钓鱼网页识别库中的模板ID进行匹配,若至少一个模板 ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID,且云端所匹配的至少一条规则涵 盖云端内容规则库中任一规则集合所包含的一条或多条规则,则将网页识别为可疑钓鱼网 页;若至少一个模板ID中没有与钓鱼网页识别库中的模板ID匹配的模板ID,则可将网页 的URL发送给审核人员,由审核人员进行审核,从而更精确的判断网页是否为可疑钓鱼网 页。
[0068] 在没有获得网页内容识别结果,即没有执行上述步骤S220的情况下,本发明可仅 根据云端内容规则库中的规则集合来判断网页是否为可疑钓鱼网页,即在获得云端所匹配 的至少一条规则后,直接判断云端所匹配的至少一条规则是否涵盖云端内容规则中的任一 规则集合所包含的一条或多条规则,根据判断结果识别网页为可疑钓鱼网页。
[0069] 步骤S250,生成云查询日志用于记录网页被识别为可疑钓鱼网页。
[0070] 在根据上述步骤确定网页为可疑钓鱼网页后,可采用生成云查询日志的方式将识 别的可疑钓鱼网页记录在云查询日志中,审核人员可通过该日志了解是否有误拦截的情 况,对于误拦截的网页可以进行出库处理。
[0071] 此外,还可向客户端发送用于报警的提示信息,以使客户端向用户展示提示信息, 用户在看到客户端展示的提示信息后,可以有选择性的决定是否继续访问网页。
[0072] 此外,为了降低云端服务器的工作量,可以先基于网页内容计算网页的评估分,根 据网页的评估分与设定阈值比较结果来判断是否执行云查询(即向云端上报标签内容信 息来查询云端规则库),首先在客户端对网页进行了筛选,对筛选出的大于设定阈值的网页 做云查询,加快了网页识别的检测速度,降低了云端服务器的负载。
[0073] 为了提升钓鱼网页识别速率,减少对云端资源的占用,在获取网页的标签内容信 息之前,先将网页的网址信息发送给云端服务器,以供云端服务器判断网页所属站点是否 为新站点,在接收到云端服务器判断出网页所属站点为新站点的通知信息的情况下,客户 端抽取网页的标签内容信息,实现通过云端控制只针对新站进行检测,这样减少了云端服 务器对网页的识别数量以及客户端的工作量。
[0074] 根据本发明上述实施例提供的方法,获取客户端在浏览器加载网页时抽取的一项 或多项标签内容信息;将一项或多项标签内容信息中的指定属性信息与云端内容规则库中 的规则进行匹配,获得云端所匹配的至少一条规则;采用基于网页内容进行识别的方法对 网页进行识别,得到识别结果;判断云端所匹配的至少一条规则是否涵盖云端内容规则库 中任一规则集合所包含的一条或多条规则;在判断出云端所匹配的至少一条规则涵盖云端 内容规则库中任一规则集合所包含的一条或多条规则的情况下,结合网页内容识别结果, 识别网页为可疑钓鱼网页;生成云查询日志用于记录网页被识别为可疑钓鱼网页。在本实 施例中,将标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,解决了 网页URL为正常的URL,但该网页内容中嵌有钓鱼特征的情况却无法正确识别网页的技术 问题,提高了钓鱼网页识别准确率;结合网页内容识别,通过这种多层次的识别降低了误判 率;根据生成的云查询日志可以进一步检测是否有误拦截的情况,对于误拦截的网页可以 进行出库处理,进一步提高了网页识别的准确率;本方法克服了现有的基于机器学习来识 别钓鱼网页的方法不能将全部的钓鱼特征检测出来,而且机器学习无法适应钓鱼特征的变 化,使得识别方法相对滞后,从而给用户造成损失的缺陷,利用该方法能够全面的识别钓鱼 网页,而不会出现用户受骗之后才能将相应的钓鱼网页获取再根据该钓鱼网页做相应识别 方法的情况。
[0075] 图3示出了根据本发明另一个实施例的基于云端内容规则库识别可疑钓鱼网页 的方法的流程图。如图3所示,该方法包括以下步骤:
[0076] 步骤S300,获取客户端在浏览器加载网页时抽取的iframe标签内容信息。
[0077] 本实施例中的有关iframe标签的内容可参见上面的描述,在此不再赘述。
[0078] 步骤S310,将iframe标签内容信息中的指定属性信息与云端内容规则库中的规 则进行匹配,获得云端所匹配的至少一条规则。
[0079] 根据上述所介绍的iframe标签,将iframe标签内容信息中的指定属性信息URL 与云端内容规则库中的规则进行匹配,若指定属性信息URL属于黑名单,则确定iframe标 签内容信息中的指定属性信息URL与云端内容规则内的第一规则匹配上,并获得该第一规 贝1J。通过检测iframe标签中嵌入的URL,可以将网页中其他未知的钓鱼特征检测出来,扩大 了钓鱼特征的检测范围。
[0080] 步骤S320,判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则 集合所包含的一条或多条规则,若是,则执行步骤S330 ;若否,则方法结束。
[0081] 判断步骤S310中所匹配的第一规则是否涵盖云端内容规则库中的任一规则集合 所包含的一条或多条规则,通过判断得到步骤S310中所匹配的第一规则涵盖了云端内容 规则库内的第一规则集合所包含的一条规则。
[0082] 步骤S330,生成云查询日志用于记录网页被识别为可疑钓鱼网页。
[0083] 该步骤与图2所示实施例中的S250类似,在此不再赘述。
[0084] 本发明不仅限于根据iframe标签中的URL是否属于黑名单来判断网页是否为可 疑钓鱼网页,还可根据img标签、a标签等中的URL是否属于黑名单来判断网页是否为可疑 钓鱼网页,具体方法与根据iframe标签的判断方法类似,在此不再赘述。
[0085] 根据本发明上述实施例提供的方法,获取网页中的iframe标签内容信息,从该 iframe标签内容信息中提取指定属性信息URL,判断该URL是否属于黑名单,若是,则能够 确定网页为可疑钓鱼网页,而不需要再结合其他规则进行判断,该方法既快速又能将隐藏 在iframe标签内的钓鱼特征检测出来,扩大了钓鱼特征的检测范围,解决了网页URL为正 常URL但该网页内容中嵌有钓鱼特征的情况却无法正确识别网页的技术问题,提高了钓鱼 网页识别准确率。
[0086] 图4示出了根据本发明另一个实施例的基于云端内容规则库识别可疑钓鱼网页 的方法的流程图。如图4所示,该方法包括以下步骤:
[0087] 步骤S400,获取客户端在浏览器加载网页时抽取的img标签内容信息。
[0088] 本实施例中的有关img标签的内容可参见上面的描述,在此不再赘述。
[0089] 步骤S410,将img标签内容信息中的指定属性信息与云端内容规则库中的规则进 行匹配,获得云端所匹配的至少一条规则。
[0090] 根据上述所介绍的img标签,将img标签内容信息中的指定属性信息URL与云端 内容规则库中的规则进行匹配,若指定属性信息URL具有指定路径,则确定img标签内容信 息中的指定属性信息URL与云端内容规则内的第二规则匹配上,并获得该第二规则。例如, img标签内容信息中的指定属性信息URL中包含taobao。
[0091] 步骤S420,判断网页所属站点是否为新站点,若是则执行步骤S430,若否则方法 结束。
[0092] 具体地,通过判断网页所属站点在预设时间段内的访问量是否小于预设值;若访 问量小于预设值,则确定网页所属站点为新站点。例如,判断网页所属站点在一个月内的访 问量是否小于预设值5000,若访问量小于预设值5000,则确定网页所属站点为新站点。
[0093] 步骤S430,获得云端所匹配的第四规则。
[0094] 举例来说,如果img标签内容信息中定义了淘宝CDN(内容分发网络)中的淘宝图 片,那么img标签内容信息中的URL具有淘宝路径,并且云端服务器通过对网页所属站点进 行检测,判断该网页所属站点为新站点,由此获得云端所匹配的第二规则和第四规则。
[0095] 步骤S440,判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则 集合所包含的一条或多条规则,若是,则执行步骤S450 ;若否,则方法结束。
[0096] 判断步骤S410中所匹配的第二规则、步骤S430中获得的第四规则是否涵盖云端 内容规则库中的任一规则集合所包含的一条或多条规则,通过判断得到步骤S410中所匹 配的第二规则、步骤S430中获得的第四规则涵盖了云端内容规则库内的第二规则集合所 包含的多条规则。
[0097] 对于上面的例子,img标签内容信息中的URL具有淘宝路径,但网页所属站点是新 站点,那么这种情况很有可能属于淘宝钓鱼,因此需要将该网页列为可疑钓鱼网页。
[0098] 步骤S450,生成云查询日志用于记录网页被识别为可疑钓鱼网页。
[0099] 该步骤与图2所示实施例中的步骤S250类似,在此不再赘述。
[0100] 通过统计img标签所定义的URL的链接内容,基于链接内容进行学习,并运营成一 个规则,将有问题的链接内容展示给用户。
[0101] 本发明还可通过判断iframe标签或a标签中的URL是否具有指定路径,并结合网 页所属站点是否为新站点来判断网页是否为可疑钓鱼网页,具体方法与根据img标签中的 URL是否具有指定路径、网页所属站点是否为新站点来判断网页是否为可疑钓鱼网页的方 法类似,在此不再赘述。
[0102] 根据本发明上述实施例提供的方法,获取网页中的img标签内容信息,从该img标 签内容信息中提取指定属性信息URL,判断该URL是否具有指定路径,并且判断网页所属站 点是否为新站点,若URL具有指定路径且网页所属站点为新站点,则能够确定网页为可疑 钓鱼网页。针对img标签链接至安全图片,但网页为新站点的情况提出了具体的识别方法, 该方法进一步提高了网页识别的准确率。
[0103] 图5示出了根据本发明另一个实施例的基于云端内容规则库识别可疑钓鱼网页 的方法的流程图。如图5所示,该方法包括以下步骤:
[0104] 步骤S500,获取客户端在浏览器加载网页时抽取的title标签内容信息。
[0105] 本实施例中的有关title标签的内容可参见上面的描述,在此不再赘述。
[0106] 步骤S510,将title标签内容信息中的指定属性信息与云端内容规则库中的规则 进行匹配,获得云端所匹配的至少一条规则。
[0107] 根据上述所介绍的title标签,将title标签内容信息中的指定属性信息标题内 容与云端内容规则库中的规则进行匹配,若标题内容具有指定关键字,则确定title标签 内容信息中的标题内容与云端内容规则内的第三规则匹配上,并获得该第三规则。例如, title标签内容信息中的标题内容中包含指定关键字"淘宝"。
[0108] 步骤S520,判断网页所属站点是否为新站点,若是则执行步骤S530,若否则方法 结束。
[0109] 具体地,通过判断网页所属站点在预设时间段内的访问量是否小于预设值;若访 问量小于预设值,则确定网页所属站点为新站点。例如,判断网页所属站点在一个月内的访 问量是否小于预设值5000,若访问量小于预设值5000,则确定网页所属站点为新站点。
[0110] 步骤S530,获得云端所匹配的第四规则。
[0111] 步骤S540,判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则 集合所包含的一条或多条规则,若是,则执行步骤S550 ;若否,则方法结束。
[0112] 判断步骤S510中所匹配的第三规则、步骤S530中获得的第四规则是否涵盖云端 内容规则库中的任一规则集合所包含的一条或多条规则,通过判断得到步骤S510中所匹 配的第三规则、步骤S530中获得的第四规则涵盖了云端内容规则库内的第二规则集合所 包含的多条规则。对于这种标题内容中包含指定关键字"淘宝",但网页所属站点是新站点 的情况,很有可能属于淘宝钓鱼,因此需要将该网页列为可疑钓鱼网页。
[0113] 步骤S550,生成云查询日志用于记录网页被识别为可疑钓鱼网页。
[0114] 该步骤与图2所示实施例中的步骤S250类似,在此不再赘述。
[0115] 根据本发明上述实施例提供的方法,获取网页中的title标签内容信息,从该 title标签内容信息中提取指定属性信息标题内容,判断该标题内容是否具有指定关键字, 并且判断网页所属站点是否为新站点,若标题内容具有指定关键字且网页所属站点为新站 点,则能够确定网页为可疑钓鱼网页。针对title标签包含指定关键字例如淘宝,但网页为 新站点的情况提出了具体的识别方法,该方法进一步提高了网页识别的准确率。
[0116] 图6示出了根据本发明一个实施例的云端服务器的结构示意图。如图6所示,该 云端服务器包括:云端内容规则库610、接收模块620、匹配模块630、识别模块640。
[0117] 云端内容规则库610,包含至少一个规则集合,每个规则集合包含一条或多条规 则。
[0118] 其中,云端内容规则库包含:至少包含第一规则的第一规则集合;和/或,至少包 含第二规则和第四规则的第二规则集合;和/或,至少包含第三规则和第四规则的第三规 则集合;其中,第一规则为URL属于黑名单;第二规则为URL具有指定路径;第三规则为标 题内容具有指定关键字;第四规则为网页所属站点为新站点。
[0119] 接收模块620,适于获取客户端在浏览器加载网页时抽取的一项或多项标签内容 信息。
[0120] 一项或多项标签内容信息包含以下信息的至少一项:标题标签、图像标签、框架标 签、锚标签、超链接标签中的内容信息。具体地,用户通过客户端的浏览器打开网页,客户端 在浏览器加载网页时抽取网页的标题标签、图像标签、框架标签、锚标签、超链接标签中的 内容信息,在客户端完成抽取后将抽取的标签内容信息上报给云端服务器。本发明中,客户 端可以为计算机、移动终端、平板设备等,本发明对此不做限制。
[0121] 匹配模块630,适于将一项或多项标签内容信息中的指定属性信息与云端内容规 则库中的规则进行匹配,获得云端所匹配的至少一条规则。
[0122] 每一个html标签都拥有各自的属性,用来表示该标签的性质和特性,一般标签都 是成对出现的即开始标签和结束标签,通常在开始标签中指定标签的属性,以"属性名= "值""的形式来表示。这里的指定属性信息是指标签中特定属性的值,该指定属性信息用于 与云端内容规则库中的规则进行匹配。
[0123] 接收模块620获取了标题标签、图像标签、框架标签、锚标签、超链接标签中的内 容信息,其中一项或多项标签内容信息中的指定属性信息具体为:标签内容信息中携带 的URL或标题内容。以锚标签为例,锚标签具有href属性、charset属性、download属性 等,其中,在href属性值为URL,即规定链接指向的页面的URL ;charset属性值为char_ encoding,即规定被连接文档的字符集;download属性值为filename,即规定被下载的超链 接目标。在锚标签中,该标签内容信息中的指定属性信息为href属性值URL。根据各标签 的属性确定,标题标签内容信息中的指定属性信息为标题内容,图像标签、框架标签、锚标 签、超链接标签内容信息中的指定属性信息为URL。将指定属性信息URL或标题内容与云端 内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则。
[0124] 匹配模块630进一步适于:判断一项或多项标签内容信息中任一项标签内容信息 携带的URL是否属于黑名单,若是,则确定该项标签内容信息携带的URL与第一规则匹配, 获得云端所匹配的第一规则。
[0125] 匹配模块630进一步适于:判断一项或多项标签内容信息中任一项标签内容信息 携带的URL是否具有指定路径,若是,则确定该项标签内容信息携带的URL与第二规则匹 配,获得云端所匹配的第二规则。
[0126] 匹配模块630进一步适于:判断一项或多项标签内容信息中任一项标签内容信息 携带的标题内容是否具有指定关键字,若是,则确定该项标签内容信息携带的标题内容与 第三规则匹配,获得云端所匹配的第三规则。
[0127] 匹配模块630进一步适于:判断网页所属站点是否为新站点,若是,则获得云端所 匹配的第四规则。
[0128] 匹配模块630进一步适于:判断网页所属站点在预设时间段内的访问量是否小于 预设值;若访问量小于预设值,则确定网页所属站点为新站点。
[0129] 识别模块640,适于判断云端所匹配的至少一条规则是否涵盖云端内容规则库中 任一规则集合所包含的一条或多条规则,根据判断结果识别网页为可疑钓鱼网页。
[0130] 云端服务器还包括:内容识别结果获取模块650,适于采用基于网页内容进行识 别的方法对网页进行识别,得到识别结果。
[0131] 在本实施例中介绍两种基于网页内容识别的方法:
[0132] 〈1> :在访问网页加载完成后,提取网页的多个内容片段,其中,内容片段可以是网 页上的文本内容按特定的编码转换后的二进制编码数据;获取每个内容片段对应的特征 ID,其中内容片段与特征ID唯一对应;将多个内容片段对应的特征ID与特征库中的特征 ID进行匹配,其中,特征库由服务器生成,是大量的钓鱼网页中的恶意内容片段对应的特征 ID的集合;若多个内容片段对应的特征ID中具有与特征库中的特征ID匹配的至少一个特 征ID,则根据网页的信息,计算网页的评估分;将网页的评估分与设定阈值进行比较,得到 比较结果。通过特征库和对网页信息的综合评分来对网页进行识别,提高了识别效率,而且 通过多层次的识别,降低了误判率,提高了识别准确率。
[0133] 〈2>:在浏览器的网页事件加载完成后,提取网页的多个内容片段,其中,内容片段 可以是网页上的文本内容按特定的编码转换后的二进制编码数据;获取每个内容片段对应 的特征ID,其中内容片段与特征ID唯一对应;将多个内容片段对应的特征ID与特征库中 的特征ID进行匹配,其中,特征库由服务器生成,是大量的钓鱼网页中的恶意内容片段对 应的特征ID的集合;若多个内容片段对应的特征ID中具有与特征库中的特征ID匹配的至 少一个特征ID,则将该匹配的至少一个特征ID进行组合计算得到至少一个模板ID,其中, 模板ID可以是通过特定的快速哈希算法生成的定长的二进制数据,例如,通过MD5算法生 成的64位的二进制串,与特征ID类似地,不同特征ID按照相同的顺序组合,按照相同的算 法计算得到的模板ID是唯一的并且是不可逆的;将至少一个模板ID与钓鱼网页识别库中 的模板ID进行匹配,得到匹配结果。在该方法中,对网页的识别结合了网页中的多个网页 元素的特征ID以及特征ID组合计算得到的模板ID,对网页进行了多层次的识别,通过上述 多层次的识别,降低了误判率,提高了识别准确率。
[0134] 识别模块640进一步适于:在判断出云端所匹配的至少一条规则涵盖云端内容规 则库中任一规则集合所包含的一条或多条规则的情况下,结合识别结果,识别网页为可疑 钓鱼网页。
[0135] 云端服务器还包括:日志生成模块660,适于生成云查询日志用于记录网页被识 别为可疑钓鱼网页。
[0136] 和/或,发送模块670,适于向客户端发送用于报警的提示信息,以使客户端向用 户展示提示信息。
[0137] 图7示出了根据本发明一个实施例的基于云端内容规则库识别可疑钓鱼网页的 系统的结构示意图,如图7所示,该系统包括客户端700和云端服务器600,其中有关云端服 务器600的具体结构和功能可参见云端服务器实施例的描述,在此不再赘述。
[0138] 根据本发明上述实施例提供的基于云端内容规则库识别可疑钓鱼网页的系统,获 取客户端在浏览器加载网页时抽取的一项或多项标签内容信息;将一项或多项标签内容信 息中的指定属性信息与云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规 贝1J ;采用基于网页内容进行识别的方法对网页进行识别,得到识别结果;判断云端所匹配 的至少一条规则是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则;在判 断出云端所匹配的至少一条规则涵盖云端内容规则库中任一规则集合所包含的一条或多 条规则的情况下,结合网页内容识别结果,识别网页为可疑钓鱼网页;生成云查询日志用于 记录网页被识别为可疑钓鱼网页。在本实施例中,将标签内容信息中的指定属性信息与云 端内容规则库中的规则进行匹配,解决了网页URL为正常的URL,但该网页内容中嵌有钓鱼 特征的情况却无法正确识别网页的技术问题,提高了钓鱼网页识别准确率;结合网页内容 识别,通过这种多层次的识别降低了误判率;根据生成的云查询日志可以进一步检测是否 有误拦截的情况,对于误拦截的网页可以进行出库处理,进一步提高了网页识别的准确率, 克服了现有的基于机器学习来识别钓鱼网页的方法不能将全部的钓鱼特征检测出来,而且 机器学习无法适应钓鱼特征的变化,使得识别方法相对滞后,从而给用户造成损失的缺陷, 利用该方法能够全面的识别钓鱼网页,而不会出现用户受骗之后才能将相应的钓鱼网页获 取再根据该钓鱼网页做相应识别方法的情况。
[0139] 在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。 各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求 的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种 编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发 明的最佳实施方式。
[0140] 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施 例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构 和技术,以便不模糊对本说明书的理解。
[0141] 类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在 上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施 例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保 护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面 的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此, 遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身 都作为本发明的单独实施例。
[0142] 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地 改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单 元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或 子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任 何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开 的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴 随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代 特征来代替。
[0143] 此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例 中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的 范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任 意之一都可以以任意的组合方式来使用。
[0144] 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行 的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用 微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于云端内容规则库识 别可疑钓鱼网页的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为 用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和 计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有 一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上 提供,或者以任何其他形式提供。
[0145] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领 域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中, 不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词"包含"不排除存在 未列在权利要求中的元件或步骤。位于元件之前的单词"一"或"一个"不排除存在多个这 样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来 实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件 项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为 名称。
[0146] 本发明公开了 :A1、一种基于云端内容规则库识别可疑钓鱼网页的方法,所述云端 内容规则库包含至少一个规则集合,每个规则集合包含一条或多条规则;所述方法包括 :
[0147] 获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息;
[0148] 将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则 进行匹配,获得云端所匹配的至少一条规则;
[0149] 判断所述云端所匹配的至少一条规则是否涵盖所述云端内容规则库中任一规则 集合所包含的一条或多条规则,根据判断结果识别所述网页为可疑钓鱼网页。
[0150] A2、根据A1所述的方法,所述一项或多项标签内容信息包含以下信息的至少一 项:标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息;
[0151] 所述指定属性信息具体为:所述标签内容信息中携带的URL或标题内容。
[0152] A3、根据A1或A2所述的方法,所述云端内容规则库包含:
[0153] 至少包含第一规则的第一规则集合;
[0154] 和/或,至少包含第二规则和第四规则的第二规则集合;
[0155] 和/或,至少包含第三规则和第四规则的第三规则集合;
[0156] 其中,所述第一规则为URL属于黑名单;所述第二规则为URL具有指定路径;所述 第三规则为标题内容具有指定关键字;所述第四规则为网页所属站点为新站点。
[0157] A4、根据A3所述的方法,所述将一项或多项标签内容信息中的指定属性信息与所 述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则进一步包括:
[0158] 判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否属于 所述黑名单,若是,则确定该项标签内容信息携带的URL与所述第一规则匹配,获得云端所 匹配的第一规则。
[0159] A5、根据A3所述的方法,所述将一项或多项标签内容信息中的指定属性信息与所 述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则进一步包括:
[0160] 判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否具有 所述指定路径,若是,则确定该项标签内容信息携带的URL与所述第二规则匹配,获得云端 所匹配的第二规则。
[0161] A6、根据A3所述的方法,所述将一项或多项标签内容信息中的指定属性信息与所 述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则进一步包括:
[0162] 判断所述一项或多项标签内容信息中任一项标签内容信息携带的标题内容是否 具有指定关键字,若是,则确定该项标签内容信息携带的标题内容与所述第三规则匹配,获 得云端所匹配的第三规则。
[0163] A7、根据A3所述的方法,所述方法进一步包括:判断所述网页所属站点是否为新 站点,若是,则获得云端所匹配的第四规则。
[0164] A8、根据A7所述的方法,所述判断网页所属站点是否为新站点具体为:判断所述 网页所属站点在预设时间段内的访问量是否小于预设值;若所述访问量小于预设值,则确 定所述网页所属站点为新站点。
[0165] A9、根据A1所述的方法,所述方法进一步包括:采用基于网页内容进行识别的方 法对所述网页进行识别,得到识别结果;
[0166] 所述根据判断结果识别网页为可疑钓鱼网页进一步包括:
[0167] 在判断出所述云端所匹配的至少一条规则涵盖所述云端内容规则库中任一规则 集合所包含的一条或多条规则的情况下,结合所述识别结果,识别所述网页为可疑钓鱼网 页。
[0168] A10、根据A1所述的方法,在所述识别网页为可疑钓鱼网页之后进一步包括:生成 云查询日志用于记录所述网页被识别为可疑钓鱼网页;和/或,向客户端发送用于报警的 提示信息,以使所述客户端向用户展示所述提示信息。
[0169] 本发明还公开了:B11、一种云端服务器,包括:
[0170] 云端内容规则库,包含至少一个规则集合,每个规则集合包含一条或多条规则;
[0171] 接收模块,适于获取客户端在浏览器加载网页时抽取的一项或多项标签内容信 息;
[0172] 匹配模块,适于将一项或多项标签内容信息中的指定属性信息与所述云端内容规 则库中的规则进行匹配,获得云端所匹配的至少一条规则;
[0173] 识别模块,适于判断所述云端所匹配的至少一条规则是否涵盖所述云端内容规则 库中任一规则集合所包含的一条或多条规则,根据判断结果识别所述网页为可疑钓鱼网 页。
[0174] B12、根据B11所述的云端服务器,所述一项或多项标签内容信息包含以下信息的 至少一项:标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息;
[0175] 所述指定属性信息具体为:所述标签内容信息中携带的URL或标题内容。
[0176] B13、根据B11或B12所述的云端服务器,所述云端内容规则库包含:
[0177] 至少包含第一规则的第一规则集合;
[0178] 和/或,至少包含第二规则和第四规则的第二规则集合;
[0179] 和/或,至少包含第三规则和第四规则的第三规则集合;
[0180] 其中,所述第一规则为URL属于黑名单;所述第二规则为URL具有指定路径;所述 第三规则为标题内容具有指定关键字;所述第四规则为网页所属站点为新站点。
[0181] B14、根据B13所述的云端服务器,所述匹配模块进一步适于:判断所述一项或多 项标签内容信息中任一项标签内容信息携带的URL是否属于所述黑名单,若是,则确定该 项标签内容信息携带的URL与所述第一规则匹配,获得云端所匹配的第一规则。
[0182] B15、根据B13所述的云端服务器,所述匹配模块进一步适于:判断所述一项或多 项标签内容信息中任一项标签内容信息携带的URL是否具有所述指定路径,若是,则确定 该项标签内容信息携带的URL与所述第二规则匹配,获得云端所匹配的第二规则。
[0183] B16、根据B13所述的云端服务器,所述匹配模块进一步适于:判断所述一项或多 项标签内容信息中任一项标签内容信息携带的标题内容是否具有指定关键字,若是,则确 定该项标签内容信息携带的标题内容与所述第三规则匹配,获得云端所匹配的第三规则。
[0184] B17、根据B13所述的云端服务器,所述匹配模块进一步适于:判断所述网页所属 站点是否为新站点,若是,则获得云端所匹配的第四规则。
[0185] B18、根据B17所述的云端服务器,所述匹配模块进一步适于:判断所述网页所属 站点在预设时间段内的访问量是否小于预设值;若所述访问量小于预设值,则确定所述网 页所属站点为新站点。
[0186] B19、根据B11所述的云端服务器,还包括:内容识别结果获取模块,适于采用基于 网页内容进行识别的方法对所述网页进行识别,得到识别结果;
[0187] 所述识别模块进一步适于:在判断出所述云端所匹配的至少一条规则涵盖所述云 端内容规则库中任一规则集合所包含的一条或多条规则的情况下,结合所述识别结果,识 别所述网页为可疑钓鱼网页。
[0188] B20、根据B11所述的云端服务器,还包括:
[0189] 日志生成模块,适于生成云查询日志用于记录所述网页被识别为可疑钓鱼网页;
[0190] 和/或,发送模块,适于向客户端发送用于报警的提示信息,以使所述客户端向用 户展示所述提示信息。
[0191] 本发明还公开了:C21、一种基于云端内容规则库识别可疑钓鱼网页的系统,包括: B11-B20任一项所述的云端服务器以及客户端。
【权利要求】
1. 一种基于云端内容规则库识别可疑钓鱼网页的方法,所述云端内容规则库包含至少 一个规则集合,每个规则集合包含一条或多条规则;所述方法包括: 获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息; 将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行 匹配,获得云端所匹配的至少一条规则; 判断所述云端所匹配的至少一条规则是否涵盖所述云端内容规则库中任一规则集合 所包含的一条或多条规则,根据判断结果识别所述网页为可疑钓鱼网页。
2. 根据权利要求1所述的方法,所述一项或多项标签内容信息包含以下信息的至少一 项:标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息; 所述指定属性信息具体为:所述标签内容信息中携带的URL或标题内容。
3. 根据权利要求1或2所述的方法,所述云端内容规则库包含: 至少包含第一规则的第一规则集合; 和/或,至少包含第二规则和第四规则的第二规则集合; 和/或,至少包含第三规则和第四规则的第三规则集合; 其中,所述第一规则为URL属于黑名单;所述第二规则为URL具有指定路径;所述第三 规则为标题内容具有指定关键字;所述第四规则为网页所属站点为新站点。
4. 根据权利要求3所述的方法,所述将一项或多项标签内容信息中的指定属性信息与 所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则进一步包括: 判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否属于所述 黑名单,若是,则确定该项标签内容信息携带的URL与所述第一规则匹配,获得云端所匹配 的第一规则。
5. 根据权利要求3所述的方法,所述将一项或多项标签内容信息中的指定属性信息与 所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则进一步包括: 判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否具有所述 指定路径,若是,则确定该项标签内容信息携带的URL与所述第二规则匹配,获得云端所匹 配的第二规则。
6. 根据权利要求3所述的方法,所述将一项或多项标签内容信息中的指定属性信息与 所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则进一步包括: 判断所述一项或多项标签内容信息中任一项标签内容信息携带的标题内容是否具有 指定关键字,若是,则确定该项标签内容信息携带的标题内容与所述第三规则匹配,获得云 端所匹配的第三规则。
7. 根据权利要求3所述的方法,所述方法进一步包括:判断所述网页所属站点是否为 新站点,若是,则获得云端所匹配的第四规则。
8. 根据权利要求7所述的方法,所述判断网页所属站点是否为新站点具体为:判断所 述网页所属站点在预设时间段内的访问量是否小于预设值;若所述访问量小于预设值,则 确定所述网页所属站点为新站点。
9. 一种云端服务器,包括: 云端内容规则库,包含至少一个规则集合,每个规则集合包含一条或多条规则; 接收模块,适于获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息; 匹配模块,适于将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库 中的规则进行匹配,获得云端所匹配的至少一条规则; 识别模块,适于判断所述云端所匹配的至少一条规则是否涵盖所述云端内容规则库中 任一规则集合所包含的一条或多条规则,根据判断结果识别所述网页为可疑钓鱼网页。
10. -种基于云端内容规则库识别可疑钓鱼网页的系统,包括:权利要求9所述的云端 服务器以及客户端。
【文档编号】H04L29/06GK104158828SQ201410453169
【公开日】2014年11月19日 申请日期:2014年9月5日 优先权日:2014年9月5日
【发明者】李晓波, 肖鹏 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1