识别网页中是否包含恶意内容的方法和系统的制作方法

文档序号:10594485阅读:1019来源:国知局
识别网页中是否包含恶意内容的方法和系统的制作方法
【专利摘要】本发明公开了识别网页中是否包含恶意内容的方法,其中一种识别方法包括步骤:解析待识别网页的URL以从URL中提取URL特征以生成第一特征集;根据第一特征集生成第一特征向量;以及利用第一特征模型来处理所述第一特征向量,并输出第一结果以表征所述待识别网页是否包含恶意内容。本发明还公开了另外三种识别方法,以及与之对应的识别网页中是否包含恶意内容的系统。
【专利说明】
识别网页中是否包含恶意内容的方法和系统
技术领域
[0001] 本发明设及网络安全技术领域,尤其是识别网页中是否包含恶意内容的方法和系 统。
【背景技术】
[0002] 随着互联网发展,基于WEB的应用也日益普及,人们通过浏览器可W查询银行账 户、网上购物等,肥B为人们提供了方便快捷的交互方式。但随之而来的问题是:大量的恶意 网站攻击逐年成倍递增,其通过一系列技术手段伪装身份来骗取用户的信任,进而谋取非 法利益,用户在恶意网站的攻击下遭受巨大的经济损失。因此如何识别网页中的恶意内容、 防范恶意网站,成为网络安全领域一个非常有意义的研究课题。
[0003] 现有的防范恶意网站的技术主要是给定一个可疑网页的URL,将其发送至黑名单 数据库进行查询,然而由于钓鱼网站不断更新换代,运种方法对钓鱼网站等恶意网站的检 出率不高并具有滞后性。或者是通过扫描网页内容,查找网页中是否存在恶意关键词;或是 提取网页图像的基本特征,计算可疑网页与真实网页之间的相似度,W此来判断可疑网页 是否具有模仿嫌疑,但上述方法都有各自的局限性,造成误判率较高。

【发明内容】

[0004] 为此,本发明提供了识别网页中是否包含恶意内容的方法和系统,W力图解决或 者至少缓解上面存在的至少一个问题。
[0005] 根据本发明的一个方面,提供了一种识别网页中是否包含恶意内容的方法,包括 步骤:解析待识别网页的U化W从URL中提取U化特征W生成第一特征集;根据第一特征集生 成第一特征向量;W及利用第一特征模型来处理所述第一特征向量,并输出第一结果W表 征所述待识别网页是否包含恶意内容。
[0006] 在根据本发明的识别方法中,还包括预处理步骤:提取待识别网页的URL,判断待 识别网页U化与预存数据库中的U化是否一致,若待识别网页U化在第一预存数据库中,则判 断该待识别网页包含恶意内容;W及若待识别网页ML在第二预存数据库中,则判断该待识 别网页不包含恶意内容。
[0007] 根据本发明的另一方面,提供了一种识别网页中是否包含恶意内容的方法,包括 步骤:抓取待识别网页内容,对所抓取的网页内容进行分词处理得到词序列;根据词序列中 是否存在第二特征集中的特征词来构造维度为第一预定数目的第二特征向量,其中第二特 征集中预存了第一预定数目个特征词;W及利用第二特征模型处理所述第二特征向量,并 输出第二结果W表征所述待识别网页是否包含恶意内容。
[000引根据本发明的一方面,提供了一种识别网页中是否包含恶意内容的方法,包括步 骤:根据待识别网页的U化提取待识别网页的第一身份信息;提取该待识别网页的所有外链 接;根据外链接确定该待识别网页的第二身份信息;W及比较第一身份信息和第二身份信 息,输出第S结果W表征该待识别网页是否包含恶意内容。
[0009] 根据本发明的一方面,提供了一种识别网页中是否包含恶意内容的方法,包括步 骤:执行如上所述的识别方法W输出第一结果;执行如上所述的识别方法W输出第二结果; 执行如上所述的识别方法W输出第=结果;对第一结果、第二结果、和第=结果进行加权算 法,得到最终结果;若最终结果大于阔值,则判定该待识别网页中包含恶意内容;W及若最 终结果不大于阔值,则判定该待识别网页中不包含恶意内容。
[0010] 相应地,本发明还提供了分别与上述四种识别方法相对应的四种识别网页中是否 包含恶意内容的系统。
[0011] 基于上文的描述,本方案旨在提供一种高效、适用性强的识别恶意网页的方案,该 方案包括了 W下几种识别方法:
[0012] 首先,通过黑白名单对待识别网页的ML进行过滤;
[0013] 然后,解析待识别网页的U化并提取第一特征集,利用机器学习模型来处理第一特 征集,输出第一结果W表征待识别网页是否包含恶意内容;
[0014] 同时,根据待识别网页的网页内容提取第二特征向量,利用机器学习模型处理第 二特征向量,输出第二结果W表征待识别网页是否包含恶意内容;
[001引或者,通过分析待识别网页和其对应外链接的网页身份信息,判断待识别网页是 否具有模仿嫌疑,并输出第=结果W表征待识别网页是否包含恶意内容;
[0016] 最后,还可W将上述第一结果、第二结果、第=结果做加权运算,W达到更全面的 识别判断的目的。
[0017] 运样,本方案在传统的黑白名单识别方法的基础上,结合机器学习模型和模仿嫌 疑识别方法,同时考虑了册L特征和网页内容,既解决了黑白名单识别的滞后性,又有一定 的检测未知恶意网站的能力,还节省了人力资源,通过自动的方式对待识别网页进行识别。 并且,可W根据应用场景的需求,灵活选择上述识别方法进行组合,W便于快速、准确地识 别网页中是否包含恶意内容。
【附图说明】
[0018] 为了实现上述W及相关目的,本文结合下面的描述和附图来描述某些说明性方 面,运些方面指示了可W实践本文所公开的原理的各种方式,并且所有方面及其等效方面 旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述 W及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的 部件或元素。
[0019] 图1示出了根据本发明一个实施例的识别网页中是否包含恶意内容的方法100的 流程图;
[0020] 图2示出了根据本发明另一实施例的识别网页中是否包含恶意内容的方法200的 流程图;
[0021] 图3示出了根据本发明又一实施例的识别网页中是否包含恶意内容的方法300的 流程图;
[0022] 图4示出了根据本发明又一实施例的识别网页中是否包含恶意内容的方法400的 流程图;
[0023] 图5示出了根据本发明一个实施例的识别网页中是否包含恶意内容的系统500的 示意图;
[0024] 图6示出了根据本发明另一实施例的识别网页中是否包含恶意内容的系统600的 示意图;
[0025] 图7示出了根据本发明又一实施例的识别网页中是否包含恶意内容的系统700的 示意图;W及
[0026] 图8示出了根据本发明又一实施例的识别网页中是否包含恶意内容的系统800的 示意图。
【具体实施方式】
[0027] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可W W各种形式实现本公开而不应被运里阐述的实施例 所限制。相反,提供运些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0028] 图1示出了根据本发明一个实施例的识别网页中是否包含恶意内容的方法100的 流程图。
[0029] 根据本发明的一个实施例,为提高恶意网页的识别效率,对输入的待识别网页做 预处理操作,也就是采用黑白名单过滤待识别网页,W删选掉易于识别出的网页。具体地, 提取待识别网页的URL,判断该待识别网页URL与预存数据库(即黑名单和白名单)中的URL 是否一致,若待识别网页抓L在第一预存数据库(即,黑名单)中,则判断该待识别网页包含 恶意内容;若待识别网页册L在第二预存数据库(即,白名单)中,则判断该待识别网页不包 含恶意内容;对于剩下的没有匹配到的待识别网页,则进行步骤SllO的操作,W对其继续分 析。
[0030] 如下示出了黑白名单过滤时的代码执行逻辑,其中Whitelist指白名单, blacklist指黑名单:
[0031]
[0032]
[0033] 通过预处理步骤,先简单筛选掉易识别的网页,再分析待识别网页。该预处理步骤 可W与其他识别方法相结合,本发明对此不作限制。
[0034] 在步骤Sl 10中,解析待识别网页的URLW从所述抓L中提取U化特征W生成第一特 征集。
[0035] U化的每个片段都向客户端和服务器传达特定的信息,一个网页的U化可W被分解 为几个主要部分,如下所示:
[0036]
[0037] 其中协议(protocol )、主机化OSt)、路径(path)等各基本组成部分的介绍此处不 作展开。W如下U化为例:
[0038] http: //www.baidu. com/path/index. hrml?q = adf
[0039] 解析后得到:
[0040] protocol
[0041] host:WWW.baidu.com
[0042] path:path/index. hrml?q = adf
[0043] P曰thname:p曰th/index.hrml
[0044] query : ?q = adf
[0045] 然后提取URL特征W生成第一特征集。
[0046] 根据本发明的实施例,一共提取了URL的18个结构特征和7个词汇特征,如下(WFi 表示第i个特征):
[0047] Fi: url_len,U化长度,通常恶意网页的U化长度都过长;
[004引F2:http_n,ht化协议的使用次数,包含恶意内容的网页,例如钓鱼链接通常会多 次使用http协议,W此改变链接导向,将用户导向设计好的钓鱼网站中去,如,http:// 丽讯.1日06日0.(30111/111'1?9 = 111:化://'\¥丽.59日壯日(13 3123.(30111,该链接看起来似乎是导向淘宝 主页,而事实上当用户点击时会被重定向到后面的钓鱼网站上去。因此,多次使用http协议 的链接很有可能是钓鱼链接;
[0049] F3: tlcLinht,顶级域名是否合法,其中,用1表示合法,0表示不合法;
[0050] F4:is_ip,链接中是否含有IP地址,通常含有IP地址的链接很可能是钓鱼链接,而 合法的链接基本上不会包含IP地址,同样,用1表示是,0表示否;
[0051 ] Fs和Fs表示U化链接中含指定字符的个数,分别为:
[0052] F日:u;rl_n_pe;rcent,链接中字符'个数,通常含有'的URL是采用Unicode编 码,如,
[0053] http://Vww.taobao.com@%77%77%77%2E%70%68%69%73%68%2E%63% 6F% 抓;
[0054] F6:url_n_token,链接中含有'等分隔符的数目;
[0化5] F7:host_len,主机字符串的长度;
[0056] Fs和的表示主机字符串中含指定字符的个数,分别为:
[0057] F8:host_n_dot,主机字符串含有点号分隔符的数目;
[005引F9:host_n_token,主机字符串含有'等分隔符的数目;
[0059] Fio: host_max_len,主机字符串按点号分隔符分割后最长字符串的长度,如 WW. taobao . 1242.59adfadssl23 . com按照点号分割后的字符串为:"WW"、"taobao"、" 1242"、"59a 壯 adss 123"、"com",其中 Fio = 12;
[0060] Fii和Fi康示路径中含指定字符的个数,分别为:
[0061] Fii:path_n_dot,路径中含有点号分隔符的数目;
[0062] Fi2:path_n_token,路径中含有'等分隔符的数目;
[0063] Fi3 : pathname_l en,路径名的长度;
[0064] Fi4和Fis表示路径名中含指定字符的个数,分别为:
[0065] Fi4:pathname_n_dot,路径名中含有点号分隔符的数目;
[0066] Fi日:pathname_n_token,路径名中含有等分隔符的数目;
[0067] Fi6 : pathname_max_len,路径名按/产分割后最长字符串的长度,同Fio;
[0068] Fi7:n_subdir,路径深度,路径名中用/严表征路径的深度,通常恶意的链接都通过 加深路径来混淆用户;
[0069] Fis: query_len,query 字段的长度;
[0070] Fi9~F2日:分别表示TOL链接中是否包含字符串"secure"、"account"、"webscr"、" login"、"si即in"/'banking"/'confirm",通常恶意链接会包含运些字符串。
[0071] 本实施例只是给出了第一特征集的一个示例,第一特征集可W包含上述至少一个 U化特征,也可W提取其他的U化特征,本发明对此不作限制。
[0072] 随后在步骤S120中,根据上述第一特征集生成第一特征向量。
[0073] a)先对第一特征集中的每个特征进行数值化得到特征值,将所有特征值组成一个 特征向量。W上面的25个U化特征为例,对于如下的URL
[0074] http : / /www . dyfdzx . com / js/?app = com-d3&amp ;ref = http : / / jebvahnus.battle.net/d3/en/index
[00巧]提取Fi到F25特征得到特征值,组成一个25维的特征向量:
[0076] F 二< 84,2,!,0,0,(、14,2,0,6,2,6,3,0,0,2,2,5乂>
[0077] b)再对上述特征向量中的每一维特征值进行归一化处理,生成第一特征向量。
[0078] 根据本发明的一个实施例,按如下公式将特征向量中的每一维特征值归一化到[- la]之间:
[0079]
[0080] 其中,Fi为第i维特征值,巧为第i维特征值的平均值,Fi,max为第i维特征值的最大 值,Fi,min为第i维特征值的最小值。
[0081] 因此,步骤a)生成的特征向量歹经归一化后为: />二< 0.1,0.2,0.1 化0.0,-0.0,-0.1,0.1.0.0,-0.0,-0.化-0.0, L0082」 1,-0.0,-0化化-0.0 >
[0083] 随后在步骤S130中,利用第一特征模型来处理步骤S120中得到的第一特征向量, 并输出第一结果W表征该待识别网页是否包含恶意内容。
[0084] 根据本发明的实施方式,采用支持向量机算法(SVM)对第一特征向量进行分类,输 出0或1作为第一结果,具体地,若输出第一结果为1则表示待识别网页包含恶意内容;若输 出第一结果为0则表示待识别网页不包含恶意内容。
[00化]支持向量机(Suppod Vector Machine,SVM)是基于统计学习理论的一种机器学 习方法,其核屯、是找到一个超平面化yperplane)将训练数据分隔开,保证运个hype巧lane 两侧的间隔(margin)最大,也就是说,SVM算法通过寻求结构化风险最小来提高学习机泛化 能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得 良好统计规律的目的。理论上它是一个二元分类器,但是可W被拓展成多元分类器。应当注 意的是,本发明用于训练的特征模型(例如,第一特征模型)不受限于此。
[0086] 例如,对于待识别网页A,其U化为:
[0087] http://ssol.iitk.ac.in/wp-content/onlineinformationnabaustralia/ informationsec ureonline/login.php?NAB8251SReset-Online-Account7137
[0088] 提取其URL特征生成特征向量为:
[0089]
[0090] 再经归一化得到第一特征向量:
[0092] 将护输入第一特征模型,输出的第一结果为1,表示该网页A包含恶意内容。
[0093] 又如,对于待识别网页B,其U化为:
[0094] http://WWW.annyway. com/annyway/MMSC.84+M5d637ble38d.0.html [OOM]提取其URL特征生成特征向量为:
[0。。足I
[0097]再经归一化得到第一特征向量: 「nnoRl
[0099] 将护输入第一特征模型后,输出的第一结果为0,表示该网页B不包含恶意内容。
[0100] 根据本发明的实现方式,该识别方法100还包括训练第一特征模型的步骤:
[0101] (1)选取大量已经标记为不包含恶意内容的网页和包含恶意内容的网页的抓L作 为样本数据,并对样本数据执行步骤SllO的操作,得到样本数据的第一特征集。
[0102] (2)同步骤S120,根据样本数据的第一特征集生成对应的第一特征向量,作为训练 参数。
[0103] (3)利用机器学习算法(支持向量机算法)训练步骤(2)中的训练参数,得到原始的 分类学习模型SVM-Mode 1,即第一特征模型。
[0104] 根据本发明的实施例,为应对恶意网站攻击的多变性,该识别方法100还包括在线 更新第一特征模型的步骤:在预定时间内更新样本数据,再执行上述步骤(1)、(2),生成新 的样本数据的第一特征向量,将更新的第一特征向量输入第一特征模型进行训练,生成新 的第一特征模型并取代旧的第一特征模型。
[0105] 再者,由于恶意链接经常变化,本方案也会对第一特征向量的生成算法进行更新, 比如增加新的ML特征、删除现有的某个ML特征、改变第一特征向量的维度……
[0106] 根据上述对识别方法100的描述,解析待识别网页的URLW提取第一特征集,再将 第一特征集对应的第一特征向量输入到第一特征模型中,得到待识别网页所属的特征空 间,W判断该特征空间是否属于包含恶意内容的网页的特征空间,若是,则输出1表示该网 页包含恶意内容。方法100无需人工识别URL,也不需要人工制定规则,从而节省了人力。另 夕h考虑到恶意网站的多变性,定时更新第一特征模型,也改进了现有识别方法滞后的缺 点。
[0107] 图2示出了根据本发明另一实施例的识别网页中是否包含恶意内容的方法200的 流程图。如图2所示,该识别方法200包括如下步骤:
[0108] 步骤S210中,抓取待识别网页内容,对所抓取的网页内容进行分词处理得到词序 列。
[0109] 根据本发明的一个实施例,采用scrapy框架对网页内容进行爬取,然后采用MMSEG 对爬取的网页内容进行分词处理得到词序列。MMSEG是中文分词中一个常见的、基于词典的 分词算法,具有简易直观,实现不复杂,运行速度快的优点。简单来讲,该分词算法包含"匹 配算法"和"消除歧义规则",其中匹配算法指如何根据词典里保存的词语,对要切分的语句 进行匹配;"消除歧义规则"是说当一句话可W运样分,也可W那样分的时候,用什么规则来 判定使用哪种分法,比如"设施和服务'运个短语,可W分成"设施/和服/务",也可W分成 "设施/和/服务",选择哪个分词结果,就是"消除歧义规则"的功能。在MMSEG算法中,定义匹 配算法有两种:简单最大匹配和复杂最大匹配;定义的消除歧义的规则有四种:最大匹配 (Maximum matching,对应上述两种匹配算法)、最大平均词语长度(Largest average word length)、词语长度的最小变化率(Smallest variance of word lengths)、计算词组中的 所有单字词词频的自然对数,然后将得到的值相加,取总和最大的词组化argest sum of degree of morphemic freedom of one-character words)。
[0110] 随后在步骤S220中,根据词序列中是否存在第二特征集中的特征词来构造维度为 第一预定数目的第二特征向量,其中第二特征集中预存了第一预定数目个特征词。
[0111] 首先,根据本发明的一个实施例,第二特征集采取如下方法生成:获取预置网页的 网页内容,对所获取的网页内容进行分词处理得到词序列,对词序列中的每个词语,计算表 征该词语重要性的第二特征值,根据第二特征值从高到低的顺序选取第一预定数目个(例 如,500)词语作为特征词,组成第二特征集。
[0112] 其中,第二特征值被定义为在出现某词语的条件下,网页中是否包含恶意内容的 概率分布和网页是否包含恶意内容概率分布的距离,也就是词语的期望交叉赌化xpected 化OSS Entropy),一般而言,词语W的期望交叉摘越大,区分样本的能力就越强,期望交叉赌 的计算公击血下,
[0113]
[0114] 其中,P(phish W)指在词语W出现的条件下待识别网页是钓鱼网页的概率,P (地ish)指钓鱼网页的概率,P(nophishlw)指在词语W出现的条件下待识别网页不是钓鱼网 页的概率,P(nophish)指非钓鱼网页的概率。
[0115] 然后,根据词序列中是否存在特征词来构造第二特征向量的步骤包括:
[0116] ①对于第二特征集中的每个特征词,依序查找词序列中是否存在该特征词:
[0117] 若词序列中存在该特征词,则将该特征词在第二特征集中对应位置处的值赋为1;
[0118] 若词序列中不存在该特征词,则将该特征词在第二特征集中对应位置处的值赋为 0。
[0119] ②根据特征词对应位置处的赋值生成维度为第一预定数目的第二特征向量,例 如,选取N个词语作为特征词(根据本发明的实施方式,N-般取450~550之间),那么第二特 征向量就可W表示为:
[0120]
[0121] 随后在步骤S230中,利用第二特征模型处理步骤S220生成的第二特征向量,并输 出第二结果W表征待识别网页是否包含恶意内容。根据本发明的实施例,若输出第二结果 为1则表示待识别网页包含恶意内容;若输出第二结果为0则表示待识别网页不包含恶意内 容。
[0122] 同识别方法100所描述的那样,该识别方法200也包含训练第二特征模型的步骤:
[0123] (1)选取大量已经被标记为包含恶意内容的网页和不包含恶意内容的网页的网页 内容作为样本数据,同步骤S210中一样,对所抓取的网页内容进行分词处理得到词序列。
[0124] (2)根据第二特征集中的特征词,执行步骤S220中的操作,生成作为样本数据的网 页内容的第二特征向量作为训练参数。
[0125] (3)利用机器学习算法(支持向量机方法)训练步骤(2)中的训练参数,得到原始的 分类学习模型SVM-Mode 1,即第二特征模型。
[0126] 同样地,该识别方法200还包括在线更新第二特征模型的步骤:在预定时间内更新 上述样本数据,重复(2)、(3)的训练步骤,W生成新的第二特征模型取代原有的第二特征模 型。
[0127] 根据上述对识别方法200的描述,识别方法200不同于传统的基于网页内容的关键 词扫描方法一一只要简单地对每个关键词进行加权评分,而是将抓取的网页内容向量化, 然后用机器学习算法自动对网页进行归类,W提高网页识别的准确性。
[0128] 通常,恶意网站的拓扑结构简单并且外链的域名和自身域名不一致,基于运一点, 本发明提供了又一用于识别网页中是否包含恶意内容的方法。如图3所示,该识别方法300 主要通过待识别网页的外链接数目和网页身份来判断该网页是否包含了恶意内容。
[0129] 该方法300始于步骤S310,根据待识别网页的TOL提取待识别网页的第一身份信 息。具体地,首先解析待识别网页的URL,获取待识别网页的域名,然后将该域名作为该待识 别网页的第一身份信息。例如待识别网页的ML是:
[0130] http://likersgames.netne.net/
[0131 ] 解析URL得到其域名为netne.net,故该待识别网页的第一身份信息是netne.net。
[0132] 接着在步骤S320中,提取该待识别网页的所有外链接。
[0133] 通俗来讲,外链接就是指从别的网站导入到自己网站的链接。可W根据U化链接的 HTML网页,提取出其所有的外链接,本发明对提取外链接的方法并不作限制。
[0134] 随后在步骤S330中,根据提取出的所有外链接来确定该待识别网页的第二身份信 息。根据本发明的一个实施例,统计该待识别网页对应的所有外链接出现的次数,使用出现 次数最多的外链接域名作为网页的第二身份信息。还是W步骤S310中的U化为例,提取出的 外链接及外链接数目分别为:
[01 巧]000webhost.com:16
[0136] serviceuptime.com:!
[0137] hosting24.com:5
[0138] 所W该待识别网页的第二身份信息为:OOOwe化OS t. com。
[0139] 在步骤S340中,比较第一身份信息(由步骤S310得出)和第二身份信息(由步骤 S330得出),输出第=结果W表征该待识别网页是否包含恶意内容。
[0140] 对于上面的URL,其第一身份信息(netne .net)和第二身份信息(OOOweWiost. com) 不相符,故输出第=结果为I,表示该待识别网页中包含恶意内容。反之,若第二身份信息与 第一身份信息相符,则输出第=结果为0,表示该待识别网页中不包含恶意内容。
[0141] 再比如待识别网页的U化为:
[0142] http://www.baidu.com
[0143] 解析该URL,得到第一身份信息为:baidu.com;
[0144] 提取其含有的外链接及外链接数目为:
[0145] bdstatic.com:5
[0146] haol23.com:2
[0147] baidu.com:27
[014引得到第二身份信息为:baidu.com;
[0149] 第二身份信息和第一身份信息相同,故输出第S结果0,判断该待识别网页不包含 恶意内容。
[0150] 综上,识别方法100、识别方法200、识别方法300分别示出了识别恶意网页(包含恶 意内容的网页)的巧中方法:识别方法100解析网页的URL,提取U化特征并采用机器学习模型 对网页进行分类;识别方法200抓取网页内容,根据预置的特征词将网页内容向量化,并采 用机器学习模型对网页分类;识别方法300对网页身份进行分析,W识别具有模仿嫌疑的恶 意网页。W上巧巾方法从不同的角度来识别网页中是否包含恶意内容,根据本发明的一个实 施例,可W结合上述3种识别方法,综合分析待识别网页是否包含恶意内容,即识别方法 400。
[0151] 该识别方法400的流程图如图4所示。如前所述,识别方法400在传统黑白名单过滤 的基础上,综合考虑网页的TOL特征和内容特征,同时考虑到恶意网站惯有的模仿伪装技 术,分析网页身份W识别具有模仿嫌疑的恶意网页;在实现方法上,采用机器学习模型对网 页进行分类;既解决了传统识别方法的滞后性缺点,又有一定的检测未知恶意网页的能力, 提高了识别的准确性。
[0152] 具体而言,识别方法400的步骤如下:
[0153] 步骤S410中,执行如图1所示的识别方法IOOW输出第一结果。
[0154] 步骤S420中,执行如图2所示的识别方法200W输出第二结果。
[0巧5]步骤S430中,执行如图3所示的识别方法300W输出第=结果。
[0156]然后,在步骤S440中,对上述第一结果、第二结果、和第=结果进行加权算法,得到 最终结果,并进行判断:
[0157] 若最终结果大于阔值(在本实施例中,阔值为0.5),则判定该待识别网页中包含恶 意内容;
[0158] 若最终结果不大于阔值,则判定该待识别网页中不包含恶意内容。
[0159] 根据本发明的一个实施例,可W采用简单的加权算法对第一结果(rl)、第二结果 (r2)和第=结果(r3)进行运算处理得到最终结果(r):
[0160] r=wi X ri+W2 X T2+W3 X T3
[0161] 其中,W1、W2和W3分别代表第一结果、第二结果、第=结果对应的权重,且根据本发 明的一个实施例,其分别取值0.4、0.4、0.2。
[0162] 相应地,图5至图8示出了根据本发明实施例的用于实现如上4种识别方法的识别 系统,下面将分别进行介绍。
[0163] 图5示出了根据本发明一个实施例的识别网页中是否包含恶意内容的系统500的 示意图。该系统500包括至少包括ML提取器510、第一特征提取器520和第一识别单元530。
[0164] 根据一种实现方式,系统500还包括判断过滤单元540,适于判断待识别网页ML与 预存数据库中的U化是否一致:
[0165] 若待识别网页U化在第一预存数据库(即,黑名单)中,则判断该待识别网页包含恶 意内容;W及
[0166] 若待识别网页U化在第二预存数据库(即,白名单)中,则判断该待识别网页不包含 恶意内容。
[0167] 对于通过上述黑白名单未识别出的URL,再将其发送给ML提取器510。
[0168] ML提取器510适于解析待识别网页的URL。
[0169] 第一特征提取器520适于从所识别的抓L中提取U化特征W生成第一特征集。根据 本发明的一个实施例,第一特征集包括下列中的一个或者多个:m?L长度、ht化协议使用次 数、顶级域名是否合法、是否包含IP地址、m?L中含指定字符的个数、主机字符串长度、主机 字符串中含指定字符的个数、主机字符串中最长字符串的长度、路径中含指定字符的个数、 路径名长度、路径名中含指定字符的个数、路径名中最长字符串的长度、路径深度、查询参 数字段长度、ML中是否含指定字符串。对各特征的详细介绍参见基于图1的描述。
[0170] 第一特征提取器520还适于根据第一特征集生成第一特征向量。根据本发明一个 实施例,第一特征提取器520包括数值化子单元522和归一化子单元524。
[0171] 数值化子单元522适于对第一特征集中的每个特征进行数值化得到特征值,将特 征值组成一个特征向量。
[0172] 归一化子单元524适于对数值化后的特征向量中的每一维特征值进行归一化处 理,生成第一特征向量。例如归一化子单元524被配置为将特征向量的每一维特征值归一化 到[-1山之间:
[0173]
[0174] 其中,Fi为第i维特征值,巧为第i维特征值的平均值,Fi,max为第i维特征值的最大 值,Fi,min为第i维特征值的最小值。
[0175] 第一识别单元530适于利用第一特征模型来处理第一特征向量,输出第一结果W 表征待识别网页是否包含恶意内容。其中,若输出的第一结果为1,则表示待识别网页包含 恶意内容;若输出的第一结果为0,则表示待识别网页不包含恶意内容。
[0176] 根据本发明的实施例,系统500还被配置为执行训练第一特征模型的操作。
[0177] 其中,U化提取器510还适于提取大量已经标记为不包含恶意内容的网页和包含恶 意内容的网页的抓L作为样本数据。第一特征提取器520还适于根据上述U化形成第一特征 集,并根据第一特征集生成对应的第一特征向量,作为训练参数。此外,系统500还包括与第 一特征提取器520相禪接的第一训练单元550,适于利用机器学习算法(例如,支持向量机方 法SVM)训练由第一特征提取器520提取的训练参数,得到第一特征模型。
[0178] 在本实施例中,为了应对恶意网站攻击的多变性,系统500还可W包括第一更新单 元560,适于在预定时间内更新样本数据,生成新的样本数据的第一特征向量、并且将更新 的第一特征向量输入第一特征模型进行训练,W定期更新第一特征模型。
[0179] 再者,第一更新单元560还适于通过增加、删除第一特征集中的特征,改变第一特 征向量的维度,W生成新的第一特征向量。
[0180] 图6示出了根据本发明另一实施例的识别网页中是否包含恶意内容的系统600的 示意图。该系统600至少包括:网页分析器610、第二特征提取器620和第二识别单元630。
[0181] 网页分析器610适于抓取待识别网页内容,对所抓取的网页内容进行分词处理得 到词序列。根据一种实现方式,网页分析器610中包括适于对网页内容进行分词处理的分词 器,该分词器适于采用基于词典的分词算法对网页内容进行分词处理,其中分词算法可W 是包含一个词典、两种匹配算法和四个消除歧义的规则的MMSEG算法。
[0182] 网页分析器610还适于获取预置网页的网页内容,并对所获取的网页内容进行分 词处理得到词序列。
[0183] 第二特征提取器620适于根据词序列中是否存在第二特征集中的特征词来构造维 度为第一预定数目(例如,选取第一预定数目在450-550之间)的第二特征向量,其中第二特 征集中预存了第一预定数目个特征词。
[0184] 根据该实现方式,第二特征提取器620还包括匹配子单元622。匹配子单元622适于 对第二特征集中的每个特征词,依序查找词序列中是否存在该特征词:
[0185] 若在词序列中匹配到某特征词,则将该特征词在第二特征集中对应位置处的值赋 为1;
[0186] 若在词序列中未匹配到某特征词,则将该特征词在第二特征集中对应位置处的值 赋为0。
[0187] 第二特征提取器620还适于根据特征词对应位置处的赋值生成维度为第一预定数 目的第二特征向量。
[0188] 该系统600还包括特征集生成单元640,适于对词序列中的每个词语,计算表征该 词语重要性的第二特征值、并根据第二特征值从高到低的顺序选取第一预定数目个词语作 为特征词,组成第二特征集。其中,第二特征值被定义为在出现某词语的条件下,网页中是 否包含恶意内容的概率分布和网页是否包含恶意内容的概率分布的距离,可W用词语的期 望交叉赌来表示:
[0189]
[0190] 其中,P(phish I w)指在词语W出现的条件下待识别网页是钓鱼网页的概率,P (地ish)指钓鱼网页的概率,P(nophishlw)指在词语W出现的条件下待识别网页不是钓鱼网 页的概率,P(nophish)指非钓鱼网页的概率。
[0191] 第二识别单元630适于利用第二特征模型处理所述第二特征向量,并输出第二结 果W表征所述待识别网页是否包含恶意内容。其中,若输出的第二结果为1,则表示待识别 网页包含恶意内容;若输出的第二结果为0,则表示待识别网页不包含恶意内容。
[0192] 同系统500-样,系统600也被配置为执行训练第二特征模型的操作。此时,网页分 析器610还适于抓取大量已经标记为不包含恶意内容的网页和包含恶意内容的网页的网页 内容作为样本数据。第二特征提取器620还适于根据第二特征集中的特征词,生成作为样本 数据的网页内容的第二特征向量作为训练参数。此外,系统600还包括第二训练单元650,适 于利用机器学习算法训练所述训练参数,得到第二特征模型。
[0193] 再者,为了应对恶意网站攻击的多变性,系统600还包括第二更新单元660,适于在 预定时间内更新样本数据,重复训练步骤,W定期更新第二特征模型。
[0194] 图7示出了根据本发明又一实施例的识别网页中是否包含恶意内容的系统700的 示意图。该系统700包括:第一信息获取单元710、第二信息获取单元720和第=识别单元 730。
[01M]第一信息获取单元710适于根据待识别网页的TOL提取待识别网页的第一身份信 息。具体地,第一信息获取单元710适于解析待识别网页的URL,获取待识别网页的域名、并 且将该域名作为该待识别网页的第一身份信息。
[0196] 第二信息获取单元720适于提取该待识别网页的所有外链接,并根据外链接确定 该待识别网页的第二身份信息。根据一种实现方式,第二信息获取单元720可W包括统计子 单元722,适于统计提取出的该待识别网页的所有外链接出现的次数,第二信息获取单元 720,适于选取出现次数最多的外链接的域名作为第二身份信息。例如对于如下URL ht1:p://www.baidu. com,提取出其外链接分别为bdstatic. com(出现5次)、baidu. com(出现 27次),那就确定baidu.com为该U化的第二身份信息。
[0197] 第=识别单元730适于比较第一身份信息和第二身份信息,输出第=结果W表征 该待识别网页是否包含恶意内容。具体而言,若第二身份信息与第一身份信息不相符,则输 出第=结果为1,表示该待识别网页中包含恶意内容;若第二身份信息与第一身份信息相 符,则输出第=结果为0,表示该待识别网页中不包含恶意内容。
[0198] 图8示出了根据本发明又一实施例的识别网页中是否包含恶意内容的系统800的 示意图。该系统800综合了上述系统500、系统600、系统700、W及加权单元810和第四识别单 元820。
[0199] 识别系统500适于输出第一结果;
[0200] 识别系统600适于输出第二结果;
[0201 ]识别系统700适于输出第S结果;
[0202] 加权单元810适于对第一结果、第二结果、和第=结果进行加权算法,得到最终结 果。
[0203] 根据本发明的一个实施例,可W采用简单的加权算法对第一结果(rl)、第二结果 (r2)和第=结果(r3)进行运算处理得到最终结果(r):
[0204] r=wi X ri+W2 X T2+W3 X T3
[0205] 其中,W1、W2和W3分别代表第一结果、第二结果、第=结果对应的权重,且根据本发 明的一个实施例,其分别取值0.4、0.4、0.2。
[0206] 第四识别单元820适于若最终结果大于阔值(例如,0.5),则识别出该待识别网页 中包含恶意内容,若最终结果不大于阔值,则识别出该待识别网页中不包含恶意内容。
[0207] 识别系统800在传统黑白名单过滤的基础上,综合考虑网页的U化特征和内容特 征,同时考虑到恶意网站惯有的模仿伪装技术,分析网页身份W识别具有模仿嫌疑的恶意 网页.
[0208] 在实现方法上,采用机器学习模型对网页进行分类,既解决了传统识别方法的滞 后性缺点,又有一定的检测未知恶意网页的能力,从而提高了识别的准确性。
[0209] 应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对 本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或 者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发 明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求 书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实 施方式的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发 明的单独实施例。
[0210] 本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组 件可W布置在如该实施例中所描述的设备中,或者可替换地可W定位在与该示例中的设备 不同的一个或多个设备中。前述示例中的模块可W组合为一个模块或者此外可W分成多个 子模块。
[0211] 本领域那些技术人员可W理解,可W对实施例中的设备中的模块进行自适应性地 改变并且把它们设置在与该实施例不同的一个或多个设备中。可W把实施例中的模块或单 元或组件组合成一个模块或单元或组件,W及此外可W把它们分成多个子模块或子单元或 子组件。除了运样的特征和/或过程或者单元中的至少一些是相互排斥之外,可W采用任何 组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征W及如此公开的任 何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权 利要求、摘要和附图)中公开的每个特征可W由提供相同、等同或相似目的的替代特征来代 替。
[0212] A3、如Al或2所述的方法,其中第一特征集包括下列中的一个或者多个:m?L长度、 ht化协议使用次数、顶级域名是否合法、是否包含IP地址、ML中含指定字符的个数、主机字 符串长度、主机字符串中含指定字符的个数、主机字符串中最长字符串的长度、路径中含指 定字符的个数、路径名长度、路径名中含指定字符的个数、路径名中最长字符串的长度、路 径深度、查询参数字段长度、U化中是否含指定字符串。A4、如A1-3中任一项所述的方法,其 中根据第一特征集生成第一特征向量的步骤还包括:对第一特征集中的每个特征进行数值 化得到特征值,将所述特征值组成一个特征向量;W及对特征向量中的每一维特征值进行 归一化处理,生成第一特征向量。A5、如A4所述的方法,其中归一化处理步骤包括:将特征向 量的每一维特征值归一化到[-1,I ]之间:
[0213]
[0214] 具甲,Ki刃弟1絕符征值,巧为第i维特征值的平均值,Fi, max为第i维特征值的最大 值,Fi,min为第i维特征值的最小值。
[0215] A6、如A1-5中任一项所述的方法,还包括训练第一特征模型的步骤:选取大量已经 标记为不包含恶意内容的网页和包含恶意内容的网页的m?L作为样本数据,并根据上述URL 形成第一特征集;根据样本数据的第一特征集生成对应的第一特征向量,作为训练参数;W 及利用机器学习算法训练训练参数,得到第一特征模型。A7、如A6所述的方法,还包括步骤: 在预定时间内更新样本数据,生成新的样本数据的第一特征向量;W及将更新的第一特征 向量输入第一特征模型进行训练,W定期更新第一特征模型。A8、如A7所述的方法,其中生 成新的样本数据的第一特征向量的步骤还包括:通过增加、删除第一特征集中的特征,W改 变第一特征向量的维度。A9、如A1-8中任一项所述的方法,其中输出第一结果W表征待识别 网页是否包含恶意内容的步骤包括:若输出第一结果为1则表示待识别网页包含恶意内容; 和若输出第一结果为0则表示待识别网页不包含恶意内容。A10、如A6-9中任一项所述的方 法,其中机器学习算法是支持向量机方法。
[0216] B13、如Bll或12所述的方法,其中根据词序列中是否存在特征词来构造第二特征 向量的步骤包括:对于第二特征集中的每个特征词,依序查找词序列中是否存在该特征词; 若词序列中存在某个特征词,则将该特征词在第二特征集中对应位置处的值赋为1;若词序 列中不存在某特征词,则将该特征词在第二特征集中对应位置处的值赋为0; W及根据特征 词对应位置处的赋值生成维度为第一预定数目的第二特征向量。B14、如B11-13中任一项所 述的方法,其中第二特征集利用下列步骤生成:获取预置网页的网页内容,对所获取的网页 内容进行分词处理得到词序列;对词序列中的每个词语,计算表征该词语重要性的第二特 征值;W及根据第二特征值选取第一预定数目个词语作为特征词,组成第二特征集。B15、如 B14所述的方法,其中第二特征值被定义为在出现某词语的条件下,网页中是否包含恶意内 容的概率分布和网页是否包含恶意内容概率分布的距离。B16、如B15所述的方法,其中第二 特征值是词语W的期望交叉赌CE(W):
[0217]
[0218] 其中,P(PhishIw)指在词语W出现的条件下待识别网页是钓鱼网页的概率,P (地ish)指钓鱼网页的概率,P(nophishlw)指在词语W出现的条件下待识别网页不是钓鱼网 页的概率,P(nophish)指非钓鱼网页的概率。
[0219] B17、如B14-16中任一项所述的方法,其中根据第二特征值选取第一预定数目个词 语组成第二特征集合的步骤包括:按照第二特征值从高到低的顺序选取第一预定数目个词 语作为特征词,构成第二特征集。B18、如B11-17中任一项所述的方法,还包括训练第二特征 模型的步骤:选取大量已经被标记为包含恶意内容的网页和不包含恶意内容的网页的网页 内容作为样本数据;根据第二特征集中的特征词,生成作为样本数据的网页内容的第二特 征向量作为训练参数;W及利用机器学习算法训练所述训练参数,得到第二特征模型。B19、 如权利要求18所述的方法,还包括步骤:在预定时间内更新样本数据,重复训练步骤,W定 期更新第二特征模型。B20、如B11-19中任一项所述的方法,其中第一预定数目在450-550之 间。B21、如B11-20中任一项所述的方法,其中输出第二结果W表征待识别网页是否包含恶 意内容的步骤包括:若输出第二结果为1则表示待识别网页包含恶意内容;和若输出第二结 果为0则表示待识别网页不包含恶意内容。B22、如B18-21中任一项所述的方法,其中机器学 习算法是支持向量机方法。
[0220] C24、如C23所述的方法,其中提取待识别网页的第一身份信息的步骤包括:解析待 识别网页的URL,获取待识别网页的域名;W及将域名作为该待识别网页的第一身份信息。 C25、如C23或24所述的方法,其中根据外链接确定第二身份信息的步骤包括:统计该待识别 网页对应的所有外链接出现的次数;W及选取出现次数最多的外链接的域名作为第二身份 信息。C26、如C23-25中任一项所述的方法,其中比较第一身份信息和第二身份信息,输出第 =结果的步骤包括:若第二身份信息与第一身份信息不相符,则输出第=结果为1,表示该 待识别网页中包含恶意内容;W及若第二身份信息与第一身份信息相符,则输出第S结果 为0,表示该待识别网页中不包含恶意内容。
[0221] D28、如D27所述的方法,其中第一结果、第二结果、第S结果对应的权重因子分别 为0.4,0.4,和0.2; W及阔值为0.5。
[0222] E30、如E29所述的系统,还包括:判断过滤单元,适于判断待识别网页U化与预存数 据库中的U化是否一致,若待识别网页抓L在第一预存数据库中,则判断该待识别网页包含 恶意内容;W及若待识别网页ML在第二预存数据库中,则判断该待识别网页不包含恶意内 容。E31、如E29或30所述的系统,其中第一特征集包括下列中的一个或者多个:m?L长度、 ht化协议使用次数、顶级域名是否合法、是否包含IP地址、ML中含指定字符的个数、主机字 符串长度、主机字符串中含指定字符的个数、主机字符串中最长字符串的长度、路径中含指 定字符的个数、路径名长度、路径名中含指定字符的个数、路径名中最长字符串的长度、路 径深度、查询参数字段长度、U化中是否含指定字符串。E32、如E29-31中任一项所述的系统, 其中第一特征提取器包括:数值化子单元,适于对第一特征集中的每个特征进行数值化得 到特征值,将特征值组成一个特征向量;W及归一化子单元,适于对数值化后的特征向量中 的每一维特征值进行归一化处理,生成第一特征向量。E33、如E32所述的系统,其中归一化 子单元被配置为将特征向量的每一维特征值归一化到[-1,1]之间:
[0223]
[0224] 其中,Fi为第i维特征值,为第i维特征值的平均值,Fi,max为第i维特征值的最大 值,Fi,min为第i维特征值的最小值。
[02巧]E34、如E29-33中任一项所述的系统,其中,抓L提取器还适于提取大量已经标记为 不包含恶意内容的网页和包含恶意内容的网页的U化作为样本数据;第一特征提取器还适 于根据上述U化形成第一特征集,并根据第一特征集生成对应的第一特征向量,作为训练参 数;W及系统还包括第一训练单元,适于利用机器学习算法训练训练参数,得到第一特征模 型。E35、如E34所述的系统,还包括:第一更新单元,适于在预定时间内更新样本数据,生成 新的样本数据的第一特征向量、并且将更新的第一特征向量输入第一特征模型进行训练, W定期更新第一特征模型。E36、如E35所述的系统,其中,第一更新单元还适于通过增加、删 除第一特征集中的特征,改变第一特征向量的维度,W生成新的第一特征向量。E37、如E29- 36中任一项所述的系统,其中,若输出的第一结果为1,则表示待识别网页包含恶意内容;和 若输出的第一结果为0,则表示待识别网页不包含恶意内容。E38、如E34-37中任一项所述的 系统,其中机器学习算法是支持向量机方法。
[0226] F40、如F39所述的系统,其中网页分析器还包括:分词器,适于采用基于词典的分 词算法对网页内容进行分词处理,其中分词算法包含一个词典、两种匹配算法和四个消除 歧义的规则。F41、如F39或40所述的系统,其中第二特征提取器包括:匹配子单元,适于对第 二特征集中的每个特征词,依序查找词序列中是否存在该特征词,若在词序列中匹配到某 特征词,则将该特征词在第二特征集中对应位置处的值赋为1,若在词序列中未匹配到某特 征词,则将该特征词在第二特征集中对应位置处的值赋为0; W及第二特征提取器还适于根 据特征词对应位置处的赋值生成维度为第一预定数目的第二特征向量。F42、如F39-41中任 一项所述的系统,其中,网页分析器还适于获取预置网页的网页内容,并对所获取的网页内 容进行分词处理得到词序列;系统还包括:特征集生成单元,适于对词序列中的每个词语, 计算表征该词语重要性的第二特征值、并根据第二特征值选取第一预定数目个词语作为特 征词,组成第二特征集。F43、如F42所述的系统,其中第二特征值被定义为在出现某词语的 条件下,网页中是否包含恶意内容的概率分布和网页是否包含恶意内容的概率分布的距 离。F44、如F43所述的系统,其中第二特征值是词语W的期望交叉赌CE(W):
[0227]
[0228] 其中,P(PhishIw)指在词语W出现的条件下待识别网页是钓鱼网页的概率,P (地ish)指钓鱼网页的概率,P(nophishlw)指在词语W出现的条件下待识别网页不是钓鱼网 页的概率,P(nophish)指非钓鱼网页的概率。
[0229] F45、如F42-44中任一项所述的系统,其中特征集生成单元被配置为按照第二特征 值从高到低的顺序选取第一预定数目个词语作为特征词,构成第二特征集。F46、如F39-45 中任一项所述的系统,其中网页分析器还适于抓取大量已经标记为不包含恶意内容的网页 和包含恶意内容的网页的网页内容作为样本数据;第二特征提取器还适于根据第二特征集 中的特征词,生成作为样本数据的网页内容的第二特征向量作为训练参数;W及系统还包 括第二训练单元,适于利用机器学习算法训练训练参数,得到第二特征模型。F47、如F46所 述的系统,还包括:第二更新单元,适于在预定时间内更新样本数据,重复训练步骤,W定期 更新第二特征模型。F48、如F39-47中任一项所述的系统,其中第一预定数目在450-550之 间。F49、如F39-48中任一项所述的系统,其中,若输出的第二结果为1,则表示待识别网页包 含恶意内容;和若输出的第二结果为0,则表示待识别网页不包含恶意内容。F50、如F46-49 中任一项所述的系统,其中机器学习算法是支持向量机方法。
[0230] G52、如G51所述的系统,其中,第一信息获取单元还适于解析待识别网页的URL,获 取待识别网页的域名、并且将域名作为该待识别网页的第一身份信息。G53、如G51或52所述 的系统,其中第二信息获取单元还包括:统计子单元,适于统计提取出的该待识别网页的所 有外链接出现的次数;W及第二信息获取单元还适于选取出现次数最多的外链接的域名作 为第二身份信息。G54、如G51-53中任一项所述的系统,其中第S识别单元适于:若第二身份 信息与第一身份信息不相符,则输出第S结果为I,表示该待识别网页中包含恶意内容;W 及若第二身份信息与第一身份信息相符,则输出第=结果为0,表示该待识别网页中不包含 恶意内容。
[0231] H56、如H55所述的系统,其中第一结果、第二结果、第S结果对应的权重因子分别 为0.4,0.4,和0.2; W及阔值为0.5。
[0232] 此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例 中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的 范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任 意之一都可WW任意的组合方式来使用。
[0233] 此外,所述实施例中的一些在此被描述成可W由计算机系统的处理器或者由执行 所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法 元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在 此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行 的功能。
[0234] 如在此所使用的那样,除非另行规定,使用序数词"第一"、"第二"、"第等等来 描述普通对象仅仅表示设及类似对象的不同实例,并且并不意图暗示运样被描述的对象必 须具有时间上、空间上、排序方面或者W任意其它方式的给定顺序。
[0235] 尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域 内的技术人员明白,在由此描述的本发明的范围内,可W设想其它实施例。此外,应当注意, 本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限 定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本 技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本 发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
【主权项】
1. 一种识别网页中是否包含恶意内容的方法,所述方法包括步骤: 解析待识别网页的URL以从所述URL中提取URL特征以生成第一特征集; 根据所述第一特征集生成第一特征向量;以及 利用第一特征模型来处理所述第一特征向量,并输出第一结果以表征所述待识别网页 是否包含恶意内容。2. 如权利要求1所述的方法,还包括预处理步骤: 提取待识别网页的URL,判断所述待识别网页URL与预存数据库中的URL是否一致, 若所述待识别网页URL在第一预存数据库中,则判断该待识别网页包含恶意内容;以及 若所述待识别网页URL在第二预存数据库中,则判断该待识别网页不包含恶意内容。3. -种识别网页中是否包含恶意内容的方法,所述方法包括步骤: 抓取待识别网页内容,对所抓取的网页内容进行分词处理得到词序列; 根据所述词序列中是否存在第二特征集中的特征词来构造维度为第一预定数目的第 二特征向量,其中所述第二特征集中预存了第一预定数目个特征词;以及 利用第二特征模型处理所述第二特征向量,并输出第二结果以表征所述待识别网页是 否包含恶意内容。4. 如权利要求3所述的方法,其中所述对网页内容进行分词处理的步骤包括: 采用基于词典的分词算法进行分词处理,其中所述分词算法包含一个词典、两种匹配 算法和四个消除歧义的规则。5. -种识别网页中是否包含恶意内容的方法,所述方法包括步骤: 根据待识别网页的URL提取所述待识别网页的第一身份信息; 提取该待识别网页的所有外链接; 根据外链接确定该待识别网页的第二身份信息;以及 比较第一身份信息和第二身份信息,输出第三结果以表征该待识别网页是否包含恶意 内容。6. -种识别网页中是否包含恶意内容的方法,所述方法包括步骤: 执行如权利要求1或2所述的识别方法以输出第一结果; 执行如权利要求3或4所述的识别方法以输出第二结果; 执行如权利要求5所述的识别方法以输出第三结果; 对所述第一结果、第二结果、和第三结果进行加权算法,得到最终结果; 若所述最终结果大于阈值,则判定该待识别网页中包含恶意内容;以及 若所述最终结果不大于阈值,则判定该待识别网页中不包含恶意内容。7. -种识别网页中是否包含恶意内容的系统,所述系统包括: URL提取器,适于解析待识别网页的URL; 第一特征提取器,适于从所述URL中提取URL特征以生成第一特征集,还适于根据第一 特征集生成第一特征向量;以及 第一识别单元,适于利用第一特征模型来处理所述第一特征向量,输出第一结果以表 征所述待识别网页是否包含恶意内容。8. -种识别网页中是否包含恶意内容的系统,所述系统包括: 网页分析器,适于抓取待识别网页内容,对所抓取的网页内容进行分词处理得到词序 列; 第二特征提取器,适于根据所述词序列中是否存在第二特征集中的特征词来构造维度 为第一预定数目的第二特征向量,其中所述第二特征集中预存了第一预定数目个特征词; 以及 第二识别单元,适于利用第二特征模型处理所述第二特征向量,并输出第二结果以表 征所述待识别网页是否包含恶意内容。9. 一种识别网页中是否包含恶意内容的系统,所述系统包括: 第一信息获取单元,适于根据待识别网页的URL提取所述待识别网页的第一身份信息; 第二信息获取单元,适于提取该待识别网页的所有外链接,并根据外链接确定该待识 别网页的第二身份信息;以及 第三识别单元,适于比较第一身份信息和第二身份信息,输出第三结果以表征该待识 别网页是否包含恶意内容。10. -种识别网页中是否包含恶意内容的系统,所述系统包括: 如权利要求7所述的识别系统,适于输出第一结果; 如权利要求8所述的识别系统,适于输出第二结果; 如权利要求9所述的识别系统,适于输出第三结果; 加权单元,适于对所述第一结果、第二结果、和第三结果进行加权算法,得到最终结果; 以及 第四识别单元,适于若所述最终结果大于阈值,则识别出该待识别网页中包含恶意内 容,若所述最终结果不大于阈值,则识别出该待识别网页中不包含恶意内容。
【文档编号】G06F21/56GK105956472SQ201610313359
【公开日】2016年9月21日
【申请日】2016年5月12日
【发明人】李唱, 康靖, 陈虎
【申请人】宝利九章(北京)数据技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1