网页危险性的识别系统的制作方法

文档序号:6382967阅读:231来源:国知局
专利名称:网页危险性的识别系统的制作方法
技术领域
本发明实施例涉及网页安全技术领域,具体涉及一种网页危险性的识别系统。
背景技术
钓鱼网站主要是通过仿冒真实网站的URL地址或是页面内容,伪装成银行及电子商务等类型的网站,或是利用真实网站服务器程序上的漏洞,在该网站的某些网页中插入危险的网页代码,以此来骗取用户银行或信用卡账号、密码等私人资料。钓鱼网页中包含着许多敏感的特征,例如,金融欺诈类的钓鱼网页会在文字、图片等方面仿冒官网,或是在真实网页中插入虚假票务、虚假中奖、假冒网银、虚假购物等信息,这些特征大多以文本串的形式出现在网页中。目前对钓鱼网页识别的方法,主要是通过人工审核钓鱼网页,以收集一些简单的钓鱼网站的文本特征,供浏览器插件依据这些文本特征对网页内容进行判断,过滤掉这些已报告的攻击网站。但是,现今钓鱼网站的存活期越来越短,新的钓鱼网页层出不穷,需要审核的网页量太大;并且钓鱼网站的特征变化加快,按照传统的人工审核的方式,提取信息的效率会比较低。

发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网页危险性的识别系统。根据本发明,提供了一种网页危险性的识别系统,包括网页收集服务器、客户端、网页存储服务器、网页危险性识别引擎;所述网页收集服务器和客户端收集待检测网页,并发送到网页处理服务器;所述网页危险性识别引擎从所述网页存储服务器提取待检测网页并对待检测网页的危险性进行识别;所述网页危险性识别引擎包括候选表征信息组成模块,适于收集安全网页和危险网页,将所述安全网页和危险网页所包含的各个字符依次组成多个候选表征信息;合并模块,适于合并符合预设相似条件的候选表征信息;筛选模块,适于统计合并后的各个候选表征信息对划分安全网页和危险网页的表征参数,并依据所述表征参数筛选多个候选表征信息作为网页危险性的表征信息;模型训练模块,适于依据所述表征信息训练网页危险性的预测模型;识别模块,适于依据所述预测模型对待检测网页的危险性进行识别。本发明实施例中,所述候选表征信息组成模块包括第一提取子模块,适于提取安全网页和危险网页所对应的页面内容;第二提取子模块,适于以连续的多个汉字或一个英文单词作为一个候选表征信息,从所述页面内容中提取多个候选表征信息。本发明实施例中,所述合并模块包括公共子串提取子模块,适于针对任意两个候选表征信息,提取所述两个候选表征信息的最长公共子串;范围判断子模块,判断所述最长公共子串的字符个数是否符合第一预设范围,且所述两个候选表征信息在安全网页和危险网页中总共出现的次数的差值是否符合第二预设范围;信息删除子模块,适于当所述范围判断子模块的结果为是时,删除在各个安全网页和危险网页中总共出现的次数较小的候选表征信息。本发明实施例中,所述公共子串提取子模块包括矩阵形成子单元,适于将两个候选表征信息所包含的字符分别以行和列的形式组成矩阵;赋值子单元,适于针对矩阵中的各个节点,若对应的行列字符相同,则设置节点值为1,若不同,则设置节点值为0,并以该节点的节点值与左上角的所有节点的节点值之和对该节点的节点值重新赋值;字符提取子单元,适于提取节点值最大的节点所在对角线中,连续的、节点值非0的节点对应的字符作为最长公共子串。本发明实施例中,所述表征参数包括表征信息与危险网页的相关性参数,以及表征信息对划分安全网页和危险网页的权重参数;所述筛选模块包括相关性筛选子模块,适于分别统计合并后的各个候选表征信息与危险网页的相关性参数,并筛选所述相关性参数从大到小排序靠前的候选表征信息;权重筛选子模块,适于分别统计筛选后的各个候选表征信息对划分安全网页和危险网页的权重参数,并筛选所述权重参数从大到小排序靠前的候选表征信息。本发明实施例中,所述相关性筛选子模块依据合并后的各个候选表征信息在安全网页和危险网页中分别出现的次数,通过卡方检验法,计算各个候选表征信息与危险网页的相关性参数。本发明实施例中,所述权重筛选子模块依据筛选后的各个候选表征信息在各个安全网页和各个危险网页中分别出现的次数,构建安全网页和危险网页的分类函数,并依据所述分类函数确定各个候选表征信息的权重参数。本发明实施例中,通过支持向量机线性分类器构建安全网页和危险网页的分类函数。本发明实施例中,所述预测模型包括各表征信息在网页中出现的次数与网页危险性的对应关系;所述识别模块包括次数统计子模块,适于统计各表征信息在待预测网页中出现的次数,并输入所述预测模型;识别结果生成子模块,适于所述预测模型依据各表征信息在待预测网页中出现的次数,以及各表征信息在网页中出现的次数与网页危险性的对应关系,生成待检测网页的危险性识别结果。本发明实施例中,所述预测模型通过随机森林分类器训练,所述预测模型包括多个决策树子模型,各决策树子模型分别包括表征信息在网页中出现的次数与网页危险性的对应关系;所述识别结果生成子模块进一步包括预测结果生成子单元,适于各决策树子模型依据各表征信息在待预测网页中出现的次数,以及各表征信息在网页中出现的次数与网页危险性的对应关系,生成待检测网页的危险性预测结果;预测结果处理子单元,适于将各决策树子模型生成的危险性预测结果进行加权平均,将加权平均的结果作为待检测网页的危险性识别结果。本发明实施例通过收集已知的安全网页和危险网页,从收集的网页中提取多个候选表征信息,并依据候选表征信息在划分安全网页和危险网页时的表征参数,对候选表征信息进行筛选得到表征信息,相比于人工筛选,本发明实施例大大提高了信息提取的效率。本发明实施例还依据筛选出的表征信息构建网页危险性识别模型,相比于现有技术中仅仅依据网页是否包含特征信息来识别危险网页,本发明对于危险网页,尤其是钓鱼网页可以提高识别的准确率。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式



通过阅读下文 优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中图1示出了根据本发明实施例所述的一种网页危险性的识别方法的流程图;图2示出了根据本发明实施例所述的一种网页危险性的识别装置的实施例的结构框图;图3示出了根据本发明实施例所述的一种网页危险性的识别系统的实施例的结构框4A是候选表征彳目息构建的矩阵不意图,图4B是重新赋值后的矩阵不意图;图5是一个二维数据的分类示意图;图6示出了待测网页危险性识别的示意图。
具体实施例方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等
坐寸O计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。参考图1,示出了本发明实施例所述的一种网页危险性的识别方法的流程图,具体可以包括步骤100,收集安全网页和危险网页,将所述安全网页和危险网页所包含的各个字符依次组成多个候选表征信息。本发明实施例预先收集已识别的安全网页和危险网页,从安全网页和危险网页中提取候选表征信息,候选表征信息用于表征网页的危险性,在本发明中,危险网页可以是钓鱼网页。在具体的实现中,可以通过网络蜘蛛抓取安全网页,也可以通过在客户端收集用户或技术人员提交的恶意网页。网络蜘蛛是通过网页的链接地址来寻找网页,可以预置一些安全网页的网址,网络蜘蛛从已知的安全网站的某一个页面(通常是首页)开始,读取网页的内容,提取该网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。本发明实施例中,所述步骤100可以包括子步骤1001,提取安全网页和危险网页所对应的页面内容;子步骤1002,以连续的多个汉字或一个英文单词作为一个候选表征信息,从所述页面内容中提取多个候选表征信息。网页内容中包含有多个文本字符,本发明实施例通过各个安全网页和危险网页所对应的网页内容中提取候选表征信息,具体而言,针对所有网页所包含的网页内容,英文单词可以单独作为一个候选表征信息,连续的多个汉字也可以作为一个候选表针信息。针对汉字部分,可以分别以连续的两个汉字和连续的三个汉字作为候选表征信息,例如,针对页面内容中的某个语句“hello恭喜您中奖了”,可以拆分为如下的十个候选表征信息Hello恭喜喜您您中中奖奖了恭喜您喜您中您中奖中奖了在具体的实现中,候选表征信息中所包含的汉字字符的个数可以依据具体的需要设定。步骤102,合并符合预设相似条件的候选表征信息。通过对网页内容的拆分,可以提取大量的候选表征信息,其中,有很多冗余的信息,例如恭喜和恭喜您,含义相近,其表征作用相近,可以做合并处理。本发明实施例中,可以进一步对符合预设相似条件的候选表针信息进行提取,所述步骤102可以包括子步骤1021,针对任意两个候选表征信息,提取所述两个候选表征信息的最长公共子串;子步骤1022,若所述最长公共子串的字符个数符合第一预设范围,且所述两个候选表征信息在安全网页和危险网页中总共出现的次数的差值符合第二预设范围,则执行子步骤1023 ;子步骤1023,删除在各个安全网页和危险网页中总共出现的次数较小的候选表征信息。针对任意的两个候选表征信息,提取出两者的最长公共子串,例如,“中华人民共和国”和“人民共和时代”的最长公共子串为“人民共和”。提取最长公共子串后,进一步判断,这两个候选表征信息的最长公共子串的字符个数是否符合第一预设范围,并且,这两个候选表征信息在安全网页和危险网页中总共出现的次数的差值符合第二预设范围。具体而言,第一预设范围是指最长公共子串的字符个数,不超过两个候选表征信息中任意一个的字符个数的预设比例(例如2/3),例如,“人民共和”包含4个字符,未超过“中华人民共和国”或“人民共和时代”的字符个数的2/3。第二预设范围是指,两个候选表征信息在安全网页和危险网页中总共出现的次数的差值,小于较高出现次数的预设比例(例如1/10)。例如,“中华人民共和国”在安全网页和危险网页中总共出现的次数为100次,“人民共和时代”在安全网页和危险网页中总共出现的次数为50次,两者次数的差值为50次,较高出现次数为100次的预设比例1/10为10次,因此,差值50次超过了预设比例。若两个候选表征信息满足如上的条件,则删除在安全网页和危险网页中总共出现的次数较小的一个候选表征信息。在本发明实施例中,可以通过LCS (Longest Common Subsequence,最长公共子序列)算法提取两个候选表征信息的最长公共子串,具体可以包括如下步骤子步骤1021-1,将两个候选表征信息所包含的字符分别以行和列的形式组成矩阵;子步骤1021-2,针对矩阵中的各个节点,若对应的行列字符相同,则设置节点值为1,若不同,则设置节点值为0,并以该节点的节点值与左上角的所有节点的节点值之和对该节点的节点值重新赋值;子步骤1021-3,提取节点值最大的节点所在对角线中,连续的、节点值非0的节点对应的字符作为最长公共子串。本发明实施例通过两个候选表征信息组成的矩阵提取最大公共子串。首先,将两个候选表征信息所包含的字符分别以行和列的形式组成矩阵,如图4A所示为候选表征信息构建的矩阵示意图,以“中华人民共和国”的各个字符为列,“人民共和时代”的各个字符为行构建矩阵。矩阵中的各个节点的数据由行列所对应的字符确定。具体而言,对于矩阵中的某个节点,若对应的行列字符相同,则设置节点值为1,若不同,则设置为0,以图4A为例,第一列第一行的节点,对应的行字符为“中”,对应的列字符为“人”,行列字符不同,则设置节点值为0,第一列第三行的节点,对应的行字符为“人”,对应的列字符也为“人”,则设置节点值为I。在对各个节点设置节点值后,针对各个节点,将节点值与左上角所有节点的节点值进行加和,并以加和的结果对该节点进行重新赋值。如上例,以第6行第4列的节点为例,左上角的节点值包括4个I,加和结果为4,因此,对该节点重新赋值后节点值为4,图4B为图4B是重新赋值后的矩阵示意图,其中的节点值是对图4A中节点值重新赋值后得到的。在对矩阵进行重新赋值后,可以找出节点值最大的节点所在对角线,然后进一步找出连续的节点值非0的节点,将这些节点对应的字符作为两个候选表征字符的最长公共子串。如图4B所示,节点值最大的节点为第6行第4列的节点,该节点所在对角线中,连续非0的节点共有4个,对应的节点值分别为1、2、3和4,这些节点对应的字符为人民共和,即为最长公共字串。在具体的实现中,对各个节点进行赋值后,也可以直接找出值为I的节点组成的对角线,将最长的对角线对应的字符提取出来,即为最长公共子串,如图4A中,值为I的4个节点组成的便是最长对角线,将其对应的字符提取出来便可以得到最长公共子串。本发明实施例中,对提取的候选表征信息中任意两个表征信息进行比较,舍去符合上述条件的候选表征信息后,可以循环重复执行合并的步骤,直至任意两个候选表征信息均不符合预设相似条件,或是候选表征信息的个数满足预设个数为止。步骤104,统计合并后的各个候选表征信息对划分安全网页和危险网页的表征参数,并依据所述表征参数筛选多个候选表征信息作为网页危险性的表征信息。对候选表征信息进行合并后,进一步需要筛选其中表征参数符合要求的候选表征信息。表征参数是候选表征信息对划分安全网页和危险网页的衡量参数。表征参数可以是候选表征信息与危险网页的相关性参数,也可以是候选表征信息对划分安全网页和危险网页的权重参数。在本发明实施例中,将相关性参数和权重参数结合起来对候选表征信息进行筛选,步骤104可以进一步包括子步骤1041,分别统计合并后的各个候选表征信息与危险网页的相关性参数,并筛选所述相关性参数从大到小排序靠前的候选表征信息。子步骤1042,分别统计筛选后的各个候选表征信息对划分安全网页和危险网页的权重参数,并筛选所述权重参数从大到小排序靠前的候选表征信息。本发明实施例中,通过相关性参数和权重参数对候选表征信息做两次筛选,首先计算各个候选表征信息与危险网页的相关性参数,然后筛选相关性参数从大到小排序靠前的候选表征信息。具体的,可以依据合并后的各个候选表征信息在安全网页和危险网页中分别出现的次数,通过卡卡方检验法,计算各个候选表征信息与危险网页的相关性参数。需要说明的是,卡卡方检验法中,统计各个候选表征信息在安全网页和危险网页中出现的次数时,是指各候选表征信息出现在多少个安全网页和多少个危险网页中,不关注在某个网页中出现了几次。卡方检验是用于检验两个变量独立性的方法,常常先假设两个变量确实是独立的(原假设),然后观察实际值(也可以叫做观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确实是独立的,此时就接受原假设;如果偏差大到一定程度,使得这样的误差不太可能是偶然产生或者测量不精确所致,就认为两者实际上是相关的,即否定原假设,而接受备择假设。假设理论值为E,当提供了数个样本的观察值Xl,x2,……Xi,……Xn之后,代入到如下公式中就可以求得卡方值小
权利要求
1.一种网页危险性的识别系统,包括 网页收集服务器、客户端、网页存储服务器、网页危险性识别引擎; 所述网页收集服务器和客户端收集待检测网页,并发送到网页处理服务器; 所述网页危险性识别引擎从所述网页存储服务器提取待检测网页并对待检测网页的危险性进行识别; 所述网页危险性识别引擎包括 候选表征信息组成模块,适于收集安全网页和危险网页,将所述安全网页和危险网页所包含的各个字符依次组成多个候选表征信息; 合并模块,适于合并符合预设相似条件的候选表征信息; 筛选模块,适于统计合并后的各个候选表征信息对划分安全网页和危险网页的表征参数,并依据所述表征参数筛选多个候选表征信息作为网页危险性的表征信息; 模型训练模块,适于依据所述表征信息训练网页危险性的预测模型; 识别模块,适于依据所述预测模型对待检测网页的危险性进行识别。
2.根据权利要求1所述的识别系统,所述候选表征信息组成模块包括 第一提取子模块,适于提取安全网页和危险网页所对应的页面内容; 第二提取子模块,适于以连续的多个汉字或一个英文单词作为一个候选表征信息,从所述页面内容中提取多个候选表征信息。
3.根据权利要求1所述的识别系统,所述合并模块包括 公共子串提取子模块,适于针对任意两个候选表征信息,提取所述两个候选表征信息的最长公共子串; 范围判断子模块,判断所述最长公共子串的字符个数是否符合第一预设范围,且所述两个候选表征信息在安全网页和危险网页中总共出现的次数的差值是否符合第二预设范围; 信息删除子模块,适于当所述范围判断子模块的结果为是时,删除在各个安全网页和危险网页中总共出现的次数较小的候选表征信息。
4.根据权利要求3所述的识别系统,所述公共子串提取子模块包括 矩阵形成子单元,适于将两个候选表征信息所包含的字符分别以行和列的形式组成矩阵; 赋值子单元,适于针对矩阵中的各个节点,若对应的行列字符相同,则设置节点值为1,若不同,则设置节点值为O,并以该节点的节点值与左上角的所有节点的节点值之和对该节点的节点值重新赋值; 字符提取子单元,适于提取节点值最大的节点所在对角线中,连续的、节点值非O的节点对应的字符作为最长公共子串。
5.根据权利要求1所述的识别系统,所述表征参数包括表征信息与危险网页的相关性参数,以及表征信息对划分安全网页和危险网页的权重参数; 所述筛选模块包括 相关性筛选子模块,适于分别统计合并后的各个候选表征信息与危险网页的相关性参数,并筛选所述相关性参数从大到小排序靠前的候选表征信息; 权重筛选子模块,适于分别统计筛选后的各个候选表征信息对划分安全网页和危险网页的权重参数,并筛选所述权重参数从大到小排序靠前的候选表征信息。
6.根据权利要求5所述的识别系统,所述相关性筛选子模块依据合并后的各个候选表征信息在安全网页和危险网页中分别出现的次数,通过卡方检验法,计算各个候选表征信息与危险网页的相关性参数。
7.根据权利要求5所述的识别系统,所述权重筛选子模块依据筛选后的各个候选表征信息在各个安全网页和各个危险网页中分别出现的次数,构建安全网页和危险网页的分类函数,并依据所述分类函数确定各个候选表征信息的权重参数。
8.根据权利要求7所述的识别系统,通过支持向量机线性分类器构建安全网页和危险网页的分类函数。
9.根据权利要求1所述的识别系统,所述预测模型包括各表征信息在网页中出现的次数与网页危险性的对应关系;所述识别模块包括次数统计子模块,适于统计各表征信息在待预测网页中出现的次数,并输入所述预测模型;识别结果生成子模块,适于所述预测模型依据各表征信息在待预测网页中出现的次数,以及各表征信息在网页中出现的次数与网页危险性的对应关系,生成待检测网页的危险性识别结果。
10.根据权利要求1所述的识别系统,所述预测模型通过随机森林分类器训练,所述预测模型包括多个决策树子模型,各决策树子模型分别包括表征信息在网页中出现的次数与网页危险性的对应关系;所述识别结果生成子模块进一步包括预测结果生成子单元,适于各决策树子模型依据各表征信息在待预测网页中出现的次数,以及各表征信息在网页中出现的次数与网页危险性的对应关系,生成待检测网页的危险性预测结果;预测结果处理子单元,适于将各决策树子模型生成的危险性预测结果进行加权平均, 将加权平均的结果作为待检测网页的危险性识别结果。
全文摘要
本发明实施例公开了一种网页危险性的识别系统,所述系统包括网页收集服务器、客户端、网页存储服务器、网页危险性识别引擎;所述网页收集服务器和客户端收集待检测网页,并发送到网页处理服务器;所述网页危险性识别引擎从所述网页存储服务器提取待检测网页并对待检测网页的危险性进行识别;所述网页危险性识别引擎包括候选表征信息组成模块;合并模块;筛选模块;模型训练模块;识别模块。相比于人工筛选钓鱼网页文本特征,本发明实施例大大提高了信息提取的效率。
文档编号G06F21/56GK103049483SQ201210507528
公开日2013年4月17日 申请日期2012年11月30日 优先权日2012年11月30日
发明者董毅, 韩洪伟, 谢军样, 刘绪平, 唐杰 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1