一种网页检测的方法及系统的制作方法

文档序号：6429526阅读：169来源：国知局

专利名称：一种网页检测的方法及系统的制作方法
技术领域：
本发明属于网络安全技术领域，尤其涉及一种网页检测的方法及系统。
背景技术：
随着互联网的不断发展，越来越多的人们开始在网上进行各种信息分享、娱乐、交友，使用互联网提供的各种生活便利设施如网上银行、网上缴费、网上支付等。由于用户会在网页上进行一些财产的交易或者个人的隐私信息的录入，不法分子就模拟正规的网页来骗取用户的资料或者用户的财产，一般称之为钓鱼网页。为了检测一个网页是不是钓鱼的网页，目前的检测方法简述如下提取网页里面的文本特征，然后根据预先制定好的钓鱼网页匹配规则，查看当前的页面的文本特征是否符合所在规则，如果匹配中其中的某些规则的话，就认为这个网页存在钓鱼的行为。网页的文本特征一般是网页HTML内容里面的一些重要的标签，例如，标题部分TITLE的内容，版权部分COPYRIGHT的内容，还有就是一些HTML里面的P标签，SPAN标签等一些内容标签里面的内容。根据一定的算法提取出这些标签内容里面的关键字，将提取的关键字送到钓鱼库中去寻找匹配的规则，例如，如果当前页面中出现大量的QQ登陆的字样，但是网页的URL却不是腾讯公司的域名如qq. com、tencent. com等；如果网页的版权声明写着"腾讯公司"版权所有，但是网页的url也不是腾讯公司的域名；如网页内容有大量的网上支付时需要填写的用户的帐号、密码、银行名称信息，但是网页却不是该银行下所属的网页，根据上述的规则综合一个评分就判定一个网页是否是钓鱼的。现在随着网络技术的不断提高，很多的钓鱼网页不再单纯的将模拟正规网站的文字等钓鱼部分的内容放到HTML标签里面，而是通过Javascript等技术在网页的动态数据里出现，因此，现有技术的网页检测方法无法对网页动态数据中的钓鱼信息进行有效检测。

发明内容
本发明实施例的目的在于提供一种网页检测的方法及系统，旨在解决现有技术的网页检测方法无法对网页动态数据中的钓鱼信息进行有效检测的问题。本发明实施例是这样实现的，一种网页检测的方法，所述方法包括获取与网页相关的动态数据；通过相应的引擎执行所述动态数据，生成执行文本文件；提取所述执行文本文件中的关键字；将所述提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能。本发明实施例还提供了一种网页检测的系统，所述系统包括数据获取单元，用于获取与网页相关的动态数据；文件生成单元，用于通过相应的引擎执行所述数据获取单元获取的动态数据，生成执行文本文件；
提取单元，用于提取所述文件生成单元生成的执行文本文件中的关键字；匹配单元，用于将所述提取单元提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能。本发明实施例获取与网页相关的动态数据，并通过相应的引擎执行所述动态数据，生成执行文本文件，提取所述执行文本文件中的关键字，并将所述提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能，实现对网页动态数据中的钓鱼信息进行有效检测，大大提高了网页检测的可靠性。

图I是本发明实施例一提供的网页检测的方法的实现的流程图；图2是本发明实施例二提供的网页检测的方法的实现的流程图；
图3是本发明实施例三提供的网页检测的系统的结构图；图4是本发明实施例四提供的网页检测的系统的结构图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。本发明实施例通过获取与网页相关的动态数据，并将提取的动态数据中的关键字与预设的钓鱼规则库进行匹配，根据匹配结果确定网页的安全性能。本发明实施例提供了一种网页检测的方法，所述方法包括获取与网页相关的动态数据；通过相应的引擎执行所述动态数据，生成执行文本文件；提取所述执行文本文件中的关键字；将所述提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能。本发明实施例还提供了一种网页检测的系统，所述系统包括数据获取单元，用于获取与网页相关的动态数据；文件生成单元，用于通过相应的引擎执行所述数据获取单元获取的动态数据，生成执行文本文件；提取单元，用于提取所述文件生成单元生成的执行文本文件中的关键字；匹配单元，用于将所述提取单元提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能。本发明实施例获取与网页相关的动态数据，并通过相应的引擎执行所述动态数据，生成执行文本文件，提取所述执行文本文件中的关键字，并将所述提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能，实现对网页动态数据中的钓鱼信息进行有效检测，大大提高了网页检测的可靠性。以下结合具体实施例对本发明的实现进行详细描述实施例一
本发明实施例的应用场景可以是用户上网时，可能会遇到一些比较可疑的网站，对其可靠性无法辨识，尤其，当钓鱼信息在网页中的动态部分出现时，用户更是无法对其进行辨识，而传统的检测方法只能对网页中的静态内容进行检测，因此通过对网页相关的动态数据进行检测，可以有效的对网页中动态出现的钓鱼信息进行检测，图I示出了本发明实施例一提供的网页检测的方法的实现的流程图，详述如下在步骤SlOl中，获取与网页相关的动态数据。在本发明实施例中，动态数据可以为由Javascript实现的动态数据、也可以为CSS实现的动态数据以及flash等实现的动态数据。在步骤S102中，通过相应的引擎执行上述动态数据，生成执行文本文件。在本发明实施例中，当获取动态数据为Javascript代码和/或外部引用的Javascript文件时,步骤S102可以通过Javascript引擎执行上述Javascript代码和/或外部引用的Javascript文件，生成执行文本文件。在步骤S103中，提取上述执行文本文件中的关键字。在步骤S104中，将上述提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能。在本发明实施例中，上述钓鱼规则库可以预先存储多个恶意关键字，且每个关键字有不同的权重和优先级别，当在钓鱼规则库中匹配到上述提取的关键字，则根据上述关键字对应的权重和优先级别，确定提取的关键字的恶意程度，从而确定网页的安全性能，安全性能对网页安全性进行描述，根据确定提取的关键字的恶意程度不同，网页的安全性能也可以相应的包括多个级别。本发明实施例获取与网页相关的动态数据，并通过相应的引擎执行上述动态数据，生成执行文本文件，提取上述执行文本文件中的关键字，并将上述提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能，实现对网页动态数据中的钓鱼信息进行有效检测，大大提高了网页检测的可靠性。实施例二本发明实施例的可以是与实施例一相同的应用场景，图2示出了本发明实施例二提供的网页检测的方法的实现的流程图，详述如下在步骤S201中，接收用户输入的URL及URL的校验信息，校验信息包括需要校验URL的次数信息、校验URL的类型信息、校验请求的来源信息及上次校验时间信息。在本发明实施例中，接收用户输入的URL及URL的校验信息，可以由用户通过客户端根据用户需求推送URL到服务器进行检测验证，以满足用户的个性化需求，也可以由服务器主动对用户输入到客户端的URL进行检测，以实现对客户端的URL的全面监控和检测，可以根据具体情况采取相应的获取方式进行检测。在步骤S202中，判断上述接收到的URL是否已在本地存储，当判断本地已存储上述接收的URL时，执行步骤S203，当判断本地未存储上述接收的URL时，执行步骤S204。在步骤S203中，输出上述URL对应的网页的安全性能的提示信息。在步骤S204中，根据上述校验信息中的各个信息的权重，计算上述URL的优先级。在本发明实施例中，可以为校验信息校验URL的次数信息、校验URL的类型信息、校验请求的来源信息及上次校验时间信息等设置不同的权重级别，则URL的优先级可以为各个信息的权重之和。在本发明实施例中，可以缓存接收到的URL，具体可以将计算完优先级的URL放在一个缓存队列里面，根据实际情况，到缓存队列下载所需要校验的URL及其信息，避免了多个URL同时需要检测，造成的拥塞。在步骤S205中，按URL的优先级由高到低，下载与上述URL对应的HTLM文件；在步骤S206中，提取内嵌在HTML文件中的Javascript代码和/或外部引用的Javascript文件，并且当提取了外部引用的Javascript文件时，并发下载外部引用的Javascript 文件。在步骤S207中，通过Javascript引擎执行上述Javascript代码和/或外部引用的Javascript文件，生成执行文本文件。在本发明实施例中，步骤S207具体可以采用以下方式实现 I、按照在HTML文件中出现的顺序,对上述Javascript代码和/或外部引用的Javascript文件进行排序；2、解析上述HTML文件中的文档对象模型(Document Object Model, DOM)信息；3、根据上述解析的DOM信息,通过Javascript引擎执行上述Javascript代码和/或外部引用的Javascript文件，生成执行文本文件。在步骤S208中，提取HTML文件和执行文本文件中的关键字。在本发明实施例中，在提取动态网页文本文件中的关键字的同时，还提取静态HTML文件中的关键字，实现可以全面的对网页中的恶意信息进行检测。在步骤S209中，将提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能。在步骤S210中，存储URL及上述URL对应的网页的安全性能。在本发明实施例中，可以为URL设置黑白属性，为黑表示这个URL是一个恶意的URL，为白表示这个URL是一个正常的网页，同时，为了节省空间和提高匹配过程的速度，可以采用存储URL的MD5信息，以及黑白属性两个字段供匹配时使用，因此，使用服务的客户端把计算URL的MD5信息，发送过来进行查询，取得这个URL的黑白属性，从而指导客户端的进一步的行为，进一步的，可选的，由于URL的内容是会动态变化的，所以可以定期对本地存储的URL的信息及安全性能信息进行检测，并更新URL的黑白属性，及时的将不在钓鱼的网页屏蔽掉，避免对于一些由于遭到临时攻击的页面的误报。为了将误报的风险降到最小，会根据URL请求的次数来进行调度，优先将请求次数多的URL提前推送进行检测鉴定本发明实施例，通过判断本地已存储上述接收的URL时，则输出上述URL对应的网页的安全性能的提示信息，当判断本地未存储上述接收的URL时,则通过Javascript引擎执行上述HTML文件对应的Javascript代码，生成执行文本文件中的关键字，对网页的安全性能进行确认，提高了检测的效率，避免了重复的判断对系统资源的浪费。通过缓存接收到的URL，实现根据实际情况，到缓存队列下载所需要校验的URL及其信息，避免了多个URL同时需要检测时，造成的拥塞。实施例三图3示出了本发明实施例三提供的网页检测的系统的结构图，为了便于说明，仅示出了与本发明实施例相关的部分，该系统可以是内置于服务器端的软件单元、硬件单元或者软硬结合单元。上述系统包括数据获取单元31、文件生成单元32、提取单元33和匹配单元34。数据获取单元31获取与网页相关的动态数据。文件生成单元32通过相应的引擎执行上述数据获取单元31获取的动态数据，生成执行文本文件。在本发明实施例中，上述动态数据为Javascript代码和/或外部引用的Javascript文件,则文件生成单元32,可以通过Javascript引擎执行上述Javascript代码和/或外部引用的Javascript文件，生成执行文本文件。提取单元33提取上述文件生成单元32生成的执行文本文件中的关键字。
匹配单元34将上述提取单元33提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能。本发明实施例获取与网页相关的动态数据，并通过相应的引擎执行上述动态数据，生成执行文本文件，提取上述执行文本文件中的关键字，并将上述提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能，实现对网页动态数据中的钓鱼信息进行有效检测，大大提高了网页检测的可靠性。实施例四图4示出了本发明实施例三提供的网页检测的系统的结构图，为了便于说明，仅不出了与本发明实施例相关的部分。本发明实施例中，数据获取单元41具体包括URL接收模块411，接收用户输入的URL。下载模块415下载与上述URL接收模块411接收的URL对应的HTLM文件。提取模块416提取内嵌在HTML文件中的Javascript代码和/或外部引用的Javascript文件，并且当提取了外部引用的Javascript文件时，并发下载外部引用的Javascript 文件。进一步的,上述URL接收模块411还接收URL的校验信息,上述校验信息包括需要校验URL的次数信息、校验URL的类型信息、校验请求的来源信息及上次校验时间信息。数据获取单元41还包括计算模块413根据上述校验信息中的各个信息的权重，计算上述URL的优先级。则上述下载模块415可以按URL的优先级由高到低，下载与上述URL对应的HTLM文件。进一步的，上述系统包括存储单元45存储上述URL及上述URL对应的网页的安全性能。进一步的，数据获取单元41还包括判断模块412判断上述接收到的URL是否已在本地存储，当判断本地已存储上述接收的URL时，则输出上述URL对应的网页的安全性能的提示信息，当判断模块412判断本地未存储上述接收的URL时，则启动计算模块413。进一步的，数据获取单元41还包括缓存模块414缓存上述接收的URL。进一步的，在本发明实施例中，提取单元43具体包括排序模块431、解析模块432和文本生成模块433。
按照在HTML文件中出现的顺序，排序模块431对上述Javascript代码和/或外部引用的Javascript文件进行排序。解析模块432解析上述HTML文件中的DOM信息。根据上述解析模块432解析的DOM信息，文本生成模块433通过Javascript引擎执行Javascript代码和/或外部引用的Javascript文件,生成执行文本文件。综上，本发明实施例的有意效果在于 I、通过获取与网页相关的动态数据，并通过相应的引擎执行所述动态数据，生成执行文本文件，提取所述执行文本文件中的关键字，并将所述提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能，实现对网页动态数据中的钓鱼信息进行有效检测，大大提高了网页检测的可靠性。2、通过判断本地已存储所述接收的URL时，则输出所述URL对应的网页的安全性能的提示信息，当判断本地未存储所述接收的URL时，则通过Javascript引擎执行所述HTML文件对应的Javascript代码，生成执行文本文件中的关键字，对网页的安全性能进行确认，提高了检测的效率，避免了重复的判断对系统资源的浪费。3、通过缓存接收到的URL，实现根据实际情况，到缓存队列下载所需要校验的URL及其信息，避免了多个URL同时需要检测时，造成的拥塞。值得注意的是，上述装置和系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如R0M/RAM、磁盘或光盘等。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。
权利要求
1.一种网页检测的方法，其特征在于，所述方法包括下述步骤获取与网页相关的动态数据；通过相应的引擎执行所述动态数据,生成执行文本文件；提取所述执行文本文件中的关键字；将所述提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能。
2.如权利要求I所述的方法，其特征在于，所述获动态数据为Javascript代码和/或外部引用的Javascript文件；所述通过相应的引擎执行所述动态数据，生成执行文本文件的步骤具体为通过Javascript引擎执行所述Javascript代码和/或外部引用的Javascript文件，生成执行文本文件。
3.如权利要求2所述的方法,其特征在于,所述获取与网页相关的Javascript代码和/或外部引用的Javascript文件的步骤具体为接收用户输入的URL; 下载与所述URL对应的HTLM文件；提取内嵌在HTML文件中的Javascript代码和/或外部引用的Javascript文件,并且当提取了外部引用的Javascript文件时,并发下载外部引用的Javascript文件。
4.如权利要求3所述的方法，其特征在于，所述将所述提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能的步骤之后，所述方法还包括下述步骤存储所述URL及与所述URL对应的网页的安全性能；所述接收用户输入的URL的步骤之后，所述方法还包括下述步骤判断所述接收到的URL是否已在本地存储；当判断本地已存储所述接收的URL时，则输出所述URL对应的网页的安全性能的提示信息。
5.如权利要求3所述的方法，其特征在于，所述接收用户输入的URL的同时，还接收URL的校验信息,所述校验信息包括需要校验URL的次数信息、校验URL的类型信息、校验请求的来源信息及上次校验时间信息；所述接收用户输入的URL的步骤之后，所述方法还包括下述步骤根据所述校验信息中的各个信息的权重，计算所述URL的优先级；所述下载与所述URL对应的HTLM文件的步骤具体为按URL的优先级由高到低，下载与所述URL对应的HTLM文件。
6.如权利要求3所述的方法，其特征在于，所述接收用户输入的URL的步骤之后，所述方法还包括缓存所述接收的URL。
7.如权利要求3所述的方法，其特征在于，所述通过Javascript引擎执行所述Javascript代码和/或外部引用的Javascript文件,生成执行文本文件的步骤具体为按照在HTML文件中出现的顺序，对所述Javascript代码和/或外部引用的Javascript文件进行排序；解析所述HTML文件中的文档对象模型DOM信息；根据所述解析的DOM信息,通过Javascript引擎执行所述Javascript代码和/或外部引用的Javascript文件，生成执行文本文件。
8.如权利要求3所述的方法，其特征在于，所述提取所述执行文本文件中的关键字的步骤的同时，所述方法还执行以下步骤提取所述HTML文件中的关键字。
9.一种网页检测的系统，其特征在于，所述系统包括数据获取单元，用于获取与网页相关的动态数据；文件生成单元，用于通过相应的引擎执行所述数据获取单元获取的动态数据，生成执行文本文件；提取单元，用于提取所述文件生成单元生成的执行文本文件中的关键字；匹配单元，用于将所述提取单元提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能。
10.如权利要求9所述的系统，其特征在于，所述动态数据为Javascript代码和/或外部引用的Javascript文件；所述文件生成单元，还用于通过Javascript引擎执行所述Javascript代码和/或外部引用的Javascript文件，生成执行文本文件。
11.如权利要求10所述的系统，其特征在于，所述数据获取单元包括 URL接收模块，用于接收用户输入的URL ；下载模块，用于下载与所述URL接收模块接收的URL对应的HTLM文件；提取模块，用于提取内嵌在HTML文件中的Javascript代码和/或外部引用的Javascript文件，并且当提取了外部引用的Javascript文件时，并发下载外部引用的Javascript 文件。
12.如权利要求11所述的系统，其特征在于，所述系统还包括存储单元，用于存储所述URL及所述URL对应的网页的安全性能；所述数据获取单元还包括判断模块，用于判断所述接收到的URL是否已在本地存储，当判断本地已存储所述接收的URL时，则输出所述URL对应的网页的安全性能的提示信息。
13.如权利要求11所述的系统，其特征在于，所述URL接收模块，还用于接收URL的校验信息，，所述校验信息包括需要校验URL的次数信息、校验URL的类型信息、校验请求的来源信息及上次校验时间信息；所述数据获取单元还包括计算模块，用于根据所述校验信息中的各个信息的权重，计算所述URL的优先级；则所述下载模块，还用于按URL的优先级由高到低，下载与所述URL对应的HTLM文件。
14.如权利要求11所述的系统，其特征在于，所述数据获取单元还包括缓存模块，用于缓存所述接收的URL。
15.如权利要求11所述的系统，其特征在于，所述文件生成单元具体包括排序模块，用于按照在HTML文件中出现的顺序，对所述vascript代码和/或外部引用的Javascrip文件进行排序；解析模块，用于解析所述HTML文件中的文档对象模型DOM信息；文本生成模块，用于根据所述解析模块解析的DOM信息，通过Javascript引擎执行所述Javascript代码和/或外部引用的Javascript文件,生成执行文本文件。
16.如权利要求11所述的系统，其特征在于，所述提取单元还用于提取所述HTML文件中的关键字。
全文摘要
本发明适用于网络安全技术领域，提供了一种网页检测的方法及系统，所述方法包括获取与网页相关的动态数据，通过相应的引擎执行所述动态数据，生成执行文本文件，提取所述执行文本文件中的关键字，将所述提取的关键字与预设的钓鱼规则库进行匹配，并根据匹配结果确定网页的安全性能。本发明实现对网页动态数据中的钓鱼信息进行有效检测，大大提高了网页检测的可靠性。
文档编号G06F17/30GK102902686SQ20111021197
公开日2013年1月30日申请日期2011年7月27日优先权日2011年7月27日
发明者邵付东申请人:腾讯科技(深圳)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邵付东
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：资源文件的访问方法及装置的制作方法
上一篇：一种基于自然语言处理的机器人导航方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。