一种网页数据的处理方法及装置的制造方法

文档序号：9810564阅读：179来源：国知局

一种网页数据的处理方法及装置的制造方法
【技术领域】
[0001]本发明属于网络安全领域，尤其涉及一种网页数据的处理方法及装置。
【背景技术】
[0002]随着互联网技术的迅速发展，一些知名网站会遭遇到被钓鱼网站攻击所伤害的危险，从而造成了被攻击网站的信誉蒙受了很大的损害。
[0003]目前，为了防范钓鱼网站的攻击，出现了很多识别钓鱼网站的工具；例如:提供一个免费的工具栏，在搜索的时候可以帮助用户识别欺诈性的网站；或者通过与phishtank等恶意网址数据库的合作以阻止用户访问伪造站点等，即大部分都是通过获取网页内容进行特征分析，然后判断网页是否有害，从而防止用户受到欺骗。
[0004]在对现有技术的研究和实践过程中，本发明的发明人发现，目前现有技术虽然可以对钓鱼网站进行识别或者在识别钓鱼网站后进行防御，但仍无法避免该钓鱼网站继续对原网站进行攻击,从而对被攻击网站造成损失和影响。

【发明内容】

[0005]本发明的目的在于提供一种网页数据的处理方法及装置，可以在识别到钓鱼网站后对其进行处理，以减少钓鱼网站对被攻击网站的损失和影响。
[0006]为解决上述技术问题，本发明实施例提供以下技术方案:
[0007]—种网页数据的处理方法，其中所述方法包括:
[0008]接收网页链接地址；
[0009]获取所述网页链接地址所指向的网页；
[0010]若确定出所述网页所属的网站为钓鱼网站时，获取所述网页中的输入接口，所述输入接口可供用户输入；
[0011 ] 获取预设的垃圾信息，并向所述输入接口发送获取到的所述垃圾信息。
[0012]为解决上述技术问题，本发明实施例还提供以下技术方案:
[0013]一种网页数据的处理装置，其中所述装置包括:
[0014]接收模块，用于接收网页链接地址；
[0015]第一获取模块，用于获取所述网页链接地址所指向的网页；
[0016]第二获取模块，用于若确定出所述网页所属的网站为钓鱼网站时，获取所述网页中的输入接口，所述输入接口可供用户输入；
[0017]第三获取模块，用于获取预设的垃圾信息；
[0018]发送模块，用于向所述输入接口发送获取到的所述垃圾信息。
[0019]相对于现有技术，本实施例中，在确定出网页链接地址所指向的网页所属的网站为钓鱼网站时，获取该网页中可供用户输入的输入接口，并向输入接口发送预设的垃圾信息；本发明将垃圾信息自动输入到钓鱼网页的输入接口中并自动提交，以无价值的数据填充钓鱼网页，使其获取到的信息中垃圾信息含量大大增加，从而降低其可用性，整个对抗的流程简单且成本较低，可避免该钓鱼网站继续对原网站进行攻击，减少对原网站的损失和影响，更好的保障用户信息安全。
【附图说明】
[0020]下面结合附图，通过对本发明的【具体实施方式】详细描述，将使本发明的技术方案及其它有益效果显而易见。
[0021]图1是本发明第一实施例提供的网页数据的处理方法的流程示意图；
[0022]图2为本发明第二实施例提供的网页数据的处理方法的流程示意图；
[0023]图3a为本发明第三实施例提供的网页数据的处理方法的流程示意图；
[0024]图3b为本发明第三实施例提供的网页数据的处理系统的结构示意图；
[0025]图3c为本发明第三实施例提供的号码池的结构示意图；
[0026]图3d为本发明第三实施例提供的网页数据解析模块的结构示意图；
[0027]图4为本发明第四实施例提供的网页数据的处理装置的结构示意图；
[0028]图5为本发明第五实施例提供的网页数据的处理装置的结构示意图；
[0029]图6为本发明第六实施例提供的服务器的结构示意图。
【具体实施方式】
[0030]请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。
[0031]在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
[0032]本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本发明的运算系统、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境，其中包括了任何的上述系统或装置。
[0033]本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施，当然也可在硬件上进行实施，均在本发明保护范围之内。
[0034]而且本文所使用的词语“优选的”意指用作实例、示例或例证。奉文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“X使用A或B”意指自然包括排列的任意一个。S卩，如果X使用A ；X使用B ;或X使用A和B 二者，则“X使用A或B”在前述任一示例中得到满足。
[0035]而且，尽管已经相对于一个或多个实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在【具体实施方式】或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。
[0036]第一实施例
[0037]请参阅图1，图1是本发明第一实施例提供的网页数据的处理方法的流程示意图。所述方法步骤包括:
[0038]在步骤SlOl中，接收网页链接地址。
[0039]在步骤S102中，获取所述网页链接地址所指向的网页。
[0040]可以理解的是，所述步骤SlOl和步骤S102可具体包括:
[0041]本发明提供的所述网页数据的处理方法是基于BS(浏览器browser，服务器server)的系统结构的，用户通过浏览器使用该系统，通过浏览器接受网页链接地址，根据该网页链接地址向服务器发出请求，以等待所述网页链接地址所指向的网页响应，从而获取到所述网页链接地址所指向的网页。
[0042]其中，所述网页链接地址可以以统一资源定位符(URL, Uniform ResourceLocator)的形式进行实现；所述URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该如何对其进行处理；可以理解的是，所述网页链接地址还可以以其他形式进行实现，此处举例不构成对本发明的限定。
[0043]在步骤S103中，若确定出所述网页所属的网站为钓鱼网站时，获取所述网页中的输入接口，所述输入接口可供用户输入。
[0044]其中，所述钓鱼网站是指通过伪装成官方网站，诱骗用户访问并输入帐号密码等个人敏感信息，从而非法获取用户的个人敏感数据的一类网站。
[0045]可以理解的是，所述网页中的输入接口可以具体为供用户输入的输入框，以使用户进行相应的登录操作，例如，所述输入框可以包括身份证输入框、银行卡输入框、手机号输入框、验证码输入框等，此处对输入接口的实现形式不作具体限定。
[0046]在步骤S104中，获取预设的垃圾信息，并向所述输入接口发送获取到的所述垃圾信息。
[0047]可以理解的是，本发明所述的网页数据的处理方法是一种基于信息污染对网页数据进行处理的方法，其中信息污染是指媒介信息中混入了有害性、欺骗性、误导性信息元素，致使信息可用性降低或不可用的一种现象。
[0048]本发明实施例中，所述预设的垃圾信息是指混入了有害性、欺骗性、误导性元素的信息，利用这些无价值的数据填充钓鱼网页，致使其获取到的信息中垃圾信息含量大大增力口，从而降低其可用性。容易想到的是，所述垃圾信息可以通过服务器自动生成并预先存储。
[0049]由上述可知，本实施例提供的网页数据的处理方法，在确定出网页链接地址所指向的网页所属的网站为钓鱼网站时，获取该网页中可供用户输入的输入接口，并向输入接口发送预设的垃圾信息；本发明将垃圾信息自动输入到钓鱼网页的输入接口中并自动提交，以无价值的数据填充钓鱼网页，使其获取到的信息中垃圾信息含量大大增加，从而降低其可用性，整个对抗的流程简单且成本较低，可避免该钓鱼网站继续对原网站进行攻击，减少对原网站的损失和影响，更好的保障用户信息安全。
[0050]第二实施例
[0051]请参阅图2，图2为本发明第二实施例提供的网页数据的处理方法的流程示意图。所述方法步骤包括:
[0052]在步骤S201中，接收网页链接地址。
[0053]在步骤S202中，获取所述网页链接地址所指向的网页。
[0054]可以理解的是，所述步骤S201和步骤S202可具体包括:
[0055]本发明提供的所述网页数据的处理方法是基于BS的系统结构的，用户通过浏览器使用该系统，通过浏览器接受网页链接地址，根据该网页链接地址向服务器发出请求，以等待所述网页链接地址所指向的网页响应，从而获取到所述网页链接地址所指向的网页。
[0056]其中，所述网页链接地址可以以统一资源定位符URL的形式进行实现；所述URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该如何对其进行处理；可以理解的是，所述网页链接地址还可以以其他形式进行实现，此处举例不构成对本发明的限定。
[0057]在步骤S203中，解析所述网页，确定出所述网页所属的网站为钓鱼网站。
[0058]可以理解的是，网站是由网页集合而成的，而大家通过浏览器所看到的画面就是网页，网页说具体了是一个超文本标记语言(html,HyperText Mark-up Language)文件,浏览器是用来解读这份文件的，也可以说，网页是有许多html文件集合而成。
[0059]也就是说，钓鱼网站是由钓鱼网页集合而成；其中，所述钓鱼网站是指通过伪装成官方网站，诱骗用户访问并输入帐号密码等个人敏感信息，从而非法获取

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈荣;陈梦;陈远斌;刘宽;董梁;唐艳平;李德春;刘飞飞;
技术所有人：腾讯科技（深圳）有限公司;
我是此专利的发明人

上一篇：一种信息处理方法及装置的制造方法
上一篇：海量图形图像智能识别检索系统及其检索方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。