网页非法数据筛查方法、系统、数据筛查服务器和浏览器与流程

文档序号:11524139阅读:333来源:国知局
网页非法数据筛查方法、系统、数据筛查服务器和浏览器与流程

本发明涉及计算机网络技术领域,具体涉及一种网页非法数据筛查方法、系统、数据筛查服务器和浏览器。



背景技术:

在互联网用户使用网站服务的时候,用户会通过浏览器访问网页。所浏览的网页上通常会有嵌入的广告,这些广告内容有的是经互联网服务提供商授权许可的合法广告,有些则可能是通过恶意篡改http数据所添加的非法广告;即网页内容中出现的非法广告,基本是网页内容被劫持导致的,劫持这通过篡改http数据,来在网页数据中添加非法广告。

例如,经常在部分地区,用户访问的网页,会出现非法的广告(即在访问的网页内容上,出现不是互联网服务提供商在页面上投放的广告,对互联网服务提供商来说,直接影响互联网服务提供商的合法权益)。

可见,网页数据的非法广告一方面影响互联网服务提供商的合法权益,另一方面,大量的非法广告将占用用户获取网页时的流量,导致网页加载速度变慢。

因此,如何检测网页上是否出现非法广告是本领域技术人员亟待解决的技术问题之一。



技术实现要素:

有鉴于此,本发明实施例提供一种网页非法数据筛查方法、系统、数据筛查服务器和浏览器,以实现检测用户获取到的网页中是否出现非法广告。

为实现上述目的,本发明实施例提供如下技术方案:

一种网页非法展示数据筛查方法,其特征在于,包括:

获取用户端上传的请求数据,所述请求数据包括:目标网页中展示对象的对象地址;

调取目标网页的预设合法展示对象地址;

判断所述请求数据中,是否存在与所述预设合法展示对象地址不匹配的对象地址;

若存在所述不匹配的对象地址,将所述不匹配的对象地址标记为非法展示对象地址。

一种网页非法展示数据筛查方法,其特征在于,包括:

获取网络运营商服务器下发的目标网页;

调取所述目标网页中的目标数据形成请求数据,所述目标数据至少包括所述目标网页中展示对象的对象地址;

将所述请求数据发送给与所述目标网页相匹配的数据筛查服务器。

一种数据筛查服务器,其特征在于,包括:

数据采集单元,用于获取用户端上传的请求数据,所述请求数据包括:目标网页中展示对象的对象地址;

合法地址调取单元,用于调取目标网页的预设合法展示对象地址;

匹配单元,用于判断所述请求数据中,是否存在与所述预设合法展示对象地址不匹配的对象地址;若存在所述不匹配的对象地址,将所述不匹配的对象地址标记为非法展示对象地址。

一种浏览器,其特征在于,包括:

对象地址抓取单元,用于调取网络运营商服务器下发的目标网页中的目标数据以形成请求数据,所述目标数据至少包括所述目标网页中展示对象的对象地址;

数据输出单元,用于控制用户终端将所述请求数据发送给与所述目标网页相匹配的数据筛查服务器。

一种网页非法展示数据筛查系统,其特征在于,包括:用户端和数据筛查服务器;

所述用户端被配置为:获取网络运营商服务器下发的目标网页时,调取所述目标网页中的目标数据形成请求数据;将所述请求数据发送给与所述目标网页相匹配的数据筛查服务器,所述目标数据至少包括所述目标网页中展示对象的对象地址;

所述数据筛查服务器被配置为:获取用户端上传的请求数据,调取所述目标网页的预设合法展示对象地址;判断所述请求数据中,是否存在与所述预设合法展示对象地址不匹配的对象地址;若存在所述不匹配的对象地址,将所述不匹配的对象地址标记为非法展示对象地址。

基于上述技术方案,本发明实施例提供的网页非法展示数据筛查方法,通过当获取到用户端上传的请求数据时,调取与所述目标网站所匹配的预设合法展示对象地址,将所述请求数据中的对象地址与所述预设合法展示对象地址进行一一比对,将与任意一个预设合法展示对象地址均不一致的对象地址标记为非法展示对象地址,从而实现了检测用户获取到的目标网页中是否出现非法展示对象。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种网页非法展示数据筛查方法的流程示意图;

图2为存在非法展示对象的网页示意图;

图3为本申请另一实施例公开的一种网页非法展示数据筛查方法的流程示意图;

图4为本申请又一实施例公开的一种网页非法展示数据筛查方法的流程示意图;

图5为本申请实施例公开的一种数据筛查服务器的结构示意图;

图6为本申请实施例公开的一种浏览器的结构示意图;

图7为本申请实施例公开的一种网页非法展示数据筛查系统的结构示意图;

图8为本申请图7公开的网页非法展示数据筛查系统的工作流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明提供的一种网页非法数据筛查方法的流程图,该方法可应用于网络服务器端,参见图1,该方法可以包括:

步骤s101:获取用户端上传的请求数据;

其中,所述请求数据包括:目标网页中展示对象的对象地址;在本申请实施例公开的技术方案中,网页中的每个广告均可认为是一个展示对象,向用户展示的网页中的展示对象包括所述目标网站的互联网服务提供商认可并在所述目标网页中嵌入的合法的展示对象,也可能包括例如图2中所示的,网络运营商通过在网络运营商服务器中嵌入的、未经所述互联网服务提供商许可的非法展示对象,目标网页中的每个展示对象均对应有一唯一对象地址,所述对象地址可以认为是展示对象的url地址(统一资源定位符),在本申请提供的方案中,可以通过判断用户获取到的目标网页中是否存在未经许可的展示对象的对象地址的方式,当然,为了方便互联网服务提供商判断是哪个网页出现非法展示对象,所述请求数据中还可以包括其他辅助数据,例如,目标网页的访问ip和访问url地址等。

步骤s102:调取目标网页的预设合法展示对象地址;

在本申请实施例公开的方案中,网站服务提供商在目标网页中嵌入合法的展示对象时,同上会对每个网页上的合法展示对象进行统计,将合法对象的预设合法展示对象地址存储于与所述目标网页对应的数据库中,在本步骤中,当获取到用户端上传的请求数据后,依据所述请求数据判定所述请求数据所对应的目标网页,调取与所述目标网页所对应的合法展示对象的预设合法展示对象地址,当然,如果所述每个目标网页分别对应不同的预设数据库(所述预设数据库内存储有对应目标网页中嵌入的合法展示对象的预设合法展示对象地址)时,可以直接调取与所述目标网页所对应的预设数据库。

步骤s103:判断所述请求数据中,是否存在与所述预设合法展示对象地址不匹配的对象地址;若果是,执行步骤s104;

在本步骤中,当获取到所述目标网页所对应的合法展示对象的预设合法展示对象地址或所述目标网页对应的预设数据库后,将获取到的请求数据中的对象地址与各个合法对象的预设合法展示对象地址进行一一比对,即可对所述请求数据中的对象地址的合法性进行判定,即,如果发现所述请求数据中的某个对象地址不同于任意一个预设合法展示对象地址,则认为该对象地址对应的展示对象为非法展示对象;如果,所述请求数据中的对象地址与某个预设合法对象地址相同,则可认为该对象地址对应的展示对象为合法对象。

步骤s104:将所述不匹配的对象地址标记为非法展示对象地址;

在本步骤中,当发现与任意一个所述预设合法展示对象地址均不匹配的对象地址时,将该对象地址对应的展示对象认定为非法对象,对该对象地址进行标记,将其标记为非法展示对象地址,以便于向所述目标网站的互联网服务提供商进行提示。

由本申请上述实施例公开的技术方案可见,本方案通过当获取到用户端上传的请求数据时,调取与所述目标网站所匹配的预设合法展示对象地址,将所述请求数据中的对象地址与所述预设合法展示对象地址进行一一比对,将与任意一个预设合法展示对象地址均不一致的对象地址标记为非法展示对象地址,从而实现了检测用户获取到的目标网页中是否出现非法展示对象,以及当目标网页出现非法展示对象时,能够及时对所述目标网站的互联网服务提供商进行提醒。

当将目标网页中的某一对象地址标记为非法展示对象地址时,为了互联网服务提供商判断是哪个网站被嵌入该非法展示对象地址,在本申请另一实施例公开的技术方案中,所述请求数据还包括:目标网页的访问ip和访问url地址;当将所述不匹配的对象地址标记为非法展示对象地址之后,还可以包括:建立并存储所述访问ip和访问url地址与所述非法展示对象地址之间的映射关系。由此,本领域所述互联网服务提供商即可能够直接获知是哪个网站存在非法展示对象,以及该网站具体存在哪些非法展示对象。

所述互联网服务提供商在目标网页中嵌入合法展示对象时,有些合法展示对象的对象地址中的域名为所述互联网服务器向所述目标网页配置的域名,具备该域名的对象地址所对应的展示对象必然是合法展示对象,因此,为了提高分析速度,可以在将请求数据中的对象地址与所述预设合法展示对象地址进行一一对比之前,进行数据筛选,以筛选掉所述请求数据中必然是合法的对象地址,提高系统的数据处理速度,具体的,参见图3,上述方法在获取到用户端上传的请求数据之后,判断所述请求数据中,是否存在与所述预设合法展示对象地址不匹配的对象地址之前,还可以包括:

步骤s301:获取所述目标网页所对应的互联网服务器提供商的域名;

步骤s302:滤除请求数据中包含有所述域名的对象地址,执行步骤s102;

当然,在本申请提供的技术方案中,并不对所述步骤s301、s302与步骤s102的执行顺序进行限定,在本实施例中的上述顺序介绍仅仅是一种具体实施方式,其也可以先执行步骤s102,再执行步骤s301、s302,进而执行步骤s103。

与上述应用于服务器端的网页非法展示数据筛查方法相对应,参见图3,本申请还公开了一种应用于用户端的网页非法展示数据筛查方法,该用户端可以指的是应用有浏览器的电脑、手机、平板电脑、pc机等,具体的,参见图4,本实施例公开的网页非法展示数据筛查方法具体可以包括:

步骤s401:向网络运营商服务器发送网页请求;

步骤s402:获取网络运营商服务器依据所述网页请求下发的目标网页;

所述网络运营商服务器在获取到所述用户端发送的网页请求后,依据所述网页请求由网站服务器提取与所述网页请求相匹配的目标网页数据(网页代码),将获取到的目标网页转发给用户端,当然,当所述网络运营商服务器向用户端转发目标网页的过程中,可能会存在对所述目标网页进行数据劫持的行为,所述网络运营商服务器劫持目标网页数据后,在所述目标网页数据中植入非法展示对象地址,将植入非法展示对象地址的目标网页发送给用户端;

步骤s403:调取所述目标网页中的目标数据形成请求数据,所述目标数据至少包括所述目标网页中展示对象的对象地址;

在本步骤中,由于互联网服务提供商不确定用户获取到的目标网页中是否存在非法展示对象(互联网服务提供商无法监控网络运营商服务器劫持目标网页的行为),需要调取用户获取到的网页中的各个展示对象的对象地址,以形成请求数据,方便互联网服务提供商判断目标网页中是否存在非法展示对象;

步骤s404:将所述请求数据发送给与所述目标网页相匹配的数据筛查服务器;

在本步骤中,当生成所述请求数据后,将所述请求数据发送给互联网服务提供商,所述互联网服务提供商可以通过一预设的网络服务器(数据筛查服务器)来接收该请求数据,该网络服务器可以为一个单独设立的服务器,当然,也可以将网站服务器作为用于获取所述请求数据的服务器。其中,所述数据筛查服务器对所述请求数据的处理过程可以参见本申请站在网络服务器端介绍的、上一实施例公开的网页非法展示数据筛查方法的数据分析处理过程。

与上述站在服务器端撰写的网页非法展示数据筛查方法相对应,本方法中,为了便于获取预设合法展示对象地址,以及方便互联网服务提供商判断哪些网页存在非法展示对象、网页中存在哪些非法展示对象,所述目标数据还可以包括:所述目标网页的目标网页的访问ip和访问url地址,即所述调取所述目标网页中的目标数据形成请求数据包括:调取所述目标网页中的对象地址、访问ip和访问url地址,将所述对象地址、访问ip和访问url地址导入请求数据中。

在本申请实施例共开的网页非法展示数据筛查方法,滤除请求数据中包含有所述域名的对象地址的动作可以在网络服务器端执行,也可以在用户端中来执行,当该动作在网络服务器端执行时,其具体方法可参见本申请图3中的实施例介绍所示,当该动作在用户端执行时,本申请站在用户端介绍的网页非法展示数据筛查方法在将所述请求数据发送给与所述目标网页相匹配的数据筛查服务器之前,还可以包括:

获取所述目标网页所对应的互联网服务器提供商的域名;

滤除所述请求数据中包含有所述域名的对象地址,在执行步骤s404。

在本申请实施例公开的技术方案中,提取所述请求数据时、筛选、过滤等动作,需要特定的应用或脚本文件,这些脚本文件可以通过js(javascript)来实现,这些脚本文件可以以插件形式直接嵌入在用户端的浏览器上,当然也可以嵌入在所述目标网页的网页代码中,当这些脚本文件嵌入在浏览器上时,所述浏览器可以每获取到一个目标网页时触发一次该脚本文件,当这些脚本文件嵌入在所述目标网页的网页代码中时,所述浏览器在解析网页代码时即可自动触发该脚本文件,从而执行本申请上站在述用户端介绍的网页非法展示数据筛查方法,具体的,在本申请实施例公开的上述网页非法展示数据筛查方法中,所述调取所述目标网页中的目标数据形成请求数据,将所述请求数据发送给与所述目标网页相匹配的数据筛查服务器,具体可以包括:执行所述目标网页的网页代码中的或浏览器插件中的预设脚本文件;

所述预设脚本文件用于调取所述目标网页中的目标数据形成请求数据,获取所述目标网页所对应的互联网服务器提供商的域名,滤除所述请求数据中包含有所述域名的对象地址,将滤包除含有所述域名的对象地址后的请求数据发送至数据筛查服务器。

对应于上述站在网络服务器端介绍的网页非法展示数据筛查方法,本申请还公开了一种数据筛查服务器,参见图5,该数据筛查服务器可以包括:

数据采集单元510,用于获取用户端上传的请求数据,所述请求数据包括:目标网页中展示对象的对象地址;

合法地址调取单元520,用于调取目标网页的预设合法展示对象地址;

匹配单元530,用于判断所述请求数据中,是否存在与所述预设合法展示对象地址不匹配的对象地址;若存在所述不匹配的对象地址,将所述不匹配的对象地址标记为非法展示对象地址。

与上述实施例公开的方法相对应,当所述请求数据包括:对象地址、目标网页的访问ip和访问url地址时,所述合法地址调取单元520,具体用于依据所述目标网页的访问ip和访问url地址调取与调取目标网页相对应的预设合法展示对象地址,所述匹配单元530,具体可以用于,判断所述请求数据中,是否存在与所述预设合法展示对象地址不匹配的对象地址;若存在所述不匹配的对象地址,将所述不匹配的对象地址标记为非法展示对象地址,建立并存储所述访问ip和访问url地址与所述非法展示对象地址之间的映射关系。

与上述实施例公开的方法相对应,所述数据筛查服务器,还可以包括:

设置于数据采集单元510与匹配单元530之间的过滤单元,所述过滤单元用于获取所述目标网页所对应的互联网服务器提供商的域名,依据所述域名对所述请求数据中的对象地址进行过滤,滤除包含有所述域名的对象地址,将剩余的对象地址发送给所述匹配单元530。

与上述站在用户端介绍的网页非法数据筛查方法相对应,本申请还公开了一种浏览器,参见图6,该浏览器可以包括:

对象地址抓取单元610,用于调取网络运营商服务器下发的目标网页中的目标数据以形成请求数据,所述目标数据至少包括所述目标网页中展示对象的对象地址;

数据输出单元620,用于控制用户终端将所述请求数据发送给与所述目标网页相匹配的数据筛查服务器。

与上述网页非法数据筛查方法相对应,所述浏览器还可以包括:设置于所述对象地址抓取单元610和数据输出单元620之间的过滤单元630,用于:

获取所述目标网页所对应的互联网服务器提供商的域名,滤除所述请求数据中包含有所述域名的对象地址后,将过滤后的所述请求数据发送给所述数据输出单元620。

在本申请上述实施例公开的方案中,所述对象地址抓取单元610、数据输出单元620和过滤单元630可以为设置于浏览器中的插件,当所述对象地址抓取单元610、数据输出单元620和过滤单元630设置于浏览器中时,用户端可以为每个网页对应的互联网服务提供商提供检索网页中是否存在非法展示对象的服务,当然,这里需要互联网服务提供商需要预先设置配套的用于进行上述非法展示对象分析的服务器。

在本申请实施例公开的技术方案中,不同的互联网服务提供商的需求不一致,使得,有的互联网服务提供商无需该功能,而有的互联网服务提供商则需要该功能,如果直接在浏览器上配置所述对象地址抓取单元610、数据输出单元620和过滤单元630,而用户日常浏览的目标网页的互联网服务提供商不需要该功能,则会造成所述浏览器中的对象地址抓取单元610、数据输出单元620和过滤单元630做无用功,增加用户端的数据处理量,使其内存占用增大,因此,本申请上述实施例中的所述对象地址抓取单元610、数据输出单元620和过滤单元630可以为由所述目标网页的网页代码中获取到的预设脚本文件,浏览器和用户端只执行所述预设脚本文件而并不对其进行存储,从而实现了互联网服务提供商依据自身需求,判断是否通过网站服务器在向用户端下发的网页代码中加载所述预设脚本文件。此时,所述浏览器被配置为获取到所述目标网页的网页代码后,解析并执行所述网页代码,执行所述网页代码中的预设脚本文件(如果所述目标网页的网页代码中加载有所述预设脚本文件),进而实现本申请上述实施例中介绍的对象地址抓取单元、数据输出单元和过滤单元所配置的功能。

针对于本申请上述实施例公开的上述方法以及浏览器和数据筛查服务器,本申请还公开了一种非法数据筛查系统,参见图7,该系统可以包括用户端710和数据筛查服务器720;

所述用户端710内配置有本申请上述任意一项实施例中公开的浏览器,例如,其可以被配置为:获取网络运营商服务器730下发的目标网页时,调取所述目标网页中的目标数据形成请求数据;将所述请求数据发送给与所述目标网页相匹配的数据筛查服务器720,所述目标数据至少包括所述目标网页中展示对象的对象地址;

所述数据筛查服务器720可以为本申请上述任意一项实施例公开的数据筛查服务器,例如其可以被配置为:获取用户端上传的请求数据,调取所述目标网页的预设合法展示对象地址;判断所述请求数据中,是否存在与所述预设合法展示对象地址不匹配的对象地址;若存在所述不匹配的对象地址,将所述不匹配的对象地址标记为非法展示对象地址。

当然,由于所述浏览器端和数据筛查服务器720端均可以配置过滤单元,如果在两端均配置过滤单元,会导致其中一个过滤单元做无用功,由此,在所述非法数据筛查系统中,所述浏览器端和数据筛查服务器720端可以择一设置过滤单元。

当然,在本申请上述实施例公开的技术方案中,如果所述对象地址抓取单元610、数据输出单元620和过滤单元630为网页代码中的预设脚本文件时,所述目标网页的网站服务器640也可以作为所述非法数据筛查系统的一部分,该网站服务器被配置为,在获取到网络运营商服务器630上传的网页请求数据时,调取该网页请求数据对应的网页代码,当然,该网页代码中可以在开发设计时就加载有预设脚本文件,也可以在基于现有的目标网页代码的基础上通过所述网站服务器在所述网页代码中加载预设脚本文件。

参见图8,所述非法数据筛查系统的具体流程可以为:

步骤s801:用户端向网络运营商服务器发送网页请求;

步骤s802:网络运营商服务器向网站服务器转发所述网页请求;

步骤s803:网站服务器依据所述网页请求调取网页代码,向所述网络运营商服务器下发加载有预设脚本文件的网页代码;

步骤s804:网络运营商服务器将获取到的网页代码发送至用户端;

步骤s805:用户端获取所述网页代码,对网页代码进行解析并向用户展示目标网页,执行所述网页代码中的预设脚本文件,提取所述目标网页中的目标数据,生成请求数据,将所述请求数据发送给网络运营商服务器;

步骤s806:网络运营商服务器将所述请求数据发送给数据筛查服务器,

步骤s807:所述数据筛查服务器依据获取到的请求数据进行非法展示对象的对象地址的标记工作。

当然,本系统中的所述数据筛查服务器和所述网站服务器可以采用同一个服务器,即,所述数据筛查服务器集成于所述网站服务器中。

当然,为了方便数据管理,所述数据筛查服务器还可以与所述互联网服务提供商的展示对象投放系统(广告投放系统)相连,用于获取所述展示对象投放系统中用于存储各个网页的展示对象的预设合法展示对象地址的预设数据库。

为了描述的方便,描述以上系统时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1