一种数据处理方法及代理服务器与流程

文档序号:17726810发布日期:2019-05-22 02:34阅读:129来源:国知局
一种数据处理方法及代理服务器与流程

本发明涉及计算机技术领域,尤其涉及一种数据处理方法及代理服务器。



背景技术:

随着互联网技术的快速发展,网络已经成为人们生活及工作中必不可少的部分。但随着频繁的网络活动,网络不良行为也时有发生,如剽窃他人的著作、发布侵害他人隐私的信息或盗用他人的账号信息等等。

由于网络具有开放性,当事人可以通过删除或者篡改发布在网页上的数据,使得无法对当事人的不良行为进行取证,因此,对网页进行固化尤为重要。实践中发现,对网页固化后,需要研发人员对固化后的网页进行分析,才能将网页复现,进而将复现后的网页当作证据信息。可见,这种网页复现的方式操作比较繁琐,效率较低。



技术实现要素:

本发明实施例提供一种数据处理方法及代理服务器,可自动地对固化数据进行解析,以使客户端对网页进行复现,可提高客户端对网页复现的效率。

第一方面,本发明实施例提供了一种数据处理方法,该方法包括:

接收客户端发送的关于目标网页的获取请求,所述获取请求携带所述目标网页的地址;

根据网页地址与固化数据的对应关系,获取所述目标网页的地址对应的固化数据;

对所述对应的固化数据进行解析,得到所述目标网页的关联信息,所述关联信息包括html文件及静态资源;

向所述客户端返回所述关联信息,以使所述客户端根据所述关联信息对所述目标网页进行复现。

第二方面,本发明实施例提供了一种代理服务器,该代理服务器包括:

接收单元,用于接收客户端发送的关于目标网页的获取请求,所述获取请求携带所述目标网页的地址;

获取单元,用于根据网页地址与固化数据的对应关系,获取所述目标网页的地址对应的固化数据;

解析单元,用于对所述对应的固化数据进行解析,得到所述目标网页的关联信息,所述关联信息包括html文件及静态资源;

发送单元,用于向所述客户端返回所述关联信息,以使所述客户端根据所述关联信息对所述目标网页进行复现。

第三方面,本发明实施例提供了另一种终端,该终端包括:处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储一条或一条以上程序指令,所述处理器被配置用于加载所述程序指令并执行第一方面所述的方法。

第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有一条或一条以上的程序指令,所述程序指令适于被处理器加载并执行第一方面及第二方面所述的文件处理方法。

本发明实施例,代理服务器在接收到客户端发送的关于目标网页的获取请求时,该获取请求携带目标网页的地址,可以根据网页地址与固化数据的对应关系,获取该目标网页的地址对应的固化数据,并可以对该对应的固化数据进行解析,得到该目标网页的关联信息,向该客户端返回该关联信息,以使该客户端根据该关联信息对该目标网页进行复现,可以自动地对固化数据进行解析,并使客户端对网页进行复现,可以提高客户端对网页数据复现的效率。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据处理方法的示意流程图;

图2是本发明另一实施例提供的一种数据处理方法的示意流程图;

图3是本发明实施例提供的一种代理服务器的示意性框图;

图4是本发明另一实施例提供的一种代理服务器示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

随着互联网技术的快速发展,网络已经成为人们生活及工作中必不可少的部分。但随着频繁的网络活动,网络不良行为也时有发生,如剽窃他人的著作、发布侵害他人隐私的信息或盗用他人的账号信息等等。

由于网络具有开放性,当事人可以通过删除或者篡改发布在网页上的数据,使得无法对当事人的不良行为进行取证,因此,对网页进行固化尤为重要。实践中发现,对网页固化后,需要研发人员对固化后的网页进行分析,才能将网页复现,进而将复现后的网页当作证据信息。可见,这种网页复现的方式操作比较繁琐,效率较低。基于此本发明提供一种数据处理方法及代理服务器,可以自动地对固化数据进行解析,使客户端可以对网页进行复现,可提高客户端对网页复现的效率。

为了更好理解本发明实施例提供的一种数据处理方法及代理服务器,下面先描述本发明的方法实施例。

参见图1,图1是本发明实施例提供一种数据处理方法的示意流程图,如图所示数据处理方法可包括:

s101、接收客户端发送的关于目标网页的获取请求,该获取请求携带该目标网页的地址。

本发明实施例中,代理服务器可以接收客户端发送的关于目标网页的获取请求,该获取请求携带该目标网页的地址。

需要说明的是,代理服务器在接收客户端发送的下载请求之前,可以接收客户端发送的连接请求,该连接请求包括该客户端的标识,代理服务器可以根据该客户端的标识对该客户端进行验证,在验证通过时,建立与所述客户端的连接。如代理服务器可以将客户端的标识与预设数据库中的标识对比,若该客户端的标识与预设数据库中的标识相同,则确定验证通过,建立与该客户端的连接。

其中,客户端可以为设置在终端中或服务器中的应用程序,该客户端可以是浏览器客户端,也可以是其他可对文件进行复现的客户端。

其中,代理服务器是介于客户端和web服务器之间的一种服务器,通过代理服务器可以获取得网页的关联信息。由于客户端不是直接到web服务器中去获取网页的关联信息,而是向代理服务器发出请求,代理服务器返回网页的关联信息,因此可以提高网页的关联信息获取的效率。

s102、根据网页地址与固化数据的对应关系,获取该目标网页的地址对应的固化数据。

举例来说,若代理服务器接收到获取请求,该获取请求携带目标网页的地址,该目标网页的地址为http://www.xxx.com,代理服务器可以根据网页地址与固化数据的对应关系,判断是否存在该目标网页的地址对应的固化数据,若存在,则获取该对应的固化数据;若不存在,则代理服务器可以将该获取请求转发给web服务器。

本发明实施例中,代理服务器可以根据网页地址与固化数据的对应关系,快速地获取该目标网页的地址对应的固化数据,提高固化数据获取的效率,从而避免对代理服务器中的数据进行全局扫描,以获取该对应的固化数据。

需要说明的是,网页地址与固化数据的对应关系可以是代理服务器所建立,也可以是用户根据需要建立的。

需要说明的是,由于剽窃他人的著作、发布侵害他人隐私的信息或盗用他人的账号信息等网络不良行为时有发生,同时由于网络具有开放性,当事人可以通过删除或者篡改发布在网页上的数据,使得无法对当事人的不良行为进行取证。因此可以通过截屏或录制的方式获取到目标网页的关联信息,并将目标网页的关联信息进行压缩,得到对应的固化数据,并将该对应固化数据存储于代理服务器中,可以避免对目标网页的数据篡改,以便于对不良行为进行取证,提高对目标网页的关联信息获取的安全性,并提高了该关联信息的可信度。

s103、对该对应的固化数据进行解析,得到该目标网页的关联信息,该关联信息包括html文件及静态资源。

举例来说,代理服务器可以采用lempel-ziv算法对该对应的固化数据进行解析,得到该目标网页的关联信息,该关联信息可以包括该关联信息包括html文件、css文件或js文件或文本文件等网页数据。

本发明实施中,为了节省存储空间,代理服务器可以根据预设的压缩算法将目标网页的关联信息进行压缩,得到对应的固化数据。在需要对该目标网页进行复现时,可以将该对应的固化数据进行解压,得到该目标网页的关联信息。

其中,预设的压缩算法可以包括lempel-ziv、lz-renau、snappy、fastlz或minilzo等,解压过程是压缩过程的逆过程,通常具有压缩功能的算法,也具有解压功能,因此可以采用上述预设的压缩算法中的其中一种进行解压。

其中,该关联信息包括html文件及静态资源,该静态资源可以包括css文件、样式表、图片、js文件或文本文件等网页元素。

s104、向该客户端返回该关联信息,以使该客户端根据该关联信息对该目标网页进行复现。

本发明实施例中,代理服务器在获取到关联信息后,可以将该关联信息发送至客户端,以使该客户端根据该关联信息对该目标网页进行复现。

需要说明的是,该关联信息包括html文件及静态资源,该html文件被用于建立htmldom,该静态资源被用于对htmldom进行渲染,得到复现后的目标网页。

本发明实施例中,代理服务器在接收到客户端发送的关于目标网页的获取请求时,该获取请求携带目标网页的地址,可以根据网页地址与固化数据的对应关系,获取该目标网页的地址对应的固化数据,并可以对该对应的固化数据进行解析,得到该目标网页的关联信息,向该客户端返回该关联信息,以使该客户端根据该关联信息对该目标网页进行复现,可以自动地对固化数据进行解析,并使客户端对网页进行复现,可以提高客户端对网页数据复现的效率。

基于上述对一种数据处理方法的实施例的描述,本发明实施例提供另一种数据处理方法,请参阅图2,如图2所述的数据处理方法可以包括以下步骤:

s201、接收客户端发送的关于目标网页的获取请求,该获取请求携带该目标网页的地址。

作为一种可选的实施方式,代理服务器在执行步骤s201后,还可以执行以下步骤:判断该目标网页的地址是否与预设数据库中的地址相同,该预设数据库包含至少一个访问地址,该访问地址对应的固化数据存储于该代理服务器中,若该目标网页的地址与预设数据库中的地址相同,则执行步骤s202。

本发明实施例中,代理服务器可以判断该目标网页的地址是否与预设数据库中的地址相同,若该目标网页的地址与预设数据库中的地址相同,则可以执行步骤s202在代理服务器中获取该目标网页对应的固化数据,可以提高获取该对应的固化数据的效率;若该目标网页的地址与预设数据库中的地址不相同,则可以将该客户端的获取请求转发至web服务器,以便可以获取到该网页的固化数据。

s202、根据网页地址与固化数据的对应关系,获取该目标网页的地址对应的固化数据。

s203、对该对应的固化数据进行解析,得到该目标网页的关联信息,该关联信息包括html文件及静态资源。

其中,该关联信息还可以包括第一时间信息及第二时间信息,该第一时间信息是该客户端接收到网页链接请求的时间信息,该第二时间信息是该客户端所请求网页加载结束的时间信息,该关联信息中还可以包括网页中每个静态资源开始加载的时间信息及该静态资源加载完成的时间信息,服务器可以通过固化对网页加载的时间信息来体现对网页操作的真实性,可以提高该关联信息的可信度。

举例来说,若该关联信息还可以包括第一时间信息及第二时间信息,第一时间信息指示的时间为8:00:00,第二时间信息指示的时间为8:00:05,服务器可以确定客户端接收到网页链接请求的时间为8:00:00,并确定该客户端所请求网页加载结束的时间为8:00:05。

s204、通过预设加密算法对该关联信息进行加密,得到该关联信息的数字签名。

本发明实施例中,代理服务器可以通过预设加算法对该关联信息进行加密,得到该关联信息的数字签名,以便可以对该关联信息的真实性或者完成性进行验证。

需要说明的是,该预设加密算法可以包括基于密码的密钥派生函数(password-basedkeyderivationfunction2,pbkdf2)、基于哈希运算的消息认证码(hash-basedmessageauthenticationcode,hmac)或消息摘要算法(messagedigestalgorithm5,md5)等加密算法,上述加密算法仅是举例,而非穷举,包含但不限于上述加密算法。

其中,该关联信息的数字签名可以是字母、数字、符号或文字等中的至少一种组成。

s205、将该关联信息的数字签名和该固化数据对应的数字签名进行比较。

本发明实施例中,代理服务器可以将该关联信息的数字签名和该固化数据对应的数字签名进行比较,以便可以判断该关联信息是否被篡改,或判断该对应的固化数据是否是与该目标网页的地址存在对应关系。即当该关联信息的数字签名和所述该固化数据对应的数字签名相同时,可以确定该关联信息未被篡改,或确定该对应的固化数据与该目标网页存在对应关系。

s206、当该关联信息的数字签名和所述该固化数据对应的数字签名相同时,向该客户端返回该关联信息,以使该客户端根据该关联信息对该目标网页进行复现。

本发明实施例中,当该关联信息的数字签名和所述该固化数据对应的数字签名相同时,代理服务器可以向该客户端返回该关联信息,以使该客户端根据该关联信息对该目标网页进行复现,可以提高该关联信息的可信度,并可以提高网页复现的效率。

本发明实施例中,代理服务器获取到目标网页的关联信息后,可以获取该关联信息的数字签名,通过将固化数据的数字签名与关联信息的数字签名进行对比,以判断该关联信息是否被篡改,当该关联信息的数字签名和所述该固化数据对应的数字签名相同时,代理服务器可以确定该关联信息未被篡改,并向该客户端返回该关联信息,可以保证关联信息的完整性,提高获取目标网页的关联信息的可信度。

基于上述对一种数据处理方法的实施例的描述,本发明实施例提供一种代理服务器,该代理服务器包括执行上述一种数据处理方法的单元,请参阅图3,如图3所述的代理服务器可以包括:

接收单元301,用于接收客户端发送的关于目标网页的获取请求,所述获取请求携带所述目标网页的地址。

获取单元302,用于根据网页地址与固化数据的对应关系,获取所述目标网页的地址对应的固化数据。

解析单元303,用于对所述对应的固化数据进行解析,得到所述目标网页的关联信息,所述关联信息包括html文件及静态资源。

发送单元304,用于向所述客户端返回所述关联信息,以使所述客户端根据所述关联信息对所述目标网页进行复现。

加密单元305,用于通过预设加密算法对所述关联信息进行加密,得到所述关联信息的数字签名;

对比单元306,用于将所述关联信息的数字签名和所述固化数据对应的数字签名进行比较;

所述发送单元304,具体用于当所述关联信息的数字签名和所述固化数据对应的数字签名相同时,执行所述向所述客户端返回所述关联信息的步骤。

判断单元307,用于判断所述目标网页的地址是否与预设数据库中的地址相同,所述预设数据库包含至少一个访问地址,所述访问地址对应的固化数据存储于所述代理服务器中;

所述获取单元302,具体用于若所述目标网页的地址与预设数据库中的地址相同,则执行所述根据网页地址与固化数据的对应关系,获取所述目标网页的地址对应的固化数据的步骤。

基于同一发明构思,由于该代理服务器解决问题的原理以及有益效果可以参见上述图1和图2所述数据处理方法的实施方式以及所带来的有益效果,因此该代理服务器的实施方式可以参见上述图1和图2所述数据处理方法的实施方式,重复之处不再赘述。

本发明实施例,代理服务器在接收到客户端发送的关于目标网页的获取请求时,该获取请求携带目标网页的地址,可以根据网页地址与固化数据的对应关系,获取该目标网页的地址对应的固化数据,并可以对该对应的固化数据进行解析,得到该目标网页的关联信息,向该客户端返回该关联信息,以使该客户端根据该关联信息对该目标网页进行复现,可以自动地对固化数据进行解析,并使客户端对网页进行复现,可以提高客户端对网页数据复现的效率。

基于上述对一种数据处理方法的实施例的描述,本发明实施例提供另一种代理服务器,请参阅图4,如图4所述的代理服务器可以包括:至少一个处理器401,例如cpu(centralprocessingunit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。

其中,通信总线402用于实现这些组件之间的连接通信,还可以实现与其他终端的交互,如可以向云服务器上传文件;还可以接收云服务器下载的文件;还可以向云服务器发送请求等。其中,通信接口403可以包括显示屏(display)、键盘(keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。

其中,存储器404可以是高速ram存储器(ramdomaccessmemory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置,可用于存储下载的文件。

存储器404中存储至少一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行一种文件处理方法,即用于执行以下操作:

接收客户端发送的关于目标网页的获取请求,所述获取请求携带所述目标网页的地址;

根据网页地址与固化数据的对应关系,获取所述目标网页的地址对应的固化数据;

对所述对应的固化数据进行解析,得到所述目标网页的关联信息,所述关联信息包括html文件及静态资源;

向所述客户端返回所述关联信息,以使所述客户端根据所述关联信息对所述目标网页进行复现。

可选的,处理器401调用存储器404中的程序代码,还用于执行以下操作:

通过预设加密算法对所述关联信息进行加密,得到所述关联信息的数字签名;

将所述关联信息的数字签名和所述固化数据对应的数字签名进行比较;

当所述关联信息的数字签名和所述固化数据对应的数字签名相同时,执行所述向所述客户端返回所述关联信息的步骤。

可选的,处理器401调用存储器404中的程序代码,还用于执行以下操作:

判断所述目标网页的地址是否与预设数据库中的地址相同,所述预设数据库包含至少一个访问地址,所述访问地址对应的固化数据存储于所述代理服务器中;

若所述目标网页的地址与预设数据库中的地址相同,则执行所述根据网页地址与固化数据的对应关系,获取所述目标网页的地址对应的固化数据的步骤。

可选的,处理器401调用存储器404中的程序代码,还用于执行以下操作:

所述关联信息还包括第一时间信息和第二时间信息,所述第一时间信息是所述客户端接收到网页链接请求的时间信息,所述第二时间信息是所述客户端所请求网页加载结束的时间信息。

本发明实施例,代理服务器在接收到客户端发送的关于目标网页的获取请求时,该获取请求携带目标网页的地址,可以根据网页地址与固化数据的对应关系,获取该目标网页的地址对应的固化数据,并可以对该对应的固化数据进行解析,得到该目标网页的关联信息,向该客户端返回该关联信息,以使该客户端根据该关联信息对该目标网页进行复现,可以自动地对固化数据进行解析,并使客户端对网页进行复现,可以提高客户端对网页数据复现的效率。

在本发明的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时本申请图1及图2实施例中所示的数据处理方法。

所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元,例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的【系统】、终端和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的【系统】、终端和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1