应用于网页快照的数据处理方法及系统的制作方法

文档序号:9547054阅读:567来源:国知局
应用于网页快照的数据处理方法及系统的制作方法
【技术领域】
[0001]本发明涉及数据处理领域,更具体地,涉及一种应用于网页快照的数据处理方法及系统。
【背景技术】
[0002]随着互联网的爆发性发展,互联网应用系统所存储的数据以及网页数量在不断增加。随着网页个性化展示以及网页内容的不断完善与修改,网页往往更新迭代形成多个历史版本。互联网为了可以便捷查看网页修改前后的对比,往往将历史快照数据存储于系统中。传统的网页历史快照主要用于网络搜索引擎中,其目的是为了形成搜索索引,快速检索目标网页。
[0003]现有的网页修改历史快照数据存储方法主要是使用全量存储的方法,即将前一个版本的网页与修改后的网页完整的保存下来。随着时间的推移和网页修改次数不断增多,互联网系统所需要存储的数据也会持续较快的增长,这对于网页数据频繁修改的互联网系统来说,大大增加了对存储空间的需求以及处理的成本。同时,随着电子商务系统的发展,由于电子商务系统对于用户个性化设计具有较高需求的特性,对于不同等级的会员展示的页面元素可能不一样,如折扣、价格、优惠信息、运费信息、赠品信息等,加重了网页版本差别的形成众多网页历史快照版本的问题。
[0004]现有的网页历史快照技术主要应用于网络搜索引擎,一般采用全量保存网页历史快照的方法,导致互联网系统需要花费大量的存储空间来存储网页快照数据,特别是在爆发性增长的电子商务系统中,存储空间的需求及成本负担较大。

【发明内容】

[0005]为解决上述技术问题,本发明提供了一种应用于网页快照的数据处理方法及数据处理系统,能够大大减少存储网页历史快照所需的存储空间,降低处理成本,例如,降低网页修改历史快照数据所需的成本。
[0006]—方面,本发明实施例提供了一种应用于网页快照的数据处理方法,包括:
[0007]获取网页的网页数据;
[0008]根据所述网页数据和所述网页的前版快照数据对比确定二者中表达相同网页内容的数据,所述前版快照数据的时间早于所述网页数据的时间;
[0009]将所述网页数据中表达所述相同网页内容的数据替换为用于标志这些数据的编码得到当前版快照数据。
[0010]另一方面,本发明实施例提供一种应用于网页快照的数据处理系统,包括:
[0011]数据获取模块,用于获取网页的网页数据;
[0012]数据对比模块,用于根据所述网页数据和所述网页的前版快照数据对比确定二者中表达相同网页内容的数据,所述前版快照数据的时间早于所述网页数据的时间;
[0013]数据替换模块,用于将所述网页数据中表达所述相同网页内容的数据替换为用于标志这些数据的编码得到当前版快照数据。
[0014]采用本发明实施例,具有以下优点:
[0015]1)通过将网页数据中表达相同网页内容的数据替换为相应的编码,不仅能有效地存储网页的历史快照数据,还能够大大节省快照数据的存储空间,降低成本;
[0016]2)通过预先保存多个版本的快照数据,有利于旧版快照数据的查询与获取;
[0017]3)通过建立用户编码与网页名称编码二者与当前版快照数据的对应关系,有利于分用户地保存历史快照数据,满足用户的个性化需求,特别适用于在电商平台中为用户提供个性化的页面展示。
【附图说明】
[0018]图1A是根据本发明实施例的一种应用于网页快照的数据处理方法的流程示意图;
[0019]图1B是根据本发明实施例的一种实现图1A所示处理12的流程示意图;
[0020]图2A是根据本发明实施例的一种应用于网页快照的数据处理系统的框图;
[0021]图2B是根据本发明实施例的一种数据对比模块的框图;
[0022]图3是根据本发明实施例的一种应用于网页快照的数据处理系统的框图。
【具体实施方式】
[0023]下面将结合附图对本发明实施例中的技术方案进行清楚、完整的描述。
[0024]图1A是根据本发明实施例的一种应用于网页快照的数据处理方法的流程示意图,参照图1A,该方法包括:
[0025]10:获取网页的网页数据。
[0026]可选地,在本实施例的一种实现方式中,处理10可通过以下方式实现:首先接收触发网页快照的触发请求,该触发请求中携带有用于标志网页的网页名称编码。其中,触发请求包括但不限于订单下单交易完成、网页页面数据修改、新商品发布等。然后,根据网页名称编码获取该网页名称编码所对应的网页的网页数据。
[0027]当然,在本实现方式中还可以保存网页名称编码与网页数据的对应关系,以便于后续根据网页名称编码查找网页数据或查找经过特定处理后的网页数据。
[0028]12:根据网页数据和网页的前版快照数据对比确定二者中表达相同网页内容的数据。其中,所述前版快照数据的时间早于所述网页数据的时间。
[0029]14:针对所述网页数据进行数据替换处理得到当前版快照数据。其中,数据替换处理是指:将网页数据中表达所述相同网页内容的数据替换为用于标志这些数据的编码。
[0030]采用本实施例提供的方法,通过将网页数据中表达相同网页内容的数据替换为相应的编码,不仅能有效地存储网页的历史快照数据,还能够大大节省快照数据的存储空间,降低成本。
[0031]可选地,在本实施例的一种实现方式中,在处理10中,触发请求中除了包括网页名称编码之外,还携带有用于标志用户的用户编码。这样,就可以保存网页名称编码和用户编码二者与网页数据的对应关系。在这种情况下,可以针对同一网页获取/保存对应不同用户的网页数据,满足用户的个性化需求,特别适用于在电商平台中为用户提供个性化的页面展示。
[0032]可选地,在本实施例的一种实现方式中,如图1B所示,处理12可以通过处理120至124来实现。下面具体说明。
[0033]120:将前版快照数据中的编码替换为该编码所标志的HTML (Hyper Text MarkupLanguage,超文本标记语言)标签的HTML内容。
[0034]在本实现方式中,预先保存多个版本的快照数据。其中的部分版本(例如,除了时间最早的版本之外的版本)的快照数据可以包括HTML内容与编码,其中的编码用于标志相应的HTML内容。采用本实现方式,一方面能够提供旧版本的网页历史快照数据,另一方面,为后续的数据替换处理提供了数据对比基础。
[0035]当然,在本实现方式中,如果前版快照数据是保存的所述网页的唯一一版快照数据,则无需执行处理120,只需执行处理122和124。
[0036]122:数据分割与编码处理。具体而言,以HTML标签为单位将网页数据和前版快照数据分割得到多段与HTML标签对应的HTML内容,并为前版快照数据中的HTML标签编码。
[0037]124:数据对比处理。具体而言,采用文本比较算法将所述网页数据中同层级的标签与所述前版快照数据中的所有标签进行对比处理,确定可替换标签。其中,可替换标签是指网页数据和前版快照数据中具有相同HTML内容的HTML标签。
[0038]其中,在处理124中,如果网页数据中当前对比的HTML标签与前版快照数据中的HTML标签均存在差异,并且当前对比的HTML标签包含子标签,则将子标签与前版快照数据中的HTML标签逐个对比。依次类推,确定出所有的可替换标签。
[0039]可选地,在本实施例的一种实现方式中,如果在处理124中确定网页数据中当前对比的HTML标签与前版快照数据中的HTML标签均存在差异,并且当前
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1