应用于网页快照的数据处理方法及系统的制作方法_2

文档序号:9547054阅读:来源:国知局
对比的HTML标签不包含子标签,则保存当前对比的HTML标签的内容以及设置的用于标志该HTML标签的编码。
[0040]采用本实现方式提供的方式,通过数据分割、对比等处理能够准确确定当前网页数据与前版快照数据的异同,而通过编码并建立编码与HTML内容(或HTML标签)的对应关系,也就可以通过编码检索到对应的HTML内容,为后续的处理14提供基础。
[0041]在采用以上方式实现处理12之后,在处理14中,可以将网页数据中的可替换标签的HTML内容替换为该可替换标签的编码。
[0042]图2A是根据本发明实施例的一种应用于网页快照的数据处理系统的框图,参照图2A,数据处理系统20包括数据获取模块21、数据对比模块22和数据替换模块23。下面分别进行说明。
[0043]在本实施例中,数据获取模块21用于获取网页的网页数据。
[0044]可选地,在本实施例的一种实现方式中,数据获取模块21包括:接收子模块,用于接收触发网页快照的触发请求,该触发请求中携带有用于标志网页的网页名称编码;获取子模块,用于根据网页名称编码获取该网页名称编码所对应的网页的网页数据。
[0045]可选地,在本实施例的一种实现方式中,触发请求中除了携带网页名称编码之外还可携带用于标志用户的用户编码。此时,如图2A中的虚线框所示,数据处理系统20可以通过第一数据存储模块24存储网页名称编码和用户编码二者与网页数据的对应关系,以便于后续根据网页名称编码和用户编码查询该网页对应于该用户的快照数据。
[0046]在本实施例中,数据对比模块22用于根据网页数据和网页的前版快照数据对比确定二者中表达相同网页内容的数据。其中,前版快照数据的时间早于网页数据的时间。
[0047]可选地,在本实施例的一种实现方式中,如图2B所示,数据对比模块22包括数据恢复子模块221、分割编码子模块222和对比子模块223。
[0048]数据恢复子模块221,用于将所述前版快照数据中的编码替换为该编码所标志的HTML标签的HTML内容。当然,如果所述前版快照数据中不包含编码,则无需调用数据恢复子模块221,而可以直接调用分割编码子模块222和对比子模块223。
[0049]分割编码子模块222,用于以HTML标签为单位将网页数据和前版快照数据分割得到多段与HTML标签对应的HTML内容,并为前版快照数据中的HTML标签编码。
[0050]对比子模块223,用于采用文本比较算法将网页数据中同层级的标签与前版快照数据中的所有标签进行对比处理,确定可替换标签。其中,可替换标签是指网页数据和前版快照数据中具有相同HTML内容的HTML标签。
[0051]在对比子模块223的对比处理中,如果网页数据中当前对比的HTML标签与前版快照数据中的HTML标签均存在差异,并且当前对比的HTML标签包含子标签,则将子标签与前版快照数据中的HTML标签逐个对比。依此类推直至对比完所有的标签/子标签。
[0052]可选地,在本实现方式中,如图2A中的虚线框所示,数据处理系统20还可以包括第二数据存储模块25,其用于在对比子模块23确定网页数据中当前对比的HTML标签与前版快照数据中的HTML标签均存在差异,并且当前对比的HTML标签不包含子标签时,保存当前对比的HTML标签的内容以及设置的用于标志该HTML标签的编码。
[0053]可选地,在本实现方式中,数据替换模块23具体用于将网页数据中的可替换标签的HTML内容替换为可替换标签的编码。
[0054]采用本实施例提供的数据处理系统,能够大大节省快照数据的存储空间,降低成本。此外,还能够保存多个版本的历史快照数据,并且能够为不同用户提供不同的个性化页面展示。
[0055]在本实施例中,关于相关名称、术语的解释,以及关于各个模块、子模块所执行处理或可执行处理的详细说明请参见方法实施例中的说明,此处不赘述。
[0056]以上分模块地对根据本发明实施例的应用于网页快照的数据处理系统20进行了说明,本领域技术人员应当理解,以上只是本发明的一种实施例,在该实施例的记载或启发下,本领域技术人员能很容易地以不同模块实现本发明实施例中各个模块的作用,例如,将本发明实施例中的某模块的功能拆分为由多个模块实现,或者将某模块的功能与其它模块合并,或者,将某模块的部分功能合并至其它模块,这均落在本发明的保护范围之内。
[0057]图3是根据本发明实施例的一种应用于网页快照的数据处理系统的框图,参照图3,数据处理系统30具有与数据处理系统20不同的功能划分。具体而言,数据处理系统30包括数据获取模块31、数据对比处理模块32、数据存储模块33和数据管理模块34。下面分别进行说明。
[0058]数据获取模块31,用于接收触发网页快照的触发请求,该触发请求中包含网页名称编码和用户编码,以及,用于根据网页名称编码获取对应的网页数据并将网页名称编码、用户编码发送至数据管理模块34。
[0059]数据存储模块33,用于分类存储网页历史快照数据。
[0060]数据管理模块34,用于负责所有网页历史快照的查询、恢复等功能。数据管理模块34在接收到数据获取模块31发送的请求后,根据网页名称编码(在其它实施例中,也可以根据网页名称编码和用户编码)进行查询,确定数据存储模块33中是否保存有相应网页的历史快照数据。如果不存在,则保存当前网页数据作为该网页最新版本的网页历史快照数据;如果存在,则恢复前一版本的网页历史快照数据(以下简称为前版快照数据),并将该网页历史快照数据传送至数据对比模块32进行比较。
[0061]数据对比处理模块32负责根据数据获取模块31发送来的网页数据与数据管理模块34发送来的前版快照数据生成当前版快照数据。并将当前版快照数据发送至数据存储模块33。
[0062]与图2A所示实施例相比,本实施例中的数据管理模块34能够实现数据对比模块22的数据恢复子模块221的功能,数据对比处理模块32则能够实现数据对比模块22的分割编码子模块222和对比子模块223的功能以及数据替换模块23的功能。也就是说,在本发明提供的数据处理系统中,各模块或子模块的功能可以合理地组合或拆分,本发明对此不做具体限制。
[0063]在本实施例中,为了便于检索,还建立网页名称编码和用户编码二者与各版本快照数据(包括:当前版快照数据和前版快照数据)的对应关系。
[0064]在本实施例中,以网页A具有网页Al、网页A2两个版本的网页快照且其中Al的快照时间较早为例,对数据对比处理模块32所执行的对比与处理的步骤进行说明。
[0065]步骤1:为网页文件A、Al、A2分别设置唯一的网页版本编码。例如,假设网页名称编码为123456789,则网页文件A、Al和A2的网页版本编码可以是12345678900001、12345678900002 和 12345678900003。
[0066]步骤2:以HTML标签为单位将Al、A2分割,首先将Al各个层级的标签进行编码,从标签开始至标签结束为一段HTML内容。这样,可以通过编码(例如,网页版本编码+标签编码)检索到对应文件对应标签的HTML内容。
[0067]步骤3:将A2中同层级的标签与Al的标签使用文本比较算法进行比较,如果存在HTML内容相同的HTML标签,则将网页A2中的与网页Al中HTML内容相同的标签的HTML内容替代为该标签的编码;如果A2中当前对比的标签与Al中的标签存在差异,则分以下两种情况进行处理:(I)存在差异且当前对比的标签存在子标签,则将子标签逐个与网页A
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1