互联网站数据的单向同步方法

文档序号:7744334阅读:136来源:国知局
专利名称:互联网站数据的单向同步方法
技术领域
本发明涉及一种数据的同步方法。
背景技术
基于互联网实现跨网站的数据同步有许多应用需求。例如某移动通信运营商建立一个专门适于手机访问的网站A,该网站A从适于计算机访问的网站B、网站C等获取内容, 则需要将网站B、网站C的数据单向同步至网站A,如图1所示。目前实现一个或多个源头的互联网站数据同步的应用大多在局域网内、或者在互联网上构建VPN、或者通过数据库系统自身的同步机制、或者依赖某些同步工具来完成。这些方案并不适合跨网络整合不同源头的互联网站数据。而随着互联网应用集成需求的增加,迫切需要找到支持异构环境、支持普通互联网络环境、支持松耦合的技术方案来实现不同互联网站资源的整合利用。

发明内容
本发明所要解决的技术问题是提供一种互联网站数据的单向同步方法,该方法针对解决跨企业、跨互联网、异构系统的数据资源整合具有效率高、适用范围广特点。为解决上述技术问题,本发明互联网站数据的单向同步方法为将互联网站数据的每条数据记录根据大小分为大容量数据、中容量数据和小容量数据;还将互联网站数据的每条数据记录根据更新频率分为快速更新数据、中速更新数据和慢速更新数据;还将互联网站数据的每条数据记录根据用户访问的实时性要求,分为高实时性要求数据和低实时性要求数据;当数据记录同时属于高实时性要求数据和快速更新数据,则采用实时更新策略;当数据记录同时属于高实时性要求数据和中速更新数据,则采用短周期缓存策略;当数据记录同时属于高实时性要求数据、慢速更新数据和大容量数据或中容量数据,则采用短周期缓存策略或后台增量更新策略;当数据记录同时属于高实时性要求数据、慢速更新数据和小容量数据,则采用短周期缓存策略;当数据记录同时属于低实时性要求数据和大容量数据或中容量数据,则采用短周期缓存策略或后台增量更新策略;当数据记录同时属于低实时性要求数据和小容量数据,则采用短周期缓存策略或实时更新策略或增量更新策略;所述短周期缓存策略为用户访问数据同步的目标网站时,目标网站检查用户请求的数据记录在本地的最后更新时间与当前时间的时间差,当该时间差<预定值,则以本地的数据记录返回给用户;当该时间差>预定值,目标网站向数据同步的源网站请求更新, 源网站将用户请求的数据记录的最新内容发送给目标网站,目标网站再返回给用户;所述实时更新策略为用户访问数据同步的目标网站时,目标网站总是向数据同步的源网站请求更新,源网站将用户请求的数据记录的最新内容发送给目标网站,目标网站再返回给用户;所述增量更新策略为数据同步的源网站将每条数据记录的最后更新时间作为时间戳,每条数据记录的时间戳的变化总是单向递增的;源网站仅将目标网站上时间戳与源网站上时间戳不一致的数据记录单向同步到目标网站;所述后台增量更新策略为数据同步的源网站将每条数据记录的最后更新时间作为时间戳,每条数据记录的时间戳的变化总是单向递增的;目标网站根据本地数据记录的最新时间戳,向源网站请求所述最新时间戳之后发生变更的数据记录的标志字段;每条数据记录的标志字段至少记载了该条数据记录的时间戳和更新状态;所述最新时间戳之后发生变更的数据记录的标志字段从源网站同步到目标网站后,这些标志字段标记为“等待更新”;目标网站再将所有标记为“等待更新”的数据记录分一次或多次、单线程或多线程地从源网站进行数据更新。本发明针对互联网站数据的各种类型,给出了不同的数据同步策略,各个数据同步策略均使用每条数据记录的最后更新时间作为判别是否需要进行同步的依据,从而具有较大的适应性。其中的后台增量更新策略,特别适合大量数据的持续同步,可以较好地兼顾数据流量的极小化和数据同步效率的极大化。


图1是互联网站数据单向同步的应用示例示意图;图2是本发明后台增量更新策略的示意图。
具体实施例方式本发明将互联网站数据按照如下几种分类方法进行分类首先,根据单条数据记录的大小进行分类,分为大容量数据、中容量数据和小容量数据。例如,当单条数据记录> 100KB,则归类为大容量数据;当单条数据记录>20KB且 < 100KB,则归类为中容量数据;当单条数据记录< 20KB,则归类为小容量数据。以文学网站为例,文学作品的章节数据通常属于大容量数据或中容量数据;每个账户的书架收藏信息、好友信息通常属于小容量数据。其次,根据单条数据记录的更新频率进行分类,分为快速更新数据、中速更新数据和慢速更新数据。例如,当单条数据记录的更新频率< 1分钟,则归类为快速更新数据;当单条数据记录的更新频率>1分钟且小时,则归类为中速更新数据;当单条数据记录的更新频率 > 1小时,则归类为慢速更新数据。仍以文学网站为例,对文学作品的评论数据、每个账户的书架收藏信息、好友信息通常属于快速更新数据或中速更新数据;小说排行榜、书籍属性、作者信息通常属于慢速更新数据。再次,根据单条数据记录的用户访问的实时性要求,分为高实时性要求数据和低实时性要求数据。例如,当用户访问某条数据记录时,希望该条数据记录的最后更新时间与访问时间的差值< 1分钟,则将该条数据记录归类为高实时性要求数据。当用户访问某条数据记录时,可以接受该条数据记录的最后更新时间与访问时间的差值> 1分钟,则将该条数据记录归类为低实时性要求数据。仍以文学网站为例,文学作品的章节数据通常属于高实时性要求数据,用户希望访问任何镜像站点都可以得到与原始站点一样新的内容;文学作品的评论数据通常属于低实时性要求数据,允许在互联网站数据同步时存在一定的时间延迟。值得注意的是,上述对于互联网站的数据记录的大小、更新频率、用户访问的实时性要求进行分类的数值仅为示例性质,本领域的技术人员可根据具体应用环境自行决定分类数值。本发明还将互联网站数据单向同步的方法分为如下几种策略其一,短周期缓存策略。当用户访问数据同步的目标网站时,目标网站检查用户请求的数据记录在本地的最后更新时间与当前时间的时间差,当该时间差<预定值,则以本地存储的用户请求的数据记录返回给用户。当该时间差>预定值,目标网站向数据同步的源网站请求更新,源网站将用户请求的数据记录的最新内容发送给目标网站,目标网站再返回给用户。本文件中将该策略记为IDU-1。其二,实时更新策略。当用户访问数据同步的目标网站时,目标网站总是向数据同步的源网站请求更新,源网站将用户请求的数据记录的最新内容发送给目标网站,目标网站再返回给用户。本文件中将该策略记为IDU-2。其三,增量更新策略。数据同步的源网站将互联网站数据的每条数据记录的最后更新时间作为时间戳。显然,每条数据记录的时间戳的变化总是单向递增的。源网站仅将目标网站上时间戳与源网站上时间戳不一致的数据记录发送给目标网站,并取代目标网站上时间戳较早的同条数据记录。本文件中将该策略记为SDS。其四,后台增量更新策略。数据同步的源网站将互联网站数据的每条数据记录的最后更新时间作为时间戳。显然,每条数据记录的时间戳的变化总是单向递增的。目标网站根据来自于同一个源网站的、且存储在本地的所有数据记录的时间戳中最新的一个时间戳,向该源网站请求所述最新时间戳之后发生变更的数据记录的标志字段;每条数据记录的标志字段至少记载了该条数据记录的时间戳和更新状态;所述最新时间戳之后发生变更的数据记录的标志字段同步从该源网站同步到目标网站后,这些标志字段标记为“等待更新”;目标网站再将所有标志字段为“等待更新”的数据记录实时或延时地、分一次或多次地、单线程或多线程地从源网站进行数据更新。目标网站接收到更新的数据记录后,取代本地存储的同条数据记录,并将该条数据记录的标志字段取消“等待更新”的标记。本文件中将该策略记为SSID-DC。针对不同的数据记录类型和单向同步策略,本发明进行如下安排表1 对于高实时性要求数据记录
权利要求
1.一种互联网站数据的单向同步方法,其特征是,该方法为将互联网站数据的每条数据记录根据大小分为大容量数据、中容量数据和小容量数据;还将互联网站数据的每条数据记录根据更新频率分为快速更新数据、中速更新数据和慢速更新数据;还将互联网站数据的每条数据记录根据用户访问的实时性要求,分为高实时性要求数据和低实时性要求数据;当数据记录同时属于高实时性要求数据和快速更新数据,则采用实时更新策略; 当数据记录同时属于高实时性要求数据和中速更新数据,则采用短周期缓存策略; 当数据记录同时属于高实时性要求数据、慢速更新数据和大容量数据或中容量数据, 则采用短周期缓存策略或后台增量更新策略;当数据记录同时属于高实时性要求数据、慢速更新数据和小容量数据,则采用短周期缓存策略;当数据记录同时属于低实时性要求数据和大容量数据或中容量数据,则采用短周期缓存策略或后台增量更新策略;当数据记录同时属于低实时性要求数据和小容量数据,则采用短周期缓存策略或实时更新策略或增量更新策略;所述短周期缓存策略为用户访问数据同步的目标网站时,目标网站检查用户请求的数据记录在本地的最后更新时间与当前时间的时间差,当该时间差 < 预定值,则以本地的数据记录返回给用户;当该时间差>预定值,目标网站向数据同步的源网站请求更新,源网站将用户请求的数据记录的最新内容发送给目标网站,目标网站再返回给用户;所述实时更新策略为用户访问数据同步的目标网站时,目标网站总是向数据同步的源网站请求更新,源网站将用户请求的数据记录的最新内容发送给目标网站,目标网站再返回给用户;所述增量更新策略为数据同步的源网站将每条数据记录的最后更新时间作为时间戳,每条数据记录的时间戳的变化总是单向递增的;源网站仅将目标网站上时间戳与源网站上时间戳不一致的数据记录单向同步到目标网站;所述后台增量更新策略为数据同步的源网站将每条数据记录的最后更新时间作为时间戳,每条数据记录的时间戳的变化总是单向递增的;目标网站根据本地数据记录的最新时间戳,向源网站请求所述最新时间戳之后发生变更的数据记录的标志字段;每条数据记录的标志字段至少记载了该条数据记录的时间戳和更新状态;所述最新时间戳之后发生变更的数据记录的标志字段从源网站同步到目标网站后,这些标志字段标记为“等待更新”; 目标网站再将所有标记为“等待更新”的数据记录分一次或多次、单线程或多线程地从源网站进行数据更新。
2.根据权利要求1所述的互联网站数据的单向同步方法,其特征是,所述后台增量更新策略具体包括如下步骤第1步,数据同步的源网站将所有需要同步的数据记录的最后更新时间作为每条数据记录的时间戳;第2步,数据同步的目标网站检查来自源网站、且在目标网站上存储的所有数据记录的时间戳,将最新的时间戳记为Tl,Tl称为目标网站对源网站的最后同步时间; 目标网站请求源网站给出Tl时刻之后发生变化的数据记录的标志字段; 每条数据记录都具有标志字段,标志字段中至少记录了该条数据记录的时间戳和更新状态;更新状态至少包括“等待更新”和“无”两种;第3步,源网站将需要同步给目标网站的所有数据记录,按时间戳的先后顺序排序,并将所有时间戳在Tl之后的数据记录的条数记为M ;源网站将同一秒内发生变化的数据记录的最大条数记为m;源网站将源网站和目标网站之间的网络可以稳定传输的最大数据包长度除以待同步的数据记录的标志字段的长度,记为N2 ; 设NSm和N2中的较小值;源网站将所述M条数据记录中的第1条至第K条数据记录的标志字段发送给目标网站,目标网站收到这些标志字段后,将这些标志字段中的更新状态设为“等待更新”;所述K < M,且K < N,且第K条数据记录的时间戳和第K+1条数据记录的时间戳的差值> 1秒;第4步,重复第3步,直至所述M条数据记录的标志字段全部从源网站发送给目标网站,且目标网站对所述M条数据记录的标志字段的更新状态全部设为“等待更新”;第5步,目标网站向源网站请求对所有标志字段的更新状态为“等待更新”的数据记录进行同步;目标网站接收到源网站发来的数据记录后,用其来取代本地存储的同条数据记录,并将这些数据记录的标志字段中的更新状态由“等待更新”改为“无”。
全文摘要
本发明公开了一种互联网站数据的单向同步方法,针对互联网站数据的数据记录的大小、更新频率、用户访问的实时性要求进行分类,并对分类后的每种数据给出了不同的数据同步策略,包括短周期缓存策略、实时更新策略、增量更新策略、后台增量更新策略。本发明使用每条数据记录的最后更新时间作为判别是否需要进行同步的依据,从而具有较大的适应性。其中的后台增量更新策略,特别适合大量数据的持续同步,可以较好地兼顾数据流量的极小化和数据同步效率的极大化。
文档编号H04L29/08GK102202072SQ20101013118
公开日2011年9月28日 申请日期2010年3月23日 优先权日2010年3月23日
发明者叶伟, 李文华 申请人:盛霆信息技术(上海)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1