跨境数据同步的方法、系统,以及境内和境外数据中心与流程

文档序号:12809728阅读:3763来源:国知局
跨境数据同步的方法、系统,以及境内和境外数据中心与流程

本申请涉及跨境数据同步技术领域,尤其涉及一种跨境数据同步的方法、系统,以及境内和境外数据中心。



背景技术:

目前在海外市场,seo(搜索引擎优化)仍是拓展流量的重要渠道,也是国内网站迈向国际,向海外拓展流量的重要途径。

但是跨境seo存在一个很严峻的问题:网络不稳定,且性能差(网络延迟大),网络访问超时现象比较严重。从后台统计的数据来看,海外访问国内网站基本在1.5s以上,而且在面临国际热点事件时,容易出现网络拥塞,加剧网络超时现象。网络性能是影响用户体验的重要原因,同时也是影响seo的关键因素之一,尤其是搜索引擎的爬虫资源有限,性能问题严重影响爬虫的爬取、收录以及最后的排名。

针对以上跨境网络性能和稳定性差的问题,目前存在两种方案:

第一种,在全球各地实现本地单元化部署,这种方案能够彻底解决网络性能问题。但对于很多大型网站,其核心系统,包括数据中心等均部署在中心机房,要实现在异地尤其是跨境单元化部署,相当于在异地复制一套数据中心,且要实现异地双活同步方案,部署时间长,部署成本非常之高。在海外拓展业务代价太大,尤其在海外业务初始拓展阶段,难以接受如此高的成本。

第二种,缓存方案,目前cdn(contentdeliverynetwork,内容分发网络)缓存方案已经非常成熟,只要在全球各地部署上cdn节点,推送数据到各地的cdn节点,可以实现用户访问就近cdn缓存,从而避免访问跨国网络的问题。但这种方案需要消耗大量cdn缓存,而且cdn缓存方案是针对重要业务的热点访问内容才具有较好的缓存效果,对于seo这种大量长尾的网页内容,基本没有热点,且初始业务量极低,采用cdn缓存方案的效果差且成本非常高。



技术实现要素:

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本申请的一个目的在于提出一种跨境数据同步的方法,该方法能够在实现跨境 数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。

本申请的第二个目的在于提出一种跨境数据同步的系统。

本申请的第三个目的在于提出一种跨境数据同步的方法。

本申请的第四个目的在于提出一种境内数据中心。

本申请的第五个目的在于提出一种境外数据中心。

为了实现上述目的,本申请第一方面实施例的跨境数据同步的方法,包括以下步骤:境内数据中心检测第一待同步数据的数据类型;如果所述数据类型为网页数据,则所述境内数据中心获取所述第一待同步数据的同步规则;以及所述境内数据中心将所述同步规则发送至境外数据中心,其中,所述境外数据中心根据所述同步规则从所述境内数据中心抓取所述第一待同步数据。

根据本申请实施例的跨境数据同步的方法,首先境内数据中心检测第一待同步数据的数据类型,如果数据类型为网页数据,则境内数据中心获取第一待同步数据的同步规则,而后境内数据中心将同步规则发送至境外数据中心,其中,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。因此,该方法能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。

为了实现上述目的,本申请第二方面实施例的跨境数据同步的系统,包括境内数据中心和境外数据中心,其中,所述境内数据中心,用于检测第一待同步数据的数据类型,并在所述数据类型为网页数据时,获取所述第一待同步数据的同步规则,并将所述同步规则发送至境外数据中心;所述境外数据中心,用于根据所述同步规则从所述境内数据中心抓取所述第一待同步数据。

根据本申请实施例的跨境数据同步的系统,首先通过境内数据中心检测第一待同步数据的数据类型,并在数据类型为网页数据时,获取第一待同步数据的同步规则,并将同步规则发送至境外数据中心,而后境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。因此,该系统能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。

为了实现上述目的,本申请第三方面实施例的跨境数据同步的方法,包括以下步骤:境外数据中心接收境内数据中心发送的同步规则;所述境外数据中心根据所述同步规则从境内数据中心抓取第一待同步数据,其中,所述第一待同步数据的数据类型为网页数据。

根据本申请实施例的跨境数据同步的方法,首先境外数据中心接收境内数据中心发送 的同步规则,并根据同步规则从境内数据中心抓取第一待同步数据,其中,第一待同步数据的数据类型为网页数据。因此,该方法能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。

为了实现上述目的,本申请第四方面实施例的境内数据中心,包括:检测模块,用于检测第一待同步数据的数据类型;同步规则获取模块,用于在所述数据类型为网页数据时,获取所述第一待同步数据的同步规则;以及第一发送模块,用于将所述同步规则发送至境外数据中心,其中,所述境外数据中心根据所述同步规则从所述境内数据中心抓取所述第一待同步数据。

根据本申请实施例的境内数据中心,首先通过检测模块检测第一待同步数据的数据类型,而后通过同步规则获取模块在数据类型为网页数据时,获取第一待同步数据的同步规则,最后通过第一发送模块将同步规则发送至境外数据中心,其中,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。因此,该境内数据中心能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。

为了实现上述目的,本申请第五方面实施例的境外数据中心,包括:第一接收模块,用于接收境内数据中心发送的同步规则;抓取模块,用于根据所述同步规则从境内数据中心抓取第一待同步数据,其中,所述第一待同步数据的数据类型为网页数据。

根据本申请实施例的境外数据中心,首先通过第一接收模块接收境内数据中心发送的同步规则,而后抓取模块根据同步规则从境内数据中心抓取第一待同步数据,其中,第一待同步数据的数据类型为网页数据。因此,该境外数据中心能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。

本申请附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

图1是根据本申请一个实施例的跨境数据同步的方法的流程图。

图2是根据本申请一个实施例的跨境数据同步系统示意图。

图3是根据本申请第二个实施例的跨境数据同步的方法的流程图。

图4是根据本申请一个实施例的seo词库数据同步示意图。

图5是根据本申请第三个实施例的跨境数据同步的方法的流程图。

图6是根据本申请第四个实施例的跨境数据同步的方法的流程图。

图7是根据本申请一个实施例的跨境数据同步的系统的方框示意图。

图8是根据本申请另一个实施例的跨境数据同步的系统的方框示意图

图9是根据本申请又一个实施例的跨境数据同步的系统的方框示意图

图10是根据本申请第五个实施例的跨境数据同步的方法的流程图。

图11是根据本申请第六个实施例的跨境数据同步的方法的流程图。

图12是根据本申请第七个实施例的跨境数据同步的方法的流程图。

图13是根据本申请一个实施例的境内数据中心的方框示意图。

图14是根据本申请另一个实施例的境内数据中心的方框示意图。

图15是根据本申请一个实施例的境外数据中心的方框示意图。

图16是根据本申请另一个实施例的境外数据中心的方框示意图。

图17是根据本申请又一个实施例的境外数据中心的方框示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。

下面参照附图来描述根据本申请实施例提出的跨境数据同步的方法、系统,以及境内和境外数据中心。

图1是根据本申请一个实施例的跨境数据同步的方法的流程图。

如图1所示,该跨境数据同步的方法包括以下步骤:

s1,境内数据中心检测第一待同步数据的数据类型。

其中,上述数据类型可包括网页数据、文件数据和结构化数据等。

其中,需要理解的是,该实施例中所说的网页数据可包括html(超级文本标记语言)内容,其中,html内容可包括html(超级文本标记语言)页面中的文本语言、超链接文字和超链接图片等。

其中,需要理解的是,该实施例中所说的文件数据可包括word文档、pdf文档、excel文档和ppt文档等,其中上述文档还可被称作为非结构数据。

其中,需要理解的是,该实施例中所说的结构化数据可包括数据库数据。

s2,如果数据类型为网页数据,则境内数据中心获取第一待同步数据的同步规则。

具体地,当境内数据中心检测出第一待同步数据的数据类型为网页数据类型时,境内数据中心将获取第一待同步数据的同步规则并选择合适的传送通道。

其中,需要理解的是,该实施例中所述的传输通道可包括oss(openstorageservice,阿里云开放存储服务)、filesync(文件同步工具)和drc(datasourcecontrol,数据源控制信道)等,其中,oss主要用于传送非实时数据,filesync主要用于同步实时数据和关键数据,drc主要用于结构化数据的同步。

s3,境内数据中心将同步规则发送至境外数据中心,其中,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。

在本申请的一个实施例中,境内数据中心通过境内数据中心和境外数据中心之间的专线将同步规则发送至境外数据中心。

具体地,境内数据中心通过专线将同步规则发送至境外数据中心,而后,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。

例如,第一待同步数据为在线html内容(网页数据)时,如图2所示,可通过定时系统设置定时任务,美国机房(境外数据中心)根据境内数据中心发送的同步规则主动向杭州/上海机房(境内数据中心)拉取在线html内容数据,境外数据中心通过爬虫系统从国内爬取核心的seo(搜索引擎优化)的html内容。

在本申请的一个实施例中,如图3所示,上述跨境数据同步的方法还可包括:

s4,如果数据类型为文件数据,则境内数据中心通过云存储服务器将第一待同步数据发送至境外数据中心。

其中,需要理解的是,上述云存储服务器可以是oss(openstorageservice,阿里云开放存储服务),即传输通道。

具体地,当境内数据中心检测出第一待同步数据的数据类型为文件数据类型时,境内数据中心将可以对该数据类型进行预处理,并通过云存储服务器将第一待同步数据发送至境外数据中心,以便实现第一待同步数据的同步。

例如,如图4所示,首先杭州数据中心(境内数据中心)检测seo词库(第一待同步数据)的类型,确定seo词库是个约2gb的文件,然后对seo词库进行分割(按字母进行分区)压缩,而后上传到美国数据中心(境外数据中心)的oss节点(第二云存储服务器),以便实现第一待同步数据的同步。

进一步而言,在本申请的另一个实施例中,如图5所示,境内数据中心通过云存储服务器将第一待同步数据发送至境外数据中心的具体过程可包括:

s41,境内数据中心将第一待同步数据发送至与境外数据中心处于同一境内的第二云存储服务器。

其中,需要理解的是,上述第二云存储服务器可以是oss(openstorageservice,阿里云开放存储服务)的一个节点。

s42,境内数据中心通知境外数据中心从第二云存储服务器中抓取第一待同步数据。

例如,如图4所示,当分割压缩后的seo词库上传到美国数据中心(境外数据中心)的oss节点(第二云存储服务器)时,杭州数据中心(境内数据中心)通知国际系统(境外数据中心),国际系统收到通知后去拉取数据并存入国际本地存储。

其中,需要理解的是,本实施例中所说的国际(境外)本地存储可以是分别由4台机器组成的数据同步集群和4台机器组成的本地化服务集群。在国内(境内),同样也可有一个数据同步小集群,以实现与国际数据同步集群的数据同步。并依托于国内外的两个数据同步集群,实现从国内数据中心推送实时数据到海外集群,而海外集群则通过拉取方式获取非实时数据,并且推送实时数据回国内(例如,日志回流监控等)。以此实现跨境数据同步。

在本申请的一个实施例中,如图6所示,上述跨境数据同步的方法还可包括:

s43,境外数据中心将第二待同步数据发送至与境内数据中心处于同一境内的第一云存储服务器。

其中,需要理解的是,上述第一云存储服务器可以是oss(openstorageservice,阿里云开放存储服务)的一个节点。

s44,境外数据中心通知境内数据中心从第一云存储服务器中抓取第二待同步数据。

例如,如图4所示,在国际系统(境外数据中心)将分割压缩后的seo词库拉取并存入国际本地存储的同时,国际系统再收集到增量词库(即第二待同步数据),而后将增量词库反向推送到国内数据中心(境内数据中心),以此实现跨境数据同步。

根据本申请实施例的跨境数据同步的方法,首先境内数据中心检测第一待同步数据的数据类型,如果数据类型为网页数据,则境内数据中心获取第一待同步数据的同步规则,而后境内数据中心将同步规则发送至境外数据中心,其中,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。因此,该方法能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。

为了实现上述实施例,本申请还提出一种跨境数据同步的系统。

图7是根据本申请一个实施例的跨境数据同步的系统的方框示意图。

如图7所示,该跨境数据同步的系统包括境内数据中心100和境外数据中心200,其中,

境内数据中心100用于检测第一待同步数据的数据类型,并在数据类型为网页数据时,获取第一待同步数据的同步规则,并将同步规则发送至境外数据中心200。

其中,上述数据类型可包括网页数据、文件数据和结构化数据等。

其中,需要理解的是,该实施例中所说的网页数据可包括html(超级文本标记语言) 内容,其中,html内容可包括html(超级文本标记语言)页面中的文本语言、超链接文字和超链接图片等。

其中,需要理解的是,该实施例中所说的文件数据可包括word文档、pdf文档、excel文档和ppt文档等,其中上述文档还可被称作为非结构数据。

其中,需要理解的是,该实施例中所说的结构化数据可包括数据库数据。

具体地,当境内数据中心100检测出第一待同步数据的数据类型为网页数据类型时,境内数据中心100将获取第一待同步数据的同步规则并选择合适的传送通道,并将同步规则发送至境外数据中心200。

其中,需要理解的是,该实施例中所述的传输通道可包括oss(openstorageservice,阿里云开放存储服务)、filesync(文件同步工具)和drc(datasourcecontrol,数据源控制信道)等,其中,oss主要用于传送非实时数据,filesync主要用于同步实时数据和关键数据,drc主要用于结构化数据的同步。

境外数据中心200用于根据同步规则从境内数据中心抓取第一待同步数据。

在本申请的一个实施例中,境内数据中心100通过境内数据中心100和境外数据中心200之间的专线将同步规则发送至境外数据中心200。

具体地,境内数据中心100通过专线将同步规则发送至境外数据中心200,而后,境外数据中心200根据同步规则从境内数据中心100抓取第一待同步数据。

例如,第一待同步数据为在线html内容(网页数据)时,如图2所示,可通过定时系统设置定时任务,美国机房(境外数据中心200)根据境内数据中心100发送的同步规则主动向杭州/上海机房(境内数据中心100)拉取在线html内容数据,境外数据中心200通过爬虫系统从国内爬取核心的seo(搜索引擎优化)的html内容。

在本申请的一个实施例中,如图8所示,上述跨境数据同步的系统还可包括云存储服务器300,其中,境内数据中心100在数据类型为文件数据时,通过云存储服务器将第一待同步数据发送至境外数据中心200。

其中,需要理解的是,上述云存储服务器300可以是oss(openstorageservice,阿里云开放存储服务),即传输通道。

具体地,当境内数据中心100检测出第一待同步数据的数据类型为文件数据类型时,境内数据中心100将可以对该数据类型进行预处理,并通过云存储服务器300将第一待同步数据发送至境外数据中心,以便实现第一待同步数据的同步。

例如,如图4所示,首先杭州数据中心(境内数据中心100)检测seo词库(第一待同步数据)的类型,确定seo词库是个约2gb的文件,然后对seo词库进行分割(按字母进行分区)压缩,而后上传到美国数据中心(境外数据中心200)的oss节点(第二云存储 服务器320)。以便实现第一待同步数据的同步。

进一步而言,在本申请的一个实施例中,如图9所示,云存储服务器300包括与境内数据中心100处于同一境内的第一云存储服务器310,以及与境外数据中心200处于同一境内的第二云存储服务器320。

其中,需要理解的是,上述第一云存储服务器310可以是oss(openstorageservice,阿里云开放存储服务)的一个节点。

其中,需要理解的是,上述第二云存储服务器320可以是oss(openstorageservice,阿里云开放存储服务)的一个节点。

例如,如图4所示,当分割压缩后的seo词库上传到美国数据中心(境外数据中心200)的oss节点(第二云存储服务器320)时,杭州数据中心(境内数据中心100)通知国际系统(境外数据中心200),国际系统收到通知后去拉取数据并存入国际本地存储。

其中,需要理解的是,本实施例中所说的国际(境外)本地存储可以是分别由4台机器组成的数据同步集群和4台机器组成的本地化服务集群。在国内(境内),同样也可有一个数据同步小集群,以实现与国际数据同步集群的数据同步。并依托于国内外的两个数据同步集群,实现从国内数据中心推送实时数据到海外集群,而海外集群则通过拉取方式获取非实时数据,并且推送实时数据回国内(例如,日志回流监控等)。以此实现跨境数据同步。

在本申请的一个实施例中,境内数据中心100还用于将第一待同步数据发送至与第二云存储服务器320,并通知境外数据中心200从第二云存储服务器320中抓取第一待同步数据。

另外,境外数据中心200还用于将第二待同步数据发送至与第一云存储服务器310,并通知境内数据中心100从第一云存储服务器310中抓取第二待同步数据。

例如,如图4所示,在国际系统(境外数据中心)将分割压缩后的seo词库拉取并存入国际本地存储的同时,国际系统再收集到增量词库(即第二待同步数据),而后将增量词库反向推送到国内数据中心(境内数据中心100),以此实现跨境数据同步。

根据本申请实施例的跨境数据同步的系统,首先通过境内数据中心检测第一待同步数据的数据类型,并在数据类型为网页数据时,获取第一待同步数据的同步规则,并将同步规则发送至境外数据中心,而后境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。因此,该系统能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。

为了实现上述实施例,本申请还提出一种跨境数据同步的方法。

图10是根据本申请第五个实施例的跨境数据同步的方法的流程图。

如图10所示,该跨境数据同步的方法包括以下步骤:

s101,境外数据中心接收境内数据中心发送的同步规则。

s102,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据,其中,第一待同步数据的数据类型为网页数据。

其中,上述数据类型可包括网页数据、文件数据和结构化数据等。

其中,需要理解的是,该实施例中所说的网页数据可包括html(超级文本标记语言)内容,其中,html内容可包括html(超级文本标记语言)页面中的文本语言、超链接文字和超链接图片等。

其中,需要理解的是,该实施例中所说的文件数据可包括word文档、pdf文档、excel文档和ppt文档等,其中上述文档还可被称作为非结构数据。

其中,需要理解的是,该实施例中所说的结构化数据可包括数据库数据。

具体地,当境内数据中心检测出第一待同步数据的数据类型为网页数据类型时,境内数据中心将获取第一待同步数据的同步规则,并选择合适的传送通道。

其中,需要理解的是,该实施例中所述的传输通道可包括oss(openstorageservice,阿里云开放存储服务)、filesync(文件同步工具)和drc(datasourcecontrol,数据源控制信道)等,其中,oss主要用于传送非实时数据,filesync主要用于同步实时数据和关键数据,drc主要用于结构化数据的同步。

在本申请的一个实施例中,境外数据中心通过境内数据中心和境外数据中心之间的专线接收境内数据中心发送的同步规则。

具体地,境内数据中心通过专线将同步规则发送至境外数据中心,而后,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。

例如,第一待同步数据为在线html内容(网页数据)时,如图2所示,可通过定时系统设置定时任务,美国机房(境外数据中心)根据境内数据中心发送的同步规则主动向杭州/上海机房(境内数据中心)拉取在线html内容数据,境外数据中心通过爬虫系统从国内爬取核心的seo(搜索引擎优化)的html内容。

在本申请的一个实施例中,上述跨境数据同步的方法还可包括,如果数据类型为文件数据,则境外数据中心通过云存储服务器接收第一待同步数据。

其中,需要理解的是,上述云存储服务器可以是oss(openstorageservice,阿里云开放存储服务),即传输通道。

具体地,当境内数据中心检测出第一待同步数据的数据类型为文件数据类型时,境内数据中心将可以对该数据类型进行预处理,并通过云存储服务器将第一待同步数据发送至 境外数据中心,以便实现第一待同步数据的同步。

例如,如图4所示,首先杭州数据中心(境内数据中心)检测seo词库(第一待同步数据)的类型,确定seo词库是个约2gb的文件,然后对seo词库进行分割(按字母进行分区)压缩,而后上传到美国数据中心(境外数据中心)的oss节点(第二云存储服务器)。以便实现第一待同步数据的同步。

进一步而言,在本申请的一个实施例中,如图11所示,境外数据中心通过云存储服务器接收第一待同步数据的具体过程可包括:

s201,境外数据中心接收境内数据中心发送的通知。

s202,境外数据中心从第二云存储服务器中抓取第一待同步数据,其中,第二云存储服务器与境外数据中心处于同一境内。

其中,需要理解的是,上述第二云存储服务器可以是oss(openstorageservice,阿里云开放存储服务)的一个节点。

例如,如图4所示,当分割压缩后的seo词库上传到美国数据中心(境外数据中心)的oss节点(第二云存储服务器)时,杭州数据中心(境内数据中心)通知国际系统(境外数据中心),国际系统收到通知后去拉取数据并存入国际本地存储。

其中,需要理解的是,本实施例中所说的国际(境外)本地存储可以是分别由4台机器组成的数据同步集群和4台机器组成的本地化服务集群。在国内(境内),同样也可有一个数据同步小集群,以实现与国际数据同步集群的数据同步。并依托于国内外的两个数据同步集群,实现从国内数据中心推送实时数据到海外集群,而海外集群则通过拉取方式获取非实时数据,并且推送实时数据回国内(例如,日志回流监控等)。以此实现跨境数据同步。

在本申请的一个实施例中,如图12所示,上述跨境数据同步的方法还可包括:

s203,境外数据中心将第二待同步数据发送至与境内数据中心处于同一境内的第一云存储服务器。

其中,需要理解的是,上述第一云存储服务器可以是oss(openstorageservice,阿里云开放存储服务)的一个节点。

s204,境外数据中心通知境内数据中心从第一云存储服务器中抓取第二待同步数据。

例如,如图4所示,在国际系统(境外数据中心)将分割压缩后的seo词库拉取并存入国际本地存储的同时,国际系统再收集到增量词库(即第二待同步数据),而后将增量词库反向推送到国内数据中心(境内数据中心),以此实现跨境数据同步。

根据本申请实施例的跨境数据同步的方法,首先境外数据中心接收境内数据中心发送的同步规则,并根据同步规则从境内数据中心抓取第一待同步数据,其中,第一待同步数 据的数据类型为网页数据。因此,该方法能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。

为了实现上述实施例,本申请还提出一种境内数据中心。

图13是根据本申请一个实施例的境内数据中心的方框示意图。

如图13所示,该境内数据中心包括检测模块10、同步规则获取模块20和第一发送模块30。

具体地,检测模块10用于检测第一待同步数据的数据类型。

其中,上述数据类型可包括网页数据、文件数据和结构化数据等。

其中,需要理解的是,该实施例中所说的网页数据可包括html(超级文本标记语言)内容,其中,html内容可包括html(超级文本标记语言)页面中的文本语言、超链接文字和超链接图片等。

其中,需要理解的是,该实施例中所说的文件数据可包括word文档、pdf文档、excel文档和ppt文档等,其中上述文档还可被称作为非结构数据。

其中,需要理解的是,该实施例中所说的结构化数据可包括数据库数据。

同步规则获取模块20用于在数据类型为网页数据时,获取第一待同步数据的同步规则。

具体地,当检测模块10检测出第一待同步数据的数据类型为网页数据类型时,同步规则获取模块20及获取第一待同步数据的同步规则,并选择合适的传输通道。

其中,需要理解的是,该实施例中所述的传输通道可包括oss(openstorageservice,阿里云开放存储服务)、filesync(文件同步工具)和drc(datasourcecontrol,数据源控制信道)等,其中,oss主要用于传送非实时数据,filesync主要用于同步实时数据和关键数据,drc主要用于结构化数据的同步。

第一发送模块30用于将同步规则发送至境外数据中心,其中,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。

在本申请的一个实施例中,第一发送模块30通过境内数据中心和境外数据中心之间的专线将同步规则发送至境外数据中心。

具体地,第一发送模块30通过专线将同步规则发送至境外数据中心,而后,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。

例如,第一待同步数据为在线html内容(网页数据)时,如图2所示,可通过定时系统设置定时任务,美国机房(境外数据中心)根据境内数据中心发送的同步规则主动向杭州/上海机房(境内数据中心)拉取在线html内容数据,境外数据中心通过爬虫系统从国内爬取核心的seo(搜索引擎优化)的html内容。

在本申请的一个实施例中,如图14所示,上述境内数据中心还包括,第二发送模块40用于在数据类型为文件数据时,通过云存储服务器将第一待同步数据发送至境外数据中心。

其中,需要理解的是,上述云存储服务器可以是oss(openstorageservice,阿里云开放存储服务),即传输通道。

具体地,当检测模块10检测出第一待同步数据的数据类型为文件数据类型时,第二发送模块40可以对该数据类型进行预处理,并通过云存储服务器将第一待同步数据发送至境外数据中心,以便实现第一待同步数据的同步。

例如,如图4所示,首先杭州数据中心(境内数据中心)检测seo词库(第一待同步数据)的类型,确定seo词库是个约2gb的文件,然后对seo词库进行分割(按字母进行分区)压缩,而后上传到美国数据中心(境外数据中心)的oss节点(第二云存储服务器)。以便实现第一待同步数据的同步。

在本申请的一个实施例中,第二发送模块40将第一待同步数据发送至与境外数据中心处于同一境内的第二云存储服务器,并通知境外数据中心从第二云存储服务器中抓取第一待同步数据。

其中,需要理解的是,上述第二云存储服务器可以是oss(openstorageservice,阿里云开放存储服务)的一个节点。

例如,如图4所示,当分割压缩后的seo词库上传到美国数据中心(境外数据中心)的oss节点(第二云存储服务器)时,杭州数据中心(境内数据中心)通知国际系统(境外数据中心),国际系统收到通知后去拉取数据并存入国际本地存储。

其中,需要理解的是,本实施例中所说的国际(境外)本地存储可以是分别由4台机器组成的数据同步集群和4台机器组成的本地化服务集群。在国内(境内),同样也可有一个数据同步小集群,以实现与国际数据同步集群的数据同步。并依托于国内外的两个数据同步集群,实现从国内数据中心推送实时数据到海外集群,而海外集群则通过拉取方式获取非实时数据,并且推送实时数据回国内(例如,日志回流监控等)。以此实现跨境数据同步。

根据本申请实施例的境内数据中心,首先通过检测模块检测第一待同步数据的数据类型,而后通过同步规则获取模块在数据类型为网页数据时,获取第一待同步数据的同步规则,最后通过第一发送模块将同步规则发送至境外数据中心,其中,境外数据中心根据同步规则从境内数据中心抓取第一待同步数据。因此,该境内数据中心能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。

为了实现上述实施例,本申请还提出一种境外数据中心。

图15是根据本申请一个实施例的境外数据中心的方框示意图。

如图15所示,该境外数据中心包括第一接收模块50和抓取模块60。

具体地,第一接收模块50用于接收境内数据中心发送的同步规则。

抓取模块60用于根据同步规则从境内数据中心抓取第一待同步数据,其中,第一待同步数据的数据类型为网页数据。

其中,上述数据类型可包括网页数据、文件数据和结构化数据等。

其中,需要理解的是,该实施例中所说的网页数据可包括html(超级文本标记语言)内容,其中,html内容可包括html(超级文本标记语言)页面中的文本语言、超链接文字和超链接图片等。

其中,需要理解的是,该实施例中所说的文件数据可包括word文档、pdf文档、excel文档和ppt文档等,其中上述文档还可被称作为非结构数据。

其中,需要理解的是,该实施例中所说的结构化数据可包括数据库数据。

在本申请的一个实施例中,如图16所示,上述境外数据中心还包括,第二接收模块70用于在数据类型为文件数据时,通过云存储服务器接收第一待同步数据。

其中,需要理解的是,上述云存储服务器可以是oss(openstorageservice,阿里云开放存储服务),即传输通道。

具体地,当境内数据中心检测出第一待同步数据的数据类型为文件数据类型时,第二接收模块70将可以对该数据类型进行预处理,并通过云存储服务器将第一待同步数据发送至境外数据中心,以便实现第一待同步数据的同步。

例如,如图4所示,首先杭州数据中心(境内数据中心)检测seo(searchengineoptimization,搜索引擎优化)词库(第一待同步数据)的类型,确定seo词库是个约2gb的文件,然后对seo词库进行分割(按字母进行分区)压缩,而后上传到美国数据中心(境外数据中心)的oss节点(第二云存储服务器)。以便实现第一待同步数据的同步。

其中,需要理解的是,该实施例中所述的传输通道可包括oss(openstorageservice,阿里云开放存储服务)、filesync(文件同步工具)和drc(datasourcecontrol,数据源控制信道)等,其中,oss主要用于传送非实时数据,filesync主要用于同步实时数据和关键数据,drc主要用于结构化数据的同步。

进一步地,在本申请的一个实施例中,如图17所示,上述境外数据中心还包括,第三发送模块80用于将第二待同步数据发送至与境内数据中心处于同一境内的第一云存储服务器,并通知境内数据中心从第一云存储服务器中抓取第二待同步数据。

其中,需要理解的是,上述第二云存储服务器可以是oss(openstorageservice,阿里云开放存储服务)的一个节点。

例如,如图4所示,当分割压缩后的seo词库上传到美国数据中心(境外数据中心)的oss节点(第二云存储服务器)时,杭州数据中心(境内数据中心)通知国际系统(境外数据中心),国际系统收到通知后去拉取数据并存入国际本地存储。

其中,需要理解的是,本实施例中所说的国际(境外)本地存储可以是分别由4台机器组成的数据同步集群和4台机器组成的本地化服务集群。在国内(境内),同样也可有一个数据同步小集群,以实现与国际数据同步集群的数据同步。并依托于国内外的两个数据同步集群,实现从国内数据中心推送实时数据到海外集群,而海外集群则通过拉取方式获取非实时数据,并且推送实时数据回国内(例如,日志回流监控等)。以此实现跨境数据同步。

根据本申请实施例的境外数据中心,首先通过第一接收模块接收境内数据中心发送的同步规则,而后抓取模块根据同步规则从境内数据中心抓取第一待同步数据,其中,第一待同步数据的数据类型为网页数据。因此,该境外数据中心能够在实现跨境数据同步的前提下,避免实时跨境网络访问导致严重超时的问题,从而减少了海外访问的响应时间,在提升了网络爬虫的效率的同时还增加了网络稳定性。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1