跨数据中心的数据传输处理方法及系统的制作方法

文档序号:7820066阅读:135来源:国知局
跨数据中心的数据传输处理方法及系统的制作方法
【专利摘要】本发明公开一种跨数据中心的数据传输处理方法及系统,其中方法包括:数据产生层产生日志数据并传输至数据中转层;数据中转层在从数据处理层获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,字典库中存储日志数据与标识的唯一对应关系;数据中转层将标识替换后的日志数据传输至数据处理层。进一步的,若数据中转层在字典库中未查找到日志数据的标识,则保留原日志数据并传输至数据处理层;数据处理层将未进行标识替换的日志数据补充至字典库中,并为该日志数据分配标识,存储该日志数据与标识的唯一对应关系,将更新后的字典库同步至数据中转层。本发明可以减少日志数据的传输量,节省传输带宽和传输耗时。
【专利说明】跨数据中心的数据传输处理方法及系统

【技术领域】
[0001]本发明涉及计算机及通信【技术领域】,尤其涉及跨数据中心的数据传输处理方法及系统。

【背景技术】
[0002]Web2.0是一个架构在知识上的环境,人与人之间交互而产生出的内容,经由在服务导向架构中的程序,在这个环境被发布、管理和使用。相比Webl.0,它更注重用户之间的交互和体验。用户是内容的创建者,同时也是使用者。目前Web2.0具有代表性的服务包括:电商网络、资讯类、社区化网络(SNS,如人人网)、微博、微信、来往、健康、滴滴打开等等。Web2.0注重用户交互,一条微博发表后,通过不断转发、评论后,有可能产生GB级别的日志数据,这无疑给日志预传输带来新的挑战。
[0003]图1为现有技术中日志传输架构图。如图1所示,数据从产生端传输到数据处理层的处理方式如下:
[0004]数据产生层产生用户访问日志,对原始日志进行GZ压缩后,以某种传输协议(比如FTP、HTTP等)传输给数据中转层;数据产生层可以由WEB服务器构成,数据中转层可以由数据中转服务器构成;
[0005]如:1386562882.666 14 XXX.XXX.XXX.XXX TCP_MEM_HIT/200 440 GEThttp://www.XXXXX.com/images/xxxxx.gif-NONE/-1mage/gif〃http://www.XXXXX.com/aaaa/440_176147XXX.htm""Mozilla/5.0 (Windows NT 6.1 ;W0W64)AppleffebKit/537.1(KHTML, like Gecko)Chrome/21.0.1180.89 Safari/537.1"-
[0006]这是一条WEB端产生的完整的访问日志,WEB端产生后每5分钟的数据会生成一个.gz包(devicename_20140822.tar.gz),然后通过某种传输协议(比如FTP、HTTP等)上传到数据中转服务器。
[0007]数据中转服务器接收到每5分钟产生的GZ包文件后,对这些文件做汇总后(比如把相同设备上的多个文件做合并后上传:devicename(设备名)相同的多个日志文件合并为一个gz文件)上传到数据处理层(由某种分布式存储或计算集群节点构成)中做统计分析使用。
[0008]然而,现有技术中,由于数据产生层的WEB服务器产生的日志量非常庞大,给传输带来了很高的带宽成本。并且,日志量大则需要的耗时就会很长,日志收集的时效性就会很低。


【发明内容】

[0009]本发明实施例提供一种跨数据中心的数据传输处理方法,用以减少日志数据的传输量,节省传输带宽和传输耗时,该方法包括:
[0010]数据产生层产生日志数据,将日志数据传输至数据中转层;
[0011]数据中转层接收到日志数据后,在从数据处理层获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,所述字典库中存储日志数据与标识的唯一对应关系;
[0012]数据中转层将标识替换后的日志数据传输至数据处理层。
[0013]一个实施例中,若数据中转层在所述字典库中未查找到日志数据的标识,则保留原日志数据并传输至数据处理层;
[0014]数据处理层将未进行标识替换的日志数据补充至字典库中,并为该日志数据分配标识,存储该日志数据与标识的唯一对应关系;
[0015]数据处理层将更新后的字典库同步至数据中转层。
[0016]一个实施例中,数据处理层通过如下方式为日志数据分配标识并在字典库中存储日志数据与标识的唯一对应关系:
[0017]对日志数据取哈希值,将该哈希值与字典库中已有数据进行对比;
[0018]若字典库中不存在该哈希值,则将该日志数据补充至字典库中;
[0019]取字典库中的已有标识的最大值加1,作为该日志数据的标识进行存储。
[0020]一个实施例中,数据处理层建立多个字典库,对不同日志数据与标识的唯一对应关系进行存储;
[0021]数据中转层对包含长字符串信息的日志数据进行标识替换时,从多个字典库中查找长字符串信息中不同日志数据的标识,以标识拼接的方式替换日志数据中的长字符串信肩、O
[0022]一个实施例中,数据处理层建立的字典库中包括组合字段字典库,所述组合字段字典库存储日志数据字段的组合与标识的组合的唯一对应关系。
[0023]本发明实施例还提供一种跨数据中心的数据传输处理系统,用以减少日志数据的传输量,节省传输带宽和传输耗时,该系统包括:
[0024]数据产生层设备、数据中转层设备和数据处理层设备;其中:
[0025]数据产生层设备,用于产生日志数据,将日志数据传输至数据中转层设备;
[0026]数据中转层设备,用于在接收到日志数据后,在从数据处理层设备获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,所述字典库中存储日志数据与标识的唯一对应关系;将标识替换后的日志数据传输至数据处理层设备;
[0027]数据处理层设备,用于提供所述字典库,接收标识替换后的日志数据。
[0028]一个实施例中,数据中转层设备还用于在所述字典库中未查找到日志数据的标识时,保留原日志数据并传输至数据处理层设备;
[0029]数据处理层设备还用于将未进行标识替换的日志数据补充至字典库中,并为该日志数据分配标识,存储该日志数据与标识的唯一对应关系;将更新后的字典库同步至数据中转层设备。
[0030]一个实施例中,数据处理层设备具体用于通过如下方式为日志数据分配标识并在字典库中存储日志数据与标识的唯一对应关系:
[0031]对日志数据取哈希值,将该哈希值与字典库中已有数据进行对比;
[0032]若字典库中不存在该哈希值,则将该日志数据补充至字典库中;
[0033]取字典库中的已有标识的最大值加1,作为该日志数据的标识进行存储。
[0034]一个实施例中,数据处理层设备具体用于建立多个字典库,对不同日志数据与标识的唯一对应关系进行存储;
[0035]数据中转层设备具体用于对包含长字符串信息的日志数据进行标识替换时,从多个字典库中查找长字符串信息中不同日志数据的标识,以标识拼接的方式替换日志数据中的长字符串信息。
[0036]一个实施例中,数据处理层具体用于:建立组合字段字典库,所述组合字段字典库存储日志数据字段的组合与标识的组合的唯一对应关系。
[0037]本发明实施例中,数据产生层产生日志数据,将日志数据传输至数据中转层;数据中转层接收到日志数据后,在从数据处理层获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,所述字典库中存储日志数据与标识的唯一对应关系;数据中转层将标识替换后的日志数据传输至数据处理层;从而通过对日志数据进行标识替换的方式减少了日志数据的传输量,节省了传输带宽和传输耗时。

【专利附图】

【附图说明】
[0038]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0039]图1为现有技术中日志传输架构图;
[0040]图2为本发明实施例中跨数据中心的数据传输处理方法的流程图;
[0041]图3为本发明实施例中字典库同步环路示意图;
[0042]图4为本发明实施例中日志数据标识替换及传输流程图;
[0043]图5为本发明实施例中跨数据中心的数据传输处理方法的具体实例图;
[0044]图6为本发明实施例中字典库生成样例示意图;
[0045]图7为本发明实施例中跨数据中心的数据传输处理系统的示意图。

【具体实施方式】
[0046]为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
[0047]为了减少日志数据的传输量,节省传输带宽和传输耗时,本发明实施例提供一种跨数据中心的数据传输处理方法。图2为本发明实施例中跨数据中心的数据传输处理方法的流程图,如图2所示,该方法中可以包括:
[0048]步骤201、数据产生层产生日志数据,将日志数据传输至数据中转层;
[0049]步骤202、数据中转层接收到日志数据后,在从数据处理层获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,所述字典库中存储日志数据与标识的唯一对应关系;
[0050]步骤203、数据中转层将标识替换后的日志数据传输至数据处理层。
[0051]由图2所示流程可以得知,在本发明实施例中,数据中转层向数据处理层传输日志数据时,与现有技术直接传输日志数据不同,是将日志数据进行了标识替换,显然,传输标识替换后的日志数据比直接传输原日志数据的传输量将大大减少,进而可以节省传输带宽和传输耗时。
[0052]具体实施时,若数据中转层在所述字典库中未查找到日志数据的标识,则保留原日志数据并传输至数据处理层;数据处理层将未进行标识替换的日志数据补充至字典库中,并为该日志数据分配标识,存储该日志数据与标识的唯一对应关系;数据处理层将更新后的字典库同步至数据中转层。
[0053]数据产生层可以包括WEB服务器、终端服务器等数据产生层设备;数据中转层可以包括数据中转服务器等数据中转层设备;数据处理层可以包括分布式集群节点等数据处理层设备。
[0054]下面进一步举例说明。实施例中,在数据中转层与数据处理层之间做字典库的跨节点及数据中心的分布式同步处理。图3为本发明实施例中字典库同步环路示意图。如图3所示,在数据处理层生成多个字典库,并通过任务下发或是数据中转层定时获取的方式,数据中转层获取到数据处理层所生成的字典库,数据中转层根据字典库对日志数据进行标识替换,若找不到日志数据的标识则还是按原始日志数据进行传输。
[0055]例如,图4为本发明实施例中日志数据标识替换及传输流程图,如图4所示,在数据中转服务器,定时从数据处理层获取最新的DICT (字典库)到数据中转服务器,数据中转服务器根据获取的字典库对日志数据(日志条)进行相应的标识替换处理,如果字典库中找到相应的标识则替换,如果字典库中没有相应的标识则保留原有日志数据进行传输。
[0056]再举例说明整体数据处理流程。图5为本发明实施例中跨数据中心的数据传输处理方法的具体实例图。如图5所示,本例中,原始日志数据由多个终端服务器产生,终端服务器产生日志数据后通过某种协议(比如FTP、HTTP等)传输到数据中转层做往数据处理层传输的准备;在数据中转层接收到日志数据后,对日志数据进行标识的匹配替换与压缩(第一次传输时没有字典库,则原日志数据只做压缩后传输,没有相应的标识替换),在数据处理层接收到日志数据后首先做存储,然后对接收到的日志数据进行字典库的更新,将传输过来没有被标识替换或是识别的数据补充进字典库中,补充完字典库后对补充完的新字典库进行同步,将字典库的增量部分同步到数据中转层,然后供后续传输日志数据时在数据中转层的使用。
[0057]在字典库更新的流程执行之后,刚开始字典库更新会比较频繁,但当日志数据积累到一定程度之后字典库基本上就能达到很高的识别度,字典库更新的量就会越来越少,同时日志数据传输的替换的压缩率就会大大增高,从而减少带宽和传输成本及提高传输的时效性。
[0058]如上述实施例所示,整个日志数据替换与传输是环路系统,可以有效的提高在数据中转层的日志数据替换量,从而使传输日志的数据量迅速下降,就算字典库中没有也可通过回路,很快的补进到字典库中从而促使在后续传输中的替换降低日志传输量,来节省带宽成本及传输耗时。
[0059]以每天收集100G(gz压缩)日志量为例,从数据中转层传输到数据处理层日志量为:100G,在带宽不变的前提下,按现有传输方式,则传输日志量为100G,耗时为10s ;按字典库替换:a、假定所有日志都可按字典库进行替换,则传输日志量为:52G,耗时为52s。时间缩短了 42s,存储空间节省了 48% ;b、如若字典库中的字典不完整,则在第一次传输过程中传输的日志量会比完全替换的日志量大,多出比例按字典库来算,大概在80%?90%,但到每二次字典库更新后则可达到90%的替换率,则传输的日志量为:62G,传输时间为62s,同样对于传输时间与存储的空间也有很大的节省。
[0060]具体实施时,数据处理层可以通过如下方式为日志数据分配标识并在字典库中存储日志数据与标识的唯一对应关系:
[0061]对日志数据取哈希值,将该哈希值与字典库中已有数据进行对比;
[0062]若字典库中不存在该哈希值,则将该日志数据补充至字典库中;
[0063]取字典库中的已有标识的最大值加1,作为该日志数据的标识进行存储。
[0064]具体实施时,数据处理层可以建立多个字典库,对不同日志数据与标识的唯一对应关系进行存储;数据中转层对包含长字符串信息的日志数据进行标识替换时,可以从多个字典库中查找长字符串信息中不同日志数据的标识,以标识拼接的方式替换日志数据中的长字符串信息。
[0065]下面举个例子说明唯一标识ID生成方式。图6为本发明实施例中字典库生成样例示意图,参考图6所示,例如对于日志数据中的URL、Referrer、UserAgent等信息的ID生成方式(字典库的生成方式):
[0066]I)对于URL、Referrer的字典库建立:
[0067]在数据处理层,对日志数据中的RequestUrl和Referrer分别做Hash,然后与字典库中的数据进行对比,如果字典库中不存在,则把这打条新的RequestUrl添加进字典库并通过对原字典库取ID最大值然后给加I存入到唯一 ID中:MAX (RequestUrlId)+1。
[0068]如:1386562882.666 14 XXX.XXX.XXX.XXX TCP_MEM_HIT/200 440 GEThttp://www.XXXXX.com/images/xxxxx.gif-NONE/_image/gif〃http://www.XXXXX.com/aaaa/440_176147XXX.htm""Mozilla/5.0 (Windows NT 6.1 ;W0W64)AppleffebKit/537.1(KHTML, like Gecko)Chrome/21.0.1180.89 Safari/537.Γ -;
[0069]对Request进行字典替换为:
[0070]1386562882.666 14 XXX.XXX.XXX.XXX TCP_MEM_HIT/200 440 GETRequestUrlID-N0NE/-1mage/gif ReferrerID^Mozilla/5.0(Windows NT 6.1 ;W0W64)AppleffebKit/537.1(KHTML, like Gecko)Chrome/21.0.1180.89 Safari/537.Γ -;
[0071]其中RequestID与ReferreID为字典库中表示相应日志数据的唯一标识。
[0072]2)对于日志数据中的长字符串信息,如UserAgent、Cookies等信息,可以通过建立多个字典库来对一个信息进行拼接的形式来替换,如下例子:
[0073]以上面那条日志为例:
[0074]对UserAgent信息建立四个字典库:
[0075]MoziIla/5.0(ffindows NT 6.1 ;W0W64)对应字典库 I(DICTl);
[0076]AppleffebKit/537.1 对应字典库 2 (DICT2);
[0077](KHTML, like Gecko)对应字典库 3 (DICT3);
[0078]Chrome/21.0.1180.89 Safari/537.1 对应字典库 4 (DICT4);
[0079]则以上日志数据则可被替换为:
[0080]1386562882.666 14 XXX.XXX.XXX.XXX TCP_MEM_HIT/200 440 GETRequestUrl-N0NE/-1mage/gif ReferrerID^dictIID+dict2ID+dict3ID+dict4ID// -。
[0081]具体实施时,数据处理层建立的字典库中可以包括组合字段字典库,所述组合字段字典库存储日志数据字段的组合与标识的组合的唯一对应关系。
[0082]下面举一例说明组合字段字典压缩传输,即对字段组合做字典进行日志数据内容替换;
[0083]如:1386562882.666 14 XXX.XXX.XXX.XXX TCP_MEM_HIT/200 440 GEThttp://www.XXXXX.com/images/xxxxx.gif-NONE/-1mage/gif〃http://www.XXXXX.com/aaaa/440_176147XXX.htm""Mozilla/5.0 (Windows NT 6.1 ;W0W64)AppleffebKit/537.1(KHTML, like Gecko)Chrome/21.0.1180.89 Safari/537.1"-
[0084]对其中的IP (XXX.XXX.XXX.XXX)和 UserAgent ("Mozilla/5.0 (Windows NT 6.1 ;W0W64)AppleffebKit/537.1(KHTML, like Gecko)Chrome/21.0.1180.89 Safari/537.1")信息进行组合字典,然后在数据中转层进行标识替换。
[0085]对于字段组合替换方式与业务密切结合,对于CDN日志数据分析日志的维度与指标,把常用的组合建立字典,会对后面统计与计算部分节省很大的存储开销及计算资源。
[0086]由上述实施例可知,本发明实施例中,数据中转层与数据处理层之间字典库的分布式及分节点同步,可以有效的对数据中转层的日志数据进行压缩,随着时间的变化,字典库数据越来越丰富,这时大部分字段可以被标识所替换,则所传输的日志会越来越多的被替换为字典库中的唯一 ID,日志量会越来越小,节省传输带宽与传输时间。
[0087]对于字典库中的唯一 ID生成方式:首先在字典库中要有唯一 ID,所做字典的原文数据,还可以有对所做字典库的原文的Hash的存储(用于数据的比较,用Hash可提升比较的效率),通过日志数据对比(或Hash的对比),如果不存在则新增一条记录,并取唯一 ID的最大值递增为新记录的唯一 ID。根据在公布式集群中的统计与分析需求,可以对多个字段进行组合创建字典库。对于整个日志传输与日志条字典中唯一 ID的替换形成一个环路,以保证字典库的更新与同步。
[0088]基于同一发明构思,本发明实施例中还提供了一种跨数据中心的数据传输处理系统,如下面的实施例所述。由于该系统解决问题的原理与跨数据中心的数据传输处理方法相似,因此该系统的实施可以参见跨数据中心的数据传输处理方法的实施,重复之处不再赘述。
[0089]图7为本发明实施例中跨数据中心的数据传输处理系统的示意图。如图7所示,本发明实施例中跨数据中心的数据传输处理系统包括:
[0090]数据产生层设备701、数据中转层设备702和数据处理层设备703 ;其中:
[0091]数据产生层设备701,用于产生日志数据,将日志数据传输至数据中转层设备702 ;
[0092]数据中转层设备702,用于在接收到日志数据后,在从数据处理层设备703获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,所述字典库中存储日志数据与标识的唯一对应关系;将标识替换后的日志数据传输至数据处理层设备703 ;
[0093]数据处理层设备703,用于提供所述字典库,接收标识替换后的日志数据。
[0094]具体实施时,数据产生层设备可以包括WEB服务器、终端服务器等;数据中转层设备可以包括数据中转服务器等;数据处理层设备可以包括分布式集群节点等。
[0095]具体实施时,数据中转层设备还可以用于在所述字典库中未查找到日志数据的标识时,保留原日志数据并传输至数据处理层设备;
[0096]数据处理层设备还可以用于将未进行标识替换的日志数据补充至字典库中,并为该日志数据分配标识,存储该日志数据与标识的唯一对应关系;将更新后的字典库同步至数据中转层设备。
[0097]具体实施时,数据处理层设备具体可以用于通过如下方式为日志数据分配标识并在字典库中存储日志数据与标识的唯一对应关系:
[0098]对日志数据取哈希值,将该哈希值与字典库中已有数据进行对比;
[0099]若字典库中不存在该哈希值,则将该日志数据补充至字典库中;
[0100]取字典库中的已有标识的最大值加1,作为该日志数据的标识进行存储。
[0101]具体实施时,数据处理层设备具体可以用于建立多个字典库,对不同日志数据与标识的唯一对应关系进行存储;
[0102]数据中转层设备具体可以用于对包含长字符串信息的日志数据进行标识替换时,从多个字典库中查找长字符串信息中不同日志数据的标识,以标识拼接的方式替换日志数据中的长字符串信息。
[0103]具体实施时,数据处理层具体可以用于:建立组合字段字典库,所述组合字段字典库存储日志数据字段的组合与标识的组合的唯一对应关系。
[0104]综上所述,本发明实施例中,数据产生层产生日志数据,将日志数据传输至数据中转层;数据中转层接收到日志数据后,在从数据处理层获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,所述字典库中存储日志数据与标识的唯一对应关系;数据中转层将标识替换后的日志数据传输至数据处理层;从而通过对日志数据进行标识替换的方式减少了日志数据的传输量,节省了传输带宽和传输耗时。
[0105]本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0106]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0107]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0108]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0109]以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种跨数据中心的数据传输处理方法,其特征在于,包括: 数据产生层产生日志数据,将日志数据传输至数据中转层; 数据中转层接收到日志数据后,在从数据处理层获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,所述字典库中存储日志数据与标识的唯一对应关系; 数据中转层将标识替换后的日志数据传输至数据处理层。
2.如权利要求1所述的方法,其特征在于,若数据中转层在所述字典库中未查找到日志数据的标识,则保留原日志数据并传输至数据处理层; 数据处理层将未进行标识替换的日志数据补充至字典库中,并为该日志数据分配标识,存储该日志数据与标识的唯一对应关系; 数据处理层将更新后的字典库同步至数据中转层。
3.如权利要求1或2所述的方法,其特征在于,数据处理层通过如下方式为日志数据分配标识并在字典库中存储日志数据与标识的唯一对应关系: 对日志数据取哈希值,将该哈希值与字典库中已有数据进行对比; 若字典库中不存在该哈希值,则将该日志数据补充至字典库中; 取字典库中的已有标识的最大值加1,作为该日志数据的标识进行存储。
4.如权利要求1或2所述的方法,其特征在于,数据处理层建立多个字典库,对不同日志数据与标识的唯一对应关系进行存储; 数据中转层对包含长字符串信息的日志数据进行标识替换时,从多个字典库中查找长字符串信息中不同日志数据的标识,以标识拼接的方式替换日志数据中的长字符串信息。
5.如权利要求1或2所述的方法,其特征在于,数据处理层建立的字典库中包括组合字段字典库,所述组合字段字典库存储日志数据字段的组合与标识的组合的唯一对应关系。
6.一种跨数据中心的数据传输处理系统,其特征在于,包括: 数据产生层设备、数据中转层设备和数据处理层设备;其中: 数据产生层设备,用于产生日志数据,将日志数据传输至数据中转层设备; 数据中转层设备,用于在接收到日志数据后,在从数据处理层设备获得的字典库中查找日志数据的标识,用查找到的标识对日志数据进行替换,所述字典库中存储日志数据与标识的唯一对应关系;将标识替换后的日志数据传输至数据处理层设备; 数据处理层设备,用于提供所述字典库,接收标识替换后的日志数据。
7.如权利要求6所述的系统,其特征在于,数据中转层设备还用于在所述字典库中未查找到日志数据的标识时,保留原日志数据并传输至数据处理层设备; 数据处理层设备还用于将未进行标识替换的日志数据补充至字典库中,并为该日志数据分配标识,存储该日志数据与标识的唯一对应关系;将更新后的字典库同步至数据中转层设备。
8.如权利要求6或7所述的系统,其特征在于,数据处理层设备具体用于通过如下方式为日志数据分配标识并在字典库中存储日志数据与标识的唯一对应关系: 对日志数据取哈希值,将该哈希值与字典库中已有数据进行对比; 若字典库中不存在该哈希值,则将该日志数据补充至字典库中; 取字典库中的已有标识的最大值加1,作为该日志数据的标识进行存储。
9.如权利要求6或7所述的系统,其特征在于,数据处理层设备具体用于建立多个字典库,对不同日志数据与标识的唯一对应关系进行存储; 数据中转层设备具体用于对包含长字符串信息的日志数据进行标识替换时,从多个字典库中查找长字符串信息中不同日志数据的标识,以标识拼接的方式替换日志数据中的长字符串信息。
10.如权利要求6或7所述的系统,其特征在于,数据处理层具体用于:建立组合字段字典库,所述组合字段字典库存储日志数据字段的组合与标识的组合的唯一对应关系。
【文档编号】H04L12/24GK104378234SQ201410662799
【公开日】2015年2月25日 申请日期:2014年11月19日 优先权日:2014年11月19日
【发明者】秦刚, 唐玉芳, 柳杨, 江舟, 孔祥鹏, 张红意 申请人:北京数迅科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1