基于构建快速数据分级通道的数据处理方法及其装置的制作方法

文档序号:6378588阅读:139来源:国知局
专利名称:基于构建快速数据分级通道的数据处理方法及其装置的制作方法
基于构建快速数据分级通道的数据处理方法及其装置技术领域
本发明属于信息技术领域,涉及基于通道进行数据处理的方法及其装置,特别涉及IOOOTB(Terabyte)级以上的高效的海量数据处理方法及其装置。
背景技术
随着互联网、移动互联网等网络技术的迅猛发展,互联网用户的数量急剧增长, 2008年全球所创造出的数字信息达到一个惊人的22位数字一(39821798684800350000000 比特),约等于40万亿亿比特。全球信息总量每过两年,就会增长一倍,仅2011年,全球被创建和被复制的数据总量就达I. SZB0面对互联网如此庞大的海量数据,延伸出许多先进的数据处理技术,除了传统的oracle、DB2, Mysql这类数据库,近几年NoSQL技术的发展也日渐成熟,如常用Hadoop技术,mongodb,可谓百家争鸣,各领风骚。
为了保障业务功能的需要,安全高效地处理海量数据,不仅是采用先进技术就能解决的,特别是数据规模达到PB级以上时,数据处理能力会随着时间推移和存储空间的膨胀导致处理能力逐渐下降,最终产生业务功能与用户的需求脱节。本发明通过充分挖掘数据采集、存储、应用三层系统能力,提出对海量数据分批、分类、分级预处理,灵活建立各类数据链路专用通道,极大的提高数据处理的效率。此外本发明另一大创新点在于无论海量数据系统使用何种数据库存储技术,本发明的方法都能发挥巨大作用,是一种高效处理海量数据的创新思路。发明内容
本发明提供了一种基于构建快速数据分级通道的高效海量数据处理方法及其装置,在海量数据总量一定的前提下,通过数据筛选器过滤数据,使之分批、分类、分级,流经快速数据分级通道,利用调度策略,调度模块判断出入库设备,利用数据入库装置可选择性地主动获取数据源,并将数据入库。采用该方法能够提高海量数据根据业务需求的及时响应,增加数据处理的灵活性与有效性。
本发明的方法,对数据处理的步骤为
(I)对海量的原始数据进行识别,比对识别出的数据是否符合相应的协议格式或要求,对其进行分批、分类、分级,然后将数据根据识别结果输出到相应的大日志数据传输通道、重要数据传输通道,或快速数据分级通道;其中快速数据分级通道负责传输优先级高的数据;
(2)根据集群设备信息判断通道数据的类型、数据量,根据预存的调度策略调用数据入库装置;
(3)根据实际情况,利用不同方式获取通道数据,并对其进行录入数据库操作;
( 4 )保存录入的数据。
步骤(3)所述的方式包括被动获取和主动获取。被动获取是由数据传输私有工具、商用传输工具,或开源传输工具进行数据由接入方到入库设备的数据搬运,然后进行入库操作。主动获取是通过判断获取方式及配置文件内容,主动读取通道中的数据源,将数据入库。
本发明的装置包括一数据筛选器,对原始数据进行识别、分类过滤,将结果数据输出到对应的通道;多个数据传输通道,其中有一数据分级通道,对过滤的高优先级数据放行;一调度平台,根据从数据传输通道和数据入库装置获取的信息,利用预设的调度策略动态分配设备及调用通道数据;以及一数据入库装置,根据实际情况,主动或被动从调度平台获取数据源,录入数据库。
本发明适用于多种实际业务,可以构建快速数据分级通道,使根据业务需求要优先处理的数据从海量繁杂的数据中分离出来,通过有效的利用系统资源,将数据及时入库, 从而提高系统的灵活性和数据的有效性,为客户提供更为便捷、快速、高效的服务。


图I是构建快速数据分级通道的高效海量数据处理装置示意图2是数据筛选装置结构示意图3是数据入库装置结构示意图。
具体实施方式
无论是何种海量数据系统,其最基本的系统一般由数据接入、数据存储和数据应用三个层面构成,根据实际业务需求,在这三层之间建立快速数据分级通道,将数据按大小、类型类别、实效性、关键字或标签、重要程度等规则,分批、分类、分级有序处理,可及时响应业务需求。本发明通过灵活构建快速数据分级通道,可充分发挥其高效的作用与价值。
基于构建快速数据分级通道的高效海量数据处理装置包括图I中的数据筛选装置I、数据通道2、调度平台3、数据入库装置4及数据存储设备五部分。其中数据筛选装置 I包括图2中的识别器、规则库、分类器;数据入库装置4包括图3中的数据获取模块和数据入库模块。五部分的功能分别为
数据筛选装置I :将原始数据通过数据识别和规则库比对,利用分类器对数据进行分批、分类、分级。
数据通道2 :分批、分类、分级数据的虚拟传输路径。
调度平台3 :包括缓存模块和调度模块,根据收集的通道数据信息、调度平台信息及数据入库装置信息及调度策略,动态分配数据入库设备及调用通道数据。具体来讲,调度平台将收集到的数据通道信息和数据入库装置信息存放于调度平台的缓存模块中,并在缓存模块中预置的有调度策略,调度模块通过对缓存模块中的数据进行分析,最终选择连接适当的数据入库装置。
数据入库装置4 :将利用不同方式从调度平台3获取到的通道数据进行录入数据库操作。
数据存储设备即数据库,用于保存数据的设备。
具体实现方法如下
图I中通过数据筛选装置I中的识别器对海量原始数据进行初步识别,利用规则库中的规则内容进行匹配,识别器与分类器交互信息,将匹配后的结果通过分类器进行数据分批、分类、分级划分,将结果数据输出到各个通道。所述规则包括数据的大小、类型类别、实效性、关键字或标签、重要程度等。通过图I中的数据筛选装置I可将原始数据划分为若干通道,本例中将通道划分为通道A、通道B和通道C。
例如通道A为大日志数据传输通道,可利用公共传输方式,如mount方式或socket 方式,将数据挂载或接收到数据入库装置4的某目录下,使用数据入库模块将数据读取入库;
例如通道C为重要数据传输通道,由于数据的重要性,采用双道备份机制,将该通道的数据在其它通道上进行备份操作,如在通道A上备份一份通道C的数据,通道C数据通过数据入库装置4将数据入库处理,如通道C中数据出现异常,可使用备份通道A的数据进行操作。在基于以上两种设计方式外,本专利重点介绍图I中的通道B。
图I中的通道B为快速数据分级通道,经过数据筛选装置I中的过滤规则剥离出的优先权数据在此通道传输。所述过滤规则根据实际的使用情况而定,比如业务I需要过滤出im协议,那么规则中就限制只输出im协议;业务2需要http协议,那么给它的规则中就要设置只能输出http协议的规则。
图I中的调度平台3将获取的当前业务信息、通道信息、集群中的设备状态信息, 并将预设的调度策略存储于缓存模块中,通过缓存模块中的信息,首先查看调度策略,然后由调度模块判断通道数据的类型、数据量,集群设备收集到的设备cpu、内存、剩余存储空间等是否满足数据入库的要求(数据量每秒大于50Mbps,设备的cpu利用率小于20%,内存利用率小于20%,剩余存储空间不小于40%),即通道数据类型根据业务需要剥离出优先权数据,并根据判断结果确定是否调用数据入库装置4。当判断为是时,调用相应的数据入库装置4,根据获取的当前业务信息、通道信息、预设的调度策略和集群中的设备状态信息,分配调用顺序和入库装置。当缓存模块中未存在所需的上述信息时,数据则通过固定的数据入库装置进行处理。图I中的调度模块根据反馈的分配信息依照调用顺序向调度平台3调用数据库操作语句;
图I中的调度平台3从数据库中读取所述数据库操作语句对应的配置信息;
图I中的调度平台3根据所述调用顺序及设备满足触发操作条件时,对通道B(快速数据分级通道)中数据进行优先操作;
图I中的数据入库装置4,该装置的数据获取方式可分为两种,一种为被动获取方式,由数据传输私有工具,如!transceiver、convery,或商用传输工具,如Kudaa,或开源传输工具,如=OpenPiczzais,将通道数据发出,进行数据由接入方到数据入库装置的数据搬运,由图3中的数据获取模块被动接收到数据,将数据接收到数据入库模块的指定入库数据源处,再由数据入库模块将数据从入库数据源处提取,进行入库操作。该种方式优点是适用于大数据量的入库行为,但入库数据或模块一旦存在问题,则数据被丢弃不做处理;另一种方式为主动获取方式,数据入库模块通过判断获取方式及配置文件内容,主动读取通道中的数据源,如,数据入库模块根据配置文件信息(入库设备ip、端口),建立快速数据分级通道的数据源和数据入库模块的路径,由数据入库模块中的入库程序主动读取数据源进行入库操作。该种方式的优点是可根据实际业务需要,将通过过滤规则筛选出的优先权较高的数据及时响应处理,并可对在校验中发现的错误数据,进行请求重新发送。此种方式干预性和可控性强,提高数据的真实、有效、实时性。该装置可动态选择数据获取方式,自适应进行快速数据分级通道及其它通道数据的入库操作。
由上述发明内容可见,在跨越接入、存储、应用三层建立快速数据分级通道,对构建快速数据分级通道的海量数据利用数据筛选装置I、调度平台3及数据入库装置4,根据当前业务信息、通道信息、预设的调度策略及顺序,动态分配设备,对优先权较高通道数据及时响应处理大大增强,并提高了海量数据处理的灵活性及数据的实时有效性。
以下举一具体实施例进行说明
I、海量数据进入数据筛选装置,由识别器进行数据的特征识别,例如识别出IM或 Http 协议数据、email、webmail、webbbs、blog、webchat、voip、SNS 数据,以及 webuser 数据等,再通过已知的规则库内容,包括数据大小、类型类别、时效性、关键字或标签、重要程度等,比对识别出的数据是否符合各种协议格式或要求,将根据业务需要识别出的上述数据定义为高优先级数据,最后通过分类器将各种协议数据解析后分批、分类、分级分发到各个通道上。如将webbbS、Webchat等数据分发到通道A,即大日志数据传输通道中;将http协议数据解析后分发到通道B,即快速数据分级通道中,将email、webmail、blog、SNS等数据分发到通道C,即重要数据传输通道中。因通道A、通道C为常规通道,后续的处理采用常规手段即可,这两类并非本发明的重点,故本实施例仅针对通道B中的数据进行后续的说明。
2、调度平台根据获取到的调度平台设备及数据入库装置设备信息,如cpu、内存占用率、剩余存储空间等,判断通道中数据的类型及数据量,标准根据业务的不同而定,再协同缓存模块中存放的调度策略判断使用哪台数据入库装置。
3、数据入库装置通过判定使用的是被动获取数据方式还是主动获取数据方式来接收数据如是被动获取数据方式,通道B中的http数据通过数据传输工具将数据传输给数据获取模块,数据获取模块将http数据接收到指定的存放路径下,数据入库模块读取指定存放路径下的数据文件,进行入库操作,存入数据存储设备;如是主动获取数据方式,则不使用数据获取模块,通过数据入库模块中的配置文件中设置的入库设备ip、端口及配置指定存放http数据的数据源等信息,进行入库操作。
4、数据入库后,存储于数据库中,通过web终端进行数据库连接,展示数据。
权利要求
1.一种基于构建数据分级通道的数据处理方法,步骤包括(1)识别原始数据,比对识别出的数据是否符合相应的协议格式或要求,对其分类,并根据分类结果输送到对应的数据传输通道;所述数据传输通道包括一数据分级通道,负责传输优先权数据;(2)根据集群设备信息判断通道数据的类型、数据量,根据预存的调度策略调用数据入库装置;(3)数据入库装置获取通道数据,录入数据库,并保存。
2.如权利要求I所述的数据处理方法,其特征在于,所述数据传输通道还包括大日志数据传输通道和重要数据传输通道。
3.如权利要求I所述的数据处理方法,其特征在于,步骤(3)所述的获取通道数据,包括主动获取和被动获取。
4.如权利要求3所述的数据处理方法,其特征在于,所述主动获取是通过判断获取方式及配置文件内容,主动读取通道中的数据源,将数据入库。
5.如权利要求3所述的数据处理方法,其特征在于,所述被动获取是由数据传输私有工具、商用传输工具,或开源传输工具进行由接入方到数据入库装置的数据搬运,然后进行入库操作。
6.一种基于构建数据分级通道的数据处理装置,其特征在于,包括一数据筛选器,对原始数据进行识别、分类过滤,将结果数据输出到对应的通道;至少一数据传输通道,包括一数据分级通道,对过滤的高优先级数据放行;一调度平台,根据从数据传输通道和数据入库装置获取的信息,利用调度策略动态分配设备及调用通道数据;以及一数据入库装置,从调度平台获取数据源,录入数据库。
7.如权利要求6所述的数据处理装置,其特征在于,所述数据筛选器包括识别器、规则库和分类器;所述识别器对原始数据进行初步识别,所述规则库对初步识别后的原始数据进行匹配,将匹配后的结果发给分类器,所述分类器进行数据分批、分类、分级划分,输出到相应通道。
8.如权利要求7所述的数据处理装置,其特征在于,所述规则库中的规则包括数据的大小、类型类别、实效性、关键字或标签、重要程度。
9.如权利要求7所述的数据处理装置,其特征在于,所述调度平台包括缓存模块和调度模块;所述缓存模块中预置有调度策略,并用于存放数据通道信息和数据入库装置信息; 所述调度模块对缓存模块中的数据信息进行分析,选择连接对应的数据入库装置。
10.如权利要求7所述的数据处理装置,其特征在于,所述数据入库装置包括数据获取模块和数据入库模块;当被动获取数据时,所述数据获取模块将数据接收到指定的存放路径,所述数据入库模块读取该数据文件,进行入库操作;当主动获取数据时,所述数据入库模块根据配置文件信息建立数据源和数据入库模块的路径,由数据入库模块中的入库程序主动读取数据源进行入库操作。
全文摘要
本发明提供了一种基于构建快速数据分级通道的数据处理方法及其装置,由数据筛选装置对原始数据进行识别、分类过滤,将高优先级数据分送到数据分级通道,再由调度平台根据从数据传输通道和数据入库装置获取的信息,利用调度策略动态分配设备及调用通道数据;然后由数据入库装置从调度平台获取数据源,录入数据库。本发明适用于多种实际业务,可以构建快速数据分级通道,使根据业务需求要优先处理的数据从海量繁杂的数据中分离出来,并根据实际情况,主动或被动从调度平台获取数据源,将数据及时入库,从而提高系统的灵活性和数据的有效性,为客户提供更为便捷、快速、高效的服务。
文档编号G06F17/30GK102929961SQ20121038248
公开日2013年2月13日 申请日期2012年10月10日 优先权日2012年10月10日
发明者史延涛, 火一莽, 翁越龙, 马楠, 廉喆, 董雪, 裘玥, 张元兰, 李铁铮, 严岭 申请人:北京锐安科技有限公司, 北京市公安局
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1