一种分布式的大数据规划方法

文档序号:9818320阅读:460来源:国知局
一种分布式的大数据规划方法
【技术领域】
[0001]本发明涉及信息化建设领域,具体地说是一种分布式的大数据规划方法。
【背景技术】
[0002]随着行业应用系统的发展,各种信息系统应用数据快速增长,企业的信息化建设已逐步进入了大数据时代。当前业界大数据信息化建设前期突出的问题反映在以下几个方面:
a)数据分散在各个业务系统中,无法对其进行综合利用。
[0003]b)数据来源不清楚,无法与其业务系统对应,导致数据来源混乱,版本众多。
[0004]c)数据量的大小无法准确计算,影响存储资源规划。
[0005]d)数据源的结构、格式、关系的复杂多样性,无法为数据采集提供科学的指导和支持。
[0006]e)数据拥有人不清晰,数据拥有者不能及时按业务要求提供正确的数据,导致数据无法准确追溯。
[0007]f)数据定义的分歧,对相同业务的不同解释与定义。
[0008]g)研究方向多样性,对数据的要求较高,数据梳理不清晰,影响分析结果的准确性。
[0009]h)数据管理混乱,导致数据冗余存储,增加不必要的存储采购负担。

【发明内容】

[0010]本发明的技术任务是针对上述现有技术的不足,提供一种分布式的大数据规划方法。
[0011]本发明的技术任务是按以下方式实现的:一种分布式的大数据规划方法,其特点是包括以下步骤:
一、规划目标
制定总体规划目标和总体需求,从全局角度明确工作任务,并对总体规划进行初步研究分解,之后将任务下发至各需求提供方、使用总体以及技术总体,进行下一步工作;
二、边界划分
包括业务边界划分、数据边界划
业务边界划分:针对具体的业务应用目标进行需求的统一管理,提供业务边界划分模板,业务边界划分完成后可以从中抽取相应信息作为生成数据应用需求方案的源材料;数据边界划分:根据业务边界梳理其需要的数据来源以及梳理已有数据挖掘成果和方法,提供数据边界模板对数据源进行描述;
三、数据标准规划
包括建立数据标准中心和建立数据迀移中心
建立数据标准中心,以保证各业务功能在数据使用上的一致性,对源数据在数据中心的存储制定一个标准,将同类的源数据进行归一化处理的方案,为数据抽取到数据中心提供数据对应标准;
建立数据迀移中心,以确定数据标准表的数据如何初始化以及如何对数据标准表中的数据进行增量导入;
四、评估分析
依据自身需求,各使用主体对数据规划成果进行评估分析。
[0012]进一步的,步骤二中进行业务边界划分时,按照研究背景、研究目标、研究内容、应用方向进行梳理。可以达到研究方向明确、业务边界合理,同时避免口头多次交流造成资源浪费;为了保证系统灵活性,用户也可制作模板并导入,适应自身业务。
[0013]步骤二中进行数据边界划分时,提供数据边界模板对数据源进行描述,所述数据边界模板包括单位、数据类型、数据来源、当前数据量及数据产生速率等条目,用户也可自定义模板进行数据边界划分。
[0014]步骤三中建立数据标准中心的方法优选为:
(一)制定数据标准:数据标准的制定依赖于同类表的表结构,具体步骤为:
a)选取同类数据表,获得到每个表的表结构;
b)分析表结构中相同字段,选做数据中心的字段;
c)对于表结构中不同的字段进行分析,找出其共同意义生成新的字段;
d)对于业务支撑没有意义的字段可以暂时抛弃,后期如果需要生成新的字段,可以在数据中心中进行添加;
(二)配置数据关系:对于数据中心和源数据表之间存在何种关系需要在两者之间做一个数据字段的映射,以便实现对数据标准中心字段的来源进行追溯;
(三)建立数据主题:数据主题是依据具体业务,将数据分为各种主题类。
[0015]建立数据主题时优选包括以下分类方式:
a、按照数据产生方式分类:根据不同产生方式,数据可归为三大类:基础数据、衍生数据、公共代码类数据,其中,基础数据由系统生成或直接录入,衍生类数据由基础数据通过转换和计算产生,公共代码类数据是通用的共享代码,是特殊的基础数据;
b、按照数据模型分类:按主题对数据分类,每个信息类包含有一个或多个信息子类,以所述类为依据,确认相应类别的认责部门。
[0016]步骤四中以数据地图等方式对数据量、数据迀移的状态、迀移趋势进行展示,并通过数据图谱描绘各数据源关联关系。
[0017]前三个步骤完成后生成的方案均可在评估分析模块统一展示和输出,同时根据数据源总数据量、数据增长量及数据存储方式计算对于存储能力的需求,从数据访问频率、数据关联性及数据预处理、算法研究中对计算能力的需求,从数据的交换频率、访问频率等计算对网络能力的需求,生成硬件能力评估方案,为用户整体硬件环境建设提供建议。
[0018]与现有技术相比,本发明的分布式的大数据规划方法具有以下有益效果:
(一)数据标准规范化一数据标准化,实现研究目标确切,数据的来源、业务、结构、格式清晰,数据的去向明确。
[0019](二)数据关系脉络化一对研究方向所需要的数据进行整理,杜绝重复提交数据。
[0020](三)数据存储度量化一实现数据存储准确计算,为存储设备采购提供科学依据。[0021 ](四)数据评估流程化一发现数据问题,提供畅通的沟通渠道,及时反馈给数据拥有者。
[0022](五)数据服务电子化一提供研究目标管理,数据源管理,元数据定义,评估分析系统。
【具体实施方式】
[0023]以具体实施例对本发明的分布式的大数据规划方法作以下详细地说明。
[0024]实施例:
本发明规划方法采用B/S架构,集成于10P(In-cloud Open Platform)平台,作为平台应用开发建设的基础,由规划目标、边界划分、数据标准规划以及评估分析四步完成。
[0025](I)规划目标制定总体规划目标和总体需求,从全局角度明确工作任务,并对总体规划进行初步研究分解,之后将任务下发至各需求提供方、使用总体以及技术总体,进行下一步工作。
[0026](2)边界划分分为业务边界划分以及数据边界划分两部分:
业务边界划分主要是针对具体的业务应用目标进行需求的统一管理,提供业务边界划分模板,按照研究背景、研究目标、研究内容、应用方向等进行梳理,以达到研究方向明确、业务边界合理,同时避免口头多次交流造成资源浪费;为了保证系统灵活性,用户也可制作模板并导入,适应自身业务。业务边界划分完成后系统可以从中抽取相应信息作为生成数据应用需求方案的源材料。
[0027]数据边界划分主要根据业务边界梳理其需要的数据来源以及梳理已有数据挖掘成果和方法。提供数据边界模板对数据源进行描述,包括单位、数据类型、数据来源、当前数据量、数据产生速率等条目,用户也可自定义模板进行数据边界划分。
[0028](3)数据标准规划包括数据标准中心和数据迀移中心两部分。
[0029]数据标准中心是为保证各业务功能在数据使用上的一致性,需要对源数据在数据中心的存储
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1