一种电力行业大数据动态文本交换格式管理方法

文档序号:9275109阅读:266来源:国知局
一种电力行业大数据动态文本交换格式管理方法
【技术领域】
[0001]本发明涉及一种电力行业大数据动态文本交换格式管理方法,属于电力技术领域。
【背景技术】
[0002]在对电力行业大数据进行挖掘分析的过程中,经常会遇到要在各种数据格式之间进行转换,有些时候为了得到比较高的效率和处理性能,数据分析过程中的大量中间缓存格式是非标准结构的自定义格式。我们不得进行大量的重复性的数据格式转换工作,大部分情况下而格式转换工作通过直接编码的方式进行,由于直接编码转换会导致代码缺乏标准数据与格式强耦合不可重复利用,这样就导致了工作效率低下。

【发明内容】

[0003]本发明的目的是:针对现有技术的上的缺陷,提供一种电力行业大数据动态文本交换格式管理方法,用于解决不能数据交换过程中动态灵活处理数据交换格式的难点,以克服现有技术的不足。
[0004]本发明的技术方案
一种电力行业大数据动态文本交换格式管理方法,该方法包括以下步骤,
步骤1:分析数据结构,分析需要用于数据交换的电力行业数据进行数据结构分析,生成数据模型;
步骤2:编写数据格式规则,通过Velocity语法编写符合实际需求的定义的灵活的数据传输交换格式,并生成数据格式交换模板;
步骤3:编写加载类,利用Java语言编写数据模型加载类以及数据格式规则加载类两个类;
步骤4:利用Java语言并采用Velocity模板引擎编写数据驱动类,将步骤3中的两个加载类的输出结果作为数据驱动类的输入,通过驱动类生成最终的动态文本交换格式。
[0005]前述的电力行业大数据动态文本交换格式管理方法中,所述步骤I (分析数据结构)包括以下子步骤:
S1.1:从电力营销系统、计量自动化系统、电网GIS空间信息服务平台等抽取文本类型的数据到电网行业Hadoop大数据平台的HDFS文件系统上;
S1.2:分析抽取到Hadoop大数据处理平台上的文本数据,通过将原有的数据结构进行精简适合于数据挖掘的简单结构保存于hive数据仓库之中;
S1.3:通过编写MapReduce、Spark任务、Storm流处理任务等手段操作hive数据仓库生成数据模型,并将输出结果以hdfs上带有特定特定列式结构的数据模型;
S1.4:通过编写MapReduce、Spark任务、Storm流处理任务等手段操作hive数据仓库生成数据模型,并将输出结果以hdfs上带有特定列式结构的数据模型。
[0006]前述的电力行业大数据动态文本交换格式管理方法中,所述步骤2(编写数据格式规则)包括以下子步骤:
S2.1:根据步骤I的数据模型,编写数据格式模板,该模板包含最终数据交换格式的基本格式。
[0007]S2.2:将步骤S2.1中数据格式模板的基本模板中需要用数据填充的部分使用Velocity语法用占位符号进行修改,形成带有基本数据结构的格式模板;
S2.3:将步骤S2.2中的编写的模板进一步修改,将带有数据集合的模板区块使用Velocity条件控制、循环语法进行控制输出,形成数据格式模板;
S2.4:将步骤S2.3中的编写的模板首行之前增加额外一行头信息,该部分按顺序用“,”号分割,包含如下顺序的信息;
1、数据模型文件hdfs地址;
2、数据模型加载类名称全路径;
3、数据格式规则加载类全路径;
52.5:将步骤S2.4中的编写的模板保存在hdfs上。
[0008]前述的电力行业大数据动态文本交换格式管理方法中,步骤S2.1中数据交换格式根据使用者对数据交换格式的实际需求,将数据交换格式定义为xml、json、csv等行业标准格式或定义成非标准格式。
[0009]前述的电力行业大数据动态文本交换格式管理方法中,所述步骤3 (编写加载类)利用Java语言编写数据模型加载类以及数据格式规则加载类两个类,包括以下子步骤:
53.1:编写数据模型加载类,该类包含的功能特征是:
1)读取hdfs文件系统上的数据模型文件;
2)遍历数据模型列式结构;
3)生成用于填充数据规则模板的Java数据对象模型;
53.2:数据格式规则加载类,该类包含的功能特征是:
1)读取hdfs数据格式规则模板文件;
2)解析数据格式规则模板,将头信息以及数据格式信息分离;
3)生成头信息Java对象;
4)生成数据格式模板的Java映射对象。
[0010]前述的电力行业大数据动态文本交换格式管理方法中,所述步骤4包括以下子步骤:
54.1:根据步骤3的输出的Java数据对象、头信息Java对象、数据格式模板Java映射对象做为数据驱动类的输入参数传入数据驱动类;
S4.2:根据步骤S4.1数据驱动类将组合并整理以上输入参数形成统一的Java数据对象模型以及模板文件描述对象。
[0011]S4.3:数据驱动类调用Velocity模板引擎的相应模板生成方法,生成最终符合需求的数据结构文本。
[0012]S4.4:数据驱动类输出的结果可以根据需求放置于hdfs、数据库、本地文件系统上,也可以作为输入源直接输出至下一个MapReduce任务、Spark任务、Storm流任务中去。
[0013]由于采用了上述技术方案,与现有技术相比,本发明解决了在大数据挖掘分析过程中数据传输格式需要能灵活的根据项目对于传输时间、数据体量、异构系统之间数据传输格式多样,使数据交换能有侧重的进行转换的实际需求,并满足了系统间对于动态的管理数据传输格式的需求。使得在兼容传统数据传输格式(xml、jsorucsv等)的同时又能自定义任何格式的文本数据,极大的提高了动态文本数据交换格式的管理能力。
【附图说明】
[0014]附图1是本发明所描述的数据格式转换器在整个数据格式处理流程图;
附图2是本发明所描述的数据格式转换器的内部工作流程。
【具体实施方式】
[0015]下面结合附图对本发明用作进一步的详细说明,但不作为对本发明的任何限制。
[0016]本发明的实施例:通过结合附图1、附图2以及上述提到的基于Velocity模板引擎的电力行业大数据动态文本交换格式管理方法,按照以下步骤即可完成实施:
步骤1:分析数据结构,分析需要用于数据交换的电力行业数据进行数据结构分析,生成数据模型;
该步骤I (分析数据结构)包括以下子步骤:
S1.1:从电力营销系统、计量自动化系统、电网GIS空间信息服务平台等抽取文本类型的数据到电网行业Hadoop大数据平台的HDFS文件系统上(这一步骤仅包含脱敏后的用于数据挖掘的文本类型数据);
51.2:分析抽取到Hadoop大数据处理平台上的文本数据,通过将原有的数据结构进行精简适合于数据挖掘的简单结构保存于hive数据仓库之中。
[0017]S1.3:通过编写MapReduce、Spark任务、Storm流处理任务等手段操作hive数据仓库生成数据模型,并将输出结果以hdfs上带有特定特定列式结构的数据模型。
[0018]S1.4:通过编写MapReduce、Spark任务、Storm流处理任务等手段操作hive数据仓库生成数据模型,并将输出结果以hdfs上带有特定列式结构的数据模型。
[0019]步骤2:编写数据格式规则,通过Velocity语法编写符合实际需求的定义的灵活的数据传输交换格式,并生成数据格式交换模板;
步骤2 (编写数据格式规则)包括以下子步骤:
52.1:根据步骤I的数据模型,编写数据格式模板,该模板包含最终数据交换格式的基本格式(数据交换格式根据使用者对数据交换格式的实际需求,将数据交换格式定
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1