一种基于配置数据加工模型的加工中心数据流式处理方法

文档序号：9597877阅读：955来源：国知局

一种基于配置数据加工模型的加工中心数据流式处理方法
【技术领域】
[0001]本发明涉及一种基于配置数据加工模型的加工中心的数据流式处理方法，属于计算机软件技术领域。
【背景技术】
[0002]常规数据处理系统需要经过数据搜集、整理、分析等多个步骤，包括数据获取一一数据下载一一数据筛选甄别一一数据整理一一数据加工。而数据加工根据业务的需要经常形成一些固定模式的加工系统，一旦有新的需求，数据加工系统的扩展能力和灵活性较差，当其面对海量数据时往往在此消耗巨大的时间和精力。
[0003]传统的数据处理中心，数据处理步骤过程中数据落地，数据处理如排序、剔重、过滤等等功能固化，增加特性化数据处理难，功能可扩展性差，数据处理流向无法灵活控制。目前许多的大数据应用平台不能够灵活的配置各种数据源之间的互通，只能单一的从一种数据源同步到另外一种数据源。同时大多数的大数据应用平台不能够支持流式处理，即在一个数据加工治理流程中需要多次的对数据进行读写，这样不仅使得机器的10负载过高，而且整个数据加工和治理的速度将大打折扣，在很多时候都不能满足数据的及时性要求。也有一些大数据应用平台不能够支持很多种数据的加工方法，也不能够灵活的配置加工方法，只能够单一的满足一些业务要求。
[0004]本发明的特点是建设面向各学科领域的数据分析与应用平台，整合所有共享数据资源、集成构建分析环境，实现数据加工配置真正实现一套加工系统满足多级业务化需求。

【发明内容】

[0005]本发明采取的技术手段具体为:一种基于配置数据加工模型的加工中心的数据流式处理方法，所述数据加工中心中预定义有包括数据校验、加工结果排序、加工结果去重、加工资源融合和加工资源拆分和加工资源内容变换等多种加工方法，以及多个不同加工方法步骤之间的连接关系；数据加工中心还设置有用于连接数据源的数据源接入端口、数据加工模型接入端口、目标数据输出端口以及用于连接流程监控单元的加工流程监控接口。
[0006]本发明的技术方案为:
[0007]—种基于配置数据加工模型的加工中心数据流式处理方法，其步骤为:
[0008]1)对待加工数据源创建一数据加工模型:包括加工前数据的字段及类型、加工后数据的字段名称及类型，以及加工前数据字段与加工后数据字段之间的对应关系；
[0009]2)根据该数据加工模型设置一数据加工语法规则，包括设置每一数据源要提取的加工字段信息；每一要加工字段的字段名称和相应的字段类型，以及处理该加工字段的数据加工处理模块和处理时所用的匹配规则；每一个加工字段加工后的名称和数据类型；
[0010]3)根据数据加工任务和该数据加工语法规则，生成一工单配置文件；其中，加工任务的信息包括:处理步骤信息、时间调度器信息和工单修复信息；
[0011]4)加工系统根据该工单配置文件创建一工厂实例，然后该工厂实例根据该数据加工语法规则验证该配置文件是否合法，验证通过后该工厂实例将该配置文件内容写入到加工工单中，生成一加工工单文件，然后根据该加工工单文件中处理步骤的个数、名称和顺序创建一配置信息组配实例；
[0012]5)该工厂实例创建一个流水化作业实例，用于按照加工工单内容顺序组织和执行该配置信息组配实例中的实例内容。
[0013]进一步的，所述工厂实例将该配置文件内容依照加工任务、处理步骤信息、数据源、处理器集合、处理器、目标存储信息的顺序写入到加工工单中，生成该加工工单文件；根据该加工工单文件中处理步骤的个数、名称和顺序创建一配置信息组配实例，包括:处理步骤实例、数据源实例、目标存储实例、处理器实例、规则实例。
[0014]进一步的，所述处理步骤信息包括数据源配置信息、处理器集合信息、目标存储信息；其中，数据源配置信息包括:数据源地址、数据库名称、用户名、密码、查询语句、读取引擎类型、读取极限、读取偏差信息；目标存储信息包括id生成器信息、数据存储地址信息、写入引擎类型信息；处理器集合信息包括预处理信息、预处理引擎、后处理引擎、处理器集合中所有的处理器名称及每一处理器的执行顺序。
[0015]进一步的，每一处理器需要配置的信息包括:1)加工前数据需要处理的字段名称及类型；2)每一需要处理字段的数据加工处理模块、判定该字段名称下是否所有资源都要处理的条件，以及该字段的内容是否需要拆分及拆分的相应标志、字段的内容是否需要融合及融合的标志或者规则；3)加工后数据的字段名称和类型、加工前数据字段与加工后数据字段之间的对应关系。
[0016]进一步的，所述时间调度器信息包含时间信息和调度标志信息；所述工单修复信息包括修复时间和修复策略。
[0017]进一步的，所述数据加工处理模块包括:数据一对一映射处理模块、数据多对一融合模块、数据一对多拆分模块、数据排序模块、数据去重模块、数据处理执行流程控制模块。
[0018]进一步的，所述数据一对一映射处理模块包括内容规则变换模块、字段名称变换模块、字段部分内容删除模块，数据一对多拆分模块包括基于设定标示符的拆分模块、基于正则表达式的拆分模块、基于特征匹配的拆分模块，数据融合模块包括数据内容拼接融合模块、基于正则规则的数据融合模块、基于特征匹配的数据融合模块，数据去重模块按照字段进行数据去重或按照记录进行数据去重，数据排序模块包括按照列升序排序、降序排序模块和按照多列升序降序排序模块，数据执行流程控制模块包括顺序执行流程控制模块、选择执行流程控制模块。
[0019]进一步的，所述匹配规则包括正则规则或者模式匹配规则。
[0020]进一步的，所述加工工单文件创建好后，加工系统启动一时间调度器，该时间调度器通过该加工任务的时间调度器调度该加工任务启动的时间，启动该加工任务。
[0021]与现有技术相比，本发明的积极效果为:
[0022]本发明通过利用大数据平台采用基于配置加工数据模型的数据流式处理方式，提高大数据处理速度和灵活性别，扩大可支持的数据加工方法种类范围，同时在大数据处理过程中能够利用本发明中独特的配置方式，灵活的配置异构数据资源和数据加工方式，从而完成数据加工任务。
【附图说明】
[0023]图1为本发明的方法流程图。
【具体实施方式】
[0024]下面结合附图对本发明进行进一步详细描述。本发明基于配置语言的数据加工中心的数据流式处理方法包括以下步骤:
[0025]1)配置数据获取:通过数据源接入端口获取数据源；数据源接入端口连接的数据源类型包括传统oracle、db2、mysql关系型数据库，Mongodb新型的非关系型数据库以及一些支持rdf数据格式的图形数据库；
[0026]2)数据加工模型及相应的配置:整体来说加工过程就是一个提取数据并且根据加工需求改变数据，生成业务需要的数据的过程。那么这里的数据加工模型就是描述了需要加工的数据资源和加工后的数据资源以及他们之间的对应关系。数据加工模型包括的内容有加工前数据的字段名称、数据字段的类型，加工后数据字段的名称和字段的类型以及加工前后数据字段之间的对应关系。
[0027]3)数据加工语法规则根据前文提到的数据加工模型的设计，将加工语法规则与数据加工模型融为一体，具体的加工语法规则如下，1.加工语法要描述提取哪个数据源当中的具体的加工字段信息。2.每一个需要加工的字段名称和相应的字段类型以及为每一个加工字段按照业务需求配置下文当中提出的数据加工处理模块当中的具体处理模块的名称以及一些数据处理时需要匹配的关键规则，例如正则规则或者模式匹配的规则。3.每一个加工字段加工后的名称和数据类型。其中数据加工模型的语法规则包括了抽取数据后数据的组织方式和数据的结构、每个字段处理模块集合，处理后字段的名称和字段的类型。
[0028]4)数据加工处理模块:本次发明根据常规的数据处理业务将加工系统的数据处理模块分成了六大类别:数据一对一映射处理模块、数据多对一融合模块、数据一对多拆分模块、数据排序模块、数据去重模块、数据处理执行流程控制模块。数据一对一映射处理模块包括了内容规则变换模块、字段名称变换模块、字段部分内容删除模块等等细分模块，该数据一对一映射处理模块接收由系统发送给他的需处理的数据和匹配规则rule、加工规则match、过滤条件，该模块装配需要加工匹配规则当中的字段名称pname、资源过滤的条件ofilter、需要删除的部分内容otrim、加工的数据类型ptype、加工后的字段名称pnewname、加工后的字段类型pnewtype等字段的信息，该数据一对一映射处理模块会根据配置的字段和具体的值进行判定是哪个细分模块进行处理，如果只配置了 pname和pnewname,那么系统会自动生成一个一对

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高玥;韩岳岐;侯艳飞;黎建辉;周园春;
技术所有人：中国科学院计算机网络信息中心;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。