一种数据集成方法及系统与流程

文档序号:24984899发布日期:2021-05-07 23:02阅读:138来源:国知局
一种数据集成方法及系统与流程

本申请涉及数据集成技术领域,尤其涉及一种数据集成方法及系统。



背景技术:

在数据爆炸的时代,几乎每时每刻都在产生数据。对于数据工作者来说,在实际应用中,面对海量数据,数据集成的常规步骤分为数据抽取、数据转换和清洗、数据落地,然后才能从海量数据中提炼出有价值的东西,而数据集成要解决的首要问题是各个数据源之间的异构性,所以如何高效地将数据集成为高质量的数据资产,对实现数据的高价值回报有极其重要的意义。现有技术,针对各个不同数据源,配置一套独立的定制的数据处理流程,基于数据源独有的通信协议的异构、数据模式的异构、数据类型的异构、语义的异构、取值的异构来开发和搭建数据集成的流程,实现方案物理逻辑图如图2所示。现有技术的缺点为如下,数据标准和相关管理规范缺乏,造成数据缺、杂、乱、错现象发生概率大,无统一监控标准,发现问题不及时;数据附加过多业务逻辑,跨系统跨部门很难统一和打通,造成数据孤岛现象严重,无法实现数据的有效共享;接入流程分散不集中统一,需要多方协调,人力成本高,效率低;处理流程不可视,不可自由调整变更流程。

因此,针对以上现状,本发明提出一种数据集成方法及系统,本发明本发明针对多源通信协议,开发了各自适用的通用数据入口,定义了统一规范,从而实现高效接入,配置统一监控,及时发现数据漏洞。同时将数据结构剥离业务逻辑,从而降低数据共享难度,解决数据孤岛问题,并将数据入口和后续流程通用化,定义了统一规范,配置入口直接接入,提高了接入效率,降低人力重复开发的成本。与此同时,本发明实现了可拖拽式通用模块,自由布局搭建处理流,支持元数据可配置,可一键式干涉任务处理,实现流程可视和可控。



技术实现要素:

本申请实施例提供了一种数据集成方法及系统,以至少解决相关技术中主观因素影响的问题。

本发明提供了一种数据集成方法,包括:

统一步骤:统一多源通信协议的数据入口,并接入到数据处理流程中;

数据处理步骤:将所述数据处理流程中的非标准原始数据清洗为标准原始数据;

接口接入步骤:将所述数据处理流程中所有所述标准原始数据以任务为单位,通过接口接入到可视化管理页面中。

上述的数据集成方法,所述统一步骤包括,抽象所述多源通信协议的所述数据入口后,统一所述数据入口,并接入到数据处理流程中。

上述的数据集成方法,所述数据处理步骤包括,将所述数据处理流程中的所述非标准原始数据清洗为所述标准原始数据后,将所述标准原始数据落地到数据库中。

上述的数据集成方法,所述接口接入步骤包括,监控所述数据处理流程,并将所述数据处理流程中所有所述标准原始数据以任务为单位,通过所述接口接入到所述可视化管理页面中。

上述的数据集成方法,所述可视化管理页面包括,将所述数据处理流程分步骤抽象成的数据处理流程模块与任务管理模块。

本发明还提供一种数据集成系统,其中,适用于上述所述的数据集成方法,所述数据集成系统包括:

统一单元:统一多源通信协议的数据入口,并接入到数据处理流程中;

数据处理单元:将所述数据处理流程中的非标准原始数据,清洗为标准原始数据;

接口接入单元:将所述数据处理流程中所有所述标准原始数据以任务为单位,通过接口接入到可视化管理页面中。

上述的数据集成系统,所述统一单元抽象所述多源通信协议的所述数据入口后,统一所述数据入口,并接入到数据处理流程中。

上述的数据集成系统,所述数据处理单元将所述数据处理流程中的所述非标准原始数据,清洗为所述标准原始数据后,将所述标准原始数据落地到数据库中。

上述的数据集成系统,所述接口接入单元监控所述数据处理流程,并将所述数据处理流程中所有所述标准原始数据以任务为单位,通过所述接口接入到所述可视化管理页面中。

上述的数据集成系统,所述可视化管理页面包括,将所述数据处理流程分步骤抽象成的数据处理流程模块与任务管理模块。

相比于相关技术,本发明提出一种数据集成方法及系统,本发明针对多源通信协议,开发了各自适用的通用数据入口,定义了统一规范,从而实现高效接入,配置统一监控,及时发现数据漏洞。同时将数据结构剥离业务逻辑,从而降低数据共享难度,解决数据孤岛问题,并将数据入口和后续流程通用化,定义了统一规范,配置入口直接接入,提高了接入效率,降低人力重复开发的成本。与此同时,本发明实现了可拖拽式通用模块,自由布局搭建处理流,支持元数据可配置,可一键式干涉任务处理,实现流程可视和可控。

本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的数据集成方法流程图;

图2是根据本申请实施例的现有技术实现方案框架图;

图3是根据本申请实施例的实现方案框架图;

图4为本发明的数据集成系统的结构示意图;

图5是根据本申请实施例的电子设备的框架图。

其中,附图标记为:

统一单元:51;

数据处理单元:52;

接口接入单元:53;

81:处理器;

82:存储器;

83:通信接口;

80:总线。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。

除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。

本发明基于数据集成,下面进行简要的介绍。

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。目前在企业中,由于开发时间或开发部门的不同,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,使得数据难以在系统之间交流、共享和融合,从而形成了"信息孤岛"。随着信息化应用的不断深入,企业内部、企业与外部信息交互的需求日益强烈,急切需要对已有的信息进行整合,联通“信息孤岛”,共享信息。数据集成:数据集成通过应用间的数据交换从而达到集成,主要解决数据的分布性和异构性的问题,其前提是被集成应用必须公开数据结构,即必须公开表结构,表间关系,编码的含义等。企业当前的抉择将决定它们能否顺利度过眼下的金融风暴。每个业务规则的成功秘诀只有一个:及时、完整和准确的数据。这正是需要it的环节。企业期望其it机构能够随时按要求提供业务所需的数据。但说起来容易,做起来难。数据分散于整个企业-应用程序、数据库、桌面上的pdf、excel电子数据表和word文档中。它也存储在公司防火墙之外-在与软件即服务(saas)和业务流程包(bpo)供应商以及与贸易合作伙伴的应用程序“云”中。it机构感觉问题很棘手。每个业务规则生成一个新it方案。每个新it方案创建一个新it项目。每个it项目均需要数据-访问数据、迁移和整合数据以及基本清楚数据的质量。

传统数据集成方法存在不足之处。它们不能解决当今it环境的复杂性,也不能覆盖it必须执行的一系列方案的处理。对于连接数百(或数千)个应用程序的不同单点解决方案,它们仅仅分裂运营数据并将其锁定在部门应用程序中,例如erp和crm。以应用程序为中心的数据集成方法没有考虑所有企业数据。例如,它们不能处理计划数据,这些计划数据通常保存在excel电子数据表中,而未保存在部门数据库应用程序中。它们也不能解决驻留在企业外部的有关bpo或saas供应商的数据或与贸易合作伙伴共享的数据。手动编码数据集成方法也不起作用。手动编码费时费力,并且还容易犯错。由于it机构力求管理更多的数据和更多的数据格式,手动编码通常导致更复杂-而不是更简单,如图2所示。它会增加维护成本并使it效率下降。it机构需要采用可靠的新方法进行数据集成-新方法可以:集成企业内的所有内部预置数据孤岛,包括非结构化数据集成;云计算应用程序和系统中的外部数据;与贸易合作伙伴之间以企业对企业的形式无缝交换数据;确保所有数据的质量;经济高效地管理应用程序生命周期。而在企业要求其it机构处理更多数据集成项目时,它们已经在财务上严阵以待。如果没有积极削减it预算,企业则会更加仔细地检查每笔开支。企业正在放缓it采购周期,以做到其它方面的谨慎处理。它们正在延长部署时间,以评估总拥有成本(tco)和分析潜在投资回报(roi)。另外,它们正在积极寻找控制成本和消除冗余的方法。面对这两种相反力量的平衡,您的it机构需要提高roi,同时降低tco。您可以采用三种平衡方法:提高运营效率;充分利用现有技术投资;降低开发和部署成本以及运营和维护的开支。it机构可以通过数据集成平台一次性实施所有这些方法。平台是一整套全面的技术,包括访问、发现、清洗、集成并为扩张的企业提供数据。当今密切审核的it预算使成本成为关键的考虑因素。单独的集成方法,例如手动编码或单点解决方案,乍一看好像经济实惠,但是事实很快证明为这样的方法提供支持费时费力。更改单个应用程序或系统将导致跨越多个集成点的连锁反应,以致创建的结果不可靠,从而不得不进行额外的交叉检查和手动清洗。相比之下,数据集成平台可大为减少部署、维护和管理所需的时间和资源。易用的、基于角色的工具和可复用的开发资产库可提高工作效率并降低部署时间。规范化的方法可消除差异,使结果更准确。高可扩展性和简便的管理可简化维护与升级。这等于使it成本在最初以及一段时间以来均获得一定的减少。从仅仅是“保持业务持续运转”转变为“不断开发出新项目”数据集成平台可以帮助您的it机构大大缩减成本,从而从简单的“保持业务持续运转”转变为“不断开发出新项目”。

随着企业日渐将数据管理视为业务问题,而不再仅仅是it方面的考虑,将多个工具、技能集和供应商的复杂度降至最低对于工作效率的提高变得尤为关键。许多it机构都需要了解这重要的一课。它们尝试着处理多个数据集成项目,然而,对于每个项目所采用的方法却仍然建立在“特殊”的基础上。由于每个项目采用不同的工具和方法,并且无法充分利用过去项目中形成和吸取的教训,因此往往只能以成本高、复杂、冗余和不可靠收场。数据集成平台通过提高工作效率,帮助it机构更为高效地运营。平台使it不必在每个项目上做重复工作。it而是可以在所有项目中共享方法、技术和资产,例如逻辑和元数据。当您在平台上标准化数据集成实践,然后创建集成能力中心(integrationcompetencycenter,简称icc)或卓越中心时,您可以在集成应用程序和数据接口的开发时间与成本以及维护成本方面获得极大节省。数据集成还涉及许多不同角色-从数据管理员和业务分析师到数据架构师和it开发人员-各司其职并且各尽所能。it部门和业务部门需要协同工作,以便以更为快速和实惠的方式应对不断变化的业务需求。统一的数据集成平台让it部门和业务部门可以更加有效地协作。平台提供界面和使用感受一致的工具集,使工具集中各部分能够在多个项目中无缝配合使用。这些工具专为各项功能定制,因此各岗位人员都能专注于他们各自的专长领域,并更为迅速地提高自身技能。参与数据集成的各人员只需花费较少时间了解平台,从而可以将更多时间投入本职工作中。

本发明提出一种数据集成方法及系统,本发明针对多源通信协议,开发了各自适用的通用数据入口,定义了统一规范,从而实现高效接入,配置统一监控,及时发现数据漏洞。同时将数据结构剥离业务逻辑,从而降低数据共享难度,解决数据孤岛问题,并将数据入口和后续流程通用化,定义了统一规范,配置入口直接接入,提高了接入效率,降低人力重复开发的成本。与此同时,本发明实现了可拖拽式通用模块,自由布局搭建处理流,支持元数据可配置,可一键式干涉任务处理,实现流程可视和可控。

下面将数据集成为例对本申请实施例进行说明。

实施例一

本实施例提供了数据集成方法。请参照图1-图3,图1是根据本申请实施例的数据集成方法流程图;图2是根据本申请实施例的现有技术实现方案框架图;图3是根据本申请实施例的实现方案框架图,如图所示,数据集成方法包括如下步骤:

统一步骤s1:统一多源通信协议的数据入口,并接入到数据处理流程中;

数据处理步骤s2:将所述数据处理流程中的非标准原始数据清洗为标准原始数据;

接口接入步骤s3:将所述数据处理流程中所有所述标准原始数据以任务为单位,通过接口接入到可视化管理页面中。

实施例中,所述统一步骤s1包括,抽象所述多源通信协议的所述数据入口后,统一所述数据入口,并接入到数据处理流程中。

具体实施中,针对多源通信协议,抽象各自通用的数据入口,开发适用之后类似接入协议的新增数据源,定义统一规范,方便管理,提高接入效率,降低人力重复开发的成本。数据处理流程实现统一的监控标准和管理页面,支持元数据可配置,可一键式干涉任务处理。

实施例中,所述数据处理步骤s2包括,将所述数据处理流程中的所述非标准原始数据清洗为所述标准原始数据后,将所述标准原始数据落地到数据库中。

实施例中,所述接口接入步骤s3包括,监控所述数据处理流程,并将所述数据处理流程中所有所述标准原始数据以任务为单位,通过所述接口接入到所述可视化管理页面中。

具体实施中,数据入口统一后,后续流程采用一体式通用流程,标准化后的原始数据落地,实现跨部门数据共享。实现处理流程可视化界面,数据处理逻辑分步骤抽象成各通用模块,各模块间解耦合,从而实现模块可自由布局和拖拽。

实施例中,所述可视化管理页面包括,将所述数据处理流程分步骤抽象成的数据处理流程模块与任务管理模块。

由此,本发明提出一种数据集成方法及系统,本发明针对多源通信协议,开发了各自适用的通用数据入口,定义了统一规范,从而实现高效接入,配置统一监控,及时发现数据漏洞。同时将数据结构剥离业务逻辑,从而降低数据共享难度,解决数据孤岛问题,并将数据入口和后续流程通用化,定义了统一规范,配置入口直接接入,提高了接入效率,降低人力重复开发的成本。与此同时,本发明实现了可拖拽式通用模块,自由布局搭建处理流,支持元数据可配置,可一键式干涉任务处理,实现流程可视和可控。

实施例二

请参照图4,图4为本发明的数据集成系统的结构示意图。如图4所示,发明的数据集成系统,适用于上述的数据集成方法,数据集成系统包括:

统一单元51:统一多源通信协议的数据入口,并接入到数据处理流程中;

数据处理单元52:将所述数据处理流程中的非标准原始数据,清洗为标准原始数据;

接口接入单元53:将所述数据处理流程中所有所述标准原始数据以任务为单位,通过接口接入到可视化管理页面中。

在本实施例中,所述统一单元51抽象所述多源通信协议的所述数据入口后,统一所述数据入口,并接入到数据处理流程中。

在本实施例中,所述数据处理单元52将所述数据处理流程中的所述非标准原始数据,清洗为所述标准原始数据后,将所述标准原始数据落地到数据库中。

在本实施例中,所述接口接入单元53监控所述数据处理流程,并将所述数据处理流程中所有所述标准原始数据以任务为单位,通过所述接口接入到所述可视化管理页面中。

在本实施例中,所述可视化管理页面包括,将所述数据处理流程分步骤抽象成的数据处理流程模块与任务管理模块。

实施例三

结合5所示,本实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地,上述处理器81可以包括中央处理器(cpu),或者特定集成电路(applicationspecificintegratedcircuit,简称为asic),或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(harddiskdrive,简称为hdd)、软盘驱动器、固态驱动器(solidstatedrive,简称为ssd)、闪存、光盘、磁光盘、磁带或通用串行总线(universalserialbus,简称为usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(non-volatile)存储器。在特定实施例中,存储器82包括只读存储器(read-onlymemory,简称为rom)和随机存取存储器(randomaccessmemory,简称为ram)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(programmableread-onlymemory,简称为prom)、可擦除prom(erasableprogrammableread-onlymemory,简称为fprom)、电可擦除prom(electricallyerasableprogrammableread-onlymemory,简称为efprom)、电可改写rom(electricallyalterableread-onlymemory,简称为earom)或闪存(flash)或者两个或更多个以上这些的组合。在合适的情况下,该ram可以是静态随机存取存储器(staticrandom-accessmemory,简称为sram)或动态随机存取存储器(dynamicrandomaccessmemory,简称为dram),其中,dram可以是快速页模式动态随机存取存储器(fastpagemodedynamicrandomaccessmemory,简称为fpmdram)、扩展数据输出动态随机存取存储器(extendeddateoutdynamicrandomaccessmemory,简称为edodram)、同步动态随机存取内存(synchronousdynamicrandom-accessmemory,简称sdram)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意数据集成方法。

在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中,如图5所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据集成设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(databus)、地址总线(addressbus)、控制总线(controlbus)、扩展总线(expansionbus)、局部总线(localbus)。举例来说而非限制,总线80可包括图形加速接口(acceleratedgraphicsport,简称为agp)或其他图形总线、增强工业标准架构(extendedindustrystandardarchitecture,简称为eisa)总线、前端总线(frontsidebus,简称为fsb)、超传输(hypertransport,简称为ht)互连、工业标准架构(industrystandardarchitecture,简称为isa)总线、无线带宽(infiniband)互连、低引脚数(lowpincount,简称为lpc)总线、存储器总线、微信道架构(microchannelarchitecture,简称为mca)总线、外围组件互连(peripheralcomponentinterconnect,简称为pci)总线、pci-express(pci-x)总线、串行高级技术附件(serialadvancedtechnologyattachment,简称为sata)总线、视频电子标准协会局部(videoelectronicsstandardsassociationlocalbus,简称为vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。

电子设备可连接数据集成系统,从而实现结合图1-图3描述的方法。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1