一种基于数据湖的数据处理方法及系统与流程

文档序号:31063640发布日期:2022-08-09 20:04阅读:145来源:国知局
一种基于数据湖的数据处理方法及系统与流程

1.本技术涉及数据处理技术领域,更具体地,涉及一种基于数据湖的数据处理方法及系统。


背景技术:

2.现有的数据湖数据处理技术中,数据来源经常性发生错误,导致外部数据或其它非业务数据进入数据湖,且数据质量不能得到准确监控,字段质量较低,使得数据湖处理数据的效率降低。
3.因此,如何提高数据质量检测的准确性,是目前有待解决的技术问题。


技术实现要素:

4.本发明提供一种基于数据湖的数据处理方法,用以解决现有技术中数据质量检测准确性低的技术问题。该方法应用于包括数据仓库的平台中,该方法包括:基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;对所述贴源表到维度建模的需监控字段进行校验;在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;根据所述业务需求将汇总层、集市层中的数据表通过数据接口和jdbc的方式对外开放。
5.本技术一些实施例中,所述方法还包括:若源数据来源于本地上传,则将所述数据导入数据湖;若源数据来源于线上传输,则判断所述线上传输来源;若所述线上传输来源于从属所述数据湖的局域网,则将所述数据导入数据湖;若所述线上传输并非来源于从属所述数据湖的局域网,则不导入数据到数据湖。
6.本技术一些实施例中,所述方法还包括:若贴源表到维度建模的所有字段中存在重复性较高的字段,将该字段作为需监控字段;若贴源表到维度建模的所有字段中不存在重复性较高的字段,则将贴源表到维度建模的所有字段作为需监控字段;其中,重复性较高为字段中字节出现次数超过固定值。
7.本技术一些实施例中,对所述贴源表到维度建模的需监控字段进行校验,具体为:若所述需监控字段中字段重复值和字段空值超过阈值,且所述需监控字段的日期格式不符合预设标准,则所述需监控字段被标记成低质量字段。
8.本技术一些实施例中,所述方法还包括:基于所述业务需求设定预设调度时间,基于所述预设调度时间同步更新所述集市层的数据,使集市层的数据处于最新状态。
9.对应的,本技术还提供了一种基于数据湖的数据处理系统,该系统包括:导入模块,用于基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;建立模块,用于根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;校验模块,用于对所述贴源表到维度建模的需监控字段进行校验;监控模块,用于在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;开放模块,用于根据所述业务需求将汇总层、集市层中的数据表通过数据接口和jdbc的方式对外开放。
10.本技术一些实施例中,所述系统还包括判定模块,该模块用于:若源数据来源于本地上传,则将所述数据导入数据湖;若源数据来源于线上传输,则判断所述线上传输来源;若所述线上传输来源于从属所述数据湖的局域网,则将所述数据导入数据湖;若所述线上传输并非来源于从属所述数据湖的局域网,则不导入数据到数据湖。
11.本技术一些实施例中,所述系统还包括鉴别模块,该模块用于:若贴源表到维度建模的所有字段中存在重复性较高的字段,将该字段作为需监控字段;若贴源表到维度建模的所有字段中不存在重复性较高的字段,则将贴源表到维度建模的所有字段作为需监控字段;其中,重复性较高为字段中字节出现次数超过固定值。
12.本技术一些实施例中,所述校验模块,具体用于:若所述需监控字段中字段重复值和字段空值超过阈值,且所述需监控字段的日期格式不符合预设标准,则所述需监控字段被标记成低质量字段。
13.本技术一些实施例中,所述系统还包括更新模块,该模块用于:基于所述业务需求设定预设调度时间,基于所述预设调度时间同步更新所述集市层的数据,使集市层的数据处于最新状态。
14.通过应用以上技术方案,基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;对所述贴源表到维度建模的需监控字段进行校验;在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;根据所述业务需求将汇总层、集市层中的数据表通过数据接口和jdbc的方式对外开放。能避免数据来源错误的问题,提高数据处理效率,能实时准确监控数据质量,出现问题时及时发现。支持大规模集群,数据量大,集群规模需要能满足,1pb以上的数据量。支持高并发交互查询,数据湖
内的数据,可以做到百级并发下,2秒以内的人机交互查询。
附图说明
15.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
16.图1示出了本发明实施例提出的一种基于数据湖的数据处理方法的流程示意图;图2示出了本发明实施例提出的一种基于数据湖的数据处理系统的结构示意图。
具体实施方式
17.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
18.本技术提供了一种基于数据湖的数据处理方法,如图1所示,该方法包括:步骤s101,基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;步骤s102,根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;步骤s103,对所述贴源表到维度建模的需监控字段进行校验;步骤s104,在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;步骤s105,根据所述业务需求将汇总层、集市层中的数据表通过数据接口和jdbc的方式对外开放。
19.步骤s101中,基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中。
20.本实施例中,根据设定的数据接入规范将所有的源数据信息分类成源系统信息、源表基本信息和源数据特征信息等,使入湖前源数据信息更加清晰透明,方便后续数据处理操作。在贴源层构建贴源表,并将数据源文件导入数据湖中。
21.为了保证数据来源的正确性,本技术一些实施例中,所述方法还包括:若源数据来源于本地上传,则将所述数据导入数据湖;若源数据来源于线上传输,则判断所述线上传输来源;若所述线上传输来源于从属所述数据湖的局域网,则将所述数据导入数据湖;若所述线上传输并非来源于从属所述数据湖的局域网,则不导入数据到数据湖。
22.步骤s102中,根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题。
23.本实施例中,根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,所述数据指标包括原子指标、衍生指标和复
合指标。将所述原子指标、所述衍生指标和所述复合指标进行汇总,在集市层建立对应的集市主题。原子指标,不加任何修饰词的指标就是原子指标,也叫度量(一般是表中,聚合字段,订单量,用户量,pv,uv等)。复合指标,指建立在基础指标之上,通过一定运算规则形成的计算指标集合,如平均用户交易额、资产负债率等。衍生指标,指基础指标或复合指标与维度成员、统计属性、管理属性等相结合产生的指标,如交易金额的完成值、计划值,累计值、同比、环比、占比等。
24.维度建模(dimensional modeling)是数据仓库建设中的一种数据建模方法,将数据结构化的逻辑设计方法,它将客观世界划分为度量和上下文。维度表可以看作是用户来分析数据的窗口,维度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特性的层次结构。事实表,即为事实数据表的简称。主要特点是含有大量的数据,并且这些数据是可以汇总,并被记录的。
25.步骤s103中,对所述贴源表到维度建模的需监控字段进行校验。
26.本实施例中,对贴源表到维度建模的部分字段,分类型进行枚举值、字段重复值、字段空值和日期格式等方式进行校验,以此保证数据质量。
27.本技术一些实施例中,所述方法还包括:若贴源表到维度建模的所有字段中存在重复性较高的字段,将该字段作为需监控字段;若贴源表到维度建模的所有字段中不存在重复性较高的字段,则将贴源表到维度建模的所有字段作为需监控字段;其中,重复性较高为字段中字节出现次数超过固定值。
28.可以理解的是,所述固定值可以根据数据情况和业务需求进行适应性调整,这也属于本技术的保护范围之内。
29.本技术一些实施例中,对所述贴源表到维度建模的需监控字段分类型进行校验,具体为:若所述需监控字段中字段重复值和字段空值超过阈值,且所述需监控字段的日期格式不符合预设标准,则所述需监控字段被标记成低质量字段。
30.步骤s104中,在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控。
31.本实施例中,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控。元数据(metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
32.本技术一些实施例中,所述方法还包括:基于所述业务需求设定预设调度时间,基于所述预设调度时间同步更新所述集市层的数据,使集市层的数据处于最新状态。
33.步骤s105中,根据所述业务需求将汇总层、集市层中的数据表通过数据接口和jdbc的方式对外开放。
34.本实施例中,根据所述业务需求将汇总层和集市层中的所有数据表通过数据接口和jdbc的方式对外开放。数据接口就是进行数据传输时向数据连接线输出数据的接口。无线解码器常见接口为rs-232端口。rs-232-c接口(又称eia rs-232-c)是最常用的一种串行通讯接口。java数据库连接,(java database connectivity,简称jdbc)是java语言中用来规范客户端程序如何来访问数据库的应用程序接口,提供了诸如查询和更新数据库中数据的方法。
35.可以理解的是,上述预设调度时间、固定值、阈值均可根据实际需求就行调整,这均属于本技术保护范围之内。
36.通过应用以上技术方案,基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;对所述贴源表到维度建模的需监控字段进行校验;在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;根据所述业务需求将汇总层、集市层中的数据表通过数据接口和jdbc的方式对外开放。能避免数据来源错误的问题,提高数据处理效率,能实时准确监控数据质量,出现问题时及时发现。支持大规模集群:数据量大,集群规模需要能满足,1pb以上的数据量。支持高并发交互查询:数据湖内的数据,可以做到百级并发下,2秒以内的人机交互查询。支持湖内更新操作,数据离线处理中,除了常见的查询和追加操作外,通常也存在更新操作,也就是常说的湖仓一体。数据一份存储,一份数据支持多种分析,离线处理和交互查询所需要的数据,不能重复存储多份。数据权限和资源隔离(多租户),多种离线处理作业同时运行,需要不同的数据权限和资源调度,避免越权访问和抢占资源。接口与开源兼容,客户通常存在存量离线处理应用,需要迁移到离线数据湖。支持多数据源,多种数据加载方式,数据源存放在多种类型来源,存在多种类型数据,存在多种数据格式。支持与第三方软件对接(可视化、分析挖掘、报表、元数据等),对接多种第三方工具,方便进行数据进一步的分析和管理。
37.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施场景所述的方法。
38.为了进一步阐述本发明的技术思想,现结合具体的应用场景,对本发明的技术方案进行说明。
39.该方法该包括如下步骤:准备工作:根据数据接入规范,梳理分类相关的源数据信息,包括源系统信息、源表基本信息、数据特征信息等。
40.数据集成:在数据仓库的贴源层构建贴源表,并通过数据集成模块将数据源文件导入数据湖。
41.规范设计:基于业务应用分析需求,在规范设计模块进行维度建模,设计并创建维度表及事实表。基于事实表,在数据规范模块中设计原子指标、衍生指标、复合指标。建立对应的集市专题,支撑业务的分析和应用建设。
42.数据开发:使用该模块中的作业开发,将相应的数据开发步骤形成流水线,并进行周期调度,定期同步数据,更新最终集市层数据。
43.数据质量:创建数据质量监控作业,对贴源表到维度建模的部分字段,分类型进行枚举值、字段重复值、字段空值、日期格式等校验。
44.数据资产:针对构造的维度表、事实表、及汇总表,在数据资产模块中进行元数据采集并监控。周期调度数据采集任务,定期更新技术资产。
45.数据服务:在数据服务模块中根据需求将汇总层、集市层中的数据表以数据接口和jdbc的方式对外进行开放。
46.除上述步骤外,本技术还包括:数据消费:根据业务需要,提供可视化展示等最终业务消费能力。
47.对应的,本技术还提供了一种基于数据湖的数据处理系统,如图2所示,该系统应用于包括数据仓库的平台中,该系统包括:导入模块201,用于基于数据接入规范将所有源数据信息进行分类,在贴源层构建贴源表,并将数据源文件导入数据湖中;建立模块202,用于根据业务应用分析业务需求,基于所述业务需求进行维度建模,并创建维度表及事实表,根据事实表设置数据指标,基于所述数据指标在集市层建立集市专题;校验模块203,用于对所述贴源表到维度建模的需监控字段进行校验;监控模块204,用于在汇总层构建汇总表,对所述维度表、所述事实表和所述汇总表进行元数据采集并监控;开放模块205,用于根据所述业务需求将汇总层、集市层中的数据表通过数据接口和jdbc的方式对外开放。
48.本技术一些实施例中,所述系统还包括判定模块,该模块用于:若源数据来源于本地上传,则将所述数据导入数据湖;若源数据来源于线上传输,则判断所述线上传输来源;若所述线上传输来源于从属所述数据湖的局域网,则将所述数据导入数据湖;若所述线上传输并非来源于从属所述数据湖的局域网,则不导入数据到数据湖。
49.本技术一些实施例中,所述系统还包括鉴别模块,该模块用于:若贴源表到维度建模的所有字段中存在重复性较高的字段,将该字段作为需监控字段;若贴源表到维度建模的所有字段中不存在重复性较高的字段,则将贴源表到维度建模的所有字段作为需监控字段;其中,重复性较高为字段中字节出现次数超过固定值。
50.本技术一些实施例中,所述校验模块203,具体用于:若所述需监控字段中字段重复值和字段空值超过阈值,且所述需监控字段的日期格式不符合预设标准,则所述需监控字段被标记成低质量字段。
51.本技术一些实施例中,所述系统还包括更新模块,该模块用于:基于所述业务需求设定预设调度时间,基于所述预设调度时间同步更新所述集市层的数据,使集市层的数据处于最新状态。
52.本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
53.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1