一种多源数据处理方法、装置及计算机设备与流程

文档序号:31844818发布日期:2022-10-18 23:31阅读:48来源:国知局
一种多源数据处理方法、装置及计算机设备与流程

1.本技术涉及计算机技术领域,特别涉及一种多源数据处理方法、装置及计算机设备。


背景技术:

2.随着商品经济的不断发展,众多企业的业务数据量庞大,来源复杂。大数据分析在企业数据驱动、数字化转型的过程中起到重要作用。对多源数据进行有效、便捷的治理,是大数据工作的基础和前提,对企业的信息化建设有重要意义。如今包含大量业务数据的联机事务处理系统(online transaction processing,oltp)产生的数据不仅数量大,不同类别的数据还会呈现不同的维度口径及颗粒细度。对应的联机事务分析系统(online analytical processing,olap)在对不同源头的数据进行存储和处理时存在不便。随着数据类型规模和数据类型的不断膨胀,传统的数据管理系统难以实现数据的有效处理。
3.数据立方是一种处理多维数据库的数据架构,可以通过钻取、上卷、切片、切块、旋转等操作对数据进行不同维度的查询和分析,以满足不同业务系统的数据交叉分析需要,进而可以通过分析结果挖掘数据价值,以数据驱动业务发展。然而由于数据立方架构的数据量庞大复杂,数据处理的耗时长,效率低。


技术实现要素:

4.为解决现有的数据分析处理系统对多源数据的处理效率低的问题,本技术提供一种多源数据处理方法、装置及计算机设备,从而提高多源数据分析处理的效率。
5.一方面,提供了一种多源数据处理方法,包括:
6.获取多源数据;
7.基于所述多源数据建立数据立方模型,所述数据立方模型包括至少一个方体;
8.计算所述数据立方模型中各个方体的组合数据,并对所述组合数据进行存储。
9.另一方面,提供了一种多源数据处理装置,所述装置包括:
10.数据获取模块,用于获取多源数据;
11.数据立方模型建立模块,用于基于所述多源数据建立数据立方模型,所述数据立方模型包括至少一个方体;
12.预计算模块,用于计算所述数据立方模型中各个方体的组合数据,并对所述组合数据进行存储。
13.另一方面,提供了一种计算机设备,计算机设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,处理器可加载并执行至少一条指令、至少一段程序、代码集或指令集,以实现上述申请实施例中提供的多源数据处理方法。
14.另一方面,提供了一种计算机可读存储介质,可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,处理器可加载并执行至少一条指令、至少一段程序、代码集或指令集,以实现上述本技术实施例中提供的多源数据处理方法。
15.另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产权或计算机程序包括计算机程序指令,该计算机程序指令存储于计算机可读存储介质中。处理器从计算机可读存储介质读取该计算机指令,并执行还计算机指令,使得该计算机设备执行上述实施例中任一所述的多源数据处理方法。
16.本技术提供的技术方案带来的有益效果至少包括:本发明实施例提供了一种多源数据处理方法,包括:获取多源数据;基于所述多源数据建立数据立方模型,所述数据立方模型包括至少一个方体;计算所述数据立方模型中各个方体的组合数据,并对所述组合数据进行存储。本发明实施例提供的多源数据处理方法能够对多源数据进行条理有效的存储,预先计算数据立方模型中各个方体的组合数据,便于用户查询调用,提高多源复合数据在不同维度上的查询和检索能力,提高数据分析的效率,能够适应多种场景需要。
附图说明
17.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1示出了本技术一个示例性实施例提供的一种多源数据处理方法的流程图;
19.图2示出了本技术一个示例性实施例提供的一种多源数据处理方法的又一流程图;
20.图3a至图3e示出了本技术一个示例性实施例提供的多源数据处理方法中的数据立方模型示意图;
21.图4示出了本技术一个示例性实施例提供的一种多源数据处理装置的结构图;
22.图5示出了本技术一个示例性实施例提供的一种多源数据处理方法的计算机设备的结构示意图。
具体实施方式
23.为使本技术的目的、技术方案和优点更加清楚,下面将接合附图对本技术实施方式作进一步地详细描述。
24.本技术提供的多源数据处理方法,可以提高多源数据分析处理的效率,减少耗时。
25.实施例一、
26.图1示出了本技术一个示例性实施例提供的多源数据处理方法的流程图。
27.参见图1,本技术提供的多源数据处理方法可以包括步骤101至步骤103。
28.步骤101:获取各业务系统的多源数据。
29.在一些实施例中,业务系统可以包括联机事务处理系统,步骤101具体包括:
30.通过开通数据接口的方式获取联机事务处理系统的多源数据。
31.步骤102:基于所述多源数据建立数据立方模型,所述数据立方模型包括至少一个方体。
32.在一些实施例中,步骤102具体包括:
33.对所述多源数据进行预处理,基于预处理后的多源数据建立维度表;
34.基于所述维度表建立事实宽表;
35.基于所述事实宽表中不同维度的数据建立所述数量立方模型。
36.可选的,预处理过程包括通过etl工具对多源数据进行清洗转换。
37.可选的,维度表存储于数仓ods层,事实宽表存储于数仓cdm层。
38.本发明实施例基于多维数据构建抽象的数据立方模型,能够解决传统的数据存储和处理模型难以处理多源数据的问题,可以大幅降低响应时间,改善查询效率,从而提高oltp数据处理性能。
39.步骤103:计算所述数据立方模型中各个方体的组合数据,并对所述组合数据进行存储。
40.在一些实施例中,步骤103具体包括:
41.计算所述数据立方模型中各个方体所能构成的所有组合;
42.对每个组合计算其组合数据。
43.在一些实施例中,步骤103之前,还可以包括:
44.判断当前空闲算力是否满足第一预设条件,若所述当前空闲算力满足所述第一预设条件,则执行计算所述数据立方模型中各个方体的组合数据。
45.在一些实施例中,第一预设条件为空闲算力占总算力的比例大于预设比例阈值,若当前时刻空闲算力所占比例大于比例阈值则,判定当前算力不紧张,可以进行组合数据的计算而不影响其他计算工作的进行。
46.可选的,当除去组合数据计算占用的算力之外,其余计算占用的算力大于预设的第二比例阈值时,暂停组合数据的计算,避免组合数据计算影响其他计算进程。
47.在一些实施例中,步骤103之前,还可以包括:
48.判断当前时间是否满足第二预设条件,若所述当前时间满足所述第二预设条件,则执行计算所述数据立方模型中各个方体的组合数据。
49.在一些实施例中,第二预设条件为当前时刻处于预设时间区间,例如预设时间区间为凌晨1:00至凌晨5:00,若当前时间在预设时间区间内,则判定当前为算力的空闲时间,可以进行组合数据的计算而不影响其他计算工作的进行。
50.在一些实施例中,步骤103之后,本方法还可以包括:
51.响应数据查询指令,调用所述组合数据中的目标数据进行显示。
52.本发明实施例提供的多源数据处理方法能够对庞大复杂的数据进行预先处理和存储,将oltp数据采用数据立方模型进行抽象建模,预先计算模型中的各个数据组合,从而支持对多源头数据的交叉查询分析,实现快速响应,提高数据处理分析的效率,降低对集群高算力的要求,为企业的数据分析提供可靠保障,促进企业实现挖掘数据价值,数据驱动业务发展的愿景。
53.实施例二、
54.图2示出了本方法的又一实现流程示意图。
55.参见图2,在一个具体的示例中,本发明实施例提供的多源数据处理方法的实现流程可以包括步骤一至步骤六。
56.步骤一:抓取业务系统源数据,业务系统源数据可以包括oltp数据。
57.具体的,可以通过开通数据接口等方式抓取oltp的各业务系统的源数据。
58.步骤二:通过etl工具对源数据进行清洗转换,建立维度表,并加载到数仓模型的ods层。
59.具体的,可以根据各业务系统声明的源数据粒度及olap数据分析系统分析决策需求,采用etl工具对相同粒度的源数据进行初步清洗及转换,加工到维度表,并加载到数仓模型的ods层。
60.步骤三:连接维度表,建立事实宽表,加载到数仓cdm层。
61.具体的,基于步骤二中建立的维度表的主键,建立事务事实宽表。
62.可选的,事务事实宽表包括各维度表之间的隐射关系、血缘关系;各维度表的表结构、字段说明、字段类型、原子指标、度量等;etl清洗数据的规则及过程信息;各字段的计算逻辑及子进程逻辑。
63.将建立好的事实宽度表加载到数仓模型的cdm层。
64.步骤四:抽取事实宽表中的不同维度数据建立数据立方模型。
65.具体的,基于步骤三中建立的事实宽表和olap数据分析系统,分析决策需求,抽取事实宽表中若干维度及指标,建立数据立方模型。
66.可选的,数据立方模型包含以下元素:n个维度集合、n个指标的集合、n个属性集合以及映射关系。
67.其中,n个维度集合={d1、d2

、dn};n个指标集合={m1、m2

、mn};n各属性集合={a1、a2

、an},维度中包含的列为维度属性,例如地理维度中包括国家名称、国家id、省份名称等;映射关系即为维度与属性的对应关系。
68.步骤五:完全立方物化,预先计算数据立方模型中的任何立方。
69.具体的,一个n维的数据立方,包含有2n个方体,在建立数据立方模型后可以预先计算模型中所有的可能组合,从而可以快速响应任何查询,快速返回预先计算好的结果,将计算结果加载到数仓模型的ads层。
70.步骤六:提供多维查询操作,满足多维分析需求。
71.具体的,基于以上步骤建立的数据立方模型和预先设定的etl脚本程序,实现对模型的多维度查询分析,查询分析的方式可以包括钻取或上卷。对同一维的不同层级间变化,可以将汇总数据拆分成更细的粒度,或将粒度数据聚合成高层级。还可以进行切片、切块操作,即在维度中选取特定的值或特定区间的值进行分析。此外还可以进行旋转操作,即将维的位置互换,实现指标在不同维度间的分析。
72.本发明实施例提供的多源数据处理方法能够预先对数据立方模型中的任何立方部分进行计算,无需在用户使用数据时调用过高的瞬时算力,从而对数据集群能力的要求降低。本发明实施例提供的多源数据处理方法的预先计算过程可以使用空闲时间和空闲算力进行,对预先计算结果进行存储后,即可应对用户查询。用户查询时只需查询预存的数据或进行简单运算即可输出结果,无需实时运算大量数据,从而可以实现快速响应。
73.实施例三、
74.图3a至图3e示出了本发明实施例提供的多源数据处理方法的一个具体示例示意图。
75.第一步进行数据获取。可选的,统计采购部各科室、各班组在不同时间范围内的各产品类别销售情况。
76.数据获取的来源多种多样,包括通过etl开发人员接入的销售系统的销售数据,业务人员手工维护的基础数据,以及业务人员上传的特殊产品销售数据等。
77.具体的,通过etl开发人员接入的销售系统的销售数据可以包括销售明细表、订单数据表、销售排行表等。
78.业务人员手工维护的基础信息可以包括分配规则表、对照表、税率表、科室班组组织信息表等。
79.第二步通过不同字段与规则进行连表,建立数据立方模型。
80.图3a示出了数据立方模型的一个具体示例。
81.参见图3a,在一个具体的示例中,建立一个三维度数据立方模型,分别为产品维、时间维、组织维。
82.具体的,产品维包括模具、智能装备、工业制品。
83.时间维包括一季度、二季度、三季度。
84.组织维包括一科室、二科室、三科室。
85.在实际应用中,数据立方模型的维度可以大于三维,例如还可以包括区域维度、价格维度等等。
86.第三步预先计算数据立方模型中各个小立方的数据。
87.例如,图3b示出了本示例中第三季度工业制品的销量。
88.图3c示出了本示例中二科室模具的销售收入。
89.图3d示出了一二科室二三季度所有产品的销售收入。
90.进一步,时间维度还可以进行进一步细化下钻,例如将按季度划分的数据进行分析,得到按月划分的数据。
91.例如,图3e示出了本示例对时间维进行下钻后,一二科室二三月份所有频率产品的销售收入。
92.第四步基于计算后的数据立方模型任意选择不同维度进行交叉分析。
93.由于已经通过大数据集群的算力提前将数据立方模型中所有维度、所有可实现组合进行运算及存储,用户在查询使用数据时只需查找调用预存的数据即可,或进行小数据量的简单计算,无需实时进行海量数据运算,从而可以实现快速响应。
94.此外,基于本发明实施例提供的多源数据处理方法处理的数据可以用于业务分析,可以起到业务生产指导,反映异常情况以及预测作用。单一的销售数据或订单数据难以体现其价值,而进行多方面多维度的数据运算后的结果可以对业务情况进行综合的反映。例如,对基于历史数据建立的数据立方模型进行分析,统计不同时间段内的销售波动情况,可以指导以后的产品生产情况;对不同科室的销售情况进行分析,反映出销量较低的科室,进而查找销量低的原因;对以往的数据进行环比,从而对接下来的销量进行预测。
95.综上所述,本发明实施例提供的多源数据处理方法依据大数据处理技术建立多源数据的存储和处理模型,能够为olap分析系统提供数据基础,同时能够提高多源复合数据在不同维度上的实时查询和检索能力,具备数据实时入库、实时查询、查询结果实时传输的优势,能够适应多场景的数据应用分析需求。
96.实施例四、
97.图4示出了本发明实施例提供的多源数据处理装置的示意图。
98.参见图4,本发明实施例提供的多源数据处理装置可以包括:
99.数据获取模块201,用于获取各业务系统产生的多源数据;
100.数据立方模型建立模块202,用于基于所述多源数据建立数据立方模型,所述数据立方模型包括至少一个方体;
101.预计算模块203,用于计算所述数据立方模型中各个方体的组合数据,并对所述组合数据进行存储。
102.本实施例提供的多源数据处理装置能够对多源数据进行条理有效的存储,预先计算数据立方模型中各个方体的组合数据,便于用户查询调用,提高多源复合数据在不同维度上的查询和检索能力,提高数据分析的效率,能够适应多种场景需要。
103.在一些实施例中,业务系统包括联机事务处理系统,数据获取模块201具体用于:
104.通过开通数据接口的方式获取各联机事务处理系统的多源数据。
105.在一些实施例中,数据立方模型建立模块202具体用于:
106.对所述多源数据进行预处理,基于预处理后的多源数据建立维度表;
107.基于所述维度表建立事实宽表;
108.基于所述事实宽表中不同维度的数据建立所述数量立方模型。
109.在一些实施例中,预计算模块203具体用于:
110.计算所述数据立方模型中各个方体所能构成的所有组合;
111.对每个组合计算其组合数据。
112.在一些实施例中,多源数据处理装置还可以包括判断模块,判断模块具体用于:
113.判断当前空闲算力是否满足第一预设条件,若所述当前空闲算力满足所述第一预设条件,则执行计算所述数据立方模型中各个方体的组合数据。
114.判断当前时间是否满足第二预设条件,若所述当前时间满足所述第二预设条件,则执行计算所述数据立方模型中各个方体的组合数据。
115.在一些实施例中,多源数据处理装置还可以包括查询模块,查询模块具体用于:
116.响应数据查询指令,调用所述组合数据中的目标数据进行显示。
117.实施例五、
118.图5示出了本技术一个示例性实施例提供的多源数据处理方法的计算机设备的结构示意图,该计算机设备包括:
119.处理器301,包括一个或者一个以上处理核心,处理器301通过运行软件程序以及模块,从而执行各种功能应用以及数据处理。
120.接收器302和发射器303可以实现为一个通信组件,该通信组件可以是一块通信芯片。可选地,该通信组件可以实现包括信号传输功能。也即,发射器503可以用于发射控制信号至图像采集设备以及扫描设备中,接收器502可以用于接收对应的反馈指令。
121.存储器304通过总线305与处理器301相连。
122.存储器304可用于存储至少一个指令,处理器301用于执行该至少一个指令,以实现上述方法实施例中的步骤101至步骤103。
123.实施例八、
124.本技术实施例还提供一种计算机可读存储介质,该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,以由处理器加载并执行以实现上述多源数据处理
方法。
125.实施例九、
126.本技术还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行给计算机指令,使得该计算机设备执行上述实施例中任一所述的多源数据处理方法。
127.可选地,该计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、固态硬盘(ssd,solid state drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(reram,resistance random access memory)和动态随机存取存储器(dram,dynamic random access memory)。上述本技术实施例序号仅仅为了描述,不代表实施的优劣。
128.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
129.上述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1