一种针对复杂查询的分组入数据集市方法与流程

文档序号:20918026发布日期:2020-05-29 13:47阅读:来源:国知局

技术特征:

1.一种针对复杂查询的分组入数据集市方法,其特征在于,包括如下具体步骤:

步骤1:加载源数据,对所述源数据进行复杂查询,并在所述复杂查询中加入分组列的排序信息,对所述源数据进行特征分析,满足分割特征的所述源数据存储至内存中;否则,所述源数据按照所述排序信息的顺序生成数据块并导入至数据集市节点;

步骤2:在所述内存中对所述源数据根据所述分组列的不同值进行分割,获得所述数据块;

步骤3:在所述数据块中增加元数据信息,获得增强数据块;

步骤4:将所述增强数据块进行压缩,获得压缩数据块,并将所述压缩数据块分发到所述数据集市节点。

2.根据权利要求1所述的一种针对复杂查询的分组入数据集市方法,其特征在于,源数据加载复杂查询过程、源数据分割过程和添加信息压缩数据块入所述数据集市的过程,分别设置为三个线程模型,并采用数据流式处理进行并行处理。

3.根据权利要求1所述的一种针对复杂查询的分组入数据集市方法,其特征在于,在所述步骤1中进行所述复杂查询时,在数据查询层根据所述分组列的所述排序信息对所述源数据进行排序。

4.根据权利要求1所述的一种针对复杂查询的分组入数据集市方法,其特征在于,分组后的所述数据块具有相同的数据特征,将所述数据特征记录成所述元数据信息。

5.根据权利要求1所述的一种针对复杂查询的分组入数据集市方法,其特征在于,所述源数据的所述加载为流式加载。

6.根据权利要求1所述的一种针对复杂查询的分组入数据集市方法,其特征在于,如果所述复杂查询的查询api接口中支持设置排序列,则将所述排序信息追加到所述api接口中,将排序运算压力下推到所述数据集市中;否则使用timsort排序算法完成所述源数据的排序操作。

7.根据权利要求1所述分一种针对复杂查询的分组入数据集市方法,其特征在于,所述步骤1中对所述源数据进行特征分析是以所述分组列对所述源数据进行额外查询,判断所述源数据是否满足分组条件,具体过程如下:

步骤11:获取所述分组列类型、所述不同值的个数和每组所述分组类的平均数据量;

步骤12:如果所述分组类类型不是数据,且所述不同值个数小于设定最大值,当所述平均数据量大于加载的所述源数据时,所述源数据满足所述分组条件。


技术总结
本发明公开了一种针对复杂查询的分组入数据集市方法,在数据从数据源抽取到数据集市的过程中,对有复杂需求的数据抽取,针对可能会产生复杂的数据源查询的情况,提出了一种分组的加速入集市方法。首先通过对源数据分组列的特征分析判断出否能分组,然后根据分组列的不同值进行拆分,最后将拆分后的数据导入数据集市。为了加速入集市的过程,同时减少内存压力,数据将以“块”的单位进行处理,数据拆分过程和数据导入过程将同步进行。

技术研发人员:不公告发明人
受保护的技术使用者:北京永洪商智科技有限公司
技术研发日:2019.12.25
技术公布日:2020.05.29
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1