1.一种针对复杂查询的分组入数据集市方法,其特征在于,包括如下具体步骤:
步骤1:加载源数据,对所述源数据进行复杂查询,并在所述复杂查询中加入分组列的排序信息,对所述源数据进行特征分析,满足分割特征的所述源数据存储至内存中;否则,所述源数据按照所述排序信息的顺序生成数据块并导入至数据集市节点;
步骤2:在所述内存中对所述源数据根据所述分组列的不同值进行分割,获得所述数据块;
步骤3:在所述数据块中增加元数据信息,获得增强数据块;
步骤4:将所述增强数据块进行压缩,获得压缩数据块,并将所述压缩数据块分发到所述数据集市节点。
2.根据权利要求1所述的一种针对复杂查询的分组入数据集市方法,其特征在于,源数据加载复杂查询过程、源数据分割过程和添加信息压缩数据块入所述数据集市的过程,分别设置为三个线程模型,并采用数据流式处理进行并行处理。
3.根据权利要求1所述的一种针对复杂查询的分组入数据集市方法,其特征在于,在所述步骤1中进行所述复杂查询时,在数据查询层根据所述分组列的所述排序信息对所述源数据进行排序。
4.根据权利要求1所述的一种针对复杂查询的分组入数据集市方法,其特征在于,分组后的所述数据块具有相同的数据特征,将所述数据特征记录成所述元数据信息。
5.根据权利要求1所述的一种针对复杂查询的分组入数据集市方法,其特征在于,所述源数据的所述加载为流式加载。
6.根据权利要求1所述的一种针对复杂查询的分组入数据集市方法,其特征在于,如果所述复杂查询的查询api接口中支持设置排序列,则将所述排序信息追加到所述api接口中,将排序运算压力下推到所述数据集市中;否则使用timsort排序算法完成所述源数据的排序操作。
7.根据权利要求1所述分一种针对复杂查询的分组入数据集市方法,其特征在于,所述步骤1中对所述源数据进行特征分析是以所述分组列对所述源数据进行额外查询,判断所述源数据是否满足分组条件,具体过程如下:
步骤11:获取所述分组列类型、所述不同值的个数和每组所述分组类的平均数据量;
步骤12:如果所述分组类类型不是数据,且所述不同值个数小于设定最大值,当所述平均数据量大于加载的所述源数据时,所述源数据满足所述分组条件。