本发明涉及机器学习与数据流分析领域,具体涉及一种基于决策树的多源数据流实时分析处理方法。
背景技术:
1、随着大数据时代的到来,我们面临着海量、多源的数据,如何从这些数据中提取有用的信息成为了一个重要的问题。多源数据融合技术应运而生,它可以将来自不同数据源的信息进行整合和利用,从而提高数据分析和决策的准确性和效率,来自不同数据源的信息进行整合和利用时,其数据分析和决策的准确性和效率存在不稳定以及适用范围固定等问题。
技术实现思路
1、针对现有技术的不足,本发明提供了一种基于决策树的多源数据流实时分析处理方法,通过决策树根叶结点与分布式架构思路结合,快速有效分类验证多源数据流的实时输出结果。
2、为实现上述目的,本发明提供了一种基于决策树的多源数据流实时分析处理方法,包括:
3、s1、利用多源数据流进行标准化预处理得到多源数据流的标准化预处理结果;
4、s2、根据所述多源数据流的标准化预处理结果建立多源数据流的标准化数据库;
5、s3、利用所述多源数据流的标准化数据库基于决策树建立数据摘要结构分析模型;
6、s4、利用所述数据摘要结构分析模型得到多源数据流实时分析处理结果。
7、优选的,利用多源数据流进行标准化预处理得到多源数据流的标准化预处理结果包括:
8、s1-1、根据所述多源数据流获取对应数据类型作为多源数据流的数据流标签;
9、s1-2、判断所述多源数据流对应数据是否存在时序差,若是,则获取多源数据流对应时序差作为数据流次级标签,否则,利用所述数据流标签对应编码格式作为数据流次级标签;
10、s1-3、利用所述多源数据流的数据流标签与数据流次级标签作为多源数据流的标准化预处理结果;
11、其中,所述数据类型包括字节数据流与字符数据流,所述时序差为多源数据流中各数据的时间差。
12、优选的,根据所述多源数据流的标准化预处理结果建立多源数据流的标准化数据库包括:
13、s2-1、利用所述多源数据流的标准化预处理结果获取多源数据流的标准化数据特征;
14、s2-2、利用所述多源数据流的标准化预处理结果与标准化数据特征建立多源数据流的标准化数据库。
15、进一步的,利用所述多源数据流的标准化预处理结果获取多源数据流的标准化数据特征包括:
16、s2-1-1、获取多源数据流对应实施状态与数据流类型;
17、s2-1-2、根据所述数据流类型获取多源数据流的历史索引存储地址与数据流时间序列;
18、s2-1-3、利用所述多源数据流的实施状态与数据流时间序列分别划分多源数据流的标准化实时特征与标准化持续特征;
19、s2-1-4、利用所述数据流类型与历史索引存储地址建立次序性映射作为多源数据流的标准化多级辅助特征;
20、s2-1-5、利用所述多源数据流的标准化实时特征、标准化持续特征与标准化多级辅助特征作为多源数据流的标准化数据特征;
21、其中,所述多源数据流对应实施状态包括数据并行与任务并行。
22、进一步的,利用所述多源数据流的标准化预处理结果与标准化数据特征建立多源数据流的标准化数据库包括:
23、s2-2-1、利用所述多源数据流的标准化预处理结果对应数据流标签与数据流次级标签分别建立多源数据流的首要标签库与次要标签库;
24、s2-2-2、利用所述多源数据流的首要标签库与次要标签库对应建立双向映射得到多源数据流的数据标签库;
25、s2-2-3、利用所述标准化数据特征的标准化实时特征建立数据标签库的输入比对模板;
26、s2-2-4、利用所述标准化数据特征的标准化持续特征建立数据标签库的内部校对模板;
27、s2-2-5、利用所述标准化数据特征的标准化多级辅助特征建立数据标签库的输出验证标签;
28、s2-2-6、利用所述多源数据流的数据标签库、数据标签库的输入比对模板、标签库的内部校对模板与数据标签库的输出验证标签作为多源数据流的标准化数据库。
29、进一步的,利用所述多源数据流的标准化数据库基于决策树建立数据摘要结构分析模型包括:
30、s3-1、利用所述多源数据流的标准化数据库基于决策树建立多源数据流的初始拓扑分布模型;
31、s3-2、利用所述多源数据流的标准化数据库根据多源数据流建立多源数据流的数据流特征;
32、s3-3、利用所述多源数据流的初始拓扑分布模型与数据流特征作为数据摘要结构分析模型。
33、进一步的,利用所述多源数据流的标准化数据库基于决策树建立多源数据流的初始拓扑分布模型包括:
34、s3-1-1、利用当前时刻作为多源数据流的连续起始时刻t;
35、s3-1-2、根据所述多源数据流的标准化数据库输出连续起始时刻t的数据标签库数据;
36、s3-1-3、根据所述数据标签库数据获取对应时刻作为输出时刻序列;
37、s3-1-4、利用所述输出时刻序列根据多源数据流的标准化数据库获取连续起始时刻t的输入比对模板、标签库的内部校对模板与数据标签库的输出验证标签;
38、s3-1-5、利用所述连续起始时刻t的数据标签库数据作为训练集;
39、s3-1-6、利用所述训练集为输入,所述训练集的数据标签库数据对应输入比对模板与输出验证标签作为输出,所述多源数据流作为根节点,所述多源数据流对应流经节点作为叶节点,基于决策树进行训练得到多源数据流的数据流向模型;
40、s3-1-7、判断所述多源数据流的数据流向模型与数据标签库的内部校对模板是否对应,若是,则利用多源数据流的数据流向模型的模型架构节点建立多源数据流的初始拓扑分布模型,否则,利用所述内部校对模板与对应数据标签库数据更新训练集,并返回s3-1-6。
41、进一步的,利用所述多源数据流的标准化数据库根据多源数据流建立多源数据流的数据流特征包括:
42、s3-2-1、利用所述多源数据流的初始拓扑分布模型对应完成建立时刻作为特征起始时刻;
43、s3-2-2、获取特征起始时刻多源数据流的初始拓扑分布模型对应非起始节点;
44、s3-2-3、判断所述非起始节点对应流转数据类型与标准化预处理结果的数据流标签是否对应一致,若是,则执行s3-2-4,否则,利用所述非起始节点对应流转数据类型更新标准化预处理结果的数据流标签,并返回s1-1;
45、s3-2-4、判断所述非起始节点对应节点链接关系与标准化预处理结果的数据流次级标签是否对应一致,若是,则利用所述非起始节点对应流转数据类型作为非起始节点的数据流特征,否则,放弃处理;
46、s3-2-5、判断所述多源数据流的源头数据量与对应非起始节点的总数据量是否一致,若是,则利用所述多源数据流的源头数据量作为起始节点的数据流特征,否则,返回s3-1;
47、s3-2-6、利用所述起始节点的数据流特征与非起始节点的数据流特征作为多源数据流的数据流特征。
48、进一步的,利用所述数据摘要结构分析模型得到多源数据流实时分析处理结果包括:
49、s4-1、利用所述数据摘要结构分析模型的数据流特征作为多源数据流的实时流量数据;
50、s4-2、判断所述数据摘要结构分析模型对应初始拓扑分布模型的各节点与标准化多级辅助特征是否对应,若是,则输出初始拓扑分布模型的各节点对应标准化多级辅助特征作为多源数据流的实时记录数据,并执行s4-3,否则,利用所述初始拓扑分布模型进行模型架构更新处理;
51、s4-3、利用所述多源数据流的实时流量数据与实时记录数据作为多源数据流实时分析处理结果。
52、进一步的,利用所述初始拓扑分布模型进行模型架构更新处理包括:
53、s4-2-1、判断当前时刻初始拓扑分布模型与特征起始时刻初始拓扑分布模型是否一致,若是,则执行s4-2-2,否则,更新当前时刻为连续起始时刻,并返回s3-1-1;
54、s4-2-2、判断当前时刻初始拓扑分布模型对应各节点的数据时刻序列与连续起始时刻t的输出时刻序列是否一致,若是,则执行s4-2-3,否则,返回s2-2-1;
55、s4-2-3、判断当前时刻初始拓扑分布模型对应各节点的索引存储地址与相邻上一时刻索引存储地址是否一致,若是,则返回s2-1-1,否则,更新当前索引存储地址,并返回s2-1-2。
56、与最接近的现有技术相比,本发明具有的有益效果:
57、决策树与分布式架构建立思路的结合,在多源数据流的数据量较大时,计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,即可对多源数据流根据其字符或字节类型进行初始分流,并通过数据流相关数据,对应在最终输出实时分析结果时提升精确度与输出数据类型量。