一种数据处理方法及装置的制造方法_3

文档序号：9597836阅读：来源：国知局

，匹配成功时，确定存在与所述输入数据对应的应用模型；
[0117] 这里，所述模型库中包括不同应用类型的应用模型，如换机应用类型包括：换机推荐模型、安全预警模型等。
[0118] 具体的，所述对输入数据进行抽样，确定样本数据的关键字包括：
[0119] 先采用自适应渐进抽样法对输入数据进行抽样，得到η维样本数据X = {χ1; x2,..., xn};
[0120] 再依据公式
=对样本数据进行主成分分析，当S矩阵的特征值λ2>...彡λη的前m个特征值之和占总特征值之和的比率达到预设条件时，选择与前m个特征值对应的字段为关键字；
[0121] 这里，
纟其中为xjPXj的协方差，i e [l，n]，j e [l，n]，n为样本数据的个数，为正整数，优选的，n小于100 ;所述预设条件可以为前m个特征值之和占总特征值之和的比率达到90 %以上。
[0122] 所述将样本数据的关键字与模型库中关键字进行匹配包括：按照特征值由大到小的顺序，依次为模型库中每个应用模型对应的关键字分配权值；将样本数据的关键字与模型库中关键字进行匹配，并记录匹配关键字的权值之和Q ;若Q超过阈值T，则匹配成功，即确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用模型；这里，所述T的大小可以依据多次试验确定。
[0123] 所述对输入数据进行数据筛选包括：依据所述应用模型对应的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过；
[0124] 其中，所述对提取的数据进行数据清洗及数据审核，直至审核通过包括：
[0125] 对提取的数据进行K均值聚类，根据聚类结果判断出明显离群点和重复数据点，将离群点和重复数据点删除；对于不一致数据点以及缺失数据点，以所述不一致数据点的样本均值及所述缺失数据点的样本均值进行估计，完成数据清洗；随机抽取部分清洗过的数据作为检测数据，利用切比雪夫定理利用检测数据的均值，标准差和置信区间识别异常数据，当检测数据错误率低于阈值时，审核通过；否则重复进行数据清洗及审核，直至审核通过；
[0126] 这里，所述部分清洗过的数据可以为占总体1/4的清洗过的数据；所述阈值可以为 0· 5%〇
[0127] 步骤302 :判断磁盘空间是否满足存储要求，如果满足，执行步骤303 ;如果不满足，执行步骤307。
[0128] 步骤303 :将筛选后的数据存储至所述磁盘。
[0129] 步骤304 :依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行数据变换，并判断变换后的数据是否有效，如果有效，执行步骤305 ;如果无效，执行步骤304 ;
[0130] 本步骤具体包括：依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化并进行变量变换，以满足所述组合分类算法对数据格式的要求，确定变量变换后的数据无效时，重复上述处理过程，直至确定变量变换后的数据有效；
[0131] 这里，所述对筛选后的数据进行降维处理包括：依据协方差矩阵
;对筛选后的数据进行降维处理；
[0132] 所述确定变量变换后的数据有效包括：随机抽取部分离散化后的数据，计算所述数据离散化前后的信息增益，如果所得信息增益小于阈值?\，确定变量变换后的数据有效；否则，确定变量变换后的数据无效；其中，所述部分离散化后的数据可以为1/3离散化后的数据；所述阈值?\可通过多次试验确定。
[0133] 步骤305 :依据所述组合分类算法对变换后的数据进行数据处理；
[0134] 这里，所述对变换后的数据进行数据处理具体为：对变换后的数据进行分类数据处理。
[0135] 步骤306 :发布数据分析结果，并将所述分析结果发送至数据输入端。
[0136] 步骤307 :对筛选后的数据进行分片，将分片数据进行分布式发送至指定终端；
[0137] 这里，所述对筛选后的数据进行分片，将分片数据进行分布式发送至指定终端包括：依据用户标识和时间对筛选后的数据进行分片，并将分片数据进行分布式发送至指定终端进行存储及处理。
[0138] 步骤308 :结束本次处理流程。
[0139] 图4为本发明实施例四数据处理方法流程示意图，如图4所示，本实施例数据处理方法流程包括：
[0140] 步骤401 :确定模型库中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；
[0141] 这里，所述确定模型库中不存在与输入数据对应的应用模型包括：对输入数据进行抽样，确定样本数据的关键字，将所述关键字与模型库中关键字进行匹配，匹配不成功时，确定存在与所述输入数据对应的应用模型；
[0142] 其中，所述模型库中包括不同应用类型的应用模型，如换机应用类型包括：换机推荐模型、安全预警模型等。
[0143] 具体的，所述对输入数据进行抽样，确定样本数据的关键字包括：
[0144] 先采用自适应渐进抽样法对输入数据进行抽样，得到η维样本数据X = {χ1; x2,..., xn};
[0145] 再依据公式对样本数据进行主成分分析，当S矩阵的特征值入：彡彡...彡λη的前m个特征值之和占总特征值之和的比率达到预设条件时，选择与前m个特征值对应的字段为关键字；
[0146] 这里
，其中为xdPXj的协方差，i e [l，n]，j e [l，n]，n为样本数据的个数，为正整数，优选的，n小于100 ;所述预设条件可以为前m个特征值之和占总特征值之和的比率达到90 %以上。
[0147] 所述将样本数据的关键字与模型库中关键字进行匹配包括：按照特征值由大到小的顺序，依次为模型库中每个应用模型对应的关键字分配权值；将样本数据的关键字与模型库中关键字进行匹配，并记录匹配关键字的权值之和Q ;若Q超过阈值T，则匹配成功，即确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用模型；这里，所述阈值T的大小可以依据多次试验确定。
[0148] 所述对输入数据进行数据筛选包括：依据所述样本数据的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过；
[0149] 其中，所述对提取的数据进行数据清洗及数据审核，直至审核通过包括：
[0150] 对提取的数据进行K均值聚类，根据聚类结果判断出明显离群点和重复数据点，将离群点和重复数据点删除；对于不一致数据点以及缺失数据点，以所述不一致数据点的样本均值及所述缺失数据点的样本均值进行估计，完成数据清洗；随机抽取部分清洗过的数据作为检测数据，利用切比雪夫定理利用检测数据的均值，标准差和置信区间识别异常数据，当检测数据错误率低于阈值时，审核通过；否则重复进行数据清洗及审核，直至审核通过；
[0151] 这里，所述部分清洗过的数据可以为占总体1/4的清洗过的数据；所述阈值可以为 0· 5%〇
[0152] 步骤402 :判断磁盘空间是否满足存储要求，如果满足，执行步骤403 ;如果不满足，执行步骤410。
[0153] 步骤403 :将筛选后的数据存储至磁盘。
[0154] 步骤404 :获取所述输入数据对应的近似最优组合分类算法；
[0155] 本步骤具体包括：依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法，并依据遗传算法确定所述输入数据对应的近似最优组合分类算法；
[0156] 这里，所述统计特性可以为：概率分布或均值或方差等；
[0157] 所述字段属性可以为：数值型或布尔型或文本型等；
[0158] 所述算法库中包含不同的数据分类算法；
[0159] 所述依据遗传算法确定所述输入数据对应的近似最优组合分类算法包括：
[0160] 利用选择的满足要求的分类算法对筛选后的数据进行分类，并计算分类的准确率，利用一元线性回归方程作为适应度函数f(X)描述分类的准确率，根据比例选择原则选择染色体产生下一代，通过染色体的交叉和变异产生下一代，直到达到第Μ代，获得所述输入数据对应的近似最优组合分类算法；
[0161] 其中，Μ为正整数，通过多次测试确定；
[0162] 所述利用一元线性回归方程作为适应度函数f(x)描述分类的准确率，以使适应度函数值与每个分类算法的分类准确率成正比；
[0163] 所述根据比例选择原则选择染色体，即算法Xl被选中的概率为f (Xl) / (f (X!) +f (X2) +· · · +f (Xn) ) ο
[0164] 步骤405:依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行数据变换，并判断变换后的数据是否有效，如果有效执行步骤406 ;如果无效，执行步骤 405 ；
[0165] 本步骤具体包括：依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化并进行变量变换，以满足所述组合分类算法对数据格式的要求，确定变量变换后的数据无效时，重复上述处理过程，直至确定变量变换后的数据有效；
[0166] 这里，所述对筛选后的数据进行降维处理包括：依据协方差矩阵
对筛选后的数据进行降维处理；
[0167] 所述确定变量变换后的数据有效包括：随机抽取部分离散化后的数据，计算所述数据离散化前后的信息增益，如果所得信息增益小于阈值?\，确定变量变换后的数据有效；否则，确定变量变换后的数据无效；其中，所述部分离散化后的数据可以为1/3离散化后的数据；所述阈值?\可通过多次试验确定。
[0168] 步骤406 :依据所述近似最优组合分类算法进行模型训练，并判断训练所得的分类误差率是否小于阈值τ2，如果小于Τ2，执行步骤407 ;否则，执行步骤406 ;
[0169] 这里，所述依据所述近似最优组合分类算法进行模型训练包括：采用随机简单抽样法对变换后的数据抽样，样本总数为Ν，将抽样数据作为训练集，对所述近似最优组合分类算法进行初始参数配置，初始参数Pi设置为1/k，k为选中的分类算法个数；对训练集数据进行模型训练。
[0170] 步骤407:利用训练后的模型对输入数据进行处理，并判断数据处理结果的误差率是否小于阈值T2，如果小于，执行步骤408 ;否则，执行步骤406 ;
[0171] 这里，所述对输入数据进行处理具体为对输入数据进行分类处理。
[0172] 步骤408:对所述组合分类算法模型进行模型评估，并判断评估是否通过，如果评估通过，执行步骤409 ;如果评估不通过，执行步骤404 ;
[0173] 这里，所述对所述组合分类算法模型进行模型评估包括：
[0174] 令数据集合D = {(Xp

完整全部详细技术资料下载

当前第3页1 2 3 4 5