一种数据处理方法及装置的制造方法_2

文档序号：9597836阅读：来源：国知局

进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过；
[0062] 其中，所述对提取的数据进行数据清洗及数据审核，直至审核通过包括：
[0063] 对提取的数据进行K均值聚类，根据聚类结果判断出明显离群点和重复数据点，将离群点和重复数据点删除；对于不一致数据点以及缺失数据点，以所述不一致数据点的样本均值及所述缺失数据点的样本均值进行估计，完成数据清洗；随机抽取部分清洗过的数据作为检测数据，利用切比雪夫定理利用检测数据的均值，标准差和置信区间识别异常数据，当检测数据错误率低于阈值T。时，审核通过；否则重复进行数据清洗及审核，直至审核通过；这里，所述部分清洗过的数据可以为占总体1/4的清洗过的数据；所述阈值T。可以为 0· 5% ;
[0064] 进一步的，对输入数据进行数据筛选之后，所述方法还包括：
[0065] 确定磁盘空间满足存储要求时，将筛选后的数据存储至所述磁盘；确定磁盘空间不满足存储要求时，对筛选后的数据进行分片，将分片数据进行分布式发送至指定终端； [0066] 这里，所述对筛选后的数据进行分片，将分片数据进行分布式发送至指定终端包括：依据用户标识和时间对筛选后的数据进行分片，并将分片数据进行分布式发送至指定终端进行存储及处理。
[0067] 步骤102 :依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行数据变换；
[0068] 这里，所述应用模型与组合分类算法为一一对应关系；
[0069] 本步骤具体包括：依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化并进行变量变换，以满足所述组合分类算法对数据格式的要求，确定变量变换后的数据无效时，重复上述处理过程，直至确定变量变换后的数据有效；
[0070] 这里，所述应用模型对应的组合分类算法对数据的要求包括：数据的输入输出格式完全相同；
[0071] 所述组合分类算法可以为将逻辑回归、决策树和人工神经网络算法进行的组合；
[0072] 所述对筛选后的数据进行降维处理包括：依据协方差矩阵
对筛选后的数据进行降维处理；
[0073] 所述确定变量变换后的数据有效包括：随机抽取部分离散化后的数据，计算所述数据离散化前后的信息增益，如果所得信息增益小于阈值?\，确定变量变换后的数据有效；否则，确定变量变换后的数据无效；其中，所述部分离散化后的数据可以为1/3离散化后的数据；所述阈值?\可通过多次试验确定；
[0074] 所述变量变换可以包括：变量的标准化变换及相似度转换等。
[0075] 步骤103 :依据所述组合分类算法对变换后的数据进行数据处理；
[0076] 这里，所述对变换后的数据进行数据处理具体为：对变换后的数据进行分类数据处理；
[0077] 本步骤之后，所述方法还包括：发布数据分析结果，并将所述分析结果发送至数据输入端；其中，所述数据分析结果可以包括：换机推荐用户、安全警示信息等。
[0078] 图2为本发明实施例数据处理方法流程示意图，如图2所示，本实施例数据处理方法流程包括：
[0079] 步骤201 :确定模型库中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；
[0080] 这里，所述确定模型库中不存在与输入数据对应的应用模型包括：对输入数据进行抽样，确定样本数据的关键字，将所述关键字与模型库中关键字进行匹配，匹配不成功时，确定存在与所述输入数据对应的应用模型；
[0081] 其中，所述模型库中包括不同应用类型的应用模型，如换机应用类型包括：换机推荐模型、安全预警模型等。
[0082] 具体的，所述对输入数据进行抽样，确定样本数据的关键字包括：
[0083] 先采用自适应渐进抽样法对输入数据进行抽样，得到η维样本数据X = {χ1; x2,..., xn};
[0084] 再依据公式
对样本数据进行主成分分析，当S矩阵的特征值入：彡彡...彡λη的前m个特征值之和占总特征值之和的比率达到预设条件时，选择与前m个特征值对应的字段为关键字；
[0085] 这里，
，其中为xjPXj的协方差，i e [l，n]，j e [l，n]，n为样本数据的个数，为正整数，优选的，n小于100 ;所述预设条件可以为前m个特征值之和占总特征值之和的比率达到90 %以上。
[0086] 所述将样本数据的关键字与模型库中关键字进行匹配包括：按照特征值由大到小的顺序，依次为模型库中每个应用模型对应的关键字分配权值；将样本数据的关键字与模型库中关键字进行匹配，并记录匹配关键字的权值之和Q ;若Q超过阈值T，则匹配成功，即确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用模型；这里，所述阈值T的大小可以依据多次试验确定。
[0087] 所述对输入数据进行数据筛选包括：依据所述样本数据的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过；
[0088] 其中，所述对提取的数据进行数据清洗及数据审核，直至审核通过包括：
[0089] 对提取的数据进行K均值聚类，根据聚类结果判断出明显离群点和重复数据点，将离群点和重复数据点删除；对于不一致数据点以及缺失数据点，以所述不一致数据点的样本均值及所述缺失数据点的样本均值进行估计，完成数据清洗；随机抽取部分清洗过的数据作为检测数据，利用切比雪夫定理利用检测数据的均值，标准差和置信区间识别异常数据，当检测数据错误率低于阈值T。时，审核通过；否则重复进行数据清洗及审核，直至审核通过；这里，所述部分清洗过的数据可以为占总体1/4的清洗过的数据；所述阈值T。可以为 0· 5% ;
[0090] 进一步的，对输入数据进行数据筛选之后，所述方法还包括：
[0091] 确定磁盘空间满足存储要求时，将筛选后的数据存储至所述磁盘；确定磁盘空间不满足存储要求时，对筛选后的数据进行分片，将分片数据进行分布式发送至指定终端； [0092] 这里，所述对筛选后的数据进行分片，将分片数据进行分布式发送至指定终端包括：依据用户标识和时间对筛选后的数据进行分片，并将分片数据进行分布式发送至指定终端进行存储及处理。
[0093] 步骤202 :获取所述输入数据对应的近似最优组合分类算法；
[0094] 本步骤具体包括：依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法，并依据遗传算法确定所述输入数据对应的近似最优组合分类算法；
[0095] 这里，所述统计特性可以为：概率分布或均值或方差等；
[0096] 所述字段属性可以为：数值型或布尔型或文本型等；
[0097] 所述算法库中包含不同的数据分类算法；
[0098] 所述依据遗传算法确定所述输入数据对应的近似最优组合分类算法包括：
[0099] 利用选择的满足要求的分类算法对筛选后的数据进行分类，并计算分类的准确率，利用一元线性回归方程作为适应度函数f(x)描述分类的准确率，根据比例选择原则选择染色体产生下一代，通过染色体的交叉和变异产生下一代，直到达到第Μ代，获得所述输入数据对应的近似最优组合分类算法；
[0100] 其中，Μ为正整数，通过多次测试确定；
[0101] 所述利用一元线性回归方程作为适应度函数f(x)描述分类的准确率，以使适应度函数值与每个分类算法的分类准确率成正比；
[0102] 所述根据比例选择原则选择染色体，即算法\被选中的概率为f(Xl)/
[0103] 步骤203 :依据所述近似最优组合分类算法进行模型训练，并对输入数据进行模型实施，直至获取满足要求的组合分类算法模型；
[0104] 本步骤之前，所述方法还包括：依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行数据变换；具体包括：依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化并进行变量变换，以满足所述组合分类算法对数据格式的要求，确定变量变换后的数据无效时，重复上述处理过程，直至确定变量变换后的数据有效；
[0105] 这里，所述对筛选后的数据进行降维处理包括：依据协方差矩阵
:对筛选后的数据进行降维处理；
[0106] 所述确定变量变换后的数据有效包括：随机抽取部分离散化后的数据，计算所述数据离散化前后的信息增益，如果所得信息增益小于阈值?\，确定变量变换后的数据有效；否则，确定变量变换后的数据无效；其中，所述部分离散化后的数据可以为1/3离散化后的数据；所述阈值?\可通过多次试验确定；
[0107] 本步骤具体包括：采用随机简单抽样法对数据变换后的数据抽样，样本总数为Ν，将抽样数据作为训练集，对所述近似最优组合分类算法进行初始参数配置，初始参数Pi设置为1/k ;对训练集数据进行模型训练，直至模型训练所得的分类误差率小于阈值T2 ;利用训练后的模型对输入数据进行分类数据处理，直至数据处理结果的误差率小于阈值Τ2，获取满足要求的组合分类算法模型；这里所述阈值Τ2可以为0. 5% ;k为选中的分类算法个数，为正整数。
[0108] 步骤204 :对所述组合分类算法模型进行模型评估，评估通过时，将所述组合分类算法模型加入模型库；
[0109] 这里，所述对所述组合分类算法模型进行模型评估包括：
[0110] 令数据集合D = {(Xu y》，（x2, y2), . . .，（xn, yn)}是由输入向量和目标值对偶组成的，依据误分类率公式
'作为评分函数对所述组合分类算法模型进行评估，当a不等于b时，I(a，b) = 1，否则，I(a，b) =O;SV(0)为误分类率，当Sv(0) 不超过阈值1~3时，评估通过；超过阈值!^时，评估不通过；其中，f(x(i)，Θ)为模型使用参数值Θ对个体i作出的预测，1 < i < n，y(i)为训练数据集合中第i个实体的实际观测值；N为样本总数；
[0111] 对所述组合分类算法模型进行模型评估，当评估不通过时，重复执行步骤202至步骤204 ;
[0112] 所述组合分类算法模型用于对后续输入数据进行分类处理；
[0113] 本步骤之后，所述方法还包括：发布数据分析结果，并将所述分析结果发送至数据输入端；其中，所述数据分析结果可以包括：换机推荐用户、安全警示信息等。
[0114] 图3为本发明实施例三数据处理方法流程示意图，如图3所示，本实施例数据处理方法流程包括：
[0115] 步骤301 :确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；
[0116] 本步骤具体包括：对输入数据进行抽样，确定样本数据的关键字，将样本数据的关键字与模型库中关键字进行匹配

完整全部详细技术资料下载

当前第2页1 2 3 4 5