一种数据处理方法及装置的制造方法_5

文档序号：9597836阅读：来源：国知局

端进行存储及处理。
[0224] 进一步的，所述装置还包括算法库68,用于存储不同的数据分类算法；
[0225] 相应的，所述获取模块62获取所述输入数据对应的近似最优组合分类算法包括：
[0226] 所述获取模块62依据输入数据的统计特性及字段属性在算法库68中选择满足要求的分类算法，并依据遗传算法确定所述输入数据对应的近似最优组合分类算法；
[0227] 这里，所述统计特性可以为：概率分布或均值或方差等；
[0228] 所述字段属性可以为：数值型或布尔型或文本型等；
[0229] 所述算法库中包含不同的数据分类算法；
[0230] 所述获取模块62依据遗传算法确定所述输入数据对应的近似最优组合分类算法包括：
[0231] 所述获取模块62利用选择的满足要求的分类算法对筛选后的数据进行分类，并计算分类的准确率，利用一元线性回归方程作为适应度函数f(x)描述分类的准确率，根据比例选择原则选择染色体产生下一代，通过染色体的交叉和变异产生下一代，直至达到第Μ 代，获得所述输入数据对应的近似最优组合分类算法；
[0232] 其中，Μ为正整数，通过多次测试确定；
[0233] 所述利用一元线性回归方程作为适应度函数f(x)描述分类的准确率，以使适应度函数值与每个分类算法的分类准确率成正比；
[0234] 所述根据比例选择原则选择染色体，即算法Xl被选中的概率为f (Xl) / (f (X!) +f (X2) +· · · +f (Xn) ) ο
[0235] 进一步的，所述装置还包括第二数据变换模块69,用于依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行数据变换；具体包括：第二数据变换模块69依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化并进行变量变换，以满足所述组合分类算法对数据格式的要求，确定变量变换后的数据无效时，重复上述处理过程，直至确定变量变换后的数据有效；
[0236] 这里，所述第二数据变换模块69对筛选后的数据进行降维处理包括：第二数据变换模块69依据协方差矩阵
'对筛选后的数据进行降维处理；
[0237] 所述第二数据变换模块69确定变量变换后的数据有效包括：第二数据变换模块 69随机抽取部分离散化后的数据，计算所述数据离散化前后的信息增益，如果所得信息增益小于阈值?\，确定变量变换后的数据有效；否则，确定变量变换后的数据无效；其中，所述部分离散化后的数据可以为1/3离散化后的数据；所述阈值?\可通过多次试验确定。
[0238] 进一步的，所述第二处理模块63依据所述近似最优组合分类算法进行模型训练，并对输入数据进行模型实施，直至获取满足要求的组合分类算法模型包括：
[0239] 所述第二处理模块63采用随机简单抽样法对变换后的数据抽样，将抽样数据作为训练集，对所述近似最优组合分类算法进行初始参数配置，初始参数Pi设置为1/k，k为选中的分类算法个数；对训练集数据进行模型训练，直至模型训练所得的分类误差率小于阈值T2 ;利用训练后的模型对输入数据进行数据处理，直至数据处理结果的误差率小于阈值Τ2，获取满足要求的组合分类算法模型；这里所述阈值Τ2可以为0. 5% ;所述样本的总数为Ν。
[0240] 进一步的，所述评估模块64对所述组合分类算法模型进行模型评估包括：
[0241 ] 所述评估模块64令数据集合D = {(x^ yj，（x2, y2)，. . .，（xn, yn)}是由输入向量和目标值对偶组成的，f(x(i)，Θ)为模型使用参数值Θ对个体i作出的预测，1 < i <n，y(i)为训练数据集合中第i个实体的实际观测值，依据误分类率公式
1(0)1乍为评分函数对所述组合分类算法模型进行评估，当a不等于b时，I(a，b) = 1，否则，I(a，b) = 0 ;当Sv(0)不超过阈值1~3时，评估通过；超过阈值 T3时，评估不通过；其中，Sv( Θ )为误分类率，N为样本总数。
[0242] 进一步的，所述装置还包括第二发布模块70,用于发布数据分析结果，并将所述分析结果发送至数据输入端；
[0243] 这里，所述数据分析结果可以包括：换机推荐用户、安全警示信息等。
[0244] 在实际应用中，所述第一筛选模块51、第一数据变换模块52、第一处理模块53、第一匹配模块55、第一确定模块56、第一发布模块57及第二筛选模块61、获取模块62、第二处理模块63、评估模块64、第二匹配模块66、第二确定模块67、第二数据变换模块69、第二发布模块70既可由软件实现，也可由服务器中的中央处理器（CPU, Central Processing Unit)、或数字信号处理器（DSP,Digital Signal Processor)、或现场可编程门阵列（FPGA, Field Programmable Gate Array)实现。
[0245] 以上所述，仅为本发明较佳实施例而已，并非用于限定本发明的保护范围。
【主权项】
1. 一种数据处理方法，其特征在于，所述方法包括：确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行数据变换；依据所述组合分类算法对变换后的数据进行数据处理。2. 根据权利要求1所述方法，其特征在于，所述确定模型库中存在与输入数据对应的应用模型包括：对输入数据进行抽样，确定样本数据的关键字，将样本数据的关键字与模型库中关键字进行匹配，匹配成功时，确定存在与所述输入数据对应的应用模型。3. 根据权利要求2所述方法，其特征在于，所述对输入数据进行数据筛选包括：依据所述应用模型对应的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。4. 根据权利要求1或2所述方法，其特征在于，对筛选后的数据进行数据变换包括：依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化及变量变换，确定变量变换后的数据不满足预设条件时，重复上述处理过程，直至变量变换后的数据满足预设条件。5. -种数据处理装置，其特征在于，所述装置包括：第一筛选模块、第一数据变换模块、第一处理模块及第一模型库；其中，所述第一筛选模块，用于在确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；所述第一数据变换模块，用于对筛选后的数据进行数据变换；所述第一处理模块，用于依据所述应用模型对应的组合分类算法对数据变换后的数据进行数据处理；所述第一模型库，用于存储不同应用类型的应用模型。6. 根据权利要求5所述装置，其特征在于，所述装置还包括第一匹配模块，用于对输入数据进行抽样，确定样本数据的关键字，将所述关键字与模型库中关键字进行匹配，确定是否存在与所述输入数据对应的应用模型。7. 根据权利要求6所述装置，其特征在于，所述第一筛选模块对输入数据进行数据筛选包括：所述第一筛选模块依据所述应用模型对应的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。8. 根据权利要求5或6所述装置，其特征在于，所述第一数据变换模块对筛选后的数据进行数据变换包括：所述第一数据变换模块对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化及变量变换，确定变量变换后的数据不满足预设条件时，重复上述处理过程，直至变量变换后的数据满足预设条件。9. 一种数据处理方法，其特征在于，所述方法包括：确定模型库中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；获取所述输入数据对应的近似最优组合分类算法；依据所述近似最优组合分类算法进行模型训练，并对输入数据进行模型实施，直至获取满足要求的组合分类算法模型；对所述组合分类算法模型进行模型评估，评估通过时，将所述组合分类算法模型加入模型库；其中，所述组合分类算法模型用于对后续输入数据进行处理。10. 根据权利要求9所述方法，其特征在于，所述对输入数据进行数据筛选包括：依据样本数据的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。11. 根据权利要求9或10所述方法，其特征在于，所述依据所述近似最优组合分类算法进行模型训练之前，所述方法还包括：依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行数据变换。12. 根据权利要求9或10所述方法，其特征在于，所述获取所述输入数据对应的近似最优组合分类算法包括：依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法，并依据遗传算法确定所述输入数据对应的近似最优组合分类算法。13. -种数据处理装置，其特征在于，所述装置包括第二筛选模块、获取模块、第二处理模块、评估模块及第二模型库；其中，所述第二筛选模块，用于确定模型库中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；所述获取模块，用于获取所述输入数据对应的近似最优组合分类算法；所述第二处理模块，用于依据所述近似最优组合分类算法进行模型训练，并对输入数据进行模型实施，直至获取满足要求的组合分类算法模型；所述评估模块，用于对所述组合分类算法模型进行模型评估，评估通过时，将所述组合分类算法模型加入模型库；所述第二模型库，用于存储不同应用类型的应用模型；其中，所述组合分类算法模型用于对后续输入数据进行处理。14. 根据权利要求13所述装置，其特征在于，所述第二筛选模块对输入数据进行数据筛选包括：所述第二筛选模块依据样本数据的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。15. 根据权利要求14所述装置，其特征在于，所述装置还包括第二数据变换模块，依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行数据变换。16. 根据权利要求13或14所述装置，其特征在于，所述获取模块获取所述输入数据对应的近似最优组合分类算法包括：所述获取模块依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法，并依据遗传算法确定所述输入数据对应的近似最优组合分类算法。
【专利摘要】本发明公开了一种数据处理方法，确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行数据变换；依据所述组合分类算法对变换后的数据进行数据处理。本发明还同时公开了一种数据处理装置。
【IPC分类】G06F17/30
【公开号】CN105354198
【申请号】CN201410409716
【发明人】廖振松, 熊胜, 吴勤华, 杨晶蕾, 冯文仲, 黄艳, 沈力, 伍丹
【申请人】中国移动通信集团湖北有限公司
【公开日】2016年2月24日
【申请日】2014年8月19日

完整全部详细技术资料下载

当前第5页1 2 3 4 5