一种数据处理方法及装置的制造方法

文档序号：9597836阅读：217来源：国知局

一种数据处理方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网领域中的数据处理技术，尤其涉及一种数据处理方法及装置。
【背景技术】
[0002] 随着信息技术的迅猛发展以及人们获取信息手段的多样化，社会各行各业都拥有大量的信息数据。电信运营商的数据仓库中已经累积大量原始数据未得以利用，运营商在经营过程中，已经出现了大量客户流失和业务收入下滑的现象。在使用现有业务支撑系统外，更多的只能是通过相关报表看到这些现象发生的结果，再采取相应的措施，并不能有一个事先的预警，以至于不能及时采取相应的战略调整。而且，目前的业务支撑系统的数据处理速度和响应时间较慢，因此，也导致管理层和决策层都不能及时地得到数据结果。
[0003] 综上所述，提供一种通用性强、能够高效处理海量数据的大数据处理方法是目前亟待解决的问题。

【发明内容】

[0004] 有鉴于此，本发明实施例期望提供一种数据处理方法及装置，能够迅速地处理海量数据的丰富信息，通用性强、可靠性高。
[0005] 为达到上述目的，本发明的技术方案是这样实现的：
[0006] 本发明实施例提供了一种数据处理方法，所述方法包括：
[0007] 确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；
[0008] 依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行数据变换；
[0009] 依据所述组合分类算法对变换后的数据进行数据处理。
[0010] 上述方案中，所述确定模型库中存在与输入数据对应的应用模型包括：对输入数据进行抽样，确定样本数据的关键字，将样本数据的关键字与模型库中关键字进行匹配，匹配成功时，确定存在与所述输入数据对应的应用模型。
[0011] 上述方案中，所述对输入数据进行数据筛选包括：依据所述应用模型对应的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。
[0012] 上述方案中，对筛选后的数据进行数据变换包括：
[0013] 依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化及变量变换，确定变量变换后的数据不满足预设条件时，重复上述处理过程，直至变量变换后的数据满足预设条件。
[0014] 本发明实施例还提供了一种数据处理装置，所述装置包括：第一筛选模块、第一数据变换模块、第一处理模块及第一模型库；其中，
[0015] 所述第一筛选模块，用于在确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；
[0016] 所述第一数据变换模块，用于对筛选后的数据进行数据变换；
[0017] 所述第一处理模块，用于依据所述应用模型对应的组合分类算法对数据变换后的数据进行数据处理；
[0018] 所述第一模型库，用于存储不同应用类型的应用模型。
[0019] 上述方案中，所述装置还包括第一匹配模块，用于对输入数据进行抽样，确定样本数据的关键字，将所述关键字与模型库中关键字进行匹配，确定是否存在与所述输入数据对应的应用模型。
[0020] 上述方案中，所述第一筛选模块对输入数据进行数据筛选包括：
[0021] 所述第一筛选模块依据所述应用模型对应的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。
[0022] 上述方案中，所述第一数据变换模块对筛选后的数据进行数据变换包括：
[0023] 所述第一数据变换模块对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化及变量变换，确定变量变换后的数据不满足预设条件时，重复上述处理过程，直至变量变换后的数据满足预设条件。
[0024] 本发明实施例还提供了一种数据处理方法，所述方法包括：
[0025] 确定模型库中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；
[0026] 获取所述输入数据对应的近似最优组合分类算法；
[0027] 依据所述近似最优组合分类算法进行模型训练，并对输入数据进行模型实施，直至获取满足要求的组合分类算法模型；
[0028] 对所述组合分类算法模型进行模型评估，评估通过时，将所述组合分类算法模型加入模型库；
[0029] 其中，所述组合分类算法模型用于对后续输入数据进行处理。
[0030] 上述方案中，所述对输入数据进行数据筛选包括：依据样本数据的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。
[0031] 上述方案中，所述依据所述近似最优组合分类算法进行模型训练之前，所述方法还包括：依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行数据变换。
[0032] 上述方案中，所述获取所述输入数据对应的近似最优组合分类算法包括：
[0033] 依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法，并依据遗传算法确定所述输入数据对应的近似最优组合分类算法。
[0034] 本发明实施例还提供了一种数据处理装置，所述装置包括第二筛选模块、获取模块、第二处理模块、评估模块及第二模型库；其中，
[0035] 所述第二筛选模块，用于确定模型库中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；
[0036] 所述获取模块，用于获取所述输入数据对应的近似最优组合分类算法；
[0037] 所述第二处理模块，用于依据所述近似最优组合分类算法进行模型训练，并对输入数据进行模型实施，直至获取满足要求的组合分类算法模型；
[0038] 所述评估模块，用于对所述组合分类算法模型进行模型评估，评估通过时，将所述组合分类算法模型加入模型库；
[0039] 所述第二模型库，用于存储不同应用类型的应用模型；
[0040] 其中，所述组合分类算法模型用于对后续输入数据进行处理。
[0041] 上述方案中，所述第二筛选模块对输入数据进行数据筛选包括：所述第二筛选模块依据样本数据的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。
[0042] 上述方案中，所述装置还包括第二数据变换模块，依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行数据变换。
[0043] 上述方案中，所述获取模块获取所述输入数据对应的近似最优组合分类算法包括：所述获取模块依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法，并依据遗传算法确定所述输入数据对应的近似最优组合分类算法。
[0044] 本发明实施例所提供的数据处理方法及装置，确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行数据变换；依据所述组合分类算法对变换后的数据进行数据处理；或者，确定模型库中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；获取所述输入数据对应的近似最优组合分类算法；依据所述近似最优组合分类算法对数据的要求，对所述输入数据进行数据变换；并依据所述近似最优组合分类算法对变换后的数据进行模型训练及模型实施，直至获取满足要求的组合分类算法模型；对所述组合分类算法模型进行模型评估，评估通过时，将所述组合分类算法模型加入模型库，并依据所述组合分类算法对后续输入数据进行处理。如此，能够提高海量数据处理的准确性，短时间内高效的处理海量数据，可靠性高、通用性强。
【附图说明】
[0045] 图1为本发明实施例一数据处理方法流程示意图；
[0046] 图2为本发明实施例二数据处理方法流程示意图；
[0047] 图3为本发明实施例三数据处理方法流程示意图；
[0048] 图4为本发明实施例四数据处理方法流程示意图；
[0049] 图5为本发明实施例一数据处理装置组成结构示意图；
[0050] 图6为本发明实施例二数据处理装置组成结构示意图。
【具体实施方式】
[0051] 在本发明实施例中，确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行数据变换；依据所述组合分类算法对变换后的数据进行数据处理；或者，确定模型库中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；获取所述输入数据对应的近似最优组合分类算法；依据所述近似最优组合分类算法对数据的要求，对所述输入数据进行数据变换；并依据所述近似最优组合分类算法对变换后的数据进行模型训练及模型实施，直至获取满足要求的组合分类算法模型；对所述组合分类算法模型进行模型评估，评估通过时，将所述组合分类算法模型加入模型库，并依据所述组合分类算法对后续输入数据进行处理。
[0052] 图1为本发明实施例一数据处理方法流程示意图，如图1所示，本实施例数据处理方法流程包括：
[0053] 步骤101 :确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；
[0054] 这里，所述确定模型库中存在与输入数据对应的应用模型包括：对输入数据进行抽样，确定样本数据的关键字，将样本数据的关键字与模型库中关键字进行匹配，匹配成功时，确定存在与所述输入数据对应的应用模型；
[0055] 这里，所述模型库中包括不同应用类型的应用模型，如换机应用类型包括：换机推荐模型、安全预警模型等。
[0056] 具体的，所述对输入数据进行抽样，确定样本数据的关键字包括：
[0057] 先采用自适应渐进抽样法对输入数据进行抽样，得到η维样本数据X = {χ1; x2, ..., χη};
[0058] 再依据公式
对样本数据进行主成分分析，当S矩阵的特征值入：彡彡...彡λη的前m个特征值之和占总特征值之和的比率达到预设条件时，选择与前m个特征值对应的字段为关键字；
[0059] 这里，
；其中，为Xl和Xj的协方差，i e [l，n]，j e [l，n]，n为样本数据的个数，为正整数，优选的，n小于100 ;所述预设条件可以为前m个特征值之和占总特征值之和的比率达到90 %以上。
[0060] 所述将样本数据的关键字与模型库中关键字进行匹配包括：按照特征值由大到小的顺序，依次为模型库中每个应用模型对应的关键字分配权值；将样本数据的关键字与模型库中关键字进行匹配，并记录匹配关键字的权值之和Q ;若Q超过阈值T，则匹配成功，即确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用模型；这里，所述T的大小可以依据多次试验确定。
[0061] 所述对输入数据进行数据筛选包括：依据所述应用模型对应的关键字对输入数据

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：廖振松;熊胜;吴勤华;杨晶蕾;冯文仲;黄艳;沈力;伍丹;
技术所有人：中国移动通信集团湖北有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。