一种数据处理方法及装置的制造方法

文档序号:9597836阅读:217来源:国知局
一种数据处理方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网领域中的数据处理技术,尤其涉及一种数据处理方法及装置。
【背景技术】
[0002] 随着信息技术的迅猛发展以及人们获取信息手段的多样化,社会各行各业都拥有 大量的信息数据。电信运营商的数据仓库中已经累积大量原始数据未得以利用,运营商在 经营过程中,已经出现了大量客户流失和业务收入下滑的现象。在使用现有业务支撑系统 外,更多的只能是通过相关报表看到这些现象发生的结果,再采取相应的措施,并不能有一 个事先的预警,以至于不能及时采取相应的战略调整。而且,目前的业务支撑系统的数据处 理速度和响应时间较慢,因此,也导致管理层和决策层都不能及时地得到数据结果。
[0003] 综上所述,提供一种通用性强、能够高效处理海量数据的大数据处理方法是目前 亟待解决的问题。

【发明内容】

[0004] 有鉴于此,本发明实施例期望提供一种数据处理方法及装置,能够迅速地处理海 量数据的丰富信息,通用性强、可靠性高。
[0005] 为达到上述目的,本发明的技术方案是这样实现的:
[0006] 本发明实施例提供了一种数据处理方法,所述方法包括:
[0007] 确定模型库中存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
[0008] 依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据进行数据 变换;
[0009] 依据所述组合分类算法对变换后的数据进行数据处理。
[0010] 上述方案中,所述确定模型库中存在与输入数据对应的应用模型包括:对输入数 据进行抽样,确定样本数据的关键字,将样本数据的关键字与模型库中关键字进行匹配,匹 配成功时,确定存在与所述输入数据对应的应用模型。
[0011] 上述方案中,所述对输入数据进行数据筛选包括:依据所述应用模型对应的关键 字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过。
[0012] 上述方案中,对筛选后的数据进行数据变换包括:
[0013] 依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据进行对象 聚焦及降维处理,对降维后的连续数据进行等距离散化及变量变换,确定变量变换后的数 据不满足预设条件时,重复上述处理过程,直至变量变换后的数据满足预设条件。
[0014] 本发明实施例还提供了一种数据处理装置,所述装置包括:第一筛选模块、第一数 据变换模块、第一处理模块及第一模型库;其中,
[0015] 所述第一筛选模块,用于在确定模型库中存在与输入数据对应的应用模型时,对 输入数据进行数据筛选;
[0016] 所述第一数据变换模块,用于对筛选后的数据进行数据变换;
[0017] 所述第一处理模块,用于依据所述应用模型对应的组合分类算法对数据变换后的 数据进行数据处理;
[0018] 所述第一模型库,用于存储不同应用类型的应用模型。
[0019] 上述方案中,所述装置还包括第一匹配模块,用于对输入数据进行抽样,确定样本 数据的关键字,将所述关键字与模型库中关键字进行匹配,确定是否存在与所述输入数据 对应的应用模型。
[0020] 上述方案中,所述第一筛选模块对输入数据进行数据筛选包括:
[0021] 所述第一筛选模块依据所述应用模型对应的关键字对输入数据进行数据提取,并 对提取的数据进行数据清洗及数据审核,直至审核通过。
[0022] 上述方案中,所述第一数据变换模块对筛选后的数据进行数据变换包括:
[0023] 所述第一数据变换模块对筛选后的数据进行对象聚焦及降维处理,对降维后的连 续数据进行等距离散化及变量变换,确定变量变换后的数据不满足预设条件时,重复上述 处理过程,直至变量变换后的数据满足预设条件。
[0024] 本发明实施例还提供了一种数据处理方法,所述方法包括:
[0025] 确定模型库中不存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
[0026] 获取所述输入数据对应的近似最优组合分类算法;
[0027] 依据所述近似最优组合分类算法进行模型训练,并对输入数据进行模型实施,直 至获取满足要求的组合分类算法模型;
[0028] 对所述组合分类算法模型进行模型评估,评估通过时,将所述组合分类算法模型 加入模型库;
[0029] 其中,所述组合分类算法模型用于对后续输入数据进行处理。
[0030] 上述方案中,所述对输入数据进行数据筛选包括:依据样本数据的关键字对输入 数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过。
[0031] 上述方案中,所述依据所述近似最优组合分类算法进行模型训练之前,所述方法 还包括:依据所述近似最优组合分类算法对数据的要求,对筛选后的数据进行数据变换。
[0032] 上述方案中,所述获取所述输入数据对应的近似最优组合分类算法包括:
[0033] 依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法,并依 据遗传算法确定所述输入数据对应的近似最优组合分类算法。
[0034] 本发明实施例还提供了一种数据处理装置,所述装置包括第二筛选模块、获取模 块、第二处理模块、评估模块及第二模型库;其中,
[0035] 所述第二筛选模块,用于确定模型库中不存在与输入数据对应的应用模型时,对 输入数据进行数据筛选;
[0036] 所述获取模块,用于获取所述输入数据对应的近似最优组合分类算法;
[0037] 所述第二处理模块,用于依据所述近似最优组合分类算法进行模型训练,并对输 入数据进行模型实施,直至获取满足要求的组合分类算法模型;
[0038] 所述评估模块,用于对所述组合分类算法模型进行模型评估,评估通过时,将所述 组合分类算法模型加入模型库;
[0039] 所述第二模型库,用于存储不同应用类型的应用模型;
[0040] 其中,所述组合分类算法模型用于对后续输入数据进行处理。
[0041] 上述方案中,所述第二筛选模块对输入数据进行数据筛选包括:所述第二筛选模 块依据样本数据的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据 审核,直至审核通过。
[0042] 上述方案中,所述装置还包括第二数据变换模块,依据所述近似最优组合分类算 法对数据的要求,对筛选后的数据进行数据变换。
[0043] 上述方案中,所述获取模块获取所述输入数据对应的近似最优组合分类算法包 括:所述获取模块依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算 法,并依据遗传算法确定所述输入数据对应的近似最优组合分类算法。
[0044] 本发明实施例所提供的数据处理方法及装置,确定模型库中存在与输入数据对应 的应用模型时,对输入数据进行数据筛选;依据所述应用模型对应的组合分类算法对数据 的要求,对筛选后的数据进行数据变换;依据所述组合分类算法对变换后的数据进行数据 处理;或者,确定模型库中不存在与输入数据对应的应用模型时,对输入数据进行数据筛 选;获取所述输入数据对应的近似最优组合分类算法;依据所述近似最优组合分类算法对 数据的要求,对所述输入数据进行数据变换;并依据所述近似最优组合分类算法对变换后 的数据进行模型训练及模型实施,直至获取满足要求的组合分类算法模型;对所述组合分 类算法模型进行模型评估,评估通过时,将所述组合分类算法模型加入模型库,并依据所述 组合分类算法对后续输入数据进行处理。如此,能够提高海量数据处理的准确性,短时间内 高效的处理海量数据,可靠性高、通用性强。
【附图说明】
[0045] 图1为本发明实施例一数据处理方法流程示意图;
[0046] 图2为本发明实施例二数据处理方法流程示意图;
[0047] 图3为本发明实施例三数据处理方法流程示意图;
[0048] 图4为本发明实施例四数据处理方法流程示意图;
[0049] 图5为本发明实施例一数据处理装置组成结构示意图;
[0050] 图6为本发明实施例二数据处理装置组成结构示意图。
【具体实施方式】
[0051] 在本发明实施例中,确定模型库中存在与输入数据对应的应用模型时,对输入数 据进行数据筛选;依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据 进行数据变换;依据所述组合分类算法对变换后的数据进行数据处理;或者,确定模型库 中不存在与输入数据对应的应用模型时,对输入数据进行数据筛选;获取所述输入数据对 应的近似最优组合分类算法;依据所述近似最优组合分类算法对数据的要求,对所述输入 数据进行数据变换;并依据所述近似最优组合分类算法对变换后的数据进行模型训练及模 型实施,直至获取满足要求的组合分类算法模型;对所述组合分类算法模型进行模型评估, 评估通过时,将所述组合分类算法模型加入模型库,并依据所述组合分类算法对后续输入 数据进行处理。
[0052] 图1为本发明实施例一数据处理方法流程示意图,如图1所示,本实施例数据处理 方法流程包括:
[0053] 步骤101 :确定模型库中存在与输入数据对应的应用模型时,对输入数据进行数 据筛选;
[0054] 这里,所述确定模型库中存在与输入数据对应的应用模型包括:对输入数据进行 抽样,确定样本数据的关键字,将样本数据的关键字与模型库中关键字进行匹配,匹配成功 时,确定存在与所述输入数据对应的应用模型;
[0055] 这里,所述模型库中包括不同应用类型的应用模型,如换机应用类型包括:换机推 荐模型、安全预警模型等。
[0056] 具体的,所述对输入数据进行抽样,确定样本数据的关键字包括:
[0057] 先采用自适应渐进抽样法对输入数据进行抽样,得到η维样本数据X = {χ1; x2, ..., χη};
[0058] 再依据公式
对样本数据进行主成分分析,当S矩 阵的特征值入:彡彡...彡λη的前m个特征值之和占总特征值之和的比 率达到预设条件时,选择与前m个特征值对应的字段为关键字;
[0059] 这里,
;其中,为Xl和Xj的协方差,i e [l,n],j e [l,n],n为样 本数据的个数,为正整数,优选的,n小于100 ;所述预设条件可以为前m个特征值之和占总 特征值之和的比率达到90 %以上。
[0060] 所述将样本数据的关键字与模型库中关键字进行匹配包括:按照特征值由大到小 的顺序,依次为模型库中每个应用模型对应的关键字分配权值;将样本数据的关键字与模 型库中关键字进行匹配,并记录匹配关键字的权值之和Q ;若Q超过阈值T,则匹配成功,即 确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用 模型;这里,所述T的大小可以依据多次试验确定。
[0061] 所述对输入数据进行数据筛选包括:依据所述应用模型对应的关键字对输入数据
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1