一种数据处理方法和计算机系统的制作方法

文档序号:8476694阅读:382来源:国知局
一种数据处理方法和计算机系统的制作方法
【技术领域】
[0001] 本发明实施例涉及计算机技术,特别涉及一种数据处理方法和计算机系统。
【背景技术】
[0002] 数据挖掘(DataMining,DM)是指从数据库的大量数据中揭示出隐含的、先前未知 的并有潜在价值的信息的过程,是人工智能和数据库领域研宄的热点问题。数据挖掘能够 通过分析大量数据中的每个数据,从大量数据中寻找其规律,能够高度自动化地分析企业 的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险, 做出正确的决策。
[0003] 近年来,随着计算能力、存储、网络的高速发展,人类积累的数据量正以指数速度 增长,基于海量数据进行数据挖掘变得越来越重要。然而,在现有技术中,从对数据样本进 行建模分析到将模型结果应用到数据决策,通常不是由机器自动化完成的,而是需要基于 多人工角色结合机器分析来实现。例如,以金融领域对海量数据处理为例,通常需要由金 融模型专家基于商业挖掘分析软件对数据样本进行建模,得到模型文件;然后由规则开发 团队将模型文件转换成规则集配置文件;由数据模型团队将规则集配置文件和数据进行映 射;最后再由云计算团队将规则集配置文件进行封装后打包到数据平台进行数据决策。
[0004] 由于现有技术中从数据建模到数据决策需要基于多人工角色结合机器分析实现, 一旦模型条件或者数据样本发生变化,将导致模型结果变化,需要经过较长时间才能将变 化的模型结果生效为规则文件应用到数据平台上,影响数据决策。

【发明内容】

[0005] 为了解决现有技术的问题,本发明实施例提出了一种数据处理方法和计算机系 统。
[0006] 第一方面,本发明实施例提供了一种数据处理方法,该方法包括:
[0007]计算机系统对数据样本进行离散化处理,得到矩阵形式的数据样本;
[0008] 所述计算机系统根据预设的分类方法,对所述矩阵形式的数据样本进行训练,得 到分类规则集;
[0009] 所述计算机系统利用数据决策平台识别的表达形式,将所述分类规则集转换为所 述数据决策平台识别的分类规则集;
[0010] 所述计算机系统将所述转换得到的所述数据决策平台识别的分类规则集提供给 所述数据决策平台。
[0011] 结合第一方法,在第一种可能的实现方式中,所述预设的分类方法为决策树算法; 则所述计算机系统根据预设的分类方法,对所述矩阵形式的数据样本进行训练,得到分类 规则集;所述计算机系统利用数据决策平台识别的表达形式,将所述分类规则集转换为所 述数据决策平台识别的分类规则集包括:
[0012] 所述计算机系统根据所述决策树算法,对所述矩阵形式的数据样本进行训练,得 到决策树形式的分类规则集;所述计算机系统利用所述数据决策平台识别的表达形式,将 所述决策树形式的分类规则集转换为所述数据决策平台识别的分类规则集。
[0013] 结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述计算 机系统包括主计算节点和多个决策树计算节点;则所述计算机系统根据所述决策树算法, 对所述矩阵形式的数据样本进行训练,得到决策树形式的分类规则集包括:所述主计算节 点发送决策树计算命令给每个所述决策树计算节点;每个所述决策树计算节点根据所述决 策树计算命令,利用所述决策树算法对部分所述矩阵形式的数据样本进行训练,得到决策 树形式的分类规则;所述决策树形式的分类规则集为每个所述决策树计算节点得到的决策 树形式的分类规则的集合。
[0014] 结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述主计 算节点发送决策树计算命令给每个所述决策树计算节点;每个所述决策树计算节点根据所 述决策树计算命令,利用所述决策树算法对部分所述矩阵形式的数据样本进行训练,得到 决策树形式的分类规则包括:
[0015] 所述主计算节点获取算法配置参数,所述算法配置参数包括所述矩阵形式的数据 样本中训练样本的信息以及参与决策树生成的属性的信息;所述主计算节点发送所述决策 树计算命令给每个所述决策树计算节点,所述决策树计算命令携带所述算法配置参数;每 个所述决策树计算节点根据所述决策树计算命令携带的所述算法配置参数,从所述矩阵形 式的数据样本中确定训练样本和参与决策树生成的属性,并根据所述确定的参与决策树生 成的属性对所述确定的训练样本进行训练,得到决策树形式的分类规则。
[0016] 结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述方法 还包括:所述主计算节点在确定每个所述决策树计算节点都得到决策树形式的分类规则之 后,发送测试命令给每个所述决策树计算节点;每个所述决策树计算节点根据所述测试命 令,从所述矩阵形式的数据样本中获得测试样本集,并利用自身得到的决策树形式的分类 规则对所述测试样本集进行测试,得到测试结果集;所述主计算节点获取每个所述决策树 计算节点得到的测试结果集;所述主计算节点根据预设的投票规则和每个所述决策树计算 节点得到的测试结果集,确定测试的准确率;当测试的准确率在预设合理范围内时,所述主 计算节点执行将所述分类规则集转换为所述数据决策平台识别的分类规则集的步骤。
[0017] 结合第一方面的第三种或第四种可能的实现方式,在第五种可能的实现方式中, 所述矩阵形式的数据样本中训练样本的信息包括所述矩阵形式的数据样本的存储地址、所 述矩阵形式的数据样本中的训练样本与测试样本的比例、以及随机获取样本的比例。
[0018] 结合第一方面的第二种至第五种任一可能的实现方式,在第六种可能的实现方式 中,所述计算机系统利用所述数据决策平台识别的表达形式,将所述决策树形式的分类规 则集转换为所述数据决策平台识别的分类规则集包括:每个所述决策树计算节点根据所述 主计算节点的指示或者预设的转换策略,利用所述数据决策平台识别的表达形式,将自身 得到的决策树形式的分类规则转换为所述数据决策平台识别的分类规则;所述数据决策平 台识别的分类规则集为每个所述决策树计算节点得到的所述数据决策平台识别的分类规 则的集合。
[0019] 结合第一方面的第六种可能的实现方式,在第七种可能的实现方式中,所述计算 机系统将所述数据决策平台识别的分类规则集提供给所述数据决策平台包括:所述主计算 节点获取每个所述决策树计算节点得到的所述数据决策平台识别的分类规则,得到所述数 据决策平台识别的分类规则集;所述主计算节点将所述数据决策平台识别的分类规则集提 供给所述数据决策平台。
[0020] 结合第一方面的第二种至第五种任一可能的实现方式,在第八种可能的实现方式 中,所述计算机系统利用所述数据决策平台识别的表达形式,将所述决策树形式的分类规 则集转换为所述数据决策平台识别的分类规则集包括:每个所述决策树计算节点根据所 述主计算节点的指示或者预设的转换策略,将自身得到的决策树形式的分类规则转换为键 /值形式的分类规则;所述主计算节点获取每个所述决策树计算节点得到的键/值形式的 分类规则,得到键/值形式的分类规则集,其中,所述键/值形式的分类规则集为每个所述 决策树计算节点得到的键/值形式的分类规则的集合;所述主计算节点利用所述数据决策 平台识别的表达形式,将所述键/值形式的分类规则集转换为所述数据决策平台识别的分 类规则集;则所述计算机系统将所述数据决策平台识别的分类规则集提供给所述数据决策 平台包括:所述主计算节点将所述数据决策平台识别的分类规则集提供给所述数据决策平 台。
[0021] 结合第一方面或第一方面的第一种至第八种任一可能的实现方式,在第九种可能 的实现方式中,所述数据决策平台识别的表达形式为以下至少之一:正则表达式,和二进制 表达式。
[0022] 第二方面,本发明实施例提供了一种计算机系统,包括:
[0023] 离散化模块,用于对数据样本进行离散化处理,得到矩阵形式的数据样本;
[0024] 处理模块,
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1