一种数据处理方法和计算机系统的制作方法

文档序号：8476694阅读：382来源：国知局

一种数据处理方法和计算机系统的制作方法
【技术领域】
[0001] 本发明实施例涉及计算机技术，特别涉及一种数据处理方法和计算机系统。
【背景技术】
[0002] 数据挖掘（DataMining，DM)是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程，是人工智能和数据库领域研宄的热点问题。数据挖掘能够通过分析大量数据中的每个数据，从大量数据中寻找其规律，能够高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。
[0003] 近年来，随着计算能力、存储、网络的高速发展，人类积累的数据量正以指数速度增长，基于海量数据进行数据挖掘变得越来越重要。然而，在现有技术中，从对数据样本进行建模分析到将模型结果应用到数据决策，通常不是由机器自动化完成的，而是需要基于多人工角色结合机器分析来实现。例如，以金融领域对海量数据处理为例，通常需要由金融模型专家基于商业挖掘分析软件对数据样本进行建模，得到模型文件；然后由规则开发团队将模型文件转换成规则集配置文件；由数据模型团队将规则集配置文件和数据进行映射；最后再由云计算团队将规则集配置文件进行封装后打包到数据平台进行数据决策。
[0004] 由于现有技术中从数据建模到数据决策需要基于多人工角色结合机器分析实现，一旦模型条件或者数据样本发生变化，将导致模型结果变化，需要经过较长时间才能将变化的模型结果生效为规则文件应用到数据平台上，影响数据决策。

【发明内容】

[0005] 为了解决现有技术的问题，本发明实施例提出了一种数据处理方法和计算机系统。
[0006] 第一方面，本发明实施例提供了一种数据处理方法，该方法包括：
[0007]计算机系统对数据样本进行离散化处理，得到矩阵形式的数据样本；
[0008] 所述计算机系统根据预设的分类方法，对所述矩阵形式的数据样本进行训练，得到分类规则集；
[0009] 所述计算机系统利用数据决策平台识别的表达形式，将所述分类规则集转换为所述数据决策平台识别的分类规则集；
[0010] 所述计算机系统将所述转换得到的所述数据决策平台识别的分类规则集提供给所述数据决策平台。
[0011] 结合第一方法，在第一种可能的实现方式中，所述预设的分类方法为决策树算法；则所述计算机系统根据预设的分类方法，对所述矩阵形式的数据样本进行训练，得到分类规则集；所述计算机系统利用数据决策平台识别的表达形式，将所述分类规则集转换为所述数据决策平台识别的分类规则集包括：
[0012] 所述计算机系统根据所述决策树算法，对所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则集；所述计算机系统利用所述数据决策平台识别的表达形式，将所述决策树形式的分类规则集转换为所述数据决策平台识别的分类规则集。
[0013] 结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述计算机系统包括主计算节点和多个决策树计算节点；则所述计算机系统根据所述决策树算法，对所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则集包括：所述主计算节点发送决策树计算命令给每个所述决策树计算节点；每个所述决策树计算节点根据所述决策树计算命令，利用所述决策树算法对部分所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则；所述决策树形式的分类规则集为每个所述决策树计算节点得到的决策树形式的分类规则的集合。
[0014] 结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述主计算节点发送决策树计算命令给每个所述决策树计算节点；每个所述决策树计算节点根据所述决策树计算命令，利用所述决策树算法对部分所述矩阵形式的数据样本进行训练，得到决策树形式的分类规则包括：
[0015] 所述主计算节点获取算法配置参数，所述算法配置参数包括所述矩阵形式的数据样本中训练样本的信息以及参与决策树生成的属性的信息；所述主计算节点发送所述决策树计算命令给每个所述决策树计算节点，所述决策树计算命令携带所述算法配置参数；每个所述决策树计算节点根据所述决策树计算命令携带的所述算法配置参数，从所述矩阵形式的数据样本中确定训练样本和参与决策树生成的属性，并根据所述确定的参与决策树生成的属性对所述确定的训练样本进行训练，得到决策树形式的分类规则。
[0016] 结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述方法还包括：所述主计算节点在确定每个所述决策树计算节点都得到决策树形式的分类规则之后，发送测试命令给每个所述决策树计算节点；每个所述决策树计算节点根据所述测试命令，从所述矩阵形式的数据样本中获得测试样本集，并利用自身得到的决策树形式的分类规则对所述测试样本集进行测试，得到测试结果集；所述主计算节点获取每个所述决策树计算节点得到的测试结果集；所述主计算节点根据预设的投票规则和每个所述决策树计算节点得到的测试结果集，确定测试的准确率；当测试的准确率在预设合理范围内时，所述主计算节点执行将所述分类规则集转换为所述数据决策平台识别的分类规则集的步骤。
[0017] 结合第一方面的第三种或第四种可能的实现方式，在第五种可能的实现方式中，所述矩阵形式的数据样本中训练样本的信息包括所述矩阵形式的数据样本的存储地址、所述矩阵形式的数据样本中的训练样本与测试样本的比例、以及随机获取样本的比例。
[0018] 结合第一方面的第二种至第五种任一可能的实现方式，在第六种可能的实现方式中，所述计算机系统利用所述数据决策平台识别的表达形式，将所述决策树形式的分类规则集转换为所述数据决策平台识别的分类规则集包括：每个所述决策树计算节点根据所述主计算节点的指示或者预设的转换策略，利用所述数据决策平台识别的表达形式，将自身得到的决策树形式的分类规则转换为所述数据决策平台识别的分类规则；所述数据决策平台识别的分类规则集为每个所述决策树计算节点得到的所述数据决策平台识别的分类规则的集合。
[0019] 结合第一方面的第六种可能的实现方式，在第七种可能的实现方式中，所述计算机系统将所述数据决策平台识别的分类规则集提供给所述数据决策平台包括：所述主计算节点获取每个所述决策树计算节点得到的所述数据决策平台识别的分类规则，得到所述数据决策平台识别的分类规则集；所述主计算节点将所述数据决策平台识别的分类规则集提供给所述数据决策平台。
[0020] 结合第一方面的第二种至第五种任一可能的实现方式，在第八种可能的实现方式中，所述计算机系统利用所述数据决策平台识别的表达形式，将所述决策树形式的分类规则集转换为所述数据决策平台识别的分类规则集包括：每个所述决策树计算节点根据所述主计算节点的指示或者预设的转换策略，将自身得到的决策树形式的分类规则转换为键 /值形式的分类规则；所述主计算节点获取每个所述决策树计算节点得到的键/值形式的分类规则，得到键/值形式的分类规则集，其中，所述键/值形式的分类规则集为每个所述决策树计算节点得到的键/值形式的分类规则的集合；所述主计算节点利用所述数据决策平台识别的表达形式，将所述键/值形式的分类规则集转换为所述数据决策平台识别的分类规则集；则所述计算机系统将所述数据决策平台识别的分类规则集提供给所述数据决策平台包括：所述主计算节点将所述数据决策平台识别的分类规则集提供给所述数据决策平台。
[0021] 结合第一方面或第一方面的第一种至第八种任一可能的实现方式，在第九种可能的实现方式中，所述数据决策平台识别的表达形式为以下至少之一：正则表达式，和二进制表达式。
[0022] 第二方面，本发明实施例提供了一种计算机系统，包括：
[0023] 离散化模块，用于对数据样本进行离散化处理，得到矩阵形式的数据样本；
[0024] 处理模块，

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：彭渊;谢元智;
技术所有人：华为技术有限公司;
我是此专利的发明人

上一篇：用于在中间件机器环境中支持协同并发性的系统和方法
上一篇：基于工作量可伸缩性来管理性能策略的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。