基于数据挖掘的模型智能优化的方法、存储介质及设备与流程

文档序号：34261899发布日期：2023-05-25 04:55阅读：53来源：国知局

本发明涉及大数据挖掘，具体地，涉及一种基于数据挖掘的模型智能优化的方法、存储介质及设备。

背景技术：

1、数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。神经网络(neural network)是通过数学算法来模仿人脑思维的，它是数据挖掘中机器学习的典型代表。神经网络是人脑的抽象计算模型，人脑中有数以百亿个神经元(人脑处理信息的微单元)，这些神经元之间相互连接，使得人的大脑产生精密的逻辑思维。通过神经网络构建的神经模型的评价指标和评价体系是建模过程中的一个重要环节，不同类型的项目、不同类型的模型有各自的评价指标和体系。

2、在数据化运营实践场景中，大量的模型属于二元变量的分类模型，比如：预测用户是否响应运营活动、预测用户是否会流失、预测用户是否在最近1个月内会购买某产品等；且二元变量的分类模型相比于其他类型的模型来说有更多的评价维度和评价指标，也更为繁杂。

技术实现思路

1、针对现有技术中存在的问题，本发明提供了一种基于数据挖掘的模型智能优化的方法、存储介质及设备，能够提高预测值对数据划分分类和指标的准确度。

2、为实现上述技术目的，本发明采用如下技术方案：一种基于数据挖掘的模型智能优化的方法，具体包括如下步骤：

3、步骤1、根据机器学习理论构建k最邻近分类模型，将数据化运营实践场景产生的历史数据输入到k最邻近分类模型中进行分类，得到分类数据集合；

4、步骤2、通过评价指标对步骤1的分类结果进行再分类，得到精细分类数据集合；

5、步骤3、通过朴素贝叶斯分类法构建分类预测模型，将步骤1的分类数据集合和步骤2得到的精细分类数据集合输入到分类预测模型中，预测出历史数据属于对应分类以及评价指标的概率，以概率最高的分类和评价指标作为历史数据的分类结果。

6、进一步地，所述k最邻近分类模型的构建过程为：

7、

8、其中，xi表示第i个历史数据，k表示与未确定类别样本距离最近的样本数，wi表示第i个历史数据的权值，wi＝1/d(x，xi)2，d(x，xi)表示样本x与近邻样本xi的距离。

9、进一步地，所述机器学习理论包括：tp、tn、fp、fn，所述tp表示模型预测正确的，并且实际上也是正确的观察对象的数量；所述tn表示模型预测错误的，并且实际上也是错误的观察对象的数量；所述fp表示指模型预测正确的，但是实际上是错误的观察对象的数量；所述fn表示模型预测错误的，但是实际上正确的观察对象的数量。

10、进一步地，所述评价指标包括：正确率、错误率、灵敏性、特效性、精度、假正率、负元正确率、正元错误率。

11、进一步地，所述分类预测模型的构建过程为：

12、

13、其中，x为历史数据中关于分类或评价指标的描述，ci为历史数据中第i个类别或评价指标，p(x)为x的先验概率，p(ci)为ci的先验概率，p(x|ci)为x是ci的概率，p(ci|x)为ci属于x的后验概率。

14、进一步地，本发明还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序使计算机执行所述的基于数据挖掘的模型智能优化的方法。

15、进一步地，本发明还提供了一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，实现所述的基于数据挖掘的模型智能优化的方法。

16、与现有技术相比，本发明具有如下有益效果：本发明基于数据挖掘的模型智能优化的方法通过k最邻近分类模型将数据化运营实践场景产生的历史数据进行分类，并通过评价指标对分类的结果进行再分类，最后通过分类预测模型预测出历史数据属于对应分类以及评价指标的概率，以概率最高的分类和评价指标作为历史数据的分类结果。通过本发明基于数据挖掘的模型智能优化的方法能够提高预测值对数据划分分类和指标的准确度，为数据挖掘提供正确指导。

技术特征：

1.一种基于数据挖掘的模型智能优化的方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于数据挖掘的模型智能优化的方法，其特征在于，所述k最邻近分类模型的构建过程为：

3.根据权利要求1所述的一种基于数据挖掘的模型智能优化的方法，其特征在于，所述机器学习理论包括：tp、tn、fp、fn，所述tp表示模型预测正确的，并且实际上也是正确的观察对象的数量；所述tn表示模型预测错误的，并且实际上也是错误的观察对象的数量；所述fp表示指模型预测正确的，但是实际上是错误的观察对象的数量；所述fn表示模型预测错误的，但是实际上正确的观察对象的数量。

4.根据权利要求1所述的一种基于数据挖掘的模型智能优化的方法，其特征在于，所述评价指标包括：正确率、错误率、灵敏性、特效性、精度、假正率、负元正确率、正元错误率。

5.根据权利要求1所述的一种基于数据挖掘的模型智能优化的方法，其特征在于，所述分类预测模型的构建过程为：

6.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序使计算机执行如权利要求1-5任一项所述的基于数据挖掘的模型智能优化的方法。

7.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，实现如权利要求1-5任一项所述的基于数据挖掘的模型智能优化的方法。

技术总结
本发明公开了一种基于数据挖掘的模型智能优化的方法、存储介质及设备，该基于数据挖掘的模型智能优化的方法包括：根据机器学习理论构建k最邻近分类模型，将数据化运营实践场景产生的历史数据输入到k最邻近分类模型中进行分类，得到分类数据集合；通过评价指标对分类结果进行再分类，得到精细分类数据集合；通过朴素贝叶斯分类法构建分类预测模型，将分类数据集合和精细分类数据集合输入到分类预测模型中，预测出历史数据属于对应分类以及评价指标的概率，以概率最高的分类和评价指标作为历史数据的分类结果。通过本发明基于数据挖掘的模型智能优化的方法能够提高预测值对数据划分分类和指标的准确度，为数据挖掘提供正确指导。

技术研发人员：王健,李正伟,徐茹,周健东,胡晶晶
受保护的技术使用者：中通服网盈科技有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王健李正伟徐茹周健东胡晶晶
技术所有人：中通服网盈科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。