企业大数据算法属性数据预测方法与流程

文档序号：35906736发布日期：2023-10-29 03:21阅读：25来源：国知局

本发明涉及大数据预测，具体为企业大数据算法属性数据预测方法。

背景技术：

1、随着大数据技术的不断发展，企业对于数据的需求越来越高，根据大数据分析进行未来预测已经成为企业运营的重要手段。在现有技术中，普遍采用的是机器学习算法对大量数据进行训练和分析，然后得出一定的预测模型。但是现有技术存在以下缺陷和不足：

2、数据预处理精度低：在进行机器学习算法训练之前，需要对原始数据进行处理，包括去除噪声、填充缺失值等等，这个过程可能会对数据的准确性造成一定的影响，从而影响预测的准确性。模型解释性差：现有技术常采用的深度学习算法由于其复杂的网络结构和众多参数，导致其模型解释性较差，即无法直观理解模型的预测结果，这也给企业对于数据的正确理解和分析增加了难度。算法适应性不足：现有技术的机器学习算法在处理特殊场景或者数据类型时，往往需要重新选择和训练算法，这一过程需要专业人员进行，耗费时间和精力，从而影响企业决策的及时性和准确性。

3、针对以上现有技术的缺陷和不足，本发明提出了一种企业大数据算法属性数据预测方法、装置、电子设备及存储介质，能够自动进行数据预处理、提高模型解释性、并且能够适应多种数据类型和场景的需求。

技术实现思路

1、本发明的目的在于提供企业大数据算法属性数据预测方法，解决了背景技术中的数据预测精度低的问题。

2、为实现上述目的，本发明提供如下技术方案：企业大数据算法属性数据预测方法，包括：

3、数据采集，通过收集、整理、分析大量的数据来构建数据集合，包括历史数据和当前数据；

4、数据预处理：对数据进行清洗、去噪、归一化、标准化操作，并去除数据异常值以及数据缺失值的填充；

5、特征提取：基于对数据的深入分析和挖掘，提取出最具代表性的数据特征，采用三段式特征选择，第一，过滤式特征选择，根据某种评价指标对特征进行排序，选择排名靠前的特征，第二，包裹式特征选择：将特征选择看作是一个搜索问题，采用启发式算法来选择最优特征子集，第三，嵌入式特征选择：将特征选择嵌入到模型训练中，通过优化目标函数来选择最优特征；

6、模型训练：基于提取出的数据特征，使用机器学习算法或其他预测模型进行训练；

7、数据预测：根据训练好的预测模型，对未来数据进行预测。

8、优选的，数据采集确定数据采集目标和范围，并构建数据采集的工具，使用所选的数据采集工具对数据进行采集，将采集到的数据存储在数据仓库或数据库中。

9、优选的，数据采集后对采集的数据进行预处理，数据清洗和预处理对采集到的原始数据进行清洗和预处理，包括去重、去噪、缺失值填充等，以提高数据质量和准确性。

10、优选的，数据整合和转换，将采集到的数据整合和转换为统一的格式，方便后续的数据分析和预测，并进行数据存储和管理将处理后的数据存储在数据仓库或数据库中，并进行管理和维护，以确保数据的安全性和完整性。

11、优选的，数据整合后数据更新和维护，根据数据采集的时间和频率，对数据进行更新和维护，保证数据的实时性和准确性。

12、优选的，特征提取频域特征、时域特征，小波变换，对提取出来的特征进行归一化处理，以消除不同特征之间的量纲差异，使得特征对预测结果的影响更加平等。

13、优选的，模拟训练，数据集划分，首先需要将原始数据集划分为训练集和测试集，通常将数据集的70%作为训练集，30%作为测试集，其次模型选择，根据预测目标和数据特征，选择线性回归模型选择预测目标和数据特征，再后来参数初始化，对所选模型进行初始化，即对模型的参数进行设定。

14、优选的，定义模型的损失函数，评价模型预测结果与实际结果的误差，模型训练，使用训练数据对所选模型进行训练，通过反向传播算法不断调整模型参数，使得模型的损失函数不断降低，模型评估，使用测试数据对训练好的模型进行评估，以评估模型的预测准确性和泛化能力，常用的评估指标包括均方误差、平均绝对误差、r2，模型优化，根据评估结果对模型进行优化，调整模型超参数、增加正则化项，以提高模型的预测准确性和泛化能力。

15、优选的，测试数据对训练好的模型进行评估，以评估模型的预测准确性和泛化能力，将训练好的模型应用于实际数据预测中，并进行持续优化和调整。

16、优选的，模型评估中首先评估模型预测结果与实际结果的误差，其次评估模型预测结果与实际结果的绝对误差，其次评估模型对数据的拟合程度，取值范围为0-1，值越接近1表示模型的拟合效果越好，最后将数据集划分为若干个子集，使用其中一部分数据作为测试集，其余数据作为训练集，多次重复这个过程，最终得到一个评估模型的平均值，用于预测连续型变量，可以通过改变模型参数来提高预测准确性，根据数据情况和预测目标进行评估和应用。

17、与现有技术相比，本发明的有益效果如下：

18、本发明提供的企业大数据算法属性数据预测方法，利用大数据技术进行数据分析和挖掘，能够快速有效地识别出各种数据模式，提高数据预测的准确性，精度高：采用机器学习等高级算法进行数据处理和模型运算，提高预测精度，避免误判风险，实用性强：抓住了当前大数据时代，满足了企业在进行数据管理、市场营销和业务决策等方面的需求，成本低：本发明不需要专门建立独立的信息体系，利用企业已有的数据资源即可完成数据处理与挖掘的操作，因此将大幅降低企业的信息化建设成本。

技术特征：

1.企业大数据算法属性数据预测方法，其特征在于，包括：

2.根据权利要求1所述的企业大数据算法属性数据预测方法，其特征在于：数据采集确定数据采集目标和范围，并构建数据采集的工具，使用所选的数据采集工具对数据进行采集，将采集到的数据存储在数据仓库或数据库中。

3.根据权利要求2所述的企业大数据算法属性数据预测方法，其特征在于：数据采集后对采集的数据进行预处理，数据清洗和预处理对采集到的原始数据进行清洗和预处理，包括去重、去噪、缺失值填充等，以提高数据质量和准确性。

4.根据权利要求1所述的企业大数据算法属性数据预测方法，其特征在于：数据整合和转换，将采集到的数据整合和转换为统一的格式，方便后续的数据分析和预测，并进行数据存储和管理将处理后的数据存储在数据仓库或数据库中，并进行管理和维护，以确保数据的安全性和完整性。

5.根据权利要求4所述的企业大数据算法属性数据预测方法，其特征在于：数据整合后数据更新和维护，根据数据采集的时间和频率，对数据进行更新和维护，保证数据的实时性和准确性。

6.根据权利要求1所述的企业大数据算法属性数据预测方法，其特征在于：特征提取频域特征、时域特征，小波变换，对提取出来的特征进行归一化处理，以消除不同特征之间的量纲差异，使得特征对预测结果的影响更加平等。

7.根据权利要求1所述的企业大数据算法属性数据预测方法，其特征在于：模拟训练，数据集划分，首先需要将原始数据集划分为训练集和测试集，通常将数据集的70%作为训练集，30%作为测试集，其次模型选择，根据预测目标和数据特征，选择线性回归模型选择预测目标和数据特征，再后来参数初始化，对所选模型进行初始化，即对模型的参数进行设定。

8.根据权利要求7所述的企业大数据算法属性数据预测方法，其特征在于：定义模型的损失函数，评价模型预测结果与实际结果的误差，模型训练，使用训练数据对所选模型进行训练，通过反向传播算法不断调整模型参数，使得模型的损失函数不断降低，模型评估，使用测试数据对训练好的模型进行评估，以评估模型的预测准确性和泛化能力，常用的评估指标包括均方误差、平均绝对误差、r2，模型优化，根据评估结果对模型进行优化，调整模型超参数、增加正则化项，以提高模型的预测准确性和泛化能力。

9.根据权利要求1所述的企业大数据算法属性数据预测方法，其特征在于：测试数据对训练好的模型进行评估，以评估模型的预测准确性和泛化能力，将训练好的模型应用于实际数据预测中，并进行持续优化和调整。

10.根据权利要求9所述的企业大数据算法属性数据预测方法，其特征在于：模型评估中首先评估模型预测结果与实际结果的误差，其次评估模型预测结果与实际结果的绝对误差，其次评估模型对数据的拟合程度，取值范围为0-1，值越接近1表示模型的拟合效果越好，最后将数据集划分为若干个子集，使用其中一部分数据作为测试集，其余数据作为训练集，多次重复这个过程，最终得到一个评估模型的平均值，用于预测连续型变量，可以通过改变模型参数来提高预测准确性，根据数据情况和预测目标进行评估和应用。

技术总结
本发明公开了企业大数据算法属性数据预测方法，涉及大数据预测技术领域，在现有技术中，普遍采用的是机器学习算法对大量数据进行训练和分析，数据预处理精度低，从而影响预测的准确性，模型解释性差，算法适应性不足，需要专业人员进行，耗费时间和精力，从而影响企业决策的及时性和准确性，本发明利用大数据技术进行数据分析和挖掘，能够快速有效地识别出各种数据模式，提高数据预测的准确性，精度高：采用机器学习等高级算法进行数据处理和模型运算，提高预测精度，避免误判风险，实用性强：抓住了当前大数据时代，满足了企业在进行数据管理、市场营销和业务决策等方面的需求，成本低，因此将大幅降低企业的信息化建设成本。

技术研发人员：任政
受保护的技术使用者：深圳全企通信息技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：任政
技术所有人：深圳全企通信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。