数据分类方法及装置、存储介质及电子设备与流程

文档序号:36931665发布日期:2024-02-02 21:56阅读:13来源:国知局
数据分类方法及装置、存储介质及电子设备与流程

本公开涉及数据处理,具体而言,涉及一种数据分类方法、数据分类装置、电子设备以及计算机可读存储介质。


背景技术:

1、随着云时代的来临,大数据也吸引了越来越多的关注。大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些海量数据包含了丰富的信息和价值,提高对这些数据的加工处理能力,可以实现数据的增值。


技术实现思路

1、本公开实施例的目的在于提供一种数据分类方法、数据分类装置、电子设备以及计算机可读存储介质,从而在一定程度上可以提高对大数据的加工处理能力,实现数据的增值。

2、根据本公开的第一方面,提供一种数据分类方法,包括:采集目标领域数据,并对所述目标领域数据进行数据预处理;将所述目标领域数据转换为文本数据,并通过预先训练好的神经网络对所述文本数据进行特征提取,得到所述目标领域数据的训练数据集;确定所述训练数据集中各样本数据的时变权重,并基于所述时变权重从所述训练数据集中抽取得到第一样本集;针对每一个决策树,依据特征重要性指标随机选择对应的特征子集,得到多个第二样本集;依据所述第一样本集及所述第二样本集通过随机森林算法训练得到所述目标领域数据的随机森林分类器,以通过所述随机森林分类器实现对所述目标领域数据的数据分类。

3、在本公开的一种示例性实施例中,所述对所述目标领域数据进行数据预处理,包括:对所述目标领域数据进行缺失值处理、异常值处理及数据变换处理。

4、在本公开的一种示例性实施例中,所述对所述目标领域数据进行缺失值处理,包括:计算所述目标领域数据的平均值和众数;使用所述平均值填充所述目标领域数据中数值型数据的缺失值,使用所述众数填充所述目标领域数据中分类变量中的缺失值。

5、在本公开的一种示例性实施例中,所述对所述目标领域数据进行异常值处理,包括:通过z分数标准化算法识别所述目标领域数据中的异常值,删除或使用插值方法填充所述异常值。

6、在本公开的一种示例性实施例中,所述对所述目标领域数据进行数据变换处理,包括:通过最小-最大规范化方法将所述目标领域数据转换到相同的度量尺度。

7、在本公开的一种示例性实施例中,所述预先训练好的神经网络包括卷积神经网络及循环神经网络;所述通过预先训练好的神经网络对所述文本数据进行特征提取,得到所述目标领域数据的训练数据集,包括:在所述卷积神经网络中使用多个卷积核对所述文本数据进行卷积操作,并通过池化操作提取目标特征;在循环神经网络中使用长短时记忆网络和门控循环单元网络捕捉所述文本数据的序列信息;使用全连接神经网络进行特征融合,得到所述目标领域数据的训练数据集。

8、在本公开的一种示例性实施例中,所述确定所述训练数据集中各样本数据的时变权重,并基于所述时变权重从所述训练数据集中抽取得到第一样本集,包括:将所述训练数据集中的各所述样本数据按时间排序,并依据时间顺序为各所述样本数据设置对应的所述时变权重;根据所述时变权重在所述训练数据集中进行有放回抽样,得到所述第一样本集。

9、在本公开的一种示例性实施例中,所述针对每一个决策树,依据特征重要性指标随机选择对应的特征子集,得到多个第二样本集,包括:针对各所述决策树,计算所述决策树中各所述样本数据的所述特征重要性指标,并依据所述特征重要性指标对各所述样本数据进行降序排列;依据所述样本数据的排序顺序随机选择所述决策树对应的所述第二样本集。

10、在本公开的一种示例性实施例中,所述依据所述第一样本集及所述第二样本集通过随机森林算法训练得到所述目标领域数据的随机森林分类器,包括:基于所述第一样本集及各所述第二样本集训练得到多个决策树分类器,并对所述决策树分类器采用随机森林算法训练得到所述目标领域数据的随机森林分类器。

11、根据本公开的第二方面,提供一种数据分类装置,包括:数据采集及预处理模块,用于采集目标领域数据,并对所述目标领域数据进行数据预处理;特征提取模块,用于将所述目标领域数据转换为文本数据,并通过预先训练好的神经网络对所述文本数据进行特征提取,得到所述目标领域数据的训练数据集;第一样本集抽取模块,用于确定所述训练数据集中各样本数据的时变权重,并基于所述时变权重从所述训练数据集中抽取得到第一样本集;第二样本集选择模块,用于针对每一个决策树,依据特征重要性指标随机选择对应的特征子集,得到多个第二样本集;数据分类模块,用于依据所述第一样本集及所述第二样本集通过随机森林算法训练得到所述目标领域数据的随机森林分类器,以通过所述随机森林分类器实现对所述目标领域数据的数据分类。

12、在本公开的一种示例性实施例中,所述数据采集及预处理模块具体用于:对所述目标领域数据进行缺失值处理、异常值处理及数据变换处理。

13、在本公开的一种示例性实施例中,所述第一样本集抽取模块具体用于:将所述训练数据集中的各所述样本数据按时间排序,并依据时间顺序为各所述样本数据设置对应的所述时变权重;根据所述时变权重在所述训练数据集中进行有放回抽样,得到所述第一样本集。

14、在本公开的一种示例性实施例中,所述第二样本集选择模块具体用于:针对各所述决策树,计算所述决策树中各所述样本数据的所述特征重要性指标,并依据所述特征重要性指标对各所述样本数据进行降序排列;依据所述样本数据的排序顺序随机选择所述决策树对应的所述第二样本集。

15、在本公开的一种示例性实施例中,所述数据分类模块具体用于:基于所述第一样本集及各所述第二样本集训练得到多个决策树分类器,并对所述决策树分类器采用随机森林算法训练得到所述目标领域数据的随机森林分类器。

16、根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

17、根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。

18、本公开示例性实施例可以具有以下部分或全部有益效果:

19、在本公开示例实施方式所提供的数据分类方法中,采集目标领域数据,并对所述目标领域数据进行数据预处理;将所述目标领域数据转换为文本数据,并通过预先训练好的神经网络对所述文本数据进行特征提取,得到所述目标领域数据的训练数据集;确定所述训练数据集中各样本数据的时变权重,并基于所述时变权重从所述训练数据集中抽取得到第一样本集;针对每一个决策树,依据特征重要性指标随机选择对应的特征子集,得到多个第二样本集;依据所述第一样本集及所述第二样本集通过随机森林算法训练得到所述目标领域数据的随机森林分类器,以通过所述随机森林分类器实现对所述目标领域数据的数据分类。一方面,本公开将目标领域数据转换为文本数据,并通过预先训练好的神经网络对文本数据进行特征提取,能够捕捉复杂的数据模式。另一方面,本公开在随机森林分类器的过程中引入了时变权重及特征重要性指标,提高了模型的预测性能和准确度,降低了过拟合风险。

20、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1