面向设备管理数据库存放地址的清洗方法、装置及设备

文档序号:36243570发布日期:2023-12-02 07:08阅读:31来源:国知局
面向设备管理数据库存放地址的清洗方法

本发明涉及地址数据处理领域,尤其涉及一种面向设备管理数据库存放地址的清洗方法、装置及设备。


背景技术:

1、随着信息化应用的逐步深入,许多企业或单位组织都需要建立了自己的设备管理信息系统,并按照国家规范要求完善凭证管理、数据管理、定额管理和档案资料管理等工作,定期进行统计分析与盘点。设备管理信息系统中的数据存放在设备管理数据库当中,日积月累形成了大量的设备信息。设备管理信息包括诸如:设备使用价值、使用年限、存放地址、购入时间、状态等等不同的属性特征,这些特征虽然数量和种类较多,但是绝大多数特征在数据存储过程中是规范的,比如“使用年限”、“使用价值”等。但是,设备的“存放地址”这一属性特征由于历史变迁以及信息化建设过程中规范性不够,“存放地址”这一属性特征规范性极差,这对设备管理数据库的清洗和数据融合带来了极大工作量。

2、“存放地址”这一特征是其他数据进行关联的最重要的“枢纽”,各种数据之间进行数据融合一般经过“存放地址”进行关联,但由于这一特征存储的不规范性导致数据融合的工作很难展开。


技术实现思路

1、本发明主要解决由于存放地址这一属性特征存储不规范给设备管理数据库的清洗和数据融合造成工作量极大的技术问题。为了解决该技术问题,本发明提出了一种面向设备管理数据库存放地址的清洗方法、装置及设备,该方法首先对特征进行向量化,其次使用决策树算法对向量化的数据进行训练,训练后的模型可以对设备的存放地址进行校验并且对缺失信息进行合理地预测。

2、根据本发明的第一方面,本发明提供了一种面向设备管理数据库存放地址的清洗方法,包括以下步骤:

3、获取用于存放地址的原始数据集;

4、对原始数据集进行预处理;

5、将预处理后的数据集划分为训练集和测试集;

6、选择信息增益作为分支的判定条件,并通过id3算法联合c4.5算法构造决策树模型,通过训练集对决策树模型进行优化,并通过测试集对决策树模型进行性能测试,优化及测试完成后,生成预测模型;

7、获取新的数据集并进行预处理,将预处理后的新数据集输入预测模型,生成每个数据的预测结果;针对空标签数据,利用预测结果进行填补;针对非空标签数据,将实际结果和预测结果进行检核,并结束应用。

8、进一步地,所述预处理包括:缺失值处理和数据变换。

9、进一步地,所述缺失值处理包括:

10、观察原始数据集的特征,得到各特征的完整信息表,该信息表中包含各个特征的数据类型以及数量;

11、将该数据集中的数据缺失大于样本总数的十分之一的属性特征删除;

12、对于该数据集中的数据缺失量小于样本总数的十分之一的属性特征,则根据历史数据取众数,或在历史记录中找到与缺失样本最近的样本的属性值进行插补。

13、进一步地,所述数据变换包括:

14、如果是字符串类型的数据,则基于word2vec工具中的skip-gram模型将每个词表示成一个固定长度的向量,并使得这些向量能够表达不同词之间的相似性和类比关系;

15、如果是类别类型的数据,则采用顺序编码进行处理,将类别类型的数据分为从1到n的数字类型数据,n的大小和类别的种类数量相同;

16、如果是数字类型的数据,则不再通过编码处理,但如果数据距离差距大于设定阈值,则通过规范化处理将数据进行压缩。

17、进一步地,所述选择信息增益作为分支的判定条件,并通过id3算法联合c4.5算法构造决策树模型的步骤,包括:

18、选取信息增益作为决策树分支的判定条件,特征a对训练集d的信息增益g(d,a)定义为训练集d的经验熵h(d)与特征a给定条件下的d的经验条件熵h(d|a)之差,即:

19、g(d,a)=h(d)-h(d|a)  公式一

20、其评定标准如下,设x是一个取有限个值的离散随机变量,xi是第i个随机变量,n为随机变量的个数,pi为第i个随机变量的概率,x的概率分布为:

21、p(x=xi)=pi,i=1,2,...,n  公式二

22、那么随机变量x的熵定义为:

23、

24、选择id3算法联合c4.5算法作为决策树分裂算法,选取信息增益作为选择的度量标准;

25、对训练集中的m个特征属性,第一步,利用公式二计算特征k中的每一个类别对应的概率p1,p2,...,pt,其中,t的大小取决于特征k中每一个类别中的标签类别个数;第二步,利用公式三分别递归的计算这m个特征属性作为根节点的熵ent(d1)、ent(d2)、...、ent(dn),其中n的大小等于特征k的类别个数;第三步,利用第二步得到的熵分别得到从1到m个特征属性的信息增益gain(d,k1),gain(d,k2),...,gain(d,km),得到这m个信息增益中的最大值gainmax(d,k),此时这个特征k就是决策树模型的根节点;

26、根节点k有m个分支节点,对于其第一个分支节点得到其样例集合d1,用其他m-1个属性特征基于d1计算出各自的信息增益gain(d1,k1),gain(d1,k2),...,gain(d1,k(m-1)),找到信息增益中的最大值作为第一个分支的根节点,然后对于每一个分支节点做如上的操作,得到最终的决策树模型。

27、进一步地,所述通过训练集对决策树模型进行优化的步骤,包括:

28、a:获取训练集d={(x1,y1),(x2,y2),(x3,y3),...,(xm,ym)};

29、b:获取验证集

30、c:获取利用信息增益生成的训练集d的决策树模型;

31、d:利用验证集t验证决策树预测的准确率,并将验证集的准确率记为a;

32、e:按照从上至下,从左至右的顺序从1到n逐个标记非叶子节点;

33、f:将标号最大的非叶子节点剪掉,如果剪掉之后的决策树模型使得验证集的准确率低于或者等于a,则保留此节点,并且其父节点以及父节点的父节点均保留;如果验证集的准确率高于a,则更新a为当前准确率,并且将此节点剪掉,然后将记号减1;

34、g:循环f操作,直到最后准确率达到最大值,此时决策树模型达到最理想状态。

35、进一步地,所述通过测试集对决策树模型进行性能测试的步骤,包括:

36、将测试集输入决策树模型,得到决策树模型的准确率、查准率、召回率、f1-socre以及混淆矩阵。

37、根据本发明的第二方面,本发明提供了一种面向设备管理数据库存放地址的清洗装置,包括以下模块:

38、获取模块,用于获取用于存放地址的原始数据集;

39、预处理模块,用于对原始数据集进行预处理;

40、划分模块,用于将预处理后的数据集划分为训练集和测试集;

41、训练模块,用于选择信息增益作为分支的判定条件,并通过id3算法联合c4.5算法构造决策树模型,通过训练集对决策树模型进行优化,并通过测试集对决策树模型进行性能测试,优化及测试完成后,生成预测模型;

42、应用模块,用于获取新的数据集并进行预处理,将预处理后的新数据集输入预测模型,生成每个数据的预测结果;针对空标签数据,利用预测结果进行填补;针对非空标签数据,将实际结果和预测结果进行检核,并结束应用。

43、根据本发明的第三方面,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的面向设备管理数据库存放地址的清洗方法的步骤。

44、根据本发明的其他方面,本发明还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的面向设备管理数据库存放地址的清洗方法的步骤。

45、本发明提供的技术方案具有以下有益效果:

46、本发明提供了一种面向设备管理数据库存放地址的清洗方法,首先获取原始数据集,并进行预处理,删除或补齐缺失数据,并按照特征的类型对每个特征进行编码;其次,选取信息增益作为分支的判定条件,并选择id3算法联合c4.5算法作为决策树的分裂算法构造决策树模型,并通过训练集对构造完成后的决策树模型进行优化,以及通过测试集进行性能测试,如果模型优化的结果不理想,则继续优化,否则直接生成预测模型,结束训练;最后,将预处理后的新数据集输入预测模型,生成每个数据的预测结果。针对空标签数据,利用预测结果进行填补;针对非空标签数据,将实际结果和预测结果进行检核,然后结束应用。因此本发明能够高效、准确地对数据库中地址属性进行清洗和预测,为设备管理数据库的集成共享提供了有效的解决方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1