废旧物数据的清洗方法、装置、电子设备及存储介质与流程

文档序号:34599478发布日期:2023-06-28 22:39阅读:41来源:国知局
废旧物数据的清洗方法、装置、电子设备及存储介质与流程

本技术涉及废旧物数据清洗,尤其涉及一种废旧物数据的清洗方法、装置、电子设备及存储介质。


背景技术:

1、在网络信息化的今天,通过线上交易可以加快废旧物处理的公平化、合理化,缩短废旧物品处置的周期,促进废旧物的流通效率。其中,废旧物可以包括快递纸箱、旧衣物、饮料瓶、废钢筋、废铁等。

2、废旧物数据大多由用户上传或者由专业人员现场采集上传,存在录入失败、数值缺失、数据重复的可能,需要对废旧物数据进行数据清洗,以纠正废旧物数据中的错误。

3、现有大多使用标准的清洗规则直接对废旧物数据进行清洗,然而,由于废旧物数据种类繁多,直接使用标准的清洗规则进行清洗,无法保证废旧物数据的清洗准确性,影响后续废旧物线上交易的可靠性。


技术实现思路

1、本技术提供了一种废旧物数据的清洗方法、装置、电子设备及存储介质,以解决现有大多使用标准的清洗规则直接对废旧物数据进行清洗,无法保证废旧物数据的清洗准确性的问题。

2、第一方面,本技术提供了一种废旧物数据的清洗方法,包括:

3、获取线上交易平台的多个废旧物数据,并对多个废旧物数据进行预处理,得到多类废旧物数据集;

4、获取线上交易平台的多个废旧物样本数据和多个标准清洗规则,并采用一个标准清洗规则对一个废旧物样本数据进行清洗,得到多个标准废旧物数据;其中,每个标准废旧物数据对应至少一个标准数据清洗规则;

5、确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,并对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;

6、根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。

7、在一种可能的实现方式中,对多个废旧物数据进行分类,得到多类废旧物数据集,包括:

8、计算每个废旧物数据与其他废旧物数据之间的第一相似度;

9、根据第一相似度对多个废旧物数据进行分类,得到多类废旧物数据集。

10、在一种可能的实现方式中,计算每个废旧物数据与其他废旧物数据之间的第一相似度,包括:

11、将各个废旧物数据向量化;

12、计算每个向量化后的废旧物数据与其他向量化后的废旧物数据之间的相似度,并将相似度作为第一相似度。

13、在一种可能的实现方式中,确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,包括:

14、对于每类废旧物数据集中的每个废旧物数据,计算该废旧物数据与各个标准废旧物数据之间的第二相似度,并根据所有的第二相似度确定该类废旧物数据集与各个标准废旧物数据之间的匹配度。

15、在一种可能的实现方式中,确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,可以包括:

16、对于每类废旧物数据集,若该类废旧物数据集中废旧物数据的数量不超过预设数量,则根据该类废旧物数据集中各个废旧物数据与其他废旧物数据之间的第一相似度计算该类废旧物数据集的特征系数,根据该类废旧物数据集中各个废旧物数据与各个标准废旧物数据之间的第二相似度计算该类废旧物数据集与各个标准废旧物数据之间的相关度,根据特征系数和相关度计算该类废旧物数据集与各个标准废旧物数据之间的匹配度;

17、若该类废旧物数据集中废旧物数据的数量超过预设数量,则筛选出与该类废旧物数据集中单个废旧物数据的第二相似度大于预设阈值的标准废旧物数据,标记为筛选标准废旧物数据,根据该类废旧物数据集中各个废旧物数据与其他废旧物数据之间的第一相似度计算该类废旧物数据集的特征系数,根据该类废旧物数据集中各个废旧物数据与各个筛选标准废旧物数据之间的第二相似度计算该类废旧物数据集与各个筛选标准废旧物数据之间的相关度,根据特征系数和相关度计算该类废旧物数据集与各个筛选标准废旧物数据之间的匹配度;

18、具体的,匹配度计算公式包括第一公式和第二公式,

19、第一公式包括:

20、

21、

22、

23、表示第 f类废旧物数据集与第 n个标准废旧物数据之间的匹配度, m表示第 f类废旧物数据集中废旧物数据的数量,表示第 f类废旧物数据集的特征系数,表示第 f类数据集中第 i个废旧物数据与第 x个废旧物数据之间的第一相似度,表示第 f类废旧物数据集与第 n个标准废旧物数据之间的相关度,表示第 f类废旧物数据集中第 j个废旧物数据与第 n个标准废旧物数据之间的第二相似度;其中,,越大,第 f类废旧物数据集与第 n个标准废旧物数据之间的匹配度越高;

24、第二公式包括:

25、

26、

27、

28、 n0表示与第 f类废旧物数据集中单个废旧物数据的第二相似度大于预设阈值的标准废旧物数据,表示第 f类废旧物数据集与第 n0个标准废旧物数据之间的匹配度,表示第 f类废旧物数据集与第 n0个标准废旧物数据之间的相关度,表示第 f类废旧物数据集中第 j个废旧物数据与第 n0个标准废旧物数据之间的第二相似度;其中,,越大,第 f类废旧物数据集与第 n0个标准废旧物数据之间的匹配度越高。

29、在一种可能的实现方式中,该方法还包括:

30、统计所有混合清洗规则中各个清洗规则的使用频率;

31、筛选所有使用频率大于预设使用频率的标准清洗规则,组成通用清洗规则集。

32、在一种可能的实现方式中,对多个废旧物数据进行分类,得到多类废旧物数据集,包括:

33、使用通用清洗规则集对多个废旧物数据进行数据清洗,并对未发生变化的废旧物数据进行分类,得到多类废旧物数据集。

34、第二方面,本技术提供了一种废旧物数据的清洗装置,包括:

35、第一数据获取模块,用于获取线上交易平台的多个废旧物数据,并对多个废旧物数据进行预处理,得到多类废旧物数据集;

36、第二数据获取模块,用于获取线上交易平台的多个废旧物样本数据和多个标准清洗规则,并采用一个标准清洗规则对一个废旧物样本数据进行清洗,得到多个标准废旧物数据;其中,每个标准废旧物数据对应至少一个标准数据清洗规则;

37、第一计算模块,用于确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,并对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;

38、数据清洗模块,用于根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。

39、第三方面,本技术提供了一种电子设备,包括存储器和处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式废旧物数据的清洗方法的步骤。

40、第四方面,本技术提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式废旧物数据的清洗方法的步骤。

41、本技术提供一种废旧物数据的清洗方法、装置、电子设备及存储介质,通过获取多个废旧物数据,并对多个废旧物数据进行分类,得到多类废旧物数据集;确定每类废旧物数据集与各个标准废旧物数据之间的匹配度;对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。相较于采用标准的清洗规则对废旧物数据进行统一清洗,本技术实施例通过为废旧物数据匹配合适的数据清洗规则,提高了废旧物数据的数据清洗效率和清洗准确性,进而提高了废旧物线上交易的可靠性,提高废旧物资源循环利用的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1