车辆的数据清洗方法、装置、车辆及存储介质与流程

文档序号:34058607发布日期:2023-05-05 22:11阅读:43来源:国知局
车辆的数据清洗方法、装置、车辆及存储介质与流程

本技术涉及数据清洗,特别涉及一种车辆的数据清洗方法、装置、车辆及存储介质。


背景技术:

1、随着新能源汽车技术的快速发展,从车端tbox(telematics box,智能车载终端)回传的数据量日益庞大,为了保证数据的时效性和准确性,缓解后续数据分析、数据处理的压力,需要对数据进行有效清洗。

2、相关技术中,提出一种基于python脚本的分布式大数据清洗方法,包括利用python脚本方式对数据进行清洗,但其数据清洗的步骤比较繁琐,导致数据清洗时间长,效率低,同时对新能源汽车数据清洗的适应性不足,此技术亟待解决。


技术实现思路

1、本技术提供一种车辆的数据清洗方法、装置、车辆及存储介质,以解决相关技术中数据清洗过程复杂,导致数据清洗时间过长,效率低,且无法有效适应车辆的大量数据清洗等问题。

2、本技术第一方面实施例提供一种车辆的数据清洗方法,所述方法应用于服务器,其中,所述方法包括以下步骤:获取车辆的身份标识;根据所述身份标识查询预先建立的数据表,得到关联的清洗策略、车辆维度信息和车辆运行数据,并根据所述身份标识对所述车辆维度信息和车辆运行数据进行分组和排序,得到有序数据集;遍历有序数据集,根据数据类型从所述清洗策略中匹配的清洗规则进行数据清洗,直到所述车辆的数据全部完成,停止数据清洗。

3、根据上述技术手段,本技术实施例可以通过建立数据表,便于根据身份标识查询数据,由于数据表中清洗策略、车辆维度信息和车辆运行数据的关联,可以有效实现数据信息的分组和排序,从而生成有序数据集,同时为根据数据类型进行数据清洗提供了便利,有助于节省数据清洗的时间,提升清洗效率,并且对于车辆的大量数据清洗场景有良好的适应性。

4、进一步地,在本技术的一个实施例中,所述数据类型包括第一至第四数据类型,所述根据数据类型从所述清洗策略中匹配的清洗规则进行数据清洗,包括:若所述数据类型为第一数据类型,则将所述第一数据类型对应数据转换为预设格式的数据;若所述数据类型为第二数据类型,则填充或拼接所述第二数据类型对应数据的字段,其中,若所述数据的编码行为空行,则进行数据回填;若所述数据类型为第三数据类型,则清洗所述第三数据类型对应数据中极值和/或不合理值,其中,若所述数据为空值,则进行数据回填;若所述数据类型为第四数据类型,则根据数据预设个数和顺序关系清洗所述第四数据类型对应数据,并计算清洗后数据的统计相关数据,其中,若所述数据的编码行为空行,则进行数据回填。

5、根据上述技术手段,本技术实施例可以对于不同的数据类型应用不同的清洗规则,若为第一数据类型,则对应转换为预设格式的数据,若为第二数据类型,则填充或拼接对应数据的字段,若为第三数据类型,则清洗对应数据中极值和不合理值中的一种或全部,若为第四数据类型,则根据数据预设个数和顺序关系清洗对应数据,并计算清洗后数据的统计相关数据,其中,对于第二至第四数据类型,若所述数据的编码行为空行,则进行数据回填。由此,可以有效提升数据清洗的灵活性和效率,节省数据清洗的时间,从而有效提升大量数据的清洗效果。

6、进一步地,在本技术的一个实施例中,所述根据数据类型从所述清洗策略中匹配的清洗规则进行数据清洗,还包括:根据清洗后的数据填充至数据模板,删除空数据模板得到新数据模板;对所述新数据模板列表中列项压平后得到新数据集,并设置列表的设置数据表的分区字段,以覆盖的方式写入数据;提取所述新数据模板中需要存入到数据库的数据片段,以追加的方式插入数据,或者,并行运行处理程序将数据写入所述数据库。

7、根据上述技术手段,本技术实施例在提取新数据模板中的数据时,可以通过追加的方式插入数据,也可以利用并行运行处理程序将数据写入所述数据库,从而有效避免数据库表过大,数据写入速度越来越慢的问题,从而从整体上节约数据清洗的时间。

8、进一步地,在本技术的一个实施例中,所述根据所述身份标识查询预先建立的数据表,得到关联的清洗策略、车辆维度信息和车辆运行数据,包括:根据所述身份标识匹配关联的清洗策略和待清洗数据;利用预设内联方式解析所述待清洗数据的字符串,得到所述车辆运行数据和/或车辆维度信息。

9、根据上述技术手段,本技术实施例可以先通过身份标识匹配得到关联的清洗策略和待清洗数据,然后利用预设内联方式对待清洗数据的字符串进行解析,从而可以得到车辆运行数据和车辆维度信息中的一种或全部,通过对车辆维度信息的同时提取,有效减少后续解析次数,从而大大提高了性能。

10、进一步地,在本技术的一个实施例中,在根据所述身份标识查询预先建立的数据表之前,还包括:接收所述车辆的车辆运行数据;将所述车辆运行数据分发到分布式发布订阅消息系统,由所述分布式发布订阅消息系统通过日志收集系统落盘到分布式文件系统;根据待清洗数据特征从数据库中加载清洗策略,缓存需要清洗车辆的车辆维度数据,关联所述清洗策略、所述车辆维度信息和所述车辆运行数据形成所述数据表。

11、根据上述技术手段,本技术实施例可以通过将车辆运行数据落盘到分布式文件系统,并对清洗策略、车辆维度信息和车辆运行数据进行关联,从而形成数据表,便于后续相关数据的查询。

12、进一步地,在本技术的一个实施例中,在根据所述身份标识查询预先建立的数据表之前,还包括:读取所述数据库中预设分区标号的车辆运行数据;根据所述车辆维度信息和所述清洗策略生成广播变量,并进行广播,以使得集群中参与清洗计算的所有节点得到完整数据。

13、根据上述技术手段,本技术实施例可以通过广播的方式,从而使得集群中参与清洗计算的所有节点获得完整数据,为后续数据清洗做准备。

14、进一步地,在本技术的一个实施例中,根据所述身份标识对所述车辆维度信息和车辆运行数据进行分组和排序,得到有序数据集,包括:根据所述车辆维度信息和所述车辆运行数据生成数据集;利用所述车辆的身份标识对所述数据集进行分组,并对同一车辆的数据按照时间进行排序,得到所述有序数据集。

15、根据上述技术手段,本技术实施例可以根据车辆的身份标识对数据集进行分组和排序,从而得到有序数据集,为后续数据清洗做准备。

16、本技术第二方面实施例提供一种车辆的数据清洗装置,所述装置应用于服务器,其中,所述装置包括:获取模块,用于获取车辆的身份标识;准备模块,用于根据所述身份标识查询预先建立的数据表,得到关联的清洗策略、车辆维度信息和车辆运行数据,并根据所述身份标识对所述车辆维度信息和车辆运行数据进行分组和排序,得到有序数据集;执行模块,用于遍历有序数据集,根据数据类型从所述清洗策略中匹配的清洗规则进行数据清洗,直到所述车辆的数据全部完成,停止数据清洗。

17、进一步地,在本技术的一个实施例中,所述数据类型包括第一至第四数据类型,所述执行模块进一步用于:若所述数据类型为第一数据类型,则将所述第一数据类型对应数据转换为预设格式的数据;若所述数据类型为第二数据类型,则填充或拼接所述第二数据类型对应数据的字段,其中,若所述数据的编码行为空行,则进行数据回填;若所述数据类型为第三数据类型,则清洗所述第三数据类型对应数据中极值和/或不合理值,其中,若所述数据为空值,则进行数据回填;若所述数据类型为第四数据类型,则根据数据预设个数和顺序关系清洗所述第四数据类型对应数据,并计算清洗后数据的统计相关数据,其中,若所述数据的编码行为空行,则进行数据回填。

18、进一步地,在本技术的一个实施例中,所述执行模块还可以用于:根据清洗后的数据填充至数据模板,删除空数据模板得到新数据模板;对所述新数据模板列表中列项压平后得到新数据集,并设置列表的设置数据表的分区字段,以覆盖的方式写入数据;提取所述新数据模板中需要存入到数据库的数据片段,以追加的方式插入数据,或者,并行运行处理程序将数据写入所述数据库。

19、进一步地,在本技术的一个实施例中,所述准备模块进一步用于:根据所述身份标识匹配关联的清洗策略和待清洗数据;利用预设内联方式解析所述待清洗数据的字符串,得到所述车辆运行数据和/或车辆维度信息。

20、进一步地,在本技术的一个实施例中,车辆的数据清洗装置还包括:建立模块,用于在根据所述身份标识查询预先建立的数据表之前,接收所述车辆的车辆运行数据;将所述车辆运行数据分发到分布式发布订阅消息系统,由所述分布式发布订阅消息系统通过日志收集系统落盘到分布式文件系统;根据待清洗数据特征从数据库中加载清洗策略,缓存需要清洗车辆的车辆维度数据,关联所述清洗策略、所述车辆维度信息和所述车辆运行数据形成所述数据表。

21、进一步地,在本技术的一个实施例中,车辆的数据清洗装置还包括:广播模块,用于在根据所述身份标识查询预先建立的数据表之前,读取所述数据库中预设分区标号的车辆运行数据;根据所述车辆维度信息和所述清洗策略生成广播变量,并进行广播,以使得集群中参与清洗计算的所有节点得到完整数据。

22、进一步地,在本技术的一个实施例中,所述准备模块还可以用于:根据所述车辆维度信息和所述车辆运行数据生成数据集;利用所述车辆的身份标识对所述数据集进行分组,并对同一车辆的数据按照时间进行排序,得到所述有序数据集。

23、本技术第三方面实施例提供一种车辆,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的车辆的数据清洗方法。

24、本技术第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的车辆的数据清洗方法。

25、由此,本技术至少具有如下有益效果:

26、1、本技术实施例可以通过建立数据表,便于根据身份标识查询数据,由于数据表中清洗策略、车辆维度信息和车辆运行数据的关联,可以有效实现数据信息的分组和排序,从而生成有序数据集,同时为根据数据类型进行数据清洗提供了便利,有助于节省数据清洗的时间,提升清洗效率,并且对于车辆的大量数据清洗场景有良好的适应性。

27、2、本技术实施例可以对于不同的数据类型应用不同的清洗规则,若为第一数据类型,则对应转换为预设格式的数据,若为第二数据类型,则填充或拼接对应数据的字段,若为第三数据类型,则清洗对应数据中极值和不合理值中的一种或全部,若为第四数据类型,则根据数据预设个数和顺序关系清洗对应数据,并计算清洗后数据的统计相关数据,其中,对于第二至第四数据类型,若所述数据的编码行为空行,则进行数据回填。由此,可以有效提升数据清洗的灵活性和效率,节省数据清洗的时间,从而有效提升大量数据的清洗效果。

28、3、本技术实施例在提取新数据模板中的数据时,可以通过追加的方式插入数据,也可以利用并行运行处理程序将数据写入所述数据库,从而有效避免数据库表过大,数据写入速度越来越慢的问题,从而从整体上节约数据清洗的时间。

29、4、本技术实施例可以先通过身份标识匹配得到关联的清洗策略和待清洗数据,然后利用预设内联方式对待清洗数据的字符串进行解析,从而可以得到车辆运行数据和车辆维度信息中的一种或全部,通过对车辆维度信息的同时提取,有效减少后续解析次数,从而大大提高了性能。

30、5、本技术实施例可以通过将车辆运行数据落盘到分布式文件系统,并对清洗策略、车辆维度信息和车辆运行数据进行关联,从而形成数据表,便于后续相关数据的查询。

31、6、本技术实施例可以通过广播的方式,从而使得集群中参与清洗计算的所有节点获得完整数据,为后续数据清洗做准备。

32、7、本技术实施例可以根据车辆的身份标识对数据集进行分组和排序,从而得到有序数据集,为后续数据清洗做准备。

33、本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1