本申请涉及数据清洗领域,尤其涉及一种客户信息数据清洗方法和装置。
背景技术:
1、在数据清洗领域,存储数据前往往需要对数据执行结构化处理。为提升数据质量,通常需要对数据执行清洗,以实现数据结构化存储。
2、在部分应用场景中,需要技术人员根据实际应用场景设定数据清洗规则,进而按照清洗规则对特定应用场景的数据执行针对性清洗。虽然这种方式能够实现数据清洗,但只能针对量级较小的数据集,应用场景局限性强。
3、在大数据领域,需要对海量客户信息执行清洗,客户信息的形式多样,往往包含有数字、文本、符号等多种数据格式。上述人为设定清洗规则的方案主观性强、效率低,对于海量的复杂客户信息难以制定合适的清洗规则,清洗质量较差。
4、如何提高客户信息批量清洗质量,是本申请所要解决的技术问题。
技术实现思路
1、本申请实施例的目的是提供一种客户信息数据清洗方法和装置,用以解决提高客户信息批量清洗质量。
2、第一方面,提供了一种客户信息数据清洗方法,包括:
3、获取待清洗客户信息数据集,所述待清洗客户信息数据集包括多个客户信息字段值,其中,至少部分所述客户信息字段值包括字符串,以及,至少部分所述客户信息字段值包括数值;
4、根据所述多个客户信息字段值确定所述待清洗客户信息数据集的字符串特征和数值特征;
5、根据所述字符串特征和所述数值特征对所述多个客户信息字段值执行修正,得到清洗后的客户信息数据集。
6、第二方面,提供了一种客户信息数据清洗装置,包括:
7、获取模块,获取待清洗客户信息数据集,所述待清洗客户信息数据集包括多个客户信息字段值,其中,至少部分所述客户信息字段值包括字符串,以及,至少部分所述客户信息字段值包括数值;
8、确定模块,根据所述多个客户信息字段值确定所述待清洗客户信息数据集的字符串特征和数值特征;
9、修正模块,根据所述字符串特征和所述数值特征对所述多个客户信息字段值执行修正,得到清洗后的客户信息数据集。
10、第三方面,提供了一种电子设备,该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序,该计算机程序被该处理器执行时实现如第一方面的方法的步骤。
11、第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现如第一方面的方法的步骤。
12、在本申请实施例中,通过获取待清洗客户信息数据集,所述待清洗客户信息数据集包括多个客户信息字段值,其中,至少部分所述客户信息字段值包括字符串,以及,至少部分所述客户信息字段值包括数值;根据所述多个客户信息字段值确定所述待清洗客户信息数据集的字符串特征和数值特征;根据所述字符串特征和所述数值特征对所述多个客户信息字段值执行修正,得到清洗后的客户信息数据集,从而针对于既包含字符串又包含数值的客户信息实现有效数据清洗。本方案能够根据客户信息字段值确定特征,实现待清洗客户信息数据集的特征自学习,进而根据学习到的特征执行字段值修正。本方案能够对内容复杂的客户信息实现有效清洗,适用于对多种领域的客户信息进行自适应数据清洗。
1.一种客户信息数据清洗方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述客户信息字段值包括客户信息字段和所述客户信息字段对应的值;
3.如权利要求1所述的方法,其特征在于,所述客户信息字段值包括客户信息字段和所述客户信息字段对应的字符串;
4.如权利要求3所述的方法,其特征在于,根据所述多个客户信息字段值确定所述待清洗客户信息数据集的字符串特征和数值特征,包括:
5.如权利要求1所述的方法,其特征在于,根据所述多个客户信息字段值确定所述待清洗客户信息数据集的字符串特征和数值特征,包括:
6.如权利要求5所述的方法,其特征在于,对所述多个客户信息字段值执行聚类,得到多个聚类簇,包括:
7.如权利要求1~6任一项所述的方法,其特征在于,在根据所述多个客户信息字段值确定所述待清洗客户信息数据集的字符串特征和数值特征之前,还包括:
8.一种客户信息数据清洗装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。