一种数据清洗方法及装置与流程

文档序号:18899880发布日期:2019-10-18 21:47阅读:342来源:国知局
一种数据清洗方法及装置与流程

本发明涉及计算机领域,尤其涉及一种数据清洗方法及装置。



背景技术:

随着人工智能潮流影响,互联网金融风险管理的智能化倾向愈发明显。因此作为数据挖掘的基础前提,高效清洗与整合结构化数据为智能化风控提供了底层壁垒。但是,现在的数据清洗方法不能支持自定义数据清洗任务,无法进行多线程任务流转,也不支持多格式多接口导出清洗数据。因此亟需设计一种数据清洗方法及装置。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

鉴于上述问题,提出了本发明说明书以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据清洗方法及装置。

本发明说明书公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

第一方面,本发明说明书公开了一种数据清洗方法,包括:

定义数据清洗模板;

创建以所述数据清洗模板为基础的清洗任务;

接收待清洗数据;

按照所述清洗任务的要求对所述待清洗数据进行数据清洗;

输出清洗结果。

在本公开的一种示例性实施例中,其中,

所述定义数据清洗模板进一步包括:

存储所述数据清洗模板;所述数据清洗模板可被调用和复制。

在本公开的一种示例性实施例中,其中,

所述按照所述清洗任务要求清洗数据进一步包括:

根据清洗任务要求按照数据清洗模板经办清洗对应数据;

进行不少于一次的复核清洗。

在本公开的一种示例性实施例中,其中,

所述按照所述清洗任务要求清洗数据进一步包括:

将所述经办清洗和所述复核清洗得到的数据分成四个维度。

在本公开的一种示例性实施例中,其中,

所述将所述经办清洗和所述复核清洗得到的数据分成四个维,进一步包括:

确认是、疑似是、确认否、不确认四个维度。

在本公开的一种示例性实施例中,其中,

所述创建以所述数据清洗模板为基础的清洗任务进一步包括:

设定清洗任务批次。

在本公开的一种示例性实施例中,其中,

所述接收待清洗数据进一步包括:

通过外部系统接口或按照要求的数据格式导入待清洗数据。

在本公开的一种示例性实施例中,还包括:

根据自定义的查询维度,查询数据对应的清洗结果。

在本公开的一种示例性实施例中,还包括:

对清洗数进程和清洗结果进行可视化展示。

在本公开的一种示例性实施例中,还包括:

对清洗结果按照要求的格式导出。

在本公开的一种示例性实施例中,其中,

所述根据自定义的查询维度,查询数据对应的清洗结果还包括:

对查询结果收集到的清洗信息数据进行进一步归类,并输出。

第二方面,本发明说明书提供一种数据清洗装置,包括:

模板定义模块,用于定义数据清洗模板;

任务创建模块,用于创建以所述数据清洗模板为基础的清洗任务;

数据接收模块,用于接收待清洗数据;

数据处理模块,用于按照所述清洗任务的要求将所述待清洗数据进行数据清洗;

结果输出模块,用于输出清洗结果。

在本公开的一种示例性实施例中,其中所述模板定义模块进一步包括:

存储单元,用于存储所述数据清洗模板;所述数据清洗模板可被调用和复制。

在本公开的一种示例性实施例中,其中所述数据处理模块进一步包括:

经办单元,用于根据清洗任务要求按照数据清洗模板经办清洗对应数据;

复核单元,用于进行不少于一次的复核清洗。

在本公开的一种示例性实施例中,其中所述数据处理模块进一步包括:

分类单元,用于将所述经办清洗和所述复核清洗得到的数据分成四个维度。

在本公开的一种示例性实施例中,其中所述任务创建模块进一步包括:

批次设定单元,用于设定清洗任务批次。

在本公开的一种示例性实施例中,其中所述数据接收模块进一步包括

通过外部系统接口或按照要求的数据格式导入待清洗数据。

在本公开的一种示例性实施例中,还包括:查询模块,用于根据自定义的查询维度,查询数据对应的清洗结果。

在本公开的一种示例性实施例中,还包括:展示模块,用于对清洗数进程和清洗结果进行可视化展示。

在本公开的一种示例性实施例中,还包括:导出模块,用于对清洗结果按照要求的格式导出。

在本公开的一种示例性实施例中,其中:所述查询模块进一步包括:归类单元,用于对查询结果收集到的清洗信息数据进行进一步归类,并输出。

第三方面,本发明说明书提供一种服务器,包括处理器和存储器:所述存储器用于存储上述任一项所述方法的程序;所述处理器被配置为用于执行所述存储器中存储的程序实现上述任一项所述方法的步骤。

第四方面,本发明说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。

本发明的数据清洗方法,通过定义数据清洗模板,并依据数据清洗模板为基础创建清洗任务,能够通过多接口导入数据流并自定义数据清洗任务,进行多线程任务流转,支持多格式多接口导出清洗数据。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种数据清洗方法的流程图。

图2是根据另一示例性实施例示出的一种数据清洗方法的流程图。

图3是根据另一示例性实施例示出的一种数据清洗装置的框图。

图4是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

然而,下述的示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。

本发明提供了一种数据清洗方法,用于解决现有技术中数据清洗方法不智能不直观的问题,为了解决上述问题,本发明的总体思路如下:

一种数据清洗方法,包括:

定义数据清洗模板;

创建以所述数据清洗模板为基础的清洗任务;

接收待清洗数据;

按照所述清洗任务的要求对所述待清洗数据进行数据清洗;

输出清洗结果。

本发明的数据清洗方法,通过定义数据清洗模板,并依据数据清洗模板为基础创建清洗任务,能够通过多接口导入数据流并自定义数据清洗任务,进行多线程任务流转,支持多格式多接口导出清洗数据。

首先需要说明书的是,在本发明各个实施例中,所涉及的术语为:

本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

下面,通过几个具体的实施例对本发明的技术方案进行详细介绍和说明。

见图1,展示的本发明的第一个实施例,一种数据清洗方法,包括:

s101:定义数据清洗模板;

所述定义数据清洗模板进一步包括:

存储所述数据清洗模板;所述数据清洗模板可被调用和复制。

为了更好地阐述,下面举例说明如何定义数据清洗模板:首先需定义各个页面所需的个性化列名,如一条格式为【投诉编号、投诉公司名、投诉详情、投诉网址】的数据需要清洗出对应的投诉电话,可在【清洗模板创建】进行定义:投诉编号/投诉公司名/投诉详情,类型为数据导入,字符长度限制为50;投诉电话,类型为手动输入,限制为数字,长度为11;模板设定后整个模板进入模板管理区域,后续可对其进行复制。

s102:创建以所述数据清洗模板为基础的清洗任务;

所述创建以所述数据清洗模板为基础的清洗任务进一步包括:

设定清洗任务批次。

为了更好地阐述,下面举例说明如何创建以所述数据清洗模板为基础的清洗任务:调用所创建的模板,命名任务为【投诉任务1】,设定任务批次,确认任务流的经办/复核,并通过外部系统接口或excel数据格式进行导入,完成后,任务开始。

s103:接收待清洗数据;

所述接收待清洗数据进一步包括:

通过外部系统接口或按照要求的数据格式导入待清洗数据。

s104:按照所述清洗任务的要求对所述待清洗数据进行数据清洗;

根据清洗任务要求按照数据清洗模板经办清洗对应数据;为了更好的进行清洗,将所述经办清洗和所述复核清洗得到的数据分成确认是、疑似是、确认否、不确认四个维度。比如自行选择投诉任务1以及任务批次,进行处理,清洗对应数据。

为了清洗结果准确,进行不少于一次的复核清洗。

s105:输出清洗结果,对清洗结果按照要求的格式导出。

在本发明的构思下,数据清洗方法还包括根据自定义的查询维度,查询数据对应的清洗结果,比如自行选择投诉任务1以及任务批次,查询数据对应的清洗结果。然后对查询结果收集到的清洗信息数据进行进一步归类,直接输出或者对清洗数进程和清洗结果进行可视化展示,可将清洗结果以excel格式导出。

如图2展示了另一实施例的流程方法,

整个数据清洗工作流程分成四块:任务创建与发布、经办清洗、复核清洗、业务应用。图2中从开始到工作任务发布属于任务创建与发布阶段,通过模板以及流程的自定义化配置,贴合不同维度数据定制清洗流程。比如定义各个页面所需的个性化列名等,模板设定后整个模板进入模板管理区域,后续可对其进行复制。从根据工作任务模板经办取件到经办清洗,再按照四个维度处理清洗结果,然后根据清洗结果对数据落库或者废弃,这属于经办清洗阶段,四个维度分别为确认是、疑似是、确认否、不确认,其中确认是、疑似是、确认否三个维度的数据往下进入复核清洗阶段,不确认的数据返回经办取件,进行经办清洗的循环。图2中从根据工作任务模板复核取件到复核清洗,再按照四个维度处理复核清洗结果这属于复核清洗阶段,四个维度仍然分别为确认是、疑似是、确认否、不确认,其中,对确认是和疑似是两个维度的数据进行落库处理,废弃确认否的数据,不确认的数据返回复核取件,进行复核清洗的循环,对于落库的数据进行效果追踪及查询,以验证清洗的准确度。在效果追踪及查询时,可以根据数据清洗流程的不同节点,自定义查询维度以及图表形式对于数据做可视化概览。数据查询时对所收集到的清洗信息数据可根据定义模块进行进一步归类,并支持多种对接方式输出。对于落库后的数据的使用属于业务应用阶段,可以对落库的数据按照需要进行业务配置和生产应用。

基于与前述实施例中一种数据清洗方法同样的发明构思,本发明还提供一种数据清洗的装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种信息处理方法的任一方法的步骤。

下述为本公开装置实施例,可以用于执行本发明方法实施例。对于本实施例的装置实施例中未披露的细节,请参照本公开方法实施例。

具体如图3所示,一种数据清洗装置,包括:

模板定义模块301,用于定义数据清洗模板;

任务创建模块302,用于创建以所述数据清洗模板为基础的清洗任务;所述任务创建模块进一步包括:批次设定单元,用于设定清洗任务批次。

数据接收模块303,用于接收待清洗数据;所述数据接收模块进一步包括通过外部系统接口或按照要求的数据格式导入待清洗数据,比如可以采用excel格式导入数据。

数据处理模块304,用于按照所述清洗任务的要求将所述待清洗数据进行数据清洗;

结果输出模块305,用于输出清洗结果。

所述模板定义模块进一步包括:

存储单元,用于存储所述数据清洗模板;所述数据清洗模板可被调用和复制。

在模板定义模块301,可以根据各个页面所需的个性化列名,在清洗模板创建进行定义格式、大小等,当模板设定后整个模板进入模板管理区域,后续可对其进行复制。

所述数据处理模块进一步包括:

经办单元,用于根据清洗任务要求按照数据清洗模板经办清洗对应数据;

复核单元,用于进行不少于一次的复核清洗。

所述数据处理模块进一步包括:

分类单元,用于将所述经办清洗和所述复核清洗得到的数据分成四个维度。四个维度分别为确认是、疑似是、确认否、不确认,其中在经办清洗阶段得到确认是、疑似是、确认否的数据继续往下进入复核清洗,不确认的则回到经办单元,再次经办清洗;复核单元得到确认是和疑似是的数据则落库,确认否的数据被废弃,不确认的则回到复核单元,再次复核清洗。

为了更好的使用和展示数据清洗的结果,本实施例的数据清洗装置,还包括:

查询模块,用于根据自定义的查询维度,查询数据对应的清洗结果;查询模块进一步包括:归类单元,用于对查询结果收集到的清洗信息数据进行进一步归类,并输出

展示模块,用于对清洗数进程和清洗结果进行可视化展示;

导出模块,用于对清洗结果按照要求的格式导出。根据数据清洗流程的不同节点,自定义查询维度以及图表形式对于数据做可视化概览。数据查询时对所收集到的清洗信息数据可根据定义模块进行进一步归类,并支持多种对接方式输出。

本说明书第四实施例还提供了一种服务器,包括存储器402、处理器401及存储在存储器402上并可在处理器401上运行的计算机程序,所述处理器301执行所述程序时实现前文所述方法的步骤。为了便于说明,仅示出了与本说明书实施例相关的部分,具体技术细节未揭示的,请参照本说明书实施例方法部分。该服务器,可以是包括各种电子设备形成的服务器设备,pc电脑、网络云服务器,甚至手机、平板电脑、pda(personaldigitalassistant,个人数字助理)、pos(pointofsales,销售终端)、车载电脑、台式电脑等任意电子设备上设置的服务器功能。

具体地,图4示出的与本说明书实施例提供的技术方案相关的服务器组成结构框图,总线400可以包括任意数量的互联的总线和桥,其将包括由处理器401代表的一个或多个处理器和存储器302代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口403在总线400和接收器和/或发送器404之间提供接口,接收器和/或发送器404可以是分开独立的接收器或发送器也可以是同一个元件如收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器401负责管理总线400和通常的处理,而存储器402可以被用于存储处理器401在执行操作时所使用的数据。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如java、c++等,还包括常规的过程式程序设计语言-诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:获取历史信贷数据集,所述历史信贷数据集包括用户的多维度属性信息及逾期信息;基于所述多维度属性信息对所述历史信贷数据集进行自动分档处理以生成多个子数据集;根据所述逾期信息计算所述多个子数据集中每一个子数据集对应的逾期率;以及根据子数据集及其对应的所述逾期率生成信贷风险控制规则。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

此外,本说明书说明书附图所示出的结构、比例、大小等,均仅用以配合说明书所公开的内容,以供本领域技术人员了解与阅读,并非用以限定本公开可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本公开所能产生的技术效果及所能实现的目的下,均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语,也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当也视为本公开可实施的范畴。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1