一种数据检测的方法及装置与流程

文档序号:12666278阅读:232来源:国知局
一种数据检测的方法及装置与流程

本发明实施例涉及数据检测技术,尤其涉及一种数据检测的方法及装置。



背景技术:

随着互联网技术的革新,大数据开始蔓延至各个行业和领域,影响着人们的知识体系和生活方式。如何利用大数据激发和利用隐藏于数据内部未被发掘的价值,是当下研究的热门话题。

由于数据流较长,在数据分析处理或传输过程中,易存在数据丢失的情况,对数据挖掘等产生不良影响。现有技术通常做法是在技术人员质疑数据丢失时,采用人工定位的方式判断数据是否丢失,并对丢失环节进行大致的判断,判断结果准确度依赖于技术人员的经验,检测效率低。



技术实现要素:

本发明实施例提供一种数据检测的方法及装置,以实现对数据丢失环节进行判断,提高检测效率。

第一方面,本发明实施例提供了一种数据检测的方法,该方法包括:生成至少一个处理环节的数据记录,所述数据记录包括每个处理环节的起始数据量和生成数据量;

根据所述至少一个处理环节对应的起始数据量和生成数据量确定数据丢失信息。

进一步地,所述处理环节包括数据生成子环节和数据处理子环节,所述生成至少一个处理环节的数据记录,包括:

在第一处理环节的数据生成子环节的起始时刻,将所述数据生成子环节的起始时刻和接收到的起始数据量记录到统计日志,所述第一处理环节为任意一个处理环节;

在所述数据生成子环节的结束时刻,将所述数据生成子环节的结束时刻和第一生成数据量记录到所述统计日志;

在所述数据处理子环节的结束时刻,将所述数据处理子环节的结束时刻和第二生成数据量记录到所述统计日志;

相应的,所述根据所述至少一个处理环节对应的起始数据量和生成数据量确定数据丢失信息,包括:

通过统计日志中接收数据总量、第一生成数据量和第二生成数据量,确定所述第一处理环节中的数据丢失信息。

进一步地,所述根据所述至少一个处理环节对应的起始数据量和生成数据量确定数据丢失信息,包括:

获取具有相同数据生成子环节的起始时刻的目标处理环节;

根据目标处理环节对应的起始数据量和生成数据量确定数据丢失信息;

相同数据生成时间的数据的丢失所在的环节。

进一步地,所述数据处理子环节对应的数据处理操作包括数据清洗、数据去重、数据归一化或标记数据标签中的是至少一种。

进一步地,所述处理环节包括格式转换环节、数据存入数据库环节或业务系统展示环节中的至少一个。

第二方面,本发明实施例还提供了一种数据检测的装置,该装置包括:

记录生成模块,用于生成至少一个处理环节的数据记录,所述数据记录包括每个处理环节的起始数据量和生成数据量;

丢失信息确定模块,用于根据所述至少一个处理环节对应的起始数据量和生成数据量确定数据丢失信息。

进一步地,所述处理环节包括数据生成子环节和数据处理子环节,所述记录生成模块,具体用于:

在第一处理环节的数据生成子环节的起始时刻,将所述数据生成子环节的起始时刻和接收到的起始数据量记录到统计日志,所述第一处理环节为任意一个处理环节;

在所述数据生成子环节的结束时刻,将所述数据生成子环节的结束时刻和第一生成数据量记录到所述统计日志;

在所述数据处理子环节的结束时刻,将所述数据处理子环节的结束时刻和第二生成数据量记录到所述统计日志;

相应的,所述丢失信息确定模块,具体用于:

通过统计日志中接收数据总量、第一生成数据量和第二生成数据量,确定所述第一处理环节中的数据丢失信息。

进一步地,所述丢失信息确定模块,包括:

获取具有相同数据生成子环节的起始时刻的目标处理环节;

根据目标处理环节对应的起始数据量和生成数据量确定数据丢失信息;

相同数据生成时间的数据的丢失所在的环节。

进一步地,所述数据处理子环节对应的数据处理操作包括数据清洗、数据去重、数据归一化或标记数据标签中的是至少一种。

进一步地,所述处理环节包括格式转换环节、数据存入数据库环节或业务系统展示环节中的至少一个。

本发明实施例通过记录各数据环节的起始数据量和终止数据量确定数据丢失信息。现有技术中需要由工程师进行人工检测,效率较低。本发明实施例根据各数据环节的起始数据量和终止数据量确定数据丢失信息,进而实现由机器对各数据环节的数据丢失信息进行检测,提高检测速度,解决了数据丢失后无法由机器进行数据丢失检测的问题,提高了数据检测的效果。

附图说明

图1为本发明实施例一提供的一种数据检测的方法流程图;

图2是本发明实施例二提供的一种数据检测的方法流程图;

图3是本发明实施例提供的一种数据检测的方法中的解决文件搬运程序统计粒度拟采用的方案示意图;

图4是本发明实施例二提供的一种数据检测的方法中的数据信息记录示意图

图5是本发明实施例三提供的一种数据检测的装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种数据检测的方法流程图,本实施例可适用于对数据进行检测情况,该方法可由计算机来执行,该数据检测的方法具体包括如下步骤:

S110、生成至少一个处理环节的数据记录,所述数据记录包括每个处理环节的起始数据量和生成数据量。

其中,在整个处理流程的初始时刻之前,采集到的数据是以光波包的形式存在的物理量信号,对物理信号进行数据还原之后,获得可识别的有效数据。继而依次进入到各个处理环节进行相应的处理,直至处理结果满足使用者的需求为止。对于同一批数据而言,各个处理环节为依次顺序执行,对于不同批次的数据而言,各个处理环节之间可以并行发生。在每个处理环节均记录起始数据量和生成数据量,起始数据量指的是在当前处理环节接收到的数据总量,而生成数据量指的是当前处理环节结束后获得的数据总量。

优选地,所述处理环节包括格式转换环节、数据入库环节或业务系统展示环节中的至少一个。

其中,格式转换环节指的是数据格式的转换环节,数据入库环节指的是数据录入数据库的环节。业务系统展示环节指的是将统计好的数据在客户端中的业务系统呈现出来的过程。上述三个环节可以顺序执行,即将数据格式转换后,进入数据入库环节,直至业务系统展示环节,数据在相邻的两个环节传输过程中,有可能存在数据丢失。例如在数据格式转换后,统计的数据量为10000条,而数据入库环节之前,统计的数据量为8000条,即在传输过程中丢失了2000条数据。当前的环节应以上一环节的数据记录集为基准数据记录集,进行对比,可通过业务拨测的方式,获取基准数据记录。也可使用系统中某一环节记录的数据记录为基准。检测过程原则上不应影响正常业务处理,仅在必要时,可暂停正常业务流进行检测,采用一段时间数据采样的方式进行检测,检测时间上限在3小时以上,以此保证数据的时效性,保障所有的数据在5小时内在业务系统中展现出来。

S120、根据所述至少一个处理环节对应的起始数据量和终止数据量确定数据丢失信息。

其中,起始数据量和终止数据量记录的是数据的数量,将当前环节的终止数据量与起始数据量进行比较,若终止数据量小于起始数据量,则代表在该环节中存在数据丢失,二者的差为丢失的数据条数。

本实施例通过记录各数据环节的起始数据量和终止数据量确定数据丢失信息。现有技术中需要由工程师进行人工检测,效率较低。本实施例根据各数据环节的起始数据量和终止数据量确定数据丢失信息,进而实现由机器对各数据环节的数据丢失信息进行检测,提高检测速度,解决了数据丢失后无法由机器进行数据丢失检测的问题,提高了数据检测的效果。

实施例二

图2是本发明实施例二提供的一种数据检测的方法流程图,本实施例是在上述实施例的基础上进行了优化,本实施例中所述处理环节包括数据生成子环节和数据处理子环节,同时对“生成至少一个处理环节的数据记录”进行了细化,该方法具体包括如下步骤:

S210、在第一处理环节的数据生成子环节的起始时刻,将所述数据生成子环节的起始时刻和接收到的起始数据量记录到统计日志,所述第一处理环节为任意一个处理环节。

其中,任意一个处理环节均包括数据生成子环节和数据处理子环节,由于每一个处理环节可能由不同的办公部门的不同计算机进行处理,因此在对数据进行分析之前需要采用搬运程序对数据进行搬运,图3是本发明实施例提供的一种数据检测的方法中的解决文件搬运程序统计粒度拟采用的方案示意图。部门之间存在一定的壁垒,因此需要协商一个统一的交互方式,由于统一的交互方式的存在,因此存在由每一个处理环节的数据格式生成标准格式的过程,这个过程为数据生成子环节,而数据处理子环节指对数据生成子环节生成的数据进行进一步处理的过程。在数据生成子环节的开始时刻,将当前环节所接收的起始数据量,以及当前数据生成子环节的起始时刻,记录到统计日志中。

S220、在所述数据生成子环节的结束时刻,将所述数据生成子环节的结束时刻和第一生成数据量记录到所述统计日志。

其中,同理,在数据生成子环节的结束时刻,将生成数据量记录量以及数据生成子环节的结束社科记录到统计日志中。

S230、在所述数据处理子环节的结束时刻,将所述数据处理子环节的结束时刻和第二生成数据量记录到所述统计日志。

其中,数据生成子环节和数据处理子环节是顺序执行的,数据生成子环节结束后,数据进入数据处理子环节,在数据处理的结束时刻,将结束时刻和数据处理子环节中的数据处理量,以及数据处理环节所处理的数据对应的数据生成时间记录到统计日志中。示例性地,图4是本发明实施例二提供的一种数据检测的方法中的数据信息记录示意图,如图4所示,T0-T2是数据生成子环节,T2-Tn是数据处理子环节,在T0时刻,以数据生成开始时刻T0为基准,在统计日志中记录在T0时刻接收的数据量以及数据生成开始时刻T0。在T2时刻,记录数据生成结束时间T2,以及数据生成的总数据量。在Tn时刻,记录数据生成结束时刻,以及数据生成总数据量,利用统计日志中的相关信息可以判断出数据丢失环节,以及丢失的数据的生成时间。

优选地,所述数据处理子环节对应的数据处理操作包括数据清洗、数据去重、数据归一化或标记数据标签中的是至少一种。

其中,数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据归一化即数据标准化,由于不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。标记数据标签是指对数据做一些标记,便于分析和处理。在上述所有数据处理环节中均可能会存在数据丢失的情况。

S240、通过统计日志中接收数据总量、第一生成数据量和第二生成数据量,确定所述第一处理环节中的数据丢失信息。

其中,利用每个处理环节中的数据生成子环节的接收数据总量、生成数据总量以及数据处理子环节的接收数据总量、处理数据总量,判断在哪个处理环节存在数据丢失的情况。根据数据丢失情况,获取数据丢失环节列表。对于正常功能丢弃的数据,应记录正常功能丢弃的数据记录,例如数据预处理中的去重操作。

S250、根据所述至少一个处理环节对应的起始数据量和终止数据量确定数据丢失信息。

本实施例提供的技术方案,将数据处理环节分为数据生成子环节和数据处理子环节,更加准确地确定数据丢失的环节,同时可判断丢失数据的生成时间,便于技术人员对数据丢失情况的进一步分析和判断,为后续发生数据丢失问题提供判断依据。

实施例三

图5是本发明实施例三提供的一种数据检测的装置的结构示意图,如图5所示,该数据检测装置包括:记录生成模块310和丢失信息确定模块320。

记录生成模块310,用于生成至少一个处理环节的数据记录,所述数据记录包括每个处理环节的起始数据量和生成数据量;

丢失信息确定模块320,用于根据所述至少一个处理环节对应的起始数据量和生成数据量确定数据丢失信息。

进一步地,所述处理环节包括数据生成子环节和数据处理子环节,所述记录生成模块310,具体用于:

在第一处理环节的数据生成子环节的起始时刻,将所述数据生成子环节的起始时刻和接收到的起始数据量记录到统计日志,所述第一处理环节为任意一个处理环节;

在所述数据生成子环节的结束时刻,将所述数据生成子环节的结束时刻和第一生成数据量记录到所述统计日志;

在所述数据处理子环节的结束时刻,将所述数据处理子环节的结束时刻和第二生成数据量记录到所述统计日志;

相应的,所述丢失信息确定模块320,具体用于:

通过统计日志中接收数据总量、第一生成数据量和第二生成数据量,确定所述第一处理环节中的数据丢失信息。

进一步地,所述丢失信息确定模块320,包括:

获取具有相同数据生成子环节的起始时刻的目标处理环节;

根据目标处理环节对应的起始数据量和生成数据量确定数据丢失信息;

相同数据生成时间的数据的丢失所在的环节。

进一步地,所述数据处理子环节对应的数据处理操作包括数据清洗、数据去重、数据归一化或标记数据标签中的是至少一种。

进一步地,所述处理环节包括格式转换环节、数据存入数据库环节或业务系统展示环节中的至少一个。

上述数据检测的装置可执行本发明任意实施例所提供的数据检测的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明前述所有实施例所提供的方法。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1