一种信息处理方法及装置与流程

文档序号:26139687发布日期:2021-08-03 14:23阅读:87来源:国知局
一种信息处理方法及装置与流程

本申请涉及计算机信息处理领域,尤其涉及一种信息处理方法及装置。



背景技术:

在对不同数据库监控数据进行集成的过程中,可能会出现部分数据缺失,或者某个数据的部分监控值缺失的情况。这一情况可能是由于源数据库数据质量问题引发的,也可能是由于某些处理过程异常造成的。

上述问题可以通过数据的重新抓取和补录得以解决,但是当集成的数据量很大的情况下,进行数据的逐一检查和比较是异常困难的,这就导致很难快速发现缺失的数据;即便发现数据缺失,也很难针对特定数据片段数据进行补录。



技术实现要素:

本申请实施例提供了一种方法及装置。

根据本申请实施例第一方面,一种信息处理方法,该方法包括:在数据集成的过程中,对集成的第一数据集进行特征提取得到数据集特征,数据集特征用于检测第一数据集的信息量是否异常;根据特征提取的时间顺序存储数据集特征,得到数据集特征序列;根据动态生成的特征阈值,对数据集特征序列中的数据集特征进行信息量检测得到信息量异常的数据;针对信息量异常的数据,进行数据补录得到第二数据集。

根据本申请实施例一实施方式,对集成的第一数据集进行特征提取得到数据集特征,包括:根据预先定义的特征计算方法,对集成的第一数据集进行特征提取得到数据集特征。

根据本申请实施例一实施方式,预先定义的特征计算方法包括聚合和统计方法,相应地,在将聚合的统计结果与动态阈值进行比较时,采用查表法。

根据本申请实施例一实施方式,根据动态生成的特征阈值,对数据集特征序列中的数据集特征进行信息量检测得到信息量异常的数据,包括:根据离群点分析模型动态生成的特征阈值,对数据集特征序列中的数据集特征进行信息量检测得到信息量异常的数据。

根据本申请实施例一实施方式,使用历史数据集特征数据定期对离群点分析模型进行训练得到离群点分析模型,包括:从数据集特征序列定期获取历史数据集特征数据;基于特征定义所设置的特征属性确定离群点算法和模型训练参数;根据历史数据集特征数据、离群点算法和模型训练参数对离群点分析模型进行训练得到离群点分析模型。

根据本申请实施例一实施方式,根据动态生成的特征阈值,对数据集特征序列中的数据集特征进行信息量检测得到信息量异常的数据,包括:根据定时程序定时计算离群点区间动态生成的特征阈值,对数据集特征序列中的数据集特征进行信息量检测得到信息量异常的数据。

根据本申请实施例一实施方式,在数据集成的过程中,该方法还包括:缓存数据处理定义。

根据本申请实施例一实施方式,针对异常数据进行数据补录得到第二数据集,包括:根据异常数据,从缓存的数据处理定义中获取与异常数据对应的第一数据处理定义;根据第一数据处理定义,重新执行与第一数据处理定义对应的数据集成得到第三集成数据;将第三集成数据补录到第一数据集得到第二数据集。

根据本申请实施例一实施方式,该方法还包括:确定数据补录的启动时间、补录作业延后时间差值和数据补录作业相关特征值;根据数据补录的启动时间、补录作业延后时间差值和数据补录作业相关特征值进行补录作业间隔时间和补录次数分析得到补录作业策略;根据补录作业策略进行多次数据补录得到第二数据集。

根据本申请实施例第二方面,提供一种信息处理装置,该装置包括:数据集特征提取模块,用于在数据集成的过程中,对集成的第一数据集进行特征提取得到数据集特征,数据集特征用于检测第一数据集的信息量是否异常;数据集特征存储模块,用于根据特征提取的时间顺序存储数据集特征,得到数据集特征序列;信息量检测模块,用于根据动态生成的特征阈值,对数据集特征序列中的数据集特征进行信息量检测得到信息量异常的数据;数据补录模块,用于针对信息量异常的数据,进行数据补录得到第二数据集。

本申请实施例提供了一种信息处理方法及装置,该方法通过在数据集成的过程中,对集成的数据集进行特征提取;之后,根据特征提取的时间顺序存储数据集特征,得到数据集特征序列;随后,根据动态生成的特征阈值,对数据集特征序列中的数据集特征进行信息量检测得到需要补录的异常数据;然后,针对这些需要补录的数据进行补录。由于在检测数据的时候是通过比对数据集的特征而非数据集本身,大大减少了要比对的信息量,从而可以实现信息量的快速检测和精准分析。此外,特征的提取是在数据集成的过程中定期进行的,一方面使信息量的检测具有很强的时效性,可及时发现需要补录的信息;另一方面,在发现信息缺失后,可将缺失的数据精确定位为某个时段内采集的数据。如此,可缩小需要补录的数据范围,进行精准补录,从而大大提高了数据补录的效率。而且,由于不同数据集成作业的返回集合特征不同,几乎很难通过静态阈值进行分析,而使用动态阈值技术可以进行有效的数据返回集合分析,并基于此识别需要补录的数据片段范围。

需要理解的是,本申请的实施并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本申请的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:

在附图中,相同或对应的标号表示相同或对应的部分。

图1为本申请信息处理方法一实施例的实现流程示意图;

图2为本申请信息处理方法另一实施例的实现流程示意图;

图3为本申请信息处理方法另一实施例的实现流程示意图;

图4为本申请信息处理方法另一实施例的实现流程示意图;

图5为本申请信息处理装置一实施例的组成结构示意图。

具体实施方式

为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

图1示出了本申请信息处理方法一实施例的实现流程。参考图1,该方法包括:操作110,在数据集成的过程中,对集成的第一数据集进行特征提取得到数据集特征,数据集特征用于检测第一数据集的信息量是否异常;操作120,根据特征提取的时间顺序存储数据集特征,得到数据集特征序列;操作130,根据动态生成的特征阈值,对数据集特征序列中的数据集特征进行信息量检测得到信息量异常的数据;操作140,针对信息量异常的数据,进行数据补录得到第二数据集。

在操作110中,第一数据集主要指将来自各个数据源的数据以某种预定义的规则进行集成得到的数据集。其中,第一数据集集成的数据源可能是数据库等数据存储系统,也可能是从实时数据采集系统,还可能是各种数据处理系统等,对于容器或云平台进行监控数据集成中,可能记录的是一阶导数而不是原始数值。

数据集特征主要指用于指示数据集信息量的一些特征,例如采集到的数据尺寸、数据中包含行数、数据中某个关键字段数量等等。

使用提取到的数据集特征而非数据集来检测第一数据集的信息量是否异常,具有以下优势:

1)可以大大减少需要处理的数据量。比起数据集本身,数据集特征的数据量要小得多,且由于数据集特征是数据集中真正可以精确表征各种信息量的特征,还可以剔除其信息的干扰;

2)通过数据集特征,可以将信息量异常的数据精确到某一数据源甚至是某个字段的数据,从而具备了实现更细粒度的数据检测的条件。

数据集的特征提取通常是在数据集成的过程中定期循环触发的,即每隔一段时间进行一次。理论上,特征提取的时间间隔越短,时效性越好,数据补录的数据范围也更准,但对计算能力和数据处理能力要求也越高,资源占用更多。实施者可以根据具体的实施需求、实施条件和实施效果灵活指定每两次特征提取的时间间隔。

而在数据集成的过程中进行信息量的检测,既可以在第一时间捕获到宕机等严重异常,还可以并行进行数据补录的工作,可大大缩短完成数据集成的时间。

由此,可见通过操作110在数据集成过程中,定期进行特征提取得到的数据集特征,为实现数据集成的高时效性和数据补录的精准性提供了数据基础和必要条件。

在操作120中,由于操作110中对数据集进行的特征提取是定期进行的,每次都会得到一组数据集特征。如此,根据特征提取的时间顺序存储数据集特征,就可得到与特征提取时间对应的一系列数据集特征,即数据集特征序列。该数据集特征序列按照原有时间顺序进行排列可尽可能地保证数据地完整性;此外,如果发现信息量异常,可及时对该时间段内的数据集成进行回溯和补录。

此外,在操作120中,还可以将数据集特征序列存储至数据库等数据存储系统中,以便通过与数据集成并行的程序进行离群点分析,从而避免因为成为数据集成的附加环节而影响数据集成的速度。

至此,通过操作110和操作120得到了按时间顺序排列的数据集特征序列,而如何根据这一数据集特征序列进行信息量的检测,发现信息量异常的数据,则是需要解决的下一个难点。

由于从不同数据集成应用中的得到地数据集特征不同,几乎很难通过静态阈值进行分析。为此,本申请发明人创造性地想到了,在操作130中使用动态阈值技术,对数据集特征序列中的数据集特征进行信息量检测。其中,动态阈值是根据数据集特征动态生成的,不同的数据集特征所对应的动态阈值所包含的指标不同,各个指标的值也不尽相同。如此,可极大扩展本申请信息处理方法的应用场景。

在检测到信息量异常的数据后,即可通过操作140中对信息量异常的数据进行补录,由于本申请信息处理方法是在数据集成过程中进行的,并基于时间顺序排列的数据集特征序列进行的。因此,操作140中所进行的信息补录也可以是实时的,与数据集成过程并行的一个过程。如此,缩短通过数据集成和数据补录得到目标数据所需的时间,大大提高数据补录的时效性。且由于数据集特征序列是定期进行特征提取得到的,数据集特征序列中的每组数据集特征对应一个时间段,当发现某组数据集特征的信息量异常时,可及时对该时间段内某一特征对应的数据进行精准补录。

由图1所示的实施例可见,本申请信息处理方法通过在数据集成的过程中,首先通过操作110对集成的数据集进行特征提取,并通过操作120根据特征提取的时间顺序存储数据集特征得到数据集特征序列,大大缩减了信息量检测要处理的数据,为实现信息量异常检测的细粒度和时效性创造了条件;之后,通过操作130,根据特征阈值对数据集特征序列中的数据集特征进行信息量检测得到需要补录的异常数据,由于信息量检测所使用的特征阈值是根据数据集特征动态生成的,与数据集特征更为贴合,也更容易检测到需要补录的异常数据;然后,再通过操作140,针对这些检测到的需要补录的数据进行及时和精准的补录。如此,不仅可以及时、准确地发现需要补录的数据,还可以实时迅速地针对所发现的异常数据进行补录,从而大大提高了数据补录的时效性和准确度,也相应提高了整个数据集成过程的时效性,以及集成数据的完整性。

需要说明的是,图1所示的实施例仅为本申请的基础实施例,实施者还可以在此基础上进行细化和扩展。示例性地:

根据本申请实施例一实施方式,该方法还包括:根据本申请实施例一实施方式,对集成的第一数据集进行特征提取得到数据集特征,包括:根据预先定义的特征计算方法,对集成的第一数据集进行特征提取得到数据集特征。

其中,预先定义的特征计算方法包括获取哪些指标值,并如何根据获取到的指标值计算得到所需的特征指等。

例如,在操作系统数据集成的过程中,针对每批作业执行结果,统计某一的时间跨度下数据条数,节点范围等;在监控数据集成中,统计每5分钟20次监控采样数据中的节点数等。

此外,预先定义的特征计算方法也可以是通过历史集成数据和标注的数据集特征训练得到的特征提取模型。

这些预先定义的特征计算方法可以存储到数据库等数据存储系统中。如此,可根据不同应用场景下的不同数据集,灵活获取当前数据集对应的特征计算方法。从而使本申请信息处理方法应用于不同应用场景下的不同数据集。

根据本申请实施例一实施方式,预先定义的特征计算方法包括聚合和统计方法,相应地,在将聚合的统计结果与动态阈值进行比较时,采用查表法进行分析。

特征计算方法可采用聚合和统计算法,即先将集成到的数据进行聚合,然后再统计聚合后每一分类中的数据量。相应地,在得到在将聚合统计结果与动态阈值进行比较,采用查表法进行分析。

由于,聚合得到的分类数目远远小于集成到的数据本身,通过聚合后的分类进行查表法的检索,效率很高,算法复杂度也低很多。

根据本申请实施例一实施方式,根据动态生成的特征阈值,对数据集特征序列中的数据集特征进行信息量检测得到信息量异常的数据,包括:根据离群点分析模型动态生成的特征阈值,对数据集特征序列中的数据集特征进行信息量检测得到信息量异常的数据。

其中,离群点指超过动态阈值的数据,也就是信息量异常的数据。

离群点分析模型所使用的模型可以记录在数据库等数据存储系统中,例如hbase数据库。而离群点分析模型所使用的算法可以以程序文件记录在配置信息存储系统中,例如,通过pypi服务器实现pip分发与安装等。获取模型与算法的方式可以是提前加载在内存缓存;也可以根据需要实时从存储模型的数据存储系统或存储算法的配置信息存储系统中进行动态加载。

通常,离群点分析模型是经过大量历史数据训练得到的,并且还可以经过实际应用不断得到新的训练数据持续进行训练。因此,通过离群点分析模型动态生成的特征阈值的准确度也会相应变化。

根据本申请实施例一实施方式,使用历史数据集特征数据定期对离群点分析模型进行训练得到离群点分析模型,包括:从数据集特征序列定期获取历史数据集特征数据;基于特征定义所设置的特征属性确定离群点算法和模型训练参数;根据历史数据集特征数据、离群点算法和模型训练参数对离群点分析模型进行训练得到离群点分析模型。

其中,特征定义指不同数据集成作业的特征范围、提取特征所使用的计算方法、参数范围等一系列特征属性的集合。

具体地,特征定义可设置的特征定义特征属性包括特征数量,特征数据的数据量,特征数据的断点数量,或数据缺失的程度等。

特征属性可以通过预制的模板化来定义;也可以是可以根据某些规则灵活扩展、配置、组合形成的。如果是可扩展、可配置、可组合的特征属性,则最好将相关的扩展规则、配置信息或组合规则等作为特征定义,存储至数据库,以便根据这些规则和配置信息进行扩展、配置、组合得到相应的特征属性。

通常,离群点分析模型的训练是定期执行的。由于不同业务发展阶段数据集成作业数据可能会出现不同,定期更新模型有助于持续提高模型精度和离群点识别的准确率。

此外,不同的应用场景下集成得到的数据集特征不同,所对应的离群点算法和模型训练参数也会有所不同。可将离群点算法和模型训练参数存储在数据库等数据存储系统中,并建立与特征定义的映射关系。如此,可根据不同的应用场景所集成的数据集特征查询到相应的离群点算法和模型训练参数,使离群点分析模型应用于不同的数据集成场景下。

根据本申请实施例一实施方式,根据动态生成的特征阈值,对数据集特征序列中的数据集特征进行信息量检测得到信息量异常的数据,包括:根据定时程序定时计算离群点区间动态生成的特征阈值,对数据集特征序列中的数据集特征进行信息量检测得到信息量异常的数据。

对于可以预先计算离群点范围区间的方法,例如,百分位离群点检测或者四分位离群点检测方法,可以使用定时程序定时计算离群点区间,并将计算结果作为动态生成的特征阈值缓存在本地。

如此,无需调用外部算法库或分析模型,可大大节省计算资源,加快离群点检测效率与可靠性。

根据本申请实施例一实施方式,在数据集成的过程中,该方法还包括:缓存数据处理定义。

其中,缓存的数据处理定义包含进行数据集成中需要执行的规则和策略。例如,数据抓取间隔,抓取指标范围,处理过程中执行重采样或一些函数计算(例如,计算差值或一阶导数相应函数等)等。

此外,如果涉及到数据清洗、离群点处理算法等内容,还可将数据清洗算法等内容也作为数据处理定义的一部分进行缓存。

数据处理定义通过用户配置将成为数据处理定义。将数据处理定义缓存在执行端,可大幅减少网络流量,提升执行端的处理效率。

根据本申请实施例一实施方式,针对异常数据进行数据补录得到第二数据集,包括:根据异常数据,从缓存的数据处理定义中获取与异常数据对应的第一数据处理定义;根据第一数据处理定义,重新执行与第一数据处理定义对应的数据集成得到第三集成数据;将第三集成数据补录到第一数据集得到第二数据集。

由于数据处理定义就是用于获取数据并对数据进行预处理的。因此,缓存的数据处理定义还可以用于精准地补录数据,即根据信息量异常数据对应的数据处理定义重新进行数据抓取,即可重新获取相应的数据进行补录。

此外,使用数据处理定义所进行的数据补录,可保持与初次数据获取的过程一样,可使用相同的特征定义和提取特征的计算方法获取相应的特征,而补录到的数据以及补录过程中提取到的特征都可以存储至数据集特征序列所存储的数据库等数据存储系统。

而这些数据还可以用于进行后续的特征提取模型或离群点分析模型训练中,使数据补录的质量得到进一步提升。

进一步地,再针对前后关联比较进行的一段数据进行数据补录时,还可针对信息量异常数据对应地时间段向前、或向后的时间段所对应的数据也进行相应的补录,以确保数据的连续性和一致性。

此外,还可还可针对信息量异常数据对应地时间段向前、或向后进行微调进行多次补录,来获取多组数据。并根据补录效果选取其中补录效果较好的一组数据进行补录。

根据本申请实施例一实施方式,该方法还包括:确定数据补录的启动时间、补录作业延后时间差值和数据补录作业相关特征值;根据数据补录的启动时间、补录作业延后时间差值和数据补录作业相关特征值进行补录作业间隔时间和补录次数分析得到补录作业策略;根据补录作业策略进行多次数据补录得到第二数据集。

数据缺失的一种常见原因是数据源相关的应用还没有将数据写完,而数据集成作业已经启动。在这种场景下,如果数据补录与前一次数据抓取的间隔过短,则也可能数据还是不完整,且还有可能出现一次数据补录都无法补齐所有数据,必须通过多次补录才能完成的情况。

为此,可通过对数据补录过程数据进行离群点分析,并记录数据补录的启动时间,补录作业延后时间差值和数据补录作业相关特征值等内容。然后,计算补录作业间隔时间和补录次数,并根据作业间隔时间和补录次数确定更佳的补录策略。

补录作业间隔主要指距离第一次数据抓取的时间间隔。例如,延后5分钟再启动数据补录作业。

补录次数则指补录作业执行的次数,其中,每次补录中的补录作业间隔可以不同。例如,分2次进行补录,第一次在30秒之后,第二次在5分钟之后。

以上实施方式是对如何在图1所示的基本实施例的基础之上如何进行进一步细化和扩展的示例性说明,实施者还可根据具体的实施条件和需要,对上述实施方式进行各种组合形成新的实施例,以实现更为理想的实施效果。

图2示出了本申请信息处理方法另一实施例的具体实现流程。如图2所示,该实施例主要应用于服务器监测数据的集成,其数据集成和数据补录的过程主要包括:

步骤s2010,调度程序发送数据集成作业定义;

其中,调度程序通过定时器或例行程序定时、周期性地触发或启动的。

步骤s2020,运行程序执行作业,将作业定义(即数据处理定义)缓存至作业定义缓存或算法库202中,并将作业结果存储值数据集成目标数据库201;

其中,作业定义缓存或算法库202为本地数据库。

步骤s2030,对数据集进行特征提取;

其中,在进行特征提取时,可根据特征定义数据库205中定义的特征属性集特征提取的计算方法进行特征提取。

步骤s2040,保存数据集特征序列;

具体地,按照特征提取的时间顺序,将步骤s2030中提取到的数据集特征,保存至作业特征序列数据库203中。

步骤s2050,执行离群点分析的动态阈值检测;

在该实施例中,离群点分析所使用的动态阈值是根据离群点分析模型,并使用离群点分析模型与算法库204中与当前数据集特征对应的模型和算法计算得到的。

步骤s2060,发送检测异常消息;

步骤s2070,从缓存获取作业定义;

具体地,从作业定义缓存或算法数据库202中获取与检测异常的数据所对应的作业定义。

步骤s2080,根据所获取的作业定义,生成当前与相邻时间窗口作业定义;

步骤s2090,根据当前与相邻时间窗口作业定义,调用作业补录程序进行数据补录,将补录程序获取的补录数据存储至数据集成目标数据库201中,并将补录过程中提取到的数据集特征存储至作业特征序列数据库203中。

此外,由于在步骤s2040中,是使用离群点分析模型进行的离群点分析。该实施例还会定期对离群点分析模型进行训练,其训练过程主要包括:

步骤s2110,从作业特征序列数据库203中,获取数据集特征历史数据;

步骤s2120,基于特征定义进行离群点分析模型训练;

其中特征定义存储在特征定义数据库205中,并通过步骤s2140定义不同数据集成作业特征范围的。

步骤s2130,将离群点算法和模型保存至离群点分析模型与算法库204中。

图3示出了本申请信息处理方法另一实施例的具体实现流程。由于,在图3所示的实施例中,并没有使用离群点分析模型进行离群点分析,而是使用预先计算离群点范围区间的方法来获取动态阈值进行离群点分析的。因此,在图3所示的实施例中,基于图2所示的实施例进行了进一步优化,通过步骤s2150使用定时程序,定时计算离群点区间,并将计算结果作为动态阈值缓存至本地并定时更新。

假设,在该实施例中采用百分位进行离群点检测。对过去4个月的数据进行统计,获取到数值最高0.3%的数据分布的下限作为动态阈值报警的上限阈值。当数值超过该动态阈值报警上限阈值,则触发相关操作,例如,标记为离群点。

可以使用定时程序对动态阈值的上下限进行定时计算,并根据上述计算方法定时计算动态阈值报警上限阈值,并缓存在本地。

在步骤s2050执行离群点分析的动态阈值检测时,从本地缓存获取该动态阈值报警上限阈值,并检测作业特征序列中的数值是否超过该动态阈值报警上限阈值,若是,则将该值标记为离群点,将该作业记录为待补录的作业。

在上述过程中无需使用离群点分析模型进行离群点分析,如此,可节省训练、存储和更新离群点分析模型所需的计算资源,并大大提高离群点分析的效率。

图4示出了本申请信息处理方法另一实施例的具体实现流程。由于,图4所示的实施例所基于的数据源也需要频繁写入数据,在采集数据的时候,可能还未完成数据写入,由此造成数据缺失。

在这种情况下,该实施例基于图2所示的实施例进行了进一步优化,在进行数据补录之前,增加了步骤s2160,对补录作业建立时间和补录次数进行分析,以更新补录作业执行策略。

例如,在进行补录作业时,将数据补录的启动时间,补录作业延后时间差值,数据补录作业相关特征值等内容存储到作业特征序列数据库203中。之后,根据对补录过程数据的离群点分析得到当前补录策略下的补录效果。如果不理想,则可以通过调整补录间隔和补录次数来改进。然后,再次评估补录效果,直至达到预期的补录效果。

其中,补录作业间隔的含义是,距离第一次数据抓取的时间间隔,例如,延后5分钟再启动数据补录作业。更新作业次数可与更小补录作业间隔配合使用,例如,分2次进行补录,第一次在30秒之后,第二次在5分钟之后。需要说明的是,图2至图4所示的本申请实施例,仅为本申请实施例的示例性说明,并非对本申请实施例实施方式或应用场景的限定。实施者可根据具体实施条件和需要,采用任何适用的实施方式应用于任何适用的应用场景中。

进一步地,本申请实施例还提供信息处理装置。如图5所示,该装置50包括:数据集特征提取模块501,用于在数据集成的过程中,对集成的第一数据集进行特征提取得到数据集特征,数据集特征用于检测第一数据集的信息量是否异常;数据集特征存储模块502,用于根据特征提取的时间顺序存储数据集特征,得到数据集特征序列;信息量检测模块503,用于根据动态生成的特征阈值,对数据集特征序列中的数据集特征进行信息量检测得到信息量异常的数据;数据补录模块504,用于针对信息量异常的数据,进行数据补录得到第二数据集。

这里需要指出的是:以上针对信息处理装置实施例的描述与前述方法实施例的描述是类似的,具有同前述方法实施例相似的有益效果,因此不做赘述。对于本申请信息处理装置实施例的描述尚未披露的技术细节,请参照本申请前述方法实施例的描述而理解,为节约篇幅,因此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储介质、只读存储器(readonlymemory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例方法的全部或部分。而前述的存储介质包括:移动存储介质、rom、磁碟或者光盘等各种可以存储程序代码的介质。

以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1