一种交互式大数据智能异常检测系统和方法与流程

文档序号:16627873发布日期:2019-01-16 06:17阅读:134来源:国知局
一种交互式大数据智能异常检测系统和方法与流程

本发明涉及大数据技术领域,具体涉及一种交互式大数据智能异常检测系统和方法。



背景技术:

大数据平台由于其本身的数据量大和流动性快的特点,需要提供实时的或离线批量的异常点或异常区间检测。异常检测,也称为偏差检测,是一种发现大数据的数据离群点的机制,其可提供一种大数据平台中发现与大部分对象不同的对象的一种方法。

通常地,通过异常检测平台上的算法模型,首先确定偏差,再经过分析计算,获得一些异常点或者异常区间,最后发给相应的业务侧技术人员用户端,做出业务的相应调整。通过这种方法确定的异常检测结果通常是一成不变的,而这有可能在发生误判时也无法改变,若需要变化结果,则需要人为地去干预算法模型,对于不同的数据类型或业务场景,通过人为去调整算法模型将是一个极为耗时耗力的过程,并且每一次调整都可能会到来未知的问题,这将严重影响大数据平台异常检测的精度和效率。



技术实现要素:

针对现有技术的不足,本发明提供一种交互式大数据智能异常检测系统和方法。

一方面,本发明提供了一种交互式大数据智能异常检测系统,该系统包括异常检测平台和位于业务侧的用户端。

所述用户端,用于生成业务数据流,并发送至所述异常检测平台。

所述异常检测平台,用于确定所述业务数据流的业务场景,根据所述业务场景选取匹配的算法模型,根据所述算法模型确定所述业务数据流的确定数据异常信息,并将所述数据异常信息发送至所述用户端。

所述用户端,还用于对所述数据异常信息进行标记,根据标记的数据异常信息生成响应异常信息,并将所述响应异常信息反馈至所述异常检测平台;其中,所述响应异常信息用于指示对所述算法模型的调整。

所述异常检测检测平台,还用于根据所述响应异常信息和后续的业务数据流优化所述算法模型,直至根据优化后的算法模型获得的数据异常信息满足预设条件,获得与所述业务场景匹配的最终算法模型,根据所述最终算法模型确定优化的数据异常信息,并将所述优化的数据异常信息发送至所述用户端。

另一方面,本发明提供了一种交互式大数据智能异常检测方法,该方法包括:

步骤1,用户端生成业务数据流,并发送至异常检测平台。

步骤2,异常检测平台确定所述业务数据流的业务场景,根据所述业务场景选取匹配的算法模型,根据所述算法模型确定所述业务数据流的数据异常信息,并将所述数据异常信息发送至用户端。

步骤3,用户端对所述数据异常信息进行标记,根据标记的数据异常信息生成响应异常信息,并将所述响应异常信息反馈至异常检测平台;其中,所述响应异常信息用于指示对所述算法模型的调整。

步骤4,异常检测检测平台根据所述响应异常信息和后续的业务数据流优化所述算法模型,直至根据优化后的算法模型获得的数据异常信息满足预设条件,获得与所述业务场景匹配的最终算法模型,根据所述最终算法模型确定优化的数据异常信息,并将所述优化的数据异常信息发送至用户端。

本发明提供的交互式大数据智能异常检测系统和方法的有益效果是,

业务侧的用户端在生成业务数据流后,异常检测平台根据可读取的业务数据流基于预先设定的算法模型确定数据异常信息,其中,数据异常信息可以包括经计算得到的异常点/区间和正常点/区间的相关信息,并将其连同业务数据流对应的批次信息一同发送至用户端,用户端根据业务侧的实际情况对不同的数据异常信息进行标记,形成用于反馈至异常检测平台的响应异常信息,其中,响应异常信息可以指示异常检测平台的算法模型需要调整的部分。异常检测平台根据响应异常信息以及循环业务数据流中的下一批次,也就是后续的业务数据流对算法模型进行自适应调整,并将获得的优化的数据异常信息发送至用户端。用户端在根据数据异常信息进行业务调整的同时,异常检测平台的算法模型也在不断自适应优化,经过多次用户侧的反馈标记后,算法模型将不断优化并接近用户侧的实际使用场景,大数据异常检测的精度将大幅提高,同时由于不需要人为根据经验对算法模型进行调整,循环执行的大数据异常检测过程的效率也将显著改善。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种交互式大数据智能异常检测系统的结构框图;

图2为本发明另一实施例的一种交互式大数据智能异常检测系统的结构框图;

图3为本发明实施例的异常检测平台的结构示意图;

图4为本发明实施例的一种交互式大数据智能异常检测方法的流程示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

如图1所示,本发明实施例的一种交互式大数据智能异常检测系统包括异常检测平台和位于业务侧的用户端。

所述用户端,用于生成业务数据流,并发送至所述异常检测平台。

所述异常检测平台,用于确定所述业务数据流的业务场景,根据所述业务场景选取匹配的算法模型,根据所述算法模型确定所述业务数据流的确定数据异常信息,并将所述数据异常信息发送至所述用户端。

所述用户端,还用于对所述数据异常信息进行标记,根据标记的数据异常信息生成响应异常信息,并将所述响应异常信息反馈至所述异常检测平台;其中,所述响应异常信息用于指示对所述算法模型的调整。

所述异常检测检测平台,还用于根据所述响应异常信息和后续的业务数据流优化所述算法模型,直至根据优化后的算法模型获得的数据异常信息满足预设条件,获得与所述业务场景匹配的最终算法模型,根据所述最终算法模型确定优化的数据异常信息,并将所述优化的数据异常信息发送至所述用户端。

在本实施例中,业务侧的用户端在生成业务数据流后,异常检测平台根据可读取的业务数据流基于预先设定的算法模型确定数据异常信息,其中,数据异常信息可以包括经计算得到的异常点/区间和正常点/区间的相关信息,并将其连同业务数据流对应的批次信息一同发送至用户端,用户端根据业务侧的实际情况对不同的数据异常信息进行标记,形成用于反馈至异常检测平台的响应异常信息,其中,响应异常信息可以指示异常检测平台的算法模型需要调整的部分。异常检测平台根据响应异常信息以及循环业务数据流中的下一批次,也就是后续的业务数据流对算法模型进行自适应调整,并将获得的优化的数据异常信息发送至用户端。用户端在根据数据异常信息进行业务调整的同时,异常检测平台的算法模型也在不断自适应优化,经过多次用户侧的反馈标记后,算法模型将不断优化并接近用户侧的实际使用场景,大数据异常检测的精度将大幅提高,同时由于不需要人为根据经验对算法模型进行调整,循环执行的大数据异常检测过程的效率也将显著改善。

优选地,如图2所示,所述系统还包括数据处理平台。

所述数据处理平台,用于对所述业务数据流进行降噪处理,并使经处理的业务数据流的数据格式符合所述异常检测平台的要求。

数据处理平台位于异常检测平台和用户端之间。用户端生成的业务数据流可首先导入数据处理平台,例如etl(extract-transform-load,提取-转换-加载)平台,由其对业务数据流进行加载提炼清洗处理,剔除不必要的干扰信息,也就是进行降噪处理,并使处理的结果具有异常检测平台所支持的数据格式。这样可通过异常检测平台对多源的业务侧用户端进行大数据异常检测。

优选地,所述用户端具体用于:将所述数据异常信息标记为真正类、真负类、假正类和假负类中的任意一种;其中,所述真正类指示所述数据异常信息为正确的异常点或异常区间,所述真负类指示所述数据异常信息为正确的正常点或正常区间,所述假正类指示所述数据异常信息为不正确的异常点或异常区间,所述假负类指示所述数据异常信息为不正确的正常点或正常区间。

将属于所述假正类和所述假负类的所述数据异常信息的标记信息确定为所述响应异常信息,并将所述响应异常信息反馈至所述异常检测平台。

具体地,真正类也可表示为truepositive,真负类也可表示为truenegative,假正类也可表示为falsepositive,假负类也可表示为falsenegative。如表1所示,truepositive表示数据异常信息为真的告警,也就是确实存在的异常点或异常区间;truenegative表示数据异常信息为真的正常点或正常区间;falsepositive表示数据异常信息为假的告警,也就是由算法模型得出的异常点或异常区间,实际是不正确的或不存在的;falsenegative表示数据异常信息为假的正常点或正常区间,也就是由算法模型得出的正常点或正常区间,实际上是不正确的,此正常点或正常区间可能正在告警,属于异常点或异常区间。

表1

业务侧的用户端可通过人工进行标记或者自动进行标记。例如用户通过人眼及经验确认由异常检测平台算法模型计算出来的结果不属于正确的异常点(falsepositive)等情况,或者由用户端根据计算机程序对最终的目标使用用户所做出的结果进行自动收集标记,再整合反馈至异常检测平台。

由于出现误检测的主要情况包括falsepositive和falsenegative,也就是通过原始算法模型获得的检测结果并不是准确的,将属于falsepositive和falsenegative的数据异常信息的标记信息确定为响应异常信息,响应异常信息可以反映异常检测平台模型算法需要调整的信息,算法模型可基于这一信息进行自适应调整。

优选地,所述异常检测平台具体用于:将所述响应异常信息和所述后续的业务数据流作为数据源输入所述异常检测平台的算法模型,当根据所述后续的业务数据流确定相应的后续的数据异常信息中包括与所述响应异常信息对应的数据时,例如,后续的数据异常信息中包括a为异常点这一数据,而响应异常信息中包括标记a为异常点为假告警的信息,也就是属于falsepositive异常事件,对应的数据就是a为异常点这一事件,将对应的所述数据从所述后续的数据异常信息中剔除,也就是此时认定a应为正常点,对所述算法模型进行优化,直至根据优化的算法模型获得的数据异常信息中对应的所述数据的数量小于预设值,也就是falsepositive和falsenegative异常事件的数量小于预设值,获得最终算法模型,根据所述最终算法模型确定获得所述优化的数据异常信息,并将所述优化的数据异常信息发送至所述用户端。

需要注意的是,由于用户端不断有业务数据流进入异常检测平台,异常检测平台也不断有相应的数据异常信息回传至用户端,故用户端与异常检测平台之间具有一个可以被视为不断循环的信息交互过程。不同批次的信息具有不同的批次信息,可根据批次信息确定循环过程中对应的数据信息。令当前批次包括相应的业务数据流和数据异常信息,下一批次包括后续的业务数据流和后续的数据异常信息。

在本实施例中,若业务侧用户端确定当前批次的数据异常信息中包括falsepositive的情况,也就是当前批次由算法模型得出的异常点或异常区间,实际是不正确的或不存在的,将包括属于falsepositive的数据异常信息的标记信息确定为响应异常信息,并将其反馈至异常检测平台。异常检测平台在接收下一批次的业务数据流时,将后续的业务数据流和响应异常信息输入算法模型,当确定后续的数据异常信息中包括与响应异常信息对应的数据时,则将对应的所述数据从后续的数据异常信息中剔除。例如,当前批次中经算法模型确定a为异常点,但用户端认定其为假的告警,也就是a为异常点实际是不正确的,属于falsepositive的情况,响应异常信息中将记录这一信息,在由后续的业务数据流经算法模型确定的后续的响应异常信息中如果依然存在a为异常点的情况,则a将会被从异常点集合中剔除,例如对其进行正常点的标记,并设置相应权重,这相当于对模型算法的输出端进行了自适应调整,也就是对算法模型进行了优化,又由于不断有新的批次的业务数据流进入,异常检测平台和用户端之间也会不断进行异常信息发送和标记信息反馈的交互循环,算法模型将不断自我优化,使算法模型将不断接近用户侧的实际使用场景。由此获得的优化的数据异常信息将逐渐减少falsepositive和falsenegative的情况,有助于提高大数据异常检测的精度和效率。

优选地,所述异常检测平台包括至少一个算法模型以及动态插入算法模型的接口,其中,不同的算法模型分别与不同的业务场景相匹配。

由于大数据平台产生的数据类型和使用场景不是一成不变的,当数据类型或使用场景发生变化后,可能需要调整相应的算法模型。由于可能需要将当前算法模型直接替换为另外一种算法模型才能实现相应检测,此时,企业用户可能需要针对每一种数据类型或使用场景实现一套独立的异常检测平台,并且如前所述,每一套平台都可能在使用过程中升级维护更新,而目前这些都需要人工去干涉调节,将是一个非常耗时耗力的过程。

在本实施例中,在异常检测平台集成多个算法模型,每一个算法模型分别匹配一种业务场景,如图3所示,算法模型1匹配业务场景1,算法模型2匹配业务场景2,算法模型3匹配业务场景3,业务场景包括数据类型和使用场景,由于算法模型不是单一绑定于异常检测平台上的,如果业务侧的业务场景发生变化,异常检测平台将调用相应的算法模型,提高大数据异常检测效率。另外,异常检测平台还包括算法模型接口,当业务侧出现没有相匹配的算法模型的情况时,也就是图3中的业务场景n时,可将与业务场景n匹配的算法模型n通过接口动态插入异常检测平台中,实现算法模型的灵活装载,进一步提高大数据异常检测效率。

如图4所示,本发明实施例的一种交互式大数据智能异常检测方法包括:

步骤1,用户端生成业务数据流,并发送至异常检测平台。

步骤2,异常检测平台确定所述业务数据流的业务场景,根据所述业务场景选取匹配的算法模型,根据所述算法模型确定所述业务数据流的数据异常信息,并将所述数据异常信息发送至用户端。

步骤3,用户端对所述数据异常信息进行标记,根据标记的数据异常信息生成响应异常信息,并将所述响应异常信息反馈至异常检测平台;其中,所述响应异常信息用于指示对所述算法模型的调整。

步骤4,异常检测检测平台根据所述响应异常信息和后续的业务数据流优化所述算法模型,直至根据优化后的算法模型获得的数据异常信息满足预设条件,获得与所述业务场景匹配的最终算法模型,根据所述最终算法模型确定优化的数据异常信息,并将所述优化的数据异常信息发送至用户端。

优选地,所述方法在所述步骤1和所述步骤2之间还包括:

步骤5,由数据处理平台对所述业务数据流进行降噪处理,并使经处理的业务数据流的数据格式符合异常检测平台的要求。

优选地,所述步骤3具体包括:

步骤3.1,将所述数据异常信息标记为真正类、真负类、假正类和假负类中的任意一种;其中,所述真正类指示所述数据异常信息为正确的异常点或异常区间,所述真负类指示所述数据异常信息为正确的正常点或正常区间,所述假正类指示所述数据异常信息为不正确的异常点或异常区间,所述假负类指示所述数据异常信息为不正确的正常点或正常区间。

步骤3.2,将属于所述假正类和所述假负类的所述数据异常信息的标记信息确定为所述响应异常信息,并将所述响应异常信息反馈至所述异常检测平台。

优选地,所述步骤4的具体实现为:将所述响应异常信息和所述后续的业务数据流作为数据源输入异常检测平台的算法模型,当根据所述后续的业务数据流确定相应的后续的数据异常信息中包括与所述响应异常信息对应的数据时,将对应的所述数据从所述后续的数据异常信息中剔除,对所述算法模型进行优化,直至根据优化的算法模型获得的数据异常信息中对应的所述数据的数量小于预设值,获得最终算法模型,根据所述最终算法模型确定所述优化的数据异常信息,并将所述优化的数据异常信息发送至用户端。

优选地,所述异常检测平台包括至少一个算法模型以及动态插入算法模型的接口,其中,不同的算法模型分别与不同的业务场景相匹配。

读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1