一种数据挖掘模型的诊断方法和装置与流程

文档序号:12178581阅读:144来源:国知局
一种数据挖掘模型的诊断方法和装置与流程

本申请涉及数据处理技术领域,特别是涉及一种数据挖掘模型的诊断方法和一种数据挖掘模型的诊断装置。



背景技术:

当前,数据挖掘模型作为大数据发挥作用的重要手段已经在电商、金融和社交媒体等领域普遍存在。数据挖掘模型可以有效地进行建模以解决数值预测、分类和聚类等问题。基于数据化运营和精准营销的需求,数据挖掘模型的数量呈现出指数级增长的趋势。现在,数据平台上同时运行的模型已经达到了“万”级别以上。

然而,维护这些模型会占用数据挖掘模型研发人员大量时间,这样的原因主要在于:

(1)模型的运行环境(特别是互联网环境下)更新迭代的速度会非常地快;

(2)模型的有效性一般会随着时间的推移而不可避免地出现衰退的情况;

(3)模型的数据环境(面向的数据的量级和质量)往往会出现大幅的改变。

而工业界对数据挖掘模型的研究主要集中在:如何能让模型更加精准,以及如何能让模型的效率更高,且在学术界学者们往往缺乏成千上万个线上模型同时运行的情况。因而,现有技术中未能对数据挖掘模型的诊断贡献出切实可行的方案。



技术实现要素:

本申请实施例的发明目的在于提供一种数据挖掘模型的诊断方法,能对数据挖掘模型的诊断贡献出切实可行的方案。

相应的,本申请实施例还提供了一种数据挖掘模型的诊断装置,用以保 证上述方法的实现及应用。

为了解决上述问题,本申请公开了一种数据挖掘模型的诊断方法,包括:

获得数据挖掘模型的运行评估参量,所述运行评估参量至少包括用于描述业务效果的第一参量;

当所述运行评估参量达到预置的故障条件时,确定所述数据挖掘模型运行故障。

进一步,所述运行评估参量还包括用于描述运行环境的第二参量和/或用于描述运行参数的第三参量。

进一步,所述方法还包括:

根据预置的第二参量阈值及所述第二参量,确定所述数据挖掘模型的故障类型;和/或,

根据预置的第三参量阈值及所述第三参量,确定所述数据挖掘模型的故障类型。

进一步,所述方法还包括:

根据预设周期内所述数据挖掘模型运行故障及运行正常的统计值,确定所述数据挖掘模型的生存时期,所述生存时期包括模型正常期、模型衰退期和模型失效期。

进一步,所述方法还包括:

根据所述数据挖掘模型的生成时期以及预先建立的监督学习模型,预测所述数据挖掘模型在未来周期的生存时期。

本申请还公开了一种数据挖掘模型的诊断装置,包括:

参量获取单元,被配置为获得数据挖掘模型的运行评估参量,所述运行评估参量至少包括用于描述业务效果的第一参量;

故障诊断单元,被配置为当所述运行评估参量达到预置的故障条件时,确定所述数据挖掘模型运行故障。

进一步,所述运行评估参量还包括用于描述运行环境的第二参量和/或用于描述运行参数的第三参量。

进一步,所述装置还包括:

故障分析单元,被配置为根据预置的第二参量阈值及所述第二参量,确定所述数据挖掘模型的故障类型;和/或,根据预置的第三参量阈值及所述第三参量,确定所述数据挖掘模型的故障类型。

进一步,所述装置还包括:

模型分析单元,被配置为根据预设周期内所述数据挖掘模型运行故障及运行正常的统计值,确定所述数据挖掘模型的生存时期,所述生存时期包括模型正常期、模型衰退期和模型失效期。

进一步,所述装置还包括:

预警单元,被配置为根据所述数据挖掘模型的生成时期以及预先建立的监督学习模型,预测所述数据挖掘模型在未来周期的生存时期。

与现有技术相比,本申请实施例包括以下优点:

本申请实施例通过对数据挖掘模型进行监控并对其运行评估获得运行评估参量,实现了对模型运行效果的跟踪,并且通过设置故障条件来对数据挖掘模型的运行故障进行判断,实现了对模型健康度的自动监控。该方法实现了数据挖掘模型上线后的自动化故障诊断,为包括工业界和学术界已有技术的重要补充。

附图说明

图1是本申请的一种数据挖掘模型的诊断方法实施例的步骤流程图;

图2是本申请的另一种数据挖掘模型的诊断方法实施例的步骤流程图;

图3是本申请的另一种数据挖掘模型的诊断方法实施例的步骤流程图;

图4是本申请的一种数据挖掘模型的诊断装置实施例的结构框图;

图5是本申请的另一种数据挖掘模型的诊断装置实施例的结构框图;

图6是本申请的另一种数据挖掘模型的诊断装置实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1,示出了本申请的一种数据挖掘模型的诊断方法实施例的步骤 流程图,具体可以包括如下步骤:

步骤101,获得数据挖掘模型的运行评估参量,该运行评估参量至少包括用于描述业务效果的第一参量。

本申请实施例应用于多个数据挖掘模型同时运行的场景,多个数据挖掘模型可以应用于不同的应用场景,产生不同的应用效果。这些数据挖掘模型可以存储在同一的模型库中。

本实施例中,用于对数据挖掘模型诊断的装置(以下简称该装置)可以实时监控各数据挖掘模型的运行情况,并根据运行情况计算数据挖掘模型的运行评估参量。该运行评估参量至少包括用于描述业务效果的第一参量,其中,该第一参量可以是误差值、误差率、准确率等。该装置可以定时或周期性的根据数据挖掘模型的运行情况计算数据挖掘模型的运行评估参量,该周期可以与数据挖掘模型的执行周期相同,例如为T天。

例如,根据不同的数据挖掘模型,对业务效果进行计算获得第一参量如下:

模型1:时序预测模型

模型2:回归预测模型

模型3:分类模型

模型1的第一参量:平均误差率=10%,平均误差值=100000元

模型2的第一参量:误差率=8%,误差值=8000元

模型3的第一参量:准确率=85%

该运行评估参量还可以包括其它参量,例如用于描述运行环境的第二参量和/或用于描述运行参数的第三参量等。

步骤102,当运行评估参量达到预置的故障条件时,确定数据挖掘模型运行故障。

在获得上述运行评估参量后,该装置即可判断该运行评估参量是否达到预置的故障条件,进而确定数据挖掘模型是否存在运行故障。该故障条件可以根据经验值获得。

具体的,可以设置第一参量的故障条件,当该第一参量达到预置条件时, 认为该数据挖掘模型运行故障。

例如,设置第一参量的误差率阈值,当上步骤获得的第一参量达到该误差率阈值时,将该次数据挖掘模型的运行确定为运行故障。

该装置可以针对运行评估参量所包含的具体参量来对应设置故障条件。

本实施例中,该装置可以按照预设周期同时获得多个或所有数据挖掘模型的运行评估参量。

本申请实施例通过对数据挖掘模型进行监控并对其运行评估获得运行评估参量,实现了对模型运行效果的跟踪,并且通过设置故障条件来对数据挖掘模型的运行故障进行判断,实现了对模型健康度的自动监控。该方法实现了数据挖掘模型上线后的自动化故障诊断,为包括工业界和学术界已有技术的重要补充。

参照图2,示出了本申请的另一种数据挖掘模型的诊断方法实施例的步骤流程图,具体可以包括如下步骤:

步骤201,获得数据挖掘模型的运行评估参量,该运行评估参量包括用于描述业务效果的第一参量,用于描述运行环境的第二参量和/或用于描述运行参数的第三参量。

本实施例中,数据挖掘模型的运行评估参量除了包括用于描述业务效果的第一参量之外,还包括用于描述运行环境的第二参量和用于描述运行参数的第三参量。在其它实施例中,可以只包括第一参量和第二参量或者只包括第一参量和第三参量。

其中,第二参量是对模型的运行环境进行分解计算获得的,例如跨度、方差、正负样本比例等。第三参量是对模型的运行参数(或曝露参数)进行分解计算获得的,例如运行时间、稳定性等。

仍以前述实施例中的模型1、2、3为例,计算获得的第二参量如下:

模型1:均值=300000元,跨度=10000元,新增跨度率=30%

模型2:均值=10000元,方差=3000

模型3:正负样本比1/3,样本比变化40%

计算获得的第三参量如下:

模型1:运行时间=1s,稳定性=0.2

模型2:运行时间=60s,RMSE方差=400,稳定性=0.3

模型3:运行时间=300s,AUC=0.7

步骤202,当第一参量达到预设的第一参量阈值时,确定数据挖掘模型运行故障。

本步骤预先设置第一参量阈值,例如误差率阈值,当上步骤获得的第一参量达到该第一参量阈值时,将该次数据挖掘模型的运行确定为运行故障。在本步骤中,在确定数据挖掘模型运行故障后进一步执行步骤203。

步骤203,根据预置的第二参量及第二参量阈值,和/或第三参量及第二参量阈值,确定数据挖掘模型的故障类型。

本步骤中可以分别设置第二参量阈值和第三参量阈值,然后根据步骤201中计算获得的第二参量和第三参量,或两参量之一,进一步判断数据挖掘模型的故障类型。例如,可以设置第二参量阈值为方差阈值或跨度阈值,设置第三参量阈值为运行时间阈值或稳定性阈值,并且可以根据经验值设置,当第二参量达到对应的第二参量阈值时对应的故障类型,以及当第三参量达到对应的第三参量阈值时对应的故障类型。

例如,当运行时间达到预设的参量阈值时确定故障类型为平台故障。当稳定性达到预设的参量阈值时确定故障类型为数据环境故障等。

本实施例通过获得第二参量和/或第三参量,并设置对应的第二参量阈值和/或第三参量阈值,可以在确定数据挖掘模型运行故障后进一步确定故障类型,以便于进行后期对数据挖掘模型的维护。

在另一实施例中,如图3所示,该方法还可以包括:

步骤301,根据预设周期内数据挖掘模型运行故障及运行正常的统计值,确定数据挖掘模型的生存时期。

该生存时期包括模型正常期、模型衰退期和模型失效期。

该步骤具体可以根据预设周期内数据挖掘模型运行故障与运行正常的比例等确定生存时期。该预设周期可以包含多个获得运行评估参量的周期(T)。

例如:

Case 1,多个T内连续运行正常,或运行正常达到预设正常比率,则确定该数据挖掘模型的生成时期为模型正常期。

Case 2,多个T内运行正常与运行故障交替出现,或运行正常与运行故障的比例达到预设的比例范围,则确定该数据挖掘模型的生成时期为模型衰退期。

Case 3,多个T内连续运行故障,或运行故障达到预设故障比率,则确定该数据挖掘模型的生成时期为模型失效期。

本实施例也还可以进一步包括步骤302。

步骤302,根据数据挖掘模型当前的生成时期以及预先建立的监督学习模型,预测数据挖掘模型在未来周期的生存时期。

本步骤之前该装置可以预先在已经监测过的数据挖掘模型中获取其多个周期的运行评估参量、运行故障及运行正常的统计值、生存时期变化情况作为样本,然后基于选取的样本进行学习并建立监督学习模型。该基于样本学习建模的过程可以采用现有技术,此处不再赘述。

在建立监督学习模型后,该装置即可根据上步骤获得的数据挖掘模型的生存周期预测其在未来周期的生存时期。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。

参照图4,示出了本申请一种数据挖掘模型的诊断装置实施例的结构框图,具体可以包括如下单元:

参量获取单元401,被配置为获得数据挖掘模型的运行评估参量,所述运行评估参量至少包括用于描述业务效果的第一参量。

故障诊断单元402,被配置为当所述运行评估参量达到预置的故障条件 时,确定所述数据挖掘模型运行故障。

该装置通过上述单元对数据挖掘模型进行监控并对其运行评估获得运行评估参量,实现了对模型运行效果的跟踪,并且通过设置故障条件来对数据挖掘模型的运行故障进行判断,实现了对模型健康度的自动监控。该装置实现了数据挖掘模型上线后的自动化故障诊断,为包括工业界和学术界已有技术的重要补充。

在另一实施例中,该运行评估参量还可以包括用于描述运行环境的第二参量和/或用于描述运行参数的第二参量。

该装置如图5所示,还可以包括:

故障分析单元501,被配置为根据预置的第二参量阈值及所述第二参量,确定所述数据挖掘模型的故障类型;和/或,根据预置的第三参量阈值及所述第三参量,确定所述数据挖掘模型的故障类型。

在另一实施例中,如图6所示,该装置还可以包括:

模型分析单元601,被配置为根据预设周期内所述数据挖掘模型运行故障及运行正常的统计值,确定所述数据挖掘模型的生存时期,所述生存时期包括模型失效期、模型衰退期和模型正常期。

预警单元602,被配置为根据上述数据挖掘模型的生成时期以及预先建立的监督学习模型,预测所述数据挖掘模型在未来周期的生存时期。

本申请实施例还提供了一种电子设备,包括存储器和处理器。

处理器与存储器通过总线相互连接;总线可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。

其中,存储器用于存储一段程序,具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

处理器用于读取存储器中的程序代码,执行以下步骤:

获得数据挖掘模型的运行评估参量,所述运行评估参量至少包括用于描述业务效果的第一参量;

当所述运行评估参量达到预置的故障条件时,确定所述数据挖掘模型运行故障。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的 界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种数据挖掘模型的诊断方法和一种数据挖掘模型的诊断装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1