一种监测数据的方法及装置与流程

文档序号:11654384阅读:252来源:国知局
一种监测数据的方法及装置与流程

本发明涉及数据处理领域,尤其涉及一种监测数据的方法及装置。



背景技术:

目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,对信息交互数据(例如金融领域中的交易过程数据中的应答码)进行分析并基于分析结果监测异常情况的发生变得越来越重要。

在现有的技术方案中,对信息交互数据进行分析时,通常是针对信息交互中的实时数据进行分析。具体的,先采集与监控对象相关联的海量原始实时数据交互信息,然后进行数据衍生操作以生成衍生指标数据,再基于衍生指标数据执行异常判别操作。由于上述实时数据的周期短,相对变化大,所以针对实时数据的异常判别操作并不适用于对较长时长的历史数据进行异常判别,主要是因为现有的技术方案对全链路周期性历史数据的变化无法掌控。



技术实现要素:

本发明实施例提供一种监测数据的方法及装置,用以提供一种新的异常数据监测手段以监测一定时长的历史数据的异常状态。

本发明方法包括一种监测数据的方法,该方法包括:获取在设定时长内交易链路中的各个监测对象的历史交互数据;

将各个监测对象的历史交互数据划分为n个指标的历史交互数据集合;

针对所述第一指标的历史交互数据集合,执行如下操作,其中,所述第一指标为所述n个指标的中的任意一个指标:

确定所述第一指标的历史交互数据集合的波动周期和所述波动周期内的历史交互数据的均值,以及所述第一指标的波动周期内的历史交互数据的标准差;

根据所述均值和所述标准差,确定所述第一指标的监测基线,所述监测基线用于指示所述第一指标的正常历史交互数据的波动范围;

根据所述监测基线确定所述第一指标的交互数据集合中的异常数据。

基于同样的发明构思,本发明实施例进一步提供一种监测数据的装置,该装置包括:

获取单元,用于获取在设定时长内交易链路中的各个监测对象的历史交互数据;

划分单元,用于将各个监测对象的历史交互数据划分为n个指标的历史交互数据集合;

确定单元,用于针对所述第一指标的历史交互数据集合,执行如下操作,其中,所述第一指标为所述n个指标的中的任意一个指标:确定所述第一指标的历史交互数据集合的波动周期和所述波动周期内的历史交互数据的均值,以及所述第一指标的波动周期内的历史交互数据的标准差;根据所述均值和所述标准差,确定所述第一指标的监测基线,所述监测基线用于指示所述第一指标的正常历史交互数据的波动范围;

判异单元,用于根据所述监测基线确定所述第一指标的交互数据集合中的异常数据。

本发明实施例通过获取一定时长的待监测对象的n个指标的交互数据,一般是一星期以上的数据,然后对获取的数据按照业务指标划分类型,得到每个指标的交互数据集合,从而利用该指标对应的指标基线确定该指标的交互数据集合中数据的异常状态,由于指标基线确定了监控对象的第一指标的波动范围,所以当指标的交互数据高于指标基线的上限,或者低于指标基线的下限时,均会触发异常报警。其中,指标基线是根据指标数据集的均值和标准差确定的,由于待监测对象的采集周期相对实时数据较长,并且指标基线也是根据历史一段时间内的历史交互数据分析得到的规律,因此这样进行异常判别操作,准确性更高,降低了误判的概率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种监测数据的方法流程示意图;

图2为本发明实施例提供的银行卡交易链路指标划分方法的示意图;

图3为本发明实施例提供的指标规则集的示意图;

图4为本发明实施例提供的一种确定异常数据的曲线示意图;

图5为本发明实施例提供的一种绝对量异常原因的分解示意图;

图6为本发明实施例提供的一种相对量异常原因的分解示意图;

图7为本发明实施例提供的一种同比类数据预测异常数据的示意图;

图8为本发明实施例提供的一种多任务并发的示意图;

图9为本发明实施例提供的一种监测数据的装置示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

参见图1所示,本发明实施例提供一种监测数据的方法流程示意图,具体地实现方法包括:

步骤s101,获取在设定时长内交易链路中的各个监测对象的历史交互数据。

步骤s102,将各个监测对象的历史交互数据划分为n个指标的历史交互数据集合。

步骤s103,针对所述第一指标的历史交互数据集合,执行如下操作,其中,所述第一指标为所述n个指标的中的任意一个指标:确定所述第一指标的历史交互数据集合的波动周期和所述波动周期内的历史交互数据的均值,以及所述第一指标的波动周期内的历史交互数据的标准差;

步骤s104,根据所述均值和所述标准差,确定所述第一指标的监测基线,所述监测基线用于指示所述第一指标的正常历史交互数据的波动范围;

步骤s105,根据所述监测基线确定所述第一指标的交互数据集合中的异常数据。

在步骤s101中各个监测对象指的是银行卡交易链中商户、发卡方、银行等环节。而指标则指的是从财务、市场、产品等角度进行分析所涉及的数据指标。总体来说,银行卡交易链路关键路径指标体系分为三个层级,如图2所示,1)、顶层,主要是根据交易链路关键环节所需监测的业务种类,界定指标体系范畴;2)、中间层,主要是指标体系的类别划分;3)、底层,指标体系的细化具体指标6700多个形成具体指标集。

需要说明的是,对银行卡交易链路指标体系所有对应的数据,需要先进行数据转移,即将数据先转移至运营数据分析系统odas(operationdataanalysissystem)自有数据库,然后再对该自有数据库中的原始数据进行采集及必要的过滤,去冗后降低存储数据压力。另外,对转移过来的数据,需要分别执行如下操作:a1,根据指标集、指标衍生、规则库及判异需求,将不同领域、层级和类别的数据结构从格式、数据量级、服务优先级等方面进行定义;a2,将非标准化的数据进行标准化;将具有一定周期性、偏态的维度通过统计标准化公式进行换算;a3,对转换后标准化的数据按照指标类别、领域、量级进行分层存储,避免后续指标衍生、数据查询进行全表扫描等影响性能的问题。

这样,当完成了数据采集和初步的处理进行存储后,接下来将对各指标数据集中数据分别执行如下处理流程,步骤一:需要先进行数据清洗,步骤二:利用规则建立该该指标数据集的指标基线,步骤三:利用指标基线对该指标数据集中的数据进行判异处理,步骤四:再对出现异常数据的原因进行下探分析。

对于步骤一中的数据清洗,可以利用现有技术中存在的数据清洗方法进行清洗,在此不再赘述。

另外步骤二建立指标基线需要先确定建立指标基线的公式中的各个参数的值,例如均值和标准差。其中,确定均值需要先确定指标数据集中的数据是否平稳,若平稳,则可以直接取均值,即取滑动窗口(即所观测指标对应的时间周期长度,日、周、月、季、年)为l的样本点的均值。若不平稳,则可以采用取差分、对数、单位根等方法进行数据转化,形成一个新的数据序列。这样通过差分进行转化,达到均值稳定的平稳化转化。然后再对差分后的新的序列取均值。具体地。对所述第一指标的历史交互数据集合中的数据进行t检验,确定出k个不同均值的序列;

计算k个序列与时间属性之间的统计相关系数;

确定所述统计相关系数大于第一阈值时,对所述k个序列进行差分,直至差分后的统计相关系数不大于所述第一阈值;

计算差分后的序列的均值,并将所述差分后的序列的均值作为所述波动周期内的历史交互数据的均值。

也就是说,对于规则集生成模块基础上,通过统计假设检验的方法对监控基线建立、阈值设定进行处理,达到指标集自动匹配规则集、基线、阈值及序列规律影响因子算法,具体的流程如图3所示,收集业务指标集和节假日表之后,然后确定指标集及对应标签,b1,通过t检验确定指标基线的条数,即周一至周日是分别建立7条基线,还是建立工作日、周末2条基线。具体实现方法是,通过两两做t检验,将样本均值相等的序列合并为同一个监控序列,均值不相等的序列纳入监控序列。

b2,通过计算时间与指标的spearman(斯皮尔曼)相关系数rs,判定序列是否具有增长性非平稳趋势。若rs>0.9,则对序列进行差分并验证差分后新生成的序列与时间的spearman相关系数rs是否>0.9,如果是,则需要继续差分至相关系数rs<0.9为止。经验证,本发明涉及的指标体系一阶差分能满足需求。

其中,spearman相关系数计算步骤如下,第一步:对时间和指标分别按等级次序编号求秩,得出两个秩的序列xi和yi(i=1,2…..n),按顺序求出每对秩序列的差di;第二步:计算相关系数其中n为样本容量,当监控对象无周波动规律时,n为滑动窗口长度l。例如当周规律时,如监控对象为周一的交易笔数,n为l窗口内日期为周一的天数;

b3,一阶差分,以差分后序列△xt作为新的监控序列,计算均值和标准差。

进一步地,根据设定时长内第一时段的历史交互数据与设定时长内第二时段的历史交互数据,确定所述监测基线的叠加因子;根据所述叠加因子,以及所述均值和所述标准差,按照公式一确定所述第一指标的监测基线,所述公式一为:

其中,λ为叠加因子,为第一指标在波动周期内的均值,σ为第一指标在波动周期内的标准差,b为振幅因子。

其中,监测基线的叠加因子可以指节假日因子λ1或者是月因子λ2,节假日λ1和月因子λ2的优先级,遵从节假日λ1的优先级高于月因子λ2,即当监控当日同是为节假日和月初(中、末)时,则基线算法调整为当监控当日仅为月初(中、末)时,基线算法为平常日的基线算法为以避免因子影响的重复赋值。

另外,从图3中可见,阈值b的确定,采取从严到宽逐级递减的算法,b取值从3开始,开始,每次迭代b=b-0.1,计算监控对象的异常点率,当异常点率>0%,则确定对象的b值为监控的阈值。

进一步地,根据所述监测基线确定所述第一指标的交互数据集合中的异常数据之后,还包括:

若所述第一指标的属性为绝对量类型,则确定所述第一指标的异常数据与所述均值之间的差值;

下探分析所述第一指标的遍历因子集,确定对所述差值作出贡献度大于第二阈值的第一目标因子,并生成与所述第一目标因子相关的异常分析报告。

其中,对异常数据的判断如图4所示,当异动侦测指标超过指标基线上下限控制水平,被判定为异常时,通过计算当天值与滑动窗口内历史均值的增量差距(分正负两种情况),并将该增量在原因下探分析的各维度的各水平值进行分解。其中,对绝对量的异常原因的分解如图5所示,主要步骤如下:

c1,遍历因子集的确定:通过自动算法确定默认因子集在遍历之前,对因子集进行分布统计,如果某因子的top1的分类值分布占比>k%以上,该因子不进入遍历流程(k值默认为90);另外,系统提供自定义因子选择窗口,实现用户自行选择分析的因子,并针对专家分析路径自动配置下探的遍历因子集。

c2,子节点的确定:a)、自动下探分析,计算各水平值的增量绝对量,然后在10-i个待下探的维度进行遍历;获取10-i各维度下所有水平值对父节点贡献度最大的水平对应的维度作为下一层的子节点;b)、对专家分析路径和用户自定义分析路径,各层子节点的确定按照事先指定的顺序。

c3,叶子的生成:对当前子节点维度下的水平贡献度进行降序排列选择累积贡献度达到90%以上或水平贡献度达10%以上的水平值作为本层分解的叶子;

c4,剪枝:解决如何提高分析树的可读性和有效性,当叶节点太细,对根节点的贡献度无法总结;当树太粗,对异动的原因了解太笼统;解决办法是:计算每层叶子对“父节点”的“根节点”的贡献度,通过设置对父节点贡献度>20%,且对根节点贡献度>5%(阈值参数化),则继续下探,以提高结果的可归纳总结性。因剪枝被砍去的维度信息,在展示指标中显示,并显示相关的贡献度作为参考。

c5,分析树的生成:按照第2-4步骤,对因子集中所有维度在遵循下探分解和剪枝的阈值的规则下,全部被遍历和分解,完成下探分析,并显示生成分析树。

c6,占比类指标原因下探逻辑,也是当占比类监控指标超过基线上下限控制水平,被判定为异常时,通过计算当天值与滑动窗口内历史均值的增量差距(分正负两种情况),并将该增量在原因下探分析的各维度的各水平值进行分解。

进一步地,若所述第一指标的属性为相对量类型,则确定所述第一指标的异常数据与所述波动周期内的历史交互数据总和之间的比值;

下探分析所述第一指标的遍历因子集,确定对所述比值作出的贡献度大于第三阈值的第二目标因子,并生成与所述第二目标因子相关的异常分析报告。

具体来说,与绝对量指标的主要区别是在指标值的计算方式有所不同,占比的计算方式是以当前维度下当前水平的绝对量与整体总量的比值,而非与上一层级的相对总量的比值。

进一度地,根据业务、市场、管理层决策等需求,对企业经营类kpi指标在进行异动监测的同时,需要提供预测功能,以便更早的对经营情况进行预判、决策。采取的方法主要是构建同比类指标,以月为监控周期,在月初根据上个月的真实交易数据,监控上个月的同比增长率的波动是否超过正常的波动范围,当波动被监控算法判定为异常时,自动分析异常的原因。同比增长率数据具有时间跨度长、总体与局部、月份之间、不同地区、不同行业之间同比数据差异较大的特点。

同比类监控指标异常原因下探逻辑,通过逐层对各维度的水平值得贡献度遍历计算排名,将贡献度排名最高水平值对应的维度作为下一层分解的父节点,逐层下探分解,最终得到异常原因分析树,与绝对量和占比指标不同之处在于同比数据异常点较多,跳跃度较大,在数据处理和贡献度的计算须个性化处理。如图7所示,建立维度指标异常基线,即取近三年监控对象的各月同比增长率,去掉1、2月和同比增长率>100%的异常点。去异常点后进行下面三个参数的计算:2)e(x)=均值统计;3)sigma(x)标准差统计;4)cv(x)=sigma(x)/e(x)变异系数。同比指标基线的建立法:同比增长率异动侦测模块设置基线算法,基线1直接与经营计划达标值挂钩,当低于年度计划值时,触发异常报警,进入原因下探分析流程;基线2根据监控对象的历史的波动幅度,计算波动的正常范围,当监控对象水平高于波动的上限,或者低于监控的下限时,均触发异常报警,进入原因下探分析流程。需要考虑的是,同比指标异常点的处理:受春节的影响,1月和2月的同比增长率的跳跃度,在计算e(x)和sigma(x)时需要每年这两个月的样本点剔除;另外部分其他特殊地区同比增长率在非1,2月也可能出现较大的跳跃,须剔除这样的样本点。

在图7中,贡献度的计算:为统一各层维度水平贡献度的量纲,有利于还原各维度水平对总体异常的影响度大小,设置贡献度计算法如下:

对本层贡献度:第i维度j水平值得贡献度=(j水平年度计划同比增长率*j水平去年同期绝对量值-j水平当期绝对量值)/(i维度计划同比增长率*i维度去年同期绝对量值-i维度当期绝对量值);

对总体贡献度=第i维度j水平值得贡献度=(j水平计划同比增长率*j水平去年同期绝对量值-j水平当期绝对量值)/(监控对象计划同比增长率*监控去年同期绝对量值-监控对象当期绝对量值)。

可见,在本发明实施例提供的银行卡交易链路指标体系判异处理实例中发现,计算性能存在瓶颈,在异常点多、下探层级深、数据包大的情况下,处理的实效难以满足业务需求。为解决此问题,从两个方面进行优化控制:(d1)分析深度控制,分析树的最大深度为原因下探指标的个数,在实例分析中,反应出的普遍现象,随着深度的加大,叶节点的贡献度对本层的贡献度分散趋势越明显,对总体的贡献度往往<10%,对总结异常的主要原因意义不大,为此通过设置阈值控制分析树的深度:1)选取叶节点的个数n原则是,这n个叶节点对父节点的累计贡献度>90%,且每个叶节点对父节点的贡献度>10%,当父节点下贡献度最大的叶节点的贡献度<10%,选取贡献度排名为top4的4个叶子显示在分析树上。2)叶节点对父节点贡献度>20%,需进行下一层子节点的下探分析。3)叶节点下各维度详细数据通过展示指标体现,可支持各层节点窗口跳出展示。4)新业务在交易类型、渠道、地区等维度具有较高的集中度,在指标最初的几层原因下探中,基本上选出来的关键维度都是分类数量(水平值)较少的维度,在1-3层贡献度计算中,往往出现多个维度下的某一水平值的贡献度>90%,甚至多个高达100%,所以逐层进行n-i(i=0,1….10)各维度贡献度的遍历,可以在新业务模块进行优化,即设定如果在第i层遍历时,如果出现k个维度的某个水平值贡献度>=90%,则在下一层计算贡献度时,将k各维度都作为筛选条件,仅对剩下的n-i-k各维度进行遍历计算贡献度,以提供计算的效率。

基于判异模块所生成的异常点,同数据大小过滤器以2g、4g(通过性能测试得出此临界值)界点将数据包分为三个应用处理池,对后端的资源也分别对应配置50g、100g、200g的方式进行配置。由此,可将任务并行发起,如图8所示,大幅提升了运行效率,解决了性能与资源的瓶颈。

基于相同的技术构思,本发明实施例还提供一种监测数据的装置,该装置可执行上述方法实施例。本发明实施例提供的装置如图9所示,包括:获取单元401、划分单元402、确定单元403、判异单元404,其中:

获取单元401,用于获取在设定时长内交易链路中的各个监测对象的历史交互数据;

划分单元402,用于将各个监测对象的历史交互数据划分为n个指标的历史交互数据集合;

确定单元403,用于针对所述第一指标的历史交互数据集合,执行如下操作,其中,所述第一指标为所述n个指标的中的任意一个指标:确定所述第一指标的历史交互数据集合的波动周期和所述波动周期内的历史交互数据的均值,以及所述第一指标的波动周期内的历史交互数据的标准差;根据所述均值和所述标准差,确定所述第一指标的监测基线,所述监测基线用于指示所述第一指标的正常历史交互数据的波动范围;

判异单元404,用于根据所述监测基线确定所述第一指标的交互数据集合中的异常数据。

进一步地,所述确定单元403具体用于:

对所述第一指标的历史交互数据集合中的数据进行t检验,确定出k个不同均值的序列;计算k个序列与时间属性之间的统计相关系数;确定所述统计相关系数大于第一阈值时,对所述k个序列进行差分,直至差分后的统计相关系数不大于所述第一阈值;计算差分后的序列的均值,并将所述差分后的序列的均值作为所述波动周期内的历史交互数据的均值。

进一步地,所述确定单元403还用于:

根据设定时长内第一时段的历史交互数据与设定时长内第二时段的历史交互数据,确定所述监测基线的叠加因子;

根据所述叠加因子,以及所述均值和所述标准差,按照公式一确定所述第一指标的监测基线,所述公式一为:

其中,λ为叠加因子,为第一指标在波动周期内的均值,σ为第一指标在波动周期内的标准差,b为振幅因子。

进一步地,所述确定单元403还用于:若所述第一指标的属性为绝对量类型,则确定所述第一指标的异常数据与所述均值之间的差值;

所述装置还包括:第一定位单元405,用于下探分析所述第一指标的遍历因子集,确定对所述差值作出贡献度大于第二阈值的第一目标因子,并生成与所述第一目标因子相关的异常分析报告。

进一步地,所述确定单元403还用于:

若所述第一指标的属性为相对量类型,则确定所述第一指标的异常数据与所述波动周期内的历史交互数据总和之间的比值;

所述装置还包括:第二定位单元406,用于下探分析所述第一指标的遍历因子集,确定对所述比值作出的贡献度大于第三阈值的第二目标因子,并生成与所述第二目标因子相关的异常分析报告。

综上所述,本发明实施例通过获取一定时长的待监测对象的n个指标的交互数据,一般是一星期以上的数据,然后对获取的数据按照业务指标划分类型,得到每个指标的交互数据集合,从而利用该指标对应的指标基线确定该指标的交互数据集合中数据的异常状态,由于指标基线确定了监控对象的第一指标的波动范围,所以当指标的交互数据高于指标基线的上限,或者低于指标基线的下限时,均会触发异常报警。其中,指标基线是根据指标数据集的均值和标准差确定的,由于待监测对象的采集周期相对实时数据较长,并且指标基线也是根据历史一段时间内的历史交互数据分析得到的规律,因此这样进行异常判别操作,准确性更高,降低了误判的概率。本发明实施例提供的监测数据的方法填补了银行卡交易全链路的指标体系的缺失;提出了通过业务、技术双重结合的手段,解决基于hadoop、hive、impala等大数据处理技术对单点大数据包、多层级分析性能不足的问题。实现了银行卡交易全链路上各关键环节的指标设计、以及企业经营指标的规则自适应、原因自动化侦测处理系统。该方法不限于银行卡交易领域,在金融、制造、服务等多个领域均可适用。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1