一种数据监控处理方法及装置与流程

文档序号:33148819发布日期:2023-02-03 22:22阅读:42来源:国知局
一种数据监控处理方法及装置与流程

1.本发明涉及数据监控技术领域,具体涉及一种数据监控处理方法及装置。


背景技术:

2.随着it架构的转变与数字化转型的逐步推进,越来越多的应用系统转变为基于x86服务器的分布式系统框架,新型系统服务框架、分布式数据库服务器的应用给日常的技术测试工作带来了一系列问题,也给对jvm的数据监控带来了困难。


技术实现要素:

3.针对现有技术中的问题,本发明实施例提供一种数据监控处理方法及装置,能够至少部分地解决现有技术中存在的问题。
4.一方面,本发明提出一种数据监控处理方法,包括:
5.获取多维度数据和反映系统性能风险的衍生特征;所述多维度数据包括应用系统基本环境信息、虚拟机配置信息和测试日志信息;所述衍生特征为生命周期内堆内存升高速度、垃圾回收次数升高速度和垃圾回收耗时升高速度;
6.基于预设监控模型对所述多维度数据和所述衍生特征进行监控,得到监控结果;
7.其中,所述预设监控模型根据多维度样本数据和衍生特征样本数据训练决策树算法模型得到。
8.其中,获取所述多维度样本数据,包括:
9.获取初始多维度数据,对所述初始多维度数据的数据字段进行数据清洗,得到模型特征指标体系数据;所述模型特征指标体系数据包括应用系统环境指标体系数据、虚拟机基础参数指标体系数据和测试日志信息指标体系数据;
10.对所述模型特征指标体系数据的数据字段内容进行数据清洗,得到在测试期间内的测试异常数据;
11.对所述测试异常数据依次进行离散化、归一化和向量化处理,并进行判别标记,得到所述多维度样本数据。
12.其中,获取所述衍生特征样本数据,包括:
13.获取老年代堆内存数据变化量、垃圾回收次数变化量和垃圾回收耗时变化量;
14.分别计算所述老年代堆内存数据变化量、所述垃圾回收次数变化量和所述垃圾回收耗时变化量与预设监控周期的比值;
15.对各比值结果依次进行离散化、归一化和向量化处理,并进行判别标记,得到所述衍生特征样本数据。
16.其中,所述决策树算法模型为分布式梯度提升框架;相应的,根据多维度样本数据和衍生特征样本数据训练决策树算法模型,包括:
17.初始化设置分布式梯度提升框架的训练参数;
18.调整所述训练参数,并对所述分布式梯度提升框架进行重复训练,直到得到避免
过拟合的树深度、叶子节点样本权重和学习权重。
19.其中,所述数据监控处理方法还包括:
20.在对所述分布式梯度提升框架进行重复训练完成之后,采用非交叉验证与交叉验证两种方式检验所述分布式梯度提升框架的泛化能力,得到所述预设监控模型。
21.其中,所述数据监控处理方法还包括:
22.若确定所述监控结果为异常监控结果,则获取所述预设监控模型的各特征权重值;
23.对各特征权重值按照由大到小的顺序依次排列,提取排序在前的k个特征权重值。
24.其中,所述数据监控处理方法还包括:
25.根据所述监控结果更新训练数据集中的训练数据,所述训练数据包括所述多维度样本数据和所述衍生特征样本数据。
26.一方面,本发明提出一种数据监控处理装置,包括:
27.获取单元,用于获取多维度数据和反映系统性能风险的衍生特征;所述多维度数据包括应用系统基本环境信息、虚拟机配置信息和测试日志信息;所述衍生特征为生命周期内堆内存升高速度、垃圾回收次数升高速度和垃圾回收耗时升高速度;
28.监控单元,用于基于预设监控模型对所述多维度数据和所述衍生特征进行监控,得到监控结果;
29.其中,所述预设监控模型根据多维度样本数据和衍生特征样本数据训练决策树算法模型得到。
30.再一方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
31.所述处理器和所述存储器通过所述总线完成相互间的通信;
32.所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
33.获取多维度数据和反映系统性能风险的衍生特征;所述多维度数据包括应用系统基本环境信息、虚拟机配置信息和测试日志信息;所述衍生特征为生命周期内堆内存升高速度、垃圾回收次数升高速度和垃圾回收耗时升高速度;
34.基于预设监控模型对所述多维度数据和所述衍生特征进行监控,得到监控结果;
35.其中,所述预设监控模型根据多维度样本数据和衍生特征样本数据训练决策树算法模型得到。
36.本发明实施例提供一种非暂态计算机可读存储介质,包括:
37.所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
38.获取多维度数据和反映系统性能风险的衍生特征;所述多维度数据包括应用系统基本环境信息、虚拟机配置信息和测试日志信息;所述衍生特征为生命周期内堆内存升高速度、垃圾回收次数升高速度和垃圾回收耗时升高速度;
39.基于预设监控模型对所述多维度数据和所述衍生特征进行监控,得到监控结果;
40.其中,所述预设监控模型根据多维度样本数据和衍生特征样本数据训练决策树算法模型得到。
41.本发明实施例提供的数据监控处理方法及装置,获取多维度数据和反映系统性能
风险的衍生特征;所述多维度数据包括应用系统基本环境信息、虚拟机配置信息和测试日志信息;所述衍生特征为生命周期内堆内存升高速度、垃圾回收次数升高速度和垃圾回收耗时升高速度;基于预设监控模型对所述多维度数据和所述衍生特征进行监控,得到监控结果;其中,所述预设监控模型根据多维度样本数据和衍生特征样本数据训练决策树算法模型得到,能够全面和准确地监控数据,进而及时进行系统风险防控。
附图说明
42.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
43.图1是本发明一实施例提供的数据监控处理方法的流程示意图。
44.图2是本发明另一实施例提供的数据监控处理方法的流程示意图。
45.图3是本发明实施例提供的数据监控处理方法模块化的流程示意图。
46.图4是本发明一实施例提供的数据监控处理装置的结构示意图。
47.图5为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
48.为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互任意组合。
49.图1是本发明一实施例提供的数据监控处理方法的流程示意图,如图1所示,本发明实施例提供的数据监控处理方法,包括:
50.步骤s1:获取多维度数据和反映系统性能风险的衍生特征;所述多维度数据包括应用系统基本环境信息、虚拟机配置信息和测试日志信息;所述衍生特征为生命周期内堆内存升高速度、垃圾回收次数升高速度和垃圾回收耗时升高速度。
51.步骤s2:基于预设监控模型对所述多维度数据和所述衍生特征进行监控,得到监控结果;
52.其中,所述预设监控模型根据多维度样本数据和衍生特征样本数据训练决策树算法模型得到。
53.在上述步骤s1中,装置获取多维度数据和反映系统性能风险的衍生特征;所述多维度数据包括应用系统基本环境信息、虚拟机配置信息和测试日志信息;所述衍生特征为生命周期内堆内存升高速度、垃圾回收次数升高速度和垃圾回收耗时升高速度。装置可以是执行该方法的计算机设备,例如可以包括服务器。需要说明是,本发明实施例涉及数据的获取及分析是经用户授权的。
54.应用系统基本环境信息可以包括系统搭建时的相关物理信息,包括但不限于应用名称、操作系统类型、测试系统环境、测试集群节点、版本号、发版时间、cpu个数、内存等。
55.虚拟机配置信息可以具体为java虚拟机配置信息,指系统服务在初始化过程中产
生的java虚拟机配置信息,包括但不限于初始堆内存、最大堆内存、最小堆内存、初始新生代内存、最大新生代内存、eden区/survivor区比值、老年代/新生代比值、老年代内存、永久代内存、gc处理机制、吞吐量throughpu、暂停pause等。
56.测试日志信息,是以一次测试过程为单位,记录所有服务信息的响应情况,内容包括但不限于统计时间、进程id、cpu使用率、内存状态、gc类型、堆信息(幸存区大小、伊甸区大小、老年代大小)、gc开始时间、gc结束时间、垃圾回收次数、垃圾回收消耗时间、gc总时间等。
57.对衍生特征反映系统性能风险,说明如下:
58.生命周期内堆内存升高速度越快,则系统性能异常风险越大;生命周期内堆内存升高速度越慢,则系统性能异常风险越小。
59.垃圾回收次数升高速度越快,则系统性能异常风险越大;垃圾回收次数升高速度越慢,则系统性能异常风险越小。垃圾回收(garbage collection,简称“gc”)。
60.垃圾回收耗时升高速度越快,则系统性能异常风险越大;垃圾回收耗时升高速度越慢,则系统性能异常风险越小。
61.在上述步骤s2中,装置基于预设监控模型对所述多维度数据和所述衍生特征进行监控,得到监控结果;可以将多维度数据和衍生特征相融合,整体输入预设监控模型,将预设监控模型的输出结果作为监控结果。
62.监控结果可以包括正常监控结果,表示数据监控结果都正常。
63.监控结果可以包括异常监控结果,表示数据监控结果存在异常。
64.其中,所述预设监控模型根据多维度样本数据和衍生特征样本数据训练决策树算法模型得到。获取多维度样本数据,包括:
65.获取初始多维度数据,对所述初始多维度数据的数据字段进行数据清洗,得到模型特征指标体系数据;所述模型特征指标体系数据包括应用系统环境指标体系数据、虚拟机基础参数指标体系数据和测试日志信息指标体系数据;如图2所示:
66.步骤1、本发明实施例涉及三个主体:应用系统、数据库、java虚拟机(简称jvm)。将一个应用系统视为一个整体,从应用系统出发,对其涉及的系统版本、数据库、java虚拟机、以及日常的测试日志等数据进行收集,可以细化为应用系统基本环境信息、虚拟机配置信息、测试日志信息三个维度。
67.其中,应用系统基本环境信息可包括但不限于应用名称、操作系统类型、测试系统环境、测试集群节点等数据。
68.虚拟机配置信息可包括但不限于初始堆内存、最大堆内存、最小堆内存、gc(垃圾回收,garbage collection)处理机制等数据。
69.测试日志信息是指一次测试过程中涉及的相关链路的具体处理信息。
70.步骤2、模型特征指标体系数据构建,主要依据数据来源维度的不同,细化为三个部分:应用系统环境指标体系数据、虚拟机基础参数指标体系数据、测试日志信息指标体系数据,具体指标体系数据如表1所示:
71.表1
[0072][0073][0074]
(1)应用系统环境指标体系:应用系统环境主要指系统搭建时的相关物理信息,包括但不限于应用名称、操作系统类型、测试系统环境、测试集群节点、版本号、发版时间、cpu个数、内存等;
[0075]
(2)jvm基础参数指标体系:jvm基础参数主要指系统服务在初始化过程中产生的java虚拟机配置信息,包括但不限于初始堆内存、最大堆内存、最小堆内存、初始新生代内存、最大新生代内存、eden区/survivor区比值、老年代/新生代比值、老年代内存、永久代内
存、gc处理机制、吞吐量throughpu、暂停pause等。
[0076]
(3)测试日志信息指标体系:测试日志信息以一次测试过程为单位,记录所有服务信息的响应情况,为获取日志关键信息,需要利用自然语言处理技术对日志文本进行关键词识别,定位关键词的位置与内容,对目标数据信息进行提取。内容包括但不限于统计时间、进程id、cpu使用率、内存状态、gc类型、堆信息(幸存区大小、伊甸区大小、老年代大小)、gc开始时间、gc结束时间、垃圾回收次数、垃圾回收消耗时间、gc总时间等。
[0077]
步骤3、特征工程主要针对从多个维度收集而来的原始数据进行处理与选择,但初始数据集中存在结构化与非结构化多种类数据类型,同时因数据来源较多,存在无法一一对应的问题,因此需要对不同类型数据分别进行不同方式处理,最终汇总为模型训练所需的初始训练集。
[0078]
对所述初始多维度数据的数据字段进行数据清洗,剔除除模型特征指标体系数据之外的数据字段,实现对数据初步降维,得到模型特征指标体系数据。
[0079]
可以从测试日志信息中提取关键信息,得到测试日志信息指标体系数据,说明如下:
[0080]
a.对获取的日志文件按照每次测试过程中产生的唯一测试id进行划分,共包含n条测试信息,即b0={b1,b2,b3,

,bn};
[0081]
b.对于b0进行文本拆分、解析、数据提取,对每一条测试日志记录涉及的应用名称、测试系统环境、测试时间、gc类型、gc时间等内容进行识别,获取目标特征值。遍历日志文件文本中所有日志实例,获取日志相关特征向量bsn={测试id,应用名称list,测试系统环境list,gc类型list

};
[0082]
c.重复n次步骤a和b,直至遍历完成,形成日志信息特征矩阵,t={bs1,bs2,

,bsn}。
[0083]
对所述模型特征指标体系数据的数据字段内容进行数据清洗,得到在测试期间内的测试异常数据;数据清洗具体规则如下:
[0084]
if(gc类型=null)—》该测试记录正常,为非待分析对象。
[0085]
if(gc类型!=null)—》该测试记录异常,为待分析对象。
[0086]
定义取数时间间隔=最后一条测试id发生时间-第一条测试id发生时间。
[0087]
if(取数时间间隔》=

设定阈值’)—》该测试记录异常,为非待分析对象。
[0088]
if(取数时间间隔《

设定阈值’)—》该测试记录正常,为待分析对象。
[0089]
对所述测试异常数据依次进行离散化、归一化和向量化处理,并进行判别标记,得到所述多维度样本数据。对离散化说明如下:
[0090]
即将数据按照设定阈值进行划分,并采用布尔型进行表示,如初始堆内存、最大堆内存、最小堆内存等:
[0091]
if(字段值《

设定阈值’)—》字段赋值为1,否则赋值为0。
[0092]
对归一化说明如下:
[0093]
即将数据值映射至[0,1]中,消除量纲对后续模型构建的影响,如cpu个数、内存、垃圾回收次数、垃圾回收消耗时间、gc总时间等,规则如下:
[0094]
w*=(w-wmin)/(wmax-wmin)。
[0095]
将步骤2构建的模型特征指标体系数据以及步骤3中的衍生特征作为一个整体,对
每条记录进行向量化,进而对所有记录进行归一化处理,即对指标维度中各个字段组成的实数值矩阵进行向量化,得到实数特征矩阵t。
[0096]
步骤4,依据jvm垃圾回收机制相关概念标准,对当前系统普遍会产生的gc类型进行定义与标注,因gc类型非单一,因此对初步筛选的负向分析对象,进一步按照gc类型进行细化判别处理,gc影响性能程度越大,赋值越高,具体规范化方法如表2所示:
[0097]
表2
[0098]
gc类型规范化新生代gc(minor gc)1老年代gc(major gc)2全局gc(full gc)3
[0099]
进一步对不同gc类型下的衍生特征进行判别,结合不同类型gc的日常发生频率设定不同基础阈值,对可能存在性能问题的测试id标记为1,否则标记为0,以full gc为例,具体规则如下:
[0100]
规则1:if(full gc类型发生频率》=

基础阈值1’)—》是:赋值为1,否:赋值为0;
[0101]
规则2:if(full gc次数的升高速度》=

基础阈值2’)—》是:赋值为1,否:赋值为0;
[0102]
规则3:if(full gc耗时的升高速度》=

基础阈值3’)—》是:赋值为1,否:赋值为0;
[0103]
规则4:if(生命周期内老年代堆内存升高速度》=

基础阈值4’)—》是:赋值为1,否:赋值为0;
[0104]
结合所有gc类型情况,每种gc类型均会对应四条判定规则,最终对目标测试id,构建判别值矩阵,即g={规则1,规则2,规则3,
……
}。
[0105]
输出测试异常情况判定,当测试id不满足任意一条规则时,即判定为无异常情况;当测试id满足一条或多条判定规则时,即判定为测试异常,满足判定规则越多,异常情况越严重,具体判定规则如表3所示:
[0106]
表3
[0107]
测试id判别值矩阵判定结果test1g1={0,0,0,

}0test2g2={1,0,0,

}1test 3g3={1,1,0,

}2test4g3={1,0,1,

}2test5g3={1,1,1,

}3
………………
[0108]
获取所述衍生特征样本数据,包括:
[0109]
获取老年代堆内存数据变化量、垃圾回收次数变化量和垃圾回收耗时变化量;
[0110]
分别计算所述老年代堆内存数据变化量、所述垃圾回收次数变化量和所述垃圾回收耗时变化量与预设监控周期的比值;预设监控周期可以根据实际情况自主设置,分别根据如下公式计算各比值结果:
[0111]
生命周期内堆内存升高速度=老年代堆内存数据变化量/预设监控周期;
[0112]
垃圾回收次数升高速度=垃圾回收次数变化量/预设监控周期;
[0113]
垃圾回收耗时升高速度=垃圾回收耗时变化量/预设监控周期;
[0114]
对各比值结果依次进行离散化、归一化和向量化处理,并进行判别标记,得到所述衍生特征样本数据。可参照上述说明,不再赘述。
[0115]
步骤5、所述决策树算法模型为分布式梯度提升框架;即lightgbm(light gradient boosting machine)。
[0116]
将上述步骤2中的模型特征指标体系数据与步骤4中如表2所示的判别规则进行整合,得到待训练模型的初始特征矩阵。
[0117]
将上述步骤3中的实数特征矩阵t与步骤4中的判别值矩阵g进行整合,作为待训练模型的输入。
[0118]
相应的,根据多维度样本数据和衍生特征样本数据训练决策树算法模型,包括:
[0119]
初始化设置分布式梯度提升框架的训练参数;定义基础xgboost模型,并对通用类型参数、booster参数、以及学习任务参数进行初始化设置。
[0120]
调整所述训练参数,并对所述分布式梯度提升框架进行重复训练,直到得到避免过拟合的树深度、叶子节点样本权重和学习权重。通过参数调整,对模型进行重复训练,直到确定避免过拟合的树深度、叶子节点样本权重、学习权重等参数的最优设置,对模型进行调优。
[0121]
训练全过程可以采用如下方式实现:
[0122]
a.定义基础xgboost模型,并对通用类型参数、booster参数、以及学习任务参数进行初始化设置;
[0123]
b.依据histogram(直方图)算法,找寻最优分裂点,候选分裂点为常数个。
[0124]
c.将每次样本采用方法由随机采样,转变为对梯度绝对值较小的样本按照一定比例进行采样,而保留了梯度绝对值较大的样本的单边采样方法。
[0125]
d.对于不能同时取相同值的特征进行绑定,对数据特征进行降维;
[0126]
e.通过参数调整,对模型进行重复训练,直到确定避免过拟合的树深度、叶子节点样本权重、学习权重等参数的最优设置,对模型进行调优;
[0127]
f.分别采用非交叉验证与交叉验证两种方式检验模型的泛化能力,最终得到最优训练模型lightgbm。
[0128]
步骤6、最终监控分析与异常情况反馈预警主要分为以下几步:
[0129]
第一,辅助分析。依据步骤5中构建的模型,认为单个特征的特征权重值越大,其影响性越大,因此对影响异常情况程度的特征权重(每个特征的特征权重值为模型训练输出结果内容之一)进行排序,权重由大到小记为top={(h1:权重(h1)),h2:权重(h2)),

,hn:权重(hn))},选取权重值最大的前top5作为辅助后续人工分析的关键指标集合rec={h1,h2,h3,h4,h5}。
[0130]
第二,监控与异常预警。根据目标测试内容获取系统内最新的测试数据与相关jvm数据,利用异常情况预警训练模型进行判断,新测试数据有没有oom(内存溢出)的风险或异常情况,并输出判定结果,同时反馈关键指标集合rec的相关权重指标值,辅助技术人员及时开展应急措施,如针对调整内存大小、应用系统设置参数等内容,及时规避性能风险与系统异常情况的发生。
[0131]
步骤7、持续优化。依据模型反馈结果,将新的训练数据信息进一步添加至训练数据集,以达到迭代优化训练模型的效果。
[0132]
如图3所示,本发明实施例方法可以基于模块化来实现,具体包括:
[0133]
数据获取模块:用于获取多维度数据和反映系统性能风险的衍生特征。
[0134]
数据特征体系构建模块:用于构建模型特征指标体系数据。
[0135]
特征工程处理模块:用于通过特征工程处理,得到多维度样本数据和衍生特征样本数据。
[0136]
jvm监控与异常预警模型训练模块:用于训练决策树算法模型得到预设监控模型
[0137]
结果反馈与模型优化模块:用于根据模型应用输出结果,优化模型训练集中的数据。
[0138]
本发明实施例提供的数据监控处理方法,获取多维度数据和反映系统性能风险的衍生特征;所述多维度数据包括应用系统基本环境信息、虚拟机配置信息和测试日志信息;所述衍生特征为生命周期内堆内存升高速度、垃圾回收次数升高速度和垃圾回收耗时升高速度;基于预设监控模型对所述多维度数据和所述衍生特征进行监控,得到监控结果;其中,所述预设监控模型根据多维度样本数据和衍生特征样本数据训练决策树算法模型得到,能够全面和准确地监控数据,进而及时进行系统风险防控。
[0139]
进一步地,获取所述多维度样本数据,包括:
[0140]
获取初始多维度数据,对所述初始多维度数据的数据字段进行数据清洗,得到模型特征指标体系数据;所述模型特征指标体系数据包括应用系统环境指标体系数据、虚拟机基础参数指标体系数据和测试日志信息指标体系数据;可参照上述说明,不再赘述。
[0141]
对所述模型特征指标体系数据的数据字段内容进行数据清洗,得到在测试期间内的测试异常数据;可参照上述说明,不再赘述。
[0142]
对所述测试异常数据依次进行离散化、归一化和向量化处理,并进行判别标记,得到所述多维度样本数据。可参照上述说明,不再赘述。
[0143]
本发明实施例提供的数据监控处理方法,通过数据处理实现数据降维,能够提高模型训练效率。
[0144]
进一步地,获取所述衍生特征样本数据,包括:
[0145]
获取老年代堆内存数据变化量、垃圾回收次数变化量和垃圾回收耗时变化量;可参照上述说明,不再赘述。
[0146]
分别计算所述老年代堆内存数据变化量、所述垃圾回收次数变化量和所述垃圾回收耗时变化量与预设监控周期的比值;可参照上述说明,不再赘述。
[0147]
对各比值结果依次进行离散化、归一化和向量化处理,并进行判别标记,得到所述衍生特征样本数据。可参照上述说明,不再赘述。
[0148]
本发明实施例提供的数据监控处理方法,通过数据处理实现数据降维,能够提高模型训练效率。
[0149]
进一步地,所述决策树算法模型为分布式梯度提升框架;相应的,根据多维度样本数据和衍生特征样本数据训练决策树算法模型,包括:
[0150]
初始化设置分布式梯度提升框架的训练参数;可参照上述说明,不再赘述。
[0151]
调整所述训练参数,并对所述分布式梯度提升框架进行重复训练,直到得到避免
过拟合的树深度、叶子节点样本权重和学习权重。可参照上述说明,不再赘述。
[0152]
本发明实施例提供的数据监控处理方法,能够避免模型过拟合。
[0153]
进一步地,所述数据监控处理方法还包括:
[0154]
在对所述分布式梯度提升框架进行重复训练完成之后,采用非交叉验证与交叉验证两种方式检验所述分布式梯度提升框架的泛化能力,得到所述预设监控模型。可参照上述说明,不再赘述。
[0155]
本发明实施例提供的数据监控处理方法,能够提高模型泛化能力。
[0156]
进一步地,所述数据监控处理方法还包括:
[0157]
若确定所述监控结果为异常监控结果,则获取所述预设监控模型的各特征权重值;可参照上述说明,不再赘述。
[0158]
对各特征权重值按照由大到小的顺序依次排列,提取排序在前的k个特征权重值。可参照上述说明,不再赘述。
[0159]
本发明实施例提供的数据监控处理方法,方便用户分析模型特征对异常监控结果的影响力。
[0160]
进一步地,所述数据监控处理方法还包括:
[0161]
根据所述监控结果更新训练数据集中的训练数据,所述训练数据包括所述多维度样本数据和所述衍生特征样本数据。可参照上述说明,不再赘述。
[0162]
本发明实施例提供的数据监控处理方法,通过更新训练数据集,能够提高模型监控的准确性。
[0163]
需要说明的是,本发明实施例提供的数据监控处理方法可用于金融领域,也可用于除金融领域之外的任意技术领域,本发明实施例对数据监控处理方法的应用领域不做限定。
[0164]
图4是本发明一实施例提供的数据监控处理装置的结构示意图,如图4所示,本发明实施例提供的数据监控处理装置,包括获取单元401和监控单元402,其中:
[0165]
获取单元401用于获取多维度数据和反映系统性能风险的衍生特征;所述多维度数据包括应用系统基本环境信息、虚拟机配置信息和测试日志信息;所述衍生特征为生命周期内堆内存升高速度、垃圾回收次数升高速度和垃圾回收耗时升高速度;监控单元402用于基于预设监控模型对所述多维度数据和所述衍生特征进行监控,得到监控结果;其中,所述预设监控模型根据多维度样本数据和衍生特征样本数据训练决策树算法模型得到。
[0166]
具体的,装置中的获取单元401用于获取多维度数据和反映系统性能风险的衍生特征;所述多维度数据包括应用系统基本环境信息、虚拟机配置信息和测试日志信息;所述衍生特征为生命周期内堆内存升高速度、垃圾回收次数升高速度和垃圾回收耗时升高速度;监控单元402用于基于预设监控模型对所述多维度数据和所述衍生特征进行监控,得到监控结果;其中,所述预设监控模型根据多维度样本数据和衍生特征样本数据训练决策树算法模型得到。
[0167]
本发明实施例提供的数据监控处理装置,获取多维度数据和反映系统性能风险的衍生特征;所述多维度数据包括应用系统基本环境信息、虚拟机配置信息和测试日志信息;所述衍生特征为生命周期内堆内存升高速度、垃圾回收次数升高速度和垃圾回收耗时升高速度;基于预设监控模型对所述多维度数据和所述衍生特征进行监控,得到监控结果;其
中,所述预设监控模型根据多维度样本数据和衍生特征样本数据训练决策树算法模型得到,能够全面和准确地监控数据,进而及时进行系统风险防控。
[0168]
进一步地,所述数据监控处理装置还用于:
[0169]
获取初始多维度数据,对所述初始多维度数据的数据字段进行数据清洗,得到模型特征指标体系数据;所述模型特征指标体系数据包括应用系统环境指标体系数据、虚拟机基础参数指标体系数据和测试日志信息指标体系数据;
[0170]
对所述模型特征指标体系数据的数据字段内容进行数据清洗,得到在测试期间内的测试异常数据;
[0171]
对所述测试异常数据依次进行离散化、归一化和向量化处理,并进行判别标记,得到所述多维度样本数据。
[0172]
本发明实施例提供的数据监控处理装置,通过数据处理实现数据降维,能够提高模型训练效率。
[0173]
进一步地,所述数据监控处理装置还用于:
[0174]
获取老年代堆内存数据变化量、垃圾回收次数变化量和垃圾回收耗时变化量;
[0175]
分别计算所述老年代堆内存数据变化量、所述垃圾回收次数变化量和所述垃圾回收耗时变化量与预设监控周期的比值;
[0176]
对各比值结果依次进行离散化、归一化和向量化处理,并进行判别标记,得到所述衍生特征样本数据。
[0177]
本发明实施例提供的数据监控处理装置,通过数据处理实现数据降维,能够提高模型训练效率。
[0178]
进一步地,所述决策树算法模型为分布式梯度提升框架;相应的,所述数据监控处理装置还用于:
[0179]
初始化设置分布式梯度提升框架的训练参数;
[0180]
调整所述训练参数,并对所述分布式梯度提升框架进行重复训练,直到得到避免过拟合的树深度、叶子节点样本权重和学习权重。
[0181]
本发明实施例提供的数据监控处理装置,能够避免模型过拟合。
[0182]
进一步地,所述数据监控处理装置还用于:
[0183]
在对所述分布式梯度提升框架进行重复训练完成之后,采用非交叉验证与交叉验证两种方式检验所述分布式梯度提升框架的泛化能力,得到所述预设监控模型。
[0184]
本发明实施例提供的数据监控处理装置,能够提高模型泛化能力。
[0185]
进一步地,所述数据监控处理装置还用于:
[0186]
若确定所述监控结果为异常监控结果,则获取所述预设监控模型的各特征权重值;
[0187]
对各特征权重值按照由大到小的顺序依次排列,提取排序在前的k个特征权重值。
[0188]
本发明实施例提供的数据监控处理装置,方便用户分析模型特征对异常监控结果的影响力。
[0189]
进一步地,所述数据监控处理装置还用于:
[0190]
根据所述监控结果更新训练数据集中的训练数据,所述训练数据包括所述多维度样本数据和所述衍生特征样本数据。
[0191]
本发明实施例提供的数据监控处理装置,通过更新训练数据集,能够提高模型监控的准确性。
[0192]
本发明实施例提供数据监控处理装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
[0193]
图5为本发明实施例提供的电子设备实体结构示意图,如图5所示,所述电子设备包括:处理器(processor)501、存储器(memory)502和总线503;
[0194]
其中,所述处理器501、存储器502通过总线503完成相互间的通信;
[0195]
所述处理器501用于调用所述存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:
[0196]
获取多维度数据和反映系统性能风险的衍生特征;所述多维度数据包括应用系统基本环境信息、虚拟机配置信息和测试日志信息;所述衍生特征为生命周期内堆内存升高速度、垃圾回收次数升高速度和垃圾回收耗时升高速度;
[0197]
基于预设监控模型对所述多维度数据和所述衍生特征进行监控,得到监控结果;
[0198]
其中,所述预设监控模型根据多维度样本数据和衍生特征样本数据训练决策树算法模型得到。
[0199]
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
[0200]
获取多维度数据和反映系统性能风险的衍生特征;所述多维度数据包括应用系统基本环境信息、虚拟机配置信息和测试日志信息;所述衍生特征为生命周期内堆内存升高速度、垃圾回收次数升高速度和垃圾回收耗时升高速度;
[0201]
基于预设监控模型对所述多维度数据和所述衍生特征进行监控,得到监控结果;
[0202]
其中,所述预设监控模型根据多维度样本数据和衍生特征样本数据训练决策树算法模型得到。
[0203]
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:
[0204]
获取多维度数据和反映系统性能风险的衍生特征;所述多维度数据包括应用系统基本环境信息、虚拟机配置信息和测试日志信息;所述衍生特征为生命周期内堆内存升高速度、垃圾回收次数升高速度和垃圾回收耗时升高速度;
[0205]
基于预设监控模型对所述多维度数据和所述衍生特征进行监控,得到监控结果;
[0206]
其中,所述预设监控模型根据多维度样本数据和衍生特征样本数据训练决策树算法模型得到。
[0207]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0208]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0209]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0210]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0211]
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0212]
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1