数据监测方法、装置、计算设备及存储介质与流程

文档序号:16668121发布日期:2019-01-18 23:24阅读:152来源:国知局
数据监测方法、装置、计算设备及存储介质与流程

本说明书涉及数据监测技术领域,特别涉及一种数据监测方法、装置、计算设备及存储介质。



背景技术:

随着大数据的发展,各公司对数据的认识越来越深刻,我们每天都会产生大量的数据用于分析和决策中,在这一过程中,人力始终是有限的。因此对于筛选数据的系统的需求就会出现。目前对于数据筛选方面常用的做法是,对数据配置一些关键值作为阈值,如果所述状态转移概率低于阈值的情况下,发送提醒通知。



技术实现要素:

有鉴于此,本说明书实施例提供了一种数据监测方法、装置、计算设备及存储介质,以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面,提供了一种数据监测方法,包括:

获取目标对象的与第一设定日期相关的第一用户活跃度数据以及与第二设定日期相关的第二用户活跃度数据;

根据所述第一用户活跃度数据得到第一用户活跃度曲线以及所述第一用户活跃度曲线的第一变化属性特征,根据所述第二用户活跃度数据得到第二用户活跃度曲线以及所述第二用户活跃度曲线的第二变化属性特征;

基于所述第一变化属性特征利用用户活跃度曲线分类模型得到所述第一用户活跃度曲线的第一曲线类别,基于所述第二变化属性特征利用所述用户活跃度曲线分类模型得到所述第二用户活跃度曲线的第二曲线类别;

根据状态转移模型计算所述第一曲线类别与所述第二曲线类别之间状态转移概率;

根据所述第一曲线类别和所述第二曲线类别之间的状态转移概率,将所述状态转移概率与所述第一曲线类别和所述第二曲线类别之间的预先设定的阈值进行比较,在所述状态转移概率低于阈值的情况下,发送提醒通知。

可选的,所述获取目标对象的与第一设定日期相关的第一用户活跃度数据包括:

从日志文件中提取目标对象在第一设定日期的预设时间区间内的用户活跃度数据。

可选的,所述获取目标对象的与第二设定日期相关的第二用户活跃度数据包括:

从日志文件中提取目标对象在第二设定日期的预设时间区间内的用户活跃度数据。

可选的,所述第一曲线类别、所述第二曲线类别分别包括:稳步上升型,突增型,平缓型,反转型,周期型,急速上升型,和急速下降型。

可选的,所述第一变化属性特征、所述第二变化属性特征分别包括:当前值在预设时间区间内的样本值中的排名,当前值比前一日数值的增长量,当前值比除当前值外最大的三个数值的平均值的增长量,当前值比除当前值以外最小的三个数值的平均值的增长量,当前值比平均值的增长量,用户活跃度数据形成的曲线中波峰的数目,用户活跃度数据形成的曲线中波谷的数目。

可选的,所述用户活跃曲线分类模型通过如下步骤训练得到:

获取用户活跃曲线分类模型的训练样本数据集,其中,所述训练样本数据集中包括多个预设时间区间内的用户活跃度数据以及每个预设时间区间对应的用户活跃度曲线;

为每个预设时间区间内的用户活跃度数据构建变化属性特征;

通过所述用户活跃度曲线和所述变化属性特征对预设模型进行训练,得到所述分类模型,所述分类模型使得所述用户活跃曲线与所述变化属性特征相关联。

可选的,所述预设模型为采用r语言的xgboost模型。

可选的,所述状态转移模型为马尔可夫模型。

可选的,所述状态转移概率与所述第一曲线类别和所述第二曲线类别之间的预先设定的阈值进行比较,其中每两条曲线类别之间的阈值都是不同的。

根据本说明书实施例的第二方面,提供了一种数据监测装置,包括:

获取模块,被配置为获取目标对象的与第一设定日期相关的第一用户活跃度数据以及与第二设定日期相关的第二用户活跃度数据;

处理模块,被配置为根据所述第一用户活跃度数据得到第一用户活跃度曲线以及所述第一用户活跃度曲线的第一变化属性特征,根据所述第二用户活跃

度数据得到第二用户活跃度曲线以及所述第二用户活跃度曲线的第二变化属性特征;

分类模块,被配置为基于所述第一变化属性特征利用用户活跃度曲线分类模型得到所述第一用户活跃度曲线的第一曲线类别,基于所述第二变化属性特征利用所述用户活跃度曲线分类模型得到所述第二用户活跃度曲线的第二曲线类别;

计算模块,被配置为根据状态转移模型计算所述第一曲线类别与所述第二曲线类别之间状态转移概率。

通知模块,被配置为根据所述第一曲线类别和所述第二曲线类别之间的状态转移概率,将所述状态转移概率与所述第一曲线类别和所述第二曲线类别之间的预先设定的阈值进行比较,在所述状态转移概率低于阈值的情况下,发送提醒通知。

根据本说明书实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现上述方法的步骤。

根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,储有计算机指令,该指令被处理器执行时实现上述的方法的步骤。

本申请提供了一种数据监测方法,获取目标对象与第一设定日期相关的第一用户活跃度数据和第二设定日期相关的第二用户活跃的数据,根据第一用户活跃度数据和第二用户活跃度数据分别得到第一用户活跃度曲线、第二用户活跃度曲线、第一用户活跃度曲线对应的第一变化属性特征和第二用户活跃度曲线对应的第二变化属性特征,根据所述第一变化属性特征利用分类模型得到第一曲线类别,所述第二变化属性特征利用分类模型得到第二曲线类别,通过状态转移模型计算得到第一曲线类别和第二曲线类别之间类别转移概率,对计算得到的较小的概率进行监测,本申请利用机器学习算法,通过对不同的曲线间的类别转移概率设定不同的阈值,实现了对各类数据发展趋势的监测。

附图说明

图1为本说明书一实施例提供的一种数据监测系统的结构示意图;

图2为本说明书一实施例中的一种数据监测方法的流程图;

图3为本说明书一实施例中的一种用户活跃度曲线图;

图4为本说明书一实施例中的一种用户活跃度曲线图;

图5为本说明书一实施例中的一种数据监测装置模块图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。

下面通过具体实施例,对本发明进行详细说明。

参考图1,图1为本说明书一实施例提供的一种数据监测系统的结构示意图,在介绍本申请的技术方案之前,首先对本申请所涉及的数据监测系统的架构进行说明。

图1是示出了本说明书一实施例的数据监测系统的结构示意图。包括服务端110,网络130和终端120。

所述服务端110和所述终端120的部件包括但不限于存储器和处理器。处理器与存储器通过总线相连接,数据库用于保存数据。

服务端110和所述终端120还包括接入设备,接入设备使得服务端110和所述终端120能够经由一个或多个网络130通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。

接入设备可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。

图2示出了本说明书一实施例中的一种数据监测方法的流程图,应用于服务端,如图2所示,包括步骤202至步骤208。

步骤202:获取目标对象的与第一设定日期相关的第一用户活跃度数据以及与第二设定日期相关的第二用户活跃度数据。

本说明书一种实施例中,所述目标对象可以通过目标对象的日志进行获取,所述获取目标对象的与第一设定日期相关的第一用户活跃度数据包括:

从日志文件中提取目标对象在第一设定日期的预设时间区间内的用户活跃度数据。

对于网络设备、系统及服务程序等,在运作时都会产生一个叫log的事件记录,该事件记录即为评估对象的日志文件。评估对象的日志文件中的每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。

本申请实施例中,目标对象可以为应用程序或者网页页面,目标对象的用户活跃度数据可以是浏览量、下载观看量或者点赞评论量。

在本申请中,目标对象可以为多种,例如淘宝店铺的浏览量、微信公众号文章的浏览量、百度文库中文件的下载观看量、微博小视频的浏览量以及点赞量等等;本申请将多个样本作为一个预设时间区间,根据设定好的第一设定日期匹配与第一设定日期相匹配的预设时间区间,确定好预设时间区间后,对目标对象的用户活跃度进行提取。

所述第一设定日期的预设时间区间为所要进行监测的日期包含于的预先设定好的时间范围内的预设时间区间,例如设定时间区间为31天,设定日期的前30天就是当前设定日期的时间区间。

本说明书一种实施例中,所述获取目标对象的与第二设定日期相关的第二用户活跃度数据包括:

从日志文件中提取目标对象在第二设定日期的预设时间区间内的用户活跃度数据。

所述第一设定日期的预设时间区间为所要进行监测的日期包含于的预先设定好的时间范围内的预设时间区间。

步骤204:根据所述第一用户活跃度数据得到第一用户活跃度曲线以及所述第一用户活跃度曲线的第一变化属性特征,根据所述第二用户活跃度数据得到第二用户活跃度曲线以及所述第二用户活跃度曲线的第二变化属性特征。

本说明书一种实施例中,所述第一曲线类别、所述第二曲线类别分别包括:稳步上升型,突增型,平缓型,反转型,周期型,急速上升型,和急速下降型;本申请利用xgboost对用户活跃度数据进行分类,将用户活跃度数据分为以上7种类别,上述的7种类别可以涵盖数据的大部分形态。

xgboost为数据的一种通过某些指标进行分类和回归的算法,xgboost通过决策树对数据进行条件上的限定,依靠限定的指标进行树的分裂达到分类或者回归的目的,分类得到的结果是离散的,回归得到的数值是连续的,回归和分类本质都是特征到结果或者标签之间的映射,回归树的样本输出是数值的形式,分类树的样本输出是类的形式。xgboost的优点是速度快、效果好、能够处理大规模的数据、支持多种语言和支持自定义损失函数等等。xgboost最优秀的地方就是支持并行化数据处理,直接的效果就是处理数据速度快。

本说明书一种实施例中,所述第一变化属性特征、所述第二变化属性特征分别包括:当前值在预设时间区间内的样本值中的排名,当前值比前一日数值的增长量,当前值比除当前值外最大的三个数值的平均值的增长量,当前值比除当前值以外最小的三个数值的平均值的增长量,当前值比平均值的增长量,用户活跃度数据形成的曲线中波峰的数目,用户活跃度数据形成的曲线中波谷的数目;本申请中通过数据预处理部分,将用户活跃度数据转换成可识别的特征值,所述第一曲线类别、所述第二曲线类别均包括上述所述第一变化属性特征、第二属性特征中的7个变化属性特征。

步骤206:基于所述第一变化属性特征利用用户活跃度曲线分类模型得到所述第一用户活跃度曲线的第一曲线类别,基于所述第二变化属性特征利用所述用户活跃度曲线分类模型得到所述第二用户活跃度曲线的第二曲线类别。

本说明书一种实施例中,所述用户活跃曲线分类模型通过如下步骤训练得到:

获取用户活跃曲线分类模型的训练样本数据集,其中,所述训练样本数据集中包括多个预设时间区间内的用户活跃度数据以及每个预设时间区间对应的用户活跃度曲线;

为每个预设时间区间内的用户活跃度数据构建变化属性特征;

通过所述用户活跃度曲线和所述变化属性特征对预设模型进行训练,得到所述分类模型,所述分类模型使得所述用户活跃曲线与所述变化属性特征相关联。

本说明书一种实施例中,所述预设模型为采用r语言的xgboost模型。

在本申请中,采用所述r语言的xgboost模型代入包含多个预设时间区间内的用户活跃度数据和每个预设时间区间所对应的用户活跃度曲线的训练样本数据集,根据多个预设时间区间内的活跃用户度数据,将每个预设时间区间内的用户活跃度数据构建出变化属性特征,通过所述变化属性特征和所述用户活跃度曲线对xgboost模型进行训练,得到训练结束的数据分类模型。

步骤208:根据状态转移模型计算所述第一曲线类别与所述第二曲线类别之间状态转移概率。

本说明书一种实施例中,所述状态转移模型为马尔可夫模型。

在本申请中,所述第一曲线类别和所述第二曲线类别分别有7中不同的曲线,每种曲线类别之间状态转移概率不同,可以得到7*7个类别之间状态转移的概率,可以对较小的用户活跃度曲线类别之间状态转移概率进行监测。

步骤210:根据所述第一曲线类别和所述第二曲线类别之间的状态转移概率,将所述状态转移概率与所述第一曲线类别和所述第二曲线类别之间的预先设定的阈值进行比较,在所述状态转移概率低于阈值的情况下,发送提醒通知。

本说明书一种实施例中,所述状态转移概率与所述第一曲线类别和所述第二曲线类别之间的预先设定的阈值进行比较,其中每两条曲线类别之间的阈值都是不同的。

本申请提供了一种数据监测方法,获取目标对象与第一设定日期相关的第一用户活跃度数据和第二设定日期相关的第二用户活跃的数据,根据第一用户活跃度数据和第二用户活跃度数据分别得到第一用户活跃度曲线、第二用户活跃度曲线、第一用户活跃度曲线对应的第一变化属性特征和第二用户活跃度曲线对应的第二变化属性特征,根据所述第一变化属性特征利用分类模型得到第一曲线类别,所述第二变化属性特征利用分类模型得到第二曲线类别,通过状态转移模型计算得到第一曲线类别和第二曲线类别之间类别转移概率,对计算得到的较小的概率进行监测,本申请利用机器学习算法,通过对不同的曲线间的类别转移概率设定不同的阈值,实现了对各类数据发展趋势的监测。

图3示出了本申请一个实施例中的用户活跃度曲线图,如图3所示,该曲线图为某产品在5月1日至5月31日的用户活跃度曲线图,该曲线图中横坐标为日期,纵坐标为该产品的新增注册人数,本实施例中将5月31号作为第一设定日期,获取第一设定日期在预设时间区间内的第一用户活跃度数据,其中预设时间区间为31天,根据预设31天的每日用户活跃度数据,得到图3所示的5月1日至5月31日的用户活跃度曲线图。

表1示出了本申请一个实施例中的用户变化属性特征表。

表1

根据表1所示,5月31日的样本值在预设的31天的样本区间中排12名,为前一日样本数值的0.9703倍,为最大三日样本数值平均值的0.5218倍,为最小三日样本数值的2.2967倍,为整体31天样本数值平均值的1.0741倍,在5月1日至5月31日的曲线中有4个波峰,分别用图3中的a、b、c和d表示,曲线中有3个波谷,分别用图3中的e、f和g表示,根据上述的第一用户活跃度曲线的第一变化属性特征利用用户活跃度曲线分类模型得到第一用户活跃度的第一曲线类别,在本实施例中,第一曲线类别为周期型曲线。

图4示出了本申请一个实施例中的用户活跃度曲线图,如图4所示,该曲线图为某产品在5月2日至6月1日的用户活跃度曲线图,该曲线图中横坐标为日期,纵坐标为该产品的新增注册人数,本实施例中将6月1号作为第二设定日期,获取第二设定日期在预设时间区间内的第二用户活跃度数据,其中预设时间区间为31天,根据预设31天的每日用户活跃度数据,得到图4所示的5月2日至6月1日的用户活跃度曲线图。

表2示出了本申请一个实施例中的用户变化属性特征表。

表2

根据表2所示,6月1日的样本值在预设的31天的样本区间中排19名,为前一日样本数值的0.812倍,为最大三日样本数值平均值的0.4237倍,为最小三日样本数值的1.865倍,为整体31天样本数值平均值的0.8696倍,在5月2日至6月1日的曲线中有4个波峰,分别用图4中的h、i、j和k表示,曲线中有3个波谷,分别用图4中的l、m和n表示,根据上述的第二用户活跃度曲线的第二变化属性特征利用用户活跃度曲线分类模型得到第二用户活跃度的第二曲线类别,在本实施例中,第二曲线类别为周期型曲线。

通过对大量的数据进行计算,根据5月31日的曲线类别和6月1日的曲线类别通过马尔可夫模型进行状态转移概率的计算,可以得到周期型曲线转移到周期型曲线的状态转移概率为91%,将91%和预先设定好的阈值进行比较,低于阈值就要进行提醒,5月31日至6月1日的曲线间状态转移概率为91%,属于不低于阈值的事件,故认为5月31日至6月1日的状态转换不需要引起关注。

本申请实施例提供了一种数据监测方法,通过对用户活跃度曲线间的状态转移概率进行计算,将所述第一曲线类别和第二曲线类别的状态转移概率与预先设定好的阈值进行比较,超过预先设定好的阈值视为正常情况,低于预先设定好的阈值视为非正常情况,对所述状态转移概率低于阈值的情况下,发送提醒通知,并对低于阈值的情况进行关注,到达数据监测的目的。

图5示出了本申请实施例中的一种数据监测装置模块图,如图5所示,该数据监测装置500包括获取模块502、处理模块504、分类模块506、计算模块508和通知模块510:

获取模块502:被配置为获取目标对象的与第一设定日期相关的第一用户活跃度数据以及与第二设定日期相关的第二用户活跃度数据;

处理模块504:被配置为根据所述第一用户活跃度数据得到第一用户活跃度曲线以及所述第一用户活跃度曲线的第一变化属性特征,根据所述第二用户活跃度数据得到第二用户活跃度曲线以及所述第二用户活跃度曲线的第二变化属性特征;

分类模块506:被配置为基于所述第一变化属性特征利用用户活跃度曲线分类模型得到所述第一用户活跃度曲线的第一曲线类别,基于所述第二变化属性特征利用所述用户活跃度曲线分类模型得到所述第二用户活跃度曲线的第二曲线类别;

计算模块508:被配置为根据状态转移模型计算所述第一曲线类别与所述第二曲线类别之间状态转移概率。

通知模块510:被配置为根据所述第一曲线类别和所述第二曲线类别之间的状态转移概率,将所述状态转移概率与所述第一曲线类别和所述第二曲线类别之间的预先设定的阈值进行比较,在所述状态转移概率低于阈值的情况下,发送提醒通知。

一个可选的实施例中,所述获取模块进一步被配置为:从日志文件中提取目标对象在第一设定日期的预设时间区间内的用户活跃度数据。

一个可选的实施例中,所述获取模块进一步被配置为:从日志文件中提取目标对象在第二设定日期的预设时间区间内的用户活跃度数据。

一个可选的实施例中,所述第一曲线类别、所述第二曲线类别分别包括:稳步上升型,突增型,平缓型,反转型,周期型,急速上升型,和急速下降型。

一个可选的实施例中,所述第一变化属性特征、所述第二变化属性特征分别包括:当前值在预设时间区间内的样本值中的排名,当前值比前一日数值的增长量,当前值比除当前值外最大的三个数值的平均值的增长量,当前值比除当前值以外最小的三个数值的平均值的增长量,当前值比平均值的增长量,用户活跃度数据形成的曲线中波峰的数目,用户活跃度数据形成的曲线中波谷的数目。

一个可选的实施例中,所述曲线分类模块包括:

获取子模块,被配置为获取用户活跃曲线分类模型的训练样本数据集,其中,所述训练样本数据集中包括多个预设时间区间内的用户活跃度数据以及每个预设时间区间对应的用户活跃度曲线;

构建子模块:被配置为为每个预设时间区间内的用户活跃度数据构建变化属性特征;

训练子模块:被配置为通过所述用户活跃度曲线和所述变化属性特征对预设模型进行训练,得到所述分类模型,所述分类模型使得所述用户活跃曲线与所述变化属性特征相关联。

一个可选的实施例中,所述预设模型可以采用r语言的xgboost模型。

一个可选的实施例中,所述状态转移模型可以为马尔可夫模型。

一个可选的实施例中,所述状态转移概率与所述第一曲线类别和所述第二曲线类别之间的预先设定的阈值进行比较,其中每两条曲线类别之间的阈值都是不同的。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。

对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

本说明书一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的数据监测方法的步骤。

本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述的数据监测方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的自动化测试方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述自动化测试方法的技术方案的描述。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1