一种基于大数据的业务指标监测方法及装置与流程

文档序号:26142119发布日期:2021-08-03 14:26阅读:110来源:国知局
一种基于大数据的业务指标监测方法及装置与流程

本申请涉及电子商务领域,尤其涉及一种基于大数据的业务指标监测方法及装置。



背景技术:

对于电子商务领域而言,互联网广告业务的投放是一种主要的业务。对于该类业务而言,为了保证其能够正常运行及及时更新,满足用户的个性化需求,需要对其流量、点击率、收益情况进行监控,并针对突发情况和异常情况(网站客户流失、投诉、异常监管等)。

目前,针对人工配置的各项业务指标通常采样简单环比的方式进行排查,即对于同一个指标,监控其同比和环比增减的幅度,若超过一定阈值,则认为异常。但是,对于简单环比的监控方式而言,容易出现漏报和错报等情况,其准确率较低。



技术实现要素:

本发明实施例提供一种基于大数据的业务指标监测方法,用于解决现有技术中简单环比导致业务监控的准确率较低的问题。

本发明实施例提供一种基于大数据的业务指标监测方法,包括:

在广告业务投放后,实时获取业务指标的待监控数据;

将所述待监控数据进行拆解,获取用户的待分析数据及用户常量特征;

将所述用户的待分析数据输入至多粒度时间序列监测模型,获取所述用户在不同时期的异常数据情况;

将所述不同时期的异常数据情况进行数据合并及归一化,输出最终异常情况;

基于所述最终异常数据情况,结合所述用户常量特征,对所述广告业务进行调整。

可选地,多粒度时间序列监测模型包括短期环比模型及长期环比模型,则将所述用户的待分析数据输入至多粒度时间序列监测模型,获取所述用户在不同时期的异常数据情况,包括:

分别采用短期环比模型及长期环比模型对所述用户的待分析数据进行处理,其中,采用短期环比模型对所述用户的待分析数据进行处理,包括:

设置计数器,将当前的待分析数据与历史n个待分析数据分别进行比较,若所述当前的待分析数据与第i个待分析数据的差值大于第一阈值,则计数器加1操作,若所述计数器的最终数值大于第二阈值,则确定所述当前的待分析数据为异常数据,其中i为大于等于1且小于等于n的正整数;

采用长期环比模型对所述用户的待分析数据进行处理,包括:

将不同周期的待分析数据设置在一个集合m中,并获取第t周期的指数移动平均值emat及集合m中的整体平均值mean,若emat与mean的差值大于3σ,则认定第t周期的待分析数据为异常数据,其中,σ为sigma标准差。

可选地,多粒度时间序列监测模型还包括阿特曼z得分公式z-score模型,则将所述用户的待分析数据输入至多粒度时间序列监测模型,获取所述用户在不同时期的异常数据情况,包括:

将不同周期的待分析数据设置在一个集合m中;

计算所述集合m中所有待分析数据的平均值;

计算所述所有待分析数据的标准差;

将所述集合m中待分析数据按照升序或降序排序,并获取排序后的中位数;

将所述中位数与所述平均值的差值与所述标准差相比,若大于第三预设阈值,则确定所述集合m中存在异常数据。

可选地,多粒度时间序列监测模型还包括同比振幅模型,则将所述用户的待分析数据输入至多粒度时间序列监测模型,获取所述用户在不同时期的异常数据情况,包括:

根据如下条件确定第t周期的待分析数据为异常数据:

(at+1-at)/at>threshold4

其中(at+1-at)/at表示振幅,a为待分析数据,at为第t周期的待分析数据,threshold4表示第四阈值。

可选地,所述将所述不同时期的异常数据情况进行数据合并及归一化,包括:

设置多个自适应权重值,将不同时期的异常数据进行分别乘以对应的自适应权重进行加权,获取最终的异常数据。

可选地,所述将所述不同时期的异常数据情况进行数据合并及归一化,包括:

输出的异常检测结果进行归一化处理,以用户id为主键进行合并,输出特征宽表。

可选地,基于所述异常数据情况,结合所述用户常量特征,对所述广告业务进行调整,包括:

基于所述用户的自然属性特征及行为习惯特征,对所述异常数据进行分类,并基于分类结果,自适应调整不同用户的定向广告业务投放。

可选地,所述用户的待分析数据包括点击率、单次点击收益及千次曝光收益。

可选地,在将所述用户的待分析数据输入至多粒度时间序列监测模型之前,所述方法还包括:

按照不同时间采样周期分别对所述用户的待分析数据进行采集,以便将不同采样周期采集的数据分别输入至不同的时间序列监测模型。

本发明实施例还包括一种装置,其特征在于,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现上述方法。

本发明实施例提供的方法及装置,通过多粒度时间序列的监测机制,从不同维度进行指标分析,并最终进行合并及归一化,非常适合在中大型电子商务网站十亿级别的大数据应用场景,其异常数据的监测准确率将大大提高。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为一个实施例中基于大数据的业务指标监测方法流程图;

图2为一个实施例中不同时间周期进行数据采样的示意图;

图3为一个实施例中多粒度时间序列监测模型示意图;

图4为一个实施例中装置的硬件组成示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

图1是本发明实施例的一种基于大数据的业务指标监测方法流程图,如图1所示,本发明实施例提供的方法,具体为:

s101、在广告业务投放后,实时获取业务指标的待监控数据;

在互联网广告业务投放后,大数据监测平台实时获取该广告业务的各类业务指标的待监控数据,待监控数据通常会包括10-20个常用的参数,包括流量、用户信息、收益率、点击率等参数。对不同的参数进行监控,有利于及时发现异常数据,并根据异常数据形成异常日志,方便运维人员排查以及调整不同的广告,精准匹配用户需求。

s102、将所述待监控数据进行拆解,获取用户的待分析数据及用户常量特征;

待监控数据中分为两类,一类为用户常量特征的数据,该类数据几乎不随时间发生变化,因此不作为分析入模的特征数据,该类数据包括用户个人属性、消费行为习惯等特征数据,个人属性包括用户姓名,年龄,性别等,消费行为习惯于历史的商品购买行为相关,在一定时间内通常是一个特定的行为特征,不随时间周期进行较大的调整。另外一类是用户的待分析数据,例如用户对该广告的点击率、单次点击收益及千次曝光收益等。该类数据与特定的广告业务和特定的用户相关,在一段时间内呈现出不同的数值,例如上午和晚上,平时和周末,广告类型、内容及广告播放时长等都会影响最终的点击率、点击收益等。

s103、将所述用户的待分析数据输入至多粒度时间序列监测模型,获取所述用户在不同时期的异常数据情况;

在传统的时间序列模型中,将所有用户的数据放在同一标准或模型中进行判断和预测,导致用户个体之间对广告业务使用习惯和需求的固有差异会对模型预测效果造成影响,因此,针对传统模型特征工程中用户数据时间序列中的信息量丢失问题,本发明实施例创造性地设计了一种基于多维度、多粒度的时间序列异常监测机制(模型)来进行细粒度的业务指标监测。

本发明实施例中,在将所述用户的待分析数据输入至多粒度时间序列监测模型之前,大数据监控平台按照不同时间采样周期分别对所述用户的待分析数据进行采集,以便将不同采样周期采集的数据分别输入至不同的时间序列监测模型。多重时间粒度是为了匹配不同时间序列异常检测方法对输入数据时间粒度和时间窗口跨度的不同需求,例如,如图2所示,c1,c2,c3为某同一数据维度上的3条不同粒度的时间序列,其时间粒度由小到大排列,越靠近观察点的时间段,抽取的时间粒度越小、时间窗口的跨度越小,反之,时间粒度越大,抽取的时间窗口的跨度越大。在后续的过程中,时间粒度较小的时间序列将输入到短期时序异常检测方法,粒度较大的时间序列将输入到长期时序异常检测方法。

在其中的一个实施例中,多粒度时间序列监测模型包括短期环比模型及长期环比模型,其中,短期的定义是24小时以内,长期的定义是2-14天。因此,s103具体可以为:分别采用短期环比模型及长期环比模型对所述用户的待分析数据进行处理,

其中,采用短期环比模型对所述用户的待分析数据进行处理,具体为:设置计数器,初始计为0;

将当前的待分析数据与历史的n个待分析数据分别进行比较,若所述当前的待分析数据与第i个待分析数据的差值大于第一阈值,则计数器加1操作;

若所述计数器的最终数值大于第二阈值,则确定所述当前的待分析数据为异常数据,其中i为大于等于1且小于等于n的正整数。

上述方法可用如下公式表示,取当前的待分析数据值为a,历史的同一类型参数的数据值为ai,其中1<i<n,计时器的计数为count,第一阈值为threshold1,第二阈值为threshold2,若

|a-ai|<threshold1,

则count=count+1,

若count>threshold2,则a为异常数据。其中,threshold1和thredhold2的值可以动态自适应调整,例如可以取[ai]数组的平均值,最大值或最小值等。例如,取最小值可以让筛选条件更宽松一些,让更多的值通过此条件,减少漏报事件。

采用长期环比模型对所述用户的待分析数据进行处理,具体为:

将不同周期的待分析数据设置在一个集合m中,并获取第t周期的指数移动平均值(exponentialmovingaverage,emat)及集合m中的整体平均值mean,若emat与mean的差值大于3σ,则认定第t周期的待分析数据为异常数据,其中,σ为sigma标准差。

上述方法又称之为3-sigma方法,即使用指数移动平均值ema与整个序列相比较,看是否偏离总体水平太多。σ为sigma标准差,表示集合中元素到mean的平均偏移距离,在正态分布中,99.73%的数据都在偏离mean3个σ的范围内,若emat到mean的距离超出此范围,则认为该数据异常。

其中,多粒度时间序列监测模型还包括阿特曼z得分公式z-score模型,z-score的主要目的就是将不同量级的数据统一转化为同一个量级,统一用计算出的z-score值衡量,以保证数据之间的可比性。其算法如下:

将不同周期的待分析数据设置在一个集合m中;

计算所述集合m中所有待分析数据[a1,a2,a3…an]的平均值;

计算所述所有待分析数据的标准差(standarddeviation);

将所述集合m中待分析数据按照升序或降序排序,并获取排序后的中位数;

将所述中位数与所述平均值的差值与所述标准差相比,若大于第三预设阈值,则确定所述集合m中存在异常数据。

在其中一个实施例中,多粒度时间序列监测模型还包括同比振幅模型,则s103具体可以:

根据如下条件确定第t周期的待分析数据a为异常数据:

(at+1-at)/at>threshold4

其中(at+1-at)/at表示振幅,a为待分析数据,at为第t周期的待分析数据,threshold4表示第四阈值。

综上,多粒度时间序列监测模型如图3所示。在采样完毕后,将采样后的数据组成矩阵集合m,将m分别通过短期环比、长期环比、z-score和同比振幅四种不同的时间序列监测模型进行异常数据分析,并将不同的分析结果进行归一化和合并,输出最终的异常数据。

s104、将所述不同时期的异常数据情况进行数据合并及归一化,输出最终异常情况;

其中,将不同时期的多个不同异常数据进行合并和归一化,既可以简单地通过以用户id为主键进行合并,输出特征宽表的形式,也可以通过设置多个自适应权重值,将不同时期的异常数据进行分别乘以对应的自适应权重进行加权,获取最终的异常数据。例如,短期时间序列监测时,短期环比的异常结果权重设置较大,而长期环比的异常结果权重设置较小,反之,长期时间序列监测时,长期环比的权重设置较大,而短期环比的权重设置较小,二者进行加权求和,即可输出最终异常数据情况。

s105、基于所述最终异常数据情况,结合所述用户常量特征,对所述广告业务进行调整。

s105中,可以基于所述用户的自然属性(个人属性)特征及行为习惯特征,对所述异常数据进行分类,并基于分类结果,自适应调整不同用户的定向广告业务投放。例如,针对少儿类的广告业务投放给年龄段20-30的女性用户观看,其点击将会出现异常,需要替换为符合该年龄段的定向广告(例如化妆品)。

综上,本发明实施例提供的异常检测的机制,将最新数据和用户过往时间序列特征做比较,使得判断标准取决于用户的过往数据不是整体统一标准,从而消除用户个体之间对某一类型广告业务接受程度和需求的固有差异对模型预测效果造成的影响。

本发明实施例提供的方法,通过多粒度时间序列的监测机制,从不同维度进行指标分析,并最终进行合并及归一化,非常适合在中大型电子商务网站十亿级别的大数据应用场景,其异常数据的监测准确率将大大提高。

本发明实施例还包括一种装置,其特征在于,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现上述方法。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机可执行指令,该计算机可执行指令用于执行上述实施例中的方法。

本发明实施例还提供一种装置,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现上述方法。

图4为一个实施例中装置的硬件组成示意图。可以理解的是,图4仅仅示出了装置的简化设计。在实际应用中,装置还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出系统、处理器、控制器、存储器等,而所有可以实现本申请实施例的大数据管理方法的装置都在本申请的保护范围之内。

存储器包括但不限于是随机存储记忆体(randomaccessmemory,ram)、只读存储器(read至onlymemory,rom)、可擦除可编程只读存储器(erasableprogrammablereadonlymemory,eprom)、或便携式只读存储器(compactdiscread至onlymemory,cd至rom),该存储器用于相关指令及数据。

输入系统用于输入数据和/或信号,以及输出系统用于输出数据和/或信号。输出系统和输入系统可以是独立的器件,也可以是一个整体的器件。

处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理器(centralprocessingunit,cpu),在处理器是一个cpu的情况下,该cpu可以是单核cpu,也可以是多核cpu。处理器还可以包括一个或多个专用处理器,专用处理器可以包括gpu、fpga等,用于进行加速处理。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据,执行上述方法实施例中的步骤。具体可参见方法实施例中的描述,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriberline,dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory,rom),或随机存储存储器(randomaccessmemory,ram),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digitalversatiledisc,dvd)、或者半导体介质,例如,固态硬盘(solidstatedisk,ssd)等。

以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1