一种异常渠道检测方法、装置、介质及设备与流程

文档序号:19158347发布日期:2019-11-16 01:05阅读:151来源:国知局
一种异常渠道检测方法、装置、介质及设备与流程
本发明涉及通信领域,尤其涉及一种异常渠道检测方法、装置、介质及设备。
背景技术
:随着移动终端日益广泛的应用,其上运行的各种应用软件(app)日益繁多,各运营商业务种类也越来越多。为了提高自身应用软件的用户量,应用软件厂商经常会通过电子渠道(后文简称渠道)来推广自己的应用软件。而为了提高各种业务的用户量,各运营商也会通过渠道进行业务推广。各应用软件厂商和各运营商根据渠道带来的新增用户数量向渠道商支付相应的酬金。因此,渠道商制造虚假用户从而骗取费用的情况时有发生,这种提供虚假用户的渠道通常被认为是异常渠道。为了有效减少虚假用户的数量,需要将提供虚假用户的渠道检测出来。但由于渠道数量众多,从众多渠道中发现异常渠道非常耗费人力,且非常容易出错。技术实现要素:本发明实施例提供一种异常渠道检测方法、装置、介质及设备,用于快速准确地进行异常渠道检测。一种异常渠道检测方法,所述方法包括:确定按照应用场景进行分类后,得到的属于同一个应用场景的渠道信息,所述渠道信息包括用于标识渠道的渠道指标和渠道指标值信息;利用所述渠道信息,针对至少一个指定渠道指标进行区间估计,确定该指定渠道指标的区间上限和区间下限;利用预先建立的渠道监控模型,将至少一个指定渠道指标值,高于该指定渠道指标区间上限,或低于该指定渠道指标区间下限的渠道信息确定为异常渠道信息,否则确定为正常渠道信息。一种异常渠道检测装置,所述装置包括:分类模块,用于确定按照应用场景进行分类后,得到的属于同一个应用场景的渠道信息,所述渠道信息包括用于标识渠道的渠道指标和渠道指标值信息;估计模块,用于利用分类模块得到的所述渠道信息,针对至少一个指定渠道指标进行区间估计,确定该指定渠道指标的区间上限和区间下限;检测模块,用于利用预先建立的渠道监控模型,将至少一个指定渠道指标值,高于估计模块确定出的该指定渠道指标区间上限,或低于估计模块确定出的该指定渠道指标区间下限的渠道信息确定为异常渠道信息,否则确定为正常渠道信息。一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现上述异常渠道检测方法的步骤。一种异常渠道检测设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述程序时实现上述异常渠道检测方法的步骤。在本发明实施例中,可以按照应用场景对得到的渠道信息进行分类。针对每一应用场景下的渠道信息,选择至少一个指定渠道指标进行区间估计,确定每个指定渠道指标的区间上限和区间下限。并可以将至少一个指定渠道指标值不属于确定出的区间的渠道信息确定为异常渠道信息。根据本发明实施例提供的方案,不仅可以针对不同的应用场景,将渠道信息进行分类自动检测,有效提高异常渠道检测的准确性和快速性,还可以设置至少一个指定渠道指标来进行渠道信息异常判断,相对于仅针对一个指定渠道指标进行异常渠道检测,进一步提高了异常渠道检测的准确性和灵活性。附图说明图1为本发明实施例提供的异常渠道检测方法的流程示意图;图2为本发明实施例一提供的异常渠道检测方法的步骤流程图;图3为本发明实施例三提供的异常渠道检测装置的结构示意图;图4为本发明实施例五提供的异常渠道检测设备的结构示意图。具体实施方式根据渠道办理应用场景复杂,不同应用场景下,业务办理量相差较大,根据单一应用场景来进行异常渠道检测会导致准确性较低的特点,本发明实施例提供一种基于应用场景的异常渠道检测方法,将渠道信息按照应用场景进行分类,并针对分类后得到的渠道信息进行异常渠道检测,所述渠道信息包括用于标识渠道的渠道指标和渠道指标值信息。如图1所示,较优的,可以按照渠道信息中的时间指标(如,办理日期)对渠道信息进行分类,得到属于第一应用场景,如工作日应用场景中的渠道信息,或者,属于第二应用场景,如非工作日应用场景中的渠道信息这两类渠道信息。针对得到的每一应用场景下的渠道信息,可以基于该应用场景和针对该应用场景选择的指定渠道指标进行区间估计,将区间估计结果输入给预先建立的渠道监控模型。渠道监控模型可以确定出正常渠道信息和异常渠道信息,对异常渠道信息,可以进行标记并输出,对正常渠道信息,可以继续用于区间估计,进一步提高区间估计的准确性,从而进一步提高异常渠道检测的准确性。下面结合说明书附图对本发明实施例作进一步详细描述。实施例一、如图2所示,为本发明实施例一提供的异常渠道检测方法流程图,该方法包括以下步骤:步骤101、对渠道信息进行分类。为了提高异常渠道检测的准确性,本实施例中,考虑将渠道信息按照应用场景进行分类,并针对属于同一个应用场景中的渠道信息,进行异常渠道检测。在本步骤中,可以确定按照应用场景进行分类后,得到的属于同一个应用场景的渠道信息。较优的,根据工作日和节假日业务办理量相差较大的特点,在本实施例中,可以根据渠道信息中的时间指标,得到属于第一应用场景,如工作日应用场景中的渠道信息,或者,得到属于第二应用场景,如非工作日应用场景中的渠道信息。当然,本实施例不限于按照时间指标进行应用场景分类,还可以按照其他渠道指标进行应用场景分类,例如,根据各个区域业务办理量相差较大的特点,根据渠道信息中的区域指标,得到属于各个区域应用场景中的渠道信息。具体的,渠道信息中的渠道指标可以但不限于如表1所示。统计月份、办理日期、地市等都可以理解为渠道信息中的一个渠道指标。统计月份的具体数值,如,六月,可以理解为统计月份的渠道指标值。办理人数的具体数值,如,100,可以理解为办理人数的渠道指标值。酬金数量的具体数值,如,1500,可以理解为酬金数量的渠道指标值。用于对渠道信息进行分类的时间指标,可以理解为表1中的办理日期。用于对渠道信息进行分类的区域指标,可以理解为表1中的地市。表1序号列名中文名称1statis_month统计月份2oper_date办理日期3area地市4district区县5channel_id渠道代码6channel_name渠道名称7channel_level渠道星级8channel_region渠道归属9oper_id操作编号10oper_type操作类型11oper_num办理人数12fee酬金数量步骤102、对指定渠道指标进行区间估计。在本步骤中,可以针对属于同一个应用场景的渠道信息,选择指定渠道指标,并针对选择的指定渠道指标,进行区间估计,从而实现后续对异常渠道信息的检测。具体的,在本步骤中,可以利用步骤101确定出的属于同一个应用场景的渠道信息,针对至少一个指定渠道指标进行区间估计,确定该指定渠道指标的区间上限和区间下限。所述至少一个指定渠道指标可以为一个,例如,业务办理量(如表1中的办理人数)或者酬金数量(如表1中的酬金数量)。较优的,所述至少一个指定渠道指标可以为两个,例如,业务办理量和酬金数量。即,可以通过业务办理量和酬金数量来判断渠道信息是否为异常的渠道信息,从而判断渠道是否为异常渠道。当然,所述至少一个指定渠道指标还可以为三个或更多个。一般区间估计仅针对一个变量,但在判断渠道信息是否异常时,利用一个变量进行异常判断非常容易引起错判,为了提高判断的准确性,本实施例在引入业务办理量进行渠道信息是否异常判断的基础上,根据与渠道信息异常的相关程度,可以进一步引入了酬金数量进行渠道信息异常判断。通过两个指定渠道指标来判断渠道是否异常,相对于仅设置一个指定渠道指标,可以有效提高判断的准确性和灵活性。在选择的指定渠道指标包括业务办理量和酬金数量时,具体的,在本步骤中,可以确定业务办理量的区间上限和区间下限,以及酬金数量的区间上限和区间下限。为了进一步提高渠道信息是否异常的判断的准确性,在进行区间估计时,还可以对渠道信息中的渠道指标进行分组,从而针对每个指定渠道指标,可以统计确定出多组区间上限和区间下限,进一步提高确定出的区间上限和区间下限的准确性。具体的,可以按照至少两个渠道指标组合后进行分组,得到至少两组渠道指标组合;针对一个指定渠道指标,确定利用每组渠道指标组合统计出的该指定渠道指标的区间上限和区间下限;将统计出的一个指定渠道指标的区间上限最小值,确定为该指定渠道指标的区间上限,将统计出的该指定渠道指标的区间下限最大值,确定为该指定渠道指标的区间下限。更进一步的,为了提高区间估计的准确性和减少由于数据量较大产生的计算时间较长的问题,提高区间估计的速度,可以通过自适应的遗传算法获取具有较高可信度的样本。具体的,可以利用属于同一个应用场景的渠道信息,通过自适应的遗传算法获得区间估计样本,根据获得的区间估计样本,分别针对所述至少一个指定渠道指标进行区间估计。步骤103、判断渠道信息是否异常。在本步骤中,可以利用预先建立的渠道监控模型,将至少一个指定渠道指标值高于该指定渠道指标区间上限,或低于该指定渠道指标区间下限的渠道信息确定为异常渠道信息,否则确定为正常渠道信息。在选择的指定渠道指标为业务办理量和酬金数量时,在本步骤中,利用预先建立的渠道监控模型,将业务办理量值高于业务办理量区间上限或低于业务办理量区间下限,和/或者,酬金数量值高于酬金数量区间上限或低于酬金数量区间下限的所述渠道信息确定为异常渠道信息,否则确定为正常渠道信息。即,可以将业务办理量对应的数值和酬金数量对应的数值均不属于确定出的区间的渠道信息确定为异常渠道信息。或者,将业务办理量对应的数值不属于确定出的区间,或者,酬金数量对应的数值不属于确定出的区间的渠道信息确定为异常渠道信息。对确定为异常的渠道信息,可以进行标记后输出,从而实现对该渠道信息的预警,实现异常渠道检测。进一步的,对确定为正常的渠道信息,可以继续执行步骤102,增加步骤102中的有效样本,得到更加优化的区间估计结果,获得更加准确的渠道信息是否异常的判断结果。较优的,在步骤101之前,还可以进一步包括步骤101’:步骤101’、对渠道信息进行预处理。为了使得区间估计结果更加准确,在步骤101之前,还可以对渠道信息进行预处理,对渠道信息进行检测,将检测出的无效的渠道指标值去除。所述无效的渠道指标值可以但不限于为数据存在缺失的渠道指标值,或数据类型不是设定的数据类型的渠道指标值。下面通过一个具体的实例,对本发明实施例一提供的异常渠道检测方法进行说明。着重对本发明实施例一步骤102中进行区间估计的过程进行详细说明。实施例二、本实施例中,假设按照时间指标进行应用场景分类,得到属于工作日应用场景的渠道信息。选择的指标渠道指标包括业务办理量和酬金数量。在进行区间估计时,在本实施例中,首先对渠道信息中的渠道指标进行组合后分组。例如,可以按照时间、地区组合,例如,将如表1所示的,办理日期、地市、区县和操作类型(操作类型可以理解为业务类型,如,开户、充值等)组合,得到一个分组;按照时间、渠道组合,例如,将如表1所示的,办理日期、渠道星级、渠道归属和操作类型组合,得到一个分组;按照时间、地区、渠道组合,例如,将如表1所示的,办理日期、地市、区县、渠道星级、渠道归属和操作类型组合,得到一个分组。根据得到的三组渠道指标组合,可以针对指定渠道指标业务办理量,统计出三组区间上限和区间下限。可以将三个区间上限中的区间上限最小值,确定为业务办理量的区间上限,将三个区间下限中的区间下限最大值,确定为业务办理量的区间下限。进一步的,可以通过自适应遗传算法获得具有高可信度的样本。具体过程可以描述如下:(1)产生初始群体:首先产生群体大小为m的初始群体。通过变量z=z1、z2、...、zn来描述群体中的染色体(个体),其中n为个体的个数,zi为基因,取值1表示选取,0表示不选取。为保证样本数量有效,对初始群体的所有个体进行二进制编码时,基因值为1的概率的选取可以大于0.9,基因值为0的概率的选取可以小于0.1。其中,m、n均为大于1的自然数。(2)选取适应度函数,计算适应度值:依据统计学理论,数据集中总体方差越小的个体,对应的适应度值越大,被遗传到下一代的概率也越大。一般,数据集对应的属性有多个,每个属性对检测结果的影响也有差异,可以通过权重值来反应影响程度。在本实施例中,属性有两个:业务办理量和酬金数量,影响程度基本相同,可以将权重值均设置为0.5,当然,权重值可根据具体情况进行调整。计算每个属性对应的总体方差sj:其中aji为第j个属性在第i个个体的值,为z=1的全部个体的第j个属性的算术平均值,nz=1为z=1的全部个体的数量。在本实施例中,属性包括业务办理量和酬金数量,可以理解为确定业务办理量属性对应的总体方差时,j为1,确定酬金数量属性对应的总体方差时,j为2。将所求得的总体方差代入适应度函数f(z)来获得适应度值:其中ωj为第j个属性的权重,fmax为一个合理输入值,通常为适应度函数f(z)的最大值或大于适应度函数f(z)的最大值的值。(3)记录当代群体中的适应度值最大的最佳个体以及适应度值最小的最差个体。若当前记录的最佳个体适应度值低于当代群体最佳个体的适应度值,则用当代群体最佳个体的适应度值替换当前记录的最佳个体的适应度值,将当代群体的最佳个体与种群中最后一个个体交换位置,保证在进化过程中,种群的最后一个位置永远保留当代群体中的最佳个体。(4)用赌轮选择法结合精英保留策略,根据个体适应度值的大小,随机、概率性的选择(m-1)个个体放入下一代群体的前(m-1)个位置。(5)对前(m-1)个个体进行自适应交叉和变异操作,将最后一个个体看作是最佳个体,不进行交叉变异操作,防止被破坏。(6)判断是否符合终止条件:适应度值最高和最低的个体的差异小于某设定的阈值,且种群的平均适应度值的趋于稳定或达到指定迭代次数,如果符合,则输出算法获取到的样本并结束,否则进化次数增1转入(2)继续执行。获取样本后,进行区间估计,确定指定渠道指标的区间上限和区间下限。在本实施例中,可以设置设定的置信度,例如95%置信度,的置信区间,当然置信度可根据实际需要,进行调整。分别计算出业务办理量和酬金数量区间上下限。按不同分组,可生成多组区间结果输出。算法描述可以如下:设一个指定渠道指标对应的n个样本值为x1、x2、...、xn,把这些数据看作该指定渠道指标的一个试验样本x。分析表明,试验样本x服从正态分布x~n(μ,σ2)。μ为真实值,σ2为μ的方差。经过变换,可转换为标准正态分布n(0,1)或t分布。任意取一个适量的较小值α时,由t分布的性质可得置信度为1-α时,指定渠道指标的置信区间为其中,s2为σ2的无偏估计。α取值越小,置信度越大,异常数据的错误判断几率越小。但把正确数据混入异常数据的几率也会增大,取0.05,即置信度为0.95可以获得准确性较高的结果。对于每个指定渠道指标,可以综合统计出的多组区间,取交集。即最终指定渠道指标区间取决于多个区间上限的最小值、多个区间下限的最大值。在确定出指定渠道指标的区间上限和区间下限之后,则可以用于确定渠道信息是否为异常渠道信息。最终对确定为异常的渠道信息,进行标记时,异常标签是综合业务办理量异常和酬金数量异常,进行或运算,存在一个标签为真(true)则最终标签为true。即在本实施例中,业务办理量和酬金数量有一个不满足确定出的区间,则将渠道信息确定为异常的渠道信息,进行渠道信息预警。输出的正常渠道信息可以仍作为输入,训练得到更为精确的渠道监控模型。进行异常渠道检测后,渠道信息输出结果可以如表2所示,增加了13~18列,其中包括了异常标记,用于标识渠道信息是否为异常的渠道信息,还可以包括确定出的业务办理量的区间上限、业务办理量的区间下限、酬金数量的区间上限以及酬金数量的区间下限的内容,并可以进一步包括日期类别,日期类别可以理解为渠道信息对应的应用场景。本实施例提供一种基于多应用场景多指定渠道指标区间估计的渠道自适应异常检测方法。在本实施例提供的方案中,针对渠道信息进行多应用场景分类,选择可信度高的样本,对不同应用场景进行相应的多因子(多组组合)多指定渠道指标区间估计,获取异常渠道信息判断,正常渠道信息的信息进行反馈并自适应地训练出更加准确的渠道监控模型。在本实施例中,考虑工作日和节假日业务办理量相差较大的特点,对渠道信息进行应用场景分类,根据应用场景,进行渠道监控模型建设,减少由于应用场景单一造成的对渠道信息误标记的问题。选择高可信度的样本,通过多因子多指定渠道指标组合进行区间估计,从而实现异常渠道检测,避免对正常渠道信息造成误标记,在一定程度上避免了预设区间上下限阈值,由于没有数据参考,设置的阈值不准确导致的异常渠道检测准确性较低的问题,进一步提高异常渠道检测的可靠性和准确性。同时,在本实施例中,可以动态、周期性地训练渠道监控模型供后续异常渠道检测,通过不断训练增加渠道监控模型的识别率和准确率,对异常渠道信息进行预警,有效地减小了模型不确定性的影响,进一步提高了异常渠道检测的可靠性和准确性。基于同一发明构思,本发明实施例中还提供了一种与异常渠道检测方法对应的异常渠道检测装置,由于该装置解决问题的原理与本发明实施例一和实施例二提供的异常渠道检测方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。实施例三、如图3所示,为本发明实施例三提供的异常渠道检测装置结构示意图,该装置包括:分类模块11用于确定按照应用场景进行分类后,得到的属于同一个应用场景的渠道信息,所述渠道信息包括用于标识渠道的渠道指标和渠道指标值信息;估计模块12用于利用分类模块得到的所述渠道信息,针对至少一个指定渠道指标进行区间估计,确定该指定渠道指标的区间上限和区间下限;检测模块13用于利用预先建立的渠道监控模型,将至少一个指定渠道指标值,高于估计模块确定出的该指定渠道指标区间上限,或低于估计模块确定出的该指定渠道指标区间下限的渠道信息确定为异常渠道信息,否则确定为正常渠道信息。所述估计模块12具体用于利用分类模块得到的所述渠道信息,针对业务办理量和酬金数量进行区间估计,确定业务办理量的区间上限和区间下限,以及酬金数量的区间上限和区间下限;所述检测模块13具体用于利用预先建立的渠道监控模型,将业务办理量值高于业务办理量区间上限或低于业务办理量区间下限,和/或者,酬金数量值高于酬金数量区间上限或低于酬金数量区间下限的所述渠道信息确定为异常渠道信息,否则确定为正常渠道信息。所述分类模块11具体用于根据渠道信息中的时间指标,得到属于第一应用场景中的渠道信息,或者,得到属于第二应用场景中的渠道信息。所述装置还包括预处理模块14用于对渠道信息进行检测,将检测出的无效的渠道指标值去除。所述估计模块12具体用于利用检测模块确定出的正常渠道信息,针对所述至少一个指定渠道指标进行区间估计,确定该指定渠道指标的区间上限和区间下限。所述估计模块12具体用于按照至少两个渠道指标组合后进行分组,得到至少两组渠道指标组合;针对一个指定渠道指标,确定利用每组渠道指标组合统计出的该指定渠道指标的区间上限和区间下限;将统计出的一个指定渠道指标的区间上限最小值,确定为该指定渠道指标的区间上限,将统计出的该指定渠道指标的区间下限最大值,确定为该指定渠道指标的区间下限。所述估计模块12具体用于利用分类模块得到的所述渠道信息,通过自适应的遗传算法获得区间估计样本;根据获得的区间估计样本,分别针对所述至少一个指定渠道指标进行区间估计,确定该指定渠道指标的区间上限和区间下限。所述估计模块12具体用于设置设定的置信度的置信区间,确定每个指定渠道指标的区间上限和区间下限。本发明实施例四还提供一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现本发明实施例一和实施例二任一所述方法的步骤。本发明实施例五还提供一种异常渠道检测设备,如图4所示,包括存储器21、处理器22及存储在存储器上的计算机程序,所述处理器执行所述程序时实现本发明实施例一和实施例二任一所述方法的步骤。该设备可以理解为包括本发明实施例三提供的装置,并实现该装置各模块的功能。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1