异常用户的识别方法及装置与流程

文档序号:26142358发布日期:2021-08-03 14:27阅读:78来源:国知局
异常用户的识别方法及装置与流程

本发明涉及电子信息领域,具体涉及一种异常用户的识别方法及装置。



背景技术:

在移动通信领域,酬金就是代理商出售移动卡号或为使用移动号码的客户办理业务(含缴费等)后,移动公司为代理商支付的酬劳,例如宽带酬金、用户新增酬金等。随着现代技术的发展,养卡的设备越来越先进,甚至达到随机模拟正常用户行为的地步,导致养卡风险变得越来越难以识别及控制,尤其是有不少投机者通过猫池养卡进而批量办理有酬金的业务,对运营商的酬金进行大量套取,严重影响了业务的正常发展和公司的投入产出比,危害极大。故亟需一种方法来找到业务办理的用户中存在养卡套酬金风险的用户,以推进公司业务的健康发展和减少资金的损失。

但是,在现有技术中,尚没有一种行之有效的方法能够快速而准确的识别上述养卡套酬金的异常用户。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种异常用户的识别方法及装置。

根据本发明的一个方面,提供了一种异常用户的识别方法,包括:

根据业务用户的渠道业务行为进行分组聚类,得到同类用户群组;

获取同类用户群组内的各个业务用户的业务账单数据,根据所述业务账单数据,识别所述同类用户群组内的可疑用户;

根据所述同类用户群组内的各个可疑用户的用户位置属性信息、充值记录信息、和/或渠道属性信息,识别所述可疑用户中的异常用户。

根据本发明的另一个方面,提供了一种异常用户的识别装置,包括:

聚类模块,适于根据业务用户的渠道业务行为进行分组聚类,得到同类用户群组;

第一识别模块,适于获取同类用户群组内的各个业务用户的业务账单数据,根据所述业务账单数据,识别所述同类用户群组内的可疑用户;

第二识别模块,适于根据所述同类用户群组内的各个可疑用户的用户位置属性信息、充值记录信息、和/或渠道属性信息,识别所述可疑用户中的异常用户。

依据本发明的再一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上述的异常用户的识别方法对应的操作。

依据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述的异常用户的识别方法对应的操作。

在本发明提供的异常用户的识别方法及装置中,能够根据业务用户的渠道业务行为进行分组聚类,得到同类用户群组;获取同类用户群组内的各个业务用户的业务账单数据,从而识别同类用户群组内的可疑用户,另外,根据同类用户群组内的各个可疑用户的用户位置属性信息、充值记录信息、和/或渠道属性信息,剔除可疑用户中的正常用户,从而识别出异常用户。由此可见,该方式能够从渠道业务行为、业务账单数据、用户位置属性信息、充值记录信息、和/或渠道属性信息等几个方面来综合识别异常用户,从而能够快速而准确的识别出业务用户中的异常用户。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例一提供的一种异常用户的识别方法的流程图;

图2示出了本发明实施例二提供的一种异常用户的识别方法的流程图;

图3示出了本发明实施例三提供的一种异常用户的识别装置的结构图;

图4示出了本发明实施例五提供的一种电子设备的结构示意图;

图5示出了用户套酬风险识别装置的执行流程图;

图6示出了业务办理次数的变异系数直方图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

图1示出了本发明实施例一提供的一种异常用户的识别方法的流程图。

如图1所示,该方法包括:

步骤s110:根据业务用户的渠道业务行为进行分组聚类,得到同类用户群组。

具体地,本步骤用于从业务用户的渠道业务行为的角度,识别渠道业务行为相同或相近的多个业务用户,以便将渠道业务行为相同或相近的多个业务用户聚类为一个同类用户群组,该同类用户群组中的各个业务用户即为潜在的异常用户。

具体实施时,获取业务用户的业务办理时间、业务办理渠道、以及业务办理类型;根据业务办理时间、业务办理渠道、以及业务办理类型进行分组聚类,得到同类用户群组。其中,业务办理时间相同、业务办理渠道相同、且业务办理类型也相同的多个业务用户很可能为存在养卡套酬风险的异常用户。

步骤s120:获取同类用户群组内的各个业务用户的业务账单数据,根据业务账单数据,识别同类用户群组内的可疑用户。

由于同类用户群组内的各个业务用户为潜在的异常用户,因此,需要进一步结合各个业务用户的业务账单数据,识别同类用户群组内的可疑用户。

具体地,根据业务账单数据,确定同类用户群组内的各个业务用户的成本支出数据以及返利收入数据;将成本支出数据小于返利收入数据的业务用户识别为可疑用户。由于正常用户的成本支出数据通常小于返利收入数据,因此,将成本支出数据小于返利收入数据的业务用户识别为可疑用户,对应业务后台而言,该类用户相当于成本倒挂用户。

另外,具体实施时,还可以进一步结合多种因素来识别可疑用户,例如,结合业务办理时间、账单产生时间、业务办理渠道等多种因素进行综合判定,本发明对具体细节不做限定。

步骤s130:根据同类用户群组内的各个可疑用户的用户位置属性信息、充值记录信息、和/或渠道属性信息,识别可疑用户中的异常用户。

具体地,为了防止将正常用户误判为异常用户,在本步骤中,通过可疑用户的用户位置属性信息、充值记录信息、和/或渠道属性信息,剔除可疑用户中的正常用户,从而得到最终识别出的异常用户,以防止误判。

具体实施时,可通过多种方式剔除可疑用户中的正常用户:

在一种可选的实现方式中,获取同类用户群组内的各个可疑用户的用户位置属性信息;针对每个可疑用户,分析该可疑用户对应于多个时间段的位置数据是否发生改变;若是,剔除该可疑用户。由于养卡套酬用户绝大多数都是在猫池设备上操作,故从位置变更角度,剔除存在漫出记录和定位基站信息变化的用户。

在又一种可选的实现方式中,获取同类用户群组内的各个可疑用户的充值记录信息;针对每个可疑用户,判断该可疑用户的充值频率是否大于预设频率阈值,和/或判断该可疑用户的用户账单中是否包含非套餐费用;若是,剔除该可疑用户。由于养卡套酬用户为达到盈利目的需要降低其养卡成本,故从成本支出角度,剔除产生套外费用和充值频繁的用户。

在再一种可选的实现方式中,获取同类用户群组内的各个可疑用户的渠道属性信息;针对每个可疑用户的渠道属性信息,判断该渠道属性信息对应的可疑用户的用户数量是否小于预设数量阈值;若是,剔除该可疑用户。由于渠道为实现养卡套酬持续盈利且最大化需批量操作号卡,故从风险程度角度,剔除一段时间内仅被标识一次和风险用户极少的渠道下用户。

上述的几种实现方式既可以结合使用,也可以单独使用,本发明对此不做限定。

由此可见,该方式能够从渠道业务行为、业务账单数据、用户位置属性信息、充值记录信息、和/或渠道属性信息等几个方面来综合识别异常用户,从而能够快速而准确的识别出业务用户中的异常用户。

实施例二

为了便于理解,本发明实施例二提供了一种异常用户的识别方法,以便对实施例一中的各个步骤的具体实现细节进行详细说明。

目前在识别异常用户时,通常采用如下两种方式中的至少一种进行识别:

在第一种方式中,对于用户在网活跃数据进行统计,包括当月在网时长、开关机时间等指标,取出其中在网时长相同且开关机行为相同的用户,判定为养卡用户(即异常用户)。

在第二种方式中,对于用户通信行为数据进行统计,结合关联因素,对不同通信行为对应的用户群进行交叉关联分析,识别出其通信行为存在养卡特征的风险用户,进而识别异常用户,该关联因素包括通话、短信和流量等使用情况。例如,将经常性相互通话或相互发短信的若干用户判断为异常用户。

发明人在实现本发明的过程中发现,上述的识别手段至少存在如下缺陷:第一,传统的养卡模型通过识别用户语音通话行为、流量使用行为等行为找出养卡用户,随着技术不断更新迭代,猫池养卡已可实现随机或差异化的语音通话、流量使用等用户行为,导致单从通信行为角度入手的模型效果不好,容易误判;第二,只对用户进行正向风险评估判断,未对正向风险识别出的风险用户进行反向评估以剔除正常用户,导致识别结果存在较高的误判率。

为了解决上述问题,在本实施例中,提供了一种养卡套酬识别系统,并基于养卡套酬识别系统提出了一套养卡套酬识别方法。图2示出了养卡套酬识别系统的结构示意图,具体包括:渠道行为集中识别装置、用户套酬风险识别装置、正常用户反向剔除装置这三个装置。其中,首先提取结酬渠道相关的用户数据,并进行数据预处理后,将结酬渠道相关的用户数据的预处理结果输入至渠道行为集中识别装置;然后,渠道行为集中识别装置进行处理后得到业务操作行为集中群组(即同类用户群组);接下来,用户套酬风险识别装置得到疑似养卡套酬风险用户(即可疑用户);最后,由正常用户反向剔除装置执行正常用户的剔除处理后得到最终的异常用户,即养卡套酬用户。由此可见,该方案主要以“渠道利润最大化”为切入点,深挖渠道养卡利益链,利用渠道行为集中识别装置、用户套酬风险识别装置、正常用户反向剔除装置这三个装置,先从渠道行为集中和用户行为集中两个角度入手识别业务操作相似的用户,同时结合成本倒挂这一异常特征识别存在套利空间的风险用户(即可疑用户),最后将风险用户中的正常用户进行剔除,最终得到高风险养卡套酬用户(即异常用户),实现全面覆盖。本发明提出的方法主要能够解决以下问题:解决猫池养卡差异化或随机模拟正常用户行为导致的传统养卡识别模型的局限性,提高养卡套酬识别的准确性;避免仅正向评估判断带来的不准确性,增加反向评估过程以降低误判性。

本实施例的具体实施过程如下:

首先,对数据进行采集,从数据库中读取某一时间段内容(通常为1个月)所有结酬渠道下用户相关数据,对该数据进行预处理工作,随后将处理好的数据投入至养卡套酬识别系统进行处理,具体处理时,先后通过渠道行为集中识别装置、用户套酬风险识别装置、正常用户反向剔除装置这三个装置依次处理,下面分别针对各个装置的具体处理细节进行详细阐述:

(一)渠道行为集中识别装置

渠道行为集中识别装置用于执行上述的步骤s110,主要从用户的业务办理时间、业务办理渠道、酬金业务类型3个维度进行识别,具体如下:

取酬金业务办理时间相同或者相近的用户进行标记,具体时间范围可调整;

取同一渠道下当月办理过酬金业务的用户进行标记;

取办理了同样酬金业务的用户进行标记;

对用户上述三个标记进行分组聚类,最终得到渠道业务行为集中群组(即同类用户群组)进行编号,例如群组1内有20个用户,代表这个群组1下的20个用户都是在同一渠道下在同一时间办理了同一酬金业务。

(二)用户套酬风险识别装置

用户套酬风险识别装置用于执行上述的步骤s120,具体执行以下3个功能,分别为用户账单集中判断功能、用户业务办理集中判断功能、用户成本倒挂判断功能。用户账单集中判断功能主要利用大数据挖掘技术,对用户账单数据进行深层处理聚类,标识并分配存在相同账单的用户到同一簇中,并计算群组下簇的数量;用户业务办理集中判断功能主要利用正态分布和变异系数理论,将用户业务办理数据进行处理计算,标识变异系数异常的群组;用户成本倒挂判断功能主要从用户成本投入、用户酬金发放、用户可变现资源获取入手,识别用户成本投入低于渠道酬金获利与可变现资源获取之和,进一步识别存在大量用户成本倒挂的群组。

(1)用户账单集中判断功能

用户账单集中判断功能主要从用户的账单科目以及对应的金额两个维度入手,将用户与其账单科目和对应金额形成完整的数据框,并利用高斯混合模型聚类算法(gmms)对用户进行分组标记,具体聚类步骤如下:

步骤一:设定聚类簇的数量,然后随机初始化每个集群的高斯分布参数。

步骤二:给定每个簇的高斯分布,计算每个数据点属于特定簇的概率。一个点越靠近高斯中心,它就越可能属于该簇。概率具体公式如下:

其中,

γ(i,k)表示数据xi由第k个分量(高斯函数)生成的概率;

n(xi|μk,∑k)为混合模型中的第k个分量;

πk为混合系数,

步骤三:基于上述概率,为高斯分布计算了一组新的参数,可以最大化集群中数据点的概率。使用数据点位置的加权和计算新参数,其中权重是属于特定集群的数据点的概率。最大似然所对应的参数值具体公式如下:

其中,πk=nk/n。

步骤二和步骤三重复进行,直到收敛,也就是在收敛过程中,迭代变化不大。最终统计群组下用户聚类分组标识,若聚类分组标识单一则该群组下用户账单集中,属于异常行为。图5示出了用户套酬风险识别装置的执行流程图。

(2)业务办理集中判断功能

业务办理集中群组:逐一取群组的每个用户最后一次业务办理的时间以及业务办理的次数,对最后一次业务办理时间进行去重,取最后一次业务办理时间数不多的群组计算群组下用户业务办理次数的变异系数c.v,具体公式如下:

上述公式为常用的均值和标准差公式。

画出指定群组业务办理次数的变异系数直方图并且结合正态分布原理,变异系数在0.05以下的这部分群组,说明组内用户业务办理次数值非常接近,存在很大的养卡嫌疑。图6示出了业务办理次数的变异系数直方图。

(3)用户成本倒挂判断功能

用户成本倒挂判断功能从用户成本投入、用户酬金发放、用户可变性资源入手,具体方式如下:

用户成本投入=max(用户实际消费金额,用户充值金额)

用户酬金发放=sum(用户在所有渠道下所有类型的酬金金额)

用户可变现资源=sum(卡券资源+流量*市场价+可转话费金额)

当用户成本投入<用户酬金发放+用户可变现资源时,说明用户成本倒挂。

最后统计分析每个群组下成本倒挂用户比例,识别成本倒挂用户比例大的群组,该类群组有明显的养卡嫌疑。

(三)正常用户反向剔除装置

正常用户反向剔除装置用于执行上述的步骤s130,具体以漏斗机制,从用户位置变化、用户充值缴费、渠道风险程度三个维度层层筛漏,反向过滤掉正常用户,最终输出高风险养卡套酬风险用户。养卡套酬风险用户经三维漏斗层层筛选,达到高风险用户析出的目的,具体如下:

(1)第一维漏斗:用户位置变化

由于养卡套酬用户绝大多数都是在猫池设备上操作,故从位置变更角度,剔除存在漫出记录和定位基站信息变化的用户。例如,发生漫出且基站位置频繁变化的用户应被剔除。

(2)第二维漏斗:用户成本支出

由于养卡套酬用户为达到盈利目的需要降低其养卡成本,故从成本支出角度,剔除产生套外费用和充值频繁的用户。例如,产生套外费用且频繁本金充值的用户需要剔除。

(3)第三维漏斗:渠道风险程度

由于渠道为实现养卡套酬持续盈利且最大化需批量操作号卡,故从风险程度角度,剔除一段时间内仅被标识一次和风险用户极少的渠道下用户。例如,渠道下风险用户数量较少,且半年内仅被识别1次的渠道下的用户应被剔除。

由此可见,用户套酬风险识别装置利用大数据挖掘技术以及统计学理论,对用户行为数据进行分析挖掘,对每个用户以及群组进行综合判别来确定是否存在养卡套酬风险,从而提升了判断结果的准确性。正常用户反向剔除装置对初步识别出来的养卡套酬风险用户进行二次反向评估识别,找出其中误判的正常用户并剔除,避免了单向定性判别方式带来的不稳定性,降低了实施装置整体的误判率。

综上可知,本发明弥补了现有基于通信行为的传统方法和单向判断且未对风险用户进一步反向评估的不足,利用用户套酬风险识别装置解决猫池养卡差异化或随机模拟正常用户行为导致传统养卡套酬识别方式无法准确识别的问题,提高风险识别的准确性;同时利用正常用户反向剔除装置对疑似养卡套酬风险用户进行二次识别,剔除了疑似风险用户中的正常用户,避免仅正向评估判断带来的不准确性,降低了整体养卡套酬的误判率。

实施例三

图3示出了本发明实施例三提供的一种异常用户的识别装置的结构示意图,该装置包括:

聚类模块31,适于根据业务用户的渠道业务行为进行分组聚类,得到同类用户群组;

第一识别模块32,适于获取同类用户群组内的各个业务用户的业务账单数据,根据所述业务账单数据,识别所述同类用户群组内的可疑用户;

第二识别模块33,适于根据所述同类用户群组内的各个可疑用户的用户位置属性信息、充值记录信息、和/或渠道属性信息,识别所述可疑用户中的异常用户。

可选的,所述聚类模块具体适于:

获取业务用户的业务办理时间、业务办理渠道、以及业务办理类型;

根据所述业务办理时间、业务办理渠道、以及业务办理类型进行分组聚类,得到同类用户群组。

可选的,所述第一识别模块具体适于:

根据所述业务账单数据,确定所述同类用户群组内的各个业务用户的成本支出数据以及返利收入数据;

将成本支出数据小于返利收入数据的业务用户识别为可疑用户。

可选的,所述第二识别模块具体适于:

获取所述同类用户群组内的各个可疑用户的用户位置属性信息;

针对每个可疑用户,分析该可疑用户对应于多个时间段的位置数据是否发生改变;若是,剔除该可疑用户。

可选的,所述第二识别模块具体适于:

获取所述同类用户群组内的各个可疑用户的充值记录信息;

针对每个可疑用户,判断该可疑用户的充值频率是否大于预设频率阈值,和/或判断该可疑用户的用户账单中是否包含非套餐费用;

若是,剔除该可疑用户。

可选的,所述第二识别模块具体适于:

获取所述同类用户群组内的各个可疑用户的渠道属性信息;

针对每个可疑用户的渠道属性信息,判断该渠道属性信息对应的可疑用户的用户数量是否小于预设数量阈值;

若是,剔除该可疑用户。

关于上述各个模块的具体结构和工作原理可参照方法实施例中相应部分的描述,此处不再赘述。

实施例四

本申请实施例四提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的异常用户的识别方法。可执行指令具体可以用于使得处理器执行上述方法实施例中对应的各个操作。

实施例五

图4示出了根据本发明实施例五的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。

如图4所示,该电子设备可以包括:处理器(processor)402、通信接口(communicationsinterface)406、存储器(memory)404、以及通信总线408。

其中:

处理器402、通信接口406、以及存储器404通过通信总线408完成相互间的通信。

通信接口406,用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402,用于执行程序410,具体可以执行上述异常用户的识别方法实施例中的相关步骤。

具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。

处理器402可能是中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。

存储器404,用于存放程序410。存储器404可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行上述方法实施例中对应的各个操作。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的基于语音输入信息的抽奖系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1