一种基于聚类的移动通信业务用户虚开识别方法

文档序号:6602494阅读:178来源:国知局
专利名称:一种基于聚类的移动通信业务用户虚开识别方法
技术领域
本发明涉及数据挖掘领域,特别涉及一种基于聚类的移动通信业务用户虚开识别 方法。
背景技术
中国电信业经过多年的发展,在网络建设、产品规划、服务提升还是市场占有率等 方面都取得了长足发展,形成了在规模、收益和消费倾向上总体优良的庞大客户群。如何发 挥电信企业的综合优势,实现灵活多变的市场营销策略,为客户提供更具有针对性的满意 服务,同时最大限度合理配置和优化资源,降低运营成本,增强核心竞争力,成为当前迫切 需要解决的问题之一。虚开客户主要是指客户资料虚假、开户之后没有或者几乎没有有效的语音话单, 但运营商却要向发展该客户的代理商支付一定的代理费。虚开客户带给运营商的实际收入 很少或者几乎没有,反而增加运营成本,造成不少损失。通常地,虚开用户主要表现为1)收入少虚开用户出账费用一般很少,小于新入网用户平均出账费用的一半以 上,大部分虚开客户甚至根本不出账。2)话务量少如果开户后一月之内还没有或者很少的有效话单,这些客户很可能是 虚开的;如果通话次数或者通话时长低于某一阈值,则也可能是虚开客户。3)缴费少虚开客户很少去缴费,或者缴费金额很少。4)客户资料虚假多数虚开用户的资料是虚假的,例如没有用户姓名或者身份证号 码;格式不正确或者身份证号码有误;甚至没有提供用户资料。虚开行为和动机主要可归纳为1)销售政策不合理,造成代理商骗取佣金,套机套卡等。2)指标压力大,为了完成任务,拼命发展,不顾质量或者弄虚作假。3)用户满意度不高,对资费、服务、网络等方面不满,初期使用一两次后就再也没 有兴趣使用。4)其他因素,如SP自消费、偶然因素、用户自身短期流动,买卡后即离开等。通过识别虚开用户,可以对新发展用户质量进行监控,规避市场风险。建立新发展 用户质量评估体系,实现代理商的绩效考核,为制定合理的代理佣金标准提供可靠的依据, 使销售政策与质量评估挂钩,佣金政策与质量评估挂钩,赠费、赠款政策与质量评估挂钩。 在保证用户发展数量的同时,更应该注重用户发展质量,加强用户发展渠道管控。

发明内容
为了在众多的移动通信业务新发展用户中识别出以骗取代理佣金为目的的虚开 用户,本发明提供了一种基于聚类的移动通信业务用户虚开识别方法,所述方法包括如下 步骤
步骤101,数据准备,获取移动通信业务新发展用户近期的通话详单和出帐费用明 细数据;步骤102,数据清洗,过滤掉无效的新发展用户;步骤103,话务结构筛选,对于有效的新发展用户根据其话务结构的关键指标进行 判别,划分为正常和疑似虚开两类用户,即如果有效的新发展用户的14个话务结构关键指 标值均大于当月在网用户平均值的为正常用户,否则为疑似虚开用户,所述话务结构的关 键指标包括月计费总时长、月主叫计费时长、月被叫计费时长、月本地主叫计费时长、月本 地被叫计费时长、月长途主叫计费时长、月长途被叫计费时长、月计费总次数、月主叫计费 次数、月被叫计费次数、月本地主叫计费次数、月本地被叫计费次数、月长途主叫计费次数 和月长途被叫计费次数,共14个;步骤104,消费行为筛选,针对话务结构筛选后判定为疑似虚开的用户,根据其消 费行为的关键指标进行判别,划分为正常和疑似虚开两类用户,即日均消费额大于在网用 户日均消费额的为正常用户,否则为疑似虚开用户;步骤105,通话行为筛选。针对经话务结构和消费行为筛选均判定为疑似虚开的用 户,利用其入网后前100次通话时间间隔进行聚类分析;步骤106,虚开用户锁定,分析聚类结果,确定真正的虚开用户。在本发明中,步骤105中对疑似的虚开用户进行聚类的一种算法为1)随机选择k个样本作为初始的聚类中心C1,C2,...,ck,设每个样本向量为& = [屯,d12,...,dln],其中n为向量维度;2)将每个样本向量按欧氏距离Ik-Ml = m丨nib _。|归入聚类中心为Ci的类;3)重新调整聚类中心
其中=^en ‘丨“',队是第土个
类别中的向量数;4)如果3)中的聚类中心不再变化,则停止迭代;否则,转至2)。采用本发明的技术方案,利用数据挖掘技术通过对移动通信业务新发展用户近期 的话务结构、消费行为和通话行为特征的深入挖掘,可以识别貌似正常但以骗取代理佣金 为目的的虚开用户。通过识别虚开用户,可以对新发展用户质量进行监控,规避市场风险。建立新发展 用户质量评估体系,实现代理商的绩效考核,为制定合理的代理佣金标准提供可靠的依据, 使销售政策与质量评估挂钩,佣金政策与质量评估挂钩,赠费、赠款政策与质量评估挂钩。 在保证用户发展数量的同时,更应该注重用户发展质量,加强用户发展渠道管控。


图1是本发明实施例1中提供的一种基于聚类的移动通信业务用户虚开识别方法 的原理图。图2是本发明实施例1中提供的一种基于聚类的移动通信业务用户虚开识别方法 的流程图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。实施例1本实施例提供一种基于聚类的移动通信业务用户虚开识别方法,该方法通过对移 动通信业务新发展用户近期的话务结构、消费行为和通话行为特征的深入挖掘,可以识别 貌似正常但以骗取代理佣金为目的的虚开用户。如图2所示,本实施例所述方法的具体步骤如下步骤101 获取移动通信业务新发展用户近期的通话详单和出帐费用明细数据。获取某市运营商2008年12月新发展CDMA用户146,283作为分析对象,从 ODS(Operation Data Store)系统和业务支撑系统抽取其最近连续三个月的通话详单和出 账费用明细数据,并合并汇总。步骤102 数据清洗,过滤掉无效的新发展用户,其中无效的新发展用户包括1) CDMA智能网用户和C+W用户2)当月离网的新发展用户3)无客户资料的用户清洗后,当月有效的新发展用户为125,629,其中CDMA准预付费用户39,107,CDMA 后付费用户86,522。步骤103 话务结构筛选。对于有效的新发展用户根据其话务结构的14个关键指 标进行判别,划分为正常和疑似虚开两类用户,即如果有效的新发展用户的14个话务结构 关键指标值均大于当月在网用户平均值的为正常用户,否则为疑似虚开用户,所述话务结 构的关键指标包括月计费总时长、月主叫计费时长、月被叫计费时长、月本地主叫计费时 长、月本地被叫计费时长、月长途主叫计费时长、月长途被叫计费时长、月计费总次数、月主 叫计费次数、月被叫计费次数、月本地主叫计费次数、月本地被叫计费次数、月长途主叫计 费次数和月长途被叫计费次数。对于当月有效的新发展CDMA用户125,629,经过话务结构的14个关键指标筛选 后,发现疑似虚开用户65,318,正常用户60,311。步骤104 消费行为筛选。针对话务结构筛选后判定为疑似虚开的用户,根据其消 费行为的关键指标进行判别,划分为正常和疑似虚开两类用户,即日均消费额大于在网用 户日均消费额的为正常用户,否则为疑似虚开用户。对于话务结构筛选后判定为疑似虚开的用户65,318进行消费行为筛选,发现疑 似虚开用户49,423,正常用户15,895。步骤105 通话行为筛选。针对经话务结构和消费行为筛选均判定为疑似虚开的 用户,利用其入网后前100次通话时间间隔进行聚类。对49,423疑似虚开用户的前100次通话时间间隔(以小时为单位)进行聚类,聚 类结果如表1所示。表 1
对经话务结构和消费行为筛选均判定为疑似虚开的用户前100次通话时间间隔 进行聚类的一种算法的具体步骤为1)随机选择k个样本作为初始的聚类中心Cl,c2,. . .,ck,设每个样本向量为& =[dn, d12,... , dln],其中n为向量维度,本例中k = 5,n = 100 ;2)将每个样本向量按欧氏距离lh-c'l 二 minlh —。||归入聚类中心为Ci的类;
J3)重新调整聚类中心 令(^ = [cn,ci2,cin],其中
队是第i个
类别中的向量数;4)如果3)中的聚类中心不再变化,则停止迭代;否则,转至2)。步骤106 分析话务结构和消费行为筛选均为疑似虚开用户的前100次通话时间 间隔的聚类结果,由表1可知第一类用户3205户,入网24小时之内发生了通话行为,表面上看这类用户不是虚 开的,三天内通话5次,但第7和第8次通话间隔时间持续一周左右。第二类用户4782户,入网后基本没有通话。第三类用户36584户,通话间隔时间较为均勻,为正常使用的用户。第四类用户3491户,入网后48小时之内通话3次,第3和第4次通话时间间隔近 10天,第5和第6次通话间隔时间更长达2个月。第五类用户1361户,入网初期通话行为与正常用户相似,只是通话间隔时间是正 常用户群的3 4倍,但随着时间的推移,通话稀少,这类用户具有潜在的离网风险。最终锁定第一、二和四类为虚开客户,共计11,478,占当月有效的新发展CDMA用 户 125,629 的 9. 1%。本实施例基于聚类的移动通信业务虚开用户识别的应用如下利用所述虚开用户识别的建模,定期对移动通信业务的新发展用户的话务结构、 消费行为和通话行为的特征深入挖掘,锁定其中貌似正常但以骗取代理佣金为目的的虚开 用户,并通过与定购套餐、入网地域、发展渠道等进行关联分析,建立新发展用户质量评估 体系,实现代理商的绩效考核,为制定合理的代理佣金标准提供可靠的依据,使销售政策与 质量评估挂钩,佣金政策与质量评估挂钩,赠费、赠款政策与质量评估挂钩。实施例2本实施例描述了实现一种基于聚类的移动通信业务用户虚开识别方法的计算机 程序流程,具体步骤如下步骤201 获取如下数据1)汇总移动通信业务新发展用户的月计费总时长total_Call_time、月主叫计费 时长zj_time、月被叫计费时长bj_time、月本地主叫计费时长local_z j_time、月本地被叫 计费时长loCal_bj_time、月长途主叫计费时长long_Zj_time、月长途被叫计费时长long_ bj_time、月计费总次数total_charge_time、月主叫计费次数z j_charge_time、月被叫计 费次数b j_charge_t ime、月本地主叫计费次数1 ocal_z j_charge_t ime、月本地被叫计费次 数local_bj_charge_time、月长途主叫计费次数long_z j_charge_time和月长途被叫计费 次数 long_b j_charge_time ;2)计算移动通信业务新发展用户的日均消费额aVg_arpU ;3)汇总移动通信业务新发展用户入网后100次通话时间的间隔屯,d2,. . .,d1QQ。步骤202 数据清洗,剔除无效的新发展用户,即Nvalid = Ntotal-Ninvalid ;
步骤203 判断有效的新发展用户的月计费总时长total_Call_time、月主叫计费 时长z j_time等14个话务结构关键指标值是否大于当月在网用户的平均值,如果有效的新 发展用户的14个话务结构关键指标值均大于当月在网用户的平均值,则是正常用户;否则 为疑似虚开用户。步骤204 判断经话务结构筛选判定为疑似虚开用户的aVg_arpu是否大于在网用 户日均消费额,如果大于,则是正常用户;否则为疑似虚开用户;步骤205 对经话务结构和消费行为筛选后均为疑似虚开用户的入网后前100次 通话时间间隔,设每个样本向量为队=[dn, d12,... , dln],其中n为向量的维度,随机选择 k个样本作为初始的聚类中心Cl,c2,. . .,ck,本例中k = 5,n = 100 ;步骤206 按欧氏距离Ik -Mhminlb 归入聚类中心为Ci的类;
J步骤207:将每个样本向量重新调整聚类中心 令(^ = [cn, ci2, cin],其中
队是第i个类别中的向量数; im N,步骤208 如果步骤207中的聚类中心不再变化,则转至步骤209 ;否则,转至步骤 206 ;步骤209 分析聚类结果,确定真正的虚开用户。本发明具有如下优点1.识别准确因为其识别原理,采用了三个层次逐级筛选的识别方法,识别虚开 用户的精度较高;2.动态识别因为聚类过程中,采用了半监督的聚类算法,引入了聚类类别数k, 由于聚类类别数是可以控制的,所以聚类的效果也是可以控制的。随着实际情况的不同,改 变k值,保证算法收敛,实现动态识别虚开用户;3.高效性识别过程中抽取了一系列关键指标,从多个维度刻画了虚开用户的典 型特征,操作简单,成本低。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
一种基于聚类的移动通信业务用户虚开识别方法,其特征在于,所述方法包括如下步骤步骤101,数据准备,获取移动通信业务新发展用户近期的通话详单和出帐费用明细数据;步骤102,数据清洗,过滤掉无效的新发展用户;步骤103,话务结构筛选,对于有效的新发展用户根据其话务结构的关键指标进行判别,划分为正常和疑似虚开两类用户,即如果有效的新发展用户的14个话务结构关键指标值均大于当月在网用户平均值的为正常用户,否则为疑似虚开用户,所述话务结构的关键指标包括月计费总时长、月主叫计费时长、月被叫计费时长、月本地主叫计费时长、月本地被叫计费时长、月长途主叫计费时长、月长途被叫计费时长、月计费总次数、月主叫计费次数、月被叫计费次数、月本地主叫计费次数、月本地被叫计费次数、月长途主叫计费次数和月长途被叫计费次数,共14个;步骤104,消费行为筛选,针对话务结构筛选后判定为疑似虚开的用户,根据其消费行为的关键指标进行判别,划分为正常和疑似虚开两类用户,即日均消费额大于在网用户日均消费额的为正常用户,否则为疑似虚开用户;步骤105,通话行为筛选,针对经话务结构和消费行为筛选均判定为疑似虚开的用户,利用其入网后前100次通话时间间隔进行聚类分析;步骤106,虚开用户锁定,分析聚类结果,确定真正的虚开用户。
2.根据权利要求1所述的一种基于聚类的移动通信业务用户虚开识别方法,其特征在 于,步骤105中对经话务结构和消费行为筛选均判定为疑似虚开用户的前100次通话时间 间隔进行聚类的一种算法为1)随机选择!^个样本作为初始的聚类中心^,^”…,^,设每个样本向量为化=[dn, d12,...,dln],其中η为向量的维度;2)将每个样本向量按欧氏距离Ih-Mhminh-cJ归入聚类中心为Ci的类;J3)重新调整聚类中心Ci,令Ci=[cn,Ci2,Cin],其中二五,''Ni是第i个类别c,m N1中的向量数;4)如果3)中的聚类中心不再变化,则停止迭代;否则,转至2)。
全文摘要
基于聚类的移动通信业务用户虚开识别方法,属于数据挖掘领域。为了在众多的移动通信业务新发展用户中识别以骗取代理佣金为目的的虚开用户,本发明公开了一种基于聚类的移动通信业务用户虚开识别方法。1.以移动通信业务新发展用户为分析对象,采集新发展用户近期话务结构、消费行为和通话行为的特征;2.经过数据清洗过滤无效的新发展用户;3.利用话务结构和消费行为的关键指标进行甄别,然后针对通话行为进行聚类分析,完成识别虚开用户的建模过程。通过识别虚开用户,可以对新发展用户质量进行监控,规避市场风险。建立新发展用户质量评估体系,为代理商绩效考核以及代理佣金合理标准的制定提供科学依据。
文档编号G06Q10/00GK101882146SQ20101017469
公开日2010年11月10日 申请日期2010年5月18日 优先权日2010年5月18日
发明者郑岩 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1