专利名称:基于决策树的网外客服号码识别方法
技术领域:
本发明属于电信运营商业务数据挖掘分析应用技术领域,尤其是竞争对手运营商
策反用户号码识别方法。
背景技术:
在电信行业运营商之间竞争日益激烈的今天,处于劣势的运营商开始瞄准了具有 领先优势的运营商长期建立起来的高价值用户,不断利用运营商用户之间的互通数据,通 过客服人员抢挖其他运营商的中高端用户,使其造成大量的用户流失和收益下滑。为扭转 竞争对手对本企业用户的策反带来的损失,企业需要建立应对机制,而策反号码的识别将 是此应对机制的基础,并在此基础上方能实施维系挽留策略。 决策树是分类挖掘的主要方法之一,本方法采用C5. 0算法生成决策树。C5. 0算法 根据能够带来最大信息增益的字段拆分样本。第一次拆分确定的样本子集随后再次拆分, 通常是根据另一个字段进行拆分,这一过程重复进行直到样本子集不能再被拆分为止。最 后,重新检验最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者修剪。
目前,电信行业尚未出现网外客服号码识别系统和成熟的识别手段。本方法在统 计分析运营商互通数据的基础上,采用数据挖掘决策树方法实现对网外客服号码的识别。
发明内容
发明目的 为了解决电信行业尚未出现网外客服号码识别系统和成熟的识别手段的问题。
竞争对手运营商可以通过互通话单分析出我方的中高端用户,并以此为依据通过 拨打我方中高端用户号码实施策反。网外客服号码识别模型主要用于甄别疑似竞争对手客 服号码,并通过分析话单查询出其呼出的我方中高端用户,并对此类用户进行重点关注,并 实施中高端用户的维系挽留工作。
技术方案 —种基于决策树的网外客服号码识别方法,在统计分析运营商互通数据的基础 上,采用数据挖掘决策树方法实现对策反号码的识别,具体步骤是对本网内用户通信情况 监控,对疑似号码进行甄别,得出网外客服号码 1)通过统计互通通话清单找出在某特定时段内与网内用户通话的网外号码列表, 并以此作为初步疑似网外客服号码表; 2)找出上述网外号码列表中,拨打网内号码中60%以上为中高端互通用户的号 码,这说明网外号码拨打的用户是经过对互通数据分析得出的高价值号码清单,或者是通 过其他途径取得而非随机拨打; 3)对其余各疑似网外客服号码的拨打时段、拨打时长进行分析和挖掘;分析方法 采用决策树方法,步骤包括 3. 1)对已经获知的网外客服号码的拨打时段、通话特征进行分析,提取与其相关
3的特征指标,如拨打时间、拨打时长、是否拨打我方中高端用户号码及占比、拨打次数等。
3. 2)建立数据流,以疑似网外客服号码的特征指标值作为预测条件,以是否为网 外客服号码作为预测结果来训练模型; 3. 3)使用测试集、验证集数据对模型进行验证,验证方法是通过数据挖掘指标命
中率和查全率来确认。 有益效果 目前,电信行业尚未出现网外客服号码识别系统和成熟的识别手段。本方法在统 计分析运营商互通数据的基础上,结合数据挖掘决策树方法实现对策反号码的识别,经大 量反复试验识别成功率均保持在60%以上。
图1是实施例中甄别网外客服号码过程示意图。
图2是实施例中网外客服号码识别决策树。
具体实施例方式
—种基于决策树的网外客服号码识别方法,在统计分析运营商互通数据的基础 上,采用数据挖掘决策树方法实现对策反号码的识别,具体步骤是对本网内用户通信情况 监控,对疑似号码进行甄别,得出网外客服号码 1)通过统计互通通话清单找出在某特定时段内与网内用户通话的网外号码列表, 并以此作为初步疑似网外客服号码表; 2)找出上述网外号码列表中,拨打网内号码中60%以上为中高端互通用户的号 码,这说明网外号码拨打的用户是经过对互通数据分析得出的高价值号码清单,或者是通 过其他途径取得而非随机拨打; 3)对其余各疑似网外客服号码的拨打时段、拨打时长进行分析和挖掘;分析方法 采用决策树方法,步骤包括 3. 1)对已经获知的网外客服号码的拨打时段、通话特征进行分析,提取与其相关 的特征指标,如拨打时间、拨打时长、是否拨打我方中高端用户号码及占比、拨打次数等。
3. 2)建立数据流,以疑似网外客服号码的特征指标值作为预测条件,以是否为网 外客服号码作为预测结果来训练模型; 3. 3)使用测试集、验证集数据对模型进行验证,验证方法是通过数据挖掘指标命 中率和查全率来确认。 图2中,节点0——节点1、2,先区别通话总量,初步提取疑似网外客服号码表;节 点2——节点3、6,进一步提取疑似网外客服号码;节点3——节点4、5,以及节点6——节 点7、8是对疑似网外客服号码的拨打时段、拨打时长进行分析和挖掘。
本例中, 疑似竞争对手客服号码甄别模型主要通过三个步骤进行筛选。 第一步通过统计互通通话清单找出在某时段内(如1个月)与我方运营商用户 通话的竞争对手号码列表,并以此作为初步疑似竞争对手客服号码表。
第二步找出上述竞争对手号码列表中,拨打我方号码60%以上为中高端互通用户(互通时间在80分钟以上)的号码。这将说明对方拨打的用户是经过对互通数据分析 得出的高价值号码清单,或者是通过其他途径取得而非随机拨打。 第三步通过第二步过滤后,对其余各疑似竞争对手运营商客服号码的拨打时段、 拨打时长进行分析和挖掘。分析方法主要采用决策树方法。 首先,对已经获知的竞争对手号码的拨打时段、通话特征进行分析,提取与其相关 的特征指标。需要通过数据探索,确定预测条件、预测结果定义; 其次,建立数据流,以疑似网外客服号码的特征指标值作为预测条件,以是否为网 外客服号码作为预测结果来训练模型; 然后,使用测试集、验证集数据对模型进行验证,验证方法主要通过各种数据挖掘 指标(如命中率、查全率)来确认; 最后,将模型应用到实际营销服务过程中,对预测效果进行检验,并实时调整模 型。 具体来说, 假设中国移动作为我方运营商,联通作为竞争对手。本方法目标是通过分析移动 用户与联通用户的互通通话清单信息,识别出联通客服人员策反号码。分析对象是某省移 动用户与该省联通用户的互通通话清单。 疑似竞争对手客服号码甄别模型主要通过三个步骤进行筛选。 第一步找出在2009年5月与300个以上中国移动用户通话的竞争对手(联通)
号码列表,并以此作为初步疑似竞争对手客服号码表。 第二步找出上述竞争对手号码列表中,拨打我方号码60%以上为中高端互通用 户(互通时间在80分钟以上)的号码,可以通过以下四个步骤实现 (1)找出所有互通话务量较大的中国移动用户(月均互通通话时长大于80分
钟),以此认定为本模型的高价值互通用户。
(2)建立疑似联通客服拨打移动高价值用户明细清单。 (3)统计疑似联通客服号码与我高价值用户通话次数、与非高价值用户通话总数、 高价值用户比例。 (4)将以上拨打我高价值用户比例较高的疑似联通或电信客服号码进行筛选(拨 打移动高价值互通用户比例60%以上)。 第三步通过第二步过滤后,对其余各疑似联通或电信客服号码的拨打时段、拨打 时长进行分析和挖掘。分析方法主要采用决策树方法。 首先,对已经获知的2009年4月网外客服号码的拨打时段、通话特征进行分析,找 出与其相关的特征指标。发现联通客服号码的特点包括客服号码集中在某个连续号段、 客服号码每日在工作时间拨打我方号码(周六、日没有互通数据)、客服号码拨打的用户群 60%以上是我方的中高端用户、每次互通时间约在5分钟以内。 其次,建立数据流,以上面疑似网外客服号码的特征指标值作为预测条件,以是否 为网外客服号码(0或1表示)作为预测结果来训练模型。 然后,将4月份策反号码分为两组测试集和验证集。测试集和验证集均包含真实
的策反号码和普通异网号码两种类型。测试集用于建立决策树模型,验证集对模型的命中 率和查全率进行检验,以验证预测模型的准确率。
5
最后,将5月份疑似网外客服号码数据应用到预测模型中,生成在此时段的网外 客服号码。
权利要求
基于决策树的网外客服号码识别方法,其特征是在统计分析运营商互通数据的基础上,采用数据挖掘决策树方法实现对策反号码的识别,具体步骤是对本网内用户通信情况监控,对疑似号码进行甄别,得出网外客服号码1)通过统计互通通话清单找出在某特定时段内与网内用户通话的网外号码列表,并以此作为初步疑似网外客服号码表;2)找出上述网外号码列表中,拨打网内号码中60%以上为中高端互通用户的号码,这说明网外号码拨打的用户是经过对互通数据分析得出的高价值号码清单,或者是通过其他途径取得而非随机拨打;3)对其余各疑似网外客服号码的拨打时段、拨打时长进行分析和挖掘;分析方法采用决策树方法,步骤包括3.1)对已经获知的网外客服号码的拨打时段、通话特征进行分析,提取与其相关的特征指标,如拨打时间、拨打时长、是否拨打我方中高端用户号码及占比、拨打次数等。3.2)建立数据流,以疑似网外客服号码的特征指标值作为预测条件,以是否为网外客服号码作为预测结果来训练模型;3.3)使用测试集、验证集数据对模型进行验证,验证方法是通过数据挖掘指标的命中率和查全率来确认。
全文摘要
一种基于决策树的网外客服号码识别方法,在统计分析运营商互通数据的基础上,采用数据挖掘决策树方法实现对策反号码的识别,具体步骤是对本网内用户通信情况监控,对疑似号码进行甄别,得出网外客服号码。本方法在统计分析运营商互通数据的基础上,结合数据挖掘决策树方法实现对策反号码的识别,经大量反复试验识别成功率均保持在60%以上。
文档编号H04W24/06GK101715205SQ200910212449
公开日2010年5月26日 申请日期2009年11月11日 优先权日2009年11月11日
发明者庞海东, 曹晓华, 李捷, 王恒, 赵懿敏 申请人:南京联创科技集团股份有限公司