一种用于电信潜在换机用户发现的数据挖掘方法

文档序号:8473028阅读:239来源:国知局
一种用于电信潜在换机用户发现的数据挖掘方法
【技术领域】
[0001] 本发明涉及数据集构建方法、类别不均衡问题解决方法,以及在数据集上采用决 策树算法挖掘出电信潜在换机用户的技术。
【背景技术】
[0002] 利用数据挖掘技术可以智能分析电信用户数据,发现潜在的用户换机规律。常用 的电信潜在换机用户数据挖掘中有一类应用是决策树分类算法,其基于用户的消费数据、 换机信息等对用户未来的换机行为进行预测。本发明也使用了KNN算法和聚类算法对类别 不均衡数据进行了欠采样处理,构造数据平衡、分布均匀的数据集。同时在数据进行预处理 时使用信息增益率进行属性选择,选择合适的属性。也尝试用数据处理技术去除干扰性噪 音数据。
[0003] 电信行业的运营商几乎每分每秒都在产生大量的业务数据,这些实时海量的数据 对于运营商就像一座含有无数矿藏的矿山,本身并不能产生价值,但如果开采得当,就可以 得到想象不到的价值,而数据挖掘无疑就是最好的开采工具。在激烈的运营商竞争中,运用 数据挖掘去分析海量的业务数据,对理解商业行为、了解客户需求、把握产品和服务的走向 等等无疑有着不可估量的价值。
[0004] 基于数据挖掘进行潜在换机用户定位这一思路打破了传统经验总结的换机模型 的惯例,采用数据挖掘中的决策树算法可以深入挖掘用户换机的信息,发现用户更换手机 的特点以及用户换机的规律,克服了传统地人为经验总结不能更具针对性同时高精确性的 不足。
[0005] 近期以来,随着大数据时代的来临,将数据挖掘技术用于电信行业进行商业价值 提升逐渐成为一种趋势。

【发明内容】

[0006] 本发明的目的,构造预测用户换机行为所需的训练数据集和预测数据集,并在训 练数据集上采用KNN和聚类算法,以处理类别不均衡的数据集。最后在数据集上实施决策 树算法,以快速有效地发现潜在换机用户。
[0007] 为解决上述问题,本发明的技术方案是,用于电信潜在换机用户发现的数据挖掘 方法,包括如下步骤:
[0008] 1)数据集构造阶段:
[0009]a收集用户消费信息、用户历史换机信息、用户信息、终端信息;
[0010] b数据预处理,同时产生数据集;
[0011] c处理类别不均衡的数据集,形成最终的训练集和预测集;
[0012] d结束。
[0013] 2)挖掘阶段:
[0014]a获取步骤l)-c中处理生成的数据集;
[0015] b实施数据挖掘算法发现潜在换机用户;
[0016] c保存结果;
[0017] d结束。
[0018]步骤l)_a中所说的收集数据为收集电信客户的消费信息等相关数据。
[0019]步骤l)_b中所说的数据预处理具体过程如下:
[0020] 1)选择用户状态表中状态正常的用户作为我们的预测用户,每个用户都有一个唯 一的user_id;
[0021] 2)以时间点为分割,规划出每个用户在该时间点之前的消费信息、换机信息等,并 通过uSer_id关联起来,以当前月为时间分割点的是预测数据集,以前的其他月为时间分 割点的是训练数据集;
[0022] 3)求出每个属性的信息增益率,选择信息增益率大的属性,摒弃信息增益率小的
【主权项】
1.用于电信潜在换机用户发现的数据挖掘方法,其特征是包括如下步骤: 1) 数据集构造阶段: a收集用户的消费信息、用户历史换机信息、用户信息、终端信息;b数据预处理,同时产生数据集; C处理类别不均衡的数据集,形成最终的训练集和预测集;d结束; 2) 挖掘阶段: a获取步骤1)-C中处理生成的数据集;b实施数据挖掘算法发现潜在换机用户; C保存结果;d结束; 步骤1)-a中所说的收集数据为收集电信客户的消费信息等相关数据; 步骤l)-b中所说的数据预处理具体过程如下: 1)选择用户状态表中状态正常的用户作为我们的预测用户,每个用户都有一个唯一的user_id; 。则寸间点为分割,规划出每个用户在该时间点之前的消费信息、换机信息等,并通过user_id关联起来,W当前月为时间分割点的是预测数据集,W前的其他月为时间分割点的 是训练数据集; 3) 求出每个属性的信息增益率,选择信息增益率大的属性,擬弃信息增益率小的属性
其中S表示数据集,n表示数据集的类标中值的个数,Pi表示第i个值出现的概率,E(S) 表示数据集S的滴
属性A有n个取值Cl,C2. . .C。,将数据集S分为n个不相交的子集Si,S2. . .S。,ISI为数 据集的实例数,ISiI为数据集的第i个子集的实例数,E(S,A)表示数据集S由属性A分裂 后的滴计算公式 InfoGain化A) =E做-E(S,A) In化Gain化A)表示属性A的信息增益;
n。 。 4) 过滤掉消费属性值为空的数据; 5) 过滤掉用机时间属性值小于15天的数据; 6) 过滤掉历史用机个数属性值超于50个的数据; 7) 过滤掉手机imei重复的数据; 8) 为训练数据集的每一条记录添加类标; 9) 结束; 步骤1)-C具体过程如下: 1) 基于KNN算法对训练数据集中的边界数据进行过滤; 2) 对训练数据集中大类数据进行聚类; 3) 对聚类后的大类数据进行分层抽样; 4) 结合小类数据组合成最终的训练集; 5) 结束; 步骤2)-b中数据挖掘决策树算法的一次构建过程具体如下: 1) 创建一个根节点N; 2) 若训练数据集集为空,则标记节点N为空,并将其返回; 3) 若训练数据集属于同一个类标C,则将节点N标记为C,并将其作为叶子节点返回; 4) 若属性集合A为空,则将节点N标记为训练集中最多的那个类标M,并将其作为叶子 节点返回; 5) 对属性集合A中的每个属性进行离散型判断; 6) 将连续型属性离散化处理; 7) 选择属性集合A中信息增益最高的属性a; 8) 根据属性a的取值a=di对结点N进行分支划分,确定每个分支的子数据集; 9) 建立a=di的分支,并且节点N按该分支建立子结点N 10. WNi为根节点,属性aW外的属性为属性集,递归构建决策树。
【专利摘要】本发明提供用于电信潜在换机用户发现的数据挖掘方法,包括如下步骤:1)数据集构造阶段:a收集用户的消费信息、用户历史换机信息、用户信息、终端信息;b数据预处理,同时产生数据集;c处理类别不均衡的数据集,形成最终的训练集和预测集;挖掘阶段:a)获取步骤1-c中处理生成的数据集;b)实施决策树算法发现潜在换机用户;c)结束。本发明是基于数据挖掘的技术在电信用户中找出潜在的换机用户。和传统的方法相比更精确、更高效,具有实现简单、代价低等一系列的优点。
【IPC分类】G06F17-30
【公开号】CN104794195
【申请号】CN201510186319
【发明人】张雷, 张奎亮, 资帅, 彭岳, 蔡洋, 王崇骏, 李宁
【申请人】南京大学
【公开日】2015年7月22日
【申请日】2015年4月17日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1