一种基于迭代决策树的电信用户分类方法与流程

文档序号:15493705发布日期:2018-09-21 21:11阅读:137来源:国知局
本发明属于人工智能、数据挖掘领域,具体涉及一种基于迭代决策树的电信用户分类方法。
背景技术
:1.移动营销技术移动营销近年来受到广泛研究,一方面,有人从理论上研究了为什么消费者能接受手机作为宣传信息的方式。通过实证研究,他们发现利用手机客户端进行移动营销时,其能否被用户接受的关键在于所提供的信息对于客户来说所具备的娱乐性以及价值高低。另一方面,有人根据消费者/用户的生活方式、使用动机和产品/服务属性等要素,通过要素分析和聚类分析方法,以实证研究的方式研究了意大利手机用户的行为。还有人则调查了消费者对智能手机时代移动营销的态度,发现虽然手机功能和用户使用频率在不断提高,但消费者持续抱有对移动营销传播的负面态度。现有一种大数据移动营销分析和广告推荐框架,该框架支持离线和在线广告业务,其分析技术是根据移动用户的个人资料、网站访问行为、移动情况等大数据来进行广告推荐。还有一种新的混合多属性决策模型,提出了一个移动电子商务的评估模型,该模型能够提升用户在模糊环境中对不确定移动电子商务信息的接受程度。2.电信用户分类技术电信用户分类是移动营销中的重要一环,现有一种基于遗传算法的方法来增强案例推理的案例匹配过程,然后在此基础上又开发了一个原型ga-cbr系统来预测电信客户购买保险的行为,并找出最有可能与最不可能购买保险的顾客。现有技术公开了一种基于案例推理系统的数据降维技术,使用遗传算法从垂直和水平方向对数据进行降维处理。现有技术还包括一个客户分类模型,利用现有客户的数据来挖掘出他们的购买模式。该模型首先独立使用几种分类技术,然后用遗传算法来综合不同的分类结果。有学者研究了电信客户分类问题,他们提出了一种使用支持向量机和人工神经网络技术对电信客户数据进行分类并确定最适合客户群的增值服务的方法。从分类的客户群中,他们推导出具有模糊属性的分类规则。还有学者则通过考虑数据分布的不平衡性来研究客户分类问题。他们将集成学习与成本敏感学习相结合,并提出了一种用于不平衡数据的动态分类器集成方法,可以为每个客户自适应地选择动态集成方法。还包括一种用于移动用户分类的改进决策树算法,该算法引入遗传算法来优化决策树算法的结果。在他此模型中,由于分类属性提高了预测的准确性,此模型可以将移动用户分为四类:普通用户,商务用户,高级商务用户和金牌用户。3.决策树技术决策树是一种计算智能技术,得益于其简单性和高效性,已被广泛应用于机器学习和数据挖掘领域。它是一个决策支持工具,使用树状图或决策模型来进行表示,其决策结果包括机会事件结果,资源成本和效用等。现有一种新的顾客生命周期模型,其中包括五个决策模型,即当前价值、历史价值、长期价值预测、信用和忠诚度。此模型使用决策树方法来提取与长期价值、信用和忠诚度有关的重要参数,然后建立客户价值评估体系。还包括一种用于移动用户分类的改进决策树算法,并引入遗传算法来优化决策树算法的结果。通过在真实数据集上的测试,显示了该算法与c4.5决策树和svm算法相比在分类准确性方面的优越性。一种新的并行化决策树算法,以改善海量数据挖掘应用中的数据处理延迟问题。模型中使用cpu进行流量控制,并使用gpu进行计算。结果表明,与传统的基于cpu的方法相比,该方法可以显着提高时间效率。还有一种通过考虑时间和成本约束来研究决策树,将重点放在如何在有限时间内完成分类任务,从而构建出决策树。从而开发了一种构建时间受限的最小代价树算法,当时间充裕时,该算法会选择能带来最大收益的决策属性,当时间受限时,该算法会选择时间效率最高的决策属性。电信用户分类是移动营销中的重要一环,只有对用户进行精准定位,才能在移动营销中针对性地向用户推销产品和服务。然而目前电信运营商在对用户进行分类时,主要是基于用户的个人资料信息,如姓名、性别、所在地等,没有充分利用运营商自身丰富的用户通话和短信记录等数据,导致传统分类方法准确性较低。技术实现要素:为克服传统分类方法中存在的上述缺陷,本发明利用电信运营商的校园基站数据中丰富的用户短信和通话记录,构建用户的社交关系网络,并对用户的关系网络进行全面统计分析,提取用户特征,在此基础上,提出一种基于迭代决策树的分类算法来识别学生用户和非学生用户。为达到上述目的,本发明提供了一种基于迭代决策树的电信用户分类方法,包括以下步骤:s1:根据用户的基本信息、通话、短信记录构建用户社交关系网络g(v,e);s2:从用户社交关系网络g(v,e)中抽取特征,或者根据已分类的用户更新其他用户的特征;s3:应用迭代决策树算法对g(v,e)中所有未分类的用户进行分类,即判断用户的学生好友与非学生好友的数量差是否超过了阈值参数l,即是否满足|sfriend-nfriend|≥l;若满足,则对用户进行分类,并将成功分类的用户数记为κ;k若κ>k,回到步骤s2,否则进入步骤s4;其中,参数sfriend表示社交关系网络g(v,e)中某用户的学生好友数,参数nfriend表示社交关系网络g(v,e)中某用户的非学生好友数,参数l为可动态调整的阈值参数,k为预设的用于判断是否继续迭代的迭代参数;s4:令l=l-1;若l≥0,返回步骤s2,否则进入步骤s5;s5:输出分类结果。进一步,在步骤s1中,社交关系网络g(v,e)的建立方法为:对于每个用户,创建一个节点u∈v来表示;如果有两个用户u和v之间有电话或短信记录,则在他们之间创建边e(u,v)∈e。进一步,在步骤s2中,抽取的特征包括用户的好友数、用户的学生好友数、用户的非学生好友数和用户在同一学校的学生好友数。进一步,在步骤s3中,若nfriend-sfriend≥l,则将该用户分类为非学生用户;若则将该用户分类为学生用户;若sfriend-nfriend≥l,且则将该用户分类为非学生用户;其中,参数cfriend表示社交关系网络g(v,e)中该用户在同一学校的学生好友数,参数friend表示社交关系网络g(v,e)中该用户的好友总数,参数c为预设的比例参数。本发明的有益效果在于:与传统的决策树相比,本发明所述的迭代决策树具有一些显著的区别。传统决策树的每个叶节点都应该对应某个确定的分类结果,但本发明所述的迭代决策树可以不对用户进行分类,即不满足|sfriend-nfriend|≥l条件的用户不进行分类,再通过迭代的方式,根据统计得到的特征,结合用户的好友圈,先将辨识度较高的用户,即满足条件|sfriend-nfriend|≥l的用户进行分类。然后,经过一轮分类,用户关系网络中被成功分类的那些用户的标签会发生改变,新分类的用户会改变其他尚未分类用户的好友圈分布情况。而这些未分类用户因为好友圈的分布发生了改变,又可以利用上述决策树在下一轮对他们进行分类。即用户虽然在上一轮没能成功分类,但是利用上一轮新分出的结果,可能会在这一轮成功分类。一直进行这样的迭代过程,直到所有用户都成功分类。为了保证最后所有用户都能成功分类,阈值l不设为固定数值,而是一个动态参数,它会在迭代过程中不断调整,当l等于0时,分类条件|sfriend-nfriend|≥l一定可以满足,因此能够保证所有客户都分类成功。本发明为电信客户分类和基于决策树的算法的应用提供了一个新的视角,尤其是在训练集较少的情况下能达到很低的错误率,可以克服训练集占比高导致的过拟合影响,实现用户的精准定位。附图说明为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:图1为本发明实施例中所述中国联通运营商收集用户数据示意图;图2为本发明实施例中所述不同类型用户的好友分布;图3为本发明实施例中所述学生用户的好友分布;图4为本发明实施例中所述非学生用户的好友分布;图5为本发明实施例中所述不同类型用户的同校好友分布;图6为本发明实施例中所述的决策树结构;图7为本发明实施例中所述的迭代决策树(itdt)算法流程图;图8为本发明实施例中所述的当l=1时,参数k对预测效果的影响;图9为本发明实施例中所述的当l=2时,参数k对预测效果的影响;图10为本发明实施例中所述的当l=3时,参数k对预测效果的影响;图11为本发明实施例中所述的当k=500时,参数l对预测效果的影响;图12为本发明实施例中所述的当k=2000时,参数l对预测效果的影响;图13为本发明实施例中所述的当k=1000时,参数l和c对预测效果的影响。具体实施方式下面将结合附图,对本发明的优选实施例进行详细的描述。在本实施例中,我们的数据集由中国联通提供,数据是通过校园周围的基站收集,其数据收集示例如图1所示。电信用户分为两类:i)学生用户,例如本科生和研究生;ii)非学生用户,例如教师、学校管理员、外来人员等。当装有中国联通sim卡的移动终端出现在基站附近时,会与基站进行信息传递,其通话和短信数据将被基站记录。中国联通将数据中涉及隐私的部分进行处理之后,最终提供的数据集包括以下三类电信用户信息:基本信息,包括用户id、学校id和用户类型(学生或非学生);通话记录,包括主叫/被叫电话号码、通话次数、以及通话总时间(单位:分钟);短信记录,包括发送方/接收方电话号码和短息记录条数。数据集中包含三个月的用户数据,总共有150多万条用户信息,其中已标记的用户记录超过15万条,占总数的10%。针对每个用户u,其类型标记label(u)表示如下:数据集的基本统计情况如表1所示。表1属性值用户数1,551,541学校数127已标记用户数155,154已标记学生用户数77577已标记非学生用户数77,577通话记录总数14,762,483通话平均时长(分钟)13.9短信记录总数7,788,911平均短信数5.0根据电信用户的基本信息、电话和短信记录,首先建立用户的社交关系网络g(v,e),其具体方式如下:对于每个电信用户,创建一个节点u∈v来表示;如果有两个用户u和v之间有电话或短信记录,则在他们之间创建边e(u,v)∈e。边e(u,v)可以根据两个用户之间的交流频率进行加权,也可以根据用户之间的信息传递方向对边的方向进行指定。本实施例中主要考虑了无向无权的情况,但本发明的算法同样适用于有向或带权网络。构建了用户社交网络g(v,e)后,进一步对网络进行统计分析,从而提取出用于识别用户的特征。对于每个用户,本实施例所考虑的特征包括:u的好友数,u的学生好友数,u的非学生好友数,u在同一学校的学生好友数等。针对某个用户u,表2给出了其相关特征及其含义。表2然后对这些特征的分布进行统计分析。图2展示了学生和非学生用户的好友数分布情况,从中可以发现两种不同类型的用户具有完全不同的朋友圈分布规律:非学生用户的好友数呈幂律分布,而学生用户的好友呈现出两个瑞利(rayleigh)分布的叠加模型。总体来说,学生用户比非学生用户拥有更多的好友。经过统计,学生和非学生用户的平均好友数分别为29.1和7.6。图3显示了学生用户的学生好友和非学生好友分布情况:学生用户通常拥有更多的学生好友,而非学生好友相对较少。学生用户的学生好友和非学生好友的平均数分别为6.21和0.46,差异显著。此外,随着好友总数的增加,学生用户的非学生好友数会迅速衰减。图4显示了非学生用户的学生好友和非学生好友分布情况:虽然非学生用户的学生好友和非学生好友数都呈幂律分布,但学生好友数明显少于非学生好友数。非学生用户的学生好友和非学生好友的平均数分别为0.46和0.78。图5显示了来自同一所学校的两种类型用户的好友分布情况。非学生用户的同校好友数呈现出明显的幂律分布,而学生用户的同校好友数分布是两个高斯分布的叠加。此外,学生用户的同校好友数明显多于非学生用户。学生用户和非学生用户的平均同校好友数分别为23.48和5.10。通过上述统计分析,我们发现以下规律:学生用户通常比非学生用户拥有更多的好友;学生用户的学生好友一般比非学生好友多,非学生用户的学生好友一般比非学生好友少;当学生用户有很多好友时,其学生好友明显多于非学生好友;学生用户的同校好友用户比例较高,而非学生用户的同校好友比例较低。结合在数据处理部分统计分析得到的四点相关结论,本实施例提供了一种迭代决策树(itdt)。迭代决策树的结构如图6所示,在简单特征判断基础上引入了两个阈值参数l和c。因为学生用户有更多学生好友,非学生用户有更多非学生好友,所以对某个用户分类时,首先考虑其学生好友与非学生好友的数量差是否超过l,即是否满足|sfriend-nfriend|≥l。若满足,则可以对用户进行分类;若不满足,则不对用户分类。若nfriend-sfriend≥l,则将该用户分类为非学生用户;若sfriend-nfriend≥l,则需要结合这一特征进一步讨论。在sfriend-nfriend≥l的前提下,若则将该用户分类为学生用户;若则将该用户分类为非学生用户。基于以上说明,如图7所示,本实施例提供的基于迭代决策树的电信用户分类方法具体包括如下步骤:101:根据用户的基本信息、通话、短信记录构建用户社交关系网络g(v,e);102:从用户社交关系网络g(v,e)中抽取特征,或者根据已分类的用户更新其他用户的特征;103:应用上述迭代决策树对为g(v,e)中所有未分类的用户进行分类,并将成功分类的用户数记为κ。k若κ>k,回到步骤102,否则进入步骤104,其中k为预设的用于判断是否继续迭代的迭代参数;104:令l=l-1,其中l为上述迭代决策树的参数。若l≥0,返回步骤102,否则进入步骤105;105:输出分类结果。在本实施例中,中国联通提供的数据集中总共有150多万条用户信息,其中已标记的用户记录超过15万条。随机选择10%-90%的已标记用户作为训练集,则剩下的已标记用户作为测试集。以errorrate为评估指标对itdt算法的预测效果进行评估,errorrate的定义如下:其中#incorrectpredictions表示错误预测数,#totalpredictions表示预测总数。这也是一项常见的用来评估预测准确率的指标。在评估参数k对算法效果的影响时,将参数k的值设为{100,500,1000,2000},且c=0,参数k的不同取值对预测效果的影响如图8、图9、图10所示,其中l的取值分别是1、2和3。总体来说,随着训练集比例的提高,测试集的正确率也会增加。但是,在图8到图10中,不同k值的曲线彼此重叠,说明参数k对预测性能的影响非常有限。在评估参数l对预测效果的影响时,为了避免参数c的影响,将其设置为c=0,然后参数l的值从集合{1,2,3}中选取。分别给出当k=500和k=2000时,不同l取值对应的errorrate变化情况,其结果如图11、12所示。通过对比发现,l对预测结果影响较大,尤其当训练集占比较低时。例如,当训练集比例低于30%时,l=1比l=3的预测效果好。但是随着训练集比例的升高,l=1的优势不再明显,反而l=2的效果最佳。在评估参数c对预测效果的影响时,其结果如图13所示,在有和没有c的结果,参数组合c=0.15,l=2能显著提高不同训练集比例下的预测精度。除了训练集比例为10%的情况,在其他训练集比例下c=0.15始终在预测准确性方面表现最佳。最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1