针对快递员周边人群营销中快递员数据的识别方法

文档序号:6635040阅读:670来源:国知局
针对快递员周边人群营销中快递员数据的识别方法
【专利摘要】本发明公开一种针对快递员周边人群营销中快递员数据的识别方法,其首先从经分数据仓库和流量数据仓库中获取快递员用户基本信息、通信信息和位置信息,并关联形成事实宽表;对事实宽表中的多个样本数据进行正负样本分类,然后以相同正负样本比例将事实宽表中数据分为训练集、验证集;再对训练集正、负样本数据进行预处理,进而利用DTRA算法,生成快递员用户特征规则集,并依据特征规则验证验证集中的正、负样本用户;再利用DTRA算法生成潜在快递员数据;最后进行模型效果评估。本发明通过利用机器学习替代传统人工经验挖掘,提高数据挖掘的准确度,并基于分布式大数据处理平台,实现从传统数据库(Oracle)的抽样挖掘到全量数据挖掘,提升数据挖掘性能。
【专利说明】针对快递员周边人群营销中快递员数据的识别方法

【技术领域】
[0001] 本发明涉及数据挖掘技术,特别是一种在针对快递员周边人群进行营销活动过程 中,快递员数据的识别方法。

【背景技术】
[0002] 在针对快递员周边人群进行营销活动时,首先要对快递员数据进行挖掘,进而得 到其周边营销目标人群数据,其中快递员数据的识别挖掘方法一般为,从A 口信令(在基站 控制器BSC和移动业务交互中也MSC之间传送的控制面信令数据,例如:寻呼事件、位置更 新事件、漫游事件等)中获取用户位置信息,从经分数据仓库获取用户语音话单、短信话单 和用户基础资料,在传统化acle数据库中通过用户手机号码将用户位置信息、语音话单信 息、短信话单信息和用户基础资料关联起来,根据下面的算法识别出快递人员: W "人为发现,经验挖掘"的方式,通过统计方法识别快递人员,具体为, 1、 连续5天工作时间(早上8点到下午6点)在固定地点短时间内跟大量用户(阔值 暂定20 W上)发生短时间通话(小于一分钟)或者短信行为,确定问疑似快递人员; 2、 小于18岁的或者大于50岁的不太可能是快递人员,排除; 3、 人工方式录入快递人员,移动公司员工有网行为得到的快递人员可W录入到系统 中; 4、 对疑似快递人员通过外呼的方式确认; 上述数据挖掘方式,在传统数据库的racle)上识别快递人员的过程中,准确度、处理 性能上具有如下缺陷: 1、识别准确度低,且无法把控:人为的制定规则来识别快递员,是通过经验一点一点积 累,个人业务能力有限,无法保证较高的识别准确度;另外,人与人之间经验不同,靠经验去 进行快递员识别,缺乏统一的、标准的算法,准确度无法保障。
[0003] 2、性能低,且无法进行大数据挖掘;随着数据量的增加,数据间关联操作较多,通 过传统数据库的racle)无法满足基本的数据挖掘分析。


【发明内容】

[0004] 本发明要解决的技术问题为;通过利用机器学习替代传统人工经验挖掘,提高数 据挖掘的准确度,并基于分布式大数据处理平台,实现从传统数据库的racle)的抽样挖掘 到全量数据挖掘,提升数据挖掘性能。
[0005] 本发明采取的技术手段具体为;一种针对快递员周边人群营销中快递员数据的识 别方法,包括W下步骤: 1) 从经分数据仓库中获取疑似快递员用户基本信息和通信信息;从流量数据仓库中 获取疑似快递员用户位置信息,并关联形成一张包含多个疑似快递员用户信息的事实宽 表; 2) 将事实宽表中多个疑似快递员信息数据随机分为两部分:一部分为训练集,一部分 为验证集,其中, 训练集中的样本数据按正、负样本比例1 :2输入,所述正样本数据为已确定为快递员 的用户,负样本数据为已确定非快递员的用户; 4) 对训练集正、负样本数据进行预处理,清除其中的异常值、错值、空值; 5) W训练集中正、负样本数据对应的快递员用户特征为基础数据,利用分类算法中的 决策树推理DTRA算法,生成快递员用户特征规则集,并找到判定是否为快递员的因素组 合; 6) 根据判定是否为快递员的影响因素确定验证集中的正、负样本用户; 7) 利用DTRA算法,结合步骤5)中得到的因素组合,生成验证集中的潜在快递员数据标 识; 8) 模型效果评估;对原验证集中正负样本数据和步骤6)得到的验证集中正负样本数 据,利用混淆矩阵方法公式: 真正率=步骤6)验证结果中的正样本数目/原验证集中正样本的数目; 真负率=步骤6)验证结果中的负样本数目/原验证集中负样本的数目; 评估真正率与真负率整体准确度是否达到要求:如准确度达到设定百分比则对步骤 7)生成的潜在快递员数据标识进行输出;如准确度不能达到要求,则调整步骤5)中得到 的因素组合中各因素相对应的参数值,然后重复步骤6)至步骤8),直至模型准确度达到要 求,输出最终潜在快递员数据标识。真正率与真负率整体准确度可定义为真正率与真负率 的平均数,或真正率与真负率的乘积。
[0006] 本发明中经分数据仓库是通过获取综合营帐、计费、客服和结算等系统的数据源, 构建一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,为移动管理决策提 供支持;经分数据仓库与流量数据仓库皆为移动系统的现有数据仓库。
[0007] DTRA算法为现有算法,其与其它分类算法如统计方法、神经网络等比较起来有如 下优点;产生的分类规则易于理解,准确度较高。DTRA算法适于能够驻留于内存的数据集, 当训练集无法在内存中容纳时,将报出异常。
[0008] DTRA算法分为训练和测试两个阶段,在构造模型之前,要求将数据集随机地分为 训练数据集和测试数据集。在训练阶段,使用训练数据集,通过分析由属性描述的数据库元 组来构造模型,假定每个元组属于一个预定义的类,由一个称作类标号属性的属性来确定。 训练数据集中的单个元组也称作训练样本,一个具体样本的形式可为;(ul,u2,……un;c); 其中Ui表示属性值,C表示类别。由于提供了每个训练样本的类标号,该阶段也称为有指 导的学习,通常,模型用分类规则、判定树或数学公式的形式提供。在测试阶段,使用测试数 据集来评估模型的分类准确度,如果认为模型的准确度可W接受,就可W用该模型对其它 数据元组进行分类。本发明利用DTRA算法生成验证集和训练集中快递员用户特征或数据 标识的步骤为现有技术。
[0009] 在DTRA算法运用中重点关注自变量处理方法,包括;选取并评价自变量;通过RFM 算法分析自变量与目标变量的关系,得出各自变量对因变量的重要程度,选取对因变量影 响大的自变量,去除无影响的自变量;对自变量的相关性进行分析;W及通过相关性分析 得出哪些自变量是强相关的,识别出兀余变量。
[0010] 本发明在进行事实宽表数据获取时,所需获取的具体数据指标参考表1所示: 表I

【权利要求】
1. 针对快递员周边人群营销中快递员数据的识别方法,其特征是,包括以下步骤: 1) 从经分数据仓库中获取疑似快递员用户基本信息和通信信息;从流量数据仓库中 获取疑似快递员用户位置信息,并关联形成一张包含多个疑似快递员用户信息的事实宽 表; 2) 将事实宽表中多个疑似快递员信息数据随机分为两部分:一部分为训练集,一部分 为验证集; 3) 训练集中的样本数据按正、负样本比例1 :2输入,所述正样本数据为已确定为快递 员的用户,负样本数据为已确定非快递员的用户; 4) 对训练集正、负样本数据进行预处理,清除其中的异常值、错值、空值; 5) 以训练集中正、负样本数据对应的快递员用户特征为基础数据,利用分类算法中的 决策树推理DTRA算法,生成快递员用户特征规则集,并找到判定是否为快递员的因素组 合; 6) 根据判定是否为快递员的影响因素确定验证集中的正、负样本用户; 7) 利用DTRA算法,结合步骤5)中得到的因素组合,生成验证集中的潜在快递员数据标 识; 8) 模型效果评估:对原验证集中正负样本数据和步骤6)得到的验证集中正负样本数 据,利用混淆矩阵方法公式: 真正率=步骤6)验证结果中的正样本数目/原验证集中正样本的数目; 真负率=步骤6)验证结果中的负样本数目/原验证集中负样本的数目; 评估真正率与真负率整体准确度是否达到要求:如准确度达到设定百分比则对步骤 7)生成的潜在快递员数据标识进行输出;如准确度不能达到要求,则调整步骤5)中得到 的因素组合中各因素相对应的参数值,然后重复步骤6)至步骤8),直至模型准确度达到要 求。
2. 根据权利要求1所述的方法,其特征是,从经分数据仓库中获取的用户基本信息包 括用户编码、年龄、地市、区县、时段、品牌、套餐、手机号码和对端手机号码信息,通信信息 包括通话次数和短信次数信息;从流量数据仓库中获取的位置信息包括LAC和CELL轨迹数 据信息。
3. 根据权利要求1所述的方法,其特征是,步骤8)中,设定模型准确度百分比为85%。
【文档编号】G06F17/30GK104331502SQ201410666023
【公开日】2015年2月4日 申请日期:2014年11月19日 优先权日:2014年11月19日
【发明者】刘雷 申请人:亚信科技(南京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1