针对快递员周边人群营销中快递员数据的识别方法

文档序号：6635040阅读：670来源：国知局

针对快递员周边人群营销中快递员数据的识别方法
【专利摘要】本发明公开一种针对快递员周边人群营销中快递员数据的识别方法，其首先从经分数据仓库和流量数据仓库中获取快递员用户基本信息、通信信息和位置信息，并关联形成事实宽表；对事实宽表中的多个样本数据进行正负样本分类，然后以相同正负样本比例将事实宽表中数据分为训练集、验证集；再对训练集正、负样本数据进行预处理，进而利用DTRA算法，生成快递员用户特征规则集，并依据特征规则验证验证集中的正、负样本用户；再利用DTRA算法生成潜在快递员数据；最后进行模型效果评估。本发明通过利用机器学习替代传统人工经验挖掘，提高数据挖掘的准确度，并基于分布式大数据处理平台，实现从传统数据库(Oracle)的抽样挖掘到全量数据挖掘，提升数据挖掘性能。
【专利说明】针对快递员周边人群营销中快递员数据的识别方法

【技术领域】
[0001] 本发明涉及数据挖掘技术，特别是一种在针对快递员周边人群进行营销活动过程中，快递员数据的识别方法。

【背景技术】
[0002] 在针对快递员周边人群进行营销活动时，首先要对快递员数据进行挖掘，进而得到其周边营销目标人群数据，其中快递员数据的识别挖掘方法一般为，从A 口信令（在基站控制器BSC和移动业务交互中也MSC之间传送的控制面信令数据，例如：寻呼事件、位置更新事件、漫游事件等）中获取用户位置信息，从经分数据仓库获取用户语音话单、短信话单和用户基础资料，在传统化acle数据库中通过用户手机号码将用户位置信息、语音话单信息、短信话单信息和用户基础资料关联起来，根据下面的算法识别出快递人员： W "人为发现，经验挖掘"的方式，通过统计方法识别快递人员，具体为， 1、连续5天工作时间（早上8点到下午6点）在固定地点短时间内跟大量用户（阔值暂定20 W上）发生短时间通话（小于一分钟）或者短信行为，确定问疑似快递人员； 2、小于18岁的或者大于50岁的不太可能是快递人员，排除； 3、人工方式录入快递人员，移动公司员工有网行为得到的快递人员可W录入到系统中； 4、对疑似快递人员通过外呼的方式确认；上述数据挖掘方式，在传统数据库的racle)上识别快递人员的过程中，准确度、处理性能上具有如下缺陷： 1、识别准确度低，且无法把控：人为的制定规则来识别快递员，是通过经验一点一点积累，个人业务能力有限，无法保证较高的识别准确度；另外，人与人之间经验不同，靠经验去进行快递员识别，缺乏统一的、标准的算法，准确度无法保障。
[0003] 2、性能低，且无法进行大数据挖掘；随着数据量的增加，数据间关联操作较多，通过传统数据库的racle)无法满足基本的数据挖掘分析。

【发明内容】

[0004] 本发明要解决的技术问题为；通过利用机器学习替代传统人工经验挖掘，提高数据挖掘的准确度，并基于分布式大数据处理平台，实现从传统数据库的racle)的抽样挖掘到全量数据挖掘，提升数据挖掘性能。
[0005] 本发明采取的技术手段具体为；一种针对快递员周边人群营销中快递员数据的识别方法，包括W下步骤： 1) 从经分数据仓库中获取疑似快递员用户基本信息和通信信息；从流量数据仓库中获取疑似快递员用户位置信息，并关联形成一张包含多个疑似快递员用户信息的事实宽表； 2) 将事实宽表中多个疑似快递员信息数据随机分为两部分：一部分为训练集，一部分为验证集，其中，训练集中的样本数据按正、负样本比例1 :2输入，所述正样本数据为已确定为快递员的用户，负样本数据为已确定非快递员的用户； 4) 对训练集正、负样本数据进行预处理，清除其中的异常值、错值、空值； 5) W训练集中正、负样本数据对应的快递员用户特征为基础数据，利用分类算法中的决策树推理DTRA算法，生成快递员用户特征规则集，并找到判定是否为快递员的因素组合； 6) 根据判定是否为快递员的影响因素确定验证集中的正、负样本用户； 7) 利用DTRA算法，结合步骤5)中得到的因素组合，生成验证集中的潜在快递员数据标识； 8) 模型效果评估；对原验证集中正负样本数据和步骤6)得到的验证集中正负样本数据，利用混淆矩阵方法公式：真正率=步骤6)验证结果中的正样本数目/原验证集中正样本的数目；真负率=步骤6)验证结果中的负样本数目/原验证集中负样本的数目；评估真正率与真负率整体准确度是否达到要求：如准确度达到设定百分比则对步骤 7)生成的潜在快递员数据标识进行输出；如准确度不能达到要求，则调整步骤5)中得到的因素组合中各因素相对应的参数值，然后重复步骤6)至步骤8)，直至模型准确度达到要求，输出最终潜在快递员数据标识。真正率与真负率整体准确度可定义为真正率与真负率的平均数，或真正率与真负率的乘积。
[0006] 本发明中经分数据仓库是通过获取综合营帐、计费、客服和结算等系统的数据源，构建一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，为移动管理决策提供支持；经分数据仓库与流量数据仓库皆为移动系统的现有数据仓库。
[0007] DTRA算法为现有算法，其与其它分类算法如统计方法、神经网络等比较起来有如下优点；产生的分类规则易于理解，准确度较高。DTRA算法适于能够驻留于内存的数据集，当训练集无法在内存中容纳时，将报出异常。
[0008] DTRA算法分为训练和测试两个阶段，在构造模型之前，要求将数据集随机地分为训练数据集和测试数据集。在训练阶段，使用训练数据集，通过分析由属性描述的数据库元组来构造模型，假定每个元组属于一个预定义的类，由一个称作类标号属性的属性来确定。训练数据集中的单个元组也称作训练样本，一个具体样本的形式可为；(ul，u2,……un;c); 其中Ui表示属性值，C表示类别。由于提供了每个训练样本的类标号，该阶段也称为有指导的学习，通常，模型用分类规则、判定树或数学公式的形式提供。在测试阶段，使用测试数据集来评估模型的分类准确度，如果认为模型的准确度可W接受，就可W用该模型对其它数据元组进行分类。本发明利用DTRA算法生成验证集和训练集中快递员用户特征或数据标识的步骤为现有技术。
[0009] 在DTRA算法运用中重点关注自变量处理方法，包括；选取并评价自变量；通过RFM 算法分析自变量与目标变量的关系，得出各自变量对因变量的重要程度，选取对因变量影响大的自变量，去除无影响的自变量；对自变量的相关性进行分析；W及通过相关性分析得出哪些自变量是强相关的，识别出兀余变量。
[0010] 本发明在进行事实宽表数据获取时，所需获取的具体数据指标参考表1所示：表I

【权利要求】
1. 针对快递员周边人群营销中快递员数据的识别方法，其特征是，包括以下步骤： 1) 从经分数据仓库中获取疑似快递员用户基本信息和通信信息；从流量数据仓库中获取疑似快递员用户位置信息，并关联形成一张包含多个疑似快递员用户信息的事实宽表； 2) 将事实宽表中多个疑似快递员信息数据随机分为两部分：一部分为训练集，一部分为验证集； 3) 训练集中的样本数据按正、负样本比例1 :2输入，所述正样本数据为已确定为快递员的用户，负样本数据为已确定非快递员的用户； 4) 对训练集正、负样本数据进行预处理，清除其中的异常值、错值、空值； 5) 以训练集中正、负样本数据对应的快递员用户特征为基础数据，利用分类算法中的决策树推理DTRA算法，生成快递员用户特征规则集，并找到判定是否为快递员的因素组合； 6) 根据判定是否为快递员的影响因素确定验证集中的正、负样本用户； 7) 利用DTRA算法，结合步骤5)中得到的因素组合，生成验证集中的潜在快递员数据标识； 8) 模型效果评估：对原验证集中正负样本数据和步骤6)得到的验证集中正负样本数据，利用混淆矩阵方法公式：真正率=步骤6)验证结果中的正样本数目/原验证集中正样本的数目；真负率=步骤6)验证结果中的负样本数目/原验证集中负样本的数目；评估真正率与真负率整体准确度是否达到要求：如准确度达到设定百分比则对步骤 7)生成的潜在快递员数据标识进行输出；如准确度不能达到要求，则调整步骤5)中得到的因素组合中各因素相对应的参数值，然后重复步骤6)至步骤8)，直至模型准确度达到要求。
2. 根据权利要求1所述的方法，其特征是，从经分数据仓库中获取的用户基本信息包括用户编码、年龄、地市、区县、时段、品牌、套餐、手机号码和对端手机号码信息，通信信息包括通话次数和短信次数信息；从流量数据仓库中获取的位置信息包括LAC和CELL轨迹数据信息。
3. 根据权利要求1所述的方法，其特征是，步骤8)中，设定模型准确度百分比为85%。
【文档编号】G06F17/30GK104331502SQ201410666023
【公开日】2015年2月4日申请日期:2014年11月19日优先权日:2014年11月19日
【发明者】刘雷申请人:亚信科技（南京）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘雷
技术所有人：亚信科技（南京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。