预测线上理财平台的用户邀请好友行为的方法和装置的制造方法

文档序号:10656285阅读:370来源:国知局
预测线上理财平台的用户邀请好友行为的方法和装置的制造方法
【专利摘要】本发明公开了一种预测线上理财平台的用户邀请好友行为的方法和装置。所述方法包括:基于用户的身份和行为信息,获取预测模型的输入变量;将判断用户是否将会邀请好友完成注册确定为预测模型的输出变量;获取训练集与验证集;对输入变量进行预筛选;对预测模型进行训练;基于预测模型来预测验证集用户将会邀请好友完成注册的概率,并基于用户实际表现来优化模型;基于优化的预测模型,预测测试集用户将会邀请好友完成注册的概率。使用本发明提供的方法和装置,理财平台能够提前预测出用户将会邀请好友完成注册的概率,从而有针对性地激励用户的邀请好友行为,提高了激励活动的响应率,在提高用户注册量的同时,降低了营销成本,从而实现精准营销。
【专利说明】
预测线上理财平台的用户邀请好友行为的方法和装置
技术领域
[0001] 本公开的实施例一般设及一种预测方法和装置,尤其设及一种预测线上理财平台 的用户邀请好友行为的方法和装置。
【背景技术】
[0002] 随着移动互联网技术的快速发展,线上理财成为互联网金融领域的第一个发力 点,越来越多的理财用户开始从线下传统柜台转至线上理财平台。W目前新兴的移动终端 理财平台应用软件为例,理财用户首先在手机等移动终端上下载理财平台应用软件,并通 过该软件在理财平台上完成注册账号,实名认证,完成个人风险承受能力评估,购买理财产 品,复购或续投,绑定借记卡与邀请好友在该平台上完成注册等行为。理财用户的身份信息 与行为信息通过移动终端被推送到理财平台的服务器,服务器对理财用户的身份信息与行 为信息进行存储、分析与处理,为理财用户提供一种简便、快捷的理财业务。运样一来有利 于借助移动互联网技术发展所带来的便利,为理财用户省去通过银行柜台等线下场景办理 理财业务的繁琐与耗时,明显提升了理财用户的投资体验。
[0003] 对线上理财平台来说,用户注册量是一个非常重要的运营指标,提高用户注册量 是平台持续盈利与发展的基础。理财平台通常通过外部投放广告来拉新用户,主要渠道包 括:新闻资讯类应用软件、主要互联网捜索引擎、赞助马拉松或演唱会等。然而随着线上理 财平台数量的快速增长,竞争日益激烈,理财平台通过外部投放广告的获客成本逐渐上升。 相对来说,由于获客成本相对较低,采取奖励措施来鼓励用户邀请好友完成注册成为很多 线上理财平台拉新客户、提高用户注册量的重要途径。运营人员为了激励用户邀请好友完 成注册,通常不定时地面对理财平台全部注册用户开展无针对性的激励活动,但运种激励 活动的响应率不高且营销成本相对较大。

【发明内容】

[0004] 本发明的目的在于克服现有技术的缺点,提供一种预测线上理财平台的用户邀请 好友行为的方法和装置。
[0005] 为解决上述技术问题,本发明采用了 W下技术措施:
[0006] -方面,提供了一种预测线上理财平台的用户邀请好友行为的方法,所述方法包 括:
[0007] 基于用户的身份信息和行为信息,来获取预测模型的输入变量;
[000引将判断用户是否将会邀请好友完成注册的变量确定为预测模型的输出变量;
[0009] 将所述输入变量和所述输出变量作为历史数据来获取数据全集,并对数据全集进 行抽样来获取训练集与验证集;
[0010] 对训练集进行变量分箱和证据权重转换,并对输入变量进行预筛选;
[0011] 基于训练集数据、经过预筛选的输入变量和输出变量,对预测模型进行训练;
[0012] 基于经训练的预测模型来预测验证集用户将会邀请好友完成注册的概率,并基于 验证集用户实际邀请好友情况和评价指标来优化预测模型;
[0013] 基于经优化的预测模型,来预测测试集用户将会邀请好友完成注册的概率。
[0014] 另一方面,提供了一种预测线上理财平台的用户邀请好友行为的装置,所述装置 包括:
[0015] 输入变量获取模块,被配置为基于用户的身份信息和行为信息,来获取预测模型 的输入变量;
[0016] 输出变量获取模块,被配置为将判断用户是否将会邀请好友完成注册的变量确定 为预测模型的输出变量;
[0017] 数据抽样模块,被配置为将所述输入变量和所述输出变量作为历史数据来获取数 据全集,并对数据全集进行抽样来获取训练集与验证集;
[0018] 输入变量预筛选模块,被配置为对训练集进行变量分箱和证据权重转换,并对输 入变量进行预筛选;
[0019] 预测模型训练模块,被配置为基于训练集数据、经过预筛选的输入变量和输出变 量,对预测模型进行训练;
[0020] 预测模型优化模块,被配置为基于经训练的预测模型来预测验证集用户将会邀请 好友完成注册的概率,并基于验证集用户实际邀请好友情况和评价指标来优化预测模型;
[0021] 预测模块,被配置为基于经优化的预测模型,来预测测试集用户将会邀请好友完 成注册的概率。
[0022] 本发明实施例提供的技术方案带来的有益效果是:在本发明实施例中,基于目标 用户的性别、年龄、注册时长、登录次数、在线时长、第一时间间隔、购买次数、购买金额、第 二时间间隔、邀请好友历史参数,通过指定逻辑回归模型,可W确定目标用户将会邀请好友 完成注册的概率。如果理财平台能够开展定时预测,提前一定时间预测出用户将会邀请好 友在平台注册的概率清单。基于用户将会邀请好友完成注册的可能性大小,理财平台能够 有针对性地激励用户的邀请好友行为,提高了激励活动的响应率,在提高平台注册量的同 时,最大限度地降低了营销成本,从而实现精准营销。
【附图说明】
[0023] 图1是本发明实施例提供的一种预测线上理财平台的用户邀请好友行为的方法流 程图;
[0024] 图2是本发明实施例提供的一种预测线上理财平台的用户邀请好友行为的装置结 构示意图;
[0025] 图3是本发明实施例提供的一种数据抽样模块的装置结构示意图;
[0026] 图4是本发明实施例提供的一种输入变量预筛选模块的装置结构示意图;
[0027] 图5是本发明实施例提供的一种预测模型优化模块的装置结构示意图;
[0028] 图6是本发明实施例提供的一种预测模块的装置结构示意图。
【具体实施方式】
[0029] 为了更清楚地说明本发明实施例中的技术方案,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0030] 图I是本发明实施例提供的一种预测线上理财平台的用户邀请好友行为的方法流 程图。参见图1,该方法100包括:
[0031] 步骤101:基于用户的身份信息和行为信息,来获取预测模型的输入变量;
[0032] 步骤102:将判断用户是否将会邀请好友完成注册的变量确定为预测模型的输出 变量;
[0033] 步骤103:将所述输入变量和所述输出变量作为历史数据来获取数据全集,并对数 据全集进行抽样来获取训练集与验证集;
[0034] 步骤104:对训练集进行变量分箱和证据权重转换,并对输入变量进行预筛选;
[0035] 步骤105:基于训练集数据、经过预筛选的输入变量和输出变量,对预测模型进行 训练;
[0036] 步骤106:基于经训练的预测模型来预测验证集用户将会邀请好友完成注册的概 率,并基于验证集用户实际邀请好友情况和评价指标来优化预测模型;
[0037] 步骤107:基于经优化的预测模型,来预测测试集用户将会邀请好友完成注册的概 率。
[0038] 在步骤101中,基于用户的身份信息和行为信息,来获取预测模型的输入变量,包 括:基于用户18位身份证号码的第17位,得到性别;基于用户18位身份证号码的第7到14位, 得到年龄;获取用户注册账号的时间与当前时间之间的时间间隔,得到注册时长;获取用户 在指定时间段内登录理财平台的登录次数;获取用户在指定时间段内在理财平台的在线时 长;获取用户最后一次登录理财平台的时间与当前时间之间的时间间隔,得到第一时间间 隔;获取用户购买理财产品的总次数,得到购买次数;获取用户购买理财产品的总金额,得 到购买金额;获取用户最后一次购买理财产品的时间与当前时间之间的时间间隔,得到第 二时间间隔;获取用户在指定时间段内成功邀请好友完成注册的次数,得到邀请好友历史 参数。
[0039] 其中,指定时间段为在预测的基准时间点之前且离基准时间点最近的指定时间 段,比如,将2015年9月旧选定为预测的基准时间点,即指定时间段可W为2015年9月旧之 前的1个月,即8月份。
[0040] 上述身份信息与行为信息体现出不同性别与年龄段的用户对于理财平台的忠诚 度与活跃度。对于理财平台来说,忠诚度越高,活跃度越高,用户将会邀请好友完成注册的 可能性越大。本领域的技术人员可W理解,如果通过上述身份变量与行为变量不能很好地 得出理财平台的用户邀请好友行为的预测模型,则可尝试增加其他行为变量对预测模型进 行调优。比如,在指定时间段内,用户浏览理财产品的次数与时长,成功邀请好友购买理财 产品的总次数与总金额。
[0041] 在步骤102中,将判断用户是否将会邀请好友完成注册的变量确定为预测模型的 输出变量,包括:将只有两种可能取值的变量作为输出变量,两种可能取值分别对应于用户 将会邀请好友完成注册和用户将不会邀请好友完成注册。
[0042] 预测线上理财平台的用户邀请好友行为的问题,是一个二分类问题,本发明实施 例采用基于逻辑回归算法的预测模型。本领域的技术人员可W根据具体的应用环境W及其 他的相关背景,来选取其他算法来建立预测模型,运些算法包括但不限于:决策树算法与神 经网络算法,本发明的实施并不限于特定的预测模型。
[0043] 在步骤103中,将所述输入变量和所述输出变量作为历史数据来获取数据全集,并 对数据全集进行抽样来获取训练集与验证集,包括:将所述输入变量和所述输出变量作为 历史数据来获取数据全集;按照指定比例对数据全集中的正样本与负样本进行分层抽样, 得到训练集与验证集。
[0044] 比如,将2015年9月1日选定为预测的基准时间点,正样本:2015年9月之前,在理财 平台有使用行为,在9月份邀请好友完成注册的用户,共1000条数据。负样本:2015年9月之 前,在理财平台有使用行为,在9月份未邀请好友完成注册的用户,共9000条数据。全样本: 正样本与负样本的总和,共10000条数据。按照60%和40%的比例,对全样本进行分层抽样, 即分别从正样本和负样本中抽出60%作为训练集用于建模,共6000条数据;抽出40%作为 验证集用于模型检验与调优,共4000条数据。待预测样本或测试集:2015年10月之前,在理 财平台有使用行为,无法确定在10月份是否将会邀请好友完成注册的用户,共12000条数 据。
[0045] 在步骤104中,对训练集进行变量分箱和证据权重转换,并对输入变量进行预筛 选,包括:对训练集中输入变量进行细分箱和粗分箱,并对分箱后变量进行证据权重转换; 对训练集中经过分箱与证据权重转换的输入变量进行数据分布分析、相关性分析和信息值 计算,对进入预测模型的输入变量进行预筛选。
[0046] 首先对分类变量与连续变量进行细分箱:按照分类变量的原始分类,对分类变量 进行分箱;通过设置最小分段规模ACC,将连续变量的取值范围分成1/ACC个段。然后计算细 分箱后变量每个分组的证据权重:
[0047] W0E = ln(p/q) (1)
[004引P =分组内邀请好友用户/全部邀请好友用户,q =分组内未邀请好友用户/全部未 邀请好友用户。WOE为证据权重,衡量某个分组相对于平均的邀请好友表现情况,正WOE表示 该分组用户邀请好友的表现情况高于平均,负WOE表示该分组用户邀请好友的表现情况低 于平均。然后根据细分箱后变量每个分组的证据权重进行粗分箱:合并WOE接近的相邻分 组,令WOE曲线保持单调上升或单调下降,或其他与业务保持一致的趋势。合并用户量过少 的分组与相邻分组,比如每个分组用户量不少于5%。最后计算粗分箱后变量每个分组的证 据权重。
[0049] 比如,性别为分类变量,按照男性和女性两种原始分类,即完成对性别进行细分 箱。W男性分组为例,P =男性分组内邀请好友用户/全部邀请好友用户= 1200/1500 = 0.80,q =男性分组内未邀请好友用户/全部未邀请好友用户=2800/4500 = 0.62,WOE = In (0.80/0.62)=0.25, WOE为正表示男性分组邀请好友的表现情况高于平均。注册时长为连 续变量,通过设置ACC = O.2,按照注册时长从短到长,将注册时长的取值范围分成5个段,即 完成对注册时长进行细分箱。5个分组的WOE分别为-0.32,-0.30,0.02,0.01和0.04,为使 WOE曲线保持单调上升,则合并WOE接近的第S分组与第四分组,即完成对注册时长进行粗 分箱。
[0050] 数据分布分析:数据分布过于集中的输入变量对邀请好友用户与未邀请好友用户 两种群体的区分能力不强,数据分布分析意在剔除数据分布趋于集中的输入变量。
[0051 ]相关性分析:给定两个连续变量X和y,皮尔森相关系数P被定义为: (2)
[0化2]
[0化3]其中,和F分别表示变量X和y的均值。皮尔森相关系数衡量的是线性相关性的程 度,P的取值总是在-1.0到1.0之间,P值接近O的变量被称为无相关性,P值接近1或-1的变量 被称为强相关性。一般来说,P的绝对值的取值范围在0到0.3之间,表示两个变量之间呈弱 相关性;P的绝对值的取值范围在0.3到0.5之间,表示两个变量之间呈低相关性;P的绝对值 的取值范围在0.5到0.8之间,表示两个变量之间呈显著相关性;P的绝对值大于或等于0.8, 表示两个变量之间呈高相关性。相关性分析意在剔除与其他输入变量之间的P的绝对值大 于指定阔值的输入变量,比如,剔除与其他输入变量之间的P的绝对值大于0.5的输入变量。
[0054] 信息值计算:粗分箱后变量每个分组的信息值IV被定义为:
[0055] IV= (p-q) X ln(p/q) (3)
[0056] P =分组内邀请好友用户/全部邀请好友用户,q =分组内未邀请好友用户/全部未 邀请好友用户,变量整体信息值等于每个分组信息值相加之和。变量信息值衡量输入变量 的预测力,并演示邀请好友用户与未邀请好友用户之间的分布差异。一般来说,IV小于 0.02,表示变量无预测力;IV的取值范围在0.02到0.1之间,表示变量的预测力弱;IV的取值 范围在0.巧IjO.3之间,表示变量的预测力中等;IV大于0.3,表示变量的预测力强。信息值计 算意在剔除IV小于指定阔值的输入变量,比如,剔除IV小于0.02的输入变量。
[0057] 在步骤105中,基于训练集数据、经过预筛选的输入变量和输出变量,对预测模型 进行训练,包括:预测模型为基于逻辑回归算法的模型;基于训练集数据、经过预筛选的输 入变量和输出变量,来确定待训练逻辑回归模型的各个参数,从而确定指定逻辑回归模型; 基于指定逻辑回归模型,来确定训练集用户的性别、年龄、注册时长、登录次数、在线时长、 第一时间间隔、购买次数、购买金额、第二时间间隔、邀请好友历史参数与邀请好友完成注 册概率之间的关系。
[0058] 从初始化一系列候选自变量,到对候选自变量进行预筛选,在步骤105中,选取逻 辑回归算法的逐步选择法来进一步筛选输入变量。逐步选择法的每一步都是正向选择法和 逆向选择法的结合。最初,逻辑回归模型中只有截距项,然后在每一步中,用正向选择增加 最优的变量,即检验没有纳入模型的变量并选择Wald卡方统计量最大、显著性水平符合进 入条件的变量,在此需要指定进入变量的显著性水平,取值范围在0和1之间。接下来,用逆 向选择移出最差的变量,即从模型中移除Wald卡方统计量最小、显著性水平符合移除条件 的变量,在此需要指定移除变量的显著性水平,取值范围在0和1之间。一般来说,将进入变 量的显著性水平与移除变量的显著性水平均指定为0.05。逐步选择法同时结合了正向选择 法和逆向选择法的优点。本发明实施例选择逐步选择法对输入变量进行进一步筛选,并采 用Wald卡方统计量作为将变量纳入或移出模型的标准,本领域的技术人员可W理解,不同 的变量选择方法与不同的纳入、移除标准可能会产生更好的选择。其中,逻辑回归算法的变 量选择方法包括但不限于:正向选择法与逆向选择法。
[0059] 用经过逻辑回归的逐步选择法筛选后的输入变量拟合一个逻辑回归模型: (4)
[0060]
[0061] 其中,P是目标用户将会邀请好友完成注册的概率,而(I-P)是目标用户将不会邀 请好友完成注册的概率。|3〇至担为指定逻辑回归模型的各个参数,且为已知参数。^1到拉为 经过筛选的输入变量的证据权重。
[0062] 在步骤106中,基于经训练的预测模型来预测验证集用户将会邀请好友完成注册 的概率,并基于验证集用户实际邀请好友情况和评价指标来优化预测模型,包括:基于验证 集中目标用户的性别、年龄、注册时长、登录次数、在线时长、第一时间间隔、购买次数、购买 金额、第二时间间隔、邀请好友历史参数与经训练的逻辑回归模型,来确定该目标用户将会 邀请好友完成注册的概率;基于验证集用户实际邀请好友情况,使用W下各项中至少一项 作为评价指标来评价预测模型的预测结果:K-S曲线与K-S统计量、ROC曲线与C统计量、提升 图,并基于评价指标来优化预测模型。
[0063] 假设初始候选自变量全部都被纳入逻辑回归模型,则基于验证集中一个目标用户 的性别为男,年龄属于18到25岁,注册天数为200天,在8月份的登录次数为15次,在8月份的 在线时长为5小时,第一时间间隔为5天,购买次数为3次,购买金额为24000元,第二时间间 隔为30天,邀请好友历史参数为1,根据公式(4),来确定该目标用户在9月份将会邀请好友 完成注册的概率为0.85。
[0064] K-S曲线与K-S统计量:将验证集用户进行十等分并按照用户将会邀请好友完成注 册的概率的降序排列,计算每一等份中邀请好友与未邀请好友百分比的累积分布,绘制出 两者之间的差异,就得到K-S曲线。K-S曲线中的最大值被称为K-S统计量,其取值在0到1之 间。KS值越高,表示预测模型的排序能力越强,即预测能力越强。采用随机抽样时,K-S统计 量的值为0;当最优分类时,K-S统计量的值为1。一般来说,KS值小于0.2,表示预测模型的区 别能力较弱,不建议使用;KS值的取值范围在0.2到0.4之间,表示预测模型的区别能力较 好;KS值的取值范围在0.巧IjO . 5之间,表示预测模型的区别能力良好;KS值的取值范围在 0.巧IjO.6之间,表示预测模型的区别能力很强;KS值的取值范围在0.巧IjO.75之间,表示预 测模型的区别能力非常强;KS值大于0.75,表示预测模型的区别能力高,但疑似有误。如果 预测模型的K-S统计量小于指定阔值,则需要对预测模型进行重新调整和优化,比如,对K-S 统计量小于0.3的预测模型进行重新调整和优化。
[0065] ROC曲线与C统计量:TP代表被正确地判断为邀请好友用户的样本,(TP+FN)代表所 有实际为邀请好友用户的样本;FP代表被错误地判断为邀请好友用户的样本,(FP巧N)代表 所有实际为不邀请好友用户的样本。TPR = TP/(TP+FN),TPR被称为命中率或灵敏度,表示在 所有实际为邀请好友用户的样本中,被正确地判断为邀请好友用户之比率。FPR = FP/ (FP+ TN),FPR被称为误报率,表示在所有实际为不邀请好友用户的样本中,被错误地判断为邀请 好友用户之比率。ROC空间将FPR定义为X轴,TPR定义为巧由。给定一个阔值,就能从所有样本 的真实值和预测值计算出一个(X = FPR,Y = TPR)坐标点,所有坐标点绘制出了运条ROC曲 线。ROC曲线之下的面积被称为AUC统计量或C-统计量,AUC值越大的分类器,表示预测模型 的预测效果越好。C-统计量的取值范围在0.5到1,越大越好。一般来说,C-统计量的取值范 围在0.5到0.7,表示预测模型的预测效果较低;C-统计量的取值范围在0.7到0.9,表示预测 模型的预测效果一般;C-统计量的取值范围在0.9到1,表示预测模型的预测效果良好。如果 预测模型的C统计量小于指定阔值,则需要对预测模型进行重新调整和优化,比如,对C统计 量小于0.7的预测模型进行重新调整和优化。
[0066] 提升图:提升图主要通过随机选择来比较模型表现。比如,在验证集中,如果已知 邀请好友用户占用户总体的10%,则有理由预期占用户总体十分之一的随机样本,将包含 邀请好友用户的10%。将验证集用户进行十等分并按照用户将会邀请好友完成注册的概率 的降序排列,计算每一等份中实际邀请好友用户数量在邀请好友用户总体中所占比例与随 机选择比例,绘制出两者之间的差异,就得到提升图。另外,提升图还能够识别预测模型的 隐藏问题。比如,十等份中邀请好友用户数量在邀请好友用户总体中所占比例并不如预期 般呈单调递减的趋势,一旦发现运种不一致,则该预测模型被认为不可用,需要对模型进行 重新开发。
[0067] 基于评价指标来优化预测模型,整个流程包括:利用理财平台专业知识来初始化 一系列候选自变量,通过数据分布分析、相关性分析与信息值计算对候选自变量进行预筛 选,通过逻辑回归算法的逐步选择法对输入变量进行进一步筛选,利用经过筛选的输入变 量拟合一个逻辑回归模型,通过验证集检验预测模型的K-S曲线与K-S统计量、ROC曲线与C 统计量、提升图,如果评价指标达不到预期要求,则可尝试向预测模型添加变量或从模型中 移除变量,直到预测模型的评价指标达到要求,并得到最优的预测模型。
[0068] 在步骤107中,基于经优化的预测模型,来预测测试集用户将会邀请好友完成注册 的概率,包括:基于测试集中目标用户的性别、年龄、注册时长、登录次数、在线时长、第一时 间间隔、购买次数、购买金额、第二时间间隔、邀请好友历史参数与经优化的逻辑回归模型, 来确定该目标用户将会邀请好友完成注册的概率;当目标用户将会邀请好友完成注册的概 率大于或等于第一指定概率阔值时,则确定该目标用户将会邀请好友完成注册的可能性属 于高等级;当目标用户将会邀请好友完成注册的概率大于或等于第二指定概率阔值,同时 小于第一指定概率阔值时,则确定该目标用户将会邀请好友完成注册的可能性属于中等 级;当目标用户将会邀请好友完成注册的概率小于第二指定概率阔值时,则确定该目标用 户将会邀请好友完成注册的可能性属于低等级。
[0069] 其中,第一指定概率阔值大于第二指定概率阔值。
[0070] 比如,在2015年10月1日,一家线上理财平台能够预测出,在10月份,平台全部注册 用户将会邀请好友完成注册的概率清单。基于该概率清单,该理财平台将用户在10月份将 会邀请好友完成注册的可能性分为高、中、低=个等级,基于每个用户所属的不同等级,采 取针对性激励策略:对具有高度可能性的用户采取小额奖励,从而利用较低成本激励出运 部分用户的邀请好友行为;对具有中度可能性的用户采取较大额度奖励,从而利用较高成 本提高中等级用户邀请好友完成注册的可能性;对具有低度可能性的用户暂时不采取任何 激励行为,W节约激励成本。奖励方式包括:在月初通过移动终端向用户推送信息,告知用 户邀请好友完成注册后将可获得一定额度的现金奖励、虚拟本金或定制礼物等,并在用户 邀请好友完成注册后,立即按照承诺对用户进行奖励。采用运种方式对不同用户开展精准 营销,在提高用户响应率的同时也降低了激励成本,非常有利于线上理财平台的拉新活动。
[0071] 图2是本发明实施例提供的一种预测线上理财平台的用户邀请好友行为的装置结 构示意图。参见图2,该装置200包括:
[0072] 输入变量获取模块201,被配置为基于用户的身份信息和行为信息,来获取预测模 型的输入变量;
[0073] 输出变量获取模块202,被配置为将判断用户是否将会邀请好友完成注册的变量 确定为预测模型的输出变量;
[0074] 数据抽样模块203,被配置为将所述输入变量和所述输出变量作为历史数据来获 取数据全集,并对数据全集进行抽样来获取训练集与验证集;
[0075] 输入变量预筛选模块204,被配置为对训练集进行变量分箱和证据权重转换,并对 输入变量进行预筛选;
[0076] 预测模型训练模块205,被配置为基于训练集数据、经过预筛选的输入变量和输出 变量,对预测模型进行训练;
[0077] 预测模型优化模块206,被配置为基于经训练的预测模型来预测验证集用户将会 邀请好友完成注册的概率,并基于验证集用户实际邀请好友情况和评价指标来优化预测模 型;
[0078] 预测模块207,被配置为基于经优化的预测模型,来预测测试集用户将会邀请好友 完成注册的概率。
[0079 ]参见图3,数据抽样模块203,包括:
[0080] 数据获取单元2031,被配置为将所述输入变量和所述输出变量作为历史数据来获 取数据全集;
[0081] 数据抽样单元2032,被配置为按照指定比例对数据全集中的正样本与负样本进行 分层抽样,得到训练集与验证集。
[0082] 参见图4,输入变量预筛选模块204,包括:
[0083] 细分箱单元2041,被配置为对训练集中输入变量进行细分箱,并对细分箱后变量 进行证据权重转换;
[0084] 粗分箱单元2042,被配置为对细分箱后变量进行粗分箱,并对粗分箱后变量进行 证据权重转换;
[0085] 数据分布分析单元2043,被配置为对训练集中经过分箱与证据权重转换的输入变 量进行数据分布分析,对进入预测模型的输入变量进行预筛选;
[0086] 相关性分析单元2044,被配置为对训练集中经过分箱与证据权重转换的输入变量 进行相关性分析,对进入预测模型的输入变量进行预筛选;
[0087] 信息值计算单元2045,被配置为对训练集中经过分箱与证据权重转换的输入变量 进行信息值计算,对进入预测模型的输入变量进行预筛选。
[0088] 参见图5,预测模型优化模块206,包括:
[0089] 预测单元2061,被配置为基于验证集中目标用户的性别、年龄、注册时长、登录次 数、在线时长、第一时间间隔、购买次数、购买金额、第二时间间隔、邀请好友历史参数与经 训练的逻辑回归模型,来确定该目标用户将会邀请好友完成注册的概率;
[0090] K-S曲线与K-S统计量获取单元2062,被配置为基于验证集用户实际邀请好友情 况,来获取预测模型的K-S曲线与K-S统计量,并基于评价指标来优化预测模型;
[0091] ROC曲线与C统计量获取单元2063,被配置为基于验证集用户实际邀请好友情况, 来获取预测模型的ROC曲线与C统计量,并基于评价指标来优化预测模型;
[0092] 提升图获取单元2064,被配置为基于验证集用户实际邀请好友情况,来获取预测 模型的提升图,并基于评价指标来优化预测模型。
[0093] 参见图6,预测模块207,包括:
[0094] 预测单元2071,被配置为基于测试集中目标用户的性别、年龄、注册时长、登录次 数、在线时长、第一时间间隔、购买次数、购买金额、第二时间间隔、邀请好友历史参数与经 优化的逻辑回归模型,来确定该目标用户将会邀请好友完成注册的概率;
[00M]等级确定单元2072,被配置为当目标用户将会邀请好友完成注册的概率大于或等 于第一指定概率阔值时,则确定该目标用户将会邀请好友完成注册的可能性属于高等级; 当目标用户将会邀请好友完成注册的概率大于或等于第二指定概率阔值,同时小于第一指 定概率阔值时,则确定该目标用户将会邀请好友完成注册的可能性属于中等级;当目标用 户将会邀请好友完成注册的概率小于第二指定概率阔值时,则确定该目标用户将会邀请好 友完成注册的可能性属于低等级。
[0096] 需要注意的是,本发明实施例提供的预测线上理财平台的用户邀请好友行为的装 置,仅W上述各功能模块的划分进行举例说明,实际应用中,可W根据需要将装置的内部结 构划分成不同的功能模块,已完成上述的全部或部分功能。
[0097] 根据本发明实施例提供的预测线上理财平台的用户邀请好友行为的方法和装置 的应用部署包括:利用SAS、SPSS、R或MATLAB等数据挖掘软件进行建模,输出训练好的预测 模型,将预测模型的特征参数与计算过程封装至决策引擎,决策引擎可由python、java或R 等语言编写。在系统中完成对决策引擎的定时调度,每月初定时产出预测用户将会邀请好 友完成注册的概率清单。
[0098] 本发明实施例的全部或部分步骤可W通过硬件来完成,也可W通过程序来指令相 关的硬件来完成。程序可W存储于一种计算机可读存储介质中,存储介质包括但不限于:只 读存储器、磁盘或光盘等,由适当的指令执行系统,例如微处理器来执行。
[0099] W上所述仅为本发明的较优实施例,并不用W限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种预测线上理财平台的用户邀请好友行为的方法,其特征在于,所述方法包括: 基于用户的身份信息和行为信息,来获取预测模型的输入变量; 将判断用户是否将会邀请好友完成注册的变量确定为预测模型的输出变量; 将所述输入变量和所述输出变量作为历史数据来获取数据全集,并对数据全集进行抽 样来获取训练集与验证集; 对训练集进行变量分箱和证据权重转换,并对输入变量进行预筛选; 基于训练集数据、经过预筛选的输入变量和输出变量,对预测模型进行训练; 基于经训练的预测模型来预测验证集用户将会邀请好友完成注册的概率,并基于验证 集用户实际邀请好友情况和评价指标来优化预测模型; 基于经优化的预测模型,来预测测试集用户将会邀请好友完成注册的概率。2. 如权利要求1所述的方法,其特征在于,所述基于用户的身份信息和行为信息,来获 取预测模型的输入变量,包括: 基于用户18位身份证号码的第17位,得到性别; 基于用户18位身份证号码的第7到14位,得到年龄; 获取用户注册账号的时间与当前时间之间的时间间隔,得到注册时长; 获取用户在指定时间段内登录理财平台的登录次数; 获取用户在指定时间段内在理财平台的在线时长; 获取用户最后一次登录理财平台的时间与当前时间之间的时间间隔,得到第一时间间 隔; 获取用户购买理财产品的总次数,得到购买次数; 获取用户购买理财产品的总金额,得到购买金额; 获取用户最后一次购买理财产品的时间与当前时间之间的时间间隔,得到第二时间间 隔; 获取用户在指定时间段内成功邀请好友完成注册的次数,得到邀请好友历史参数。3. 如权利要求1所述的方法,其特征在于,所述将判断用户是否将会邀请好友完成注册 的变量确定为预测模型的输出变量,包括: 将只有两种可能取值的变量作为输出变量,两种可能取值分别对应于用户将会邀请好 友完成注册和用户将不会邀请好友完成注册。4. 如权利要求1所述的方法,其特征在于,所述将所述输入变量和所述输出变量作为历 史数据来获取数据全集,并对数据全集进行抽样来获取训练集与验证集,包括: 将所述输入变量和所述输出变量作为历史数据来获取数据全集; 按照指定比例对数据全集中的正样本与负样本进行分层抽样,得到训练集与验证集。5. 如权利要求1所述的方法,其特征在于,所述对训练集进行变量分箱和证据权重转 换,并对输入变量进行预筛选,包括: 对训练集中输入变量进行细分箱和粗分箱,并对分箱后变量进行证据权重转换; 对训练集中经过分箱与证据权重转换的输入变量进行数据分布分析、相关性分析和信 息值计算,对进入预测模型的输入变量进行预筛选。6. 如权利要求5所述的方法,其特征在于,所述基于训练集数据、经过预筛选的输入变 量和输出变量,对预测模型进行训练,包括: 预测模型为基于逻辑回归算法的模型; 基于训练集数据、经过预筛选的输入变量和输出变量,来确定待训练逻辑回归模型的 各个参数,从而确定指定逻辑回归模型; 基于指定逻辑回归模型,来确定训练集用户的性别、年龄、注册时长、登录次数、在线时 长、第一时间间隔、购买次数、购买金额、第二时间间隔、邀请好友历史参数与邀请好友完成 注册概率之间的关系。7. 如权利要求1所述的方法,其特征在于,所述基于经训练的预测模型来预测验证集用 户将会邀请好友完成注册的概率,并基于验证集用户实际邀请好友情况和评价指标来优化 预测模型,包括: 基于验证集中目标用户的性别、年龄、注册时长、登录次数、在线时长、第一时间间隔、 购买次数、购买金额、第二时间间隔、邀请好友历史参数与经训练的逻辑回归模型,来确定 该目标用户将会邀请好友完成注册的概率; 基于验证集用户实际邀请好友情况,使用以下各项中至少一项作为评价指标来评价预 测模型的预测结果:K-S曲线与K-S统计量、ROC曲线与c统计量、提升图,并基于评价指标来 优化预测模型。8. 如权利要求1所述的方法,其特征在于,所述基于经优化的预测模型,来预测测试集 用户将会邀请好友完成注册的概率,包括: 基于测试集中目标用户的性别、年龄、注册时长、登录次数、在线时长、第一时间间隔、 购买次数、购买金额、第二时间间隔、邀请好友历史参数与经优化的逻辑回归模型,来确定 该目标用户将会邀请好友完成注册的概率; 当目标用户将会邀请好友完成注册的概率大于或等于第一指定概率阈值时,则确定该 目标用户将会邀请好友完成注册的可能性属于高等级;当目标用户将会邀请好友完成注册 的概率大于或等于第二指定概率阈值,同时小于第一指定概率阈值时,则确定该目标用户 将会邀请好友完成注册的可能性属于中等级;当目标用户将会邀请好友完成注册的概率小 于第二指定概率阈值时,则确定该目标用户将会邀请好友完成注册的可能性属于低等级。9. 一种预测线上理财平台的用户邀请好友行为的装置,其特征在于,所述装置包括: 输入变量获取模块,被配置为基于用户的身份信息和行为信息,来获取预测模型的输 入变量; 输出变量获取模块,被配置为将判断用户是否将会邀请好友完成注册的变量确定为预 测模型的输出变量; 数据抽样模块,被配置为将所述输入变量和所述输出变量作为历史数据来获取数据全 集,并对数据全集进行抽样来获取训练集与验证集; 输入变量预筛选模块,被配置为对训练集进行变量分箱和证据权重转换,并对输入变 量进行预筛选; 预测模型训练模块,被配置为基于训练集数据、经过预筛选的输入变量和输出变量,对 预测模型进行训练; 预测模型优化模块,被配置为基于经训练的预测模型来预测验证集用户将会邀请好友 完成注册的概率,并基于验证集用户实际邀请好友情况和评价指标来优化预测模型; 预测模块,被配置为基于经优化的预测模型,来预测测试集用户将会邀请好友完成注 册的概率。10. 如权利要求9所述的装置,其特征在于,所述数据抽样模块,包括: 数据获取单元,被配置为将所述输入变量和所述输出变量作为历史数据来获取数据全 集; 数据抽样单元,被配置为按照指定比例对数据全集中的正样本与负样本进行分层抽 样,得到训练集与验证集。11. 如权利要求9所述的装置,其特征在于,所述输入变量预筛选模块,包括: 细分箱单元,被配置为对训练集中输入变量进行细分箱,并对细分箱后变量进行证据 权重转换; 粗分箱单元,被配置为对细分箱后变量进行粗分箱,并对粗分箱后变量进行证据权重 转换; 数据分布分析单元,被配置为对训练集中经过分箱与证据权重转换的输入变量进行数 据分布分析,对进入预测模型的输入变量进行预筛选; 相关性分析单元,被配置为对训练集中经过分箱与证据权重转换的输入变量进行相关 性分析,对进入预测模型的输入变量进行预筛选; 信息值计算单元,被配置为对训练集中经过分箱与证据权重转换的输入变量进行信息 值计算,对进入预测模型的输入变量进行预筛选。12. 如权利要求9所述的装置,其特征在于,所述预测模型优化模块,包括: 预测单元,被配置为基于验证集中目标用户的性别、年龄、注册时长、登录次数、在线时 长、第一时间间隔、购买次数、购买金额、第二时间间隔、邀请好友历史参数与经训练的逻辑 回归模型,来确定该目标用户将会邀请好友完成注册的概率; K-S曲线与K-S统计量获取单元,被配置为基于验证集用户实际邀请好友情况,来获取 预测模型的K-S曲线与K-S统计量,并基于评价指标来优化预测模型; ROC曲线与c统计量获取单元,被配置为基于验证集用户实际邀请好友情况,来获取预 测模型的ROC曲线与c统计量,并基于评价指标来优化预测模型; 提升图获取单元,被配置为基于验证集用户实际邀请好友情况,来获取预测模型的提 升图,并基于评价指标来优化预测模型。13. 如权利要求9所述的装置,其特征在于,所述预测模块,包括: 预测单元,被配置为基于测试集中目标用户的性别、年龄、注册时长、登录次数、在线时 长、第一时间间隔、购买次数、购买金额、第二时间间隔、邀请好友历史参数与经优化的逻辑 回归模型,来确定该目标用户将会邀请好友完成注册的概率; 等级确定单元,被配置为当目标用户将会邀请好友完成注册的概率大于或等于第一指 定概率阈值时,则确定该目标用户将会邀请好友完成注册的可能性属于高等级;当目标用 户将会邀请好友完成注册的概率大于或等于第二指定概率阈值,同时小于第一指定概率阈 值时,则确定该目标用户将会邀请好友完成注册的可能性属于中等级;当目标用户将会邀 请好友完成注册的概率小于第二指定概率阈值时,则确定该目标用户将会邀请好友完成注 册的可能性属于低等级。
【文档编号】G06Q40/06GK106022508SQ201610299160
【公开日】2016年10月12日
【申请日】2016年5月6日
【发明人】陈丛威, 金永柱, 陈佳夫, 李琦
【申请人】陈丛威
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1