一种基于手机游戏商店的用户流失预测方法及系统与流程

文档序号:13513562阅读:181来源:国知局
一种基于手机游戏商店的用户流失预测方法及系统与流程

本发明涉及网络数据挖掘技术领域,具体是涉及一种基于手机游戏商店的用户流失预测方法及系统。



背景技术:

近年来,随着移动通信设备的普及与发展,手机游戏市场在全球范围持续稳定快速增长。手机游戏商店,作为用户手机游戏入口,一直是手机游戏商家的战略部署重地。在此前提下,手机游戏商店行业竞争白热化,各手机游戏商店面临用户流失严峻形势;而且,留住现有用户往往能比引入新用户产生更大利润。因此,对于日趋饱和的手机游戏商店行业,建立有效的用户流失预测分析机制,能为手机游戏商店的用户留存、乃至市场份额的占据与扩张提供决策支持,商业意义重大。

另一方面,有效用户流失预测分析机制的建立,必须基于对具体业务场景的精准理解。目前存在的游戏业务场景下的用户流失预测研究虽然类目繁多,针对的游戏类型从大型多人对战游戏到休闲游戏应有尽有,但都是仅针对单一游戏的分析。而基于手机游戏商店的用户流失预测分析,需要研究多种游戏类型下的用户行为,也就是说,多了“游戏”维度,其业务场景及相应特征工程的复杂度及建模的难度大大增加。



技术实现要素:

本发明的目的在于克服现有技术的缺点与不足,提供了一种有效的基于手机游戏商店的用户流失预测方法及系统。

本发明通过以下的方案实现:一种基于手机游戏商店的用户流失预测方法,包括以下步骤:

s1:从服务器日志中采集训练集用户和预测集用户的基本信息、行为信息和游戏信息,对训练集用户建立流失用户标签,并对原始数据进行预处理;

s2:对训练集用户和预测集用户的基本信息、行为信息和游戏信息进行特征提取、选择及规范化;

s3:根据训练集用户的特征和流失用户标签,训练梯度提升决策树算法得到用户流失预测模型;

s4:根据预测集用户的特征,通过用户流失预测模型识别出手机游戏商店的流失用户。

本发明提出一种基于手机游戏商店的用户流失预测方法及系统。该方法及系统基于流失用户的定义,结合手机游戏商店的业务场景,提取服务器日志的用户数据作为用户基础特征、用户行为特征和用户游戏特征,训练并建立最优梯度提升决策树算法模型识别未来一段时间内的流失用户。本发明能够根据手机游戏商店的实际业务场景进行自调整,快速准确识别手机游戏商店的潜在流失用户,为手机游戏商店及时召回潜在流失用户提供决策支持,解决了市场日趋饱和的手机游戏商店行业预测流失用户的急切需求。同时,本发明还弥补了现有技术中基于手机游戏商店的用户流失预测技术的空缺。

作为本发明的进一步改进,所述步骤s1中具体包括:

s11:根据需要进行用户流失预测的时间段,从服务器日志中采集对应时间段的训练集用户和预测集用户的基本信息、行为信息和游戏信息,对训练集用户建立流失用户标签;

s12:对训练集用户和预测集用户的基本信息、行为信息和游戏信息进行数据清洗,包括剔除异常用户和用户的无效事件。

作为本发明的进一步改进,所述流失用户的定义为:前n天上线的用户中,在后m天内未达到活跃条件的用户记为流失用户,其中活跃条件为用户的已发生事件总数大于j并且活跃时间大于k天;其中,n、m、j和k为可调参数。

作为本发明的进一步改进,所述步骤s2中具体包括:

s21:基于训练集用户和预测集用户的基本信息和游戏信息,提取基本特征和游戏特征;

s22:基于训练集用户的行为信息,提取行为特征;

s23:根据训练集用户的流失用户标签,对训练集用户的行为特征进行特征选择,获取关键行为特征;

s24:基于训练集用户的关键行为特征和预测集用户的行为信息,提取预测集用户的关键行为特征;

s25:规范化训练集用户和预测集用户的基本特征、游戏特征和关键行为特征。

作为本发明的进一步改进,所述s3具体为:通过设定考核指标,并采用k折交叉验证法获取最优用户流失预测模型。

作为本发明的进一步改进,所述考核指标包括精确率和召回率;所述精确率指预测为流失用户中实际为流失用户的概率,所述召回率指实际为流失用户中预测为流失用户的概率。

作为本发明的进一步改进,所述步骤s4具体为:以预测集用户的特征为输入变量,通过所述用户流失预测模型,输出用户的流失概率;若流失概率大于设定阈值,则标签为流失用户。

本发明还提供了一种基于手机游戏商店的用户流失预测系统,其包括

数据采集及预处理模块,用于从服务器日志中采集训练集用户和预测集用户的基本信息、行为信息和游戏信息,对训练集用户建立流失用户标签,并对原始数据进行预处理;

特征提取、选择及规范化模块,用于对训练集用户和预测集用户的基本信息、行为信息和游戏信息进行特征提取、选择及规范化;

训练模块,用于根据训练集用户的特征和流失用户标签,训练梯度提升决策树算法得到用户流失预测模型;

预测模块,用于根据预测集用户的特征,通过用户流失预测模型识别出手机游戏商店的流失用户。

作为本发明的进一步改进,所述数据采集及预处理模块包括:

数据采集子模块,用于根据需要进行用户流失预测的时间段,从服务器日志中采集对应时间段的训练集用户和预测集用户的基本信息、行为信息和游戏信息,对训练集用户建立流失用户标签;

预处理子模块,用于对训练集用户和预测集用户的基本信息、行为信息和游戏信息进行数据清洗,包括剔除异常用户和用户的无效事件。

作为本发明的进一步改进,所述流失用户为:前n天上线的用户中,在后m天内未达到活跃条件的用户记为流失用户,其中活跃条件为用户的已发生事件总数大于j并且活跃时间大于k天;其中,n、m、j和k为设定的参数。

作为本发明的进一步改进,所述特征提取、选择及规范化模块具体包括:

基本特征和游戏特征提取子模块,用于基于训练集用户和预测集用户的基本信息和游戏信息,提取基本特征和游戏特征;

关键行为特征选择及提取子模块,用于基于训练集用户的行为信息,提取行为特征;根据训练集用户的流失用户标签,对训练集用户的行为特征进行选择,获取关键行为特征;基于训练集用户的关键行为特征和预测集用户的行为信息,提取预测集用户的关键行为特征;

特征规范化子模块,用于规范化训练集用户和预测集用户的基本特征、游戏特征和关键行为特征。

作为本发明的进一步改进,所述训练模块具体为:通过设定考核指标,并采用k折交叉验证法获取最优用户流失预测模型。

作为本发明的进一步改进,所述考核指标包括精确率和召回率;所述精确率为预测为流失用户中实际为流失用户的概率,所述召回率为实际为流失用户中预测为流失用户的概率。

作为本发明的进一步改进,所述预测模块具体为:以预测集用户的特征为输入变量,通过所述用户流失预测模型,输出用户的流失概率;若流失概率大于设定阈值,则标签为流失用户。

综上所述,本发明相比于现有技术,具备以下效果:

1、本发明通过提取服务器日志的用户数据作为用户基础特征、用户行为特征和用户游戏特征,训练并建立最优梯度提升决策树算法模型,能够快速准确地识别未来一段时间内手机游戏商店的潜在流失用户。

2、本发明提出流失用户可结合手机游戏商店的复杂场景进行定义,使模型能够灵活反映当前实际应用情形,预测准确率更高。

3、本发明提出的基于手机游戏商店的用户流失预测模型可根据手机游戏商店的实际业务场景进行自调整,对用户行为特征进实时选择以及实时训练最优梯度提升决策树模型,灵活度高,并且能够实时识别流失用户。

为了更好地理解和实施,下面结合附图详细说明本发明。

附图说明

图1是本发明的基于手机游戏商店的用户流失预测方法的步骤流程图。

图2是本发明的基于手机游戏商店的用户流失预测系统的连接框图。

具体实施方式

以下结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

针对现有技术中,预测手机游戏商店流失用户技术的匮乏,以及竞争日益激烈的手机游戏商店行业对识别潜在流失用户的迫切需求,本发明提出一种基于手机游戏商店的用户流失预测方法及系统。该方法及系统基于流失用户的定义,利用选取的服务器日志用户数据和梯度提升决策树算法建立用户流失预测模型,识别未来一段时间内手机游戏商店的潜在流失用户,为留存用户提供决策支持。具体的技术方案通过以下实施例进行介绍。

请参阅图1,其为本发明的基于手机游戏商店的用户流失预测方法的步骤流程图。本发明提供了一种基于手机游戏商店的用户流失预测方法,具体包括以下步骤:

s1:从服务器日志中采集训练集用户和预测集用户的基本信息、行为信息和游戏信息,对训练集用户建立流失用户标签,并对原始数据进行预处理。具体的,作为本发明的进一步改进,所述流失用户的定义为:前n天上线的用户中,在后m天内未达到活跃条件的用户记为流失用户,其中活跃条件为用户的已发生事件总数大于j并且活跃时间大于k天;其中,n、m、j和k为可调参数,可以根据手机游戏商店的实际业务场景进行实时调整。

具体的,所述步骤s1包括:

s11:根据需要进行用户流失预测的时间段,从服务器日志中采集对应时间段的训练集用户和预测集用户的基本信息、行为信息和游戏信息,对训练集用户建立流失用户标签。

例如,在此实施例中,假如流失用户的定义中,n、m、j和k分别取7、7、7和0.5,则取预测日期前8-14天和前7天的服务器日志原始数据分别作为训练集用户和预测集用户的基础信息、行为信息和游戏信息。对于训练集用户的每个单一用户,进行如下的标签方法:

(1)若该用户在预测日期前7天满足活跃条件,则标签此用户为留存用户。

(2)若该用户在预测日期前7天未满足活跃条件,则标签此用户为流失用户。

s12:对训练集用户和预测集用户的基本信息、行为信息和游戏信息进行数据清洗,包括剔除异常用户和用户的无效事件。

具体的,在本步骤中,剔除异常用户的步骤为:由于手机游戏商店的某些用户存在严重刷号行为,其设备所对应的账号可达上万,这些用户不仅没有预测流失的必要,而且会对数据产生噪声污染,影响预测效果。因此,将账号数大于设定阈值的设备定义为异常用户,并剔除异常用户。

剔除用户的无效事件的步骤为:服务器日志记录用户的发生事件时,由于手机网络连接不稳定及服务器延时回应等原因,用户的单一操作会造成多个重复记录的产生。因此,将相同账号下,与上一个事件相同并且时间间隔小于设定阈值的事件定义为无效事件,并剔除无效事件。

s2:对训练集用户和预测集用户的基本信息、行为信息和游戏信息进行特征提取、选择及规范化。

具体的,所述步骤s2中具体包括:

s21:基于训练集用户和预测集用户的基本信息和游戏信息,提取基本特征和游戏特征。

其中,用户基本特征包括:注册账号数,已发生事件总数,每日已发生事件数,已注册天数,距上次登录天数,活跃区间,登录天数,注册渠道,用户手机系统和vip等级等。

用户游戏特征包括:用户游戏评级,用户游戏分类,用户游戏公会评级,用户游戏已上线天数等。

s22:基于训练集用户的行为信息,提取流失用户的行为特征。

在本步骤中,用户行为特征指用户在手机游戏商店中产生各行为类型的次数。在本实施例中,用户在手机游戏商店发生的事件类型上百种,也就是说,总共有上百维用户行为特征。然而,过高维数的特征工程并不利于数学建模,而且事实上,其中大部分事件本身内部强相关。因此,需要先对这上百种事件进行分类。在此实施例中,分类后的用户行为特征包括:登录行为次数,退出游戏行为次数,支付行为次数,点击消息提醒行为次数,点击导航栏行为次数,查看账号信息行为次数,小组行为次数,与客服交流行为次数,点击礼包行为次数,查看攻略行为次数,vip行为次数,录屏行为次数和福利行为次数等。

s23:根据训练集用户的流失用户标签,对训练集用户的行为特征进行选择,获取关键行为特征。

具体的,计算每个训练集用户行为特征和流失用户标签的pearson相关系数、互信息值及分类器重要性等,取相关性较强的用户行为特征作为关键用户行为特征。

s24:基于训练集用户的关键行为特征和预测集用户的行为信息,提取预测集用户的关键行为特征。

s25:规范化训练集用户和预测集用户的基本特征、游戏特征和关键行为特征。

具体的,在本步骤中具体处理方式包括对枚举特征进行独热编码处理。在此实施例中,所述枚举特征包括:注册渠道和用户游戏分类等。

s3:根据训练集用户的特征和流失用户标签,训练梯度提升决策树算法得到用户流失预测模型。

所述s3具体为:通过设定考核指标,并采用k折交叉验证法获取最优用户流失预测模型。

其中,梯度提升决策树算法模型可采用但不局限于xgboost算法。

具体的,xgboost的梯度提升决策树算法对传统的梯度提升决策树做了改良,例如在优化目标函数加入正则项并且多取了二阶导数信息、借鉴了随机森林的列抽样等,大幅度提高了预测准确率和计算效率。

所述考核指标包括精确率和召回率,并可根据手机游戏商店的业务场景赋予不同权重。精确率指预测为流失用户中实际为流失用户的概率,召回率指实际为流失用户中预测为流失用户的概率。

在此实施例中,基于手机游戏商店的实际业务场景,召回一个预测流失实际留存的用户的成本要比遗漏一个流失用户的成本低一些。也就是说,高召回率更重要。因此,赋予召回率更大的权重。

本实施例的k折交叉验证法指将训练模块的数据集均分成n个互斥子集,将每个子集数据分别做一次验证集,其余的k-1组子集数据作为训练集,这样会得到k个模型,用这k个模型最终的验证集的考核指标权重和的平均数作为此k折交叉验证下分类器的性能指标。基于该性能指标,选出最优用户流失预测模型。在本实施例中,k可取10。

s4:根据预测集用户的特征,通过用户流失预测模型识别出手机游戏商店的流失用户。

所述步骤s4具体为:以预测集用户的特征为输入变量,通过所述用户流失预测模型,输出用户的流失概率;若流失概率大于设定阈值,则标签为流失用户。例如,在此实施例中,可设定阈值为0.5。

请同时参阅图2,其为本发明的基于手机游戏商店的用户流失预测系统的连接框图。为了实现上述的方法,本发明还提供了一种基于手机游戏商店的用户流失预测系统,其包括数据采集及预处理模块1、特征提取、选择及规范化模块2、训练模块3和预测模块4。

所述数据采集及预处理模块1,用于从服务器日志中采集训练集用户和预测集用户的基本信息、行为信息和游戏信息,对训练集用户建立流失用户标签,并对原始数据进行预处理。所述流失用户为:前n天上线的用户中,在后m天内未达到活跃条件的用户记为流失用户,其中活跃条件为用户的已发生事件总数大于j并且活跃时间大于k天;其中,n、m、j和k为可调参数。

所述特征提取、选择及规范化模块2,用于对训练集用户和预测集用户的基本信息、行为信息和游戏信息进行特征提取、选择及规范化。

所述训练模块3,用于根据训练集用户的特征和流失用户标签,训练梯度提升决策树算法得到用户流失预测模型。

所述预测模块4,用于根据预测集用户的特征,通过用户流失预测模型识别出手机游戏商店的流失用户。

进一步,所述数据采集及预处理模块1包括:数据采集子模块11和预处理子模块12。

所述数据采集子模块11,用于根据需要进行用户流失预测的时间段,从服务器日志中采集对应时间段的训练集用户和预测集用户的基本信息、行为信息和游戏信息,对训练集用户建立流失用户标签;

所述预处理子模块12,用于对训练集用户和预测集用户的基本信息、行为信息和游戏信息进行数据清洗,包括剔除异常用户和用户的无效事件。

进一步,所述特征提取、选择及规范化模块2具体包括:基本特征和游戏特征提取子模块21、关键行为特征选择及提取子模块22和特征规范化子模块23。

所述基本特征和游戏特征提取子模块21,用于基于训练集用户和预测集用户的基本信息和游戏信息,提取基本特征和游戏特征。

所述关键行为特征选择及提取子模块22,用于基于训练集用户的行为信息,提取行为特征。同时,根据训练集用户的流失用户标签,对训练集用户的行为特征进行选择,获取关键行为特征。然后,基于训练集用户的关键行为特征和预测集用户的行为信息,提取预测集用户的关键行为特征。

所述特征规范化子模块23,用于规范化训练集用户和预测集用户的基本特征、游戏特征和关键行为特征。

进一步,所述训练模块3具体为:通过设定考核指标,并采用k折交叉验证法获取最优用户流失预测模型。具体地,所述考核指标包括精确率和召回率;所述精确率为预测为流失用户中实际为流失用户的概率,所述召回率为实际为流失用户中预测为流失用户的概率。

进一步,所述预测模块4具体为:以预测集用户的特征为输入变量,通过所述用户流失预测模型,输出用户的流失概率;若流失概率大于设定阈值,则标签为流失用户。

本发明所提供的用户流失预测方法及系统,不仅适用于手机游戏商店,同时也适用于针对多种手机游戏提供服务的应用及相关产品。

相比于现有技术,本发明提出一种基于手机游戏商店的用户流失预测方法及系统。该方法及系统基于流失用户的定义,结合手机游戏商店的业务场景,提取服务器日志的用户数据作为用户基础特征、用户行为特征和用户游戏特征,训练并建立最优梯度提升决策树算法模型识别未来一段时间内的流失用户。另外,本发明能够根据手机游戏商店的实际业务场景进行自调整,快速准确识别手机游戏商店的潜在流失用户,为手机游戏商店及时召回潜在流失用户提供决策支持,解决了市场日趋饱和的手机游戏商店行业预测流失用户的急切需求。同时,本发明还弥补了现有技术中基于手机游戏商店的用户流失预测技术的空缺。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1