1.一种基于手机上网行为的用户性别预测方法,包括如下步骤:
(1)统计用户在一段时间内点击各APP的次数;
(2)将统计数据整理成矩阵形式;
(3)对所述矩阵进行降维处理;
(4)将处理后的数据分为训练数据集和测试数据集,用训练数据集来训练预测模型;
(5)用测试数据集来验证预测模型,并计算准确度。
2.如权利要求1所述的基于手机上网行为的用户性别预测方法,其特征在于:步骤(2)中所述矩阵的行表示每个用户的记录,列表示用户使用每个APP对应的次数。
3.如权利要求1或2所述的基于手机上网行为的用户性别预测方法,其特征在于:在步骤(3)中,由于所述矩阵为稀疏矩阵,先删除数据的缺失率大于99%的APP,然后再对所述矩阵进行降维处理。
4.如权利要求3所述的基于手机上网行为的用户性别预测方法,其特征在于:降维处理采用主成分分析法。
5.如权利要求1所述的基于手机上网行为的用户性别预测方法,其特征在于:步骤(4)中在划分训练数据集和测试数据集时,采取随机划分的方法并针对用户不同性别划分一定比例的数据作为训练数据集,以避免有些属性由于随机划分没有测试数据。
6.如权利要求5所述的基于手机上网行为的用户性别预测方法,其特征在于:随机划分数据过程中要保证男性和女性数据中分别有80%的数据作为训练数据集,20%的数据作为测试数据集。
7.如权利要求1或5所述的基于手机上网行为的用户性别预测方法,其特征在于:步骤(4)中采用随机森林算法来建立预测模型;所述随机森林算法是一个包含多个决策树的组合分类器,其输出的类别由多个树输出的类别的众数决定。
8.如权利要求7所述的基于手机上网行为的用户性别预测方法,其特征在于:步骤(4)在模型建立的过程中,通过不断的调整算法参数来提高模型预测结果的准确度。
9.如权利要求8所述的基于手机上网行为的用户性别预测方法,其特征在于:通过调整算法模型中CART树的数量来提高模型预测结果的准确度。
10.如权利要求1所述的基于手机上网行为的用户性别预测方法,其特征在于:步骤(5)中所述的准确度可以由准确率、精确度、召回率来表示,所述准确率定义为正确预测的人数和实际预测人数的比例;所述精确度定义为该类别正确预测人数和预测为该类别人数的比例;召回率定义为该类别正确预测的人数和该类别实际人数的比例。