一种基于聚类的移动应用下载量预测方法

文档序号:8528607阅读:153来源:国知局
一种基于聚类的移动应用下载量预测方法
【技术领域】
[0001] 本发明属于移动互联网应用领域。主要利用了余弦相似度与K中心聚类方法,实 现了一种针对移动应用(app)下载量的预测机制。
【背景技术】
[0002] 随着移动互联网大潮的到来,近年来移动应用(app)蓬勃发展,以谷歌市场为例 (GooglePlay)目前其app数目已超过100万,而累计下载量则超过500亿。不论android 还是ios的app应用市场,其网页或者应用端的展示页面都十分有限制,而大部分的app得 不到有效的展示。工业界将传统电商中的推荐机制逐渐引入到app领域,以此作为用户发 现感兴趣优质app的一种途径,同时也是一部分欠热门优质app曝光的有效途径。但目前 没有一种对潜在的优质app的发掘方法。

【发明内容】

[0003] 本发明所要解决的技术问题是提供一种基于聚类的移动应用下载量预测方法,能 够根据app的已知下载量对其后一段时间的总下载量进行预测。
[0004] 本发明解决技术问题所采用的技术方案是:一种基于聚类的移动应用下载量预测 方法,包括以下步骤:
[0005] 1)从后台数据中收集所有已知的app的历史数据。
[0006] 2)源数据处理,对步骤1)中的数据进行处理,生成长度为L的离散时间序列X以 表示每一个app的下载曲线,至此所有app的下载曲线组成一个离散时间序列训练数据 集;
[0007] 3)模式聚类,将步骤2)中生成的离散时间序列数据集进行聚类,得到k个下载模 式;
[0008] 4)下载量预测,给定一个app在m天内的下载曲线,与k个下载模式进行匹配,计 算之后(L-m)天的总下载量,得到预测结果。
[0009] 在采用上述技术方案的同时,本发明还可以采用或者组合采用以下进一步的技术 方案:
[0010] 所述步骤2)具体包括以下步骤:
[0011] (1)给定下载阈值thr;thr为人为指定的参数,默认thr= 0. 1.在thr确定的基 础上可以计算得到整个训练数据集的LdPL2,一般调节thr使得U+L2不小于原序列长度 的 2/3。
[0012] (2)为离散时间序列数据集中的每一条离散时间序列X,计算相应的Q(x)和 L2 (x),其中U(x)表示从Lp开始往左数日下载量第一次下降到thr*vp所用的天数,相应的, L2(x)用表示从Lp开始往右数曰下载量第一次下降到thr*vp所用的天数;Lp为序列中指定 的一天,vp为下载量的峰值。
[0013] (3)计算所有训练数据集中1^〇〇 *L2(X)的平均值1^和1^2。加:截取每条离散序 列峰值所在日前U天和后L2天的下载数据,左边截取天数不足L:时,用右侧数据填充。相 应的,用左侧数据填补右侧数据的不足。以确保所有序列的长度均为L(L=Li+L2)。至此, 源数据被处理为长度均为L的离散时间序列。
[0014] 所述步骤3)具体包括以下步骤:
[0015] (1)设定训练数据集中模式聚类的个数k;k为人工指定的参数,默认k=6,其具 体值根据聚类效果进行调整。
[0016] (2)从训练数据集中随机指定k条曲线为k个聚类的中心,计算每个非中心离散时 间序列x到k个中心的曲线距离d(x,c);
[0017]d(x,c)表示x与某一个聚类中心的距离,c专门指代聚类中心(center),根据 d(x,c)将该离散序列划分到离它最近的聚类中心所在的类。
[0018] (3)更新聚类中心k,每次聚类中心更新的目标变为最小化F;
[0019] 在给定的类划分下,聚类更新的目标为最小化类中每一条离散时间序列到类中心 的距离平方的和。
【主权项】
1. 一种基于聚类的移动应用下载量预测方法,其特征在于;所述方法包括w下步骤: 1) 从后台数据中收集所有已知的app的历史数据。 2) 源数据处理,对步骤1)中的数据进行处理,生成长度为L的离散时间序列XW表示 每一个app的下载曲线,至此所有app的下载曲线组成一个离散时间序列训练数据集; 3) 模式聚类,将步骤2)中生成的离散时间序列数据集进行聚类,得到k个下载模式; 4) 下载量预测,给定一个app在m天内的下载曲线,与k个下载模式进行匹配,计算之 后a-m)天的总下载量,得到预测结果。
2. 如权利要求1所述的一种基于聚类的移动应用下载量预测方法,其特征在于:所述 步骤2)具体包括W下步骤: (1)给定下载阔值thr; 似为离散时间序列数据集中的每一条离散时间序列X,计算相应的Li(x)和L,(x),其 中Li(x)表示从Lp开始往左数日下载量第一次下降到t虹*Vp所用的天数,相应的,L2(x)用 表示从Lp开始往右数日下载量第一次下降到thr*Vp所用的天数; (3)计算所有训练数据集中Li(X)和L2(X)的平均值Li和L2。
3. 如权利要求1所述的一种基于聚类的移动应用下载量预测方法,其特征在于: 所述步骤3)具体包括W下步骤: (1) 设定训练数据集中模式聚类的个数k; (2) 从训练数据集中随机指定k条曲线为k个聚类的中屯、,计算每个非中屯、离散时间序 列X到k个中屯、的曲线距离d(x,C); (3) 更新聚类中屯、k,每次聚类中屯、更新的目标变为最小化F;
(1) 其中UkiCk分别为第k个类的中屯、W及归属于第k类的曲线。 根据公式(1)可W导出每次第k类更新的值:
(2) 其中为更新之后第k类中屯、的值。
进一步由公式3可W先后导出公式4 : (4) 4
'可W得到最终的计算方式:
因此,就是矩阵M最小特征值对应的特征向量。
4.如权利要求1所述的一种基于聚类的移动应用下载量预测方法,其特征在于: 所述步骤4)具体包括W下步骤: (1) 给定一个app,其前m天的下载曲线是长度为m的离散时间序列test,计算test和 每个中屯、(聚类中屯、本身就是一条长度为L的离散序列)前m天构成的离散序列的余弦相 似度,选择最相似的类中屯、C; (2) 该其后的km天的下载量总和pred预测如下:
其中,C表示选定的最相似的类中屯、,那么cj表示离散序列C的第j项。
【专利摘要】本发明提供一种基于聚类的移动应用下载量预测方法,包括:1)从后台数据中收集所有已知的app的历史数据,2)源数据处理,3)模式聚类,下载量预测。本发明创新性地进行app下载量预测,在app领域需求明显,并且具有良好拓展性,在其他电商领域具有十分广泛的应用前景,并且,本发明在考虑app下载曲线特性的基础上修改K-means算法,并优化求解效率。整个聚类过程可以在线下完成,而下载量的预测值计算在线上完成,优化了用户体验。
【IPC分类】G06Q30-00
【公开号】CN104850998
【申请号】CN201510178285
【发明人】吴健, 邱奇波, 陈亮, 邓水光, 李莹, 尹建伟, 吴朝晖
【申请人】浙江大学
【公开日】2015年8月19日
【申请日】2015年4月15日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1