一种基于少量数据的短期视频点播量预测系统的制作方法

文档序号:7806534阅读:543来源:国知局
一种基于少量数据的短期视频点播量预测系统的制作方法
【专利摘要】本发明公开了一种基于少量数据的短期视频点播量预测系统,该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块。系统配置模块能够对系统运行中的各种参数进行配置,灵活调整系统所适应的运用环境;数据预处理模块可根据实际数据情况对日志数据进行序列化,形成样本序列数据库;随后,样本选择模块根据配置信息在样本序列数据库中挑选出合适的样本;最后匹配预测模块将利用独特的方法将样本集中的点播序列与新节目的点播序列进行匹配并生成预测结果,实现基于少量数据准确完成短期视频点播量预测的目标。
【专利说明】一种基于少量数据的短期视频点播量预测系统

【技术领域】
[0001] 本发明涉及数据挖掘【技术领域】,具体地说是一种基于少量数据的短期视频点播量 预测系统。

【背景技术】
[0002] 随着IPTV、互联网视频网站、移动视频等业务的兴起、流行,视频点播业务对点播 量预测的需求愈发强烈。如何根据视频点播状况来制定合理地广告策略,从而增加运营商 收入并提高用户体验?如何做到对新上线的视频做出快速地预测,以满足当前快节奏生活 所营造出的热点迁移速度?如何建立高性能的内容分发网络(CDN)来提高视频点播的体 验?越来越多的视频节目开始趋向于在短期内吸引大量的点播量,并快速步入衰退期,如 图1所示。所以,要在这样的大背景下解决上述的这些问题都必须依靠短期视频点播量预 测算法。
[0003] 传统的时间序列预测算法,如ARMA,需要收集待预测序列中大量的历史数据来学 习参数,并且只适用于平稳时间序列的预测。这两点对于如图1所示的爆发式增长的点播 量序列都难以满足。大量的点播量都集中在节目上线的早期,累积大量历史数据后再进行 预测会使预测的价值降低,并且波动剧烈的序列早期阶段不满足平稳序列的要求。
[0004] 基于K最近邻回归(KNN)的学习方法,虽然可以通过学习其他类似样本,实现早期 预测的目标,但是普通的欧氏距离难以为新节目找到合适的邻居,故预测效果较差。


【发明内容】

[0005] 本发明的目的是针对现有技术的不足而提出的一种基于少量数据的短期视频点 播量预测系统,该系统对新上映的视频点播量进行远超已有数据长度的预测,实现远优于 KNN的预测效果。
[0006] 实现本发明目的的具体技术方案是:
[0007] -种基于少量数据的短期视频点播量预测系统,该系统包括系统配置模块、数据 预处理模块、样本选择模块及匹配预测模块,其中 :
[0008] 所述系统配置模块:根据用户编写的配置文件,配置整个预测过程的参数、原始日 志数据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位置以 及预测结果的存储位置,其中,整个预测过程的参数为邻居序列数量K、输入数据长度T tMin、 输出数据长度 Tpred ?
[0009] 所述数据预处理模块:将根据用户提供的原始系统日志的数据格式对数据进行处 理,转化为可使用的序列数据格式,并检测样本序列数据库中是否已存在对应节目,如有, 则合并已有序列以及新生成的序列,如有空缺时间单位则以0填充,形成在时间维度上连 续的序列数据;随后,将符合配置文件中所描述新节目条件即长度等于T tMin的序列存储至 待预测序列文件中,其余序列存储至样本序列数据库中;
[0010] 所述样本选择模块:从样本序列数据库中选择符合限制条件的样本序列,存储至 样本集合文件中,其中,样本序列为样本集及平滑样本集;
[0011] 所述匹配预测模块:使用样本选择模块存储的样本集合,根据待预测序列的前 Ttain个数据节点,在平滑样本集中寻找最为相似的K个邻居序列,并计算最终预测结果。
[0012] 所述样本选择模块中从样本序列数据库中选择符合限制条件的样本序列,具体包 括:
[0013] a)根据系统配置模块中的输入数据长度即TtMin个时间单位以及输出数据长 度即TpMd个时间单位,在数据库中筛选出长度大于等于2*T t_+Tpred- 1的序列的前 2*Tt_+Tpral - 1个时间单位作为模型的样本集;
[0014] b)对样本集中所有序列的前2*TtMin - 1个单位的数据进行平滑处理,并将经过平 滑处理的部分存入平滑样本集。
[0015] 所述匹配预测模块中在平滑样本集中寻找最为相似的K个邻居序列,并计算最终 预测结果,具体包括:
[0016] a)针对待预测序列的前Ttrain个时间单位所组成的序列Snew进行平滑处理,得到序 列 ssnew;

【权利要求】
1. 一种基于少量数据的短期视频点播量预测系统,其特征在于该系统包括系统配置模 块、数据预处理模块、样本选择模块及匹配预测模块,其中: 所述系统配置模块:根据用户编写的配置文件,配置整个预测过程的参数、原始日志数 据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位置以及预 测结果的存储位置,其中,整个预测过程的参数为邻居序列数量K、输入数据长度T train、输出 数据长度TpMd ; 所述数据预处理模块:将根据用户提供的原始系统日志的数据格式对数据进行处理, 转化为可使用的序列数据格式,并检测样本序列数据库中是否已存在对应节目,如有,则合 并已有序列以及新生成的序列,如有空缺时间单位则以0填充,形成在时间维度上连续的 序列数据;随后,将符合配置文件中所描述新节目条件即长度等于T train的序列存储至待预 测序列文件中,其余序列存储至样本序列数据库中; 所述样本选择模块:从样本序列数据库中选择符合限制条件的样本序列,存储至样本 集合文件中,其中,样本序列为样本集及平滑样本集; 所述匹配预测模块:使用样本选择模块存储的样本集合,根据待预测序列的前TtMin个 数据节点,在平滑样本集中寻找最为相似的K个邻居序列,并计算最终预测结果。
2. 根据权利要求1所述的预测系统,其特征在于所述样本选择模块中从样本序列数据 库中选择符合限制条件的样本序列,具体包括: a) 根据系统配置模块中的输入数据长度即TtMin个时间单位以及输出数据长度即TpMd 个时间单位,在数据库中筛选出长度满足2*TtMin+Tp,ed - 1的序列的前2*TtMin+Tp,ed - 1个时 间单位作为模型的样本集; b) 对样本集中所有序列的前2*TtMin - 1个单位的数据进行平滑处理,并将经过平滑处 理的部分存入平滑样本集。
3. 根据权利要求1所述的预测系统,其特征在于所述匹配预测模块中在平滑样本集中 寻找最为相似的K个邻居序列,并计算最终预测结果,具体包括: a) 针对待预测序列的前Ttrain个时间单位所组成的序列Sn"进行平滑处理,得到序列 CC β 〇〇new 5 b) 在平滑样本集中寻找与SSn"最为相似的K个平滑邻居序列,相似度计算公式如下:
其中351表示平滑序列集中的第i个序列,shift(SSi,β)表示对SSi实施参数为β的 平移操作,当β >〇时,序列SSi将会右移,并使用0填充序列的前β个单位,当β〈0时,序 列SSi 将会左移,并使用0填充序列的后β个单位,β的取值范围为(_Ttrain+l,Ttrain-l) ;α 为缩放参数,通过将上述公式对SSi的偏导置零求得最佳值,具体公式如下:
C)记录与SSnOT最为相似的K个序列的编号集合NID及其对应的相似度集合SIM、最佳 缩放系数α的集合A和最佳平移系数β的集合B; d) 根据NID,在样本集中找出所有平滑邻居序列所对应的邻居序列所组成的集合 SMighbOT,计算这些邻居序列与SnOT之间的最佳缩放系数c,并记录在集合D中,计算公式如 下:
公式中的代表集合S_hbOT中的第i个序列的前TtMin个元素所组成 的子序列 e) 利用缩放系数集合D,以及最佳平移系数集合B,对邻居序列进行缩放和位移操作, 并将集合SIM中的相似度作为权重计算加权平均值,获得S m_,其计算公式如下:
其中,Ci代表集合D中的第i个缩放系数,β i代表集合B中的第i个平移系数, 代表集合SneighbOT中的第i个序列; f) 利用下述公式求得可使S_n的前Ttrain个单位所组成的序列与Sn"距离最小化的最 终预测结果S pMd :
其中 Smean [〇 · Ttrain ]表示S_中前Ttrain个元素所组成的子序列,S_n[T train· Ttrain+TpredD 表示S_n的后T_d个元素所组成的子序列。
【文档编号】H04N21/258GK104053024SQ201410274071
【公开日】2014年9月17日 申请日期:2014年6月19日 优先权日:2014年6月19日
【发明者】贺樑, 陈昊, 向平, 李明耀, 杨辰翌, 陈琴 申请人:华东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1