一种基于少量数据的短期视频点播量预测系统的制作方法

文档序号：7806534阅读：543来源：国知局

一种基于少量数据的短期视频点播量预测系统的制作方法
【专利摘要】本发明公开了一种基于少量数据的短期视频点播量预测系统，该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块。系统配置模块能够对系统运行中的各种参数进行配置，灵活调整系统所适应的运用环境；数据预处理模块可根据实际数据情况对日志数据进行序列化，形成样本序列数据库；随后，样本选择模块根据配置信息在样本序列数据库中挑选出合适的样本；最后匹配预测模块将利用独特的方法将样本集中的点播序列与新节目的点播序列进行匹配并生成预测结果，实现基于少量数据准确完成短期视频点播量预测的目标。
【专利说明】一种基于少量数据的短期视频点播量预测系统

【技术领域】
[0001] 本发明涉及数据挖掘【技术领域】，具体地说是一种基于少量数据的短期视频点播量预测系统。

【背景技术】
[0002] 随着IPTV、互联网视频网站、移动视频等业务的兴起、流行，视频点播业务对点播量预测的需求愈发强烈。如何根据视频点播状况来制定合理地广告策略，从而增加运营商收入并提高用户体验？如何做到对新上线的视频做出快速地预测，以满足当前快节奏生活所营造出的热点迁移速度？如何建立高性能的内容分发网络（CDN)来提高视频点播的体验？越来越多的视频节目开始趋向于在短期内吸引大量的点播量，并快速步入衰退期，如图1所示。所以，要在这样的大背景下解决上述的这些问题都必须依靠短期视频点播量预测算法。
[0003] 传统的时间序列预测算法，如ARMA，需要收集待预测序列中大量的历史数据来学习参数，并且只适用于平稳时间序列的预测。这两点对于如图1所示的爆发式增长的点播量序列都难以满足。大量的点播量都集中在节目上线的早期，累积大量历史数据后再进行预测会使预测的价值降低，并且波动剧烈的序列早期阶段不满足平稳序列的要求。
[0004] 基于K最近邻回归（KNN)的学习方法，虽然可以通过学习其他类似样本，实现早期预测的目标，但是普通的欧氏距离难以为新节目找到合适的邻居，故预测效果较差。

【发明内容】

[0005] 本发明的目的是针对现有技术的不足而提出的一种基于少量数据的短期视频点播量预测系统，该系统对新上映的视频点播量进行远超已有数据长度的预测，实现远优于 KNN的预测效果。
[0006] 实现本发明目的的具体技术方案是：
[0007] -种基于少量数据的短期视频点播量预测系统，该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块，其中：
[0008] 所述系统配置模块：根据用户编写的配置文件，配置整个预测过程的参数、原始日志数据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位置以及预测结果的存储位置，其中，整个预测过程的参数为邻居序列数量K、输入数据长度T tMin、输出数据长度 Tpred ?
[0009] 所述数据预处理模块：将根据用户提供的原始系统日志的数据格式对数据进行处理，转化为可使用的序列数据格式，并检测样本序列数据库中是否已存在对应节目，如有，则合并已有序列以及新生成的序列，如有空缺时间单位则以0填充，形成在时间维度上连续的序列数据；随后，将符合配置文件中所描述新节目条件即长度等于T tMin的序列存储至待预测序列文件中，其余序列存储至样本序列数据库中；
[0010] 所述样本选择模块：从样本序列数据库中选择符合限制条件的样本序列，存储至样本集合文件中，其中，样本序列为样本集及平滑样本集；
[0011] 所述匹配预测模块：使用样本选择模块存储的样本集合，根据待预测序列的前 Ttain个数据节点，在平滑样本集中寻找最为相似的K个邻居序列，并计算最终预测结果。
[0012] 所述样本选择模块中从样本序列数据库中选择符合限制条件的样本序列，具体包括：
[0013] a)根据系统配置模块中的输入数据长度即TtMin个时间单位以及输出数据长度即TpMd个时间单位，在数据库中筛选出长度大于等于2*T t_+Tpred- 1的序列的前 2*Tt_+Tpral - 1个时间单位作为模型的样本集；
[0014] b)对样本集中所有序列的前2*TtMin - 1个单位的数据进行平滑处理，并将经过平滑处理的部分存入平滑样本集。
[0015] 所述匹配预测模块中在平滑样本集中寻找最为相似的K个邻居序列，并计算最终预测结果，具体包括：
[0016] a)针对待预测序列的前Ttrain个时间单位所组成的序列Snew进行平滑处理，得到序列 ssnew;

【权利要求】
1. 一种基于少量数据的短期视频点播量预测系统，其特征在于该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块，其中：所述系统配置模块：根据用户编写的配置文件，配置整个预测过程的参数、原始日志数据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位置以及预测结果的存储位置，其中，整个预测过程的参数为邻居序列数量K、输入数据长度T train、输出数据长度TpMd ; 所述数据预处理模块：将根据用户提供的原始系统日志的数据格式对数据进行处理，转化为可使用的序列数据格式，并检测样本序列数据库中是否已存在对应节目，如有，则合并已有序列以及新生成的序列，如有空缺时间单位则以0填充，形成在时间维度上连续的序列数据；随后，将符合配置文件中所描述新节目条件即长度等于T train的序列存储至待预测序列文件中，其余序列存储至样本序列数据库中；所述样本选择模块：从样本序列数据库中选择符合限制条件的样本序列，存储至样本集合文件中，其中，样本序列为样本集及平滑样本集；所述匹配预测模块：使用样本选择模块存储的样本集合，根据待预测序列的前TtMin个数据节点，在平滑样本集中寻找最为相似的K个邻居序列，并计算最终预测结果。
2. 根据权利要求1所述的预测系统,其特征在于所述样本选择模块中从样本序列数据库中选择符合限制条件的样本序列，具体包括： a) 根据系统配置模块中的输入数据长度即TtMin个时间单位以及输出数据长度即TpMd 个时间单位，在数据库中筛选出长度满足2*TtMin+Tp,ed - 1的序列的前2*TtMin+Tp,ed - 1个时间单位作为模型的样本集； b) 对样本集中所有序列的前2*TtMin - 1个单位的数据进行平滑处理，并将经过平滑处理的部分存入平滑样本集。
3. 根据权利要求1所述的预测系统，其特征在于所述匹配预测模块中在平滑样本集中寻找最为相似的K个邻居序列，并计算最终预测结果，具体包括： a) 针对待预测序列的前Ttrain个时间单位所组成的序列Sn"进行平滑处理，得到序列 CC β 〇〇new 5 b) 在平滑样本集中寻找与SSn"最为相似的K个平滑邻居序列，相似度计算公式如下：
其中351表示平滑序列集中的第i个序列，shift(SSi，β)表示对SSi实施参数为β的平移操作，当β >〇时，序列SSi将会右移，并使用0填充序列的前β个单位，当β〈0时，序列SSi 将会左移，并使用0填充序列的后β个单位，β的取值范围为（_Ttrain+l，Ttrain-l) ;α 为缩放参数，通过将上述公式对SSi的偏导置零求得最佳值，具体公式如下：
C)记录与SSnOT最为相似的K个序列的编号集合NID及其对应的相似度集合SIM、最佳缩放系数α的集合A和最佳平移系数β的集合B; d) 根据NID，在样本集中找出所有平滑邻居序列所对应的邻居序列所组成的集合 SMighbOT，计算这些邻居序列与SnOT之间的最佳缩放系数c，并记录在集合D中，计算公式如下：
公式中的代表集合S_hbOT中的第i个序列的前TtMin个元素所组成的子序列 e) 利用缩放系数集合D，以及最佳平移系数集合B，对邻居序列进行缩放和位移操作，并将集合SIM中的相似度作为权重计算加权平均值，获得S m_，其计算公式如下：
其中，Ci代表集合D中的第i个缩放系数，β i代表集合B中的第i个平移系数，代表集合SneighbOT中的第i个序列； f) 利用下述公式求得可使S_n的前Ttrain个单位所组成的序列与Sn"距离最小化的最终预测结果S pMd :
其中 Smean [〇 · Ttrain ]表示S_中前Ttrain个元素所组成的子序列，S_n[T train· Ttrain+TpredD 表示S_n的后T_d个元素所组成的子序列。
【文档编号】H04N21/258GK104053024SQ201410274071
【公开日】2014年9月17日申请日期:2014年6月19日优先权日:2014年6月19日
【发明者】贺樑, 陈昊, 向平, 李明耀, 杨辰翌, 陈琴申请人:华东师范大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贺樑;陈昊;向平;李明耀;杨辰翌;陈琴
技术所有人：华东师范大学
我是此专利的发明人

上一篇：数据通信方法及其装置、存储系统的制作方法
上一篇：清除终端失效联系人的方法和装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。