视频资源流行度预测方法与流程

文档序号:11207313阅读:1344来源:国知局
视频资源流行度预测方法与流程

本发明涉及数据挖掘和机器学习技术领域,尤其设计一种视频资源流行度预测方法。



背景技术:

视频点播是一种基于用户收视的动态需求,传输并播放相应需求的服务内容的视频播放技术。在收视内容的选择和观看方式上用户具有对数据流的主动权,是否能及时响应用户收视行为需求与资源调度的效率密切相关。在资源调度过程中,资源信息的流行度是调度算法的重要参考标准。

下面分别从用户行为分析和资源流行度预测研究分别来介绍相关的研究工作。

现有的关于用户行为分析的研究中,对用户行为的定义主要分为两类:一类指的是用户在点播收视过程中的交互式用户操作,所述的交互式操作与研究的具体问题有密切关系,如赛特斯网络科技公司的“iptv系统中用户行为分析装置及实现”分析应用的系统,主要研究如何结合用户行为对设备管理模型进行维护和运行,将不同的用户数据信息统计整理过后反馈到服务提供商,其中的用户行为主要指的是用户对直播、点播、回看的使用情况,包括观看时长和观看次数等,其中的用户行为是在其公司自己设备管理系统框架下定义并统计的,对收视行为的定义局限于收视模式(直播、点播)之间的区别,而没有真正深入到对点播模式中不同的用户交互行为中;另一类用户行为指的是用户请求的内容,以请求的内容代表用户行为并对用户请求内容进行处理和挖掘,如王攀等的专利“基于全业务视图分析的iptv用户行为分析方法”以业务为中心,根据业务属性匹配适合偏好的用户群矩阵,其中的用户行为主要指的是用户对iptv增值业务的需求,包括信息浏览、游戏、可视电话、影像空间等增值业务,其对用户行为的研究局限地认为用户对不同业务的使用代表不同的用户行为,仍然没有深入到用户交互行为的本质,无法准确地反应用户对收视内容的需求。

针对资源流行度预测,中国联通的“一种资源服务系统及其资源分配方法”主要将业务系统中的排队任务按照权重属性进行聚类分组,按照优先级打分对任务进行资源分配;四达时代通讯网络技术有限公司的“流媒体代理缓存替换方法及装置”主要根据主成分分析和多元线性回归的方法确定流媒体对象的流行度预测值,结合视频峰值的信噪比确定流媒体对象的综合价值以进行缓存替换;张天魁等在“一种基于内容流行度预测的信息中心网络缓存方法”中提出了将每个节点记录通过相似度分析进行聚类,计算节点上的内容流行度并做周期统计,再根据预测算法对流行度进行预测,与本地数据包进行对比决定是否更新节点缓存;常标等在“一种基于自回归模型的在线连载内容流行度预测方法”中,着重解决在线连载内容流行度的预测,通过爬取在线连载内容的整体播放量趋势,解析整体播放量趋势页面的html源代码,利用自回归模型预测新连载内容的流行度。从上述方案来看,现有研究没有将流行度的预测与用户交互行为进行联合分析,使得流行度的预测研究缺少了用户行为角度的数据支撑,流行度预测精度无法得到可靠保证。



技术实现要素:

本发明的目的是提供一种视频资源流行度预测方法,综合考虑用户收视交互内容数据和交互行为数据对资源流行度预测的影响,研究两类数据与流行度之间的关系,提高对资源流行度预测的准确性。

本发明的目的是通过以下技术方案实现的:

一种视频资源流行度预测方法,包括:

统计一定区域内群体用户的收视数据,获得群体用户的收视类型数据和交互行为数据,并利用收视类型数据来计算所统计数据的资源流行度;

利用耦合用户行为的文档主题生成模型lda,遍历收视类型数据和交互行为数据分别生成对应狄利克雷分布,通过链式法则推导每个行为模式的全概率并求取其狄利克雷分布的期望,得到行为模式矩阵;

结合神经网络模型,将所统计数据的资源流行度与行为模式矩阵作为神经网络输入,经过训练生成预测模型,根据训练的预测模型来预测未来的视频资源流行度。

所述统计一定区域内群体用户的收视数据,获得群体用户的收视类型数据和交互行为数据包括:

统计一个地区所有群体用户的观看日志,通过划分时间段和节目类型,得到群体用户一定天数内不同时间段的收视类型数据和交互行为的数据;

其中,划分时间段是指对一天的时间进行划分,若将一天划分为24个时间段,则每一时间段即为一个小时;

交互行为是指用户在点播业务中的播放状态,共有10种:节目收藏、首次启动播放、再次启动播放、快进状态、快退状态、暂停状态、定位播放、播放失败、退出播放与记忆播放。

所述利用收视类型数据来计算所统计数据的资源流行度包括:

将收视类型数据用集合c={ci|i=1,2,···,k}表示,集合c中的元素ci按收视类型编号,ci表示i类收视类型,其被用户访问的时间在总收视时长中的占比为pi,则pi是ci在集合c中的流行度,且p={pi|i=1,2,···,k}是集合c的资源流行度集合;其中,k为收视类型的总数量。

所述利用耦合用户行为的文档主题生成模型lda,遍历收视类型数据和交互行为数据分别生成对应狄利克雷分布,通过链式法则推导每个行为模式的全概率并求取其狄利克雷分布的期望,得到行为模式矩阵包括:

假设收视类型数据中有k种收视类型vw部节目,交互行为数据中有l种行为类型vl个交互行为;

对某一收视类型的节目中出现某一类型的交互行为,则称为行为模式;第m个文档中用户的行为模式多项式分布是一个k×l维矩阵,行为模式分布中第z个位置表示的行为模式即为用户对收视类型zmn1的节目采取第zmn2种交互行为;其中,

zmn2=(zmnmodk)

利用耦合用户行为的lda模型,遍历收视类型数据和交互行为数据分别生成对应狄利克雷分布,其过程如下:

令:则对于每一条收视数据n,n∈{1,...,nm};其中,nm为第m个文档中收视数据数量,为第k种收视类型的节目多项式分布,为第l种行为类型的交互行为多项式分布,α为行为模式多项式分布的dirichlet先验参数,β为节目多项式分布的dirichlet先验参数,γ为交互行为多项式分布的dirichlet先验参数;

计算狄利克雷分布θ,φ,ψ:

其中,分别表示参与计算的行为模式、节目类型、行为类型的数量;分别为节目、交互行为和行为模式集合;表示第m个文档中行为模式的集合,φ为节目分布多项式中所有节目发生概率的狄利克雷分布,ψ为交互行为多项式分布中所有交互行为发生概率的狄利克雷分布,θ为行为模式多项式分布中所有行为模式发生概率的狄利克雷分布;

基于狄利克雷分布θ,φ,ψ,并通过链式法则推导每个行为模式的全概率:

其中,分别为节目、交互行为和行为模式集合,这三个集合内部元素wmn、tmn、zmn分别表示第m个文档中第n收视数据的节目、第m个文档中第n收视数据的交互行为、第m个文档中第n收视数据的行为模式;表示行为模式集合中去除zmn后的集合;

最终基于狄利克雷分布θ,φ,ψ以及每个行为模式的全概率求解狄利克雷分布的期望,推导得到如下公式:

其中,代表用户对第k种收视类型中第vw部节目的观看次数,代表分配在第l种行为类型的第vl交互行为的次数,代表在第m个文档中第i个行为模式的发生次数;θmi、分别为单个行为模式、节目、交互行为的发生概率。

所述结合神经网络模型,将所统计数据的资源流行度与行为模式矩阵作为神经网络输入,经过训练生成预测模型,根据训练的预测模型来预测未来的视频资源流行度包括:

利用bp神经网络实现对行为模式矩阵和统计数据的资源流行度的非线性映射,输入层和输出层神经元个数与输入输出参数有关,输入的行为模式矩阵节目的收视类型有k种,输出为未来的视频资源流行度,则输入层和输出层节点个数分别为k和1,隐含层节点数设为s个;

将统计数据的资源流行度,以及行为模式矩阵中不同收视类型的节目的行为向量读入,再将读入数据划分为训练数据和测试数据;

开始初始化bp神经网络,训练方法采用最速下降法,批量方式训练行为模式数据,然后采用批量训练的方式将样本输入bp神经网络,计算每个样本的误差;最后判断是否收敛,若不收敛,根据最速下降法调整权值,直至收敛,从而获得预测模型;

将划定的测试数据输入bp神经网络,利用预测模型来预测未来的视频资源流行度。

由上述本发明提供的技术方案可以看出,对地区内用户数据按节目类型进行群体分析,有效弱化了单个影片短期爆发对流行度预测精度的影响;通过耦合用户行为的lda模型对收视内容和交互行为进行联合分析,避免了研究单一数据导致的信息缺失,更加准确地发现群体用户行为模式;采用神经网络模型,根据融合了行为数据的行为模式矩阵预测视频资源流行度,提高了预测的非线性处理能力,从而降低预测误差;此外,将本发明提供的方法应用于云服务器的资源调度中,能有效地提高请求接受率,提升用户体验。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种视频资源流行度预测方法的流程图;

图2为本发明实施例提供的行为模式发现的流程图;

图3为本发明实施例提供的行为模式矩阵的示意图;

图4为本发明实施例提供的融合用户行为的视频资源流行度预测的流程图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

本发明实施例提供一种视频资源流行度预测方法,该方法对用户群体数据从资源类型维度进行处理,生成用户群体收视数据;对于收视数据分析,不是单独处理收视内容或者交互行为,而是融合两类数据推导其联合概率分布,从而精确描述两类数据的内在关系;在预测方法上,将联合概率矩阵输入到神经网络模型来预测视频资源流行度,建立两者间的准确映射关系。

如图1所述,为一种视频资源流行度预测方法的流程图。首先,统计一定区域内群体用户的收视数据,获得群体用户的收视类型数据和交互行为数据,并利用收视类型数据来计算所统计数据的资源流行度;然后,利用耦合用户行为的文档主题生成模型lda,遍历收视类型数据和交互行为数据分别生成对应狄利克雷分布,通过链式法则推导每个行为模式的全概率并求取其狄利克雷分布的期望,得到行为模式矩阵;最后,结合神经网络模型,将所统计数据的资源流行度与行为模式矩阵作为神经网络输入,经过训练生成预测模型,根据训练的预测模型来预测未来的视频资源流行度。该方法综合考虑用户收视交互内容数据和交互行为数据对资源流行度预测的影响,研究两类数据与流行度之间的关系,提高对资源流行度预测的准确性,进而有效改善流媒体云服务器的资源部署效率,提升请求接入和响应的服务质量。

下面针对各个步骤做详细的说明。

一、群体用户数据处理。

本发明实施例中,群体用户数据处理的目的是,通过统计一个地区所有群体用户的观看日志,再通过划分时间段和节目类型,可以得到群体用户一定天数内不同时间段的收视类型数据和交互行为的数据。同时,对群体数据处理可以有效忽略个别用户的行为模式变异,行为模式变异指的是某些用户因为具有特殊的行为模式,如只快进或者只看某类节目。从群体角度处理可以将这些不确定变异对流行度预测的影响弱化到最小。

本发明实施例中,划分时间段是指对一天的时间进行划分,若将一天划分为24个时间段,则每一时间段即为一个小时,那么25天的数据集样本就可以划分为600个时间段集合。

收视类型可以划分为15个类型,分别为新闻、财经、综艺、体育、电影、动漫、军事、电视剧、科教、生活、时尚旅游、亲子教育、音乐、老人节目和少儿节目。

交互行为是指用户在点播业务中的播放状态,共有10种:节目收藏、首次启动播放、再次启动播放、快进状态、快退状态、暂停状态、定位播放、播放失败、退出播放与记忆播放。

此外,本发明实施例还利用收视类型数据来计算所统计数据的资源流行度,作为神经网络的一个输入。具体来说:将收视类型数据用集合c={ci|i=1,2,···,k}表示,集合c中的元素ci按收视类型编号,ci表示i类收视类型,其被用户访问的时间在总收视时长中的占比为pi,则pi是ci在集合c中的流行度,且p={pi|i=1,2,···,k}是集合c的资源流行度集合;其中,k为收视类型的总数量。

二、行为模式发现。

lda模型作为经典的文本主体生成模型,可以获取一个数据集中错综复杂的主题集合,在广电数据研究背景下,本发明采用耦合用户行为的lda模型对群体用户数据进行研究。如图2所示,选取用户过去一个时间段内的收视数据,对每个节目进行类型标定,把节目类型作为文档生成模型的主题,lda模型可以准确的生成不同节目类型的集合;不同节目类型中用户的收视行为模式各不相同,因此,把行为模式分布引入lda模型进行耦合,按行为模式对用户收视节目类型进行细分,这样可以在更精细的粒度上为对群体用户的收视内容进行深入分析,得到行为-节目的联合分布,再结合后续处理可以得到行为模式矩阵。

耦合用户行为的lda模型作为lda模型的扩展,可以对行为主体进行联合分析。结合图3,假设收视类型数据中有k种收视类型vw部节目,则类型-节目的联合分布φ'是k×vw维矩阵,表示第k种收视类型包含第vw部节目的概率;假设交互行为数据中有l种行为类型vl个交互行为,则类型-行为的联合分布ψ'是l×vl维矩阵,表示第l种行为类型中第vl个交互行为的概率;

本发明实施例中,对于某一收视类型的节目出现某一类型的交互行为,称之为行为模式;第m个文档中用户的行为模式多项式分布是一个k×l维矩阵,行为模式分布中第z个位置表示的行为模式即为用户对收视类型zmn1的节目采取第zmn2种交互行为;其中,

zmn2=(zmnmodk)

利用耦合用户行为的lda模型,遍历收视类型数据和交互行为数据分别生成对应狄利克雷分布,其过程如下:

令:则对于每一条收视数据n(收视记录中包含时间戳、节目名称、行为类型),n∈{1,...,nm};其中,nm为第m个文档中收视数据数量,为第k种收视类型的节目多项式分布,为第l种行为类型的交互行为多项式分布,α为行为模式多项式分布的dirichlet先验参数,β为节目多项式分布的dirichlet先验参数,γ为交互行为多项式分布的dirichlet先验参数;这些多项式分布由多个元素组成,例如,节目多项式分布第k个元素为另外两个多项数分布参数的含义类似。

计算狄利克雷分布θ:

上式中的,表示在计算狄利克雷分布中间过程中考虑了先验参数和行为次数的概率。

同理可以得到狄利克雷分布φ,ψ:

其中,分别表示参与计算的行为模式、收视类型、行为类型的数量;分别为节目、交互行为和行为模式集合;表示第m个文档中行为模式的集合,φ为节目分布多项式中所有节目发生概率的狄利克雷分布,ψ为交互行为多项式分布中所有交互行为发生概率的狄利克雷分布,θ为行为模式多项式分布中所有行为模式发生概率的狄利克雷分布。

基于狄利克雷分布θ,φ,ψ,并通过链式法则推导每个行为模式的全概率:

其中,三个集合内部元素wmn、tmn、zmn分别表示第m个文档中第n条收视数据的节目、第m个文档中第n条收视数据的交互行为、第m个文档中第n条收视数据的行为模式;表示行为模式集合中去除zmn后的集合;

上式的含义是指根据已有的三类分布的先验参数(即α,β,γ)和节目、行为和行为模式的集合(即)求取每个行为模式发生的全概率。公式右边的分子和分母的计算过程中分别需要用到φ、ψ、θ,也就是

此外,的示意表如表1所示。

表1的示意表

上表中的第一行第一列θ11到最后一行最后一列θmi所有行为模式的发生概率组合构成也即一个行为模式矩阵。其中的任一个行为模式的发生概率记为θmi,也是本文最终想要求取的结果。

最终基于狄利克雷分布θ,φ,ψ以及每个行为模式的全概率求解狄利克雷分布的期望,推导得到如下公式:

其中,代表用户对第k种收视类型中第vw部节目的观看次数,代表分配在第l种行为类型的第vl交互行为的次数,代表在第m个文档中第i个行为模式的发生次数;θmi、分别为单个行为模式、节目、交互行为的发生概率。本发明实施例中,通过对狄利克雷分布的期望求解,得到θmi、其中的,θmi也就是代表行为模式矩阵中不同元素的发生概率,即为我们的输出。

本发明实施例中,各个参数的含义说明如表2所示。

表2融合用户行为的clda模型中参数说明表

三、融合用户行为的视频资源流行度预测

融合用户行为的视频资源流行度预测是指,利用神经网络模型进行预测,将融合了用户收视数据和交互行为的行为模式矩阵输入模型,使每一个行为模式矩阵映射到一个流行度集合,根据模型预测未来视频资源流行度。

本发明实施例中,利用bp神经网络实现对行为模式矩阵和统计数据的资源流行度的非线性映射,输入层和输出层神经元个数与输入输出参数有关,输入的行为模式矩阵节目的收视类型有k种,输出为未来的视频资源流行度,则输入层和输出层节点个数分别为k和1,隐含层节点数设为s个。

如图4所示,将统计数据的资源流行度,以及行为模式矩阵中不同收视类型的节目的行为向量读入,再将读入数据划分为训练数据和测试数据;开始初始化bp神经网络,训练方法采用最速下降法,批量方式训练行为模式数据,然后采用批量训练的方式将样本输入bp神经网络,计算每个样本的误差,示例性的,可以定义流行度集合的误差容限为0.1;最后判断是否收敛,若不收敛,根据最速下降法调整权值,直至收敛,从而获得预测模型;将划定的测试数据输入bp神经网络,利用预测模型来预测未来的视频资源流行度。最终,将预测得到的视频资源流行度和统计得到的视频流行度分别应用在云服务器上,可以知道,本发明对性能提升有显著的积极影响。

本发明实施例上述方案,对地区内用户数据按节目类型进行群体分析,有效弱化了单个影片短期爆发对流行度预测精度的影响;通过耦合用户行为的lda模型对收视内容和交互行为进行联合分析,避免了研究单一数据导致的信息缺失,更加准确地发现群体用户行为模式;采用神经网络模型,根据融合了行为数据的行为模式矩阵预测视频资源流行度,提高了预测的非线性处理能力,从而降低预测误差;此外,将本发明提供的方法应用于云服务器的资源调度中,能有效地提高请求接受率,提升用户体验。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1