一种基于用户情绪的在线视频热度预测方法及系统与流程

文档序号:11437565阅读:270来源:国知局
一种基于用户情绪的在线视频热度预测方法及系统与流程

本发明涉及在线视频服务技术领域,特别涉及一种基于用户情绪的在线视频热度预测方法及系统。



背景技术:

onlinevideoservice(ovs)即在线视频服务是一种利用宽带互联网为传输媒介,集合了通信,互联网和多媒体技术为一体的,面向不同地域,不同终端的用户提供即时视频服务的技术。相比于传统的视频服务方式(广播电视,线下影片等),其优势在于具备良好的即时性,拥有更为广泛的视频源同时具备更好的用户间的可交互性。

伴随着近些年来在线视频服务的飞速发展,实现对在线视频长期热度的预测蕴含着巨大的经济价值。同时,随着互联网技术的不断发展,在线视频服务和社交网络的相互影响也越来越大。这一现象,使得我们可以在一定程度上借助社交网络中的相关信息,实现对视频热度更为精准的预测。

所有热度预测方法的目标基本上是一致的,基于可观察到的有限的视频早期收视数据,预测在未来一段时间内视频可能产生的收视行为总数。

建立视频的早期热度与其未来热度之间的联系是实现视频热度预测的基础。大规模的统计数据显示,在早期拥有较高热度的视频,在未来较长的一段时间内往往也会拥有相对较高的热度。这种现象被现有研究称为热度的“滚雪球”效应,其产生原因是在在线视频服务发展的早期,用户在观看一个在线视频之前,很难获知该视频内容的相关信息及视频质量的评价。因此,视频的历史收视行为数量往往是用户决定是否观看该视频最重要的依据。“滚雪球”效应是绝大多数现有研究的基础。szabo和huberman于2010年提出了一种面向在线视频的热度预测方法,描述了在对数变换下,视频早期热度与未来热度之间的近似线性的关系(szabog,hubermanba.predictingthepopularityofonlinecontent[j].communicationsoftheacm,2010,53(8):80-88;)。pinto和almeida于2014年将此方法做了进一步的发展,他们提出的新方法使用视频在早期的收视行为分布替代对数变换下某一特定时间的热度值,获得了更为优良的预测性能(pintoh,almeidajm,ma.usingearlyviewpatternstopredictthepopularityofyoutubevideos[c]//proceedingsofthesixthacminternationalconferenceonwebsearchanddatamining.acm,2013:365-374)。然而随着在线视频服务和社交网络相关技术的发展,在线视频服务的用户之间的信息交流也随之不断扩大。在线视频服务用户可以在观看一个视频前,从多样化的渠道了解该视频内容的相关信息以及对于视频质量的评价和反馈。这一变化使得视频未来的热度不再仅由其历史收视行为数量所支配,视频自身的质量和用户情绪等因素更多地介入并驱动着视频热度的变化。一种被称为“口碑效应”的新机制逐渐取代了现有方法所依赖的“滚雪球”效应,而现有方法尚未对这一变化做出有效应对。因此,在在线视频服务新的发展局面下,对在线视频的热度预测必须更多地考虑视频质量的反馈和用户情绪等相关因素,方能够实现对视频在未来可能产生的收视行为数量更为准确的预测。

经进一步检索,公开号为cn105635762a、申请号为cn201610027422.7的中国发明申请,该申请公开了一种基于深度信念网络的视频热度预测方法及其系统,包括:根据视频特征选择输入变量并对影响因子进行归一量化,以对训练数据进行预处理;所述输入变量具体包括视频的出品年份、国家地区、视频角标、放映电视台、视频类型、视频总集数、视频版权、制作等级、豆瓣评分、演员影响力、导演影响力以及百度搜索指数。该申请基于于深度信念网络的在线视频预测模型,将深层神经网络应用于在线视频预测领域,且能提高预测的准确度和可靠性。

但是上述专利存在以下不足:

首先,上述专利中对于影响因子的处理属于简单的归一化处理,并没有针对影响因子与收视行为之间的关系进行建模;

其次,当前的深度神经网络并不适用于对视频热度的线性预测,而如上述专利所述将大量简单处理后的因子投入深度神经网络,会使得很多影响不大的因子在经过深度神经网络映射后,影响被大幅度放大。这种不同因子影响的无差别放大会使预测结果产生额外的误差,无法实现对视频热度精准预测。



技术实现要素:

针对现有技术中的缺陷,本发明的目的是提供一种基于用户情绪的在线视频热度预测方法及系统,以解决现有技术中没有考虑用户情绪因素,没有考虑多样化的与视频相关的内容给视频热度带来的随机性影响等问题,从而实现对视频热度更精准的预测。

本发明坚持在预测时使用传统机器学习的方法,同时通过引入用户情绪对收视行为的影响,构造更为精确的历史收视数据。并且,本发明有选择地在针对需要跨域数据学习的指定数据时使用了神经网络,可以有效控制神经网络对因子影响放大可能产生的负面效应,从而得到更加稳定和可靠的预测性能。

根据本发明的第一方面,提供一种基于用户情绪的在线视频热度预测方法,包括:

收视数据收集步骤:获取在线视频的历史收视记录,以及与用户情绪相关的历史行为记录,提取视频中的标签获得在线视频标签集合;

社交网络数据收集步骤:根据收视纪录行为步骤获取的在线视频标签集合,在社交网络中收集同样具有所述在线视频标签集合内所述标签的社交网络内容及其被转发的时间序列信息,得到在线视频和社交网络内容的共享标签集合;

社交网络辅助学习步骤:基于社交网络数据收集步骤得到的数据,通过一个基于vsm的衍生模型,学习标签在社交网络中对于社交网络内容的转发行为数量的影响;

跨域数据学习和转化步骤:通过一个全连接的多层感知网络,协同后续社交网络辅助学习步骤和混合热度预测步骤学习共享标签集合中的标签对于在线内容热度的影响,并将共享标签集合中的标签对于社交网络内容热度的影响转化到视频域的预测中,得到标签对于在线视频内容热度的影响力数据;

混合热度预测步骤:根据收视数据收集步骤所获得的数据,以及跨域数据学习和转化步骤从跨域数据转化得到的标签影响力数据,分别对在线视频热度中基于总体趋势的成分和加性随机成分进行预测。

优选地,所述收视数据收集步骤,除收集包括历史收视行为和用户情绪相关行为数据后,还从视频的自身信息中提取标签信息,将相同的视频标签合并获得所有视频的标签集合;所述与用户情绪相关的历史行为记录,其中所述情绪分两类:积极情绪和消极情绪,其对于收视行为发生概率的影响具有相反的极性。

优选地,所述社交网络数据收集步骤,从所有收集到的社交网络内容中提取出社交网络中的标签集合,该标签集合与在线视频标签集合的重叠部分即是在线视频和社交网络内容的共享标签集合。

优选地,所述混合热度预测步骤包括:

用户情绪加权子步骤:利用收集的用户情绪相关的历史行为记录,通过一个基于香农熵和指数平滑的加权函数计算得到对应于每一个时段内的收视行为数量的加权因子,经过该加权因子加权后所得到的即用户情绪加权后的历史收视行为数据;

动态特征提取和视频分类子步骤:在用户情绪加权后的历史收视行为数据上,判断在每一个历史时段内,视频热度的变化模式并生成早期热度动态模式序列,提取出视频的早期热度动态特征并基于这一特征将视频进行分类;

基于热度趋势的预测子步骤:在经过用户情绪加权以并基于由动态特征提取和视频分类子步骤所得到的分类视频数据上,通过扩展多元回归-径向基函数补偿模型,实现从热度趋势的角度对视频热度的预测;

所述加性随机预测子步骤,利用从跨域数据学习和转化子步骤得到的所述标签对在线内容热度的影响力数据,对由在线视频和社交网络共享标签集合中的标签引起的额外收视行为进行预测。

更优选地,所述动态特征提取和视频分类子步骤,总共考虑两种热度变化模式:“平缓”和“激增”,分别用数字0和1表示;将视频早期热度动态模式序列中连续出现的相同动态模式合并,得到每个视频对应的早期热度动态特征,根据所述早期热度动态特征,将视频进行分类。

优选地,所述跨域数据学习和转化步骤中,所述全连接的多层感知网络,共计有6层,其中:从输入层到第四层为社交网络和视频两个域共享,用于协同视频和社交网络两个域对标签影响力的学习;第五层和第六层是转化层,用于将社交网络中的学习结果转化到在线视频域中。

根据本发明第二方面,提供一种基于用户情绪的在线视频热度预测系统,包括:

收视数据收集模块:获取在线视频的历史收视记录以及与用户情绪相关的历史行为记录,提取视频中的标签获得在线视频标签集合;

社交网络数据收集模块:根据收视数据收集模块获取的在线视频标签集合,在社交网络中收集同样具有所述在线视频标签集合内所述标签的社交网络内容及其被转发的时间序列信息,得到在线视频和社交网络内容的共享标签集合;

社交网络辅助学习模块:基于社交网络数据收集模块得到的数据,通过一个基于vsm的衍生模型,学习标签在社交网络中对于社交网络内容的转发行为数量的影响;

跨域数据学习和转化模块:通过一个全连接的多层感知网络,协同社交网络辅助学习模块和混合热度预测模块学习共享标签集合中的标签对于在线内容热度的影响,并将共享标签集合中的标签对于社交网络内容热度的影响转化到视频域的预测中,得到标签对于在线视频内容热度的影响力数据;

混合热度预测模块:根据收视数据收集模块所获得的数据,以及跨域数据学习和转化模块从跨域数据转化得到的标签影响力数据,分别对在线视频热度中基于总体趋势的成分和加性随机成分进行预测。

本发明所述的混合热度预测,是同时考虑到了在线视频热度中的基于总体趋势产生的部分和加性随机成分的预测问题,在同类技术中尚属首次。并且,对加性随机成分的预测使用了来自社交网络的跨域数据,通过转化学习的方法估计了标签对于视频热度的影响,最终得以实现对视频热度中加性随机成分的预测。

与现有技术相比,本发明具有如下的有益效果:

本发明通过深入挖掘与在线视频服务用户情绪相关的行为数据,将用户情绪对于收视行为的影响融入到在线视频的历史收视行为数据中,使得对于视频热度的预测更加贴近客观的收视行为产生机制。同时,本发明利用标签对在线内容热度的影响,实现了对源于视频内容本身吸引力的加性随机成分的预测,从而达到了更为精确的热度预测结果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明一实施例得出的典型视频早期动态特征分布示例;

图2为本发明一实施例的模型结构与模块分布示意图;

图3为本发明一实施例中的跨域数据学习和转化模块示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明收集了与用户情绪相关的视频早期观看者的行为数据,通过对视频的早期收视数据进行加权。基于加权后的早期收视数据,提取出视频的早期热度动态特征并基于这一特征将视频进行分类。在分类的基础上,实现从热度趋势的角度对在线视频未来热度的预测。此外,结合社交网络中的相关数据,通过分析视频标签对视频热度的影响,在同类技术中首次实现了对热度加性随机成分的预测,从而获得了更为精确的最终热度预测结果。

如图2所示,其中示意了一种基于用户情绪的在线视频热度预测系统,包括:

收视数据收集模块:获取在线视频的历史收视记录,以及与用户情绪相关的历史行为记录,提取视频中的标签获得在线视频标签集合;

社交网络数据收集模块:根据收视数据收集模块获取的在线视频标签集合,在社交网络中收集同样具有所述在线视频标签集合内所述标签的社交网络内容及其被转发的时间序列信息,得到在线视频和社交网络内容的共享标签集合;

社交网络辅助学习模块:基于社交网络数据收集模块得到的数据,通过一个基于vsm的衍生模型,学习标签在社交网络中对于社交网络内容的转发行为数量的影响;

跨域数据学习和转化模块:通过一个全连接的多层感知网络,协同社交网络辅助学习模块和混合热度预测模块学习共享标签集合中的标签对于在线内容热度的影响,并将共享标签集合中的标签对于社交网络内容热度的影响转化到视频域的预测中,得到标签对于在线视频内容热度的影响力数据;

混合热度预测模块:根据收视数据收集模块所获得的数据,以及跨域数据学习和转化模块从跨域数据转化得到的标签影响力数据,分别对在线视频热度中基于总体趋势的成分和加性随机成分进行预测。

本发明中,所述收视数据收集模块除了收集常见的用户收视行为数据以外,还收集多种可直接反映用户情绪的相关行为数据。这些行为数据通过用户情绪加权模块用于调整历史收视行为数据。所涉及的情绪共分两类:积极情绪(positive)和消极情绪(negative),其对于收视行为发生概率的影响具有相反的极性。

对应的,基于上述系统,形成一种基于用户情绪的在线视频热度预测方法,其包括收视数据收集步骤、社交网络数据收集步骤、社交网络辅助学习步骤、跨域数据学习和转化步骤以及混合热度预测步骤,具体实现内容与上述系统各模块一一对应,在此不再赘述。

本发明总体可以分五部分:

(一)视频收视行为数据的收集和预处理,对应于收视数据收集模块、收视数据收集步骤实现的内容;

(二)社交网络相关内容的收集和预处理,对应于社交网络数据收集模块、社交网络数据收集步骤实现的内容;

(三)通过社交网络学习标签对于在线内容热度的影响,对应于社交网络辅助学习模块、社交网络辅助学习步骤实现的内容;

(四)跨域学习标签对在线内容的影响力及社交网络学习结果向在线视频域的转化,对应于跨域数据学习和转化模块、跨域数据学习和转化步骤实现的内容;

(五)包含对在线视频热度总体趋势和加性随机成分进行预测的混合模型,对应于混合热度预测模块、混合热度预测步骤实现的内容。

以下对本发明涉及的上述系统和方法实现的技术进行详细的描述,以便帮助理解。

(一)收视数据收集:视频信息,收视纪录以及用户情绪相关行为的收集和预处理。

获取在线视频发布后一段时间内的收视记录,保留在所收集数据的时间跨度ts内每天都有新收视行为产生的视频。从筛选后的视频中提取每个视频的标签信息,出于标签与视频内容关联性及控制标签集合规模的考虑,对每个视频只选取最多前5个标签。然后去除重复出现的标签获得视频集对应的标签集合。此外,收集时间跨度ts内每个单位时间段与用户情绪相关的行为数据,在部分实施例中,具体包括三种行为:点击“喜欢”,点击“不喜欢”和“订阅”,用分别表示任意视频u的用户在第j个时间间隔内产生的三种行为的数量。

(二)社交网络数据收集:收集社交网络中与视频包含相同标签的社交网络信息及其转发数据。

得到视频的标签集合后,在社交网络中收集同样包含这些标签的内容,并获取其在发布后一段时间内的转发序列。首先去包含视频标签集中的标签少于2个且所包含的标签在其标签列表中位置低于5的社交网络内容。然后在从过滤后的社交网络内容集合中提取每条内容的标签信息(每条内容同样只取前5个标签),去除重复出现的标签得到社交网络中相关内容的标签集合。该标签集合与视频标签集合的重叠部分即是用于预测视频热度的加性随机成分的跨域共享标签集合。用表示该共享标签集合的空间,其中l为该集合空间的维度。

(三)社交网络辅助学习:在社交网络中学习标签对于社交网络热度的影响。

利用收集到的社交网络内容及其相关信息,使用一个基于视频分享模型(videosharingmodel:vsm)(比如可以参照文献:longy,livok,niug.modelingvideoviewingandsharingbehaviorsinonlinesocialnetworks[c]//communications(icc),2015ieeeinternationalconferenceon.ieee,2015:1244-1249)的衍生模型学习标签对于社交网络内容转发次数的影响。考虑每个标签对于社交网络内容转发强度的影响并为其加上时间衰减因子得到用于标签学习的完整传播模型如下:

其中г(t)是标签影响力与实际转发行为的关联系数,g(t)是整个跨域共享标签集合对社交网络内容转发行为的影响力向量。是给定社交网络内容i的标签包含向量,其每个元素是对应标签基于其在社交网络i的标签集中的位置产生的dcg值(如果不包含,则该元素为0),上标(t)表示该变量作用于社交网络中。和yi(tt)分别表示社交网络内容i在第t个时间间隔内所获得的转发次数和在t个时段内获得的累积转发次数。γ为社交网络内容的早期转发行为对未来转发行为的影响系数;为服从i型帕累托分布的时间衰减因子,其输入为当前的预测目标时段tt;h为i型帕累托分布下的时间衰减因子的衰减速率参数;tk为在预测目标时段tt之前的第k个时段。

(四)跨域数据学习和转化:将社交网络中学习到的标签对社交网络内容热度的影响转化为对视频热度的影响。

如图3所示,该跨域数据学习和转化模块是一个全连接的多层感知网络,共计有6层。其中,从输入层到第四层为社交网络和视频两个域共享,用于协同视频和社交网络两个域对标签影响力的学习。第五层和第六层是转化层,用于将社交网络中的学习结果转化到在线视频域中。

(五)混合热度预测模块:实现对在线视频热度的预测,预测由基于总体趋势的预测和对加性随机成分的预测组成。

根据所获得的视频收视行为数据和转化自社交网络的标签影响数据,预测视频未来的热度。主要包括用户情绪加权,早期动态特征提取和分类,基于热度趋势的预测和热度加性随机成分预测几个组成部分。

a)用户情绪加权是利用与用户情绪相关的行为数据对视频的历史收视记录进行加权。用户观看视频后的情绪反应被划分为“正面”和“负面”两类,其中点击“喜欢”和订阅视频被划分为用户“正面”情绪的表现,点击“不喜欢”则被认为是用户“负面”情绪的表现。首先计算在每一个早期时段内,用户情绪相关的行为数量相对于该时段收视行为数量的比率然后对这两个比率求香农熵,并为所求得的香农熵加上幅度因子得到如下形式的用户情绪参数

对上述用户情绪参数使用自然指数平滑,并用平滑后的参数对每个时段的历史收视行为数量υuj进行如下形式的加权:

加权所得xuj即为用户情绪影响下的等效历史收视行为数据,其中c为融合了幅度因子α的加权控制参数。两个参数的取值范围均为(0,∞),具体取值则由实际使用时数据集的训练结果确定。

b)早期动态特征提取是在用户情绪加权所得数据xuj的基础上,提取和分析每一个时段内xuj值的变化。本发明为xuj设置了两个不同的动态特征:平稳和激增,并分别使用数字0和1来表示这两种动态特征。对于任意给定视频的早期情绪加权收视数据序列首先按如下方式提取其早期动态特征:

步骤1:计算每个时段内的收视数据的相对增量:

其中参数ts表示可以观察的视频早期收视行为的时间范围。

步骤2:条件判断每个时段内xuj的变化特征suj:

其中σ是动态特征的判定门限,按所针对数据不同通常取值在0.2-0.3之间;是在ts时间段内视频收视数量的平均增长速度,其值直接由具体应用数据集决定。是指视频发布后ts时段内情绪加权后的收视数的平均值。

步骤3:合并步骤2所得序列{suj}中连续出现的相同特征,得到该视频最终的早期动态特征序列。

具有相同早期动态特征序列的视频被划分为同一类。为便于理解,图1展示了一个典型的在线视频集合中各个具有不同早期动态特征的视频的分布。图1中按照具有不同早期动态特征的视频占视频集的比重降序排列,可见出现次数最多的前四种动态特征已经覆盖了96%以上的视频总数。

c)基于热度趋势的预测是在按早期动态特征分类后的视频收视数据基础上,从总体趋势的角度对视频未来的热度进行预测。在这一部分的预测中,将“多元回归-径向基函数补偿”模型扩展应用到按照早期动态特征分类的数据上。具体改动包括以下三点:

步骤1):用情绪加权后的历史收视数据xuj替代原模型用于多元回归的真实历史收视数据vuj;

步骤2):将原先一组回归系数扩展为多组,分别针对不同早期动态特征的视频;

步骤3):将原先针对整个视频集的径向基函数扩展为多个,分别针对不同早期动态特征的视频子集进行预测补偿。

扩展后的模型具体如下:

其中su是一个二值向量,用于表示目标视频所属早期动态类别。对于任意给定视频,su中仅有代表其所属动态特征类别的维度的元素值为1,其余均为0。w是回归系数矩阵,其中每一行是对应一个动态特征类别的回归系数。补偿项resu选用了基于高斯核的径向基函数,其表达式中的下标d表示早期热度动态特征类别的编号。此外参数tr表示预测的目标时间点,xu表示经过用户情绪加权后的历史收视行为序列、θd表示有早期热度动态特征为d类的视频按其早期热度动态聚类后的聚类中心集合。和β是径向基函数的参数,的取值范围通常为(0,1)。上标符号t表示向量的转置操作。

热度加性随机成分的预测,是对除由早期收视行为所决定的热度趋势所产生的热度以外,由其它视频相关内容所导致的的额外热度进行预测。在获得来自跨域数据转化模块的标签影响力向量g(y)后,为每个给定视频u生成其在共享标签空间上的标签包含向量该向量与整个共享标签空间的标签影响向量相乘得到给定视频的标签对其热度的影响为此结果加上时间衰减因子得到最终对视频热度的加性随机成分的预测:

其中,是以i型帕累托分布为积分核的时间衰减因子,表示标签影响力在从ts到tr整个时间段内的累积衰减情况。其中h为衰减强度参数,通常取值范围为[0.8,1]。这一因子表示标签影响力随时间的衰减的速度。

综上所述,混合热度预测模块得到的最终热度预测可用函数表示为:

上述公式中:γ(y)是共享标签集合中的标签对视频热度的影响系数;是视频u对共享标签集合中的标签的包含向量,其中的每一维元素是对应标签在视频u的标签列表中的衰减累积增益(discountedcumulativegain:dcg)。

对于上述方法,另一个核心问题是该混合预测模型的训练和参数的优化,特别是利用在线视频和社交网络两个域的数据学习标签对热度的影响。对此,可以按如下方法对模型参数进行联合学习和训练:

步骤1、跨域数据转化模块中的多层感知网络将根据当前网络参数和随机初始化的输入向量g(0)产生当前轮次(假设为第r轮)在社交网络和在线视频两个域中的影响向量

步骤2、固定步骤1中得到的两个向量分别优化社交网络和在线视频两个域中的目标函数以更新混合热度预测模块和社交网络辅助学习模块中的其他模型参数。其中两个域的目标函数分别为:

社交网络域的目标函数

在线视频域的目标函数

其中,分别表示由社交网络辅助学习模块得到的社交网络内容i在目标时间点tt的累计转发次数和在该时间点的实际累计转发次数。mυ和mt分别表示用于模型训练的在线视频和社交网络内容的数量,k是l-2正则化的惩罚系数。视频域和社交网络中的目标函数优化均可以使用任意当前常见的梯度下降算法实现。

步骤3、固定由步骤2更新的模型参数,以为目标参数对两个域的模型再次进行优化,产生由两个域的模型学习得到的标签影响力向量

步骤4、在步骤3所得的监督下,更新跨域数据转化模块中的多层感知网络的参数。其中,第2至4层的参数更新同时受两个域的监督,更新法则如下:

其中分别表示第r轮优化中,第l层神经元q接收来自第l-1层的神经元p的数据时的权重系数以及该系数经过本轮优化后的值。参数v(t)和v(y)分别是对监督的学习速率,调整这两个参数可以改变模型在学习标签影响力时,对来自社交网络和在线视频两个域的数据的侧重程度。上述公式中,类似的形式表示多层感知网络的输出误差函数对第.ω(y)-l层的神经元q对来自上一层的神经元p的数据的权重系数的偏导,其中ω(y)表示多层感知网络的总层数(上标为y表示最后一层连接到视频域),l为由网络输出层向前的逆向层数序号。误差函数通常使用均方误差,也可以根据实际应用更换为其它误差函数。

与上式使用相同的相关符号定义,第5和第6层的网络参数更新仅受到的监督,其更新法则如下:

本发明使用传统机器学习的方法,通过引入用户情绪对收视行为的影响,构造更为精确的历史收视数据,可以有效控制神经网络对因子影响放大可能产生的负面效应,从而得到更加稳定和可靠的预测性能。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1