视频热度预测方法及装置

文档序号:32489449发布日期:2022-12-10 02:14阅读:27来源:国知局
视频热度预测方法及装置

1.本技术涉及视频信息挖掘技术领域,尤其涉及视频热度预测方法及装置。


背景技术:

2.视频热度预测在互联网数据研究中有着重要的作用,针对视频进行热度预测,能够帮助视频广告投放商提前估计广告的播放量、能够协助视频创作者明确后续视频内容创作风格并提高其能够获取的创作激励等,还能够帮助学者们根据视频热度预测结果对互联网内容传播及新媒体等进行研究、分析。
3.目前,现有的视频热度预测方式之一通常采用视频画面或视频标题描述等对视频发布后的热度进行预测,但该种方式因单模态特征的采用,视频模态利用率低,显然无法保证视频热度预测结果的准确性。而为了解决这一问题,现有的视频热度预测方式之二采用包含有视频附加特征的特征数据输入支持向量机(svm)或随机森林(rf)来预测视频热度,但由于视频创作者和发布平台等带来的限制,使得视频模态存在多样性或非结构化性质等特性,进而导致该种方式无法有效的利用这些特征,因此使得视频热度预测结果的准确性依然受限,且也易导致模型训练阶段的信息冗余。


技术实现要素:

4.鉴于此,本技术实施例提供了视频热度预测方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷。
5.本技术的一个方面提供了一种视频热度预测方法,包括:
6.提取视频数据对应的基于深度表示的多模态特征各自对应的特征向量;
7.将各个所述特征向量输入预设的基于变分自编码器vae的热度预测模型,并将该热度预测模型对应输出的热度序列作为所述视频数据的热度预测结果。
8.在本技术的一些实施例中,所述所述热度预测模型包括:依次连接的输入层、变分自编码器vae和输出层;
9.所述隐层包括两个依次连接的全连接层;
10.所述变分自编码器vae包括:随机dnn编码器、隐层和基于递归神经网络的解码器;
11.其中,所述解码器包括依次连接的多个卷积层、一个完全连接层和一个lstm层;
12.所述输入层用于接收自所述视频数据对应的多模态特征向量;
13.所述随机dnn编码器用于自所述输入层获取视频数据对应的多模态特征向量输出对应的概率表示;
14.所述解码器用于根据所述概率表示输出对应的多维特征向量,并经由所述输出层输出长度与该多维向量的维度相同的热度序列。
15.在本技术的一些实施例中,所述解码器中的各个所述卷积层包括:依次连接的第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层,且所述第一卷积层、第二卷积层和第五卷积层之后均设有最大池化层;
16.其中,所述热度预测模型中的各个所述卷积层和各个所述全连接层之后均设有relu激活函数,且所述热度预测模型中的首个所述全连接层和所述lstm层之后均设有随机失活dropout层。
17.在本技术的一些实施例中,还包括:
18.获取各个历史视频数据;
19.提取各个所述历史视频数据分别对应的基于深度表示的多模态特征向量,得到对应的数据集;
20.采用预设的交叉验证法划分所述数据集,得到对应的训练集和测试集;
21.基于所述训练集训练包含有依次连接的输入层、变分自编码器vae和输出层的机器学习模型,并基于该机器学习模型针对所述测试集的测试结果对所述机器学习模型进行调整,以形成用于预测视频数据的热度序列的热度预测模型。
22.在本技术的一些实施例中,所述多模态特征包括:视觉特征、听觉特征、文字特征和社会特征;
23.其中,所述视觉特征包括:全局特征、第一情感特征和物体特征;
24.所述听觉特征包括:梅尔倒谱系数;
25.所述文字特征包括:语义特征和第二情感特征;
26.所述社会特征包括:所述视频数据的视频发布者的粉丝数、关注数和用于表示所述视频发布者是否经平台认证的标识。
27.在本技术的一些实施例中,所述提取视频数据对应的基于深度表示的多模态特征各自对应的特征向量,包括:
28.采用颜色直方图向量空间中的特征向量作为所述视频数据的全局特征向量;
29.基于预设的sentibank数据集提取所述视频数据的第一情感特征向量;
30.应用预设的密集连接卷积网络densenet提取所述视频数据的物体特征向量;
31.自所述视频数据中的音频背景提取梅尔倒谱系数;
32.以及,获取所述视频数据对应的包含有视频标题和视频描述的文本数据,并根据该文本数据获取所述语义特征向量和第二情感特征向量。
33.在本技术的一些实施例中,所述根据该文本数据获取所述语义特征向量和第二情感特征向量,包括:
34.基于预先训练好的word2vec表示和词袋模型自所述文本数据中提取对应的语义特征向量;
35.基于预设的中文文本处理工具snownlp为所述文本数据分配情感分数以得到对应的第二情感特征向量。
36.本技术的另一个方面提供了一种视频热度预测装置,包括:
37.多模态特征提取模块,用于提取视频数据对应的基于深度表示的多模态特征各自对应的特征向量;
38.热度预测模块,用于将各个所述特征向量输入预设的基于变分自编码器vae的热度预测模型,并将该热度预测模型对应输出的热度序列作为所述视频数据的热度预测结果。
39.本技术的另一个方面提供了一种电子设备,包括存储器、处理器及存储在存储器
上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的视频热度预测方法。
40.本技术的另一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的视频热度预测方法。
41.本技术提供的视频热度预测方法,提取视频数据对应的基于深度表示的多模态特征各自对应的特征向量;将各个所述特征向量输入预设的基于变分自编码器vae的热度预测模型,并将该热度预测模型对应输出的热度序列作为所述视频数据的热度预测结果,通过提取视频数据对应的多模态特征,并利用多模态特征进行短视频热度预测,能够有效提高视频模态利用率,提高视频热度预测结果的准确性;同时通过采用变分自编码器vae进行短视频热度预测,并利用热度序列作为预测值来表征视频的热度预测结果,能够有效消除多模态特征的内部噪声及外部不确定因素干扰,能够对视频的多模态进行更好的表示,降低模型训练阶段的信息冗余,进而能够进一步提高视频热度预测结果的准确性,能够有效能够帮助视频广告投放商提前估计广告的播放量、能够协助视频创作者明确后续视频内容创作风格并提高其能够获取的创作激励等,还能够帮助学者们根据视频热度预测结果对互联网内容传播及新媒体等进行研究、分析,提高视频广告投放商、视频创作者及联网内容传播及新媒体等的研究学者的用户体验。
42.本技术的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本技术的实践而获知。本技术的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
43.本领域技术人员将会理解的是,能够用本技术实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本技术能够实现的上述和其他目的。
附图说明
44.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,并不构成对本技术的限定。附图中的部件不是成比例绘制的,而只是为了示出本技术的原理。为了便于示出和描述本技术的一些部分,附图中对应部分可能被放大,即,相对于依据本技术实际制造的示例性装置中的其它部件可能变得更大。在附图中:
45.图1为本技术一实施例中的视频热度预测方法的总流程示意图。
46.图2为本技术一实施例中的视频热度预测方法的具体流程示意图。
47.图3为本技术另一实施例中的视频热度预测装置的一种结构示意图。
48.图4为本技术应用实例中的基于多模态vae的短视频热度预测模型的总架构示意图。
49.图5为本技术应用实例中的变分自编码器的详细结构示意图。
具体实施方式
50.为使本技术的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本技术做进一步详细说明。在此,本技术的示意性实施方式及其说明用于解释本技术,但并不作为对本技术的限定。
51.在此,还需要说明的是,为了避免因不必要的细节而模糊了本技术,在附图中仅仅示出了与根据本技术的方案密切相关的结构和/或处理步骤,而省略了与本技术关系不大的其他细节。
52.应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
53.在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
54.在下文中,将参考附图描述本技术的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
55.在本技术的一个或多个实施例中,所述视频热度预测也可以称之为视频播放量预测);且其中的视频可以指各时长视频,也可以尤指具有时长限制内的短视频,该短视频还可以为用户生成内容ugc的一种,其中,用户生成内容ugc(user generated content)是指用户将自己原创的内容可以通过互联网等平台进行展示或者提供给其他用户,除展示原创文字外,用户还可以发布原创视频内容,可以称之为短视频(或短片视频等),一般是在互联网新媒体上传播的时长在5分钟以内的视频。
56.基于此,以短视频热度预测为例,在进行视频热度预测时,传统视频热度预测任务上大多研究都采取了单模态进行预测,例如,仅根据视频画面或视频标题描述对视频发布后的热度进行预测。但该种预测方法缩减了丰富的视频信息,并且忽略了观众对视频的整体感知。在已有的单模态研究中,仅利用视觉和文本信息对社交媒体内容进行热度预测的任务结果都没有达到令人满意的效果。因此,后续对于用户生成内容ugc的研究对预测模型的输入进行了改良,由单一文字或视频输入改为多模态输入。例如:已有技术采用单模态特征提取技术,首次尝试在人气预测的背景下使用视觉模态,解决了flickr上可用在线图像的人气预测问题。该实验在200多万张图像的数据集上进行测验,将图像颜色直方图作为视觉特征输入深度神经网络并训练了一组支持向量机,将其应用于热度预测。基于视觉特征预测视频流行度使得视频作者能够在视频发布前预测短视频在发布后的热度,为创作者提供了有利参考。
57.这种方法仅利用了视频单一模态作为视频热度预测的输入,该模型依赖视觉模态作为特征并采用了非深度学习框架的颜色直方图作为特征提取方法。人类对图像的感知不仅依赖于对颜色的感知,所以该方法具备以下两种缺点:1)对于图像的特征提取仅局限于颜色直方图的特征提取,忽略了图像本身的语义属性,如图像的内容以及图像的情感特征;2)仅视觉模态作为预测模型的输入丢失了部分视频相关属性,视频创作者在上传短视频时不仅将视频本身上传至多媒体平台,更将视频的标题、描述及其他信息上传至多媒体平台。
58.而为了解决单模态预测存在的问题,还可以采用基于机器学习下的特征驱动视频热度预测方法,首先提取大量与ugc内容、用户配置文件或社交网络相关的特征,并训练机器学习模型,如支持向量机(svm)或随机森林(rf),以优化从特征空间到预定义流行空间的映射函数。此方法主要关注特征工程技术,只要提取的特征有效,就可以实现良好的性能。另一方面,为了分析ugc随时间的流行演变模式,生成方法在早期阶段利用流行曲线的时间规律来拟合具有线性或非线性动态的自回归模型,以预测其未来趋势。
59.然而,短视频可以通过利用视觉、听觉、文本和社会特征的组合来全面表示,因此,
在实际应用中出现的关键问题之一是从不同视图中提取的特征之间的异构差距。从不同模态中提取的异质特征显示了短视频的不同方面,这些模态在隐层又相互连结。在这种情况下,由于短视频制作者和平台带来的限制,与短视频相关的附加信息,例如文本描述,具有多样性或非结构化性质,导致从特定视图中提取的特征在许多情况下不可用;使用简单连接或特征选择方法融合这些特征的传统方法无法很好地捕捉特征的语义理解,因此可能导致学习阶段的信息冗余。
60.因此,还可以考虑采用基于self-attention机制的热入热度预测方案,提出了在视频帧、文本和多模式域中使用自注意力机制的社交媒体视频流行预测新方法。该方法展示了如何使用视觉和文本特征来获得更准确的预测。该方案提出了一种将grad-cam与软注意机制相结合的方法,以可视化视频的哪些部分在时空域中对其流行有贡献。除了在视频描述中注意文字的视觉影响外,该方案还展示了一个完整的系统,该系统提高了社交媒体视频流行度预测方法的可解释性。然而,基于self-attention机制的热度预测方法虽然提出了应用视觉和文本特征作为短视频预测的输入,但其忽略了作者影响力对短视频传播的加成。另外,该方法以单一数值衡量热度,没有考虑视频在发布一段时间后的播放量增长效果,降低了热度预测的可信度。
61.另外,还可以考虑采用直推式低秩多模态回归热度预测方案,具体为一种低秩多模态嵌入式框架,以缓解短视频热度预测中的模态异构、互联和噪声问题。通过利用低秩表示和多模态学习,该框架将从不同视图中提取的所有异构特征有效地集成到一个公共特征子空间中,并实现了用于回归分析的增强鲁棒特征表示。该框架还设计了一种有效的优化算法来求解该模型。然而,直推式低秩多模态回归热度预测方案已久没有打破仅利用单一数据作为短视频的热度表征,并且相比于变分自编码器,直推式低秩表示模型的性能在nmse指标上更低。
62.基于此,针对上述现有技术存在的模型训练阶段的信息冗余且视频热度预测结果的准确性低等问题,本技术实施例提供一种基于多模态特征提取及变分自编码器vae的视频热度预测方法,能够有效提高视频模态利用率,降低模型训练阶段的信息冗余,进而能够提高视频热度预测结果的准确性,并能够提高视频广告投放商、视频创作者及联网内容传播及新媒体等的研究学者的用户体验。
63.其中,多模态特征提取作为预测任务的关键输入,一直以来都是短视频热度预测的研究热点。近年来深度学习的发展以及算力的支持,使得图片、音频等多媒体数据可以和文本采用相同的深度学习框架分析,这为多模态研究提供了便利。在视频的模态选择中,视觉、听觉、文本、社会信息是我们主要关注的特征要素。根据现有的流行技术,从不同的特征要素中利用深度学习技术进行特征抽取并通过特定方法进行耦合即为多模态特征提取的主要任务。在视觉信息的处理上,传统方法会利用机器学习模型对视觉信息进行处理,如svm、svr等。但随着技术的发展,深度学习被广泛应用于特征提取任务,如利用self-attention方法对图片和文字进行语义表示。
64.另外,基于变分自编码器的热度预测技术是在热度预测任务中表现较好的技术之一,该技术主要包括用神经网络来作为编码器和解码器,并使用迭代优化学习最佳的编码-解码方案。因此,在每次迭代中,视频特征向自编码器结构(编码器后跟解码器)提供视频数据,再将编码再解码后的输出与初始数据进行比较,并通过反向传播误差来更新网络的权
重。因此,整个自编码器结构(编码器+解码器)会构造出数据瓶颈(bottleneck),从而确保只有信息的主要部分可以通过瓶颈并进行重构。变分自编码器可以定义为一种自编码器,其训练经过正规化以避免过度拟合,并确保隐空间具有能够进行数据生成过程的良好属性。针对视频热度预测的变分自编码器分为两个部分,一是多模态编码器,二是时间解码器。在编码器的部分,利用多模态特征提取的多组向量,以及早期特征融合技术,将多组特征向量耦合起来得到特征向量的分布。在解码器部分,利用变分推理并引入kl散度,根据输入特征向量的分布预测短视频的热度序列,由此,就将编码器和解码器部分串联在了一起。
65.在本技术的一个或多个实施例中,multi-modal是指多模态;vae(variational auto-encoder)是指变分自编码器;nmse(normalized mean square error)是指归一化均方误差;spearman’s correlation是指斯皮尔曼相关系数。
66.在本技术中,多模态特征提取技术的主要目标是缩小模态间的异质性差异,同时保持各模态之间独立语义的完整性。该方法在深度学习中取得了较优性能。
67.具体通过下述实施例进行详细说明。
68.基于此,本技术实施例提供一种视频热度预测方法,参见图1,可以由nvme控制器实现的所述视频热度预测方法具体包含有如下内容:
69.步骤100:提取视频数据对应的基于深度表示的多模态特征各自对应的特征向量。
70.步骤200:将各个所述特征向量输入预设的基于变分自编码器vae的热度预测模型,并将该热度预测模型对应输出的热度序列作为所述视频数据的热度预测结果。
71.在步骤200中,所述热度序列是指短视频发布后一段时间以内视频播放量的增量,该时间区间可根据数据集作调整,如,在视频发布后七天内视频播放量的增量数组,即由7个数字组成的七纬数组。
72.具体来说,针对当前视频热度预测架构在实际应用中存在预测准确率低、模态应用不充分等问题,步骤100和步骤200首次提出利用多模态特征提取技术和变分自编码器的结合使用来实现视频热度预测,不仅解决了视频模态利用率低的问题,还首次将变分自编码器引入热度预测的模型架构中,创造性地为短视频提供了多维度、高可信度的多组特征向量,并获取了视频热度的时序信息,提高了模型的训练准确度。最终的实验结果表明本技术在公开数据集和自建数据集上都取得了有力的竞争结果,同时提供了符合视频热度预测场景的数据集,并比较了与前沿ugc内容热度预测方法的优势。
73.从上述描述可知,本技术实施例提供的视频热度预测方法,通过提取视频数据对应的基于深度表示的多模态特征,并利用多模态特征进行短视频热度预测,能够有效提高视频模态利用率,提高视频热度预测结果的准确性;同时通过采用变分自编码器vae进行短视频热度预测,并利用热度序列作为预测值来表征视频的热度预测结果,能够有效消除多模态特征的内部噪声及外部不确定因素干扰,能够对视频的多模态进行更好的表示,降低模型训练阶段的信息冗余,进而能够进一步提高视频热度预测结果的准确性,能够有效能够帮助视频广告投放商提前估计广告的播放量、能够协助视频创作者明确后续视频内容创作风格并提高其能够获取的创作激励等,还能够帮助学者们根据视频热度预测结果对互联网内容传播及新媒体等进行研究、分析,提高视频广告投放商、视频创作者及联网内容传播及新媒体等的研究学者的用户体验。
74.为了进一步提高热度预测模型的应用可靠性及有效性,在本技术实施例提供的一
种视频热度预测方法中,所述热度预测模型具体包含有如下内容:
75.依次连接的输入层、变分自编码器vae和输出层;
76.所述隐层包括两个依次连接的全连接层;
77.所述变分自编码器vae包括:随机dnn编码器、隐层和基于递归神经网络的解码器;
78.其中,所述解码器包括依次连接的多个卷积层、一个完全连接层和一个lstm层;
79.所述输入层用于接收自所述视频数据对应的多模态特征向量;
80.所述随机dnn编码器用于自所述输入层获取视频数据对应的多模态特征向量输出对应的概率表示;
81.所述解码器用于根据所述概率表示输出对应的多维特征向量,并经由所述输出层输出长度与该多维向量的维度相同的热度序列。
82.具体来说,基于短视频热度序列的统计特性,本技术利用了递归神经网络作为vae结构的译码器。循环神经网络rnn的工作原理是保存某一层的输出并将其反馈给输入,以便预测解码器分布的输出。rnn可以处理时序数据,接受当前和先前接收的输入。此外,受到长期递归卷积网络(lrcn)架构的启发。它结合了热度序列中显示的信息的序列特征,预测效果优于仅考虑单一视频热度值的方法。
83.本技术使用的递归网络结构包括两部分——卷积神经网络和长短期记忆单元。在编码之后,本技术将集成的潜在变换作为输入提供给解码器。解码器网络由七层组成,是一个具有可学习的参数的神经网络。在隐层表示的两层全连接层之后连接了五个卷积层,一个完全连接层和一个lstm层。网络的输出是一个t维向量,该向量的维度取决于热度序列的长度。
84.从上述描述可知,本技术实施例提供的视频热度预测方法,能够有效提高热度预测模型的应用可靠性及有效性,进而能够对视频的多模态进行更好的表示,降低模型训练阶段的信息冗余,进而能够进一步提高视频热度预测结果的准确性。
85.为了进一步增加网络的平移不变性并避免过拟合,在本技术实施例提供的一种视频热度预测方法中,所述解码器中的各个所述卷积层包括:依次连接的第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层,且所述第一卷积层、第二卷积层和第五卷积层之后均设有最大池化层;
86.其中,所述热度预测模型中的各个所述卷积层和各个所述全连接层之后均设有relu激活函数,且所述热度预测模型中的首个所述全连接层和所述lstm层之后均设有随机失活dropout层。
87.具体来说,为了增加网络的平移不变性,本技术在第一、第二和第五卷积层之后添加了最大池化层。本技术使用relu作为激活函数,并将其添加到每个卷积和完全连接层后。由于需要避免过拟合,本技术在第一个完全连接层和lstm层之后应用了dropout层。
88.从上述描述可知,本技术实施例提供的视频热度预测方法,能够有效增加网络的平移不变性并避免过拟合,进而能够进一步提高热度预测模型的应用可靠性及有效性,以有效提高视频热度预测结果的准确性。
89.为了提高热度预测模型的训练有效性及可靠性,在本技术实施例提供的一种视频热度预测方法中,参见图2,所述视频热度预测方法中的步骤100之前还具体包含有如下内容:
90.步骤010:获取各个历史视频数据。
91.步骤020:提取各个所述历史视频数据分别对应的基于深度表示的多模态特征向量,得到对应的数据集。
92.步骤030:采用预设的交叉验证法划分所述数据集,得到对应的训练集和测试集。
93.步骤040:基于所述训练集训练包含有依次连接的输入层、变分自编码器vae和输出层的机器学习模型,并基于该机器学习模型针对所述测试集的测试结果对所述机器学习模型进行调整,以形成用于预测视频数据的热度序列的热度预测模型。
94.具体来说,出于评估目的,本技术采取了5-fold训练-测试划分方法(即:五部分的交叉验证法(k-fold cross validation))对数据集进行了随机划分,其中,5部分是指将所有的数据集分为五部分(5folds),每部分有20%的数据。在每轮5-fold交叉验证中,9752个视频用于训练,2438个用于测试。
95.从上述描述可知,本技术实施例提供的视频热度预测方法,能够有效提高热度预测模型的训练有效性及可靠性,进而能够进一步提高热度预测模型的应用可靠性及有效性,以有效提高视频热度预测结果的准确性。
96.为了进一步提高多模态特征的应用可靠性及有效性,在本技术提供的一种视频热度预测方法的实施例中,所述多模态特征包括:视觉特征、听觉特征、文字特征和社会特征;
97.其中,所述视觉特征包括:全局特征、第一情感特征和物体特征;
98.所述听觉特征包括:梅尔倒谱系数;
99.所述文字特征包括:语义特征和第二情感特征;
100.所述社会特征包括:所述视频数据的视频发布者的粉丝数、关注数和用于表示所述视频发布者是否经平台认证的标识。
101.相对应的,所述视频热度预测方法中的步骤100还具体包含有执行顺序不分先后的下述步骤:
102.步骤110:采用颜色直方图向量空间中的特征向量作为所述视频数据的全局特征向量;
103.步骤120:基于预设的sentibank数据集提取所述视频数据的第一情感特征向量;
104.步骤130:应用预设的密集连接卷积网络densenet提取所述视频数据的物体特征向量。
105.具体来说,全局特征:本技术将颜色直方图作为输入视频的全局特征,因为它描述了与图像或场景相对应的对象的表面属性。对于每个输入视频,选择前5秒作为代表性样本,并从样本中平均提取10个关键帧。本技术将关键帧中的颜色映射到包含50种颜色的离散颜色空间。最终本技术得到颜色直方图50-d向量空间中的特征向量。
106.第一情感特征:本技术通过在sentibank数据集上训练来提取情感特征,sentibank数据集是一组2089个经过训练的视觉概念检测器,提供了情感的中级表示。本技术使用视觉情感本体来训练sentibank检测器并收集主题中的所有关键帧,然后使用sentibank检测器获取视觉情感特征。最终,本技术获得了每个视频的2089-d个视觉情感特征。
107.物体特征:有证据表明,视频中出现的物体是人气预测最重要的视觉特征之一。本技术利用一种开创性的卷积神经网络模型,即密集连接卷积网络(densenet),来进行视频
对象检测。具体来说,本技术根据单次激发多盒检测器(ssd)构建多尺度特征层,并使用原始ssd中的特征融合模块进行目标检测。本技术的方法允许所有前一层的特征作为下一层的输入,并实现特征重用。因此,本技术在每个关键帧的平均池化之对于每个视频生成1024-d向量。
108.步骤140:自所述视频数据中的音频背景提取梅尔倒谱系数。
109.具体来说,在传递信息和加强氛围方面,声学信息与视觉信息是不可分割的,这些功能极大地影响了视频的普及。因此,本技术采用从音频背景中提取的梅尔倒谱系数(mfcc)作为声学特征来表示声学模态。mfcc的实现方法非常多样,mfcc系数是一组离散余弦变换(dct),通过对数压缩滤波器输出能量的变换来计算。离散傅立叶变换(dft)信号由感知间隔的三角形滤波器组推导和处理。与传统的mfcc不同,本技术在分布式模式中采用dct来更紧密地跟踪马尔可夫特征。因此,与传统的mfcc相比,对于相同数量的滤波器,特征向量的计数减少。本技术使用12的窗口大小和mfcc特征的微分和二阶微分来生成每个视频的39-d声学特征。
110.步骤150:获取所述视频数据对应的包含有视频标题和视频描述的文本数据,并根据该文本数据获取所述语义特征向量和第二情感特征向量。
111.在步骤150中,还具体包含有执行顺序不分先后的下述步骤:
112.步骤151:基于预先训练好的word2vec表示和词袋模型自所述文本数据中提取对应的语义特征向量。
113.具体来说,语义特征:为了捕捉视频的语义表示,本技术开发了表示文本模式的深层特征。为了获得高级语义特征,本技术使用kiros等人的skip-thought向量,使用预先训练好的word2vec表示和词袋模型,本技术使用rnn将句子编码为4800-d向量。然后,本技术引入全连接层,每个层后面是一个tanh层,以生成一个300-d的文字语义特征向量。
114.步骤152:基于预设的中文文本处理工具snownlp为所述文本数据分配情感分数以得到对应的第二情感特征向量。
115.具体来说,第二情感特征:对此类大规模文本内容的情感分析可以帮助更好地提取用户对事件或主题的情感。文字表征和卷积神经网络结构是情感分析的重要组成部分。受textblob启发,本技术借助简体中文文本处理工具snownlp,为每个视频标题和视频描述分配一个情感分数,即0到1之间的小数,表示从负面到正面的情感程度。
116.从软件层面来说,本技术还提供一种用于执行所述视频热度预测方法中全部或部分内的视频热度预测装置,参见图3,所述视频热度预测装置具体包含有如下内容:
117.多模态特征提取模块10,用于提取视频数据对应的基于深度表示的多模态特征各自对应的特征向量。
118.热度预测模块20,用于将各个所述特征向量输入预设的基于变分自编码器vae的热度预测模型,并将该热度预测模型对应输出的热度序列作为所述视频数据的热度预测结果。
119.本技术提供的视频热度预测装置的实施例具体可以用于执行上述实施例中的视频热度预测方法的实施例的处理流程,其功能在此不再赘述,可以参照上述视频热度预测方法实施例的详细描述。
120.所述视频热度预测装置进行视频热度预测的部分可以在服务器中执行,而在另一
种实际应用情形中,也可以所有的操作都在客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本技术对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器,用于视频热度预测的具体处理。
121.上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
122.上述服务器与所述客户端设备端之间可以使用任何合适的网络协议进行通信,包括在本技术提交日尚未开发出的网络协议。所述网络协议例如可以包括tcp/ip协议、udp/ip协议、http协议、https协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的rpc协议(remote procedure call protocol,远程过程调用协议)、rest协议(representational state transfer,表述性状态转移协议)等。
123.从上述描述可知,本技术实施例提供的视频热度预测装置,通过提取视频数据对应的基于深度表示的多模态特征,并利用多模态特征进行短视频热度预测,能够有效提高视频模态利用率,提高视频热度预测结果的准确性;同时通过采用变分自编码器vae进行短视频热度预测,并利用热度序列作为预测值来表征视频的热度预测结果,能够有效消除多模态特征的内部噪声及外部不确定因素干扰,能够对视频的多模态进行更好的表示,降低模型训练阶段的信息冗余,进而能够进一步提高视频热度预测结果的准确性,能够有效能够帮助视频广告投放商提前估计广告的播放量、能够协助视频创作者明确后续视频内容创作风格并提高其能够获取的创作激励等,还能够帮助学者们根据视频热度预测结果对互联网内容传播及新媒体等进行研究、分析,提高视频广告投放商、视频创作者及联网内容传播及新媒体等的研究学者的用户体验。
124.为了进一步说明本方案,以短视频为例,本技术还提供一种基于多模态特征提取和变分自编码器的短视频热度预测模型的具体应用实例,参见图4,本技术先将不同模态通过深度表示进行表征,再通过mlp作为随机dnn编码器得出中间层的概率表示,最后利用lstm解码器回归时序热度序列。该模型不局限于时序特征对热度的影响,基于深度表示的热度预测方法对多模态进行更好的表示,从而更准确地预测ugc内容的未来热度;相比于传统热度定义方法,本方法利用热度序列作为预测值来表征ugc内容的热度,并且用vae消去了内部噪声及外部不确定因素干扰,提升了预测准确度。
125.基于短视频热度预测模型实现的短视频热度预测方法具体包含有如下内容:
126.(一)多模态特征提取
127.(1)视觉特征
128.全局特征:本技术将颜色直方图作为输入视频的全局特征,因为它描述了与图像或场景相对应的对象的表面属性。对于每个输入视频,选择前5秒作为代表性样本,并从样本中平均提取10个关键帧。本技术将关键帧中的颜色映射到包含50种颜色的离散颜色空间。最终本技术得到颜色直方图50-d向量空间中的特征向量。
129.情感特征:本技术通过在sentibank数据集上训练来提取情感特征,sentibank数
据集是一组2089个经过训练的视觉概念检测器,提供了情感的中级表示。本技术使用视觉情感本体来训练sentibank检测器并收集主题中的所有关键帧,然后使用sentibank检测器获取视觉情感特征。最终,本技术获得了每个视频的2089-d个视觉情感特征。
130.物体特征:有证据表明,视频中出现的物体是人气预测最重要的视觉特征之一。本技术利用一种开创性的卷积神经网络模型,即密集连接卷积网络(densenet),来进行视频对象检测。具体来说,本技术根据单次激发多盒检测器(ssd)构建多尺度特征层,并使用原始ssd中的特征融合模块进行目标检测。本技术的方法允许所有前一层的特征作为下一层的输入,并实现特征重用。因此,本技术在每个关键帧的平均池化之对于每个视频生成1024-d向量。
131.(2)听觉特征
132.在传递信息和加强氛围方面,声学信息与视觉信息是不可分割的,这些功能极大地影响了视频的普及。因此,本技术采用从音频背景中提取的梅尔倒谱系数(mfcc)作为声学特征来表示声学模态。mfcc的实现方法非常多样,mfcc系数是一组离散余弦变换(dct),通过对数压缩滤波器输出能量的变换来计算。离散傅立叶变换(dft)信号由感知间隔的三角形滤波器组推导和处理。与传统的mfcc不同,本技术在分布式模式中采用dct来更紧密地跟踪马尔可夫特征。因此,与传统的mfcc相比,对于相同数量的滤波器,特征向量的计数减少。本技术使用12的窗口大小和mfcc特征的微分和二阶微分来生成每个视频的39-d声学特征。
133.(3)文字特征
134.语义特征:为了捕捉视频的语义表示,本技术开发了表示文本模式的深层特征。为了获得高级语义特征,本技术使用kiros等人的skip-thought向量,使用预先训练好的word2vec表示和词袋模型,本技术使用rnn将句子编码为4800-d向量。然后,本技术引入全连接层,每个层后面是一个tanh层,以生成一个300-d的文字语义特征向量。
135.情感特征:对此类大规模文本内容的情感分析可以帮助更好地提取用户对事件或主题的情感。文字表征和卷积神经网络结构是情感分析的重要组成部分。受textblob启发,本技术借助简体中文文本处理工具snownlp,为每个视频标题和视频描述分配一个情感分数,即0到1之间的小数,表示从负面到正面的情感程度。
136.(4)社会特征:
137.粉丝数:视频上传者的粉丝数量。
138.关注数:视频上传者的关注者数量。
139.平台认证:一个二进制数字,表示是否为多媒体平台认证作者。
140.(二)变分自编码器vae
141.基于短视频热度序列的统计特性,参见图5,本技术利用了递归神经网络作为vae结构的译码器。循环神经网络rnn的工作原理是保存某一层的输出并将其反馈给输入,以便预测解码器分布的输出。rnn可以处理时序数据,接受当前和先前接收的输入。此外,受到长期递归卷积网络(lrcn)架构的启发。它结合了热度序列中显示的信息的序列特征,预测效果优于仅考虑单一视频热度值的方法。其中,在图5中,x表示多模态视频特征;w表示随机dnn编码器;σ表示隐层特征概率分布方差;μ表示隐层特征概率分布均值;w
t
表示解码器;表示预测热度序列。
142.本技术使用的递归网络结构包括两部分——卷积神经网络和长短期记忆单元。在编码之后,本技术将集成的潜在变换作为输入提供给解码器。解码器网络由七层组成,是一个具有可学习的参数的神经网络。在隐层表示的两层全连接层之后连接了五个卷积层,一个完全连接层和一个lstm层。网络的输出是一个t维向量,该向量的维度取决于热度序列的长度。
143.为了增加网络的平移不变性,本技术在第一、第二和第五卷积层之后添加了最大池化层。本技术使用relu作为激活函数,并将其添加到每个卷积和完全连接层后。由于需要避免过拟合,本技术在第一个完全连接层和lstm层之后应用了dropout层。
144.(三)模型训练
145.出于评估目的,本技术采取了5-fold训练-测试划分方法(即:五部分的交叉验证法(k-fold cross validation))对数据集进行了随机划分,其中,5部分是指将所有的数据集分为五部分(5folds),每部分有20%的数据。在每轮5-fold交叉验证中,9752个视频用于训练,2438个用于测试。
146.(四)聚类结果分析基于nmse和spearman系数与已有方法预测结果比较
147.从表1及表2预测结果来看,本技术的模型优于现有的流行方法。在这些结果中,本技术有以下结论——首先,使用多模态的模型比仅使用单模态的模型获得了更好的性能。由于每个模态不仅共享信息,而且还拥有特定于模态的信息,与流行的lrcn和注意力模型相比,包括clstm、mmved和massl在内的算法在spearman相关系数优于其他算法。mvda的结果不尽人意表明,在不同的模式之间找到一致性是至关重要的。由于多模式学习框架利用潜在空间来更好地利用不同模式之间的相关性,因此这种框架自然会获得更好的潜在空间表示。第二个观察结果是潜在表征质量在人气预测任务中起着至关重要的作用。首先,基于深度学习的策略优于基于机器学习的策略。与svr相比,由于更接近真实表示会导致更少的特征丢失,所以相较于机器学习,深度学习模型的结果更为理想;另一方面,基于自动编码器的方法,包括mmved和massl,比tmall和clstm具有更令人满意的效果。总的来说,深度学习在多模态实践中展示出了更强大的力量。
148.表1
149.方法nmsesvr1.132mvda0.982tmall0.979mmved0.975massl0.968
150.表2
151.方法spearmansvr0.384popularity lrcn0.521attention models0.607mmved0.742massl0.781
152.从表3的预测结果来看,本技术的模型优于现有的流行方法。在这些结果中,本技术有以下结论——首先,使用多模态的模型比仅使用单模态的模型获得了更好的性能。由于每个模态不仅共享信息,而且还拥有特定于模态的信息,与流行的lrcn和注意力模型相比,包括clstm、mmved和massl在内的算法在spearman相关系数优于其他算法。mvda的结果不尽人意表明,在不同的模式之间找到一致性是至关重要的。由于多模式学习框架利用潜在空间来更好地利用不同模式之间的相关性,因此这种框架自然会获得更好的潜在空间表示。第二个观察结果是潜在表征质量在人气预测任务中起着至关重要的作用。首先,基于深度学习的策略优于基于机器学习的策略。与svr相比,由于更接近真实表示会导致更少的特征丢失,所以相较于机器学习,深度学习模型的结果更为理想;另一方面,基于自动编码器的方法,包括mmved和massl,比tmall和clstm具有更令人满意的效果。总的来说,深度学习在多模态实践中展示出了更强大的力量。
153.表3
154.多模态组合nmsespearmant+v+a0.9750.779t+a+s0.9730.781t+v+s0.9730.782t+a+s0.9710.781t+v+a+s0.9680.781
155.综上所述,本技术应用实例,使用多模态特征提取技术和变分自编码器网络从短视频的多模态中提取一组特征向量并通过vae对时序序列的编解码对短视频的热度做出预测。本技术提出的架构不局限于时序特征对热度的影响,基于深度表示的热度预测方法对多模态进行更好的表示,从而更准确地预测ugc内容的未来热度;相比于传统热度定义方法,本技术利用热度序列作为预测值来表征ugc内容的热度,并且用vae消去了内部噪声及外部不确定因素干扰,提升了预测准确度。
156.本技术实施例还提供了一种电子设备(也即电子设备),该电子设备可以包括处理器、存储器、接收器及发送器,处理器用于执行上述实施例提及的视频热度预测方法,其中处理器和存储器可以通过总线或者其他方式连接,以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。所述电子设备可自所述无线多媒体传感器网络中的传感器接收实时运动数据,并自所述视频采集装置接收原始视频序列。
157.处理器可以为中央处理器(central processing unit,cpu)。处理器还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
158.存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本技术实施例中的视频热度预测方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的视频热度预测方法。
159.存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至
少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
160.所述一个或者多个模块存储在所述存储器中,当被所述处理器执行时,执行实施例中的视频热度预测方法。
161.在本技术的一些实施例中,用户设备可以包括处理器、存储器和收发单元,该收发单元可包括接收器和发送器,处理器、存储器、接收器和发送器可通过总线系统连接,存储器用于存储计算机指令,处理器用于执行存储器中存储的计算机指令,以控制收发单元收发信号。
162.作为一种实现方式,本技术中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现,处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。
163.作为另一种实现方式,可以考虑使用通用计算机的方式来实现本技术实施例提供的服务器。即将实现处理器,接收器和发送器功能的程序代码存储在存储器中,通用处理器通过执行存储器中的代码来实现处理器,接收器和发送器的功能。
164.本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述视频热度预测方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、软盘、硬盘、可移动存储盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质。
165.本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本技术的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
166.需要明确的是,本技术并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本技术的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本技术的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
167.本技术中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
168.以上所述仅为本技术的优选实施例,并不用于限制本技术,对于本领域的技术人员来说,本技术实施例可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何
修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1