一种融合注意力机制的多特征多通道长短时记忆网络视频流行度预测方法

文档序号:36811527发布日期:2024-01-26 16:13阅读:29来源:国知局
一种融合注意力机制的多特征多通道长短时记忆网络视频流行度预测方法

本发明涉及大数据领域、机器学习应用领域,更准确地说,涉及一种融合注意力机制的多特征多通道长短时记忆网络视频流行度预测方法。


背景技术:

1、过去十年,由于网络和视频平台取得了显著的进步,促使了youtube、netflix、腾讯视频等视频平台的兴起。美国思科公司根据2021年的统计数据,预测到2022年视频流量将占到全球互联网流量的82%。在线平台的发展为网络视频提供了更为广泛的传播途径,这些平台通过精准的推荐算法将各种类型的视频推送给用户,从而大大提高了用户观看视频的便捷性。同时,随着智能手机和移动网络的普及,观看在线视频已成为人们消遣的主要方式之一,导致视频流量在网络通信中逐渐占据了主导地位。此外,人们对于高质量视频内容的追求使得视频平台面临更加激烈的竞争。在这一背景下,预测视频流行度变得愈发重要。一方面,预测的准确性对于内容创作者、平台运营商、广告商等利益相关方具有深远影响。另一方面,视频流行度预测可以为边缘缓存策略提供有力支持。边缘缓存策略作为一种重要的网络优化手段,其作用在于将数据内容存储在靠近用户的网络边缘节点上,降低延迟,提高数据传输速度和用户体验。例如辅助缓存服务器优先缓存高流行度的电影,从而提高缓存效率,降低网络拥塞,节省存储空间和带宽资源,降低运营成本,最终提升整体服务质量。

2、目前,视频流行度预测研究主要从特征提取分析和深度学习两个方面开展。对于特征提取分析,这类方法通过分析和利用视频不同的特征信息来对模型进行改进,其中包括内容特征、时间特征、用户特征和结构特征。这些基于特征的方法利用时间序列和上下文数据来学习更好的预测模型,然而该方法也有一定的局限性,比如使用多层感知机预测视频流行度不仅不能很好地处理具有时序和多维数据的模式,还可能无法捕捉特征中的长期依赖关系;再比如使用支持向量机预测视频流行度不能捕捉流行度长期变化趋势。深度学习为视频流行度预测提供了一个新方法,其应用主要涉及到利用复杂的神经网络模型从视频内容、用户行为和社交关系等方面提取特征,并基于这些特征进行视频流行度预测。其中一种典型的方法是通过将历史流行度统计的时间序列数据作为神经网络的输入来建立回归或者分类预测模型。


技术实现思路

1、本发明目的是针对现有技术的不足,提供了一种融合注意力机制的多特征多通道长短时记忆网络视频流行度预测方法,利用长短时记忆网络优秀的时序数据处理能力,引入了多特征和多通道以丰富预测模型的输入信息,并引入了注意力机制,使得模型可以从多个维度学习数据的内在规律,同时结合融合模块对数据进行动态特征融合,最终实现对视频流行度的预测,该方法有效体现了对视频流行度预测的有效性和先进性,提高了预测的精准度。

2、为实现上述目的,本发明采用如下技术方案:

3、步骤s1:针对视频的时序数据,采用长短时记忆网络捕捉所预测视频的流行度动态变化趋势,并对特征向量进行时序过程建模;

4、步骤s2:为了更好地反映视频的短期流行趋势,引入视频的元数据信息并通过多层感知机提取出视频元数据的静态特征,然后进行静态特征建模得到静态特征向量;

5、步骤s3:构造多通道视频时序特征处理模型,将反应视频历史流行度动态变化趋势的多特征时序数据作为其输入进行处理,得到时序特征向量;

6、步骤s4:考虑到随着时间的变化,静态特征的重要性逐渐减小而时序过程的重要性逐渐增加,使用动态特征融合方法融合时序特征向量和静态特征向量;

7、步骤s5:进行视频流行度预测,将综合之前模型学习得到的信息值进行计算,最终得到预测值。

8、所述步骤s1中的时序过程建模包括多特征的引入和多通道的划分。引入多特征可以扩展长短时记忆网络的处理能力,以捕捉视频时序特征之间的关联;引入多通道的划分,将相同类别的特征划归于同一个通道。时序过程建模的核心思想是将所有能代表视频历史流行度动态变化趋势的时间序列数据作为长短时记忆网络的输入,以学习视频的长期变化趋势和不同特征之间的关联;除此之外,对输入特征划分多个通道让模型自动学习不同通道对预测结果的贡献程度。长短时记忆网络针对视频的输入特征,收集一个时间窗口内的所有数据,将其处理后作为长短时记忆神经网络一个时间步的输入特征。

9、所述的引入多特征是将与视频流行度有很强相关性的时序特征(播放量、评论数、弹幕数、点赞、收藏和转发等)作为模型的多特征输入序列,用seqm来表示第m个特征输入序列;其中,seqm的表达式如下:

10、seqm=indexm1,indexm2,...,indexmn             (1)

11、上述表达式(1)中,indexm1表示属于第m个特征输入序列的第1个特征向量,indexm2表示属于第m个特征输入序列的第2个特征向量,indexmn表示属于第m个特征输入序列的第n个特征向量;

12、其次,构造标签序列flag,将视频的日播放量作为该视频的流行度序列,并将其作为时间步输入的标签;其中,flag的表达式如下:

13、flag=flagt0,flagt1,...,flagtn    (2)

14、上述表达式(2)中,flagt0表示视频第1天的播放量,flagt1表示视频第2天的播放量,flagtn表示视频第n+1天的播放量;

15、然后,构造时间窗口序列time,以天为单位作为一个时间窗口来反应流行度变化趋势;其中,time的表达式如下:

16、time=time1,time2,...,timen           (3)

17、上述表达式(3)中,time1表示第1天,time2表示第2天,timen表示第n天。

18、所述步骤s3的多通道视频时序特征处理模型包括多个通道-特征学习模型,以及特征注意力和通道注意力的引入。多通道视频时序特征处理模型的核心思想是将不同通道的视频时序多特征向量,经过属于各自的通道-特征学习模型的相关计算后,得到不同通道的视频流行趋势,同时在特征层面和通道层面分别引入特征注意力和通道注意力,使得多通道视频时序特征处理模型可以在多个维度学习数据的内在规律,最终得到时序特征向量。

19、所述的特征注意力与通道注意力用于对当前输入的视频多特征数据根据其重要程度给不同的特征或通道赋予不同权重,以更好地捕捉关键特征和通道之间的关联性;第i个特征或通道的注意力权重atti的计算公式如下:

20、atti=softmax(fc(gi))           (4)

21、上述公式(4)中,softmax(·)表示softmax激活函数;fc(·)表示全连接层;gi表示全局描述符,用于描述第i个特征的全局特征;其中,gi的量化公式如下:

22、gi=wfxi+bf                 (5)

23、上述公式(5)中,xi表示第m个多特征输入序列seqm所属的特征向量x=x1,x2,...,xd中第i个特征的值,x分别表示indexm1,indexm2,...,indexmn;wf表示权重矩阵;bf表示偏置;

24、进一步的,将不同的特征或通道注意力权重atti应用于所有原始特征向量xi中,再求加权和得到调整后的特征向量xchanged,xchanged的计算公式如下:

25、

26、上述公式(6)中,其余相同符号表达同公式(4)和公式(5)。

27、所述的通道-特征学习模型是将时序注意力引入到长短时记忆网络中得到的模型。通道-特征学习模型的核心思想是将每个长短时记忆网络单元都与一个注意力机制相关联,在每个时间步中,模型会计算每个输入特征的权重向量,并将其乘以输入特征的向量表示,从而得到加权和。这个加权和会被输入到长短时记忆网络单元中,以更新记忆状态和输出状态,最终模型输出一个属于该通道的视频流行趋势,用h来表示,其计算公式如下:

28、

29、上述公式(7)中,αi表示第i个时序的注意力权重,hidei表示长短时记忆网络对视频多特征输入向量学习得到的隐藏向量序列h=(hide1,hide2,...,hiden)的第i个元素;其中,αi的计算公式如下:

30、

31、上述公式(8)中,exp(·)表示指数函数运算,scorei表示查询向量对hidei的注意力打分函数;其中,scorei的计算公式如下:

32、scorei=wsttanh(wq*q+whide*hidei)       (9)

33、上述公式(9)中,q表示查询向量,用于筛选出与特定任务相关的信息;tanh(·)表示tanh激活函数;wst表示注意力打分函数的权重向量ws的转置;wq,whide表示可学习的权重。

34、所述步骤s4的动态特征融合方法是通过长短时记忆网络的两个门控单元分别控制静态特征向量和时序特征向量的输入比重。两者的权重经过时间动态变化的处理后,使用点积注意力来融合这两种类型的特征表示。动态特征融合的核心思想是利用门机制在静态特征向量和时序特征向量传递的过程中对其进行遗忘、更新和输出,从而实现静态特征的重要性随着时间的变化逐渐减小,而时序特征的重要性随着时间的变化逐渐增加。动态特征融合后的结果用fus来表示,其计算公式如下:

35、fus=∑i∈l,eawi*tsi                  (10)

36、上述公式(10)中,fus表示经过调整的静态特征向量和时序特征向量的加权和,awi表示mh对tsi的点积注意力权重,mh表示当前层的隐藏状态,tsi表示hl或he中第i个元素,hl和he分别表示时序特征向量和静态特征向量通过门控单元得到的结果;其中,awi的计算公式如下:

37、

38、上述公式(11)中,exp(·)表示指数函数运算,mht表示当前层的隐藏状态mh的转置;其中,mh的计算公式如下:

39、mh=wh*[hl,he]+bh              (12)

40、上述公式(12)中,wh表示当前层的权重矩阵,bh表示当前层的偏置向量,其余相同符号表达同公式(10);其中,hl和he的计算公式如下:

41、hl=(1-d(δt))*hi               (13)

42、上述公式(13)中,hl表示基于注意力机制多通道长短时记忆网络学习到的时序特征向量,d(δt)表示一个可学习的指数衰减函数;

43、he=d(δt)*he                    (14)

44、上述公式(14)中,he表示经过静态特征建模得到的静态特征向量,d(δt)表示一个可学习的指数衰减函数;其中,d(δt)的计算公式如下:

45、d(δt)=d(t-t0)=exp(-α(t-t0))    (15)

46、上述公式(15)中,t表示预测的时刻;t0表示视频发布的时刻;exp(·)表示指数函数运算;α表示一个可学习的参数,用于控制d(δt)的衰减率。

47、所述步骤s5的视频流行度预测是通过回归任务实现的,对相关信息值使用线性变换即可得到所预测的视频流行度结果。视频流行度pred的计算公式如下:

48、pred=wpredt*fus+bpred                  (16)

49、上述公式(16)中,wpredt表示权重向量wpred的转置,bpred表示偏置向量,其余相同符号表达同公式(10)。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1