基于图学习的视频参与度预测方法、系统、装置及介质

文档序号:31793440发布日期:2022-10-14 16:35阅读:33来源:国知局
基于图学习的视频参与度预测方法、系统、装置及介质

1.本发明涉及计算机技术领域,尤其涉及一种基于图学习的视频参与度预测方法、系统、装置及介质。


背景技术:

2.随着移动互联网技术的飞速发展,创作者能在不同上分享视频,评价视频质量的有效方式即为用户参与度,如视频的点击量、点赞量和评价等。如果在视频发布之后通过真实的用户参与度来评价视频质量,虽然结果比较准确,但是存在滞后性,不利于创作者提前优化视频内容,因此,需要针对创作出的视频进行用户参与度的提前预测。
3.目前,视频用户参与度预测分别对文本等单个模态的各种特征进行建模预测参与度,只考虑单个模态的特征得出的结果可信度不高,也忽视模态间的相关性,导致准确性较低。


技术实现要素:

4.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于图学习的视频参与度预测方法、系统、装置及存储介质,能够提高对视频用户参与度预测的准确性。
5.一方面,本发明实施例提供了一种基于图学习的视频参与度预测方法,包括以下步骤:
6.获取视频内容;
7.对所述视频内容进行模态特征提取得到文本数据、音频数据和视频数据;
8.根据所述文本数据、所述音频数据和所述视频数据通过图学习进行情感特征提取得到情感特征矩阵;
9.对所述文本数据进行关键词的特征提取得到文本特征矩阵;
10.对所述视频数据进行目标对象的特征提取得到视频特征矩阵;
11.对所述音频数据进行谱图的特征提取得到音频特征矩阵;
12.将所述情感特征矩阵、所述文本特征矩阵、所述视频特征矩阵和所述音频特征矩阵输入用户参与度预测模型得到用户参与度预测结果。
13.根据本发明一些实施例,所述根据所述文本数据、所述音频数据和所述视频数据通过图学习进行情感特征提取得到情感特征矩阵包括以下步骤:
14.将所述文本数据输入文本前馈神经网络进行特征编码得到文本嵌入序列,其中,所述文本嵌入序列包括多个文本嵌入,所述文本嵌入包括第一位置标识,所述第一位置标识用于表征所述文本嵌入在所述文本嵌入序列中的位置;
15.将所述音频数据输入音频前馈神经网络进行特征编码得到音频嵌入序列,其中,所述音频嵌入序列包括多个音频嵌入,所述音频嵌入包括第二位置标识,所述第二位置标识用于表征所述音频嵌入在所述音频嵌入序列中的位置;
16.将所述视频数据输入视频前馈神经网络进行特征编码得到视频嵌入序列,其中,所述视频嵌入序列包括多个视频嵌入,所述视频嵌入包括第三位置标识,所述第三位置标识用于表征所述视频嵌入在所述视频嵌入序列中的位置;
17.基于所述第一位置标识、所述第二位置标识和所述第三位置标识确定两个嵌入之间的时序关系,其中,所述两个嵌入包括两个文本嵌入、两个视频嵌入、两个音频嵌入、文本嵌入与视频嵌入、文本嵌入和音频嵌入、音频嵌入和视频嵌入的至少之一;
18.根据所述文本嵌入、所述音频嵌入和所述视频嵌入,以及两个嵌入之间的时序关系构建多模态全连接图,其中,所述文本嵌入、所述音频嵌入和所述视频嵌入均作为所述多模态全连接图的节点,所述两个嵌入之间的时序关系作为多模态全连接图的边;
19.将所述多模态全连接图输入图神经网络进行情感特征提取得到所述情感特征矩阵。
20.根据本发明一些实施例,所述基于所述第一位置标识、所述第二位置标识和所述第三位置标识确定两个嵌入之间的时序关系包括以下步骤:
21.当所述两个嵌入为相同模态的嵌入,则根据模态对应的位置标识确定所述两个嵌入之间的时序关系;
22.当所述两个嵌入为不同模态的嵌入,则根据两个嵌入所在的两个嵌入序列的长度设置卷积核和卷积步长,根据所述卷积核和卷积步长对两个嵌入序列进行对齐操作确定两个嵌入序列中互相对齐的第一嵌入和第二嵌入,以所述第一嵌入的位置标识为基准,确定第一嵌入所在嵌入序列中的每一个嵌入与所述第二嵌入的时序关系。
23.根据本发明一些实施例,所述根据所述文本数据、所述音频数据和所述视频数据通过图学习进行情感特征提取得到情感特征矩阵还包括以下步骤:
24.根据所述多模态全连接图中的相邻节点的嵌入确定对应边的注意力权重;
25.根据所述注意力权重对相邻节点进行信息融合,得到每一个节点的新嵌入;
26.根据节点的嵌入确定相邻节点之间的相似度;
27.当相邻节点的相似度大于相似度阈值,则删除相邻节点的边;
28.删除所述多模态全连接图中没有边连接的孤立节点。
29.根据本发明一些实施例,所述对所述文本数据进行关键词的特征提取得到文本特征矩阵包括以下步骤:
30.将所述文本数据进行提取得到视频文本、标题文本和各种词性;
31.计算视频文本长度、标题文本长度和词性比例并采用多层感知器进行表示学习,得到文本特征矩阵。
32.根据本发明一些实施例,所述对所述音频数据进行谱图的特征提取得到音频特征矩阵包括以下步骤:
33.从所述音频数据中提取梅尔因频谱图;
34.将所述梅尔因频谱图输入循环自编码器进行特征表示得到所述音频特征矩阵。
35.根据本发明一些实施例,所述对所述视频数据进行目标对象的特征提取得到视频特征矩阵包括以下步骤:
36.将所述视频数据划分为若干个帧片段;
37.分别将若干个所述帧片段输入训练完成的yolo v3模型进行目标对象识别,得到
用于表征目标对象在视频中的出现时间的视频特征矩阵。
38.另一方面,本发明实施例还提供一种基于图学习的视频参与度预测系统,包括:
39.第一模块,用于获取视频内容;
40.第二模块,用于对所述视频内容进行模态特征提取得到文本数据、音频数据和视频数据;
41.第三模块,用于根据所述文本数据、所述音频数据和所述视频数据通过图学习进行情感特征提取得到情感特征矩阵;
42.第四模块,用于对所述文本数据进行关键词的特征提取得到文本特征矩阵;
43.第五模块,用于对所述视频数据进行目标对象的特征提取得到视频特征矩阵;
44.第六模块,用于对所述音频数据进行谱图的特征提取得到音频特征矩阵;
45.第七模块,用于将所述情感特征矩阵、所述文本特征矩阵、所述视频特征矩阵和所述音频特征矩阵输入用户参与度预测模型得到用户参与度预测结果。
46.另一方面,本发明实施例还提供一种基于图学习的视频参与度预测装置,包括:
47.至少一个处理器;
48.至少一个存储器,用于存储至少一个程序;
49.当所述至少一个程序被所述至少一个处理器执行,使得至少一个所述处理器实现如前面所述的基于图学习的视频参与度预测方法。
50.另一方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如前面所述的基于图学习的视频参与度预测方法。
51.本发明上述的技术方案至少具有如下优点或有益效果之一:本技术融合基于多模态分析的情感特征矩阵和基于单模态分析的文本特征矩阵、音频特征矩阵和视频特征矩阵进行用户参与度的预测,不仅考虑单模态数据对预测结果的影响,又通过情感分析考虑多模态数据间的相互关联,从而提高了视频用户参与度预测的准确性。
附图说明
52.图1是本发明实施例提供的基于图学习的视频参与度预测方法流程图;
53.图2是本发明实施例提供的基于图学习的视频参与度预测装置示意图;
54.图3是本发明实施例提供的基于图学习的视频参与度预测流程示意图;
55.图4是本发明实施例提供的节点对齐操作示意图;
56.图5是本发明另一实施例提供的节点对齐操作示意图;
57.图6是本发明实施例提供的预测模型处理流程示意图。
具体实施方式
58.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或者类似的标号表示相同或者类似的原件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
59.在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、左、右等指示的方位或者位置关系为基于附图所示的方位或者位置关系,仅是为了便于描述本发明和简化
描述,而不是指示或者暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
60.本发明的描述中,如果有描述到第一、第二等只是用于区分技术特征为目的,而不能理解为指示或者暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
61.本发明实施例提供了一种基于图学习的视频参与度预测方法,参照图1,本发明实施例的基于图学习的视频参与度预测方法包括但不限于步骤s110、步骤s120、步骤s130、步骤s140、步骤s150、步骤s160和步骤170。
62.步骤s110,获取视频内容;
63.步骤s120,对视频内容进行模态特征提取得到文本数据、音频数据和视频数据;
64.步骤s130,根据文本数据、音频数据和视频数据通过图学习进行情感特征提取得到情感特征矩阵;
65.步骤s140,对文本数据进行关键词的特征提取得到文本特征矩阵;
66.步骤s150,对视频数据进行目标对象的特征提取得到视频特征矩阵;
67.步骤s160,对音频数据进行谱图的特征提取得到音频特征矩阵;
68.步骤s170,将情感特征矩阵、文本特征矩阵、视频特征矩阵和音频特征矩阵输入用户参与度预测模型得到用户参与度预测结果。
69.本发明实施例融合了基于多模态分析的情感特征矩阵和基于单模态分析的文本特征矩阵、音频特征矩阵和视频特征矩阵进行用户参与度的预测,得到视频的用户参与度预测结果,不仅考虑单模态数据对预测结果的影响,又通过情感分析考虑多模态数据间的相互关联,从而提高了视频用户参与度预测的准确性。
70.在一些实施例中,预测结果可以是一个总体评价分数,该分数在一定程度上反映用户倾向于参与视频的意愿,预测结果也可以是预测视频的点击数、点赞数和评价倾向值,本发明实施例不作具体限制,预测结果的表现形式与对预测模型进行训练所采用的标签相关,如果训练集中数据标签为人工标注的分数,则预测结果为总体评价分数,如果数据标签为真实获取的点击数,则预测结果为点击数。
71.下面请参照图3,对本发明实施例的详细方案进行阐述。
72.根据本发明一些具体实施例,所步骤s130包括但不限于以下步骤:
73.步骤s210,将文本数据输入文本前馈神经网络进行特征编码得到文本嵌入序列,其中,文本嵌入序列包括多个文本嵌入,文本嵌入包括第一位置标识,第一位置标识用于表征文本嵌入在文本嵌入序列中的位置;
74.步骤s220,将音频数据输入音频前馈神经网络进行特征编码得到音频嵌入序列,其中,音频嵌入序列包括多个音频嵌入,音频嵌入包括第二位置标识,第二位置标识用于表征音频嵌入在音频嵌入序列中的位置;
75.步骤s230,将视频数据输入视频前馈神经网络进行特征编码得到视频嵌入序列,其中,视频嵌入序列包括多个视频嵌入,视频嵌入包括第三位置标识,第三位置标识用于表征视频嵌入在视频嵌入序列中的位置;
76.步骤s240,基于第一位置标识、第二位置标识和第三位置标识确定两个嵌入之间的时序关系,其中,两个嵌入包括两个文本嵌入、两个视频嵌入、两个音频嵌入、文本嵌入与
视频嵌入、文本嵌入和音频嵌入、音频嵌入和视频嵌入的至少之一;
77.步骤s250,根据文本嵌入、音频嵌入和视频嵌入,以及两个嵌入之间的时序关系构建多模态全连接图,其中,文本嵌入、音频嵌入和视频嵌入均作为多模态全连接图的节点,两个嵌入之间的时序关系作为多模态全连接图的边;
78.步骤s260,将多模态全连接图输入图神经网络进行情感特征提取得到情感特征矩阵。
79.在一些实施例中,为了关联各个模态数据的特征,需要融合各个模态数据进行情感分析,以提高后续用户参与度预测的准确性。提取视频内容的不同模态得到视频数据、音频数据和文本数据之后,将文本数据输入文本前馈神经网络进行特征编码得到文本嵌入序列t,将音频数据输入音频前馈神经网络进行特征编码得到音频嵌入序列a,将视频数据输入视频前馈神经网络进行特征编码得到视频嵌入序列s,文本嵌入序列包括多个大小相同的文本嵌入e
t
,音频嵌入序列包括多个大小相同的音频嵌入ea,视频嵌入序列包括多个大小相同的视频嵌入es。
80.在每个嵌入中增加一个位置标识,用于表征嵌入在所在嵌入序列中的位置,示例性地,文本嵌入包括第一位置标识,第一位置标识表征该文本嵌入在文本嵌入序列中的位置,音频嵌入包括第二位置标识,第二位置标识表征该音频嵌入在音频嵌入序列中的位置,视频嵌入包括第三位置标识,第三位置标识表征该视频嵌入在视频嵌入序列中的位置,位置标识根据时间先后进行设置,使得各模态的嵌入可以按照时间顺序组合成嵌入序列。位置标识可以根据公式(1)和公式(2)进行确定:
[0081][0082][0083]
其中,i是映射的维度,d
emb
是嵌入的维度,pos是待计算的位置,pe
(pos,2i)
和pe
(pos,2i+1)
均为位置编码。
[0084]
进一步地,各模态嵌入间的时序关系会对情感分析产生影响,不同的序列顺序可能会产生不同的情感识别结果,因此,可以通过基于各模态嵌入的位置标识(第一位置标识、第二位置标识和第三位置标识)确定所有嵌入两两之间的时序关系。
[0085]
将各个嵌入作为节点,根据两个嵌入的时序关系连接两个嵌入形成边,得到多模态全连接图,即多模态全连接图g=(v,e)包括节点集合ν和边集合e,节点集合v包括视频节点集合s、音频节点集合a和文本节点集合t,如下:
[0086]
s={s1,s2,...,si}
[0087]
a={a1,a2,...,aj}
[0088]
t={t1,t2,...,tk}
[0089]
采用模态标识符π标记节点的模态:
[0090]
π∈{s,a,t}
[0091]
节点集合v表示为:
[0092]
ν=s∪a∪t
[0093]
边集合e={(s,a)(a,s)(s,t)(t,s)(a,t)(t,a)(a,a)(s,s)(t,t)|s∈s,a∈a,t∈t},表示视频节点、音频节点及文本节点两两之间的存在关系,在此基础上,加入方向标识
符ω和时间特征φ来表征节点之间的时序关系。
[0094]
例如,有方向的边表示为(s

,a

),源节点为s

,目标节点为a

,采用方向标识符ω来标识边集合:
[0095]
ω∈{(a

,a

),(a

,s

),(a

,t

),(s

,a

),(s

,s

),(s

,t

),(t

,a

),(t

,s

),(t

,t

)}
[0096]
其中,a

表示音频节点,s

表示视频节点,t

表示文本节点。
[0097]
时间特征采用特征值p标识的边表示其源节点相对于目标节点为过去节点,采用特征值n标识的边表示其源节点相对于目标节点为当前节点,采用特征值f标识的边表示其源节点相对于目标节点为未来节点。
[0098]
在一些实施例中,通过将多模态全连接图输入图神经网络的图表示层进行特征编码图向量vece,如公式(3)将图向量输入mlp分类器进行情感识别得到情感表示矩阵v
p
,如公式(4)将情感表示矩阵进行归一化处理得到情感特征矩阵x1,示例性地,情感识别结果可以有欢乐、悲伤、愤怒、恐惧、平静等,情感特征矩阵即为情感识别结果的编码表示。
[0099]vp
=mlpe(vece)
ꢀꢀꢀꢀ
(3)
[0100]
x1=w
1vp
ꢀꢀꢀꢀ
(4)
[0101]
其中,w1为对归一化系数。
[0102]
根据本发明一些具体实施例,步骤s240包括以下步骤:
[0103]
步骤s310,当两个嵌入为相同模态的嵌入,则根据模态对应的位置标识确定两个嵌入之间的时序关系;
[0104]
步骤s320,当两个嵌入为不同模态的嵌入,则根据两个嵌入所在的两个嵌入序列的长度设置卷积核和卷积步长,根据卷积核和卷积步长对两个嵌入序列进行对齐操作确定两个嵌入序列中互相对齐的第一嵌入和第二嵌入,以第一嵌入的位置标识为基准,确定第一嵌入所在嵌入序列中的每一个嵌入与第二嵌入的时序关系。
[0105]
在一些实施例中,对于两个嵌入,或称两个节点的时序关系,如果是同一模态的嵌入,可以根据对应模态的位置标识确定两者之间的时序关系。以文本嵌入为例,第一文本嵌入和第二文本嵌入的在文本嵌入序列中的第一位置标识分别为1和2,可以确定第一文本嵌入早于第二文本嵌入。
[0106]
在一些实施例中,如果为不同模态的嵌入,或称节点,则需要对两个嵌入所在的嵌入进行对齐操作,再基于对齐结果确定不同模态嵌入的时序关系。
[0107]
以音频嵌入序列和文本嵌入序列为例,对齐操作过程为:
[0108]
将音频嵌入序列和文本嵌入序列作为一维卷积运算的输入和输出,可以是音频嵌入序列为输入序列,文本嵌入序列为输出序列,也可以是音频嵌入序列为输出序列,文本嵌入序列为输入序列。一般地,取序列长度较长的序列作为输入序列,序列长度较短的序列作为输出序列,使得输入序列中的嵌入和输出序列中的嵌入可以以一对一或者多对一的形式对齐。
[0109]
根据以下公式(5)设置卷积核和卷积步长:
[0110]
[0111]
其中,m表示输入序列的长度,n表示输出序列的长度,w表示卷积核,s表示卷积步长。
[0112]
在输出序列(较长的序列)中采用公式(5)计算出的卷积核进行卷积,从输出序列的第一个嵌入开始取卷积核中的嵌入与输入序列(较短的序列)的第一个嵌入对齐,按照公式(5)计算出的卷积步长移动卷积核,继续取取卷积核中的嵌入与输入序列的第二个嵌入对齐,依次类推,输出序列中剩余未对齐的嵌入数量与输入序列中剩余未对齐的嵌入数量相同,则将卷积核和卷积步长均调整为1继续卷积进行一一对齐。总结来说,如果根据公式(5)计算出卷积核大小为n,那么输入序列(较长)中就有包含当前节点以及其之后节点在内共n个节点确定为与输出序列(较短)中的当前一个节点对应为同时存在的节点。
[0113]
如图4所示,输入序列为文本节点序列,节点数为m=8,输出序列为音频节点序列,节点数为n=4,满足n>m/2,根据公式(5)设置卷积核大小w=2,步长s=2,所以得到a1对应的当前节点为t1、t2,a2对应的当前节点为t3、t4,a3对应的当前节点为t5、t6,为保证每个音频节点都至少对应的一个同时存在的当前文本节点,因此,a4及其之后的每个节点对应的卷积核大小都设为1,步长也相应设为1,音频节点a3和a5都只有一个对应同时存在的文本节点。对于音频节点a2来说,文本节点t1、t2为过去节点,t3、t4为当前节点,t5~t8为未来节点。
[0114]
如图5所示,输入序列为文本节点序列,节点数为m=8,输出序列为视频节点序列,节点数为n=4,满足n=m/2,根据公式(5)设置卷积核大小w=2,步长s=2,由于输入序列足够长,能保证每一个视频节点均对应两个文本节点,因此,卷积核和卷积步长不需要调整为1。s1对应的当前节点为t1、t2,s2对应的当前节点为t3、t4,s3对应的当前节点为t5、t6,s4对应的当前节点为t7、t8。对于音频节点s2来说,文本节点t1、t2为过去节点,t3、t4为当前节点,t5~t8为未来节点。
[0115]
在一些实施例中,公式(5)的推导过程如下:
[0116]
基于输入序列m、输出序列n、卷积核w和卷积步长s的卷积操作可以表示公式(6):
[0117][0118]
根据公式(6)得到公式(7):
[0119]
w=m-(n-1)*s
ꢀꢀꢀꢀ
(7)
[0120]
步长s最小为1,最大为m/(n-1),在n≤m/2时,对齐算法将最大步长与最小步长的平均值作为步长s,将m-(n-1)*s作为卷积核w大小;在n>m/2时,对齐算法将卷积核w大小设置为2,步长s也为2,从而得到公式(5)。
[0121]
另外,在保证所有节点都有当前节点的情况下,从输出序列n中找到卷积核w大小为2的最大节点数,而其余节点的卷积核w大小则设为1,步长也相应设为1。
[0122]
根据本发明一些具体实施例,步骤s130还包括但不限于以下步骤:
[0123]
步骤s410,根据多模态全连接图中的相邻节点的嵌入确定对应边的注意力权重;
[0124]
步骤s420,根据注意力权重对相邻节点进行信息融合,得到每一个节点的新嵌入;
[0125]
步骤s430,根据节点的嵌入确定相邻节点之间的相似度;
[0126]
步骤s440,当相邻节点的相似度大于相似度阈值,则删除相邻节点的边;
[0127]
步骤s450,删除多模态全连接图中没有边连接的孤立节点。
[0128]
在一些实施例中,在计算边的注意力权重之前,先使用一个简单的线性变换将所
有节点的特征转换到一个共同的特征空间,节点的模态标识符π用以区分不同模态节点从而保证着对不同种类的节点有不同的线性变换系数,线性转换如公式(8)所示:
[0129]
xi=m
π
xiꢀꢀꢀꢀ
(8)
[0130]
π∈{s,a,t}
[0131]
其中,s标识视频模态,a标识音频模态,t标识文本模态,m
π
为线性变换系数,xi为节点嵌入,x’i
为转换后的节点嵌入。
[0132]
然后通过公式(9)计算相邻节点间边的原始注意力权重:
[0133][0134]
其中,β
i,j
为节点i和节点j间边的原始注意力权重,为每种类型边对应的一个注意力向量,边的类型由元组决定,ω即边的方向标识符,即边的时间特征。
[0135]
然后使用softmax函数对所有节点的邻居节点的原始注意力分数进行归一化得到边的注意力权重α
ij
,以指导异质节点间的信息传递,保持图中节点特征的规模,如公式(10)所示:
[0136][0137]
针对节点i,根据归一化后的注意力权重α
ij
,根据公式(11)加权聚合来自线性变换后的邻居节点j的信息得到zi,zi作为为节点i的新嵌入。
[0138][0139]
节点i经过聚合后,从包括单模态数据的节点转变融合多模态数据的节点,包含来自相邻节点丰富的信息。由于多模态全连接图是完全连通的,节点i可以从时间序列边上的所有模态收集信息,从而可以对丰富而复杂的跨模态和时间信息进行建模。
[0140]
考虑到不是图中的每个边和节点都是有意义的,并且过多的边会导致计算图过大,导致处理器负担过大,因此,需要对图中的边进行裁剪并去除孤立节点,具体如下:
[0141]
根据公式(12)计算边(i,j)上节点i的嵌入xi和节点j的嵌入xj之间的特征平滑度es(i,j):
[0142][0143]
其中,d表示节点的特征空间维度。
[0144]
若es(i,j)小于定义的阈值,例如0.2,则意味着节点i和j相似度较高,彼此间可以从对方聚合到的不同信息并不多,因此,裁剪边(i,j)。
[0145]
将相邻节点的信息聚合和动态裁剪冗余边,两个步骤交替重复执行数次,使得信息聚合程度更高、冗余边的数量也大大减少,然后再删除掉没有边连接的孤立节点,得到一个大小合适、各节点信息丰富的混合多模态图g

(v,e),从而可以使用图卷积神经网络来进行表示学习得到图向量vece。
[0146]
在本实施例中,根据边的时间及模态特征计算注意力分数,通过归一化的注意力分数指导异质节点间的信息传递,有效融合多模态节点的信息。通过计算节点特征向量之间的特征平滑度,动态地裁剪掉特征平滑度较低的两节点之间的边,同时去除没有边连接
v3为每个类使用一个逻辑分类器,可以给出多标签分类。yolo v3使用的darknet-53有53层卷积,与yolo v2中使用的darknet 19相比,53层卷积更深入学习。darknet-53主要包含3x3和1x1滤波器以及旁路链路。根据公式(18)和(19)yolo v3模型最终的输出是r,表征视频中出现的特殊对象的时间,将r进行归一化处理得到视频特征矩阵x3。
[0166]
r=yolo
v3
(video)
ꢀꢀꢀꢀ
(18)
[0167]
x3=w3r
ꢀꢀꢀꢀ
(19)
[0168]
在另外一些实施例中,可以对视频数据中每一帧的帧画面进行基于像素位的相似度计算,将相似度较高的若干个帧画面划分为一组帧片段,将需要进行分析的帧片段输入yolo v3模型相比于整个视频数据输入的方式,能够降低yolo v3模型的识别难度,提高计算效率。示例性地,在一个教学视频中,会交替出现黑板画面、动画画面和ppt画面等,这三种画面之间在像素位上的区别很大,而一种画面内像素位区别不大,因此,可以基于像素位总体相似度的方式划分这三种画面,ppt画面和黑板画面的内容与音频数据和文本数据内容重叠,因此,可以只将动画画面输入至yolo v3模型进行识别。
[0169]
根据本发明一些具体实施例,预测模型的处理过程如图6所示,情感特征矩阵x1、文本特征矩阵x2、视频特征矩阵x3以及文本特征矩阵x4采用注意力机制处理后,得到各自对应的原始注意力分数si,使用softmax函数对原始注意力分数进行归一化处理后得到αi,将αi作为权重对四个输出进行加权和,得到用户参与度预测结果
[0170]
si=xiwi′ꢀꢀꢀꢀ
(20)
[0171][0172][0173]
进一步地,为提高本技术中预测模型、情感分析、音频分析、视频分析和文本分析所涉及模型的准确性,在每个用户观看完视频后,收集用户观看时长、停顿次数、用户评分以及用户的正面负面评论等数据计算出真实的用户参与度值y。使用损失函数比较两个参与度分数的差异计算损失,μ为超参数。
[0174][0175]
通过误差反向传播,优化前面所涉及模型的参数,反向传播进行一定次数的迭代,直到模型参数收敛,最终训练得到的模型参数能够使得参与度分数的预测得到一个接近实际的准确值,从而得到可靠的用户参与度预测结果
[0176]
另一方面,本发明实施例还提供一种基于图学习的视频参与度预测系统,包括:
[0177]
第一模块,用于获取视频内容;
[0178]
第二模块,用于对视频内容进行模态特征提取得到文本数据、音频数据和视频数据;
[0179]
第三模块,用于根据文本数据、音频数据和视频数据通过图学习进行情感特征提取得到情感特征矩阵;
[0180]
第四模块,用于对文本数据进行关键词的特征提取得到文本特征矩阵;
[0181]
第五模块,用于对视频数据进行目标对象的特征提取得到视频特征矩阵;
[0182]
第六模块,用于对音频数据进行谱图的特征提取得到音频特征矩阵;
[0183]
第七模块,用于将情感特征矩阵、文本特征矩阵、视频特征矩阵和音频特征矩阵输入用户参与度预测模型得到用户参与度预测结果。
[0184]
可以理解的是,上述基于图学习的视频参与度预测方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述基于图学习的视频参与度预测方法实施例相同,并且达到的有益效果与上述基于图学习的视频参与度预测方法实施例所达到的有益效果也相同。
[0185]
参照图2,图2是本发明一个实施例提供的基于图学习的视频参与度预测装置的示意图。本发明实施例的基于图学习的视频参与度预测装置包括一个或多个控制处理器和存储器,图2中以一个控制处理器及一个存储器为例。
[0186]
控制处理器和存储器可以通过总线或者其他方式连接,图2中以通过总线连接为例。
[0187]
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于控制处理器远程设置的存储器,这些远程存储器可以通过网络连接至该基于图学习的视频参与度预测装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0188]
本领域技术人员可以理解,图2中示出的装置结构并不构成对基于图学习的视频参与度预测装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0189]
实现上述实施例中应用于基于图学习的视频参与度预测装置的基于图学习的视频参与度预测方法所需的非暂态软件程序以及指令存储在存储器中,当被控制处理器执行时,执行上述实施例中应用于基于图学习的视频参与度预测装置的基于图学习的视频参与度预测方法。
[0190]
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,可使得上述一个或多个控制处理器执行上述方法实施例中的基于图学习的视频参与度预测方法。
[0191]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通
技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0192]
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1