一种全方位、多信息融合的短视频价值评估方法

文档序号:35378708发布日期:2023-09-09 00:57阅读:65来源:国知局
一种全方位、多信息融合的短视频价值评估方法

本发明属于计算机视觉视频质量评估领域,特别涉及一种全方位、多信息融合的短视频价值评估方法。


背景技术:

1、短视频是发布时常小于5分钟的一种新兴互联网传播载体,受助于其观看时间短、信息载量高的优势,受到众多传播平台和互联网用户的青睐,在互联网上有着广泛的应用场景和极高的热门度。《2021中国短视频行业发展分析报告》中显示,2021年短视频用户达到9.34亿,占网民整体的90.5%;人均单日使用时长增至125分钟,用户粘性继续增强;短视频平台上,中、长视频内容不断丰富,1-5分钟内容仍占绝对优势,达85%;在热门短视频中,社会、时政类内容占到近半数,表明短视频已成网民获取新闻资讯的重要渠道;抖音和快手作为第一梯队,在短视频行业持续领跑。2021年12月,短视频行业月活跃用户规模top10的app中,字节跳动及快手系产品占据6席,其中前两名的抖音(6.72亿)、快手(4.11亿)月活跃用户占短视频行业top10月活跃用户总规模(17.69亿)的61.22%,而字节跳动及快手系产品月活跃用户占比为94.78%,市场集中度极高。如此巨大的用户规模带来了频繁地短视频上传、观看和转载分享,推动了依托于短视频载体的信息内容的快速大面积传播,造就了短视频平台在媒体传播过程中的重要地位。受益于短视频平台的优势,视频内容出版方致力于更有针对性地提升视频内容的传播和信息内容的分享,带来更多的关联用户,从而实现影响力的快速增大和经济收益的增长。同时,由于短视频内容的评价体系不同于传统视频传播平台,基于短视频平台的视频内容推荐与分享也面临着短视频价值评估不直观、版权价值难估计的现实问题。因此,针对短视频价值评估体系,研究一套对短视频整体内容的有效评估和预测,不仅能促进短视频内容质量的提升,实现短视频价值估计,还能辅助网络平台上内容版权的保护。

2、目前,网络内容所带来的影响和收益通常由网络流量来决定,网络流量逐渐成为了用户对于网络内容质量的最直观评价标准之一。网络流量表现为用户对短视频所包含的作者、标题、标签、头图、内容、表现形式等信息的肯定和认同,直接反应在短视频的评论数、点赞数、分享数、点击数、弹幕数等数值。因此,对于短视频价值的评价和估计,可集中于对于短视频可能的评论数、点赞数、分享数的估计。

3、短视频平台中的视频内容包含多种类信息,例如短视频作者、短视频标题、短视频内容、短视频评论等于短视频直接相关的内容,这些信息均有助于评估短视频的价值。其中,依据某单一信息对短视频评价存在信息误导。例如,短视频标题和封面与用户对短视频内容的反馈直接相关,依据标题或封面直接分析短视频可能产生的价值,能够直观反映短视频内容的网络流量热度。然而,由于“标题党”、“图文与视频内容不符”等情况的存在,会对短视频价值评估产生严重的误导,从而带来偏离的评估。此外,短视频创作者的信息是短视频平台用户搜索内容的重要依据之一,知名创作者的作品自带高流量,依据创作者评估短视频价值同样是评估短视频价值的有效手段之一。然而,单独依据创作者评估价值难以避免来自相似创作者的干扰,不仅难以挖掘创作者自身的价值,更难对短视频的价值进行有效的评价。

4、因此,对短视频内容进行多维度分析,从标题、作者、内容等多个方面评价和估计短视频的潜在价值,不仅合理且十分有效。然而,短视频的多维度信息囊括了文本、图像、视频、音频多种表达域,表达域彼此之间差异大,难以使用统一形式对短视频内容进行学习。并且,短视频在多个表达域的表达特征存在难对齐的问题,造成特征融合困难,无法形成一致的表达形式。基于以上考虑,本发明拟针对短视频多维度评估困难问题,提出了一个全方位、多信息融合的短视频价值评估算法。

5、近期在视频质量评估方面有一些与本发明研究内容相关的工作,例如《perceptual quality assessment of internet videos》中提出了一种时空失真感知模型,使用图卷积、注意力机制、光流计算和长短期记忆网络(lstm)四种技术来处理用户生产内容、专业生产内容和职业生产内容视频中的复杂多样的失真情况,以获得更加鲁棒的特征表达来评估视频质量;《no-reference video quality assessment withheterogeneous knowledge ensemble》中采用多种全参考视频质量评估算法,为自建数据集样本标注多个弱标签,并通过异构知识集成(heke,heterogeneous knowledgeensemble)方法减轻单个弱标签的偏差,使提取到的特征更加丰富,最后设计了一种基于heke的无参考视频质量评估的方法。但这些方法只关注视频内容本身,而忽略了短视频在文本、图像维度所包含的信息。此外,在评价标准方面,一般采用皮尔逊线性相关系数(pearson linear correlation coefficient,plcc)和斯皮尔曼等级相关系数(spearmanrank-order correlation coefficient,srocc),它们需要同时考虑视频的主观得分与客观得分。因此,在这类数据集的创建过程中,需要一些人工参与为数据进行主观打分,标注成本较高。


技术实现思路

1、针对现有技术中存在的技术问题,本发明的目的是提供一种全方位、多信息融合的短视频价值评估方法。本发明对短视频作者姓名、作者签名、视频标题、作者头像、视频封面、视频内容等多方面进行特征学习、表达融合,形成短视频的统一表达,并对短视频的点赞、转发、评论热度进行预估,实现对短视频的市场价值、内容价值等版权价值的有效预测,提升短视频平台的视频质量,增强短视频平台的流量热度,创造更高的经济价值。本发明能够解决当前短视频价值评估模型中多维度信息融合困难的问题,并将视频质量评估模型中预测平均主观意见分(mean opinion score,mos)改为预测短视频的点赞、评论、转发数量,降低数据集的创建成本。

2、本发明的技术方案为:

3、一种全方位、多信息融合的短视频价值评估方法,其步骤包括:

4、1)获取短视频样本集合其中,对于每一短视频样本i,其包含作者姓名作者签名短视频标题作者头像短视频封面图像短视频vi、短视频评论数真值点赞数真值分享数真值n为样本总数;

5、2)利用所述短视频样本集合中的短视频样本训练短视频价值评估模型,所述短视频价值评估模型包括多模态特征提取模块、多模态特征融合模块和短视频流量预测模块;其中,对于输入的短视频样本i,所述多模态特征提取模块提取该短视频样本i的图像特征、文本特征和视频特征并将其输入所述多模态特征融合模块进行融合,得到该短视频样本i的多模态融合特征并将其输入到所述短视频流量预测模块,预测该短视频样本i的点赞数、评论数和分享数;然后利用损失函数计算损失值优化所述短视频价值评估模型;和分别用于计算短视频的点赞数损失、评论数损失和分享数损失;

6、3)对于一待评估的短视频v,获取该短视频v中的作者头像特征fprof、短视频封面图像特征fcover、作者姓名特征fname、作者签名特征fsign、短视频标题特征ftitle和视频特征表达fcontent输入到步骤2)优化后的所述短视频价值评估模型,预测得到该短视频v的市场价值,即点赞数、评论数和分享数。

7、进一步的,得到该短视频样本i的多模态融合特征的方法为:

8、21)所述多模态特征融合模块首先将该短视频样本i的图像特征、文本特征和视频特征映射到一个统一特征空间进行对齐;

9、22)采用自适应渐进式结构化关联关系挖掘机制,对对齐后的图像特征、文本特征和视频特征进行全局关联挖掘,得到进行特征融合的关联关系表达;

10、23)基于所述关联关系表达,自适应结构化地融合对齐后的图像特征、文本特征和视频特征;

11、24)重复步骤22)~23)多次,实现渐进式的多模特征融合,得到该短视频样本i的多模态融合特征。

12、进一步的,所述短视频流量预测模块预测得到该短视频样本i的点赞数、评论数和分享数的方法为:所述短视频流量预测模块首先将该短视频样本i的多模态融合特征的维度将降低为原来的一半,然后分别送入3个不同的全连接神经网络,将输入特征的维度减小为1,然后预测该短视频样本i的评论数ycomment、点赞数ydigg和分享数yshare。

13、进一步的,其中,分别为第n个短视频样本的评论数、点赞数、分享数的预测值,分别为第n个短视频样本的评论数、点赞数、分享数的真实值。

14、进一步的,根据所述损失值采用随机梯度下降优化方法训练优化所述短视频价值评估模型。

15、进一步的,所述多模态特征提取模块包括图像特征提取子模块、内容文本特征提取子模块和视频特征提取子模块;所述图像特征提取子模块将作者头像短视频封面图像作为输入,通过深度神经网络提取作者头像特征和短视频封面图像特征,作为该短视频样本i的图像特征;所述内容文本特征提取子模块将作者姓名作者签名短视频标题作为输入,通过预训练语言模型提取作者姓名特征、作者签名特征和短视频标题特征,作为该短视频样本i的文本特征;所述视频特征提取子模块将短视频vi作为输入,通过视觉问答模型提取该短视频样本i的视频特征。

16、进一步的,所述预训练语言模型为乱序语言模型的预训练模型。

17、一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。

18、一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权上述方法的步骤。

19、本发明的全方位、多信息融合的短视频价值评估方法包括:

20、模型训练阶段,获取或生成一个训练集,所述训练集中的每一条数据包括作者姓名、作者签名、短视频标题、作者头像、短视频封面图像、短视频、短视频评论数、点赞数、分享数。利用所述训练集训练短视频价值评估模型,其包括多模态特征提取模块、多模态特征融合模块和短视频流量预测模块。所述多模态特征提取模块包括文本、图像、视频三个维度特征学习模块,分别利用不同的预训练模型提取短视频文本、图像和视频维度特征;将得到的多模态特征输入多模态特征融合模块,得到短视频的多模态融合特征;将融合后的多模态特征输入到短视频流量预测模块,分别预测短视频的点赞数、评论数和分享数。

21、其中,训练所述短视频价值评估模型所采用的损失函数为和分别用于计算短视频点赞数、评论数和分享数的损失。

22、模型应用阶段,对于待评估价值的短视频,利用多模态特征提取模块提取6种不同的多模态特征,包含文本、图像和视频三个维度;将提取到的特征送入多模态特征融合模块,在统一特征维度后,进行特征融合,得到短视频的统一表达特征;最后将融合后的特征输入短视频流量预测模块,得到待评估价值的短视频的点赞数、评论数和分享数。

23、本发明的特点及有益效果是:

24、(1)本专利提出了一个全方位、多信息融合的短视频价值评估算法,除了短视频在视频维度的特征学习外,还加入了对文本和图像维度的特征学习,并将这三种不同表达域的特征融合,形成短视频的统一表达。

25、(2)在模型预测方面,不再去预测视频的质量,而是改为直接预测短视频所能获得的网络流量,即短视频的评论数、点赞数和分享数,这样做极大的降低了数据集创建的难度和成本。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1