本发明属于短视频智能制作方法领域,尤其涉及一种基于cnn算法的短视频智能制作方法。
背景技术:
1、随着社交媒体和在线视频平台的快速发展,短视频在互联网和移动设备上的流行程度不断增加。越来越多的用户喜欢制作和分享自己的短视频作品,以展示生活、记录趣事或传达信息。然而,对于大多数用户来说,制作高质量、具有专业效果的短视频仍然具有挑战性。目前,市场上存在许多短视频制作工具和应用程序,但大多数依赖于用户的手动操作和编辑技能,对用户要求较高,并且缺乏智能化的制作功能。传统的短视频制作方法通常需要用户具备一定的摄影、剪辑和特效处理等技能,并且耗费大量的时间和精力。此外,这些方法往往只注重短视频的内容或风格的处理,难以实现综合性的智能制作。对于非专业用户来说,制作出具有专业质量和令人满意的短视频仍然具有一定的难度。
技术实现思路
1、有鉴于此,本发明提供一种基于cnn算法的短视频智能制作方法,目的在于提高短视频制作效率,同时更好地满足个性化和智能化的短视频需求,为用户提供全新化的视频体验。
2、实现上述目的,本发明提供的一种基于cnn算法的短视频智能制作方法,包括以下步骤:
3、s1:收集不同类别的短视频作为训练数据,并对收集到的数据进行去噪;
4、s2:基于多维cnn构建关键帧识别网络,对去噪后的训练数据进行关键帧识别;
5、s3:基于cnn构建内容和风格分类网络,对关键帧进行内容和风格的分类;
6、s4:根据短视频设定的内容和风格,对识别出符合要求的关键帧进行排序;
7、s5:依据关键帧的排序进行帧间衔接完成短视频制作。
8、作为本发明的进一步改进方法:
9、可选的,所述s1步骤中收集不同类别的短视频作为训练数据,并对收集到的数据进行去噪,包括:
10、收集不同类别的短视频作为训练数据,并对收集到的数据进行去噪,所述去噪流程为:
11、s11:构建噪声模型:
12、将短视频中的每一帧分为图像块w,尺寸为window×window,则图像的噪声模型可表述为:
13、
14、其中,为图像块w不包含噪声的情况;noise为图像块w中的包含的随机噪声;
15、s12:相似图像块时空匹配:
16、基于匹配算法在图像块w所在的帧及其相邻帧寻找相似的图像块,构建时空匹配样本集,所述匹配算法的计算方法为:
17、
18、其中,dist(s,t)表示在空间搜索范围s和时间搜索范围t的约束内,待匹配的图像块ws,t与图像块w的相似度;(i,j)表示图像块像素坐标;
19、s13:基于主成分分析降噪:
20、将图像块w与匹配到的前num个图像构成新图像块矩阵w′:
21、
22、其中,为s12中获得的相似度最高的前num个图像块;
23、计算w′的协方差矩阵:
24、
25、其中,ω为需要计算的协方差矩阵;表示矩阵的转置;num+1表示w′中包含图像块的数目;
26、求解协方差矩阵的特征值和特征向量:
27、ωγ=λγ
28、其中,γ为特征向量;λ为特征值;
29、使用最大的特征值所对应的特征向量对w′进行降维:
30、
31、其中,为最大的特征值所对应的特征向量;为去噪后的结果;
32、可选的,所述s2步骤中基于多维cnn构建关键帧识别网络,对去噪后的训练数据进行关键帧识别,包括:
33、s21:构建关键帧识别网络的输入数据:
34、i=[ik-c,...,ik-1,ik,ik+1,...,ik+c]
35、其中,ik为去噪后的训练数据i的第k帧;c为邻域帧覆盖范围;
36、s22:构建关键帧识别网络中的多维卷积层计算方式:
37、
38、其中,表示多维卷积层中第u层中像素位置为(x,y,z)处的计算结果;表示多维卷积层中第u层中卷积核在横坐标、纵坐标和通道维的序号为(p,q,r)处的权重;pu,qu和ru分别代表多维卷积层中第u层卷积核的长、宽以及通道总数目;bu为中第u层中多维卷积核的偏置;
39、输入数据经过多维卷积层计算后输出ik为关键帧的概率;
40、s23:设定关键帧识别网络的损失函数:
41、
42、其中,为判断函数,当待识别的当前帧为关键帧时为1,否则为0;o为关键帧识别网络识别当前帧为关键帧的概率;
43、关键帧识别网络根据其设定的损失函数训练完成后,输出的结果若大于0.5,则当前帧为关键帧;
44、可选的,所述s3步骤中基于cnn构建内容和风格分类网络,对关键帧进行内容和风格的分类,包括:
45、基于s2获得的关键帧,进一步将其送入基于cnn构建的内容和风格分类网络,对关键帧进行内容和风格的分类:
46、s31:计算卷积层的输出:
47、
48、其中,表示卷积层中第u′层中像素位置为(x′,y′)处的计算结果;表示卷积层中第u′层中卷积核在横坐标和纵坐标的序号为(p′,q′)处的权重;p′u和q′u分别代表卷积层中第u′层卷积核的长和宽;为中第u′层中卷积核的偏置;
49、s32:构建内容和风格分类网络的损失函数:
50、内容和风格分类网络的损失函数由内容判断损失和风格判断损失构成:
51、
52、
53、其中,为内容判断损失;x为短视频内容种数;a=1,2,...,x;a′=1,2,...,x;为判断函数,当时为1,否则为0,表示输入内容和风格分类网络的关键帧真实的内容类别序号;为内容和风格分类网络判断输入网络的关键帧属于序号为a的内容类别的概率;为风格判断损失;y为短视频风格种数;g=1,2,...,y;g′=1,2,...,y;为判断函数,当时为1,否则为0,表示输入内容和风格分类网络的关键帧真实的风格类别序号;为内容和风格分类网络判断输入网络的关键帧属于序号g的风格类别的概率;
54、整合内容判断损失和风格判断损失获得内容和风格分类网络的损失函数:
55、
56、内容和风格分类网络根据其设定的损失函数训练完成后,选取输出概率最大的内容类别和风格类别作为该关键帧的内容和风格;
57、可选的,所述s4步骤中根据短视频设定的内容和风格,对识别出符合要求的关键帧进行排序,包括:
58、根据短视频设定的内容和风格,寻找具备相同内容和风格的关键帧并进行排序,所述排序流程为:
59、s41:提取关键帧的全局特征:
60、关键帧的局部特征分为统计特征与纹理特征,统计特征的计算方式为:
61、
62、其中,表示待排序的关键帧,m和n分别为其长和宽;m=1,2,...,m,n=1,2,...,n;μ,σ和分别为的均值、标准差和三阶矩;
63、纹理特征由灰度共生矩阵表示,灰度共生矩阵的计算方法为:
64、
65、其中,为以像素值为的像素为起点,在方向上距离为的像素值为的灰度共生矩阵相应位置的值;
66、s42:提取关键帧的局部特征:
67、图像的局部特征由图像金字塔表示,图像金字塔的计算方式为:
68、
69、
70、其中,γ为金字塔尺度;e为自然常数,π为圆周率;
71、s43:匹配度计算与排序:
72、根据s41和s42提取出的全局特征与局部特征,计算关键帧全局特征与局部特征与设定的内容和风格的短视频库中的视频帧的欧式距离,得到的欧式距离越短,则关键帧排序越靠前;
73、可选的,所述s5步骤中依据关键帧的排序进行帧间衔接完成短视频制作,包括:
74、基于时域变换方法实现关键帧之间的衔接与过渡,所述时域变换方法为:
75、
76、其中,和为需要衔接的关键帧;η为短视频的时间点;
77、f(η)为时域平滑函数,表达式为:
78、f(η)=η2(1-η)2
79、根据s4获得的关键帧的排序对所有关键帧衔接,获得制作完成的短视频。
80、本发明还提供了一种基于cnn算法的短视频智能制作方法,包括:
81、数据采集及去噪模块:收集不同类别的短视频作为训练数据,并对数据进行去噪;
82、关键帧识别模块:基于多维cnn构建关键帧识别网络,对去噪后的训练数据进行关键帧识别;
83、关键帧内容和风格分类模块:基于cnn构建内容和风格分类网络,对关键帧进行内容和风格的分类;
84、关键帧排序模块:根据短视频设定的内容和风格,对识别出符合要求的关键帧进行排序;
85、短视频制作模块:依据关键帧的排序进行帧间衔接完成短视频制作。
86、有益效果:
87、本发明利用基于cnn算法的智能制作方法,将繁琐的手动操作转变为自动化的流程,减少了用户的工作量和时间成本。用户只需要提供原始素材,即可快速生成高质量的短视频作品。
88、通过智能关键帧识别、内容和风格分类,以及智能排序和衔接等技术,本发明能够生成具有专业水准的短视频作品。用户无需具备专业的剪辑和特效处理技能,即可获得令人满意的制作结果。
89、本发明的方法允许用户根据自身需求和创意,设定短视频的内容和风格要求。智能制作方法会根据用户的设定,从大量的素材中选取最适合的关键帧进行衔接和制作,从而满足用户个性化的需求。
90、通过本发明的智能制作方法,用户能够快速制作出高质量的短视频,从而提升了用户的制作体验和满意度。用户无需经过繁琐的编辑步骤,即可享受到智能制作带来的便利和快捷。
91、本发明的基于cnn算法的智能制作方法具有广泛的应用前景,可以推动短视频制作领域的发展和创新。通过自动化和智能化的制作流程,本发明为用户提供了更多创作空间和可能性,促进了短视频应用的多样化和个性化。