一种课件类视频的课件提取方法和装置

文档序号:32404819发布日期:2022-12-02 20:13阅读:139来源:国知局
一种课件类视频的课件提取方法和装置

1.本发明涉及机器学习领域和多媒体技术领域,尤其涉及一种课件类视频的课件提取方法和装置。


背景技术:

2.近年来,随着互联网的快速发展,出现了各种各样的学习方式。在线上学习中,以电子课件为授课方式的视频课程非常的普遍;而这种授课方式又分为直播和录播授课,其中录播授课的方式会产出一系列可以重复观看的视频。
3.通常有课件更方便学习者对视频内容学习,例如:学习者可以直接在课件上做笔记学习、利用课件预习和复习。有许多课件类视频,由于老师没有上传课件,或者一些其他来源的课件类视频难以找到课件,其中课件类视频在本发明中的定义为:以课件为授课方式的视频。故本发明提出一种课件类视频的课件提取方法和装置,解决一些课件类视频对应的课件难以获取的问题,从而提高学习者的学习效率和学习效果。


技术实现要素:

4.为解决现有技术中存在的问题,本发明提供了一种课件类视频的课件提取方法和装置,解决一些课件类视频难以获取课件的问题。
5.为实现上述目的,本发明提供如下技术方案:一种课件类视频的课件提取方法,包括如下步骤:
6.对课件类视频,每间隔n个视频帧读取1个视频帧,其中n为正整数的变量或常量;
7.判断读取的视频帧是否为课件帧,其中,所述课件帧是在视频帧对应的图像中存在课件的帧;
8.在所述视频帧为课件帧的条件下,判断所述课件帧是否符合预定条件;
9.根据符合预定条件的课件帧对应的课件帧信息组成的课件帧信息集合,生成为电子课件。
10.进一步的,所述判断所述视频帧是否为课件帧的步骤包括:使用机器学习技术训练好的课件帧判别器进行判断;
11.所述判断视频帧是否符合预定条件的步骤包括:计算所述课件帧与所述课件帧相邻视频帧的相似度,若所述相似度低于预先设定的阈值,则符合预定条件。
12.进一步的,所述生成为电子课件的步骤包括:
13.将符合预定条件的课件帧对应的课件帧信息构成课件帧信息集合;
14.根据所述课件帧信息集合中的课件帧信息,获得所述课件帧信息所包括的课件帧;
15.使用基于python的img2pdf库将所有所述课件帧对应的图片合成为pdf课件。
16.进一步的,所述的课件帧信息集合是由多个所述课件帧对应的所述课件帧信息构成的集合,集合可为空集;
17.所述课件帧信息具体包括课件帧所属视频的相关属性、课件帧自身和课件帧的语义信息,由这些信息之中一个或以上构成的信息,称为课件帧信息。
18.进一步的,所述课件帧所属视频的相关属性包括:帧率、分辨率、视频比特率、音频比特率、视频文件大小和时长;
19.所述课件帧的语义信息为帧对应图像中的文字、物体、物体位置以及图像经过特征提取后得到的语义信息。
20.进一步的,在计算所述课件帧与所述课件帧相邻视频帧的相似度中,所述的计算相似度是计算余弦相似度;
21.所述余弦相似度的计算步骤具体如下:
22.读取需要计算的两个相邻视频帧,获取到视频帧对应的两张图片;
23.将两张图片转成128
×
256分辨率的图片;
24.再将两张图片转成灰度图;
25.将两张图片转换成32768维的向量,设第一张图对应的向量为x,第二张图的对应的向量为y;
26.使用下式计算得到余弦相似度;
[0027][0028]
其中,cos(θ)代表x向量与y向量计算得到的余弦距离,取值范围为区间[0,1];xi代表向量x中的第i个元素的值,yi代表向量y中的第i个元素的值,n取值范围为区间[0,32767]中的所有整数。
[0029]
另外,为实现上述目的,本发明还提供如下技术方案:一种课件类视频课件提取的装置,包括:
[0030]
读取模块,用于对课件类视频,每间隔n个视频帧读取1个视频帧,其中n为正整数的变量或常量;
[0031]
判断课件帧模块,用于判断所述视频帧是否为课件帧;
[0032]
判断模块,用于在所述视频帧为课件帧的条件下,判断所述课件帧是否符合预定条件;
[0033]
课件生成模块,用于根据符合预定条件的课件帧对应的课件帧信息组成的课件帧信息集合,生成为电子课件。
[0034]
进一步的,所述判断课件帧模块判断视频帧是否为课件帧的步骤包括:使用机器学习技术训练好的课件帧判别器进行判断;
[0035]
所述判断模块判断视频帧是否符合预定条件的步骤包括:计算所述课件帧与所述课件帧相邻视频帧的相似度,若所述相似度低于预先设定的阈值,则符合预定条件。
[0036]
进一步的,所述课件生成模块生成课件的步骤包括:
[0037]
构成课件帧信息集合;
[0038]
根据所述课件帧信息集合中的课件帧信息,获得所述课件帧信息所包括的课件帧;
[0039]
使用基于python的img2pdf库将所有所述课件帧对应的图片合成为pdf课件。
[0040]
本发明的有益效果是:通过本发明提供一种课件类视频的课件提取方法和装置,解决一些课件类视频难以获取课件的问题,从而提高学习者的学习效率和学习效果。本发明能够按一定的帧间隔读取视频帧,并确定课件帧,然后根据符合所述预定条件的课件帧对应的课件帧信息组成的课件帧信息集合,将其生成为电子课件,从而方便学习者利用课件对视频进行更为高效的学习。
附图说明
[0041]
图1是本发明实施例1课件类视频的课件提取方法的流程示意图;
[0042]
图2是本发明实施例1和实施例3组合了语义信息和课件帧的一种排版布局示意图;
[0043]
图3是本发明实施例2机器学习教学视频的课件提取方法的流程示意图;
[0044]
图4是本发明实施例3课件类视频的课件提取装置的结构示意图。
具体实施方式
[0045]
需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0046]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚,完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0047]
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“且有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0048]
为了让发明实施例中的技术方案更清楚,进行一些术语在本发明中的说明,具体如下:
[0049]
1)课件帧:视频帧对应的图像中存在课件的帧,该图像中的课件可以不用占满屏幕;
[0050]
2)课件帧信息:所述课件帧所属视频的相关属性、课件帧自身和课件帧的语义信息,由这些信息之中一个或以上构成的信息,称为课件帧信息;其中,视频的相关属性,包括:帧率、分辨率、视频比特率、音频比特率、视频文件大小、时长;此外,课件帧的语义信息为帧对应图像中的文字、物体、物体位置以及图像经过特征提取后得到的语义信息;
[0051]
3)非课件帧:视频帧对应的图像中不存在课件的帧;
[0052]
4)课件帧信息集合:由多个所述课件帧对应的所述课件帧信息构成的集合,且集合可为空集;
[0053]
5)resnet(残差网络):resnet是由来自microsoft research的4位学者提出的卷积神经网络,在2015年的imagenet大规模视觉识别竞赛(imagenet large scale visual recognition challenge,ilsvrc)中获得了图像分类和物体识别的优胜,残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率,其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题;
[0054]
6)resnet-50:神经网络层数为50层的残差网络;
[0055]
7)结构相似度:是一种根据图片的亮度对比、对比度对比、结构对比三个方面来衡量图片相似度的指标,也可用来判断图片压缩后的质量;
[0056]
8)余弦相似度:又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度;
[0057]
9)直方图相似度:每张图片都可以生成其灰度图像直方图,而直方图相似度就是利用两张图片的直方图来衡量的相似度;
[0058]
10)vggnet:vgg模型是2014年ilsvrc竞赛的第二名,从图像中提取cnn特征,vgg模型是首选算法;
[0059]
11)矩阵之间的距离:通常可以使用矩阵的多种范数来衡量,例如矩阵2范数对应的就是欧氏距离;
[0060]
12)向量之间的距离:通常可以使用向量的范数来衡量,或者使用向量之间的余弦值衡量;
[0061]
13)img2pdf库:可以将批量文件转为pdf文件的基于python实现的库;
[0062]
14)opencv:是一个基于apache2.0许可(开源)发行的跨平台计算机视觉和机器学习软件库,可以运行在linux、windows、android和mac os操作系统上,实现了图像处理和计算机视觉方面的很多通用算法;
[0063]
15)adam优化器:是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重;
[0064]
16)bce(binary crossentropy)损失函数:二分类交叉熵损失函数,用来评价模型的预测值和真实值不一样的程度,损失函数表现越好,通常模型的性能越好。
[0065]
实施例1
[0066]
在本实施例中提供了一种课件类视频的课件提取方法,图1是根据本发明实施例的课件类视频的课件提取方法的流程图,如图1所示,该流程图包括如下步骤:
[0067]
步骤s102,对课件类视频,每间隔n个视频帧读取1个视频帧,其中n为正整数的变量或常量;
[0068]
步骤s104,判断读取的视频帧是否为课件帧;
[0069]
步骤s106,在所述视频帧为课件帧的条件下,判断所述课件帧是否符合预定条件;
[0070]
步骤s108,根据符合预定条件的课件帧对应的课件帧信息组成的课件帧信息集合,生成为电子课件;
[0071]
可见,在本发明实施例提出的一种课件类视频的课件提取方法,能够按一定的帧间隔读取视频帧,并将符合所述预定条件的课件帧构成的课件帧信息集合,将其生成为电子课件,从而方便学习者利用课件对视频进行更为高效的学习。
[0072]
上述步骤中,步骤s102中的帧间隔可以取25帧,也就是每隔25个视频帧,获取一个
视频帧;当然也可以如步骤中所述取变量,也就是可以第一次间隔25帧,第二次间隔10帧,具体可以按照不同的需求来取。
[0073]
步骤s104判断读取的视频帧是否为课件帧的方式可以有很多种,优选地,可以使用机器学习技术训练好的课件帧判别器进行判断。例如,可以准备大量课件帧作为正样本和非课件帧作为负样本;划分数据集为训练集、验证集和测试集;选择机器学习模型,具体可以为resnet(残差神经网络)模型或者其他可用于分类的机器学习模型;使用样本数据对模型进行训练、验证和测试;最终选择一个表现好的课件帧分类器。或者,也可以人工进行课件帧的特征设计,具体可以为图像的对比度、分布直方图、亮度、物体的位置等特征,然后人为根据经验设定各种特征取值的阈值,大于阈值的就可以认定为课件帧。此外,也可以人工设计特征,基于人工设计的特征使用机器学习技术训练出课件帧判别器。
[0074]
步骤s106判断所述视频帧是否符合预定条件的方式可以有很多种,优选地,可以计算所述课件帧与自己相邻视频帧的相似度,若该相似度低于预先设定的阈值,则符合预定条件。此外,还可以计算所述课件帧于该课件帧相邻视频的相似度,同时计算所述课件帧与上一个符合预定条件的课件帧的相似度,然后取两个相似度的最大值作为最终的相似度,若最终的相似度低于预先设定的阈值,则符合预定条件。
[0075]
上述中的“相似度”可以为余弦相似度、结构性相似度、直方图相似度,此外也可以是使用编码器将视频帧编码为向量或矩阵,再计算向量或矩阵之间的距离作为相似度。上述“编码器”有很多种,例如:基于机器学习技术,选择vggnet模型进行训练,最终得到输入为图像输出为向量或矩阵的基于vggnet的图像编码器。
[0076]
步骤s108中生成为电子课件的方式可以有多种方式,优选地,可以根据课件帧信息集合中的课件帧信息,获得该课件帧信息包括的一种或以上的信息,生成为电子课件,其中,“一种或以上的信息”可以为课件帧;最后,使用基于python的img2pdf库将所有所述课件帧对应的图片合成为pdf课件,从而得到电子课件。
[0077]
除此之外,上述步骤s108中的信息也可以是多种课件帧信息的组合,然后基于这些信息进行排版布局,生成电子课件,例如:使用图像生成文本技术,提取出课件帧对应的图像的文本语义信息,再加上课件帧对应的图像本身,一共两种信息,然后排版布局为将语义信息放入图中的右上角,以此生成电子课件,具体布局效果如图2所示,图2中的10为课件帧对应的图像,图2中的101为展示该课件帧语义信息的位置。并且,生成电子课件的方式也可以采用其他编程语言,或者其他工具,不限于python。此外,最终生成的电子课件,也不限于pdf文件,也可以是微软的ppt、word文件或是普通的txt格式的文件等可以展现课件帧信息的各种文件。
[0078]
实施例2
[0079]
在本实施例中提供一种机器学习教学视频的课件提取方法,如图3所示,该方法包括如下步骤:
[0080]
步骤s202,对机器学习教学视频,每间隔25个视频帧读取1个视频帧;本步骤具体为使用opencv库,每间隔25个视频帧读取1个视频帧;
[0081]
步骤s204,判断读取的视频帧是否为课件帧;本步骤具体为使用机器学习技术中基于resnet模型训练好的课件帧判别器,判断所述帧是否为课件帧。
[0082]
课件帧判别器具体的生成步骤如下:
[0083]
1)准备3000张课件帧对应的图片作为正样本和3000张非课件帧作为负样本;
[0084]
2)将样本数据划分为集为训练集、验证集和测试集,比例设置为6:2:2;
[0085]
3)创建resnet-50分类模型;
[0086]
4)创建adam优化器和bce(binary crossentropy)损失函数;
[0087]
5)读取训练集数据,开始分类模型的训练;
[0088]
6)使用5折交叉验证的方式对结果进行评估,同时调节参数,并且过程中保存训练的模型;
[0089]
7)选择保存的模型中效果最好的分类模型,即得到所述的课件帧判别器。
[0090]
步骤s206,在所述视频帧为课件帧的条件下,判断所述课件帧是否符合预定条件;本步骤具体为:
[0091]
1)计算所述课件帧与自己间隔25帧的视频帧的余弦相似度;
[0092]
2)计算所述课件帧与上一个符合预定条件的课件帧的余弦相似度;
[0093]
3)若上述两个步骤1)和2)中计算的相似度的最大值小于0.7,则符合预定条件;
[0094]
其中,所述的余弦相似度的计算步骤具体如下:
[0095]
1)读取需要计算的两个视频帧,即获取到视频帧对应的两张图片;
[0096]
2)将两张图片转成128
×
256分辨率的图片;
[0097]
3)将两张图片转成灰度图;
[0098]
4)将两张图片转换成32768(即,128
×
256)维的向量,在此实施例中,第一张图对应的向量为x,第二张图的对应的向量为y,且x与y都是32768维的向量;
[0099]
5)使用公式(2-1)计算,即可得到相似度;
[0100][0101]
其中,cos(θ)代表x向量与y向量计算得到的余弦距离,取值范围为区间[0,1],在此实施例中该值等于需要计算的相似度的值;xi代表向量x中的第i个元素的值,yi代表向量y中的第i个元素的值;在此实施例中,n取值范围为区间[0,32767]中的所有整数,需要说明的是,此处n的取值之所以从0开始,是因为大多数编程语言数组的索引编号从0开始,这样更方便编程人员实现。
[0102]
步骤s208,根据符合预定条件的课件帧对应的课件帧信息组成的课件帧信息集合,生成为电子课件;本步骤具体为:
[0103]
1)将符合预定条件的课件帧对应的课件帧信息构成课件帧信息集合,此实施例的课件帧信息具体包括:课件帧;
[0104]
2)根据所述课件帧信息集合中的课件帧信息,获得所述课件帧信息所包括的课件帧;
[0105]
3)使用基于python的img2pdf库将所有所述课件帧对应的图片合成为pdf课件。
[0106]
最终,通过上述的方法对机器学习教学视频进行课件提取,最终得到了该视频的pdf电子课件。
[0107]
实施例3
[0108]
在本实施例中提供了一种课件类视频的课件提取装置30,图4是根据本发明实施例的课件类视频的课件提取装置的示意图,如图4所示,该图包括如下模块:
[0109]
读取模块302,用于对课件类视频,每间隔n个视频帧读取1个视频帧,其中n为正整数的变量或常量;
[0110]
判断课件帧模块304,用于判断所述视频帧是否为课件帧;
[0111]
判断模块306,用于在所述视频帧为课件帧的条件下,判断所述课件帧是否符合预定条件;
[0112]
课件生成模块308,用于根据符合预定条件的课件帧对应的课件帧信息组成的课件帧信息集合,生成为电子课件。
[0113]
上述模块中,模块302中的帧间隔可以取25帧,也就是每隔25个视频帧,获取一个视频帧;当然也可以如此模块中所述取变量,也就是可以第一次间隔25帧,第二次间隔10帧,具体可以按照不同的需求来取。
[0114]
模块304判断所述视频帧是否为课件帧的方式可以有很多种,优选地,可以使用机器学习技术训练好的课件帧判别器进行判断。例如,可以准备大量课件帧作为正样本和非课件帧作为负样本;划分数据集为训练集、验证集和测试集;选择机器学习模型,具体可以为resnet(残差神经网络)模型或者其他可用于分类的机器学习模型;使用样本数据对模型进行训练、验证和测试;最终选择一个表现好的课件帧分类器。或者,也可以人工进行课件帧的特征设计,具体可以为图像的对比度、分布直方图、亮度、物体的位置等特征,然后人为根据经验设定各种特征取值的阈值,大于阈值的就可以认定为课件帧。此外,也可以人工设计特征,基于人工设计的特征使用机器学习技术训练出课件帧判别器。
[0115]
模块306判断视频帧是否符合预定条件的方式可以有很多种,优选地,可以计算所述课件帧与自己相邻视频帧的相似度,若该相似度低于预先设定的阈值,则符合预定条件。此外,还可以计算所述课件帧与自己相邻视频帧的相似度,同时计算所述课件帧与上一个符合预定条件的课件帧的相似度,然后取两个相似度的最大值作为最终的相似度,若最终的相似度低于预先设定的阈值,则符合预定条件。
[0116]
上述中的“相似度”可以为余弦相似度、结构性相似度、直方图相似度,此外也可以是使用编码器将视频帧编码为向量或矩阵,再计算向量或矩阵之间的距离作为相似度。上述“编码器”有很多种,例如:基于机器学习技术,选择vggnet模型进行训练,最终得到输入为图像输出为向量或矩阵的基于vggnet的图像编码器。
[0117]
模块308生成为电子课件的方式可以有多种方式,优选地,可以根据课件帧信息集合中的课件帧信息,获得该课件帧信息包括的一种或以上的信息,生成为电子课件,其中,“一种或以上的信息”可以为课件帧;最后,使用基于python的img2pdf库将所有所述课件帧对应的图片合成为pdf课件,从而得到电子课件。
[0118]
除此之外,上述“一种或以上的信息”也可以是多种课件帧信息的组合,然后基于这些信息进行排版布局,生成电子课件,例如:使用图像生成文本技术,提取出课件帧对应的图像的文本语义信息,再加上课件帧对应的图像本身,一共两种信息,然后排版布局为将语义信息放入图中的右上角,以此生成电子课件,具体布局效果如图2所示,图2中的10为课件帧对应的图像,图2中的101为展示该课件帧语义信息的位置。并且,生成电子课件的方式也可以采用其他编程语言,或者其他工具,不限于python。此外,最终生成的电子课件,也不
限于pdf文件,也可以是微软的ppt、word文件或是普通的txt格式的文件等可以展现课件帧信息的各种文件。
[0119]
本发明中直接对课件类视频进行处理,无需对视频进行切帧处理,而是直接按照一定的帧间隔读取帧,一次读取完毕,即可达到效果,无需进行后续的二次处理,在对视频一次遍历读取的过程中确定的“课件帧”,得到的课件帧就是不重复的了,最终不是获得图片的结构化信息而是直接生成实际可用的电子课件。
[0120]
本发明的课件帧信息不仅包含图片和文本框的信息,还包括:所属视频的帧率、分辨率、视频比特率、音频比特率、视频文件大小、时长,此外还有,图像经过特征提取后得到的语义信息。本发明本身内容就是使用课件教学的视频,然后对视频的视频帧进行信息的提取,并且这些提取得到的信息,不限于文本信息,还有文本和图像的语义信息等信息,然后依此生成课件,生成的课件内容可以更佳的丰富多样。
[0121]
可见,本发明具有如下有益效果:
[0122]
在本发明实施例提出的一种课件类视频的课件提取方法和装置,能够按一定的帧间隔读取视频帧,并确定课件帧,然后根据符合所述预定条件的课件帧对应的课件帧信息组成的课件帧信息集合,将其生成为电子课件,从而方便学习者利用课件对视频进行更为高效的学习。
[0123]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1