网络课程视频剪辑方法、系统、设备及存储介质与流程

文档序号：17926323发布日期：2019-06-15 00:26阅读：322来源：国知局

本发明涉及视频处理技术领域，尤其涉及一种用于提取网络课程视频中精彩片段的网络课程视频剪辑方法、系统、设备及存储介质。

背景技术：

现今通过网络联网进入虚拟教室学习的技术已经十分成熟，各种课程中的历程可以记录成不同的资料形态，而要把课程中的历程记录下来最简单的方式就是储存成课程视频。随着现在网络信息越来越普及，将自己上课的片段通过网络分享出去是一种常见的推广宣传手段。在实践中，一堂10～60分钟的课程中，如何快速地将精彩片段撷取出来就成为重要且常用的功能。

现有技术中，精彩片段撷取的主要方式是通过使用者自己观看并挑选片段，利用视频编辑软件或者是课程系统本身提供的功能来产出包括挑选的精彩片段的视频，另一种方式则是直接提取课程中被老师或学生通过记录标签的方式标示出的精彩片段。

然而上述两种方式均需要人工对视频片段进行标记或挑选，十分耗时耗力。由于在现今网络课程越来越普及的情况下，网络课程视频的数量十分庞大，单纯依靠人工处理的方式剪辑视频，已经无法满足当下的需求。此外，人工的标记或挑选具有很高的主观性和个体差异性，无法实现客观精准的精彩视频剪辑。

技术实现要素：

针对现有技术中的问题，本发明的目的在于提供一种网络课程视频剪辑方法、系统、设备及存储介质，自动对网络课程视频进行评分和根据评分进行视频剪辑，更快速和精准地提取网络课程视频中的精彩片段。

本发明实施例提供一种网络课程视频剪辑方法，所述方法包括如下步骤：

s100：对待剪辑的网络课程视频进行分段，得到多个视频子段落；

s200：根据各个所述视频子段落的内容信息对各个所述视频子段落进行评分；

s300：根据各个所述视频子段落的评分选择提取的视频子段落，生成包括被提取的视频子段落的剪辑视频。

可选地，所述步骤s100中，所述对待剪辑的网络课程视频进行分段，包括如下步骤：

s110：对所述网络课程视频进行分段，得到多个视频段落；

s120：对各个所述视频段落进行分段，得到多个视频子段落。

可选地，所述步骤s100中，对所述网络课程视频进行语音端点识别，根据识别到的语音端点对所述网络课程视频分段，得到多个视频段落。

可选地，所述步骤s110和步骤s120之间，还包括如下步骤：

分析所述视频段落的音频频率，对于超出预设人声频率范围外的音频进行剔除；

分析所述视频段落的音频分贝值，对于超过预设最大分贝值的音频进行剔除。

可选地，所述步骤s120中，对各个所述视频段落进行分段，包括如下步骤：

分析所述视频段落的音频音波，对于时间间隔低于第一预设值的音波，并入同一个视频子段落。

可选地，所述步骤s120中，对各个所述视频段落进行分段后，还包括剔除时间长度小于第二预设值的视频子段落。

可选地，所述步骤s200中，所述对各个所述视频子段落进行评分，包括如下步骤：

s210：设定各个所述视频子段落的初始评分；

s220：根据各个所述视频子段落的语音主题、人脸位置、肢体主题和表情主题中的至少一种对各个所述视频子段落进行评分。

可选地，所述步骤s220中，根据各个所述视频子段落的语音主题对各个所述视频子段落进行评分，包括如下步骤：

识别所述视频子段落的语音，得到对应的文字，并对所述文字进行分词；

判断所述视频子段落中是否存在重复且连续的词，如果存在重复且连续的词，且该词连续重复次数超过预设次数阈值，则剔除所述视频子段落；

判断所述视频子段落中是否存在重复但不连续的词，如果存在，则判断该重复且不连续的词是否匹配预设教材标签，如果该重复且不连续的词匹配到一预设教材标签，则将该匹配的预设教材标签设定为所述视频子段落的语音主题；

对于设定有语音主题的视频子段落进行加分，和/或对于未设定有语音主题的视频子段落进行减分。

可选地，所述步骤s220中，根据各个所述视频子段落的人脸位置对各个所述视频子段落进行评分，包括如下步骤：

对所述视频子段落的画面进行人脸识别，确定画面中人脸位置范围；

计算人脸长度相比于画面长度的第一比例或人脸宽度相比于画面宽度的第二比例，如果所述第一比例值或第二比例值位于预设比例范围内，则确定所述视频子段落中人脸远近适中，否则确定所述视频子段落中人脸远近非适中；

对于人脸远近适中的视频子段落进行加分，和/或对于人脸远近非适中的视频子段落进行减分；

计算人脸位置范围的每侧边缘与画面的同侧边缘的距离，如果每侧边缘与画面的同侧边缘的距离均大于预设距离值，则确定所述视频子段落中人脸置中，否则，确定所述视频子段落中人脸非置中；

对于人脸置中的视频子段落进行加分，和/或对于人脸非置中的视频子段落进行减分。

可选地，所述根据各个所述视频子段落的肢体主题对各个所述视频子段落进行评分，包括如下步骤：

对所述视频子段落的各帧画面进行肢体特征点识别，识别到各帧画面中预设的肢体特征点的位置；

识别在不同画面中各个肢体特征点位置的变化，根据预设的肢体主题的肢体变化条件，确定所述视频子段落的肢体主题，所述肢体主题包括正向肢体主题和负向肢体主题；

对于正向肢体主题的视频子段落进行加分，和/或对于负向肢体主题的视频子段落进行减分。

可选地，所述根据各个所述视频子段落的表情主题对各个所述视频子段落进行评分，包括如下步骤：

对所述视频子段落的画面进行人脸识别，识别到画面中的人脸区域；

对所述人脸区域进行脸部特征点识别，识别到预设的脸部特征点的位置；

根据预设的表情主题的脸部特征点位置特征，确定所述视频子段落的表情主题，所述表情主题包括正向表情主题和负向表情主题；

对于正向表情主题的视频子段落进行加分，和/或对于负向表情主题的视频子段落进行减分。

可选地，所述步骤s300包括如下步骤：

s310：在每一个视频段落中抽取至少一个评分最高的视频子段落，作为备选视频子段落；

s320：从所述备选视频子段落中选择最终提取的视频子段落；

s330：根据提取的视频子段落的时间顺序合并提取的视频子段落，得到剪辑视频。

可选地，所述步骤s320，包括如下步骤：

确定剪辑视频的时长要求范围，所述时长要求范围包括时长上限值和时长下限值；

对所述备选视频子段落的评分进行排序，依次选择评分最高的备选视频子段落进行提取，直到提取的视频子段落的时间长度落入所述时长要求范围内。

可选地，所述步骤s300包括如下步骤：

确定剪辑视频的时长要求范围，所述时长要求范围包括时长上限值和时长下限值；

对各个所述视频子段落的评分进行排序，依次选择评分最高的视频子段落进行提取，直到提取的视频子段落的时间长度落入所述时长要求范围内；

根据提取的视频子段落的时间顺序合并提取的视频子段落，得到剪辑视频。

可选地，所述时长要求范围中的时长上限值和时长下限值的差值大于预设间隔阈值。

本发明实施例还提供一种网络课程视频剪辑系统，应用于所述的网络课程视频剪辑方法，所述系统包括：

视频分段模块，用于对待剪辑的网络课程视频进行分段，得到多个视频子段落；

段落评分模块，用于根据各个所述视频子段落的内容信息对各个所述视频子段落进行评分；

视频剪辑模块，用于根据各个所述视频子段落的评分选择被提取的视频子段落，生成包括被提取的视频子段落的剪辑视频。

本发明实施例还提供一种网络课程视频剪辑设备，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行所述的网络课程视频剪辑方法的步骤。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现所述的网络课程视频剪辑方法的步骤。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

本发明所提供的网络课程视频剪辑方法、系统、设备及存储介质具有下列优点：

本发明解决了现有技术中的问题，自动对网络课程视频进行评分，并自动根据评分进行视频剪辑，从而实现了更快速和精准地提取网络课程视频中的精彩片段，由于本发明提高了精彩视频剪辑的效率，更加适应于现今大体量的网络课程视频的剪辑工作，可以快速产出包括精彩片段的剪辑视频用于推广宣传工作。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明一实施例的网络课程视频剪辑方法的流程图；

图2是本发明一实施例中对待剪辑的网络课程视频进行分段的流程图；

图3是本发明一实施例中对一网络课程视频进行分段后的时间轴示意图；

图4是本发明一实施例中确定人脸远近是否适中的示意图；

图5是本发明一实施例的确定人脸是否置中的示意图；

图6是本发明一实施例的确定正向肢体主题的示意图；

图7和图8是本发明一实施例的确定负向肢体主题的示意图；

图9是本发明一实施例的确定正向表情主题的示意图；

图10是本发明一实施例的确定一般表情主题的示意图；

图11是本发明一实施例的确定负向表情主题的示意图；

图12是本发明一实施例的选择提取的视频子段落的流程图；

图13是本发明一实施例的网络课程视频剪辑系统的结构示意图；

图14是本发明一实施例的网络课程视频剪辑设备的示意图；

图15是本发明一实施例的网络课程视频剪辑设备与其他设备组合的示意图；

图16是本发明一实施例的计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

如图1所示，为了解决上述技术问题，本发明实施例提供一种网络课程视频剪辑方法，所述方法包括如下步骤：

s100：对待剪辑的网络课程视频进行分段，得到多个视频子段落；

s200：根据各个所述视频子段落的内容信息对各个所述视频子段落进行评分；

s300：根据各个所述视频子段落的评分选择提取的视频子段落，生成包括被提取的视频子段落的剪辑视频。

本发明通过步骤s100对网络课程视频进行分段，通过步骤s200对视频子段落进行评分，并通过步骤s300提取被选择的视频子段落，从而实现了自动对网络课程视频进行评分，并自动根据评分进行视频剪辑，进而实现了更快速和精准地提取网络课程视频中的精彩片段，不仅提高了网络课程视频剪辑的效率，并且剪辑得到的视频可以更加满足用户的需求。

如图2所示，在该实施例中，所述步骤s100中，所述对待剪辑的网络课程视频进行分段，包括如下步骤：

s110：对所述网络课程视频进行分段，得到多个视频段落；

s120：对各个所述视频段落进行分段，得到多个视频子段落。

在该实施例中，所述步骤s100中，采用语音端点检测技术(voiceactivitydetection，vad)对所述网络课程视频进行语音端点识别，根据识别到的语音端点对所述网络课程视频分段，得到多个视频段落。语音端点检测可以通过对语音端点的检测实现在不切断完整语音段落的前提下进行视频分段，即保证每一个视频段落中语音段落是完整的。

在该实施例中，所述步骤s110和步骤s120之间，还包括如下步骤：

s111：分析所述视频段落的音频频率，对于超出预设人声频率范围外的音频部分进行剔除；此步骤是根据音频频率筛选掉一些环境杂音很大的音频，从而减弱环境噪音的影响，例如，设定过滤掉500hz到2000hz意外的声音，以去除非人声的频率，此预设人声频率范围可以根据需要自行设定。

s112：分析所述视频段落的音频分贝值，对于超过预设最大分贝值的音频部分进行剔除。此处，通过音频分贝值将一些音量过大的音频滤除，以去除掉不适合展示的部分。例如，过滤掉90分贝以上的音频部分。此预设最大分贝值的数值可以根据需要自行设定，例如80分贝、100分贝等等。

在该实施例中，所述步骤s120中，对各个所述视频段落进行分段，包括如下步骤：

s121：分析所述视频段落的音频音波，对于时间间隔低于第一预设值的音波，并入同一个视频子段落。音波是声音的传播形式，即由声源发出的振动在空气或其他物质中的传播形式。通过音波检测，将相隔很近的音波并入同一个视频子段落，是为了避免在分割视频子段落时，进行了非正常的断句。

此处，对于时间间隔低于第一预设值的音波，并入同一个视频子段落指的是前后相隔时间小于第一预设值的两个音波，属于同一个视频子段落。在划分时，可以从第一个音波依次向后判断，判断每个音波与前一个音波之间的时间间隔是否小于第一预设值，如果是，则该音波并入前一个音波所属的视频子段落，如果不是，则该音波重新划分为一个新的视频子段落。此第一预设值可以根据需要设置为一个比较小的数值，例如3s、4s等等。

如图3所示，为本发明一实施例的对一网络课程视频进行分段后的时间轴示意图，此处仅截取了前90s的时间以作示例。其中，先根据语音端点检测将视频分为视频段落b1和视频段落b2，然后再通过音波检测的方法，将视频段落b1分为视频子段落a1、视频子段落a2、视频子段落a3和视频子段落a4，将视频段落b2分为视频子段落a5、视频子段落a6、视频子段落a7和视频子段落a8。

在该实施例中，所述步骤s120中，对各个所述视频段落进行分段后，还包括s122：剔除时间长度小于第二预设值的视频子段落。此目的在于剔除一些时间较短的视频子段落，例如将第二预设值设置为6s、7s等。

在图3的示例中，视频子段落a2只有5s，如果第二预设值设置为6s，则需要剔除视频子段落a2，即视频段落b1只留下了视频子段落a1、视频子段落a3和视频子段落a4。

在该实施例中，所述步骤s200中，所述对各个所述视频子段落进行评分，包括如下步骤：

s210：设定各个所述视频子段落的初始评分，即作为各个视频子段落的基准分，后续通过多个因素结合在该基准分的基础上进行增加或减少；

s220：根据各个所述视频子段落的语音主题、人脸位置、肢体主题和表情主题中的至少一种对各个所述视频子段落进行评分。

语音主题、人脸位置、肢体主题和表情主题可以作为各种不同的因素来影响视频子段落的评分，多种因素可以相互结合，例如同时考虑语音主题、人脸主题、肢体主题和表情主题，来实现最精准的视频评分机制，在其他可替代的实施方式中，为了节省视频处理时间，减小视频处理负担，也可以减少一个或多个因素，只选择其中的一个或几个因素来进行视频评分，从而兼顾效率和评分准确性。

在该实施例中，所述步骤s220中，根据各个所述视频子段落的语音主题对各个所述视频子段落进行评分，包括如下步骤：

识别所述视频子段落的语音，得到对应的文字，并对所述文字进行分词；语音识别和文字分词的方法可以采用自然语言处理(naturallanguageprocessing)的方法来进行，也可以采用其他现有的一些现有的软件技术进行语言识别，例如，采用bi-lstm-crf模型或深度学习模型等；

判断所述视频子段落中是否存在重复且连续的词，如果存在重复且连续的词，且该词连续重复次数超过预设次数阈值，则说明此视频子段落中存在大量冗余重复的内容，则剔除所述视频子段落；

此处判断该重复且不连续的词是否匹配预设教材标签指的是判断该重复且不连续的词是否与一个预设教材标签相一致，或者与一个预设教材标签时同意词，例如在一个视频子段落中重复出现color(知识)，且一个预设教材标签是color(知识)，则将color(知识)设定为所述视频子段落的语音主题，即表明该视频子段落主要讲解颜色相关的英文知识。通过自动语音识别，可以自动对视频子段落进行分类打标。

在对视频子段落进行语音分析完成后，对于设定有语音主题的视频子段落进行加分，可以同时对于未设定有语音主题的视频子段落进行减分，也可以只是单独对于设定有语音主题的视频子段落进行加分，或者只是单独对于未设定有语音主题的视频子段落进行减分。这样可以实现根据视频子段落与教材的契合程度选择契合度高的视频子段落。加分和减分的分值权值可以根据需要进行设定，例如选择对设定有语音主题的视频子段落加1分，或加3分等等，具体权值可以考虑语音主题与其他因素(如肢体主题、表情主题、人脸位置等)的重要程度关系来进行设定，如果优先考虑语音主题，则可以将语音主题加减分的权重值加大，如果优先考虑肢体主题、表情主题等，则可以将语音主题加减分的权重值减小。

在该实施例中，所述步骤s220中，根据各个所述视频子段落的人脸位置对各个所述视频子段落进行评分，包括s221根据视频子段落中人脸位置的远近进行评分和s222根据人脸位置是否置中进行评分，具体地，s221根据人脸位置的远近进行评分包括如下步骤：

对所述视频子段落的画面进行人脸识别，确定画面中人脸位置范围；人脸识别的方法可以采用现有技术中的人脸识别技术，例如利用开源的opencv作为抓取脸部各个特征点的工具，并在使用前提供大量的设定好特征点标记的人脸图像进行训练，提高特征点抓取的准确度，在抓取到各个特征点(例如眼睛、鼻子、嘴巴、左侧鬓角、右侧鬓角等)的位置之后，可以确定人脸区域的范围；

可以单独对于人脸远近适中的视频子段落进行加分，或者单独对于人脸远近非适中的视频子段落进行减分，或者同时对于人脸远近适中的视频子段落进行加分，并且对于人脸远近非适中的视频子段落进行减分。同样地，根据人脸远近是否适中加减分的权重也可以根据需要进行设定。

如图4所示，在该实施例中，确定的人脸区域范围即为宽度为w2，高度为h2的椭圆部分，整个视频画面的宽度为w1，高度为h1。可以根据宽度比w2/w1的值来判断视频中人脸的远近，也可以通过高度h2/h1的值来判断视频中人脸的远近，例如设定预设比例范围是40％～70％，如果学员的脸部宽度比w2/w1只有10％，则说明人脸太远，如果学员的脸部宽度比w2/w1达到90％，则说明人脸太近，都不是合适的位置。

步骤s222根据人脸位置是否置中进行评分包括如下步骤：

计算人脸位置范围的每侧边缘与画面的同侧边缘的距离，如果每侧边缘与画面的同侧边缘的距离均大于预设距离值，则确定所述视频子段落中人脸置中，否则，确定所述视频子段落中人脸非置中；即在人脸置中时，人脸位置范围与画面的每侧边缘都有一定的距离，而不至于向一侧偏离过多；

可以单独对于人脸置中的视频子段落进行加分，或者单独对于人脸非置中的视频子段落进行减分，也可以同时对于人脸置中的视频子段落进行加分，并且对于人脸非置中的视频子段落进行减分。同样地，根据人脸位置是否置中加减分的权重也可以根据需要进行设定。

如图5所示，此处给出了一个人脸非置中的示例。其中，人脸区域的左侧边缘与画面的左侧边缘的距离为d1，人脸区域的右侧边缘与画面的右侧边缘的距离为d2，人脸区域的上侧边缘与画面的上侧边缘的距离为d3，人脸区域的下侧边缘与画面的下侧边缘的距离为d4。从图5中可以看出，d2、d4的值过小，学员的人脸没有置中，则这种画面的视频子段落的分数会较低。此处，预设距离值可以设定为画面的高度或宽度的((100％-长宽比平均值)*k)％，k值为小于1的系数，可以选择为0.3、0.4等等。

在该实施例中，所述根据各个所述视频子段落的肢体主题对各个所述视频子段落进行评分，包括如下步骤：

对所述视频子段落的各帧画面进行肢体特征点识别，识别到各帧画面中预设的肢体特征点的位置；

识别在不同画面中各个肢体特征点位置的变化，根据预设的肢体主题的肢体变化条件，确定所述视频子段落的肢体主题，所述肢体主题包括正向肢体主题和负向肢体主题；例如，正向肢体主题可以包括高举双手、高举单手、正常速度移动等，负向肢体主题可以包括肢体主干歪斜、肢体主干异常晃动等等；高举双手、高举单手、肢体主干歪斜等可以通过识别主要肢体特征点位置(例如肩部、手肘等)来进行识别，而正常速度移动、异常晃动等可以通过特定肢体特征点的移动速度来进行识别；

可以单独对于正向肢体主题的视频子段落进行加分，也可以单独对于负向肢体主题的视频子段落进行减分，也可以同时对于正向肢体主题的视频子段落进行加分，并且对于负向肢体主题的视频子段落进行减分。同样地，根据肢体主题的有无加减分的权重也可以根据需要进行设定，此外，不同的正向肢体主题也可以设定不同的权重，例如高举双手权重最高、高举单手权重次之等。

如图6～8分别示出了三种肢体主题，其中图6示出的是高举单手的肢体主题，图7示出的是主干歪斜的肢体主题，图8示出的是异常晃动的肢体主题。在该实施例中，通过opencv抓取肢体特征点，在使用opencv模型之前，可以采用多个标记好肢体特征点的人体图片作为训练集进行训练，从而提高肢体特征点识别的准确度。此处，抓取的特征点包括两个肩部特征点c1、c2、两个手肘特征点c3和c4以及手部特征点c5，通过各个特征点的位置可以确定学员当前状态是高举单手。图7中可以通过两个肩部特征点c1、c2的连线与基准线的比较，确定主干严重歪斜，确定为负向主题。在图8中，则可以通过肩部特征点c1在两帧画面之间的位置变化来确定肢体移动速度，其中，在t1时刻，肩部特征点处于c1位置，在t2时刻，肩部特征点处于c1’位置，即学员的身体突然从严重歪斜的实线状态移动到坐正的虚线状态，如果肩部特征点的位置变化速度大于预设速度限值，则确定为异常晃动主题，即为负向主题。

在该实施例中，所述根据各个所述视频子段落的表情主题对各个所述视频子段落进行评分，包括如下步骤：

对所述视频子段落的画面进行人脸识别，识别到画面中的人脸区域；

对所述人脸区域进行脸部特征点识别，识别到预设的脸部特征点的位置，脸部表情的辨识可以采用facs(facialactioncodingsystem，面部行为编码系统)的概念，采用opencv进行脸部特征点的辨识和表情的区分；

根据预设的表情主题的脸部特征点位置特征，确定所述视频子段落的表情主题，所述表情主题包括正向表情主题和负向表情主题；

可以单独对于正向表情主题的视频子段落进行加分，也可以单独对于负向表情主题的视频子段落进行减分，也可以同时对于正向表情主题的视频子段落进行加分，并且对于负向表情主题的视频子段落进行减分。同样地，根据表情主题的有无加减分的权重也可以根据需要进行设定。

如图9～11示出了该实施例中三种不同表情主题的示意图。其中图9中示出的是正向表情主题，图10中示出的是一般表情主题，图11示出的是负向表情主题。该实施例中，选择两个眼角e1、e3、眼睛最高位置e2、e4、嘴角e5、e7和嘴部中间位置e6来作为脸部表情识别的特征点。如图9所示，其中，e2和e1之间的距离大于预设距离值，表明学员眼睛是睁开的，并且e6相对比e5和e7向下，说明学员是情绪比较好的状态，此时评价为正向表情主题，在图10中，e6相比于e5和e7基本上平齐，说明学员状态一般，而在图11中，通过各个特征点可以判定出学员嘴角向下，并且眼睛基本上闭起来了，则评价为负向表情主题。

所述步骤s300中剪辑视频包括如下步骤：

确定剪辑视频的时长要求范围，所述时长要求范围包括时长上限值和时长下限值；

对各个所述视频子段落的评分进行排序，依次选择评分最高的视频子段落进行提取，直到提取的视频子段落的时间长度落入所述时长要求范围内；

根据提取的视频子段落的时间顺序合并提取的视频子段落，得到剪辑视频。

如图12所示，具体地，在该实施例中，在将视频首先分割为视频段落，再分割为视频子段落的基础上，所述步骤s300包括如下步骤：

s310：在每一个视频段落中抽取至少一个评分最高的视频子段落，作为备选视频子段落；

s320：从所述备选视频子段落中选择最终提取的视频子段落；

s330：根据提取的视频子段落的时间顺序合并提取的视频子段落，得到剪辑视频。

在该实施例中，所述步骤s320，包括如下步骤：

s321：确定剪辑视频的时长要求范围，所述时长要求范围包括时长上限值和时长下限值；

s322：对所述备选视频子段落的评分进行排序，依次选择评分最高的备选视频子段落进行提取，直到提取的视频子段落的时间长度落入所述时长要求范围内。

在该实施例中，所述时长要求范围中的时长上限值和时长下限值的差值大于预设间隔阈值。一般时长要求范围的时长下限值大于30s(此数值可以根据需要选择)，以剪辑得到一段较为完整和观赏性较高的精彩视频。并且时长上限值和时长下限值之间的差值大于15s(此数值可以根据需要调整)，例如设定时长要求范围为45s～60s，即最终剪辑得到的视频的时长在45s～60s范围内中的任意一个数值均可以。这是因为，在视频处理过程中，单个视频子段落的长度可能在十几秒左右，如果时长上限值和时长下限值之间的差值很小，例如，设定时长要求范围为50s～55s，则选择了三个视频子段落之后，提取的视频子段落的总长度已经达到了48s，此时如果再增加一个视频子段落，只要视频子段落大于7s，就会超出时长要求范围，而48s尚未达到时长要求范围内。

综上所述，本发明的网络课程视频剪辑方法通过多种因素(语音主题、人脸远近、人脸是否置中、肢体主题和表情主题等)的组合和加权计算，得到每个视频子段落的评分，并且根据评分从每个视频段落中选择评分最高的视频子段落，剪辑得到精彩视频，实现视频剪辑处理的自动化，更加适应于现今大体量的网络课程视频的剪辑工作，可以快速产出包括精彩片段的剪辑视频用于推广宣传工作。

如图13所示，本发明实施例还提供一种网络课程视频剪辑系统，应用于所述的网络课程视频剪辑方法，所述系统包括：

视频分段模块m100，用于对待剪辑的网络课程视频进行分段，得到多个视频子段落；

段落评分模块m200，用于根据各个所述视频子段落的内容信息对各个所述视频子段落进行评分；

视频剪辑模块m300，用于根据各个所述视频子段落的评分选择被提取的视频子段落，生成包括被提取的视频子段落的剪辑视频。

本发明通过视频分段模块m100对网络课程视频进行分段，通过段落评分模块m200对视频子段落进行评分，并通过视频剪辑模块m300提取被选择的视频子段落，从而实现了自动对网络课程视频进行评分，并自动根据评分进行视频剪辑，进而实现了更快速和精准地提取网络课程视频中的精彩片段，不仅提高了网络课程视频剪辑的效率，并且剪辑得到的视频可以更加满足用户的需求。

本发明的网络课程视频剪辑系统的具体实施方式与上述网络课程视频剪辑方法的实施方式对应。即视频分段模块m100的功能实现方式可以采用上述步骤s100的具体实施方式，段落评分模块m200的功能实现方式可以采用上述步骤s200的具体实施方式，视频剪辑模块m300的功能实现方式可以采用上述步骤s300的具体实施方式。在此不再赘述。

本发明实施例还提供一种网络课程视频剪辑设备，包括处理器；存储器，其中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行所述的网络课程视频剪辑方法的步骤。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

下面参照图14来描述根据本发明的这种实施方式的电子设备600。图14显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图14所示，电子设备600以通用计算设备的形式表现。电子设备600的组合可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组合(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的步骤。

所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(rom)6203。

所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储平台等。

如图15所示，在将本发明的网络课程视频剪辑设备与网络课程的其他设备进行组合时，串流来源即为在线课程学员及老师的视频/音频来源设备，通过即时串流服务将各自的影音传动到各个终端(学生终端和老师终端)，最后将串流形成的视频文件存储到串流存储器。网络课程视频剪辑设备从串流存储器中取得原始视频后，采用如图1中的步骤剪辑得到精彩视频，在精彩视频存储空间中将精彩视频放在对外的精彩视频存储器中以供用户下载使用，将视频的资料与链接放在资料库中存储，以供各个设备使用。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现所述的网络课程视频剪辑方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

参考图16所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述，与现有技术相比，本发明所提供的网络课程视频剪辑方法、系统、设备及存储介质具有下列优点：

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨正大
技术所有人：威比网络科技（上海）有限公司
我是此专利的发明人

上一篇：一种西尼地平软胶囊及其制备方法与流程
上一篇：一种便于安装使用的高效太阳能蓄热器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。