视频播放方法、装置、计算机可读存储介质和计算机设备与流程

文档序号:20040248发布日期:2020-02-28 11:49阅读:174来源:国知局
视频播放方法、装置、计算机可读存储介质和计算机设备与流程

本申请涉及计算机技术领域,特别是涉及一种视频播放方法、装置、计算机可读存储介质和计算机设备。



背景技术:

随着互联网技术和视频技术的不断发展,越来越多的用户喜欢在互联网上查找感兴趣的视频进行观赏,在查找视频时,用户通常会按照感兴趣的标签查找视频。例如,用户喜欢美食,将会以美食为标签查找对应的视频。因此,需要标注人员对视频打上相应的标签。

在对视频打标签之前,标注人员通常利用相应的视频客户端播放视频,或者以正常速度播放视频,或者根据实际需求来手动控制视频的播放速度,以便标注人员在看完视频后为该视频打上对应的标签。当视频数量众多、且视频的时长较长时,上述视频播放方式将会耗费大量不必要的播放时间,进而影响到视频的标注效率。



技术实现要素:

基于此,有必要针对在播放视频过程中耗费大量不必要的播放时间的技术问题,提供一种视频播放方法、装置、计算机可读存储介质和计算机设备。

一种视频播放方法,包括:

获取目标视频;

在所述目标视频中确定视频关键片段;

播放所述目标视频;

当播放到所述视频关键片段时,以第一播放速度播放所述视频关键片段;

当播放到所述目标视频中的非关键片段时,以第二播放速度对所述关键视频片段进行播放;所述第二播放速度大于所述第一播放速度。

一种视频播放装置,所述装置包括:

获取模块,用于获取目标视频;

确定模块,用于在所述目标视频中确定视频关键片段;

播放模块,用于播放所述目标视频;

第一调整模块,用于当播放到所述视频关键片段时,以第一播放速度播放所述视频关键片段;

第二调整模块,用于当播放到所述目标视频中的非关键片段时,以第二播放速度对所述关键视频片段进行播放;所述第二播放速度大于所述第一播放速度。

一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述视频播放方法的步骤。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述视频播放方法的步骤。

上述视频播放方法、装置、计算机可读存储介质和计算机设备,在播放目标视频之前,先确定目标视频中所存在的视频关键片段,在播放视频的时候,以大于视频关键片段的播放速度来快速播放非关键片段,因此,即便视频数量众多、且视频的时长较长,也不会在非关键片段上耗费大量不必要的播放时间,可以有效地缩短目标视频的播放时间,有利于提高视频的标注效率。

附图说明

图1为一个实施例中视频播放方法的应用环境图;

图2为一个实施例中视频播放方法的流程示意图;

图3为一个实施例中目标视频中的视频关键片段和非关键片段的示意图;

图4为一个实施例中播放目标视频的示意图;

图5为一个实施例中根据得分值确定视频关键片段的步骤的流程示意图;

图6为一个实施例中vasnet模型结构的示意图;

图7为一个实施例中为目标视频打标签的步骤的流程示意图;

图8为一个实施例中视频播放方法的时序图;

图9为另一个实施例中视频播放方法的流程示意图;

图10为一个实施例中视频播放装置的结构框图;

图11为另一个实施例中视频播放装置的结构框图;

图12为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

图1为一个实施例中视频播放方法的应用环境图。参照图1,该视频播放方法应用于视频播放系统。该视频播放系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端获取目标视频;在目标视频中确定视频关键片段;播放目标视频;当播放到视频关键片段时,以第一播放速度播放视频关键片段;当播放到目标视频中的非关键片段时,以第二播放速度对关键视频片段进行播放;第二播放速度大于第一播放速度。当播放完目标视频时,对该目标视频设置对应的标签,然后将该目标视频上传至服务器120。服务器120将该目标视频推荐给终端130。

其中,终端110和终端130具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示,在一个实施例中,提供了一种视频播放方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2,该视频播放方法具体包括如下步骤:

s202,获取目标视频。

其中,目标视频可以是由一系列帧图像所构成的视频,当解码该目标视频时,可获得一系列连续的帧图像。该目标视频中至少有两个帧图像包含有关键信息,通过该关键信息可以确定该目标视频的主题,如通过观看该关键信息可以确定目标视频所属的风格或类型。目标视频的帧率可以是大于或等于30帧/秒,30帧/秒是表示视频每秒钟包含30张连续的图像。

上述的关键信息具体可以包括美食、体育、风景、探险和娱乐等信息,如通过该关键信息可以确定目标视频属于用户所喜欢的美食、体育、风景、探险和娱乐等中的一种或多种。

此外,上述的关键信息还可以包括关于特定人物或车辆等信息,例如通过该关键信息可以确定目标视频中有特定人物或车辆等,以便对该目标视频中的特定人物或车辆等进行追踪。

在一个实施例中,在接收到视频标注任务时,终端从本地获取目标视频,或者根据网络链接从网络侧的服务器获取目标视频。其中,本地可以指终端本身,也可指与终端直连的服务器。视频标注任务可以是对视频进行标注或分类的任务,例如对目标视频打标签(即视频打标签任务)、或为目标视频编辑视频描述信息(即视频描述信息的撰写任务)、或识别视频中的对象。该对象可以是人物对象,也可以是非人物类型的对象,如汽车。

例如,标注人员在对目标视频进行标注之前,终端可以根据标注人员的选取操作,在视频选取页面上选择对应的目标视频,然后将该目标视频从本地的存储器载入至内存中。或者,终端根据标注人员的点击操作,获取该点击操作对应的网络链接,根据该网络链接从网络侧的服务器处获取目标视频。

在另一个实施例中,终端可以从所连接的视频拍摄设备实时获取目标视频。例如,视频制作者通过持有的视频拍摄设备实时拍摄目标视频,然后通过数据线或者网络传输到终端,标注人员通过终端可以实时获取到视频拍摄设备传输过来的目标视频。又例如,道路或小区中的监控器实时拍摄目标视频,通过铺设的传输线将目标视频传输到终端,标注人员通过终端可以实时获取到监控器传输过来的目标视频。

s204,在目标视频中确定视频关键片段。

其中,视频关键片段是指包含有关键信息的视频片段,可以通过该视频关键片段中所包含的关键信息来确定整个目标视频的主题。此外,目标视频中除了有视频关键片段之外,还包括非关键片段,如图3所示,图中包含有任务的视频片段可以是视频关键片段。

在一个实施例中,终端检测目标视频中各帧图像所包含的关键信息,根据包含该关键信息的帧图像确定视频关键片段。

在一个实施例中,终端对目标视频进行分段,得到多个视频片段,然后检测各视频片段中是否包含有关键信息,若包含,则确定该视频片段为视频关键片段。其中,多个视频片段可以指两个或两个以上视频片段。

具体地,检测各视频片段中是否包含有关键信息的步骤,具体可以包括:终端从各视频片段中按照固定间隔或随机提取帧图像,检测所提取的帧图像中是否包含有关键信息,若包含,则将对应的视频片段确定为视频关键片段。

在一个实施例中,检测是否包含关键信息的步骤,具体可以包括:终端提取帧图像中的图像特征,将该图像特征与预设图像特征进行对比,若相似度达到预设相似度,则确定包含关键信息。或者,终端通过机器学习模型对所提取的图像特征进行打分,获得对应帧图像的得分值,当该得分值达到预设分值条件时,确定该帧图像包含有关键信息。其中,该机器学习模型可以包括但不限于vasnet模型或其它基于视频摘要技术的神经网络模型。

在一个实施例中,当确定出包含有关键信息的视频关键片段时,终端为该视频关键片段设置第一片段标识,以便在播放目标视频时,通过该第一片段标识确定是否播放到视频关键片段。此外,终端还为目标视频中的非关键片段设置第二片段标识,以便在播放目标视频时,通过该第二片段标识确定是否播放到非关键片段。

s206,播放目标视频。

在一个实施例中,终端加载视频标注工具,通过该视频标注工具播放该目标视频。

其中,该视频标注工具可以指客户端,通过该视频标注工具既可以按照正常播放速度播放目标视频,还可以根据实际需求自动快速播放视频;而且,该视频标注工具还可以在检测到关键信息后,自动从标签库中获取标签,为该目标视频打上标签;或者,该视频标注工具也可以按照标注人员的输入操作选择对应的标签,然后为该目标视频打上标签。

此外,该视频标注工具也可以指网页插件,通过该插件可以调用原生播放器播放目标视频,并且根据输入的标注指令为目标视频打标签。

在一个实施例中,终端通过视频标注工具加载原生播放器播放目标视频。其中,原生播放器可以是系统自带的原生播放器或安装的第三方原生播放器。原生播放器也可以称为native播放器,使用系统原生代码生成的播放器。例如,对于安卓系统,原生播放器可以是利用安卓系统原生java代码生成的播放器。

原生播放器播放目标视频可以使目标视频得以进行预加载和缓存,对于播放网络侧的目标视频,播放画面会更加流畅,在网络正常的情况下,不会产生缓冲,极大地增强了用户体验。

在一个实施例中,若视频标注工具为网页插件,当播放目标视频时,终端通过视频标注工具调用webview组件显示与目标视频互动的交互控件,通过该交互控件实现与目标视频之间的交互,例如标注人员在webview的视图层级发出快进、暂停和回放等不同的操作,可以快速播放目标视频、或暂定目标视频、或回放目标视频。此外,通过该视频标注工具,可以无需标注人员手动操作,自动实现对目标视频中的非关键片段进行快速播放。

在一个实施例中,当播放目标视频时,按照第一片段标识和第二片段标识在进度条上以不同的呈现方式标记视频关键片段和非关键片段。其中,进度条通常以长方形条状显示在视频播放页面的下方,可用于表示在播放目标视频时,实时显示目标视频播放的进度、完成度和剩余未播放目标视频的时长。进度条的总长度可表示目标视频的总时长。进度条上的每一段均与目标视频中各视频片段相对应,如进度条上的第3分钟至第6分钟这一段对应于目标视频的3~6分钟这一段视频片段。呈现方式可以是以不同颜色来标记视频关键片段和非关键片段。

如图4所示,进度条上,黑色部分用于表示目标视频的非关键片段,浅灰色部分用于表示目标视频的视频关键片段。

s208,当播放到视频关键片段时,以第一播放速度播放视频关键片段。

其中,播放速度可以指帧率,即以帧称为单位的图像连续出现在显示器上的频率。第一播放速度可以是目标视频的正常播放速度。例如,正常播放目标视频时,每一秒播放的视频帧数为30,那么,第一播放速度即为30帧/秒。又或者,第一播放速度可以稍微大于正常播放速度,如是正常播放速度的n倍,1<n<1.5;也可以稍微小于正常播放速度,如是正常播放速度的m倍,0.8<m<1。

在一个实施例中,终端在播放目标视频时,实时记录当前所播放的位置,并根据所记录的位置判断是否播放到视频关键片段所对应的开始位置,若是,则以第一播放速度播放视频关键片段。例如,如图4所示,当播放到图中箭头指向的视频关键片段时,将以30帧/秒的速度播放视频关键片段。

在一个实施例中,若当前以第二播放速度播放非关键片段、且播放到该非关键片段的末尾位置,而下一刻即将播放视频关键片段,那么,终端可以不立刻从第二播放速度直接降低指第一播放速度,可以在视频关键片段的起始a(1<a<90)帧内逐步降低播放速度,如视频关键片段的第1帧至第30帧逐步降低播放速度,直至降低至第一播放速度。

s210,当播放到目标视频中的非关键片段时,以第二播放速度对关键视频片段进行播放。

其中,第二播放速度大于第一播放速度,例如,第一播放速度大小为v1,则第二播放速度大小即为k×v1,k>1。

在一个实施例中,终端在播放目标视频时,实时记录当前所播放的位置,并根据所记录的位置判断是否播放到非关键片段所对应的开始位置,若是,则以第二播放速度播放视频关键片段。

例如,如图4所示,当播放到图中箭头指向的非关键片段时,若以30帧/秒的速度播放视频关键片段时,那么,在播放到目标视频中的非关键片段时,将以30×k帧/秒的速度播放非关键片段(k>1),从而对非关键片段实现加速播放。

在一个实施例中,若当前以第一播放速度播放视频关键片段、且播放到该视频关键片段的末尾位置,而下一刻即将播放非关键片段,那么,终端可以不立刻从第一播放速度直接升到指第二播放速度,可以在非关键片段的起始a(1<a<90)帧内逐步提升播放速度,如非关键片段的第1帧至第30帧逐步提升播放速度,直至提升至第二播放速度。

在另一个实施例中,当目标视频通过视频标注工具进行播放时,终端实时检测在视频标注工具上触发的跳转播放指令;当播放到目标视频中的非关键片段、且检测到跳转播放指令时,则从非关键片段跳转至下一个视频关键片段进行播放,从而可以进一步有效地降低目标视频的播放时间。

其中,视频标注工具为客户端时,该视频标注工具上可以设置有用于跳转播放的跳转控件,通过触发该跳转控件,可以从当前播放的视频片段直接跳转到下一个视频片段。

例如,如图3所示,a1、a2和a3表示目标视频中的3个非关键片段,b1、b2和b3表示目标视频中的3个视频关键片段。当播放到非关键片段a1、且检测到用户触发了跳转控件时,终端将不再继续播放非关键片段a1,直接跳转至视频关键片段b1,依次类推,直至播放完整个目标视频。

上述实施例中,在播放目标视频之前,先确定目标视频中所存在的视频关键片段,在播放视频的时候,以大于视频关键片段的播放速度来快速播放非关键片段,因此,即便视频数量众多、且视频的时长较长,也不会在非关键片段上耗费大量不必要的播放时间,可以有效地缩短目标视频的播放时间,有利于提高视频的标注效率。

在一个实施例中,如图5所示,s204具体可以包括:

s502,对目标视频中的帧图像进行特征提取,得到对应的图像特征。

其中,这里的帧图像可以指目标视频的视频帧,当解码目标视频时,可获得一系列连续的帧图像。图像特征可以是具有设定维度的特征向量,例如可以是2048维的特征向量。

在一个实施例中,终端通过特征提取网络对目标视频中的帧图像进行特征提取,得到设定维度的特征向量。其中,特征提取网络可以包括但不限于残差网络(resnet)和卷积神经网络等。

在一个实施例中,终端解码目标视频,得到对应的帧图像;对所得的帧图像进行采样,得到采样帧图像;通过特征提取网络提取采样帧图像中的图像特征。

例如,终端将采样帧图像依次输入残差网络,通过残差网络对采样帧图像进行特征提取,然后将残差网络的最后一个池化层的输出作为采样帧图像的图像特征。每个图像特征均可以是长度为2048维的特征向量,通过残差网络的处理,每个采样帧图像能得到一个对应的2048维的特征向量,然后将这些特征向量进行组合,将组合后的特征向量作为机器学习模型的输入。

在一个实施例中,对所得的帧图像进行采样的步骤,具体可以包括:终端按照固定间隔对所得的帧图像进行采样,即每采样一次,以固定间隔为步长向前移动,直至对所得的帧图像进行采样完成。

例如,假设目标视频的帧图像数总共为3000帧,以帧数15为固定间隔进行采样。如在3000帧中,第一次采样得到第1帧,然后向前移动15帧后,进行第二次采样得到第16帧,依此类推,总共得到200帧的帧图像。

在另一个实施例中,对所得的帧图像进行采样的步骤,具体可以包括:终端对所得的帧图像平均分为多个组,然后从每个组中抽取指定数量的帧图像。其中,在每个组中抽取的时候,可以是随机抽取。

例如,假设目标视频的帧图像数总共为3000帧,将这3000帧平均分为100组,每个组中的帧图像数为30帧。终端从100个组中分别抽取2帧,从而总共得到200帧的帧图像。

s504,通过机器学习模型处理图像特征,得到对应帧图像的得分值。

其中,机器学习模型可以包括但不限于vasnet模型或其它基于视频摘要技术的神经网络模型。如图6所示,vasnet模型的结构主要有两部分组成,一部分是软自注意力(softself-attention)网络,即图6中的注意力网络;另一部分为用于回归的全连接网络,即图6中的回归网络。

在一个实施例中,终端将所得的图像特征进行组合,得到组合图像特征,将该组合图像特征输入机器学习模型,通过机器学习模型处理图像特征,得到对应帧图像的得分值。以机器学习模型为vasnet模型为例进行说明:

终端通过软自注意力网络对输入的组合图像特征进行处理,从而计算出自注意力向量e(t,i),令假设组合图像特征为x=(x0,x2,...,xi,...,xn),自注意力向量e(t,i)的计算方式如下所示:

e(t,i)=s[(uxi)t(vxt)],t=[0,n),i=[0,n)

其中,n是目标视频中帧图像的数量(即帧数),u和v是在优化期间与网络的其他参数一起进行估计所得的网络权重矩阵,s是减小之间的点积值的比例参数,该比例参数s可设置为0.06。

可选的,计算出自注意力向量e(t,i),也可以参考以下方式进行计算:

e(t,i)=mtanh(uxi+vxt)

其中,m是vasnet模型在训练期间学习的附加网络权重。

然后,然后使用软自注意力网络中的softmax,将自注意力向量e(t,i)转换为注意权重α(t,i),转换所使用的计算式如下所示:

其中,注意权重α(t,i)是真实概率,表示输入图像特征相对于t时刻期望的帧级得分的重要性。

接着,然后利用线性变换c对输入的组合图像特征进行处理,然后将处理所得的结果与注意力向量α(t,i)加权并取平均值,得到上下文向量ct,用于最终帧分数回归。其中,线性变换c的计算式,以及计算上下文向量ct的计算式分别如下所示:

bi=cxi

然后,将上下文向量ct投影到单层全连通网络中,并进行线性激活和残差求和,然后进行dropout和层归一化处理,具体处理方式如下所示:

kt=norm(dropout(wct+xt))

c和w是在网络训练过程中学习的网络权值矩阵,为了对网络进行正则化,在回归网络中还添加了一个dropout作为注意权值。

最后,通过两层神经网络进行帧得分回归yt=m(kt)处理,第一层有一个relu激活函数,然后进行dropout层和归一化层(layernormalization);而第二层有一个sigmoid激活的隐藏单元。

从而得到得分向量y=(y0,y1,......,yn),y=(0,1),都是长度n。

例如,从目标视频中提取出200个2048维的图像特征(该图像特征为特征向量),将该200个2048维的图像特征进行组合,将组合图像特征输入vasnet模型中,vasnet模型输出一个200维的得分向量,即得分向量y=(y0,y1,......,yn),这个得分向量中每一维都是对应采样帧图像的得分值,用于表示当前帧帧图像的重要程度,其中,得分值越大,则越可能包含关键信息。

s506,当得分值达到预设分值条件时,按照得分值确定目标视频中的视频关键片段。

其中,得分值达到预设分值条件时,表示帧图像包含有关键信息。

在一个实施例中,终端将目标视频分割成至少两个视频片段;根据所得到的得分值,分别计算各视频片段的总得分值;在各视频片段中,当目标视频片段的总得分值达到预设分值条件时,则将目标视频片段确定为视频关键片段。

其中,该预设分值条件可以是预设得分阈值,如各视频片段的总得分值大于或等于a(a为预设得分阈值)的目标视频片段作为视频关键片段;该预设分值条件也可以是得分值的排名,如各视频片段的总得分值中排名前10%的目标视频片段作为视频关键片段;该预设分值条件还可以是在设定视频片段长度下,使所选取出的目标视频片段的总得分值之和达到最大,例如,视频总长度为3000帧,所选取的目标视频片段的长度不超过450,且目标视频片段的总得分之和最大。

在一个实施例中,终端在分割出视频片段之后,统计每个视频片段内相应帧图像的得分值,得到每个视频片段的总得分值。例如,假设总帧数为3000的目标视频,若提取了200帧进行得分计算,得到200个得分值,然后将目标视频分割成10个视频片段,每个视频片段中有300帧,且每个视频片段内有20帧对应有得分值,那么,根据每个视频片段内的20个得分值计算视频片段的总得分值。

在一个实施例中,在计算出每个视频片段的总得分值后,终端判断视频片段的总得分值是否达到预设分值条件,若是,则确定达到预设分值条件的视频片断为视频关键片段;若否,则确定未达到预设分值条件的视频片断为非关键片段。

在对目标视频进行分割时,可采用相邻帧图像之间的差异情况进行分割,或者根据相邻两帧图像之间是否进行了转场,若进行了转场则在该转场位置进行分割。其中,转场指的是目标视频中段落与段落、场景与场景之间的过渡或转换。例如,目标视频中的第1帧至第50帧是关于美食的场景画面,第51帧至第100帧是关于美食文化的场景画面,那么,第50帧与第51帧之间存在转场。

因此,对于目标视频的分割,可以分为以下两种方式进行阐述:

方式1,采用相邻帧图像之间的差异情况进行分割。

在一个实施例中,将目标视频分割成至少两个视频片段的步骤,具体可以包括:终端计算目标视频中各相邻帧图像之间的差异值;在目标视频中,当目标相邻帧图像的差异值达到预设差异阈值时,则依据目标相邻帧图像分割目标视频,得到至少两个视频片段。

对于一个视频而言,不同的帧图像之间,相似度可能较大或较小,即不同帧图像之间存在较小或较大的差异,将不同帧图像之间差异值较大(即差异值达到预设差异阈值)的点,作为最优变化点,而且确保最优变化点之间的帧图像之间差异值较小。其中,最优变化点的数量可以是多个。

在一个实施例中,终端通过动态规划算法计算目标视频中的最优变化点,处于最优变化点之间的各帧图像之间差异较小。终端根据最优变化点对目标视频进行切分,得到至少两个视频片段。动态规划算法可以是kerneltemporalsegmentation(kts)算法,通过kts算法对目标视频进行分段,根据目标视频中相邻帧图像之间的距离(如欧式距离,用于表示帧图像之间的差异),把目标视频分段成一定数量的视频片段:

其中,lm,n是指在最优变化点下,每个视频片段中各帧图像的差异值之和达到最小。m为最优变化点的数量。n为目标视频中帧图像的数量。g(m,n)为惩罚项,可以让分割的最优变化点的数量m不要过多,其中,g(m,n)的表达式为g(m,n)=m(log(n/m)+1)。

方式2,根据相邻两帧图像之间是否转场进行分割。

在一个实施例中,将目标视频分割成至少两个视频片段的步骤,具体可以包括:终端获取目标视频的转场标识;按照转场标识分割目标视频,得到多个视频片段。

其中,转场是指目标视频中视频片段与视频片段、视频场景与视频场景之间的过渡或转换。转场标识是用于标识目标视频中是否发生了转场,以及发生转场的位置。在目标视频中,若第k帧与第k+1帧之间发生了转场,则第k帧之前的帧图像与第k+1帧之后的帧图像之间存在较大的差异性,因此,可以按照转场标识来对目标视频进行分割。

在一个实施例中,在制作目标视频时,若设置了转场,则生成一个转场标识,该转场标识用于标识目标视频设置了转场、且确定该转场的位置。

上述实施例中,通过对目标视频中的帧图像进行采样,然后对采样帧图像进行图像特征提取,然后根据图像特征计算每个采样帧图像的得分值,从而根据得分值来确定视频关键帧,有利于在播放目标视频时,不会在非关键片段上耗费大量不必要的播放时间,可以有效地缩短目标视频的播放时间,有利于提高视频的标注效率。此外,按照帧图像之间的差异值或转场标识来对目标视频进行分割,从而确保每个分割出来的视频片段之内各帧图像之间相似度较高,从而确保所得出的视频关键帧是真实的关键帧,所得出的非关键片段是真实的非关键片段,从而可以避免在播放目标视频时,将包含关键信息的视频片断加速播放,而不包含关键信息的视频片断未被加速播放。

在一个实施例中,如图7所示,该方法还可以包括:

s702,当目标视频播放完时,获取与目标视频对应的至少一个视频标签。

其中,视频标签可以是用于对目标视频进行分类或标注的标识。视频标签可以具有多个层级,如一级视频标签和二级视频标签,如一级视频标签可以是美食,对应的二级标签可以是鲁菜、川菜、粤菜、闽菜、苏菜、浙菜、湘菜和徽菜等。

在一个实施例中,终端可以通过输入的选择指令,从标签库中获取与目标视频对应的至少一个视频标签。或者,终端可以接收输入的编辑指令,获取用户编辑的、与目标视频对应的至少一个视频标签。

在一个实施例中,当目标视频播放完时,终端获取针对目标视频的描述信息;将描述信息与目标视频保存于本地;或者,将描述信息与目标视频发送至服务器进行保存。

其中,描述信息可以指用于描述目标视频的文字信息,例如:该目标视频通过美食的多个侧面,来展示食物给人们生活带来的仪式、伦理、趣味等方面的文化特质,从该目标视频中可以感知到一个有着悠久文化传统的国度,这里的人们对待生活、家庭和社会抱持着美好的态度。

在一个实施例中,终端可以通过输入的选择指令,从信息库中获取与目标视频对应的描述信息。或者,终端可以接收输入的编辑指令,获取用户编辑的、与目标视频对应的描述信息。又或者,终端根据各视频关键片段中的关键信息,生成目标视频对应的描述信息。

s704,按照至少一个视频标签对目标视频进行分类。

例如,当视频标签为美食时,将目标视频打上美食标签则可以表示该目标视频属于美食类的视频,以实现对目标视频的分类。当用户在搜索美食的视频时,可以搜索到该目标视频;此外,在视频推荐页面或搜索结果展示页面中,除了展示目标视频的视频标识之外,还可以展示该目标视频的标签,如展示美食、湘菜和剁椒鱼头等等。

s706,当目标视频分类完成时,将分类后的目标视频上传至服务器进行保存;发送的目标视频,用于指示服务器在接收到用户设备发送的视频获取指令时,向用户设备推荐目标视频。

在一个实施例中,当目标视频分类完成时,终端将分类后的目标视频上传至服务器。服务器在接收到分类后的目标视频时,将该目标视频保存至视频库中,当接收到来自于各用户设备发送的视频获取指令时,服务器根据视频获取指令中所携带的用户标识确定用户的观影习惯,根据观影习惯从视频库中获取对应类型的目标视频,并将所获取的目标视频发送至用户设备。

在一个实施例中,根据视频获取指令中所携带的用户标识确定用户的观影习惯的步骤,具体可以包括:服务器根据用户标识获取对应的用户行为数据,根据该用户行为数据确定用户的观影习惯。例如,用户比较喜欢看美食类的视频,那么每次观看美食类的视频时,用户设备均会记录该用户的观看记录,并将该记录作为用户行为数据发送至服务器进行保存。从而服务器通过大数据分析确定用户的观影习惯,然后向用户推荐对应类型的目标视频。

上述实施例中,按照对应的视频标签对目标视频进行分类,然后将分类后的目标视频发送给服务器,从而服务器可以根据用户的喜好进行视频推荐,从而可以提高视频的点击率。此外,为目标视频添加描述信息,可以有利于用户对目标视频的理解,增加用户观看目标视频的兴趣,提高目标视频的点击率。

在一个实施例中,如图8所示,提供了另一种视频播放方法,该视频播放方法具体包括如下步骤:

s802,终端获取目标视频。

s804,终端在目标视频中确定视频关键片段。

s806,终端对目标视频中的帧图像进行特征提取,得到对应的图像特征;

在一个实施例中,s806具体可以包括:解码目标视频,得到对应的帧图像;

对所得的帧图像进行采样,得到采样帧图像;通过特征提取网络提取采样帧图像中的图像特征。

s808,终端通过机器学习模型处理图像特征,得到对应帧图像的得分值。

其中,得分值达到预设分值条件时,表示帧图像包含有关键信息。

s810,当得分值达到预设分值条件时,终端将目标视频分割成至少两个视频片段。

在一个实施例中,s810具体可以包括:终端计算目标视频中各相邻帧图像之间的差异值;在目标视频中,当目标相邻帧图像的差异值达到预设差异阈值时,则依据目标相邻帧图像分割目标视频,得到至少两个视频片段。

在另一个实施例中,s810具体可以包括:终端获取目标视频的转场标识;按照转场标识分割目标视频,得到至少两个视频片段。

s812,终端根据所得到的得分值,分别计算各视频片段的总得分值。

s814,终端在各视频片段中,当目标视频片段的总得分值达到预设分值条件时,则将目标视频片段确定为视频关键片段。

s816,终端播放目标视频。

s818,当播放到视频关键片段时,终端以第一播放速度播放视频关键片段。

s820,当播放到目标视频中的非关键片段时,终端以第二播放速度对关键视频片段进行播放。

在一个实施例中,目标视频通过视频标注工具进行播放;该方法还可以包括:终端实时检测在视频标注工具上触发的跳转播放指令;当播放到目标视频中的非关键片段、且检测到跳转播放指令时,则从非关键片段跳转至下一个视频关键片段进行播放。

s822,当目标视频播放完时,终端获取与目标视频对应的至少一个视频标签。

在一个实施例中,当目标视频播放完时,获取针对目标视频的描述信息;将描述信息与目标视频保存于本地。

s824,终端按照至少一个视频标签对目标视频进行分类。

s826,当目标视频分类完成时,终端将分类后的目标视频和描述信息上传至服务器进行保存。

s828,服务器接收到用户设备发送的视频获取指令时,解析该视频获取指令得到用户标识。

s830,服务器根据用户标识获取对应的用户行为数据。

s832,服务器根据用户行为数据确定用户的观影习惯。

s834,服务器根据观影习惯获取对应分类的目标视频。

s836,服务器将所获取的目标视频向发送视频获取指令的用户设备进行发送。

上述实施例中,在播放目标视频之前,先计算目标视频中对应帧图像的得分值,根据得分值确定目标视频中的视频关键片段,在播放视频的时候,以大于视频关键片段的播放速度来快速播放非关键片段,因此,即便视频数量众多、且视频的时长较长,也不会在非关键片段上耗费大量不必要的播放时间,可以有效地缩短目标视频的播放时间,有利于提高视频的标注效率。

作为一个示例,本发明实施例提出一种视频播放方法,该视频播放方法中视频标注工具应用了智能加速功能,通过该智能加速功能对视频的非关键片段进行加速播放,从而标注人员可以快速实现视频打标签任务和视频描述信息的撰写任务。

视频打标签任务:标注人员观看视频以后,对这个视频打上特定的标签,从而实现视频的分类。其中,该标签从标签库中选取,也可以有标注人员自行编辑。对于视频的标签任务,可以是一个视频打多个标签,也可以是一个视频只选取一个分类标签。

视频描述信息的撰写任务:标注人员观看视频以后,为整个视频写一段客观文字描述,这个描述需基于视频内容进行表达。

因此,对于上述两种标注任务,都需标注人员完整观看并且理解视频内容以后再进行标注,而目前已有的标注工具都未针对这一类标注场景进行优化,对于视频分类和视频描述信息的撰写任务的标注人员而言,使用这些标注工具进行上述两种标注任务将会影响标注效率,因此,本发明实施例提出了一种可以提高标注效率的视频播放方法,具体如下所述:

s902,首先获取待标注的视频。

s904,通过神经网络模型对视频片段进行打分,得到视频关键片段和非关键片段。

s906,在标注工具上对非关键片段进行加速播放。

s908,当播放完视频后,对视频进行标注。

下面从两个点具体说明本发明实施例的详细内容:

(1)视频关键片段获取。

本发明实施例采用了vasnet的神经网络模型,对视频中相应帧图像进行打分,从而根据帧图像的得分提取出视频关键片段。

其中,vasnet模型的结构主要有两部分组成,一部分是软自注意力网络,即图6中的注意力网络;另一部分为用于回归的全连接网络,即图6中的回归网络。

对视频中的帧图像进行采样,得到采样帧图像,然后将采样帧图像的特征向量作为vasnet模型的输入。

获取特征向量的方法是:首先将视频解码成一系列帧图像,然后对这些帧图像进行采样(如每15帧取一帧)后,就得到了采样帧图像。得到采样帧图像以后,采用残差网络(resnet)对这些采样帧图像进行特征提取,得到特征向量。

其中,残差网络是一种图像分类模型,通过在大图像分类数据集imagenet上训练好残差网络,在训练完成后,利用该残差网络提取视频中帧图像的图像特征。这里的做法是输入一个帧图像到残差网络,通过残差网络对该帧图像进行处理后,选取残差网络的最后一个池化层的输出作为所需的特征向量,这个特征向量是维度为2048的向量。每个采样帧图像均对应一个2048维的特征向量,然后这些特征向量进行组合,将组合所得的组合特征向量作为vasnet模型的输入。

vasnet模型的输出是一个向量,该向量中的元素分别表示输入的特征向量的得分值。举例来说,如果视频本身有3000帧图像,以15为间隔进行采样,得到了200帧采样帧图像,然后提取出200个2048维的特征向量输入vasnet模型中,模型输出一个200维的得分结果,这个结果中每一维都对应一个采样帧图像的得分值,表示该采样帧图像的重要程度,分数越高,则表示该采样帧图像越可能包含关键信息。

得到这些采样帧图像的得分值后,采用kts算法把视频分割成多个视频片段,然后根据采样帧图像的得分值得到每个视频片段的片段分值和片段长度(也即片段中的帧数量),利用背包算法选取片段长度之和不超过原视频长度15%的视频关键片段,且确保所选取出来的视频关键片段的片段分值最大。

例如,假设视频分割后总共有n个视频片段,每个视频片段的片段分值分别为a1、a2、...、an,现在从这n个视频片段中选取m个视频片段、且这m个视频片段的片段长度之和不能超过原视频的15%。通过背包算法,在这n个视频片段中选取片段长度之和不超过原视频15%的视频片断,且所选取出来的视频片段的片段分值最大,如选取了4个视频片段(4个片段长度之和不超过原视频15%),第1个、第2个、第5个和第n个视频片段,且片段分值之和a1+a2+a5+an最大。

选取出视频关键片段之后,可以将视频关键片段的信息(该信息可以是视频关键片段的起始位置和结束位置,也可以是其它用于识别视频关键片段的识别标识)放到视频标注工具上,以便视频标注工具在播放该视频时,可以根据视频关键片段的信息确定当前播放位置是否属于视频关键片段,若不属于视频关键片段,即属于视频中的非关键片段,则进行加速播放,从而实现对视频中的非关键片段进行智能加速。

(2)视频智能加速

获取视频关键片段的信息之后,需要对视频实现智能加速功能,具体实现是:根据是否属于视频关键片段,设计一套加速策略,把非关键片段的部分做加速处理,如图3所示,对视频中的非关键片段进行加速播放,对视频关键片段进行正常速度进行播放。

通过实施上述实施例,可以具有以下有益效果:

(1)相比于从头到尾原速播放观看视频而言,可以减少观看视频的耗时,提高了标注效率。

(2)相比于使用普通快进、暂停、回退功能观看视频而言,若全程快进播放,会造成标注人员对视频的理解不够准确,遇到一些视频关键片段,可能还需要自己手动暂停和回放。因此,通过本发明实施例可以极大的减少不必要的操作,标注人员只需要智能加速从头到尾观看一遍即可,提高了标注效率。

图2、5、7-9为一个实施例中视频播放方法的流程示意图。应该理解的是,虽然图2、5、7-9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、5、7-9中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图10所示,在一个实施例中,提供了一种视频播放装置,该视频播放装置具体包括:获取模块1002、确定模块1004、播放模块1006、第一调整模块1008和第二调整模块1010;其中:

获取模块1002,用于获取目标视频;

确定模块1004,用于在目标视频中确定视频关键片段;

播放模块1006,用于播放目标视频;

第一调整模块1008,用于当播放到视频关键片段时,以第一播放速度播放视频关键片段;

第二调整模块1010,用于当播放到目标视频中的非关键片段时,以第二播放速度对关键视频片段进行播放;第二播放速度大于第一播放速度。

上述实施例中,在播放目标视频之前,先确定目标视频中所存在的视频关键片段,在播放视频的时候,以大于视频关键片段的播放速度来快速播放非关键片段,因此,即便视频数量众多、且视频的时长较长,也不会在非关键片段上耗费大量不必要的播放时间,可以有效地缩短目标视频的播放时间,有利于提高视频的标注效率。

在一个实施例中,确定模块1004还用于:

对目标视频中的帧图像进行特征提取,得到对应的图像特征;

通过机器学习模型处理图像特征,得到对应帧图像的得分值;

当得分值达到预设分值条件时,按照得分值确定目标视频中的视频关键片段。

其中,得分值达到预设分值条件时,表示帧图像包含有关键信息。

在一个实施例中,确定模块1004还用于:

将目标视频分割成至少两个视频片段;

根据所得到的得分值,分别计算各视频片段的总得分值;

在各视频片段中,当目标视频片段的总得分值达到预设分值条件时,则将目标视频片段确定为视频关键片段。

在一个实施例中,确定模块1004还用于:

计算目标视频中各相邻帧图像之间的差异值;

在目标视频中,当目标相邻帧图像的差异值达到预设差异阈值时,则

依据目标相邻帧图像分割目标视频,得到至少两个视频片段。

在一个实施例中,确定模块1004还用于:

获取目标视频的转场标识;

按照转场标识分割目标视频,得到至少两个视频片段。

在一个实施例中,确定模块1004还用于:

解码目标视频,得到对应的帧图像;

对所得的帧图像进行采样,得到采样帧图像;

通过特征提取网络提取采样帧图像中的图像特征。

上述实施例中,通过对目标视频中的帧图像进行采样,然后对采样帧图像进行图像特征提取,然后根据图像特征计算每个采样帧图像的得分值,从而根据得分值来确定视频关键帧,有利于在播放目标视频时,不会在非关键片段上耗费大量不必要的播放时间,可以有效地缩短目标视频的播放时间,有利于提高视频的标注效率。此外,按照帧图像之间的差异值或转场标识来对目标视频进行分割,从而确保每个分割出来的视频片段之内各帧图像之间相似度较高,从而确保所得出的视频关键帧是真实的关键帧,所得出的非关键片段是真实的非关键片段,从而可以避免在播放目标视频时,将包含关键信息的视频片断加速播放,而不包含关键信息的视频片断未被加速播放。

在一个实施例中,如图11所示,该装置还包括:分类模块1012;其中:

获取模块1002还用于当目标视频播放完时,获取与目标视频对应的至少一个视频标签;

分类模块1012,用于按照至少一个视频标签对目标视频进行分类。

在一个实施例中,如图11所示,该装置还包括:上传模块1014;其中:

上传模块1014,用于当目标视频分类完成时,将分类后的目标视频上传至服务器进行保存;目标视频,用于指示服务器在接收到用户设备发送的视频获取指令时,向用户设备推荐目标视频。

在一个实施例中,如图11所示,该装置还包括:保存模块1016;其中:

获取模块1002还用于当目标视频播放完时,获取针对目标视频的描述信息;

保存模块1016,用于将描述信息与目标视频保存于本地;或者,

上传模块1014还用于将描述信息与目标视频发送至服务器进行保存。

在一个实施例中,目标视频通过视频标注工具进行播放;如图11所示,该装置还包括:跳转模块1018;其中:

跳转模块1018,用于实时检测在视频标注工具上触发的跳转播放指令;当播放到目标视频中的非关键片段、且检测到跳转播放指令时,则从非关键片段跳转至下一个视频关键片段进行播放。

上述实施例中,按照对应的视频标签对目标视频进行分类,然后将分类后的目标视频发送给服务器,从而服务器可以根据用户的喜好进行视频推荐,从而可以提高视频的点击率。此外,为目标视频添加描述信息,可以有利于用户对目标视频的理解,增加用户观看目标视频的兴趣,提高目标视频的点击率。

图12示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图12所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现视频播放方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行视频播放方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,本申请提供的视频播放装置可以实现为一种计算机程序的形式,计算机程序可在如图12所示的计算机设备上运行。计算机设备的存储器中可存储组成该视频播放装置的各个程序模块,比如,图10所示的获取模块1002、确定模块1004、播放模块1006、第一调整模块1008和第二调整模块1010。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的视频播放方法中的步骤。

例如,图12所示的计算机设备可以通过如图10所示的视频播放装置中的获取模块1002执行s202。计算机设备可通过确定模块1004执行s204。计算机设备可通过播放模块1006执行s206。计算机设备可通过第一调整模块1008执行s208。计算机设备可通过第二调整模块1010执行s210。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述视频播放方法的步骤。此处视频播放方法的步骤可以是上述各个实施例的视频播放方法中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述视频播放方法的步骤。此处视频播放方法的步骤可以是上述各个实施例的视频播放方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1