一种视频播放方法及装置与流程

文档序号：14447980阅读：166来源：国知局

本发明涉及电子技术领域，具体涉及一种视频播放方法及装置。

背景技术：

视频播放器是一种常用软件，用于播放各种视频；其工作原理是将视频文件按照其编码格式解码还原成图像和声音文件，并通过计算机或其他设备进行播放。现有的视频播放器通常具有打开文件、播放视频、暂停、快进、快退、慢放等功能。由于视频广泛引用于各种监控领域，因此在司法审判中经常会播放各种视频，以作为证据呈现给参与审判的所有人员。同时，在公安机关、检察院、法院等执法和审判机构搜集证据时也有类似的问题。

现有技术中的视频播放器都是按照时间顺序进行逐帧播放；现有的视频文件通常每一秒都包括25帧画面，则一段1小时长度的视频就会包括90000帧图像。由于视频是作为证据使用的，因此不允许进行任何编辑；因此在播放时，需要从头到尾顺序播放，以确保不会错过可能的关键细节；同时即使是采用可信的方式进行快放，也需要很长时间才能看完一段1小时的视频。通常在夜晚或是僻静环境中录取的视频，通常是经过很长时间才有人走过，而其他大部分时间是静止的没有任何信息的背景画面。这样就导致很多时间被浪费在观看无价值的背景画面上。

技术实现要素：

针对现有技术中存在的在视频文件包括大量无实质内容的段落导致耗费大量时间通过人工对视频文件进行观看的问题，本发明实施例要解决的技术问题是提出一种更为合理的视频播放方法及装置，至少部分的解决现有技术中存在的问题。

为了解决上述问题，本发明实施例提出了一种视频播放方法，包括：

解协议步骤：从原始的流媒体协议数据中分离出音视频数据；

解封装步骤：将分离出音视频数据进行解封装，以获取其中的音频压缩编码数据和视频压缩编码数据；

解码步骤：对音频压缩编码数据和视频压缩编码数据，以还原成非压缩的音频原始数据和视频原始数据；

音频/视频处理步骤；用于执行以下操作：对音频内容进行识别以将音频转换成文本；对每一帧画面进行分析以确定每一帧是否为有用帧；

音视频同步步骤：将同步解码出来的音频和视频数据分别送至系统声卡和显卡进行播放。

同时，本发明实施例还提出了一种视频播放装置，包括：

解协议模块：用于从原始的流媒体协议数据中分离出音视频数据；

解封装模块：用于将分离出音视频数据进行解封装，以获取其中的音频压缩编码数据和视频压缩编码数据；

解码模块：用于对音频压缩编码数据和视频压缩编码数据，以还原成非压缩的音频原始数据和视频原始数据；

音频/视频处理模块；用于执行以下操作：对音频内容进行识别以将音频转换成文本；对每一帧画面进行分析以确定每一帧是否为有用帧；

音视频同步模块：用于将同步解码出来的音频和视频数据分别送至系统声卡和显卡进行播放。

本发明的上述技术方案的有益效果如下：上述技术方案提出了一种视频播放方法及装置，能够对视频进行预处理以识别出音频对应的文字以及视频中的有用帧，以降低在观看视频时对于无用内容所浪费的时间，提高工作效率。

附图说明

图1为本发明实施例的流程示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

现有的视频播放软件通常在播放视频时执行以下操作：

解协议步骤：从原始的流媒体协议数据中去掉信令数据只保留音视频数据；例如采用rtmp协议传输的数据，经过解协议后输出flv格式的数据；

解封装步骤：分离音频压缩编码数据和视频压缩编码数据，常见的封装格式mp4、mkv、rmvb、ts、flv、avi这些格式的作用就是将已经压缩编码的视频数据和音频数据存储在一起；例如flv格式的数据经过解封装后输出h.264编码的视频码流和aac编码的音频码流；

解码步骤：将视频，音频压缩编码数据，还原成非压缩的视频，音频原始数据，音频的压缩编码标准包括aac、mp3、ac-3等，视频压缩编码标准包含h.264、mpeg2、vc-1等，经过解码得到非压缩的视频颜色数据如yuv420p、rgb格式，以及非压缩的音频数据如pcm格式。

音视频同步步骤：将同步解码出来的音频和视频数据分别送至系统声卡和显卡进行播放。

而本发明实施例提出了一种全新的视频播放方法及装置，能够使其更为适用于当前的司法实践活动。具体而言，本发明实施例的视频播放方法及装置如图1所示的，其在整个流程中增加了音频识别和视频内容分析步骤；其中音频识别是在音频解码之后对音频内容进行识别以将音频转换成文本；视频内容识别则对每一帧画面进行分析以确定每一帧是否为有用帧，并在播放时显著表示在进度条上。

具体的，本发明实施例的方法包括：

解协议步骤：从原始的流媒体协议数据中分离出音视频数据；

解封装步骤：将分离出音视频数据进行解封装，以获取其中的音频压缩编码数据和视频压缩编码数据；

解码步骤：对音频压缩编码数据和视频压缩编码数据，以还原成非压缩的音频原始数据和视频原始数据；

音频/视频处理步骤；用于执行以下操作：对音频内容进行识别以将音频转换成文本；对每一帧画面进行分析以确定每一帧是否为有用帧；

音视频同步步骤：将同步解码出来的音频和视频数据分别送至系统声卡和显卡进行播放。

其中，所述方法还包括：将音频/视频处理步骤中确定的有用帧，标识在视频播放进度条上。

其中，所述对每一帧画面进行分析以确定每一帧是否为有用帧，具体包括：

获取所需的人物动作；

获取视频的背景图像，以将背景图像从每一帧的画面中分离出以获取每一帧的前景图像；

通过对前景图像进行学习以获取前景图像中人物的动作模型，根据所述人物的动作模型确定视频中的人物的动作，以将符合所需的人物动作的帧作为有用帧。

其中，所述对每一帧画面进行分析以确定每一帧是否为有用帧，具体包括：

获取视频的背景图像，以将背景图像从每一帧的画面中分离出以获取每一帧的前景图像；

通过对前景图像进行识别以确定前景图像中是否运动物体或是特定运动物体。

在播放视频时，将从音频中识别出的文本同步进行显示。

同时，本发明实施例还提出了一种视频播放装置，包括：

解协议模块：用于从原始的流媒体协议数据中分离出音视频数据；

解封装模块：用于将分离出音视频数据进行解封装，以获取其中的音频压缩编码数据和视频压缩编码数据；

解码模块：用于对音频压缩编码数据和视频压缩编码数据，以还原成非压缩的音频原始数据和视频原始数据；

音频/视频处理模块；用于执行以下操作：对音频内容进行识别以将音频转换成文本；对每一帧画面进行分析以确定每一帧是否为有用帧；

音视频同步模块：用于将同步解码出来的音频和视频数据分别送至系统声卡和显卡进行播放。

在司法行业中，视频播放器也是一个非常常用的工具，其中检察院用其进行特定录像的回放和查看，用以审核司法审讯过程中是否存在不合规的场景或情况。

然而，目前普遍播放器都采用按时间顺序进行读取，逐帧进行播放的模式，比如1个小时视频，按照每秒25帧计算，则有90000帧图像。观者在看视频的时候，为了不错过可能的关键细节，往往需要看一个小时，即使是采用必要的快放模式，也需要几十分钟的时间，才能看完一段视频。而实际中，视频中往往大部分是无效的或静止的图像，例如对着一个宾馆走廊的监控的视频，一天可能只有几十个人行走，其他大部分时间是静止的没有信息量的内容，真正有价值的可能只有累计几分钟或几十个以秒为单位的片段，在司法审讯过程中，大部分也只是非常平常的对话，没有特定动作产生。

基于如上考虑，本发明实施例了一款专用的视频播放方式及播放器，其在播放过程前或播放过程中，可以采用一种基于深度学习的内容识别技术，对视频内容本身进行识别，将其中静止的或没有关注动作的视频段落与有特定动作的视频段落进行自动区分，以进度条上不同颜色呈现给观者，让观者可以快速跳过特定无效或无关注信息量的视频片段，转而重点关注需要关注的片段的视频。同时，对需要关注的视频片段，可以以快照的形式快速呈现给观者，使得观者能快速掌控一段视频里需要关注的信息内容。通过这种方式，提高了观者在观看和审核视频内容过程中的效率。

本发明的技术背景主要有视频编解码，传统的视频播放器主要工作就是对视频文件里的视频和音频信息进行解码，然后经过音视频同步播放输出。现有的播放器一般都遵循以下方法，实现视频和音频数据的循序播放，同时附加了一些包括开始、暂停、快进、慢放、播放列表、循环播放、全屏放大等按钮的附加功能：

解协议：从原始的流媒体协议数据中去掉信令数据只保留音视频数据,如采用rtmp协议传输的数据，经过解协议后输出flv格式的数据。

解封装：分离音频压缩编码数据和视频压缩编码数据,常见的封装格式mp4,mkv,rmvb,ts,flv,avi这些格式的作用就是将已经压缩编码的视频数据和音频数据放到一起,例如flv格式的数据经过解封装后输出h.264编码的视频码流和aac编码的音频码流。

解码：将视频，音频压缩编码数据，还原成非压缩的视频，音频原始数据,音频的压缩编码标准包括aac,mp3，ac-3等，视频压缩编码标准包含h.264,mpeg2,vc-1等,经过解码

得到非压缩的视频颜色数据如yuv420p,rgb和非压缩的音频数据如pcm等。

音视频同步：将同步解码出来的音频和视频数据分别送至系统声卡和显卡播放。

现有的播放器，并不理解视频和音频内容本身，他们只是数据的忠实还原和呈现，而不管内容本身，哪怕视频里只有一片白屏，或没有任何实质内容，其依然延续固有的时间顺序进行播放。

本发明提出了一种用于司法审讯用的视频播放器，其可以对审讯的视频和音频内容进行理解，在给观者还原真实数据的同时，基于一些特定的人工智能算法，对视频内容本身进行分析，并将有价值的信息片段和无价值的信息片段以不同的方式提示给观者，便于观者对一段长时间的视频，进行快速的浏览的查阅。

同时视频播放器本身还可以对视频内的音频内容进行解析和识别，将音频自动转换成文字，现在在播放器上，便于观者不需要全部观看，即可了解视频文件里的声音和对话内容。

本发明中播放器的主要流程图如下：

本发明中的流程图中，增加语音识别和视频内容分析两个步骤，其在音频解码之后，对音频内容进行识别，可采用目前主流的语音识别算法，转换成文本；视频内容识别模块，则对视频内容进行分析，通过观者事先选定的视频内容分析算法，标记该帧是“有用”帧还是“无用”帧，在播放器进度条上用不同颜色进行展示。

本发明中，视频播放器可在播放前对视频内容进行快速分析，用以提前标记所有内容。

在一个实例中，当选择某一个文件之后，可以点击分析按钮，对其内容进行分析，分析后，播放器进度条以灰色显示无效部分，以白色显示有价值的信息内容，鼠标移上进度条可以显示视频内容的缩略图，右侧显示语音识别转换的内容文本。

本发明中的语音识别和视频内容分析，采用基于当前领先的深度学习技术。其中视频内容识别可以预先设定是对有人无人的识别，也可以定义为有无特定的动作的识别，如打人，身体接触等。

本发明提出了一种新型的司法审讯视频播放方式及播放器，可以在播放之前或播放过程中，对视频内容进行分析，通过语音识别识别出视频内语音对话的内容，自动显示在播放器界面上，通过视频内容识别自动识别出某一帧有无待关注信息，将有待关注信息和无待关注信息的视频帧以不同颜色显示在进度条上，供观者快速跳转至待关注的点。

其可以采用当前领先的人工智能算法，自动识别无意义的片段，可显著节省观者的观看时间，提高审查效率，大幅提高司法工作人员的工作效率。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：任爱敏;吴柯维
技术所有人：山东亿海兰特通信科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。