视频文件的识别方法及装置与流程

文档序号：11216329阅读：481来源：国知局

本发明涉及互联网技术领域，特别涉及一种视频文件的识别方法及装置。

背景技术：

随着互联网技术的发展，以及智能手机、摄像机、平板电脑等具有视频录制功能的设备逐渐普及，互联网上涌现出大量的视频文件，这些视频文件中有些可能涉及到违反法律规定的非法内容。为了维护互联网秩序，构建文明的网络环境，有必要对互联网上的视频文件进行识别。

当前在对视频文件进行识别时，可从待识别的视频文件中获取多张图片，提取每张图片的颜色特征、纹理特征、形状特征等图像特征，将每张图片的图片特征与预先构建的非法视频文件特征库中的图像特征进行匹配，如果任一张图片的任一图像特征与非法视频文件特征库中存储的任一图像特征相匹配，则确定该视频文件为非法视频文件。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

在对视频文件识别时，仅从待识别的视频文件中抽取部分图片，如果所抽取的图片中不包含非法内容，但未抽取到的其他图片中包括非法内容，会错误地将该视频文件作为合法视频文件，因而当前的识别方法准确性较低。

技术实现要素：

为了解决现有技术的问题，本发明实施例提供了一种视频文件的识别方法及装置。所述技术方案如下：

一方面，提供了一种视频文件的识别方法，所述方法包括：

从待识别的视频文件中，提取相应的音频文件；

提取所述音频文件的音频特征；

将所述音频特征与预先构建的非法视频文件特征库中所存储的非法音频特征进行匹配；

如果所述音频特征与所述非法视频文件特征库中的任一非法音频特征相匹配，则确定所述待识别的视频文件为非法视频文件。

在本发明的另一个实施例中，所述从待识别的视频文件中，提取相应的音频文件，包括：

获取所述待识别的视频文件的视频格式；

根据所述视频格式，从所述待识别的视频文件中，提取相应的音频文件。

在本发明的另一个实施例中，所述提取所述音频文件的音频特征之前，还包括：

获取所述音频文件对应的音频波形数据；

获取所述音频波形数据中振幅小于预设数值的特定音频波形数据；

将所述特定音频波形数据从所述音频文件中删除，并标识剩余音频波形数据的播放时间；

将所述剩余音频波形数据划分为多帧数据，每帧数据对应不同的播放时间；

所述提取所述音频文件的音频特征，包括：

采用预设音频特征数据处理算法从每帧数据中，提取一个音频子特征；

按照播放时间从先到后的顺序，将从多帧数据中提取的音频子特征组成所述音频特征。

在本发明的另一个实施例中，所述预设音频特征数据处理算法包括差分算法、均值方差调整算法、高斯算法、降维算法、最优路径算法。

在本发明的另一个实施例中，所述将所述音频特征与预先构建的非法视频文件特征库中所存储的非法音频特征进行匹配之后，还包括：

如果所述音频特征与所述非法音频文件特征库中的任一非法音频特征不匹配，则获取所述音频文件对应的字符数据；

将所述字符数据与预先构建的字符数据库中所存储的非法违规敏感字符进行匹配；

如果所述字符数据与所述字符数据库中的任一非法违规敏感字符相匹配，则确定所述待识别的视频文件为非法视频文件。

另一方面，提供了一种视频文件的识别装置，所述装置包括：

第一提取模块，用于从待识别的视频文件中，提取相应的音频文件；

第二提取模块，用于提取所述音频文件的音频特征；

第一匹配模块，用于将所述音频特征与预先构建的非法视频文件特征库中所存储的非法音频特征进行匹配；

第一确定模块，用于当所述音频特征与所述非法视频文件特征库中的任一非法音频特征相匹配时，确定所述待识别的视频文件为非法视频文件。

在本发明的另一个实施例中，所述第一提取模块，用于获取所述待识别的视频文件的视频格式；根据所述视频格式，从所述待识别的视频文件中，提取相应的音频文件。

在本发明的另一个实施例中，所述装置还包括：

第一获取模块，用于获取所述音频文件对应的音频波形数据；

第二获取模块，用于获取所述音频波形数据中振幅小于预设数值的特定音频波形数据；

删除模块，用于将所述特定音频波形数据从所述音频文件中删除；

标识模块，用于标识剩余音频波形数据的播放时间；

数据划分模块，用于将所述剩余音频波形数据划分为多帧数据，每帧数据对应不同的播放时间；

所述第二提取模块，用于采用预设音频特征数据处理算法从每帧数据中，提取一个音频子特征；按照播放时间从先到后的顺序，将从多帧数据中提取的音频子特征组成所述音频特征。

在本发明的另一个实施例中，所述预设音频特征数据处理算法包括差分算法、均值方差调整算法、高斯算法、降维算法、最优路径算法。

在本发明的另一个实施中，所述装置还包括：

第三获取模块，用于当所述音频特征与所述非法音频文件特征库中的任一非法音频特征不匹配时，获取所述音频文件对应的字符数据；

第二匹配模块，用于将所述字符数据与预先构建的字符数据库中所存储的非法违规敏感字符进行匹配；

第二确定模块，用于当所述字符数据与所述字符数据库中的任一非法违规敏感字符相匹配时，确定所述待识别的视频文件为非法视频文件。

本发明实施例提供的技术方案带来的有益效果是：

通过提取待识别的视频文件的音频特征，并将音频特征与非法视频文件特征库中存储的非法音频特征进行匹配，进而根据匹配结果确定待识别的视频文件是否为非法视频文件。由于所提取的音频特征可以反映整个视频文件的情况，且处理的是比图像数据容量更小的音频数据，因而提高了视频文件的识别精度及识别速度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种视频文件的识别方法流程图；

图2是本发明另一个实施例提供的一种视频文件的识别方法流程图；

图3是本发明另一个实施例提供的一种音频波形的示意图；

图4是本发明另一个实施例提供的一种视频文件识别装置的结构示意图；

图5是根据一示例性实施例示出的一种用于视频文件的识别的服务器。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种视频文件的识别方法，参见图1，本实施例提供的方法流程包括：

101、从待识别的视频文件中，提取相应的音频文件。

102、提取音频文件的音频特征。

103、将音频特征与预先构建的非法视频文件特征库中所存储的非法音频特征进行匹配。

104、如果音频特征与非法视频文件特征库中的任一非法音频特征相匹配，则确定待识别的视频文件为非法视频文件。

本发明实施例提供的方法，通过提取待识别的视频文件的音频特征，并将所提取的音频特征与非法视频文件特征库中存储的非法音频特征进行匹配，进而根据匹配结果确定待识别的视频文件是否为非法视频文件，由于所提取的音频特征可以反映整个视频文件的情况，因而提高了视频文件的识别精度。由于处理的数据为容量很小的音频数据，比复杂的图片对象数据更加快速，因而提高了视频文件的识别速度。

在本发明的另一个实施例中，从待识别的视频文件中，提取相应的音频文件，包括：

获取待识别的视频文件的视频格式；

根据视频格式，从待识别的视频文件中，提取相应的音频文件。

在本发明的另一个实施例中，提取音频文件的音频特征之前，还包括：

获取音频文件对应的音频波形数据；

获取音频波形数据中振幅小于预设数值的特定音频波形数据；

将特定音频波形数据从音频文件中删除，并标识剩余音频波形数据的播放时间；

将剩余音频波形数据划分为多帧数据，每帧数据对应不同的播放时间；

提取音频文件的音频特征，包括：

采用预设音频特征数据处理算法从每帧数据中，提取一个音频子特征；

按照播放时间从先到后的顺序，将从多帧数据中提取的音频子特征组成音频特征。

在本发明的另一个实施例中，预设音频特征数据处理算法包括差分算法、均值方差调整算法、高斯算法、降维算法、最优路径算法。

在本发明的另一个实施例中，将音频特征与预先构建的非法视频文件特征库中所存储的非法音频特征进行匹配之后，还包括：

如果音频特征与非法音频文件特征库中的任一非法音频特征不匹配，获取音频文件对应的字符数据；

将字符数据与预先构建的字符数据库中所存储的非法违规敏感字符进行匹配；

如果字符数据与字符数据库中的任一非法违规敏感字符相匹配，则确定待识别的视频文件为非法视频文件。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

本发明实施例提供了一种视频文件的识别方法，参见图2，本实施例提供的方法流程包括：

201、服务器从待识别的视频文件中，提取相应的音频文件。

视频文件为互联网上一种重要的多媒体文件，包括实时地图像数据及音频数据。视频文件在录制时，可通过智能设备中的麦克风采集音频数据，通过摄像头采集图像数据，并按照预设的视频格式，将采集到的音频数据和图像数据编码得到视频数据。

基于视频文件的录制原理，当服务器从互联网上获取到待识别的视频文件时，可先获取该待识别的视频文件的视频格式，进而按照该视频格式，从待识别的视频文件中提取视频文件对应的音频文件。其中，视频文件的格式主要有avi(audiovideointerleaved，音频视频交错格式)、navi(newaudiovideointerleaved，新音频视频交错格式)、mpeg(movingpictureexpertsgroup，动态图像专家组)、asf(advancedstreamingformat，高级串流格式)等等。

202、服务器提取音频文件的音频特征。

一般情况下，所录制的视频文件中通常会存在一些静音视频片段，这些静音片段对应的音频数据为静音数据，由于根据静音数据不仅无法确定视频文件是否为合法视频文件，而且还会增加识别过程的计算量。因此，在本实施例中，服务器提取音频文件的音频特征之前，可先对音频文件进行处理，以减少对待识别的视频文件进行识别时的计算量，同时降低无效的静音数据产生的干扰。具体处理过程可参见步骤2021～2024。

2021、服务器获取音频文件对应的音频波形数据。

众所周知，声音在空气中传播时可形成声波，每个音频文件都具有一个音频波形数据，当获取到音频文件后，服务器可将获取到的音频文件输入到示波器中，得到该音频文件对应的音频波形数据。例如，图3中(a)图即为从一个待识别的视频文件中提取的音频文件对应的音频波形数据。

2022、服务器获取音频波形中振幅小于预设数值的特定音频波形数据。

由图3中(a)图可知，服务器获取到的音频波形数据的振幅是不同的，有些振幅较大，有些振幅较小，振幅越大，说明音量越高，振幅越小，说明音量越小。由于服务器的音量识别能力是有限，当音频波形数据的振幅小于预设数值时，服务器无法识别出该音频波形数据的音量，因此，在本实施例中，基于所获取到的音频波形数据，服务器可从音频波形数据中，获取振幅小于预设数值的特定音频波形数据。其中，预设数值可以为1毫米、2毫米、3毫米等，本实施例不对预设数值的大小作具体的限定。

2023、服务器将特定音频波形数据从音频文件中删除，并标识剩余音频波形数据的播放时间。

在视频录制时，智能设备会自动为所采集到的音频数据和图像数据添加相应的采集时间，这样获取到的音频文件对应的音频波形数据上的每个点都对应一个播放时间，当服务器将特定音频波形数据从音频文件中删除后，服务器可根据已删除的特定音频波形数据对应的播放时间，标识剩余音频波形数据的播放时间。

2024、服务器将剩余音频波形数据划分为多帧数据，每帧数据对应不同的播放时间。

为了便于后续计算，服务器以预设时长为单位将剩余音频波形数据划分为多帧数据，每帧数据对应不同的播放时间。其中，预设时长可以为20秒、30秒、40秒等等，本实施例不对预设时长做具体的限定。

需要说明的是，上述在对音频文件进行处理时，以将音频文件对应的音频波形数据中振幅小于预设数值的特定音频波形数据从音频文件中删除为例进行说明的，为确保音频文件播放的连贯性，在实际应用中，还可仅将音频波形数据中首尾端小于预设数值的部分从音频文件中删除，例如，服务器将图3中的(a)图中首尾端的小于预设数值的部分删除，得到图3中的(b)图。

基于处理后的音频文件，服务器在提取音频文件的音频特征时，可采用如下步骤(1)～(2)。

(1)、服务器采用预设音频特征数据处理算法从每帧数据中，提取一个音频子特征。

其中，预设音频特征数据处理算法包括差分算法、均值方差调整算法、高斯算法、降维算法、最优路径算法等等，本实施例不对预设特征数据处理算法作具体的限定。通过采用预设音频特征数据处理算法，服务器可从每帧数据中，提取一个音频子特征，该音频子特征为多维向量，每一维向量代表一种类型的特征。在实际计算时，音频子特征的维数一般为12维。

(2)、服务器按照播放时间从先到后的顺序，将从多帧数据中提取的音频子特征组成音频特征。

基于从每帧数据中提取的音频子特征，服务器按照每帧音频数据的播放时间从先放到后的顺序，将从多帧数据中提取的音频子特征组成音频特征，该音频特征为由帧数据的个数及音频子特征的维数构成的矩阵。例如，如果服务器将剩余音频数据划分为10帧数据，从每帧数据中提取的音频子特征的维数为12维，则音频特征为一个12行10列的矩阵。

203、服务器将音频特征与预先构建的非法视频文件特征库中所存储的非法音频特征进行匹配，如果匹配，执行步骤204，如果不匹配，执行步骤205。

为了便于识别互联网上的非法视频文件，本实施例提供的方法还将采用人工识别的方法构建一个非法视频文件特征库。具体构建时，可从互联网上获取多个视频文件，采用人工识别的方法从多个视频文件中识别非法视频文件，然后采用预设音频特征数据处理算法提取非法视频文件的音频特征，并基于所提取的音频特征，构建一个非法视频文件特征库。

当获取到待识别的视频文件的音频特征，服务器可将该音频特征与预先构建的非法视频文件特征库中存储的非法音频特征进行匹配，进而根据匹配结果，对待识别的视频文件进行分类。如果音频特征与非法视频文件特征库中的任一非法音频特征匹配，则执行步骤204；如果音频特征与非法视频文件特征库中的任一非法音频特征不匹配，则执行步骤205。

204、服务器确定待识别的视频文件为非法视频文件。

由于待识别的视频文件的音频特征与非法视频文件特征库中存储的任一非法音频特征相匹配，则服务器可确定该待识别的视频文件为非法视频文件。为了构建一个良好的网络环境，服务器可对该非法视频文件进行处理，如在指定时间内禁止该视频文件播放、删除该视频文件等等，以避免该非法视频文件在互联网上传播。

205、服务器对待识别的视频文件进行二次识别。

由于预先构建的非法视频文件特征库中存储的非法音频特征数量是有限的，为了避免漏识非法视频文件，当待识别的视频文件的音频特征与非法视频文件特征库中存储的任一非法音频特征不匹配时，服务器还将对待识别的视频文件进行二次识别。具体识别过程，可参加下述步骤2051～2053。

2051、服务器获取音频文件对应的字符数据。

服务器获取音频文件对应的字符数据的方式，包括但不限于采用如下方式：

首先，将音频文件转化为音频信号；

其次，利用音频信号和每个文字之间的对应关系，将音频信号切分成语素片；

再次，采用特定的算法在音频信号与每个文字的对应关系中找到与切分后的语素片匹配的文字，该文字即为音频文件对应的字符数据。

2052、服务器将字符数据与预先构建的字符数据库中所存储的非法违规敏感字符进行匹配。

2053、如果字符数据与字符数据库中的任一非法违规敏感字符相匹配，则确定待识别的视频文件为非法视频文件。

当字符数据与字符数据中的任一非法违规敏感字符相匹配，说明该待识别的视频文件中包括非法内容，因此，可确定该待识别的视频文件为非法视频文件。

本发明实施例提供的方法，通过提取待识别的视频文件的音频特征，并将音频特征与非法视频文件特征库中存储的非法音频特征进行匹配，进而根据匹配结果确定待识别的视频文件是否为非法视频文件。由于所提取的音频特征可以反映整个视频文件的情况，且处理的是比图像数据容量更小的音频数据，因而提高了视频文件的识别精度及识别速度。

参见图4，本发明实施例提供了一种视频文件的识别装置，该装置包括：

第一提取模块401，用于从待识别的视频文件中，提取相应的音频文件；

第二提取模块402，用于提取音频文件的音频特征；

第一匹配模块403，用于将音频特征与预先构建的非法视频文件特征库中所存储的非法音频特征进行匹配；

第一确定模块404，用于当音频特征与非法视频文件特征库中的任一非法音频特征相匹配时，确定待识别的视频文件为非法视频文件。

在本发明的另一个实施例中，第一提取模块402，用于获取待识别的视频文件的视频格式；根据视频格式，从待识别的视频文件中，提取相应的音频文件。

在本发明的另一个实施例中，该装置还包括：

第一获取模块，用于获取音频文件对应的音频波形数据；

第二获取模块，用于获取音频波形数据中振幅小于预设数值的特定音频波形数据；

删除模块，用于将特定音频波形数据从音频文件中删除；

标识模块，用于标识剩余音频波形数据的播放时间；

数据划分模块，用于将剩余音频波形数据划分为多帧数据，每帧数据对应不同的播放时间；

第二提取模块，用于采用预设音频特征数据处理算法从每帧数据中，提取一个音频子特征；按照播放时间从先到后的顺序，将从多帧数据中提取的音频子特征组成音频特征。

在本发明的另一个实施例中，预设音频特征数据处理算法包括差分算法、均值方差调整算法、高斯算法、降维算法、最优路径算法。

在本发明的另一个实施例中，该装置还包括：

第三获取模块，用于当音频特征与非法音频文件特征库中的任一非法音频特征不匹配时，获取音频文件对应的字符数据；

第二匹配模块，用于将字符数据与预先构建的字符数据库中所存储的非法违规敏感字符进行匹配；

第二确定模块，用于当字符数据与字符数据库中的任一非法违规敏感字符相匹配时，确定待识别的视频文件为非法视频文件。

综上所述，本发明实施例提供的装置，通过提取待识别的视频文件的音频特征，并将音频特征与非法视频文件特征库中存储的非法音频特征进行匹配，进而根据匹配结果确定待识别的视频文件是否为非法视频文件。由于所提取的音频特征可以反映整个视频文件的情况，且处理的是比图像数据容量更小的音频数据，因而提高了视频文件的识别精度及识别速度。

图5是根据一示例性实施例示出的一种用于视频文件的识别的服务器。参照图5，服务器500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述视频文件的识别中服务器所执行的功能，该方法包括：

从待识别的视频文件中，提取相应的音频文件；

提取音频文件的音频特征；

将音频特征与预先构建的非法视频文件特征库中所存储的非法音频特征进行匹配；

如果音频特征与非法视频文件特征库中的任一非法音频特征相匹配，则确定待识别的视频文件为非法视频文件。

在本发明的另一个实施例中，从待识别的视频文件中，提取相应的音频文件，包括：

获取待识别的视频文件的视频格式；

根据视频格式，从待识别的视频文件中，提取相应的音频文件。

在本发明的另一个实施例中，提取音频文件的音频特征之前，还包括：

获取音频文件对应的音频波形数据；

获取音频波形数据中振幅小于预设数值的特定音频波形数据；

将特定音频波形数据从音频文件中删除，并标识剩余音频波形数据的播放时间；

将剩余音频波形数据划分为多帧数据，每帧数据对应不同的播放时间；

提取音频文件的音频特征，包括：

采用预设音频特征数据处理算法从每帧数据中，提取一个音频子特征；

按照播放时间从先到后的顺序，将从多帧数据中提取的音频子特征组成音频特征。

在本发明的另一个实施例中，预设音频特征数据处理算法包括差分算法、均值方差调整算法、高斯算法、降维算法、最优路径算法。

在本发明的另一个实施例中，将音频特征与预先构建的非法视频文件特征库中所存储的非法音频特征进行匹配之后，还包括：

如果音频特征与非法音频文件特征库中的任一非法音频特征不匹配，获取音频文件对应的字符数据；

将字符数据与预先构建的字符数据库中所存储的非法违规敏感字符进行匹配；

如果字符数据与字符数据库中的任一非法违规敏感字相匹配，则确定待识别的视频文件为非法视频文件。

服务器500还可以包括一个电源组件526被配置为执行服务器500的电源管理，一个有线或无线网络接口550被配置为将服务器500连接到网络，和一个输入输出(i/o)接口558。服务器500可以操作基于存储在存储器532的操作系统，例如windowsserver^tm，macosx^tm，unix^tm,linux^tm，freebsd^tm或类似。

本发明实施例提供的服务器，通过提取待识别的视频文件的音频特征，并将音频特征与非法视频文件特征库中存储的非法音频特征进行匹配，进而根据匹配结果确定待识别的视频文件是否为非法视频文件。由于所提取的音频特征可以反映整个视频文件的情况，且处理的是比图像数据容量更小的音频数据，因而提高了视频文件的识别精度及识别速度。

需要说明的是：上述实施例提供的视频文件的识别装置在识别视频文件时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将视频文件的识别装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频文件的识别装置与视频文件的识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过软硬件来完成，也可以通过程序来指令相关的硬件完成。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：咸德玉
技术所有人：北京新媒传信科技有限公司
我是此专利的发明人

上一篇：一种数据记录方法及装置与流程
上一篇：视频台词提取方法、装置及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。