音视频文件检测管理方法及装置的制造方法

文档序号:8434245阅读:740来源:国知局
音视频文件检测管理方法及装置的制造方法
【技术领域】
[0001]本发明涉及互联网应用领域,特别是涉及一种音视频文件检测管理方法及装置。
【背景技术】
[0002]互联网带来信息的爆炸,与此同时,人们越来越多的参与到互联网的使用当中。
[0003]随着互联网被越来越频繁的使用,催生了互联网存储模式,例如各种云盘存储应用,视频网站的流行等等。云盘存储应用或者视频网站都会存在大量的数据存储,尤其是信息量较大且简单易懂易于被用户理解的音视频类数据存储。相应地,由用户产生的音视频文件也越来越多,这些文件被保存在提供相关服务(例如上文提及的云盘存储应用和/或视频网站)的服务器上,并与用户账户相关联。
[0004]音视频文件的互联网存储虽然为用户其提供大信息量、简单易懂的数据,但是,相对于简单的文字文件,音视频文件因其音视频的信息复杂性存在难以检测的问题,进而可能会为用户以及整个互联网时代带来一定的安全隐患。例如,用户可能将包含木马/病毒/不当的宣传资料等的音视频文件上传至云盘存储应用,随后,将账号告知其他人,其他人就可以利用账号查看、下载等方式获取到包含木马/病毒/不当的宣传资料的音视频文件,进而对互联网安全造成威胁。或者,用户可以将上述文件直接发到视频网站,供他人观看,均会对互联网安全造成一定的威胁。
[0005]目前各网站采用人工审核的方式对互联网存储的音视频文件进行检测。图1示出了现有技术的人工审核视频的流程示意图。由图1可以看出,注册用户上传视频之后,网站将其转入人工审核系统进行安全性判别,在此同时,该视频可以继续传播,由其他用户获取。仅仅在人工审核系统判别出其安全性确实有问题时,才对该视频进行相应处置。
[0006]但是,考虑到互联网的大数据性,云盘存储应用或者视频网站每天都会接收到用户上传的大量音视频资源,完全靠人工审核费时费力,并且会造成大量遗漏。另外,人工审核使得每个网站的审核系统均自成体系,没有一个统一的标准,标准的不完善也进一步会对互联网安全造成影响。

【发明内容】

[0007]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的音视频文件检测管理方法和相应的装置。
[0008]基于本发明的一个方面,本发明实施例提供了一种音视频文件检测管理方法,包括:
[0009]从存储有音视频文件的网站获取所述音视频文件对应的音视频元数据;
[0010]根据预设规则对所述音视频元数据进行初步筛选,以对所述音视频文件进行分类;
[0011]依据分类结果对所述音视频文件中的至少一部分进行深度分析,得到针对被分析音视频文件的判别结果;
[0012]根据所述判别结果检测所述被分析音视频文件是否为特定类型的音视频文件。
[0013]可选地,所述依据分类结果对所述音视频文件中的至少一部分进行深度分析,得到针对被分析音视频文件的判别结果的步骤进一步包括:
[0014]根据所述分类结果获取所述被分析音视频文件;
[0015]提取所述被分析音视频文件的至少一个特征数据;
[0016]对提取的特征数据进行信息识别操作,以判断所述提取的特征数据中是否包含特定类型的信息;
[0017]依据所述信息识别操作的结果,得到所述判别结果。
[0018]可选地,所述从存储有音视频文件的网站获取所述音视频文件对应的音视频元数据的步骤进一步包括:
[0019]通过网站数据上传接口向各网站发送元数据获取请求,并通过各网站数据上传接口接收各网站应答所述元数据获取请求所上传的音视频元数据;
[0020]或者
[0021]通过与各网站对应的网站数据上传接口接收各网站主动上传的音视频元数据。
[0022]可选地,在一定的时间段内,各网站所更新的音视频资源在其数据库中所占存储比达到一定的百分比时主动上传音视频元数据;
[0023]或者,
[0024]在一定的时间段内,各网站所更新的音视频资源的总量达到一定的数值时主动上传音视频元数据;
[0025]或者
[0026]每隔固定或不定时间段,各网站主动上传音视频元数据。
[0027]可选地,所述网站数据上传接口的数量为一个或多个,
[0028]当所述网站数据上传接口为一个时,通过该网站数据上传接口接收各网站上传的音视频元数据;
[0029]当所述各网站数据上传接口为多个时,根据包括网站数据上传接口与各网站绑定关系的预配置信息,通过各网站数据上传接口分别接收与各网站数据上传接口绑定的各网站上传的音视频元数据。
[0030]可选地,所述根据预设规则对所述音视频元数据进行初步筛选的步骤进一步包括:
[0031]根据预设的黑白名单规则对所述音视频元数据进行初步筛选对比;
[0032]若所述音视频元数据与黑名单规则匹配,则筛选其为不可信任数据;
[0033]若所述音视频元数据与白名单规则匹配,则筛选其为可信任数据;
[0034]若所述音视频元数据与黑白名单规则均不匹配,则筛选其为需进一步深度分析的未识别数据。
[0035]可选地,设置所述黑白名单规则的参数包括下列至少之一:
[0036]所述音视频元数据的IP地址;
[0037]所述音视频元数据的email来源;
[0038]所述音视频元数据的MD5标识;
[0039]所述音视频元数据的后缀名;
[0040]所述音视频元数据的下载地址;
[0041 ] 所述音视频元数据的文件摘要。
[0042]可选地,所述提取所述被分析音视频文件的至少一个特征数据的步骤进一步包括:
[0043]对于视频文件,提取其中的至少一帧画面和/或至少一个语音片段作为特征数据;和/或
[0044]对于音频文件,提取其中的至少一个语音片段作为特征数据。
[0045]可选地,所述对于视频文件,提取其中的至少一帧画面作为特征数据的步骤进一步包括:
[0046]根据视频文件的时间轴走向,在至少一个时间点提取对应帧的画面作为特征数据。
[0047]可选地,根据视频文件的时间轴走向,在至少一个时间点提取对应帧的画面的步骤进一步包括下列至少之一:
[0048]在所述时间轴上随机选择任意时间点,提取对应帧的画面;
[0049]集中在所述时间轴的某个时间段内进行提取若干帧的画面;
[0050]每隔固定时间在对应时间点提取对应帧的画面以生成规则样本选集;
[0051]间隔不固定时间在对应时间点提取对应帧的画面以生成不规则样本选集。
[0052]可选地,所述对提取的特征数据进行信息识别操作,以判断所述提取的特征数据中是否包含特定类型的信息的步骤进一步包括:
[0053]对作为特征数据的帧画面进行信息识别,得到所述帧画面的表达信息,其中,所述表达信息包括所述帧画面上的文字信息和/或所述帧画面的图形信息;
[0054]对所述表达信息进行识别操作,以判断出该帧画面上是否以文字和/或图形的方式包含特定类型的信息。
[0055]可选地,所述表达信息包括徽标LOGO。
[0056]可选地,所述对于音频文件和/或视频文件,提取其中的至少一个语音片段作为特征数据的步骤进一步包括:
[0057]根据音频文件和/或视频文件的时间轴走向,提取至少一个时间段的语音片段作为特征数据。
[0058]可选地,所述根据音频文件和/或视频文件的时间轴走向,提取至少一个时间段的语音片段的步骤进一步包括:
[0059]在所述时间轴上随机选择任意时间段,提取对应的语音片段;
[0060]集中在所述时间轴的某个时间段内进行提取若干语音片段;
[0061]每隔固定时间段提取固定时长的语音片段以生成规则样本选集,;
[0062]间隔不固定时间段提取固定时长或可变时长的语音片段以生成不规则样本选集;
[0063]若视频文件提取了至少一帧画面作为特征数据时,提取与所述至少一帧画面对应的语音片段。
[0064]所述对提取的特征数据进行信息识别操作,以判断所述提取的特征数据中是否包含特定类型的信息的步骤进一步包括:
[0065]对作为特征数据的语音片段进行解析,得到语音片段的语音信息;
[0066]对所述语音信息进行识别操作,以判断该语音片段中是否包含特定类型的信息。
[0067]可选地,所述对作为特征数据的语音片段进行解析,得到语音片段的语音信息的步骤进一步包括:
[0068]对所述语音片段进行语音与文本间的转换,得到语音信息;或者
[0069]对所述语音片段进行语音提取识别,得到其中的语音信息。
[0070]可选地,所述依据所述信息识别操作的结果,得到所述判别结果的步骤进一步包括:
[0071]对每个特征数据的识别结果赋予对应权值并设定在判别结果中的比值;
[0072]对当前被分析音视频文件的各识别结果进行加权处理,得到最终权值;
[0073]比较所述权值与权值阈值,得到所述判别结果。
[0074]可选地,所述依据所述信息识别操作的结果,得到所述判别结果的步骤进一步包括:
[0075]对当前被分析音视频文件的各特征数据的识别结果分别进行计数;
[0076]比较识别结果为包含特定类型的信息的特征数量和识别结果为不包含特征类型的信息的特征数量,以得到所述判别结果。
[0077]可选地,所述根据所述判别结果检测所述被分析音视频文件是否为特定类型的音视频文件之后,还包括:根据检测结果更新所述用于对音视频元数据进行初步筛选的预设规则。
[0078]可选地,所述根据检测结果更新所述用于对音视频元数据进行初步筛选的预设规则的步骤进一步包括:
[0079]对检测结果为包含特定类型的信息的音视频文件进行解析,得到与所述特定类型相关的关键参数;
[0080]将所述关键参数更新至所述预设规则中。
[0081]可选地,所述根据所述判别结果检测所述被分析音视频文件是否为特定类型的音视频文件之后,还包括:
[0082]若检测出所述被分析音视频文件为所述特定类型的音视频文件,则将其拦截;
[0083]若检测出所述被分析音视频文件并非为所述特定类型的音视频文件,则将其放行。
[0084]可选地,所述根据所述判别结果检测所述被分析音视频文件是否为特定类型的音视频文件之后,还包括:
[0085]跟踪上传识别为所述特定类型的音视频的用户在网站上的账户信息;
[0086]根据所述账户信息查找所述用户的真实身份信息。
[0087]可选地,所述跟踪上传识别为所述特定类型的音视频的用户在网站上的账户信息之后,还包括:
[0088]对该账户信息发送提醒消息;和/或
[0089]锁定或冻结该网站上的该账户。
[0090]可选地,依据分类结果对所述音视频文件中的至少一部分进行深度分析之后,还包括:
[0091]若根据所述判别结果仍无法检测所述被分析音视频文件是否为特定类型的音视频文件,则将被分析音视频文件转入人工审核机制处理。
[0092]基于本发明的另一个方面,本发明实施例还提供了一种音视频文件检测管理装置,包括:
[0093]网站数据上传接口,用于从存储有音视频文件的网站获取所述音视频文件对应的音视频元数据;
[0094]分流器,用于根据预设规则对所述音视频元数据进行初步筛选,以对所述音视频文件进行分类;
[0095]数据判别器,用于依据分类结果对所述音视频文件中的至少一部分进行深度分析,得到针对被分析音视频文件的判别结果;
[0096]检测器,用于根据所述判别结果检测所述被分析音视频文件是否为所述特定类型的音视频。
[0097]可选地,所述数据判别器还用于:
[0098]根据所述分类结果获取所述被分析音视频文件;
[0099]提取所述被分析音视频文件的至少一个特征数据;
[0100]对提取的特征数据进行信息识别操作,以判断所述提取的特征数据中是否包含特定类型的信息;
[0101]依据所述信息识别操作的结果,得到所述判别结果。
[0102]可选地,音视频文件检测管理装置还包括:
[0103]数据输出器,用于通过各网站数据上传接口向各网站发送元数据获取请求;
[0104]所述网站数据上传接口,还用于在所述数据输出器输出所述元数据获取请求之后,接收各网站应答所述元数据获取请求所上传的音视频元数据;或者,还用于接收各网站主动上传的音视频元数据。
[0105]可选地,在一定的时间段内,各网站所更新的音视频资源在其数据库中所占存储比达到一定的百分比时主动上传音视频元数据;
[0106]或者,
[0107]在一定的时间段内,各网站所更新的音视频资源的总量达到一定的数值时主动上传音视频元数据;
[0108]或者
[0109]每隔固定或不定时间段,各网站主动上传音视频元数据。
[0110]可选地,所述网站数据上传接口的数量为一个或多个,
[0111]当所述各网站数据上传接口为一个时,通过该网站数据上传接口接收各网站上传的音视频元数据;
[0112]当所述各网站数据上传接口为多个时,根据包括网站数据上传接口与各网站绑定关系的预配置信息,通过各网站数据上传接口分别接收与各网站数据上传接口绑定的各网站上传的音视频元数据。
[0113]可选地,所述分流器还用于:
[0114]根据预设的黑白名单规则对所述音视频元数据进行初步筛选
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1