视频检测的方法、装置及电子设备与流程

文档序号:27832043发布日期:2021-12-07 22:32阅读:120来源:国知局
视频检测的方法、装置及电子设备与流程

1.本技术涉及人工智能技术领域,具体而言,本技术涉及一种视频检测的方法、装置及电子设备。


背景技术:

2.随着互联网的不断发展,智能手机等移动平台的迅速崛起,以智能手机、平板为载体的短视频近年来成为一种新的内容传播形式,极大满足了人们在日常生活中,更快速方便地获取更多信息的需求。
3.随着短视频数据的爆发式增长,视频平台如何快速、准确地检测视频内容本身是否播放完整是保证平台内容质量的一个关键点,可以通过检测视频的背景音判断视频是否完整,但难以准确地检测出视频是否完整,应用场景有限。


技术实现要素:

4.本技术的目的旨在至少能解决上述的技术缺陷之一,特别是视频检测准确性不高的技术缺陷。
5.第一方面,提供了一种视频检测方法,该方法包括:
6.从待检测视频中提取音频数据和图像数据,并获取待检测视频对应的视频标签;
7.基于音频数据对应的音频频谱,获取第一检测结果;第一检测结果用于指示待检测视频的音频数据是否满足音频完整性条件;
8.若第一检测结果指示音频数据满足音频完整性条件,则基于图像数据和视频标签获取第二检测结果;第二检测结果用于指示待检测视频是否完整。
9.在第一方面的可选实施例中,基于音频数据对应的音频频谱,获取第一检测结果,包括:
10.从音频频谱中确定出目标帧信号对应的目标音频频谱;
11.若目标音频频谱满足幅值变化范围大于幅值波动阈值且在目标音频频谱中最高频率对应的幅值大于幅值阈值,则第一检测结果指示音频数据不满足音频完整性条件。
12.在第一方面的可选实施例中,从音频频谱中确定出目标帧信号对应的目标音频频谱之前,还包括:
13.对音频数据进行分帧处理,得到至少一个帧信号;
14.基于帧信号在音频数据中的排序,将排序中最后预设个数的帧信号作为目标帧信号。
15.在第一方面的可选实施例中,基于图像数据和视频标签,获取第二检测结果,包括:
16.分别获取图像数据对应的视频特征向量和视频标签对应的标签特征向量;
17.基于视频特征向量和标签特征向量之间的相似度,获取第二检测结果。
18.在第一方面的可选实施例中,视频特征向量包括至少一个子视频特征向量;基于
视频特征向量和标签特征向量之间的相似度,获取第二检测结果,包括:
19.分别计算标签特征向量和视频特征向量中每个子视频特征向量之间的相似度;
20.若标签特征向量和视频特征向量中每个子视频特征向量之间的相似度满足预设的相似条件,则第二检测结果指示待检测视频完整。
21.在第一方面的可选实施例中,预设的相似条件包括:
22.存在第一数量个子视频特征向量和标签特征向量之间的相似度大于预设的第一相似度阈值。
23.在第一方面的可选实施例中,预设的相似条件还包括:
24.确定与标签特征向量之间的相似度大于预设的第二相似度阈值的子视频特征向量的第二数量,第二数量与子视频特征向量的总数量之间的比率大于预设比率;其中,第二相似度阈值小于第一相似度阈值。
25.在第一方面的可选实施例中,还包括:
26.若第一检测结果指示音频数据不满足预设的音频完整性条件,或者第二检测结果指示待检测视频不完整,则向待检测视频对应的用户终端发送异常提示消息,异常提示消息用于提示待检测视频不完整。
27.第二方面,提供了一种视频检测的装置,该装置包括:
28.提取模块,用于从待检测视频中提取音频数据和图像数据,并获取待检测视频对应的视频标签;
29.第一检测模块,用于基于音频数据对应的音频频谱,获取第一检测结果;第一检测结果用于指示待检测视频的音频数据是否满足音频完整性条件;
30.第二检测模块,用于若第一检测结果指示音频数据满足音频完整性条件,则基于图像数据和视频标签获取第二检测结果;第二检测结果用于指示待检测视频是否完整。
31.在第二方面的可选实施例中,还包括处理模块,具体用于:
32.对音频数据进行分帧处理,得到至少一个帧信号;
33.基于帧信号在音频数据中的排序,将排序中最后预设个数的帧信号作为目标帧信号。
34.在第二方面的可选实施例中,第一检测模块在基于音频数据对应的音频频谱,获取第一检测结果时,具体用于:
35.从音频频谱中确定出目标帧信号对应的目标音频频谱;
36.若目标音频频谱满足幅值变化范围大于幅值波动阈值且在目标音频频谱中最高频率对应的幅值大于幅值阈值,则第一检测结果指示音频数据不满足音频完整性条件。
37.在第二方面的可选实施例中,第二检测模块在基于图像数据和视频标签,获取第二检测结果时,具体用于:
38.分别获取图像数据对应的视频特征向量和视频标签对应的标签特征向量;
39.基于视频特征向量和标签特征向量之间的相似度,获取第二检测结果。
40.在第二方面的可选实施例中,第二检测模块在基于视频特征向量和标签特征向量之间的相似度,获取第二检测结果时,具体用于:
41.分别计算标签特征向量和视频特征向量中每个子视频特征向量之间的相似度;
42.若标签特征向量和视频特征向量中每个子视频特征向量之间的相似度满足预设
的相似条件,则第二检测结果指示待检测视频完整。
43.在第二方面的可选实施例中,预设的相似条件包括:
44.存在第一数量个子视频特征向量和标签特征向量之间的相似度大于预设的第一相似度阈值。
45.在第二方面的可选实施例中,预设的相似条件还包括:
46.确定与标签特征向量之间的相似度大于预设的第二相似度阈值的子视频特征向量的第二数量,第二数量与子视频特征向量的总数量之间的比率大于预设比率;其中,第二相似度阈值小于第一相似度阈值。
47.在第二方面的可选实施例中,还包括发送模块,具体用于:
48.若第一检测结果指示音频数据不满足预设的音频完整性条件,或者第二检测结果指示待检测视频不完整,则向待检测视频对应的用户终端发送异常提示消息,异常提示消息用于提示待检测视频不完整。
49.第三方面,提供了一种电子设备,该电子设备包括:
50.存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例的视频检测方法。
51.第四方面,本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述任一实施例的视频检测的方法。
52.第五方面,本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行时实现第一方面实施例或第二方面实施例中所提供的方法。
53.上述的视频检测方法,对待检测视频进行解码,分离出音频数据和图像数据,先对音频数据的完整性进行检测,若音频数据完整,再基于视频特征向量和标签特征向量之间的相似度确定视频内容是否完整。通过结合视频的音频数据和图像数据判断视频是否完整,可以提高视频内容完整性判断的准确性。
54.进一步的,在音频数据完整的基础上才进行图像数据的完整性判断,可以先对视频进行初步筛选,从而提高视频内容完整性判断的效率。
附图说明
55.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
56.图1为本技术实施例提供的一种视频检测方法的流程示意图;
57.图2为本技术实施例提供的一种视频检测方法中的对音频文件进行分帧的示意图;
58.图3为本技术实施例提供的一种视频检测方法中的选取目标帧信号的示意图;
59.图4为本技术实施例提供的一种视频检测方法的流程示意图;
60.图5为本技术实施例提供的一种视频检测方法的流程示意图;
61.图6为本技术实施例提供的一种视频检测方法中的3d卷积的示意图;
62.图7为本技术实施例提供的一种视频检测方法中的3d卷积模型结构的示意图;
63.图8为本技术实施例提供的一种视频检测方法中的3d卷积的流程示意图;
64.图9为本技术实施例提供的一种视频检测方法中的transformer模型编码器的示意图;
65.图10为本技术实施例提供的一种视频检测方法中的transformer模型解码器的示意图;
66.图11为本技术实施例提供的一种视频检测方法的流程示意图;
67.图12为本技术实施例提供的一种视频检测方法的流程示意图;
68.图13为本技术实施例提供的一种视频检测装置的结构示意图;
69.图14为本技术实施例提供的一种视频检测的电子设备的结构示意图。
具体实施方式
70.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能解释为对本技术的限制。
71.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
72.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
73.随着互联网发展,第五代移动通信技术(5g,5th generation mobile networks)越来越多地被各个领域提及,高速率低时延的信息传输,将无处不在。
74.网速的提升,让人们更容易获取信息和分享自我,例如,人们在生活中的偶然灵感可以随时上传至网络平台,全球用户可以同步阅读、评论、转发,个人所有的思想和观点能够在全球的信息网络中延伸、保存、碰撞、交流。人们表达自我思想的载体不再局限于文字和图片,可以将随手拍摄短视频快速上传至网络平台,与其他用户进行互动。
75.随着越来越多的用户参与短视频的拍摄和分享,视频平台需要快速、准确地对用户上传的视频进行检测,以保证视频平台的内容质量。例如,视频平台需要对视频是否完整进行检测,防止视频平台出现标题和视频内容不符以及视频内容不完整的情况,通常使用的检测方法是利用人工智能技术检测视频标题和视频音频的相关性,来判断视频是否完整。
76.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
77.通过人工智能技术分别提取视频标题和视频音频的特征,再进一步判断两者的相关性,实现判断视频完整性的效果,但该方法应用场景有限,当音频包含的信息比较少,或者音频中干扰和噪音较多时,可能会判断失误,导致准确性不够高,用户满意度下降。
78.本技术涉及多模态的机器学习方法(multimodal machine learning,mmml)。其中,每一种信息的来源或者形式,都可以称为一种模态(modality),模态也可以有非常广泛的定义,比如可以把两种不同的语言当作是两种模态,也可以把在两种不同情况下采集到的数据集认为是两种模态。多模态的机器学习,旨在通过机器学习的方法实现处理和理解多源模态信息的能力,例如图像、视频、音频、语义之间的多模态学习。
79.本技术提供的视频检测方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。
80.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
81.本技术实施例中提供的视频检测的方法,该方法可以应用于服务器,也可以应用于终端。
82.本技术领域技术人员可以理解,这里所使用的“终端”可以是手机、平板电脑、pda(personal digital assistant,个人数字助理)、mid(mobile internet device,移动互联网设备)等;“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
83.本技术实施例中提供了一种视频检测的方法,如图1所示,该方法包括:
84.步骤s101,从待检测视频中提取音频数据和图像数据,并获取待检测视频对应的视频标签。
85.在本技术实施例中,音频数据和图像数据可以分别指音频文件和图像文件,即可以从待检测视频中分离出音频文件和图像文件,也可以是指其他的数据形式。待检测视频可以来自用户上传的未通过审核的视频,即用户在视频平台上传待发布视频,并可以填写视频相关的文字信息,由视频审核系统进行视频完整性检测。
86.在另一些实施方式中,待检测视频还可以来从已发布视频中选择,例如每隔一段时间,在已发布的视频库中随机抽取固定数量的视频作为待检测视频,实现对已发布视频进行复核的效果,若复核不过,可以将视频退回至投稿用户,让投稿用户进行修改。
87.其中,视频标签可以是指用户在上传视频时填写的视频相关的文字信息,可以是指视频标题,可以是指用户填写的视频简介,还可以是指用户设置的视频标签,例如“运动”、“美食”和用户参与平台活动的专属标签等等。
88.在本技术实施例中,可以对待检测视频进行解码,得到待检测视频的音频数据和图像数据,便于下一步分别对音频数据和图像数据进行分析。
89.其中,可以通过ffmpeg工具分离待检测视频中的音频数据和图像数据。ffmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。
90.步骤s102,基于所述音频数据对应的音频频谱,获取第一检测结果,其中,第一检测结果用于指示待检测视频的音频数据是否满足音频完整性条件。
91.在本技术实施例中,可以对音频数据进行处理得到音频数据对应的音频频谱,例如对音频数据进行傅里叶变换,得到音频数据对应的音频频谱。
92.其中,频谱是频率谱密度的简称,是频率的分布曲线。可以将复杂振荡分解为振幅不同和频率不同的谐振荡,这些谐振荡的幅值按频率排列的图形叫做频谱。频谱广泛应用于声学、光学和无线电技术等方面,将对信号的研究从时域引入到频域,从而带来更直观的认识。
93.可以对音频频谱进行分析,来判断待检测视频的音频数据是否完整,从而获取第一检测结果。具体的,可以通过音频频谱中声音的频率范围是否满足预设的音频完整性条件,确定待检测视频是否有吞音现象或者异常结束现象。
94.其中,满足预设的音频完整性条件可以是指在音频末尾的一小段音频对应的音频频谱频率范围小于预设的频率差值,也可以是音频数据结尾处对应的频谱满足声音正常减小至消失的频率分布。
95.其中,第一检测结果可以用于表示音频数据的完整性,若第一检测结果提示音频数据不满足预设的音频完整性条件,可以直接认为待检测视频不完整,暂停视频审核流程,将待检测视频退回给投稿用户。
96.本技术实施例中先对待检测视频的音频数据的完整性进行检测,该流程耗时极短,若第一检测结果为音频数据不完整,就不用再进行一步检测流程,提高了视频完整性的检测效率。
97.步骤s103,若所述第一检测结果指示音频数据满足音频完整性条件,则基于图像数据和视频标签获取第二检测结果;所述第二检测结果用于指示待检测视频是否完整。
98.在本技术实施例中,若第一检测结果指示音频数据完整,则可以进一步通过图像数据和视频标签来确定待检测视频的完整性。图像数据可以是指从待检测视频中分离出的图像数据,可以将图像数据的内容与视频标签内容做比较,来确定视频标签中的内容是否被待检测视频展示完整。第二检测结果可以用于指示待检测视频是否完整,若待检测视频不完整,可以向用户终端发送提示消息。
99.上述实施例中,对待检测视频进行解码,分离出音频数据和图像数据,先对音频数据的完整性进行检测,若音频数据完整,再基于视频特征向量和标签特征向量之间的相似度确定视频内容是否完整。通过结合视频的音频数据和图像数据判断视频是否完整,可以提高视频内容完整性判断的准确性。进一步的,在音频数据完整的基础上才进行图像数据的完整性判断,可以先对视频进行初步筛选,从而提高视频内容完整性判断的效率。
100.在本技术实施例中,可以对音频数据进行处理得到音频数据对应的音频频谱,可以包括如下步骤:
101.(1)对音频数据进行分帧处理,得到至少一个帧信号。
102.在本技术实施例中,可以先对音频数据进行分帧处理得到帧信号,再将帧信号作为傅里叶变换的输入信号。
103.其中,傅里叶变换可以被用于语音处理领域,可以将信号从时域转变为频域,更好地分析信号的特征,一般对平稳信号的分析效果较好。对于较复杂的音频数据,可以先对音频数据进行分帧处理,将较短时间内的一小段音频作为一个帧信号,近似地将帧信号看作平稳信号,以便作为傅里叶变换的输入信号。
104.具体的,可以通过可移动的有限长度窗口进行加权的方法来实现分帧操作,即用窗函数ω(n)来乘音频信号s(n)。对窗函数的要求为:时间窗两端的坡度较小,使窗口边缘
两端不引起急剧变化而平滑过渡到零,使使使截取出的帧信号波形缓慢降为零,减小帧信号的截断效应;在频域要有较宽的3db带宽以及较小的边带最大值。通过满足上述条件的窗函数使帧信号的幅度在两端渐变到0,让频谱上的各个峰更细,减轻频谱泄漏。
105.同时,加窗时会使帧信号两端被削弱,因此,截取帧信号时相邻帧信号可以有互相重叠的部分,相邻两帧的起始位置的时间差叫做帧移。帧移可以取帧长的一半,或者固定取为10毫秒,而帧长一般可以取20~50毫秒。
106.在本技术实施例中,可以选择的窗函数有:矩形窗、汉宁窗、海明窗和布莱克曼窗等。
107.在一个示例中,如图2所示,获取一段待分帧的音频数据,设帧长为n,帧移为n/2,则确定每个信号帧长度的方法可以如图所示,第k帧和第k+1帧之间重合长度为n/2,第k+1帧和第k+2帧之间重合长度为n/2以此次类推。
108.(2)将至少一个帧信号中的每个帧信号进行傅里叶变换,得到音频频谱;音频频谱包括至少一个帧信号中的每个帧信号对应的短时频谱。
109.在本技术实施例中,可以对至少一个帧信号中的每个帧信号进行傅里叶变换,得到每个帧信号对应的短时频谱。待检测视频的音频数据对应的音频频谱,可以包括至少一个帧信号中的每个帧信号对应的短时频谱。
110.傅里叶变换可以将信号从时域转变为频域,更好地分析信号的特征,一般对平稳信号的分析效果较好。而本技术中的帧信号可以近似地看作平稳信号,平稳信号是指分布参数或者分布律随时间不发生变化的信号。
111.在本技术实施例中,从待检测视频中提取音频数据和图像数据之后,可以对音频数据进行分帧处理,得到至少一个帧信号,然后可以从至少一个帧信号中选择出至少一个目标帧信号,目标帧信号可以缩小需要分析的音频频谱范围,更加有效率地判断音频数据是否以吞音、或者异常终止而结束。具体的,可以基于所述至少一个帧信号在所述音频数据中的排序,将所述排序中最后预设个数的帧信号设为作为所述目标帧信号。排序可以是指至少一个帧信号在音频数据中的播放顺序,取排序中最后预设个数的帧信号设为作为所述目标帧信号,来进行重点检测,可以有效检测音频是否以吞音、或者异常终止而结束。
112.在本技术实施例中,目标帧信号可以是指音频数据最后预设时间对应的帧信号。例如,可以将音频数据最后5秒对应的帧信号设为目标帧信号。
113.其中,目标帧信号的个数,可以是预设的固定值,例如将播放时间为最后的100个帧信号设为目标帧信号。目标帧信号的个数也可以根据音频数据分帧后得到的帧信号总个数来确定,例如取信号帧总个数的1%,再取整的数值设为目标帧信号的预设个数。
114.在一个示例中,如图3所示,帧长设为20毫秒,将音频数据分帧后得到10000个帧信号,取信号帧总个数的1%为目标帧信号个数,即目标帧信号的预设个数为100个,则可以取在该音频数据中播放时间为最后的100个的帧信号设为目标帧信号。如图3所示,根据帧信号在音频数据中的播放顺序,取倒数100个帧信号为目标帧信号。
115.在本技术实施例中,基于音频数据对应的音频频谱,获取第一检测结果,可以包括如下步骤:
116.(1)从音频频谱中确定出目标帧信号对应的目标音频频谱。
117.其中,音频频谱可以由至少一个帧信号中的每个帧信号进行傅里叶变换后获得,
音频频谱可以包括至少一个帧信号对应的短时频谱。目标帧信号可以从至少一个帧信号中筛选所得,而音频频谱中的目标音频频谱可以包括每个目标帧信号对应的短时频谱。
118.(2)若目标音频频谱满足幅值变化范围大于幅值波动阈值且在目标音频频谱中最高频率对应的幅值大于幅值阈值,则第一检测结果指示音频数据不满足音频完整性条件。
119.具体的,可以检测目标音频频谱包括的每一短时频谱是否满足幅值变化范围大于幅值波动阈值且最高频率对应的幅值大于幅值阈值,若满足,则可以认为音频数据不满足音频完整性条件。其中,目标音频频谱中的最高频率可以是指所有目标帧信号对应的短时频谱中的最高频率,也可以是针对每一目标帧信号对应的短时频谱中,各个短时频谱自己的最高频率。目标帧信号幅值波动阈值和幅值阈值可以根据实际的应用场景进行设置。
120.还可以确定目标帧信号对应的短时频谱中满足幅值变化范围大于幅值波动阈值且最高频率对应的幅值大于幅值阈值条件的短时频谱的频谱数量,检测频谱数量是否大于等于预设的频谱数量阈值。例如,可以将频谱数量阈值设置为4,若在目标音频频谱中,满足条件的短时频谱个数大于等于4,则可以令第一检测结果指示所述音频数据不满足音频完整性条件,即音频数据检测结果为不完整。
121.在一些实施例中,可以先对音频数据进行分帧处理,得到至少一个帧信号,对每个帧信号都进行傅里叶变换,得到音频频谱,然后可以从至少一个帧信号中选择出目标帧信号,通过目标帧信号对应的频谱来判断音频数据是否完整。
122.在另一些实施例中,在对音频数据进行分帧处理,得到至少一个帧信号后,可以先从至少一个帧信号中选择出目标帧信号,再对目标帧信号进行傅里叶变换,除了目标帧信号以外的其他帧信号可以不进行傅里叶变换,以提高分析音频数据的效率。
123.本技术实施例中先对待检测视频的音频数据的完整性进行检测,该流程耗时极短,若第一检测结果为音频数据不完整,就不用再进行一步检测流程,提高了视频完整性的检测效率。
124.在一个示例中,获取第一检测结果的流程可以如图4所示,可以先对音频数据进行分帧,得到至少一个帧信号,可以对每个帧信号都进行傅里叶变换,得到每个帧信号对应的短时频谱,然后从至少一个帧信号从确定出目标帧信号,对目标帧信号对应的短时频谱进行分析,得到第一检测结果。若目标帧信号对应的短时频谱结束时异常波动或者以高点结束,则第一检测结果为音频数据不完整。除了目标帧信号以外的帧信号对应的短时频谱可以用于其他内容检测,例如,其余帧信号对应的短时频谱可以用于对音频数据进行语音识别。
125.其中,语音识别中最基础、最常用的mfcc(梅尔倒频谱系数,mel frequency cepstral coefficents)特征的提取步骤中包括对每个帧信号做傅里叶变换,得到每个帧信号对应的短时频谱,然后再通过梅尔滤波器组、离散余弦变换等流程完成语音特征提取。
126.在一个示例中,获取第一检测结果的流程可以如图5所示,在音频数据分为至少一个帧信号后,先从至少一个帧信号中确定出预设个数的目标帧信号。预设个数可以是预设的固定值,例如将播放时间为最后的100个帧信号设为目标帧信号。预设个数也可以根据音频数据分帧后得到的信号帧总个数来确定,例如取帧信号总个数的1%,再取整的数值设为目标帧信号的预设个数。可以在确定出目标帧信号后,对每个目标帧信号进行傅里叶变换,获取每个目标帧信号对应的短时频谱,对每个目标帧信号对应的短时频谱进行分析,得到
第一检测结果。通过先对帧信号进行筛选,得到目标帧信号,再进行傅里叶变换,可以提高音频数据完整性的分析效率。
127.在本技术实施例中,基于图像数据和所述视频标签,获取第二检测结果,可以包括:分别获取所述图像数据对应的视频特征向量和所述视频标签对应的标签特征向量;基于所述视频特征向量和所述标签特征向量之间的相似度,获取第二检测结果。
128.具体的,可以从图像数据中提取特征,得到视频特征向量;可以从视频标签中提取特征,得到标签特征向量。可以基于视频特征向量和标签特征向量确定待检测视频的图像数据和视频标签之间的关联性,从而确定待检测视频是否完整。
129.在本技术实施例中,可以计算视频特征向量和标签特征向量之间的相似度,来确定待检测视频的图像数据和视频标签之间的关联性。
130.若相似度较高,即待检测视频的图像数据和视频标签之间有较强的关联性,可以令第二检测结果提示待检测视频完整,然后可以对待检测视频进行其他审核,例如敏感内容等审核流程;若相似度较低,即待检测视频的图像数据和视频标签之间的关联性较弱,可以令第二检测结果提示待检测视频不完整,并进行相应的处理。例如,可以将待检测视频退回至投稿用户的用户终端,提示用户对待检测视频进行修改,还可以对投稿用户提示修改视频标签,使视频标签更加贴合待检测视频的视频内容,而已上传的视频内容可以不修改。
131.在本技术实施例中,视频特征向量可以包括至少一个子视频特征向量;分别获取图像数据对应的视频特征向量和视频标签对应的标签特征向量,可以包括如下步骤:
132.(1)对图像数据进行抽帧处理,得到至少一个视频帧;对至少一个视频帧进行分组,得到至少一组子视频帧;
133.(2)分别提取每一组子视频帧的特征,得到至少一个子视频特征向量。
134.在本技术实施例中,将待检测视频的图像数据和音频数据分离之后,可以对图像数据进行抽帧处理,实现简化计算量,提高检测效率的效果。
135.具体的,可以通过opencv或者ffmpeg对图像数据进行抽帧处理。其中,opencv是一个开源发行的跨平台计算机视觉和机器学习软件库,而ffmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序,两者都可以便捷地实现对待检测视频的图像数据进行抽帧,得到至少一个视频帧。可以理解的是,视频帧的本质为图像数据。
136.可以设置固定的抽帧的间隔,例如每秒平均抽5帧,还可以根据待检测视频的时长来调整抽帧的间隔,当待检测视频时长较长时,可以将抽帧间隔调大;当待检测视频时长较短时,可以将抽帧间隔调小,灵活地进行设置。
137.在本技术实施例中,可以对图像数据进行抽帧,得到至少一个视频帧,然后可以对至少一个视频帧进行分组,得到至少一组子视频帧,提取至少一组子视频帧中每组子视频帧的特征,得到每组子视频帧对应的子视频特征向量。
138.其中,可以通过已经训练好的深度学习模型来提取每组子视频帧的特征,得到每组子视频帧对应的子视频特征向量。深度学习模型可以主要包括3d卷积层和3d池化层。
139.3d池化层可以是指最大池化(maxpooling),即对邻域内特征点取最大值,能很好地保留纹理特征,并记住最大值的索引位置,以方便反向传播。
140.3d卷积层是通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用3d卷积核。在这个结构中,卷积层中每一个特征图(map)都会与上一层中多个邻近的连续帧相连,
因此捕捉运动信息。在一个示例中,如图6所示,一个大小为3
×3×
3的卷积核在立方体上进行卷积,得到输出。
141.在本技术实施例中,深度学习模型可以主要包括3d卷积层和3d池化层,其内部结构可以如图7所示,由三层3d卷积层和两层池化层交错组成,对每一组子视频帧进行特征提取,最后一层是嵌入层(embedding),将大型稀疏向量转换为保留特征关系的低维空间,获得每一组子视频帧对应的子视频特征向量。
142.在本技术实施例中,已经训练好的深度学习模型可以为3d卷积神经网络(convolutional neural network,cnn)架构,如图8所示。
143.可以将每一组子视频帧作为模型的输入,例如,每一组子视频帧可以为连续的7帧,则可以将这连续的7帧作为模型第一层的输入。模型的第一层可以是硬线层(hardwired,h1),用于对原始的帧进行处理,产生多个通道的信息,编码了对特征的先验知识,比随机初始化性能更好。具体的,硬线层提取每组子视频帧中每一个视频帧五个通道的信息,分别是:灰度、x和y方向的梯度,x和y方向的光流,前面三个通道都可以针对每帧来计算,而水平和垂直方向的光流场需要两个连续帧确定。
144.模型的第二层可以是3d卷积层(convolution,c2),以硬线层的输出作为该层的输入,对输入的五个通道的信息分别进行卷积操作。在此层,若要增加特征图的个数,可以用不同的3d卷积核进行卷积。
145.模型的第三层可以是降采样层(sub

sampling,s3),采用最大池化操作,降采样后特征图数量保持不变,但分辨率会降低。
146.模型的第四层可以是3d卷积层(convolution,c4),同理,若要增加特征图的数量,可以使用多种不同的卷积核对特征图进行卷积操作。
147.模型的第五层可以是降采样层(sub

sampling,s5),对每个特征图进行降采样操作,此时,每个通道的特征图已经很小。
148.模型的第六层可以是3d卷积层(convolution,c6),此时,时间维上的视频帧个数已经很小了,因此该层可以只在空间维度上面卷积,输出的特征图可以被减小到1x1的大小,也就是一个值,作为最终获得的子视频帧对应的子视频特征向量。例如,c6层中有128个特征图,则最终得到的特征向量有128维。
149.经过多层的卷积和下采样后,每连续一组子视频帧都被转化为一个多维的特征向量,这个特征向量捕捉了输入帧的运动信息。
150.在本技术实施例中,对深度学习模型内3d池化和3d卷积层之间的顺序不作限制,卷积核大小的设置也可以根据视频分辨率调整。
151.(3)提取视频标签的特征,得到视频标签对应的标签特征向量。
152.在本技术实施例中,视频标签可以是指用户在上传视频时填写的视频相关的文字信息,可以是指视频标题,可以是指用户填写的视频简介,还可以是指用户设置的视频标签,例如“运动”、“美食”和用户参与平台活动的专属标签等等。
153.在本技术实施例中,视频标签可以是指视频标题,可以通过深度学习领域中的嵌入(embedding)层来实现分词和向量化,将大型稀疏向量转换为保留语义关系的低维空间,减少资源占用的同时并保留词之间的内在语义关系。
154.在本技术实施例中,在将视频标签输入嵌入层后,得到视频标签中每个词对应的
词向量,可以通过transformer模型来进一步提取视频标签的特征,得到视频标签的特征向量。transformer模型可以大致分解为编码组件、解码组件和它们之间的连接层组成,编码组件可以由6个编码器组成,而解码组件可以由6个解码器组成。
155.在本技术实施例中,编码器的结构可以如图9所示,x1和x2可以是输入自注意力层的两个词向量,z1和z2可以是经过自注意力层处理后,x1和x2对应的输出,然后将z1和z2变换为矩阵形式,与残差块进行求和,再归一化,得到z1’和z2’,可以将z1’和z2’输入前馈神经网络,以同样的方法与残差块进行求和再归一化,完成单层子结构对词向量的编码过程。
156.其中,自注意力层可以是自注意力机制(self

attention),随着输入待处理序列的每个单元,自注意力会关注整个输入序列的所有单元,将所有相关单元的理解融入正在处理的单元中,对编码过程进行辅助。其中自注意力机制可以是单头注意力机制,也可以是多头注意力机制(multi

head attention),使用多头注意力机制可以增加模型捕获不同位置信息的能力,可以和更多位置上的词关联起来;在进行映射时不共享权值,映射到不同的子空间,最后拼接的向量涵盖的信息会更广。增加多头注意力机制的头数,可以提高模型的长距离信息捕捉能力。
157.前馈神经网络(ffn,feed

forward networks)可以是单向多层结构,其中每一层包含若干个神经元,各神经元可以接收前一层神经元的信号,并产生输出到下一层。具体的,前馈神经网络可以采用全连接层实现,全连接层可以是一个两层的神经网络组成,先进行线性变换,再进行relu非线性变换,最后再进行线性变换。
158.归一化(normalize)的方法包括多种,可以是layer normalization(ln,横向规范化),可以是batch normalization(bn,纵向规范化),还可以是weight normalization(wn,参数规范化)。
159.残差块可以防止在深度神经网络训练中发生退化,缓解了在深度神经网络中增加深度带来的梯度消失问题,残差块的获取可以通过残差网络(residual network,resnet)实现。
160.在本技术实施例中,单个解码器的结构可以如图10所示,可以包括:含有掩码的多头注意力机制(masked multi

head attention)、多头注意力机制(multi

head attention)和反馈神经网络(ffn,feed

forward networks)。
161.在本技术实施例中,视频标签可以是指视频简介,针对段落型文本,可以通过word2vec将视频标签转化为标签特征向量。具体的,可以用视频库中的大量视频标签对word2vec模型进行预训练,得到词向量集合,该词向量集合包含了词与词向量的映射关系,可以用于将词转化为对应的词向量,可以根基词向量集合确定视频标签分词后每个词对应的词向量,对得到的词向量进行累加和归一化,得到视频标签对应的标签特征向量。
162.在本技术实施例中,视频特征向量包括至少一个子视频特征向量;基于视频特征向量和标签特征向量之间的相似度,获取第二检测结果,可以包括如下步骤:分别计算标签特征向量和视频特征向量中每个子视频特征向量之间的相似度;若标签特征向量和视频特征向量中每个子视频特征向量之间的相似度满足预设的相似条件,则第二检测结果指示待检测视频完整。
163.在本技术实施例中,可以分别计算标签特征向量和视频特征向量中每个子视频特征向量之间的相似度,例如,存在100个子视频特征向量,则可以计算获取与100个子视频特
征向量中每个子视频特征向量对应的相似度。具体的,相似度可以是指余弦相似度,原理为两个向量的夹角越接近于0,其余弦值越接近于1,表明两个向量越相似,进而体现每组子视频帧与视频标签的关联性。可以基于每组子视频帧与视频标签的关联性,确定待检测视频和视频标签的关联性,从而检测视频是否播放了与视频标签有关的内容。
164.具体的,若待检测视频的图像数据和视频标签之间有较强的关联性,可以将第二检测结果设为待检测视频完整,然后可以对待检测视频进行其他审核,例如敏感内容等审核流程;若待检测视频的图像数据和视频标签之间的关联性较弱,可以将第二检测结果设为待检测视频不完整,并进行相应的处理。
165.在本技术实施例中,预设的相似条件可以包括:存在第一数量个视频特征向量和标签特征向量之间的相似度大于预设的第一相似度阈值。
166.具体的,第一相似度阈值可以是一个较高的数值,存在第一数量个子视频特征向量和标题特征向量之间的相似度大于第一相似度阈值时,可以认为待检测视频内容完整,令第二检测结果提示待检测视频内容完整,进入其他检测环节或者在平台进行公开。
167.在本技术实施例中,预设的相似条件还包括:确定与标签特征向量之间的相似度大于预设的第二相似度阈值的子视频特征向量的第二数量,第二数量与子视频特征向量的总数量之间的比率大于预设比率;其中,第二相似度阈值小于第一相似度阈值。
168.具体的,第二数量是指与标签特征向量之间的相似度大于预设的第二相似度阈值的子视频特征向量的个数,计算获取第二数量和子视频特征向量的总数量之间的比率,该比率可以表示与视频标签相关性较强的视频内容占待检测视频的比例,若比率达到预设的比率,则可以认为待检测视频完整。第二相似度阈值作为统计待检测视频中与视频标签相关性内容占比的条件,可以小于第一相似度阈值。
169.在本技术实施例中,可以将同时满足上述两个条件的待检测视频对应的第二检测结果设为待检测视频内容完整。
170.例如,第一相似度阈值可以设为0.9,第二相似度阈值可以设置为0.6,预设比率可以设为0.6。待检测视频对应的10个子视频特征向量与标签特征向量之间的相似度分别如下:0.22、0.46、0.61、0.73、0.84、0.92、0.83、0.75、0.69、0.56。其中,存在一个子视频特征向量与标签特征向量之间的相似度为0.92大于第一相似度阈值0.9;在10个子视频特征向量中,存在7个子视频特征向量与标签特征向量之间的相似度大于第二相似度阈值0.6,与子视频特征向量的总数的比率为0.7,大于预设比率0.6,同时满足上述两种条件,则可以设第二检测结果为待检测视频内容完整。
171.在本技术实施例中,待检测视频的图像数据可以先抽帧再分组,得到至少一组子视频帧,则上述相关性占比的条件还可以是指:确定与标签特征向量之间的相似度大于预设的第二相似度阈值的至少一个子视频特征向量,计算满足条件的至少一个子视频特征向量中每一个子视频特征向量对应的子视频帧在图像数据中比率,若比率大于预设比率,则可以将第二检测结果设为待检测视频内容完整。
172.在本技术实施例中,若第一检测结果指示音频数据不满足预设的音频完整性条件,或者第二检测结果指示待检测视频不完整,则向待检测视频对应的用户终端发送异常提示消息,异常提示消息用于提示待检测视频不完整。
173.例如,若第一检测结果提示音频数据不满足预设的音频完整性条件,可以将第一
检测结果发送至待检测视频对应的用户终端;接收用户终端返回的新的待检测视频。
174.若第二检测结果为待检测视频内容不完整,可以将第二检测结果发送至待检测视频对应的用户终端;接收用户终端返回的新的视频标签。
175.具体的,音频完整性检测过程耗时较短,若第一检测结果提示音频数据不满足预设的音频完整性条件,可以不再进行下一步检测,直接认为待检测视频不完整,并且将第一检测结果发送至待检测视频对应的用户终端,等待接受用户终端返回的新的待检测视频,实现提高视频内容检测效率的效果。
176.若第二检测结果为待检测视频内容不完整,可以将第二检测结果发送至待检测视频对应的用户终端,第二检测结果将提示投稿用户待检测视频内容不完整,请投稿用户重新输入新的视频标签,服务器接收用户终端返回的新的视频标签。
177.在本技术实施例中,服务器在生成第一检测结果后,可以基于第一检测结果生成第一提示信息,用于更清楚地表示待检测视频不完整,提示待检测视频对应的投稿用户重新上传新的待检测视频,服务器可以接受用户终端返回的新的待检测视频,并且重新对待检测视频进行视频内容完整性检测流程。同理,在服务器生成第二检测结果后,基于第二检测结果生成第二提示信息,用于提示用户视频内容不完整,与视频标签关联性较弱,提示投稿用户对视频标签进行更改。服务器接收用户终端发送的新的视频标签后,无需再对待检测视频内容进行分析,可只对新的视频标签进行特征提取,得到新的标签特征向量,然后计算已提取到待检测视频的视频特征向量和新的标签特征向量之间的相似度,重新进行视频内容完整性检测。
178.为了更清楚阐释本技术的视频检测方法,以下将结合具体示例对视频检测方法进行进一步说明。
179.在一个实施例中,本技术提供视频检测方法,如图11,包括如下步骤:
180.步骤s1101,获取待检测视频以及待检测视频对应的视频标签;其中,视频标签可以是视频标题,可以是视频内容简介;
181.步骤s1102,从待检测视频中提取音频数据和图像数据;
182.步骤s1103,对音频数据进行分帧处理,得到至少一个帧信号;其中,帧长可以为20~50ms。
183.步骤s1104,将至少一个帧信号中的每个帧信号进行傅里叶变换,得到音频频谱;音频频谱包括至少一个帧信号中的每个帧信号对应的短时频谱;
184.步骤s1105,确定每一帧信号对应在音频数据中的播放时间,将播放时间为最后的预设个数的帧信号设为目标帧信号,针对每一目标帧信号,确定该目标帧信号在音频频谱中对应的短时频谱;
185.步骤s1106,对至少一个目标帧信号分别对应的短时频谱进行检测,得到第一检测结果,第一检测结果用于表示音频数据的完整性;
186.步骤s1107,第一检测结果是否提示音频数据满足预设的音频完整性条件,若是,进入步骤s1109,否则,进入步骤s1108;
187.步骤s1108,将第一检测结果发送至待检测视频对应的用户终端;接收用户终端返回的新的待检测视频,进入步骤s1102;
188.步骤s1109,分别获取图像数据对应的视频特征向量和视频标签对应的标签特征
向量;其中,视频特征向量包括至少一个子视频特征向量;可以通过3d卷积提取图像数据的特征,可以通过transformer模型提取视频标签的特征;
189.步骤s1110,分别计算标题特征向量和视频特征向量中每个子视频特征向量之间的相似度;
190.步骤s1111,基于标签特征向量和视频特征向量中每个子视频特征向量之间的相似度,获取第二检测结果;
191.步骤s1112,第二检测结果是否为待检测视频内容完整,若是,则进入步骤s1114,否则,进入步骤s1113;
192.步骤s1113,将第二检测结果发送至待检测视频对应的用户终端;接收用户终端返回的新的视频标题后,进入步骤s1109;
193.步骤s1114,内容完整性检测流程结束,进入其他检测流程。
194.在一个示例中,如图12所示,可以获取用户投稿的待检测视频以及待检测视频的视频标题,对待检测视频进行解码,分离出音频数据和图像数据。可以先对音频数据进行检测,具体的,对音频数据分帧并进行傅里叶变换,得到每个帧信号对应的短时频谱,分析音频数据最后5秒帧信号对应的短时频谱,若存在任一短时频谱结束时异常波动或频谱以高点结束,则认为音频数据不完整,该待检测视频的检测结果为视频内容不完整,此时将检测结果发送给投稿用户,提示用户上传新的待检测视频,重新进行内容完整性检测。
195.若音频数据的检测结果为音频数据完整,则进入下一步检测流程。对图像数据进行抽帧并且分组,得到至少一组子视频帧,通过训练好的3d卷积模型提取至少一组子视频帧的特征,得到视频特征向量。其中,视频特征向量包含多个子视频特征向量,子视频特征向量基于至少一组子视频帧所得。通过transformer模型对待检测视频的视频标题进行特征提取,得到视频标题对应的标题特征向量。可以通过分别计算标题特征向量与至少一组子视频特征量之间的余弦相似度来判断标题内容与视频内容的相关性。具体的,若标题特征向量和每个子视频特征向量之间的相似度满足以下至少一项,可以将待检测视频的检测结果设为待检测视频内容完整:
196.(1)存在至少一个子视频特征向量和标题特征向量之间的相似度大于预设的第一相似度阈值;
197.(2)确定与标题特征向量之间的相似度大于预设的第二相似度阈值的子视频特征向量的第二数量,第二数量与子视频特征向量的总数量之间的比率大于预设比率;其中,第一相似度阈值大于第二相似度阈值。
198.其中,条件(2)可以替换为:确定与标题特征向量之间的相似度大于预设的第二相似度阈值的至少一个子视频特征向量,计算满足条件的至少一个子视频特征向量中每一个子视频特征向量对应的子视频帧在图像数据中比率,若比率大于预设比率,则可以将待检测视频的检测结果设为待检测视频内容完整,结束完整性检测流程,进入其他检测流程或者审核通过,在平台公开该待检测视频,通过确定信息丰富的视频图像数据与视频标题之间的相似度,可以更加准确地判断视频内容是否完整。
199.若待检测视频的检测结果为待检测视频内容不完整,则可以将检测结果发送给投稿用户,提示用户填写新的视频标题,此时,可以不更改已分析的待检测视频,提高视频内容完整性检测效率。
200.在本技术实施例中的视频检测方法,对待检测视频进行解码,分离出音频数据和图像数据,先对音频数据的完整性进行检测,若音频数据完整,再基于视频特征向量和标签特征向量之间的相似度确定视频内容是否完整。通过结合视频的音频数据和图像数据判断视频是否完整,可以提高视频内容完整性判断的准确性。
201.进一步的,在音频数据完整的基础上才进行图像数据的完整性判断,可以先对视频进行初步筛选,从而提高视频内容完整性判断的效率。
202.本技术实施例提供了一种视频检测装置,如图13所示,该视频检测装置130可以包括:提取模块1301、第一检测模块1302以及第二检测模块1303,其中,
203.提取模块1301,用于从待检测视频中提取音频数据和图像数据,并获取待检测视频对应的视频标签;
204.第一检测模块1302,用于基于音频数据对应的音频频谱,获取第一检测结果;第一检测结果用于指示待检测视频的音频数据是否满足音频完整性条件;
205.第二检测模块1303,用于若第一检测结果指示音频数据满足音频完整性条件,则基于图像数据和视频标签获取第二检测结果;第二检测结果用于指示待检测视频是否完整。
206.上述的视频检测装置,对待检测视频进行解码,分离出音频数据和图像数据,先对音频数据的完整性进行检测,若音频数据完整,再基于视频特征向量和标签特征向量之间的相似度确定视频内容是否完整。通过结合视频的音频数据和图像数据判断视频是否完整,可以提高视频内容完整性判断的准确性。
207.进一步的,在音频数据完整的基础上才进行图像数据的完整性判断,可以先对视频进行初步筛选,从而提高视频内容完整性判断的效率。
208.在本技术实施例中,还包括处理模块,具体用于:
209.对音频数据进行分帧处理,得到至少一个帧信号;
210.基于帧信号在音频数据中的排序,将排序中最后预设个数的帧信号作为目标帧信号。
211.在本技术实施例中,第一检测模块1302在基于音频数据对应的音频频谱,获取第一检测结果时,具体用于:
212.从音频频谱中确定出目标帧信号对应的目标音频频谱;
213.若目标音频频谱满足幅值变化范围大于幅值波动阈值且在目标音频频谱中最高频率对应的幅值大于幅值阈值,则第一检测结果指示音频数据不满足音频完整性条件。
214.在本技术实施例中,第二检测模块1303在基于图像数据和视频标签,获取第二检测结果时,具体用于:
215.分别获取图像数据对应的视频特征向量和视频标签对应的标签特征向量;
216.基于视频特征向量和标签特征向量之间的相似度,获取第二检测结果。
217.在本技术实施例中,第二检测模块1303在基于视频特征向量和标签特征向量之间的相似度,获取第二检测结果时,具体用于:
218.分别计算标签特征向量和视频特征向量中每个子视频特征向量之间的相似度;
219.若标签特征向量和视频特征向量中每个子视频特征向量之间的相似度满足预设的相似条件,则第二检测结果指示待检测视频完整。
220.在本技术实施例中,预设的相似条件包括:
221.存在第一数量个子视频特征向量和标签特征向量之间的相似度大于预设的第一相似度阈值。
222.在本技术实施例中,预设的相似条件还包括:
223.确定与标签特征向量之间的相似度大于预设的第二相似度阈值的子视频特征向量的第二数量,第二数量与子视频特征向量的总数量之间的比率大于预设比率;其中,第二相似度阈值小于第一相似度阈值。
224.在本技术实施例中,还包括发送模块,具体用于:
225.若第一检测结果指示音频数据不满足预设的音频完整性条件,或者第二检测结果指示待检测视频不完整,则向待检测视频对应的用户终端发送异常提示消息,异常提示消息用于提示待检测视频不完整。
226.在一个可选实施例中提供了一种电子设备,如图14所示,图14所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本技术实施例的限定。
227.处理器4001可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic(application specific integrated circuit,专用集成电路),fpga(field programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
228.总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图14中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
229.存储器4003可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random access memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、cd

rom(compact disc readonly memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
230.存储器4003用于存储执行本技术方案的应用程序代码(计算机程序),并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
231.其中,电子设备包括但不限于诸如移动电话、笔记本电脑、pad等等移动终端以及诸如数字tv、台式计算机等等固定终端。
232.本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,通过先检测音频数据是否完整,在音频数据完整的基础上,基于视频图像数据和视频标签的相似度检测视频内容是否完整,提升了视频内容完整性判断的效率和准确性。
233.本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行时实现如下情况:
234.从待检测视频中提取音频数据和图像数据,并获取待检测视频对应的视频标签;基于音频数据对应的音频频谱,获取第一检测结果;第一检测结果用于指示待检测视频的音频数据是否满足音频完整性条件;若第一检测结果指示音频数据满足音频完整性条件,则基于图像数据和视频标签获取第二检测结果;第二检测结果用于指示待检测视频是否完整。
235.应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
236.以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1