直播视频审查的方法和装置与流程

文档序号：19010840发布日期：2019-10-30 00:22阅读：951来源：国知局

本申请涉及计算机技术领域，尤其涉及一种直播视频审查的方法和装置。

背景技术：

视频内容的应用日益广泛，对视频内容的审查为视频内容的处理的重要的一部分。

现有技术中，一种常用的方法为服务器之间直接交互，即第一服务器从第二服务器上获取正在播放的视频，对视频进行定时抽帧识别，以识别出黄色、暴力、恐怖、恶心、政治敏感等限制级视频；另一种常用的方法为服务器接收终端设备周期性发送的正在播放的视频的图像，并对接收到的图像进行识别，以识别出黄色、暴力、恐怖、恶心、政治敏感等限制级视频。

但是，上述方法均在服务器端实现视频的审查，而针对互联网的海量直播视频流，需要高性能服务器来实现，成本巨大且审查效率低；并且，对于服务器接收终端设备周期性发送的正在播放的视频的图像的视频审查方法，还存在视频审查时延大、流量消耗大的问题。

技术实现要素：

本申请实施例提供一种直播视频审查的方法和装置，无需高性能服务器、审查效率高且流量消耗小、视频审查时延小。

第一方面，本申请实施例提供一种直播视频审查的方法，包括：

接收来自服务器的视频审查信息，所述视频审查信息包括n个特征向量各自的标识和执行时间，n≥1；所述n个特征向量是服务器存储的所有特征向量中的部分特征向量；

根据所述n个特征向量各自的标识，获取n个特征向量；

在所述执行时间，获取正在直播的视频的第一视频帧图像，若所述n个特征向量对应的m张图像中存在与所述第一视频帧图像的匹配度大于或等于第一预设阈值的第一图像，则将第一图像对应的第一特征向量的标识，所述第一视频帧图像，所述视频的标识发送至所述服务器，以使所述服务器在确定所述视频不合格后，对所述视频进行不合格标注。

在一种可能的设计中，所述方法还包括：在所述终端设备获取完n个特征向量对应的m张图像与所述第一视频帧图像的匹配度时，获取第二视频帧图像；

若所述m张图像中存在与所述第二视频帧图像的匹配度大于或等于第一预设阈值的第二图像，将第二图像对应的第二特征向量的标识，所述第二视频帧图像，所述视频的标识发送至所述服务器，以使所述服务器在确定所述视频不合格后，对所述视频进行不合格标注，m≤n。

在一种可能的设计中，在接收来自服务器的视频审查信息之前，还包括：

向服务器发送所述视频的信息，所述视频的信息包括所述视频的标识和终端设备的标识；所述视频的标识和终端设备的标识用于所述服务器确定播放所述视频的终端设备的第一数量，所述第一数量和所述服务器存储的所有特征向量的第二数量用于确定所述n的值和执行时间。

在一种可能的设计中，所述根据所述n个特征向量各自的标识，获取n个特征向量，包括：

根据所述n个特征向量各自的标识，判断终端设备中是否具有所述n个特征向量中的特征向量；

对于终端设备中存储的所述n个特征向量中的每个第三特征向量：

从所述终端设备的存储器中获取所述第三特征向量；

对于终端设备中未存储的所述n个特征向量中的每个第四特征向量：

将所述第四特征向量的标识发送至服务器；

接收所述服务器发送的第四特征向量。

在一种可能的设计中，所述第一视频帧图像为在所述执行时间正在显示的视频帧图像的下一帧图像，所述第一视频帧图像为存储终端设备的待显示的视频帧的缓存中的图像。

在一种可能的设计中，所述第二视频帧图像的播放时间晚于所述第一视频帧图像，所述第二视频帧图像为存储终端设备的待显示的视频帧的缓存中的图像。

第二方面，本申请实施例提供一种直播视频审查的方法，包括：

向终端设备发送视频审查信息，所述视频审查信息包括n个特征向量各自的标识和执行时间；所述执行时间用于指示终端设备首次获取与n个特征向量对应的m张图像进行匹配的视频帧图像的时间，n个特征向量是服务器存储的所有特征向量中的部分特征向量；

接收终端设备发送的目标特征向量的标识，目标视频帧图像，视频的标识；所述目标特征向量为所述终端设备确定的所述m张图像中与所述目标视频帧图像对应的特征向量的匹配度大于第一预设阈值的第一图像对应的特征向量；

若目标特征向量对应的图像中存在与所述目标视频帧图像的匹配度大于第二预设阈值的第二图像，则对所述视频进行不合格标注，m≤n。

在一种可能的设计中，所述方法还包括：

若目标特征向量对应的图像中存在与所述目标视频帧图像的匹配度大于第二预设阈值的第二图像，则对所述目标视频帧图像进行结构化处理，得到所述目标视频帧图像的结构化数据；所述结构化数据用于获取模型，所述模型用于获取特征向量。

在一种可能的设计中，所述向终端设备发送视频审查信息之前，所述方法还包括：

接收终端设备发送的所述视频的信息，所述视频的信息包括所述视频的标识和终端设备的标识；

根据当前时刻接收到的包括所述视频的标识的视频的信息，确定播放所述视频的终端设备的第一数量；

根据所述第一数量和所述服务器存储的所有特征向量的第二数量确定发送至播放所述视频的终端设备各自的视频审查信息。

在一种可能的设计中，对所述视频进行不合格标注，包括：

将所述视频的标识与第二图像的不合格类型关联存储。

第三方面，本申请实施例提供一种直播视频审查的装置，包括：

接收模块，用于接收来自服务器的视频审查信息，所述视频审查信息包括n个特征向量各自的标识和执行时间，n≥1；所述n个特征向量是服务器存储的所有特征向量中的部分特征向量；

获取模块，用于根据所述n个特征向量各自的标识，获取n个特征向量；

所述获取模块，还用于在所述执行时间，获取正在直播的视频的第一视频帧图像，所述n个特征向量对应的m张图像中的至少部分图像与所述第一视频帧图像的匹配度；

发送模块，用于若所述n个特征向量对应的m张图像中存在与所述第一视频帧图像的匹配度大于或等于第一预设阈值的第一图像，则将第一图像对应的第一特征向量的标识，所述第一视频帧图像，所述视频的标识发送至所述服务器，以使所述服务器在确定所述视频不合格后，对所述视频进行不合格标注，m≤n。

在一种可能的设计中，所述方法还包括：所述获取模块，还用于在所述终端设备获取完n个特征向量对应的m张图像与所述第一视频帧图像的匹配度时，获取第二视频帧图像；

若所述m张图像中存在与所述第二视频帧图像的匹配度大于或等于第一预设阈值的第二图像，将第二图像对应的第二特征向量的标识，所述第二视频帧图像，所述视频的标识发送至所述服务器，以使所述服务器在确定所述视频不合格后，对所述视频进行不合格标注。

在一种可能的设计中，所述发送模块，还用于，

在接收来自服务器的视频审查信息之前：向服务器发送所述视频的信息，所述视频的信息包括所述视频的标识和终端设备的标识；所述视频的标识和终端设备的标识用于所述服务器确定播放所述视频的终端设备的第一数量，所述第一数量和所述服务器存储的所有特征向量的第二数量用于确定所述n的值和执行时间。

在一种可能的设计中，所述获取模块，具体用于：

根据所述n个特征向量各自的标识，判断终端设备中是否具有所述n个特征向量中的特征向量；

对于终端设备中存储的所述n个特征向量中的每个第三特征向量：

从所述终端设备的存储器中获取所述第三特征向量；

对于终端设备中未存储的所述n个特征向量中的每个第四特征向量：

将所述第四特征向量的标识发送至服务器；

接收所述服务器发送的第四特征向量。

第四方面，本申请实施例提供一种直播视频审查的装置，包括：

发送模块，用于向终端设备发送视频审查信息，所述视频审查信息包括n个特征向量各自的标识和执行时间；所述执行时间用于指示终端设备首次获取与n个特征向量对应的m张图像进行匹配的视频帧图像的时间，n个特征向量是服务器存储的所有特征向量中的部分特征向量；

接收模块，用于接收终端设备发送的目标特征向量的标识，目标视频帧图像，视频的标识；所述目标特征向量为所述终端设备确定的所述m张图像中与所述目标视频帧图像的匹配度大于第一预设阈值的第一图像对应的特征向量；

标注模块，用于若目标特征向量对应的第一图像中存在与所述目标视频帧图像的匹配度大于第二预设阈值的第二图像，则对所述视频进行不合格标注，m≤n。

在一种可能的设计中，所述装置还包括：

处理模块，用于若目标特征向量对应的第一图像中存在与所述目标视频帧图像的匹配度大于第二预设阈值的第二图像，则对所述目标视频帧图像进行结构化处理，得到所述目标视频帧图像的结构化数据；所述结构化数据用于获取模型，所述模型用于获取特征向量。

在一种可能的设计中，其特征在于，

所述接收模块，还用于，接收终端设备发送的所述视频的信息，所述视频的信息包括所述视频的标识和终端设备的标识；

所述装置还包括：确定模块；

所述确定模块，用于根据当前时刻接收到的包括所述视频的标识的视频的信息，确定播放所述视频的终端设备的第一数量；

根据所述第一数量和所述服务器存储的所有特征向量的第二数量确定发送至播放所述视频的终端设备各自的视频审查信息。

在一种可能的设计中，所述标注模块，具体用于将所述视频的标识与第二图像的不合格类型关联存储。

第五方面，本申请实施例提供一种终端设备，包括处理器；

所述处理器用于与存储器耦合，读取并执行所述存储器中的指令，以实现第一方面以及任一可能的设计所述的方法。

在一可能的设计中，还包括所述存储器。

第六方面，本申请实施例提供一种服务器，包括处理器；

所述处理器用于与存储器耦合，读取并执行所述存储器中的指令，以实现第二方面以及任一可能的设计所述的方法。

在一可能的设计中，还包括所述存储器。

第七方面，本申请实施例提供一种计算机存储介质，包括指令，当所述指令在通信装置上运行时，使得所述通信装置执行第一方面以及任一可能的设计所述的方法。

第八方面，本申请实施例提供一种计算机存储介质，包括指令，当所述指令在通信装置上运行时，使得所述通信装置执行第二方面以及任一可能的设计所述的方法。

附图说明

图1为本申请实施例提供的系统架构图；

图2为本申请实施例提供的视频审查的方法的交互流程图；

图3为本申请实施例提供的直播视频审查的装置的结构示意图一；

图4为本申请实施例提供的直播视频审查的装置的结构示意图二；

图5为本申请实施例提供的直播视频审查的装置的结构示意图三；

图6为本申请提供的终端设备的结构示意图一；

图7为本申请提供的终端设备的结构示意图二；

图8为本申请提供的服务器的结构示意图一；

图9为本申请提供的服务器的结构示意图二。

具体实施方式

首先对申请实施例涉及的技术名词进行解释。

特征向量：为对图像进行机器学习算法后，最终得到的向量。比如，机器学习算法可为卷积神经网络算法，特征向量为图像的基本数据经卷积神经网络算法，卷积神经网络的全连接层输出的向量；图像的基本数据可为图像的像素的灰度值或者图像的像素的局部二值模式(localbinarypattern，简称lbp)值。其中，卷积神经网络算法为现有技术中常用的算法，本实施例中不再赘述。

终端设备：终端设备也可以称为用户设备(userequipment，ue)、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置。终端设备可以是无线局域网(wirelesslocalareanetworks，wlan)中的站点(station，st)，可以是蜂窝电话、无绳电话、会话启动协议(sessioninitiationprotocol，sip)电话、无线本地环路(wirelesslocalloop，wll)站、个人数字处理(personaldigitalassistant，pda)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备以及下一代通信系统，例如，第五代通信(fifth-generation，5g)网络中的终端设备或者未来演进的公共陆地移动网络(publiclandmobilenetwork，plmn)网络中的终端设备，新空口(newradio，nr)通信系统中的终端设备等。

作为示例而非限定，在本申请实施例中，该终端设备还可以是可穿戴设备。可穿戴设备也可以称为穿戴式智能设备，是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，例如：智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

另外，终端设备还可以包括无人机，如无人机上的机载通信设备等。

图1为本申请实施例提供的系统架构图，参见图1，该系统架构包括服务器11和终端设备12。其中，服务器中存储有多个特征向量，多个特征向量是服务器根据多张禁止播放的图像的基本数据采用机器学习算法训练得到模型后，根据模型以及该机器学习算法得到的。比如，该机器学习算法可为深度卷积神经网络算法，模型为深度卷积神经网络模型。一张禁止播放的图像可对应至少一个特征向量。

终端设备12接收来自服务器11的视频审查信息，在视频审查信息指示的执行时间，获取正在直播的视频的第一视频帧图像，若视频审查信息指示的n个特征向量对应的m张图像中存在与正在直播的视频的第一视频帧图像的匹配度大于或等于第一预设阈值的第一图像，则将每个第一图像对应的第一特征向量的标识，第一视频帧图像，视频的标识发送至服务器11。其中，n个特征向量为服务器中存储的全部特征向量中的部分特征向量。

服务器11获取第一视频帧图像与每个第一特征向量对应的第一图像的匹配度，当存在与第一视频帧图像的匹配度大于第二预设阈值的第一图像时，则发送停止播放该视频的控制指令至终端设备12，并对视频进行不合格标注。

本申请实施的直播视频的审查方法，每个终端设备完成待识别的视频帧图像与审查信息指示的n个特征向量对应的m张图像的匹配，即终端设备分工完成待识别的视频帧图像与服务器存储的所有特征向量对应的所有图像的匹配，服务器只需在终端设备上报了视频帧图像与特征向量的标识后，进行上报的视频帧图像与特征向量的标识指示的图像之间的匹配，而终端设备只有在视频帧图像与视频审查信息中指示的特征向量对应的图像的匹配度大于或等于第一预设阈值时，才会上报视频帧图像与特征向量的标识至服务器，因此，服务的计算量非常小，普通的服务器即可完成，服务器的成本低。由于终端设备分工完成待识别的视频帧图像与特征向量的匹配，视频审查的效率大大提高。

此外，本实施例的直播视频的审查方法，终端设备只有在视频帧图像与视频审查信息中指示的特征向量对应的图像的匹配度大于或等于第一预设阈值时，才会上报视频帧图像与特征向量的标识至服务器，无需现有技术中终端设备周期性发送的正在播放的视频的图像至服务器，消耗的流量小，视频审查时延小。

下面采用具体的实施例对本申请实施例提供的直播视频审查的方法进行详细的阐述，以下实施例中的执行主体可为图1中的服务器11。

图2为本申请实施例提供的视频审查的方法的交互流程图，参见图2，本申请实施例的方法包括：

步骤s201、终端设备向服务器发送正在直播的视频的信息，视频的信息包括该视频的标识和终端设备的标识；

步骤s202、服务器根据当前时刻接收到的包括该视频的标识的视频的信息，确定播放该视频的终端设备的第一数量；

步骤s203、服务器根据播放该视频的终端设备的第一数量和服务器中存储的所有特征向量的第二数量确定发送至各播放该视频的终端设备各自的视频审查信息，视频审查信息包括n个特征向量各自的标识和执行时间，n≥1，n个特征向量是服务器存储的所有特征向量中的部分特征向量；

步骤s204、服务器发送相应的视频审查信息至终端设备；

步骤s205、终端设备根据视频审查信息中的n个特征向量各自的标识，获取n个特征向量；

步骤s206、终端设备在视频审查信息指示的执行时间，获取当前正在播放的视频的第一视频帧图像，并获取第一视频帧图像与n个特征向量对应的m张图像的匹配度；第一视频帧图像为在上述执行时间正在显示的视频帧图像的下一帧图像，m≤n；

步骤s207、若n个特征向量对应的m张图像中存在与第一视频帧图像的匹配度大于或等于第一预设阈值的第一图像，终端设备将第一图像对应的第一特征向量的标识，第一视频帧图像，视频的标识发送至服务器；

步骤s208、服务器获取第一视频帧图像与第一特征向量对应的第一图像的匹配度；

若存在与第一视频帧图像的匹配度大于第二预设阈值的第一图像，执行步骤s209～s210：

步骤s209、服务器对该视频进行不合格标注；

步骤s210、服务器发送停止播放该视频的控制指令至终端设备；

若在终端设备获取完n个特征向量对应的m张图像与第一视频帧图像的匹配度之前，终端设备没有接收到服务器发送停止播放目标视频的控制指令，则执行步骤s211～步骤s213。

步骤s211、在终端设备获取完n个特征向量对应的m张图像与所述第一视频帧图像的匹配度时，终端设备获取第二视频帧图像，并获取第二视频帧图像与n个特征向量对应的m张图像的匹配度；第二视频帧图像的播放时间晚于第一视频帧图像，第二视频帧图像为存储终端设备的待显示的视频帧的缓存中的图像；

步骤s212、若n个特征向量对应的m张图像中存在与第二视频帧图像的匹配度大于或等于第一预设阈值的第二图像，终端设备将第二图像对应的第二特征向量的标识，第二视频帧图像，视频的标识发送至服务器；

步骤s213、服务器获取第二视频帧图像与第二特征向量对应的第二图像的匹配度；

若存在与第二视频帧图像的匹配度大于第二预设阈值的第二图像，执行步骤s214～步骤s215

步骤s214：服务器对该视频进行不合格标注。

步骤s215、服务器发送停止播放该视频的控制指令至终端设备。

具体地，对于步骤s201、当终端设备从能够提供直播视频的服务器接收直播的目标视频时，终端设备将该直播的目标视频的信息发送至服务器；其中，目标视频的信息可包括：目标视频的标识、终端设备的标识，目标视频的信息还可包括：终端设备的ip地址、目标视频的名称、目标视频的地址。

对于步骤s202、服务器接收终端设备发送的正在直播的目标视频的信息，可以理解的是，服务器在同一时刻会接收到多个终端设备的多个视频的信息，每个视频信息中都具有相应视频的标识和终端设备的标识。对于该终端设备正在直播的目标视频，服务器统计当前时刻接收到的视频的信息中具有目标视频的标识的数量，该数量便为正在播放该目标视频的终端设备的第一数量。即具有目标视频的标识的所有视频的信息中包括的终端的标识的数量，便是正在播放该目标视频的终端设备的第一数量，即具有目标视频的标识的所有视频的信息中包括的各终端标识各自指示的终端设备便为在播放该目标视频的终端设备。

对于步骤s203、服务器中存储有多个特征向量，多个特征向量是服务器根据多张禁止播放的图像的基本数据采用机器学习算法训练得到模型后，根据模型以及该机器学习算法得到的。比如，政治敏感人物a的人脸图像对应的至少一个特征向量、涉恐图像对应的至少一个特征向量等等。其中，禁止播放的视频的类型可为：黄色、暴力、恐怖、恶心、政治敏感等等。由于视频是由多帧的图像组成，因此，服务器中存储的特征向量基于的是禁止播放的图像获取的。

服务器在获取到播放该目标视频的终端设备的第一数量、播放该目标视频的终端设备以及服务器中存储的所有特征向量的第二数量后，根据播放该目标视频的终端设备的第一数量和服务器中存储的所有特征向量的第二数量确定发送至该终端设备的视频审查信息，视频审查信息包括n个特征向量各自的标识和执行时间，n≥1，n个特征向量是服务器存储的所有特征向量中的部分特征向量。

具体地，服务器会根据第一数量和第二数量，确定发送至正在播放该目标视频的各终端设备各自的视频审查信息，具体如下：

若第一数量为k，第二数量为l，且k＞l，说明终端设备的数量多，特征向量的数量少，此时，服务器将播放该目标视频的k个终端设备分成l组，每组内的每个终端设备被分配相同的特征向量，且每组内的每个终端设备被分配的特征向量的数量为1，每个组被分配的特征向量不相同。服务器还为每组内的每个终端设备配置不同的执行时间，执行时间用于指示终端设备首次获取与特征向量对应的图像进行匹配的视频帧图像的时间。

此时，在k＞l的场景下，服务器确定的发送至播放该目标视频的每个终端设备的视频审查信息中包括1张特征向量的标识和执行时间，即n＝1。

第一数量为k，第二数量为l，且k≤l，说明终端设备的数量少，特征向量的数量多，此时，每个播放该目标视频的终端设备将至少被分配一个特征向量；比如，若k＝50，l＝100，则每个播放该目标视频的终端设备被分配两个特征向量，若k＝50，l＝80，则有的终端设备被分配一个特征向量，有的终端设备被分配两个特征向量，每个终端设备被分配的特征向量不相同。服务器还为每个终端设备设置执行时间，执行时间用于指示终端设备首次获取与特征向量对应的图像进行匹配的视频帧图像的时间。此时，每个终端设备的执行时间可相同。

此时，在k≤l的场景下，服务器确定的发送至播放该目标视频的每个终端设备的视频审查信息中包括n张特征向量的标识和执行时间，n≥1，每个终端设备对应的n可能相同也可能不相同。

对于步骤s204、服务器将为各播放该目标视频的各终端设备配置的各自视频审查信息发送至各终端设备。

对于步骤s205、终端设备接收到服务器发送的视频审查信息后，根据视频审查信息中的n个特征向量各自的标识，获取n个特征向量；

根据视频审查信息中的n个特征向量各自的标识，获取n个特征向量，具体包括：根据n个特征向量各自的标识，判断终端设备中是否具有n个特征向量中的特征向量；

对于终端设备中存储的n个特征向量中的每个第三特征向量：从终端设备的存储器中获取第三特征向量；

对于终端设备中未存储的n个特征向量中的每个第四特征向量：将第四特征向量的标识发送至服务器，接收服务器发送的第四特征向量。

由于终端设备会进行多次的视频审查，因此终端设备自身会存储一些之前视频审查时获取的特征向量。对于终端设备中未存储的n个特征向量中的每个第四特征向量，则从服务器下载即可。

对于步骤s206、终端设备在视频审查信息指示的执行时间，获取当前正在播放的视频的第一视频帧图像，并获取第一视频帧图像与n个特征向量对应的m张图像中至少部分图像的匹配度。

具体地，可选地，第一视频帧图像为在执行时间正在显示的视频帧图像的下一帧图像，也就是第一视频帧图像为存储终端设备的待显示的视频帧缓存中将被最先进行播放的图像，或者说位于视频显示帧缓存中的将被最先进行播放的图像。其中，视频显示帧缓存即为存储终端设备的待显示的视频帧缓存，其中存储的是即将进行播放的几帧视频帧图像。

获取到第一视频帧图像和n个特征向量后，便可以获取第一视频帧图像与n个特征向量对应的m张图像中至少部分图像的匹配度。其中，匹配度也可称为相似度，至少部分为全部或者部分。

如上所述，视频审查信息中包括的n个特征向量的标识指示的n个特征向量，是m个禁止播放的图像各自对应的n特征向量，一张禁止播放的图像对应至少一个特征向量。

获取两张图像的匹配度的方法具有很多，一种常用的方法为：若上述n个特征向量是采用卷积神经网络算法获取得到的，那么采用相同的卷积神经网络算法获取第一视频帧图像对应的特征向量，计算第一视频帧图像对应的特征向量与n个特征向量中的特征向量之间的距离，然后用归一化法将距离值归一化为匹配度，其中，归一化方法为线性映射、分段线性映射以及其他单调函数的方法。上述各归一化方法均为现有技术中的方法，本实施例中不再赘述。

还有一种常用的方法：若上述n个特征向量是采用卷积神经网络算法获取得到的，采用相同卷积神经网络获取第一视频帧图像对应的特征向量，直接根据第一视频帧图像对应的特征向量与n个特征向量中的特征向量获取第一视频帧图像与n个特征向量中的特征向量对应的图像的匹配度。直接根据第一视频帧图像对应的特征向量与n个特征向量中的特征向量获取第一视频帧图像与n个特征向量中的特征向量对应的图像的匹配度的计算公式为现有的公式，本实施例中不再赘述。

也就是说：获取第一视频帧图像与n个特征向量中的特征向量对应的图像的匹配度，就是采用n个特征向量中的特征向量与第一视频帧图像对应的特征向量计算相应两张图像之间的匹配度。

对于步骤s207、若n个特征向量对应的m张图像中存在与第一视频帧图像的匹配度大于或等于第一预设阈值的第一图像，则终端设备将第一图像对应的第一特征向量的标识，第一视频帧图像，视频的标识发送至服务器；或者，若n个特征向量对应的m张图像中存在与第一视频帧图像的匹配度大于或等于第一预设阈值的第一图像，则终端设备将第一图像对应的第一特征向量的标识，第一视频帧图像，第一视频帧图像的时间戳，视频的标识发送至服务器。

即若采用n个特征向量中的特征向量x与第一视频帧图像对应的特征向量计算得到的匹配度大于第一预设阈值，则特征向量x为第一特征向量，特征向量x的标识会被终端设备发送至服务器。

其中，第一预设阈值可为80～85％之间。第一特征向量对应的第一图像与第一视频帧图像的匹配度大于或等于第一预设阈值，说明第一视频帧图像与第一特征向量对应的第一图像很相似，也就是说目标视频为不合格视频的概率很大，因此，终端设备将第一特征向量的标识，第一视频帧图像，第一视频帧图像的时间戳，视频的标识发送至服务器。

其中，第一特征向量的个数可为一个或多个。

若终端设备中接收到的视频审查信息中包括多张特征向量的标识，终端设备可依次获取第一视频帧图像和多个特征向量各自对应的图像的匹配度，终端设备只要得到第一视频图像和特征向量对应的图像的匹配度大于等于第一预设阈值的情况，就立即将相应特征向量的标识，第一视频帧图像，第一视频帧图像的时间戳和目标视频的标识发送至服务器，而不是在得到多张特征向量对应的图像与第一视频帧图像的匹配度后，才将与第一视频图像的匹配度大于第一预设阈值的第一图像的第一特征向量的标识，第一视频帧图像，目标视频的标识发送至服务器。

比如，终端设备3接收到的视频审查信息携带的特征向量的标识为两个，一个指示特征向量1，另一个指示特征向量2，特征向量1对应的图像的不合格类型为政治敏感类型、特征向量2对应的图像的不合格类型为恐怖类型，且终端设备先获取的第一视频帧图像和特征向量1对应的图像1的第一匹配度，得到的第一匹配度为87％，当第一预设阈值为80％时，说明特征向量1为第一特征向量，终端设备会立即将特征向量1的标识，第一视频帧图像，第一视频帧图像的时间戳，目标视频的标识均会发送至服务器。在得到第一视频帧图像和特征向量1对应的图像1的第一匹配度后，终端设备会接着获取第一视频帧图像和特征向量2的第二匹配度，也就是在终端设备会将特征向量1的标识，第一视频帧图像，第一视频帧图像的时间戳，目标视频的标识均会发送至服务器的同时，终端设备会获取第一视频帧图像和特征向量2的第二匹配度；若得到的第二匹配度为70％，则终端设备不发送任何信息至服务器，若得到的第二匹配度为85％，说明特征向量2为第一特征向量，则终端设备会将特征向量2的标识、第一视频帧图像，第一视频帧图像的时间戳，目标视频的标识发送至服务器。

对于步骤s208～s210、服务器接收到终端设备发送的第一特征向量的标识，第一视频帧图像，第一视频帧图像的时间戳，目标视频的标识后，重新获取第一视频帧图像与第一特征向量对应的第一图像的匹配度，若存在与第一视频帧图像的匹配度大于第二预设阈值的第二图像，第二图像对应的第一特征向量称为第一目标特征向量，则发送停止播放目标视频的控制指令至终端设备并对视频进行不合格标注。

其中，第一预设阈值可为90～95％之间。服务器获取的第一目标特征向量对应的第二图像与第一视频帧图像的匹配度大于或等于第二预设阈值，说明第一视频帧图像与该第一目标特征向量对应的第二图像十分相似，基本可认定该目标视频为不合格视频，则对目标视频进行不合格标注。

可以理解的是，在服务器在确定目标视频为不合格视频后，需要立即控制各正在直播目标的终端设备不能继续播放直播视频，即发送停止播放目标视频的控制指令至各终端设备。为了降低不合格视频直播的时间，需要在服务器首次得到目标视频的视频帧图像和第一特征向量对应的第一图像的匹配度大于第二预设阈值后，即确定目标视频为不合格视频，立即发送停止播放目标视频的控制指令至各终端设备。

其中，对目标视频进行不合格标注，包括：将目标视频的标识与第二图像的不合格类型关联存储，也就是与第一目标特征向量对应的图像的不合格类型关联存储。

终端设备在接收到停止播放目标视频的控制指令后，对于某终端设备而言，若视频审查信息指示的n个特征向量中还具有n个特征向量未用于计算匹配度(对应步骤s206中的n个特征向量对应的m张图像中的部分图像或全部图像)，则可停止获取目标视频的第一视频帧图像与n个特征向量各自对应的图像的匹配度，也可继续获取n个特征向量各自对应的图像与第一视频帧图像的匹配度(对应步骤s206中的n个特征向量对应的m张图像中的全部图像)。其中，继续获取n个特征向量各自对应的图像的匹配度，可增大对目标视频的不合格类型进行完整的标注的可能性。这是因为特征向量对应的图像的不合格的类型可能不相同，若所有的特征向量都用于了匹配度的计算，则得到的目标视频的不合格类型就越全面。

比如，终端设备3接收到的视频审查信息携带的特征向量的标识为两个，一个指示特征向量1，另一个指示特征向量2，特征向量1对应的图像的不合格类型为政治敏感类型、特征向量2对应的图像的不合格类型为恐怖类型，且终端设备先获取的第一视频帧图像和特征向量1对应的图像的第一匹配度，得到的第一匹配度为87％，当第一预设阈值为80％时，说明特征向量1为第一特征向量，终端设备会立即将特征向量1的标识、第一视频帧图像，第一视频帧图像的时间戳，目标视频的标识发送至服务器。服务器重新获取的第一视频帧图像和特征向量1对应的图像的匹配度为93％，第二预设阈值为90％，则说明特征向量1为第一目标特征向量，若第一视频帧图像和特征向量1对应的图像的匹配度为93％是服务器首次得到目标视频的视频帧图像和特征向量对应的图像的匹配度大于第二预设阈值，则此时，即为服务器确定目标视频为不合格视频的时刻，服务器立即控制各正在直播目标的终端设备不能继续播放直播视频，并将目标视频标注为：政治敏感类型，即将目标视频的标识和“政治敏感”进行关联存储。

但是为了能够对目标视频的不合格类型进行全面的标注，服务器还会继续接收(如果有的话)各直播目标视频的终端设备(包括终端设备3)发送的特征向量的标识、第一视频帧图像、第一视频帧图像的时间戳，目标视频的标识。比如：终端设备3在获取完第一视频帧图像和特征向量1对应的图像的第一匹配度后，会接着获取的第一视频帧图像和特征向量2对应的图像的第二匹配度，若得到的第二匹配度为85％，说明特征向量2也为第一特征向量，则终端设备会将特征向量2的标识、第一视频帧图像，第一视频帧图像的时间戳，目标视频的标识发送至服务器；服务器重新获取的第一视频帧图像和特征向量2对应的图像的匹配度为90％，第二预设阈值为90％，则说明特征向量2也为第一目标特征向量，将目标视频的标识也和“恐怖”进行关联存储。

此外，还存在如下情况：终端设备3接收到的视频审查信息携带的特征向量的标识为1个，指示特征向量1，特征向量1对应的图像的不合格类型为政治敏感类型，终端设备获取的第一视频帧图像和特征向量1对应的图像的匹配度为87％，则特征向量1为第一特征向量，则特征向量1的标识，第一视频帧图像，第一视频帧图像的时间戳，目标视频的标识均会发送至服务器；终端设备4接收到的视频审查信息携带的特征向量的标识为1个，指示特征向量2，特征向量2对应的图像不合格类型为政治敏感类型，终端设备获取的第一视频帧图像和特征向量2对应的图像的匹配度为85％，则特征向量2为第一特征向量，则特征向量2的标识，第一视频帧图像，第一视频帧图像的时间戳，目标视频的标识均会发送至服务器；服务器重新获取的第一视频帧图像和特征向量1对应的图像的匹配度为93％，第一视频帧图像和特征向量2对应的图像的匹配度为90％，第二预设阈值为90％，则特征向量1、特征向量2均为第一目标特征向量，则将目标视频的标识与“政治敏感”和“恐怖”关联存储，即将目标视频的标注为：“政治敏感”和“恐怖”类型的目标类型。

此外，若存在与第一视频帧图像的匹配度大于第二预设阈值的第一图像对应的第一特征向量，则服务器会对第一视频帧进行结构化处理，得到第一视频帧图像的第一结构化数据；第一结构化数据用于获取模型，模型用于获取特征向量。即第一结构化数据作为训练样本，获取用于获取特征向量的模型，且还会采用模型获取第一视频帧图像对应的特征向量，以丰富服务器中存储的特征向量，提高视频审查的准确率。第一视频帧图像和第一视频帧图像的时戳可录入不合格备案库作为举报的证据。其中，服务器会对第一视频帧进行结构化处理的方法为现有技术中的方法，本实施例中不再赘述。

对于步骤s211、若在终端设备获取完第一视频帧图像与n个特征向量对应的m张图像的匹配度之前，终端设备没有接收到服务器发送停止播放目标视频的控制指令，则在终端设备获取完第一视频帧图像与n个特征向量对应的m张图像的匹配度时，终端设备获取第二视频帧图像，并获取第二视频帧图像与n个特征向量对应的m张图像中至少部分图像的匹配度。

此处的“在终端设备获取完第一视频帧图像与n个特征向量对应的m张图像的匹配度之前”包括：在终端设备获取完第一视频帧图像与n个特征向量对应的m张图像的匹配度时。

第二视频帧图像为视频显示帧缓存中与第一视频帧图像不相同的图像，且第二视频帧图像的播放时间晚于第一视频帧图像。可以理解的是，在获取第二视频帧图像时，第一视频帧图像可能已经被播放，也可能还处在视频显示帧缓存中，若第一视频帧图像还处在视频显示帧缓存，则第二视频帧图像为与第一视频帧图像相邻的下一视频帧图像。

对于不同的终端设备，由于终端设备的能力不相同，因此，每个终端设备的第一视频帧图像与第二视频帧图像的时间关系并不一定一样。

其中，获取第二视频帧图像与n个特征向量中对应的m张图像中至少部分图像的匹配度的方法同获取第一视频帧图像与n个特征向量对应的m张图像中至少部分图像的匹配度的方法，本实施例中不再赘述。

对于步骤s212～步骤s215参照步骤s207～步骤s210，此处不再赘述。

本领域技术人员应当明白，若在终端设备获取完第二视频帧图像与n个特征向量对应的m张图像的匹配度之前，终端设备没有接收到服务器发送停止播放目标视频的控制指令，则在终端设备获取完第二视频帧图像与n个特征向量对应的m张图像的匹配度时，终端设备获取第三视频帧图像，并获取第三视频帧图像与n个特征向量对应的m张图像中至少部分图像的匹配度，并可进行步骤s207～步骤s210或者步骤s212～步骤s215相应的过程；第三视频帧图像为视频显示帧缓存中与第二视频帧图像不相同的图像，且第三视频帧图像的播放时间晚于第二视频帧图像。可以理解的是，在获取第三视频帧图像时，第二视频帧图像可能已经被播放，也可能还处在视频显示帧缓存中，若第二视频帧图像还处在视频显示帧缓存，则第三视频帧图像为与第二视频帧图像相邻的下一视频帧图像。

也就是说，只要终端设备没有接收到服务器发送停止播放目标视频的控制指令，终端设备就会在终端设备获取完第m视频帧图像与n个特征向量对应的m张图像的匹配度时，终端设备获取第m+1视频帧图像，并获取第m+1视频帧图像与n个特征向量对应的m张图像中至少部分图像的匹配度，并可进行步骤s207～步骤s210或者步骤s212～步骤s215相应的过程；第m+1视频帧图像为视频显示帧缓存中与第m视频帧图像不相同的图像，且第m+1视频帧图像的播放时间晚于第m视频帧图像。可以理解的是，在获取第m+1视频帧图像时，第m视频帧图像可能已经被播放，也可能还处在视频显示帧缓存中，若第m视频帧图像还处在视频显示帧缓存，则第m+1视频帧图像为与第m视频帧图像相邻的下一视频帧图像。

综上可得，终端设备在接收到停止播放目标视频的控制指令后，对于某终端设备而言，若当前视频审查信息指示的n个特征向量中还具有n个特征向量未用于计算匹配度，则可停止获取目标视频的视频帧图像与n个特征向量各自对应的图像的匹配度，也可继续获取n个特征向量各自对应的图像与相应的视频帧图像的匹配度。其中，继续获取n个特征向量各自对应的图像与相应的视频帧图像的匹配度，可增大对目标视频的不合格类型进行完整的标注的可能性。这是因为特征向量对应的图像的不合格的类型可能不相同，越多的特征向量都用于了匹配度的计算，则得到的目标视频的不合格类型就越全面。

现有技术中，对于每一帧待识别的视频帧图像，服务器要将视频帧图像依次与其存储的特征向量对应的图像进行匹配，直至得到与视频帧图像匹配度大于预设阈值的图像，需要进行大量的计算，因此，需要高性能的服务器，成本巨大，且由于计算量巨大，视频审查的效率也较低。

本实施例中，服务器其存储的特征向量分配给正在直播同一视频的各终端设备，每个终端设备被分配n个，使终端设备分工完成待识别的视频帧图像与特征向量对应的图像的匹配，服务器只需在终端设备上报了视频帧图像与特征向量的标识后，进行上报的视频帧图像与特征向量的标识指示的特征向量对应的图像之间的匹配，而终端设备只有在视频帧图像与分配给其的特征向量对应的图像的匹配度大于或等于第一预设阈值时，才会上报的视频帧图像与特征向量的标识至服务器，因此，服务的计算量非常小，普通的服务器即可完成，服务器的成本低。由于终端设备分工完成待识别的视频帧图像与特征向量对应的图像的匹配，视频审查的效率相对于现有技术大大提高。

此外，本实施例的直播视频审查的方法，终端设备只有在视频帧图像与分配给其的特征向量对应的图像的匹配度大于或等于第一预设阈值时，才会上报的视频帧图像与特征向量的标识至服务器，无需现有技术中终端设备周期性发送的正在播放的视频的图像至服务器，消耗的流量小，视频审查时延小。

进一步地，本实施例的直播视频审查的方法中对于上述k＞l的场景，比如，k＝100，l＝50，则100个终端设备被分成50组，每组包括两个终端设备，每组中两个终端设备对应的视频审查信息中的执行时间不相同，比如a组的中的终端设备1的执行时间为8点20ms，b组的中的终端设备2的执行时间为8点70ms，终端设备1得到特征向量与第一视频帧图像之间的匹配度所用的时间为100ms，则说明终端设备1在8点120ms可得到第一视频帧图像之间的匹配度结果，终端设备2在8点220ms可得到第二视频帧图像之间的匹配度结果；终端设备2得到特征向量与第一视频帧图像之间的匹配度所用的时间为80ms，则说明终端设备2在8点150ms可得到第一视频帧图像之间的匹配度结果，可以理解的是，终端设备1对应的第一视频帧图像与终端设备2对应的第一视频帧图像不相同，若终端设备1在8点120ms可得到第一视频帧图像之间的匹配度结果小于第一预设阈值，终端设备在8点120ms会判断该目标视频合格，不上报服务器，终端设备1在8点220ms可得到第二视频帧图像之间的匹配度结果大于或等于第一预设阈值，终端设备在8点220ms会判断该目标视频不合格，上报服务器，若终端设备2在8点150ms可得到第一视频帧图像之间的匹配度结果为大于或等于第一预设阈值，则终端设备在当前时刻会判断该目标视频不合格，上报服务器，无需等到8点220ms时，服务器才等到上报结果。因此，在该场景下，一组内的终端设备的执行时间不相同，可加快终端设备获取到特征向量与目标视频的视频帧图像的匹配度大于第一预设阈值的结果的速度，即加快了将不合格视频审查出来的速度，从而可在较短的时间内禁止该目标视频的播放，降低对社会造成的不良影响。

本实施的直播视频审查的方法，包括接收来自服务器的视频审查信息，视频审查信息包括n个特征向量各自的标识和执行时间，n≥1；n个特征向量是服务器存储的所有特征向量中的部分特征向量；根据n个特征向量各自的标识，获取n个特征向量；在执行时间，获取正在直播的视频的第一视频帧图像，若n个特征向量对应的m张图像中存在与第一视频帧图像的匹配度大于或等于第一预设阈值的第一图像，则将第一图像对应的第一特征向量的标识，第一视频帧图像，视频的标识发送至所述服务器，以使服务器在确定视频不合格后，对视频进行不合格标注。本实施的直播视频审查的方法，对服务器的性能要求低、视频审查速度快、流量消耗少且视频审查的时延小。

上述针对服务器和终端设备所实现的功能，对本申请实施例提供的方案进行了介绍。可以理解的是，服务器和终端设备为了实现上述各自的功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本申请中所公开的实施例描述的各示例及步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的技术方案的范围。

本申请实施例可以根据上述方法示例对服务器和终端设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

图3为本申请实施例提供的直播视频审查的装置的结构示意图一，参见图3，本实施例的装置包括接收模块31、获取模块32和发送模块33。

接收模块31，用于接收来自服务器的视频审查信息，所述视频审查信息包括n个特征向量各自的标识和执行时间，n≥1；所述n个特征向量是服务器存储的所有特征向量中的部分特征向量；

获取模块32，用于根据所述n个特征向量各自的标识，获取n个特征向量；

所述获取模块32，还用于在所述执行时间，获取正在直播的视频的第一视频帧图像，所述n个特征向量对应的m张图像中的至少部分图像与所述第一视频帧图像的匹配度；

发送模块33，用于若所述n个特征向量对应的m张图像中存在与所述第一视频帧图像的匹配度大于或等于第一预设阈值的第一图像，则将第一图像对应的第一特征向量的标识，所述第一视频帧图像，所述视频的标识发送至所述服务器，以使所述服务器在确定所述视频不合格后，对所述视频进行不合格标注。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在一种可能的设计中，所述获取模块，还用于在所述终端设备获取完n个特征向量对应的m张图像与所述第一视频帧图像的匹配度时，获取第二视频帧图像；

在一种可能的设计中，所述发送模块，还用于，

在一种可能的设计中，所述获取模块，具体用于：

根据所述n个特征向量各自的标识，判断终端设备中是否具有所述n个特征向量中的特征向量；

对于终端设备中存储的所述n个特征向量中的每个第三特征向量：

从所述终端设备的存储器中获取所述第三特征向量；

对于终端设备中未存储的所述n个特征向量中的每个第四特征向量：

将所述第四特征向量的标识发送至服务器；

接收所述服务器发送的第四特征向量。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为本申请实施例提供的直播视频审查的装置的结构示意图二，参见图4，本实施例的装置包括：发送模块41、接收模块42和标注模块43。

发送模块41，用于向终端设备发送视频审查信息，所述视频审查信息包括n个特征向量各自的标识和执行时间；所述执行时间用于指示终端设备首次获取与n个特征向量对应的m张图像进行匹配的视频帧图像的时间，n个特征向量是服务器存储的所有特征向量中的部分特征向量；

接收模块42，用于接收终端设备发送的目标特征向量的标识，目标视频帧图像，视频的标识；所述目标特征向量为所述终端设备确定的所述m张图像中与所述目标视频帧图像对应的特征向量的匹配度大于第一预设阈值的第一图像对应的特征向量；

标注模块43，用于若目标特征向量对应的第一图像中存在与所述目标视频帧图像的匹配度大于第二预设阈值的第二图像，则对所述视频进行不合格标注。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在一种可能的设计中，所述标注模块，具体用于将所述视频的标识与第二图像的不合格类型关联存储。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图5为本申请实施例提供的直播视频审查的装置的结构示意图三，参见图5，本实施例在图4所示的装置的基础上，还包括：确定模块44和处理模块45；

所述接收模块42，还用于，接收终端设备发送的所述视频的信息，所述视频的信息包括所述视频的标识和终端设备的标识；

所述确定模块44，用于根据当前时刻接收到的包括所述视频的标识的视频的信息，确定播放所述视频的终端设备的第一数量；

根据所述第一数量和所述服务器存储的所有特征向量的第二数量确定发送至播放所述视频的终端设备各自的视频审查信息。

处理模块45，用于若目标特征向量对应的第一图像中存在与所述目标视频帧图像的匹配度大于第二预设阈值的第二图像，则对所述目标视频帧图像进行结构化处理，得到所述目标视频帧图像的结构化数据；所述结构化数据用于获取模型，所述模型用于获取特征向量。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图6为本申请提供的终端设备的结构示意图一，包括处理器51和通信总线52，处理器51用于调用存储器中存储的程序指令，以实现上述方法实施例中终端设备执行的方法，存储器为通信装置外部的存储器。

图7为本申请提供的终端设备的结构示意图二，包括处理器61、存储器62和通信总线63，处理器61用于调用存储器62中存储的程序指令，以实现上述方法实施例终端设备执行中的方法。

图8为本申请提供的服务器的结构示意图一，包括处理器71和通信总线72，处理器71用于调用存储器中存储的程序指令，以实现上述方法实施例中服务器执行的方法，存储器为通信装置外部的存储器。

图9为本申请提供的服务器的结构示意图二，包括处理器81、存储器82和通信总线83，处理器81用于调用存储器82中存储的程序指令，以实现上述方法实施例中服务器执行的方法。

本申请实施例还涉及一种计算机存储介质，包括指令，当所述指令在通信装置上运行时，使得所述通信装置执行终端设备对应的方法。

本申请实施例还涉及一种计算机存储介质，包括指令，当所述指令在通信装置上运行时，使得所述通信装置执行服务器对应的方法。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙涛;李智
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：空调的控制方法、装置和空调与流程
上一篇：一种基于太阳能智能控制器的新风系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。