一种视频的识别方法、装置和系统与流程

文档序号：12471101阅读：216来源：国知局

本发明涉及通信技术领域，具体涉及一种视频的识别方法、装置和系统。

背景技术：

目前，在终端上实时观看清晰流畅的视频，已经成为不少用户休闲娱乐的首选，为此，市场上涌出了一大堆视频资源，而对于这些良莠不齐的视频资源，如何进行识别，以避免具有不良内容的视频被传播，也成为业界所关注的问题。

所谓具有不良内容的视频，指的是内容涉及色情、招嫖、暴力、政治敏感等法律法规禁止收藏或传播的视频。在现有技术中，对于视频的识别，主要依靠人工逐一进行审查，但是，在全民直播的互联网时代，直播视频暴增，若仅仅依靠人工进行审查，则无法及时地对视频进行识别，其识别结果在时间上具有较大的滞后性。针对该问题，现有技术又提出了文字识别方案，即通过获取视频中的字幕，然后，判断获取到的字幕中的文字是否与预设关键字匹配，若能匹配，则计数一次，根据匹配的数量统计整个视频的匹配率，若匹配率大于预设阈值，则确定视频中具有不良内容。

在对现有技术的研究和实践过程中，本发明的发明人发现，由于现有识别方案的识别维度较为单一，因此，识别的准确率较低，效果不佳。

技术实现要素：

本发明实施例提供一种视频的识别方法、装置和系统，可以提高识别的准确率，改善识别效果。

本发明实施例提供一种视频的识别方法，包括：

获取需要进行识别的视频信息，所述视频信息包括视频内容和视频相关信息；

对所述视频内容中的图片进行识别，得到图片识别结果；

对所述视频内容中的语音进行识别，得到语音识别结果；

对所述视频内容中的字幕和视频相关信息的文本进行识别，得到文本识别结果；

将所述图片识别结果、语音识别结果和文本识别结果进行融合计算，得到视频识别结果。

相应的，本发明实施例还提供一种视频识别装置，包括：

获取单元，用于获取需要进行识别的视频信息，所述视频信息包括视频内容和视频相关信息；

图片识别单元，用于对所述视频内容中的图片进行识别，得到图片识别结果；

语音识别单元，用于对所述视频内容中的语音进行识别，得到语音识别结果；

文本识别单元，用于对所述视频内容中的字幕和视频相关信息的文本进行识别，得到文本识别结果；

融合单元，用于将所述图片识别结果、语音识别结果和文本识别结果进行融合计算，得到视频识别结果。

此外，本发明实施例还提供一种视频识别系统，包括本发明实施例所提供的任一种视频识别装置。

本发明实施例在获取需要进行识别的视频信息后，可以对该视频内容中的图片、语音、字幕和视频相关信息分别进行识别，得到多维的识别结果，即图片识别结果、语音识别结果和文本识别结果等，然后，将这些识别结果进行融合计算，得到最终的视频识别结果；由于在该方案中，可以从多个维度对视频进行识别，因此，相对于现在技术中只是单个维度地对视频进行识别而言，可以提高识别的准确率，大大改善识别效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的视频的识别方法的场景示意图；

图1b是本发明实施例提供的视频的识别方法的流程图；

图2a是本发明实施例提供的视频的识别方法的另一场景示意图；

图2b是本发明实施例提供的视频的识别方法的另一流程图；

图3a是本发明实施例提供的视频的识别装置的结构示意图；

图3b是本发明实施例提供的视频的识别装置的结构示意图；

图4是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种视频的识别方法、装置和系统。

该视频识别系统可以包括本发明实施例所提供的任一种视频识别装置，该视频识别装置可以包括多个模块，比如图片识别模块、语音识别模块、文本识别模块、以及策略层模块等，此外，还可以包括接入层模块。其中，这些模块可以集成在同一实体中，也可以分别集成在不同的实体中，该实体可以是单一的实体，比如服务器，也可以是一个服务集群，比如包括多个服务器，等等。可选的，该视频识别系统还可以包括其他的设备，比如业务服务器，用于提供需要进行识别的视频信息给视频识别装置，其中，该视频信息可以包括视频内容和视频相关信息，视频相关信息可以包括视频的弹幕和/或评论等信息。

例如，参见图1a，视频识别装置的接入层模块(图1a中简称接入层)接收到业务服务器发送的需要进行识别的视频信息后，将该视频信息分别传送给图片识别模块、语音识别模块和文本识别模块(图1a中分别简称为图片识别、语音识别和文本识别)，由图片识别模块对视频内容中的图片进行识别，得到图片识别结果，由语音识别模块对所述视频内容中的语音进行识别，得到语音识别结果，以及，由文本识别模块对所述视频内容中的字幕和视频相关信息的文本进行识别，得到文本识别结果，然后，再由策略层模块(图1a中简称策略层)将图片识别结果、语音识别结果和文本识别结果进行融合计算，得到视频识别结果，并将视频结果返回给业务服务器。

可选的，为了提高识别的准确性，若在识别的过程中，发现高危疑似恶意内容的视频，可以将该视频交由人工进行审核。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

实施例一、

本实施例将从视频识别装置的角度进行描述，该视频识别装置具体可以集成在服务器等中，该服务器可以是单一的服务器，也可以是服务集群。

一种视频的识别方法，包括：获取需要进行识别的视频信息，该视频信息包括视频内容和视频相关信息等；对该视频内容中的图片进行识别，得到图片识别结果；对该视频内容中的语音进行识别，得到语音识别结果；对该视频内容中的字幕和视频相关信息的文本进行识别，得到文本识别结果；将该图片识别结果、语音识别结果和文本识别结果进行融合计算，得到视频识别结果。

如图1b所示，该视频的识别方法的具体流程可以如下：

101、获取需要进行识别的视频信息。

其中，该视频信息可以包括视频内容和视频相关信息，视频内容可以包括视频的图片、语音和字幕等信息，而视频相关信息可以包括视频相关的介绍、评论和/或弹幕等信息。

此外，该视频信息还可以包括观看用户信息等其他信息。其中，该观看用户信息可以包括视频观看用户数量、以及群体分布等信息。

102、对该视频内容中的图片进行识别，得到图片识别结果。

例如，以图片识别结果具体为恶意图片概率为例，则步骤“对该视频内容中的图片进行识别，得到图片识别结果”具体可以如下：

(1)从该视频内容中提取图片，得到图片集合。

(2)对该图片集合中的图片分别进行解析，以识别出恶意图片。

比如，具体可以对该图片集合中的图片进行解析，以提取图片参数，根据该图片参数确定相应的图片是否含有预设不良内容，若是，则确定该图片为恶意图片；若否，则确定该当前图片为非恶意图片。

其中，该不良内容的定义可以根据实际应用的需求而定，比如，可以包括色情、暴力、政治敏感等法律法规禁止收藏或传播的内容。基于不同的不良内容，在对图片进行识别的方法也会有所不同，例如，以色情为例，则此时，具体可以基于该图片参数，通过进行肤色判断、以及人脸识别等方式，来确定相应的图片是否含有色情内容，等等。

(3)确定该图片集合中恶意图片所占的比例，得到恶意图片概率。

例如，可以统计该图片集合中图片的总量、以及恶意图片的数量，然后，计算该恶意图片的数量与该图片的总量的比值，得到恶意图片概率。

其中，图片集合中图片的总量可以直接通过统计图片集合中图片数量得到，也可以通过分别统计恶意图片的数量和非恶意图片的数量来得到，其中，该图片集合中图片的总量等于图片集合中图片数量，也等于恶意图片的数量和非恶意图片的数量之和。

103、对该视频内容中的语音进行识别，得到语音识别结果。

例如，以语音识别结果具体为恶意语音概率为例，则步骤“该视频内容中的语音进行识别，得到语音识别结果”具体可以如下：

(1)从该视频内容中提取语音，得到语音集合。

(2)对该语音集合中的语音分别进行解析，以识别出恶意语音。

例如，可以将该语音集合中的语音转换为相应的文本信息，将该文本信息划分为多个文本字段，确定该文本字段是否存在与预设敏感关键字匹配的词汇，若是，则确定该词汇所在文本字段所对应的语音为恶意语音；若否，则确定该词汇所在文本字段所对应的语音为非恶意语音。

其中，该预设敏感关键字可以根据实际应用的需求而定，例如，可以是色情、暴力、政治敏感等法律法规禁止收藏或传播的内容相关的关键字，比如，以色情为例，具体可以是“AV”、“裸露”、“情色”、和/或“性爱”等关键字，又比如，如果是暴力相关的，则可以是“枪杀”和/或“血腥”等关键字，等等。

(3)确定该语音集合中恶意语音所占的比例，得到恶意语音概率。

例如，具体可以统计该语音集合中语音的总量、以及恶意语音的数量，然后，计算该恶意语音的数量与该语音的总量的比值，得到恶意语音概率。

其中，语音集合中语音的总量可以直接通过统计语音集合中语音数量得到，也可以通过分别统计恶意语音的数量和非恶意语音的数量来得到，其中，该语音集合中语音的总量等于语音集合中语音数量，也等于恶意语音的数量和非恶意语音的数量之和。

104、对该视频内容中的字幕和视频相关信息的文本进行识别，得到文本识别结果。

例如，以语音识别结果具体为恶意文本概率为例，则步骤“对该视频内容中的字幕和视频相关信息的文本进行识别，得到文本识别结果”具体可以如下：

(1)将该视频内容中的字幕和视频相关信息的文本添加至文本集合。

(2)对文本集合中的文本进行解析，以识别出恶意文本。

例如，可以将文本集合中的文本划分为多个文本字段，确定该文本字段是否存在与预设敏感关键字匹配的词汇，若是，则确定该词汇所在文本字段为恶意文本；若否，则确定该词汇所在文本字段为非恶意文本。

(3)确定该文本集合中恶意文本所占的比例，得到恶意文本概率。

例如，具体可以统计该文本集合中文本字段的总量、以及恶意文本的数量，然后，计算该恶意文本的数量与该文本字段的总量的比值，得到恶意文本概率。

其中，文本集合中文本字段的总量可以直接通过统计文本集合中文本字段的数量得到，也可以通过分别统计恶意文本的数量和非恶意文本的数量来得到，其中，该文本集合中文本字段的总量等于文本集合中文本字段的数量，也等于恶意文本的数量和非恶意文本的数量之和。

需说明的是，步骤102～104的执行顺序可以不分先后。

105、将该图片识别结果、语音识别结果和文本识别结果进行融合计算，得到视频识别结果。

例如，可以为这些识别结果分别设置相应的权重，在需要进行融合计算时，将这些识别结果分别乘以其对应的权重，并进行相加，即可得到该视频识别结果，即步骤“将该图片识别结果、语音识别结果和文本识别结果进行融合计算，得到视频识别结果”可以包括：

将该图片识别结果、语音识别结果和文本识别结果分别乘以相应的权重后进行相加，得到视频识别结果。

比如，若图片识别结果为恶意图片概率Pv，语音识别结果为恶意语音概率Ps，文本识别结果为恶意文本概率Pt，恶意图片概率Pv的权重为a，恶意语音概率Ps的权重为b，恶意文本概率Pt的权重为c，则视频识别结果P为：

P＝a*Pv+b*Ps+c*Pt；

其中，0<＝a,b,c<＝1，且a+b+c＝1；此外，0<＝Pv,Ps,Pt<＝1。

其中，权重a，b和c可以根据实际应用的需求进行设置，比如，在针对视频直播色情场景，由于图片维度识别准确及可参考性最高，语音识别、以及弹幕/评论识别等维度次之，因此，可以设置图片识别的权重最大，即可以设置a>＝c>＝b，等等。

可选的，若视频信息中还携带了观看用户信息，比如携带了视频观看用户数量、以及群体分布等信息，则此时，还可以根据该观看用户信息对观看用户趋势进行识别，并在计算视频识别结果时，将该观看用户趋势的识别结果作为考量因素之一，即在步骤“将该图片识别结果、语音识别结果和文本识别结果进行融合计算，得到视频识别结果”之前，该视频的识别方法还可以包括：

根据该观看用户信息进行识别，得到观看用户趋势的识别结果，为了描述方便，在本发明实施例中，将该观看用户趋势的识别结果称为初始识别结果，具体可以如下：

(1)根据该观看用户信息确定观看用户数量随时间变化的规律，得到变化特性信息。

比如，以色情为例，若某个视频在短时间内观看用户数量剧增，且观看时间为深夜，则其存在涉黄的可能性，等等。

(2)根据该观看用户信息确定观看用户的群体分布状况，得到群体分布信息。

比如，还是以色情为例，若某个视频的观看用户为成年男性居多，则其存在涉黄的可能性，等等。

(3)根据该变化特性信息和群体分布信息计算初始识别结果。

比如，还是以色情为例，若某个视频在短时间内观看用户数量剧增，且观看时间为深夜，且观看用户多数为成年男性，则该视频为色情视频的概率较高，等等。

若将初始识别结果(即观看用户趋势的识别结果)也作为计算视频识别结果的考量因素之一，则此时，步骤“将该图片识别结果、语音识别结果和文本识别结果进行融合计算，得到视频识别结果”具体可以如下：

将该图片识别结果、语音识别结果、文本识别结果和初始识别结果分别乘以相应的权重后，进行相加，得到视频识别结果。

例如，若图片识别结果为恶意图片概率Pv，语音识别结果为恶意语音概率Ps，文本识别结果为恶意文本概率Pt，初始识别结果为Ph，恶意图片概率Pv的权重为a，恶意语音概率Ps的权重为b，恶意文本概率Pt的权重为c，初始识别结果的权重为d，则视频识别结果P为：

P＝a*Pv+b*Ps+c*Pt+d*Ph；

其中，0<＝a,b,c,d<＝1，且a+b+c+d＝1；此外，0<＝Pv,Ps,Pt,Ph<＝1。

其中，权重a，b，c和d可以根据实际应用的需求进行设置，比如，在针对视频直播色情场景，由于图片维度识别准确及可参考性最高，语音识别、弹幕/评论识别、以及观看用变化趋势等维度次之，因此，可以设置图片识别的权重最大，即可以设置a>＝c>＝b>＝d，等等。

可选的，为了提高识别的准确性，若在识别的过程中，发现高危疑似恶意内容的视频，还可以将该视频交由人工进行审核，即在步骤“将该图片识别结果、语音识别结果和文本识别结果进行融合计算，得到视频识别结果”之后，该视频识别方法还可以包括：

确定视频识别结果满足预设条件，比如，若该视频识别结果表示该视频的恶意概率大于预设阈值，则可以将该视频信息发送给预设终端，以进行人工审核。

其中，该预设阈值可以根据实际应用的需求进行设置，在此不再赘述。

由上可知，本实施例在获取需要进行识别的视频信息后，可以对该视频内容中的图片、语音、字幕和视频相关信息分别进行识别，得到多维的识别结果，即图片识别结果、语音识别结果和文本识别结果等，然后，将这些识别结果进行融合计算，得到最终的视频识别结果；由于在该方案中，可以从多个维度对视频进行识别，因此，相对于现在技术中只是单个维度地对视频进行识别而言，可以提高识别的准确率，大大改善识别效果。

实施例二、

根据实施例一所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该视频识别装置具体集成在服务集群中为例进行说明。

如图2a所示，该服务集群可以包括接入层模块(图2a中简称为接入层)、图片识别模块、语音识别模块、文本识别模块、用户趋势分析模块、以及策略层模块(图2a中简称为策略层层)等，具体可以如下：

(1)接入层模块；

接入层模块，用于接收业务服务器发送的需要进行识别的视频信息，比如，直播视频的视频信息，等等，然后，将该需要进行识别的视频信息分别传送给图片识别模块、语音识别模块、文本识别模块和用户趋势分析模块(图2a中分别简称为图片识别、语音识别、文本识别和观看用户趋势分析)。

其中，该视频信息可以包括视频内容、视频相关信息和观看用户信息等。

(2)图片识别模块；

图片识别模块，用于接收接入层模块发送的需要进行识别的视频信息，从该视频信息的视频内容中提取出图片，并进行解析，以识别出恶意图片，比如识别出色情图片，然后，计算恶意图片概率，将该恶意图片概率提供给策略层模块。

(3)语音识别模块；

语音识别模块，用于接收接入层模块发送的需要进行识别的视频信息，从该视频信息的视频内容中提取出语音，并进行解析，以识别出恶意语音，比如识别出色情语音，然后，计算恶意语音概率，将该恶意语音概率提供给策略层模块。

(4)文本识别模块；

文本识别模块，用于接收接入层模块发送的需要进行识别的视频信息，从该视频信息的视频内容中提取出字幕，以及从视频相关信息中提取出文本，然后对该字幕和文本进行解析，以识别出恶意文本，比如识别出色情文本，并计算恶意文本概率，将该恶意语音概率提供给策略层模块。

(5)用户趋势分析模块；

用户趋势分析模块，用于接收接入层模块发送的需要进行识别的视频信息，从该视频信息提取出观看用户信息，根据该观看用户信息确定观看用户数量随时间变化的规律，得到变化特性信息，以及，根据该观看用户信息确定观看用户的群体分布状况，得到群体分布信息，然后，根据该变化特性信息和群体分布信息计算初始识别结果，并将该初始识别结果提供给策略层模块。

(6)策略层模块；

策略层模块，用于在接收到图片识别模块发送的恶意图片概率、语音识别模块发送的恶意语音概率、文本识别模块发送的恶意文本概率、以及用户趋势分析模块发送的初始识别结果之后，将该恶意图片概率、恶意语音概率、恶意文本概率和初始识别结果分别乘以相应的权重后，进行相加，得到视频识别结果，将该视频识别结果返回给业务服务器。

基于上述服务集群的结构，以下将以该视频具体为直播视频为例，对其执行流程进行详细说明。

如图2b所示，一种视频的识别方法，具体流程可以如下：

201、业务服务器向服务集群的接入层模块发送直播视频的视频信息。

其中，该视频信息可以包括视频内容、视频相关信息和观看用户信息等信息；其中，该视频内容可以包括视频的图片、语音和字幕等信息，视频相关信息可以包括视频相关的介绍、评论和/或弹幕等信息，而该观看用户信息可以包括视频观看用户数量、以及群体分布等信息。

202、接入层模块接收到该直播视频的视频信息后，分别将该视频信息发送给该服务集群中的图片识别模块、语音识别模块、文本识别模块和用户趋势分析模块。

203、图片识别模块在接收到该直播视频的视频信息后，从该视频信息的视频内容中提取图片，得到图片集合，然后执行步骤204。

204、图片识别模块对该图片集合中的图片分别进行解析，以识别出恶意图片，然后执行步骤205。

例如，具体可以对该图片集合中的图片进行解析，以提取图片参数，比如，提取图片的色相值、亮度值、饱和度值、和/或对比度值等，然后，根据该图片参数确定相应的图片是否含有预设不良内容，若是，则确定该图片为恶意图片；若否，则确定该当前图片为非恶意图片。

其中，该不良内容的定义可以根据实际应用的需求而定，比如，可以包括色情、暴力、政治敏感等法律法规禁止收藏或传播的内容。基于不同的不良内容，在对图片进行识别的方法也会有所不同。

比如，以色情为例，则此时，具体可以基于该图片参数，通过进行肤色判断、人脸识别、以及形状识别等方式，来确定图片中是否含有大量裸露性身体和/或性器官的内容，从而确定相应的图片是否含有色情内容，等等。

205、图片识别模块确定该图片集合中恶意图片所占的比例，得到恶意图片概率，将该恶意图片概率发送给策略层模块，然后执行步骤214。

其中，计算该恶意图片概率的方式可以有多种，例如，可以如下：

图片识别模块可以统计该图片集合中图片的总量、以及恶意图片的数量，然后，计算该恶意图片的数量与该图片的总量的比值，得到恶意图片概率。

或者，图片识别模块也可以统计该图片集合中恶意图片的数量和非恶意图片的数量，然后，计算恶意图片的数量和非恶意图片的数量的和，得到该图片集合中图片的总量，再然后，计算该恶意图片的数量与该图片的总量的比值，得到恶意图片概率，等等。

206、语音识别模块在接收到该直播视频的视频信息后，从该视频信息的视频内容中提取语音，得到语音集合，然后执行步骤207。

207、语音识别模块对该语音集合中的语音分别进行解析，以识别出恶意语音，然后执行步骤208。

例如，可以将该语音集合中的语音转换为相应的文本信息，然后，将该文本信息划分为多个文本字段，比如，若文本信息为“这只小猫咪好可爱”，则此时，可以将其划分为“这只”、“小猫咪”、“好”和“可爱”等文本字段，再然后，确定该文本字段是否存在与预设敏感关键字匹配的词汇，若是，则确定该词汇所在文本字段所对应的语音为恶意语音；若否，则确定该词汇所在文本字段所对应的语音为非恶意语音。

其中，该预设敏感关键字可以根据实际应用的需求而定，例如，可以是色情、暴力、政治敏感等法律法规禁止收藏或传播的内容相关的关键字，比如，以色情为例，该敏感关键字具体可以是“AV”、“裸露”、“情色”、和/或“性爱”等关键字，又比如，如果是暴力相关的，则该敏感关键字可以是“枪杀”和/或“血腥”等关键字，等等。

208、语音识别模块确定该语音集合中恶意语音所占的比例，得到恶意语音概率，将该恶意语音概率发送给策略层模块，然后执行步骤214。

其中，计算该恶意语音概率的方式可以有多种，例如，可以如下：

语音识别模块可以统计该语音集合中语音的总量、以及恶意语音的数量，然后，计算该恶意语音的数量与该语音的总量的比值，得到恶意语音概率。

或者，语音识别模块也可以统计该语音集合中恶意语音的数量和非恶意语音的数量，然后，计算恶意语音的数量和非恶意语音的数量的和，得到该语音集合中语音的总量，再然后，计算该恶意语音的数量与该语音的总量的比值，得到恶意语音概率，等等。

209、文本识别模块在接收到该直播视频的视频信息后，从视频信息的视频内容中提取出字幕，以从视频相关信息中提取出文本，然后，将该字幕和视频相关信息的文本添加至文本集合，并执行步骤210。

210、文本识别模块对文本集合中的文本进行解析，以识别出恶意文本。

例如，可以将文本集合中的文本划分为多个文本字段，比如，若文本为“今天晚上吃大餐”，则此时，可以将其划分“今天”、“晚上”、“吃”和“大餐”等文本字段，然后，确定该文本字段是否存在与预设敏感关键字匹配的词汇，若是，则确定该词汇所在文本字段为恶意文本；若否，则确定该词汇所在文本字段为非恶意文本。

211、文本识别模块确定该文本集合中恶意文本所占的比例，得到恶意文本概率，将该恶意文本概率发送给策略层模块，然后执行步骤214。

其中，计算该恶意文本概率的方式可以有多种，例如，可以如下：

文本识别模块可以统计该文本集合中文本字段的总量、以及恶意文本的数量，然后，计算该恶意文本的数量与该文本字段的总量的比值，得到恶意文本概率。

或者，文本识别模块也可以统计该文本集合中恶意文本的数量和非恶意文本的数量，然后，计算恶意文本的数量和非恶意文本的数量的和，得到该文本集合中文本字段的总量，再然后，计算该恶意文本的数量与该文本字段的总量的比值，得到恶意文本概率，等等。

212、用户趋势分析模块在接收到该直播视频的视频信息后，根据该视频信息中的观看用户信息确定观看用户数量随时间变化的规律，得到变化特性信息，以及根据该观看用户信息确定观看用户的群体分布状况，得到群体分布信息，然后执行步骤213。

需说明的是，步骤203、206、209和212的执行步骤可以不分先后。

213、用户趋势分析模块根据该变化特性信息和群体分布信息计算初始识别结果，将该初始识别结果发送给策略层模块，然后执行步骤214。

比如，以色情为例，若某个直播视频在凌晨等敏感时间段，突发性出现大量观看用户数，且观看用户多数为成年男性，则该视频为色情视频的概率较高，等等。

214、策略层模块将该恶意图片概率、恶意语音概率、恶意文本概率和初始识别结果分别乘以相应的权重后，进行相加，得到视频识别结果，用公式表示即为：

P＝a*Pv+b*Ps+c*Pt+d*Ph；

其中，Pv为恶意图片概率，Ps为恶意语音概率，Pt为恶意文本概率，Ph为初始识别结果，a为恶意图片概率Pv的权重，b为恶意语音概率Ps的权重，c为恶意文本概率Pt的权重，d为初始识别结果的权重。

其中，0<＝a,b,c,d<＝1，且a+b+c+d＝1；0<＝Pv,Ps,Pt,Ph<＝1。

需说明的是，权重a，b，c和d可以根据实际应用的需求进行设置，比如，在针对视频直播色情场景，由于图片维度识别准确及可参考性最高，语音识别、弹幕/评论识别、以及观看用变化趋势等维度次之，因此，可以设置图片识别的权重最大，即可以设置a>＝c>＝b>＝d，等等，在此不再赘述。

215、策略层模块将视频识别结果发送给业务服务器。

可选的，若视频识别结果指示该直播视频为高危恶意视频，则可以对该直播视频直接进行封禁，而对于疑似恶意视频，则可以发送给预设的终端，以进行人工进行审核，例如，可以如下：

策略层模块确定视频识别结果满足预设条件，比如，若该视频识别结果表示该视频的恶意概率大于预设阈值，则可以将该视频信息发送给预设终端，以进行人工审核。

其中，该预设阈值可以根据实际应用的需求进行设置，在此不再赘述。

由上可知，本实施例在获取需要进行识别的直播视频的视频信息后，可以对该视频内容中的图片、语音、字幕、视频相关信息、以及观看用户趋势等分别进行识别，得到多维的识别结果，即恶意图片概率、恶意语音概率、恶意文本概率、以及初始识别结果等，然后，将这些识别结果进行融合计算，得到最终的视频识别结果；由于在该方案中，可以从多个维度对视频进行识别，因此，相对于现在技术中只是单个维度地对视频进行识别而言，可以提高识别的准确率，大大改善识别效果；而且还可以大幅降低人工审核成本，大大提高审核效率。

实施例三、

为了更好地实现以上方法，本发明实施例还可以提供一种视频识别装置，如图3a所示，该视频识别装置可以包括获取单元301、图片识别单元302、语音识别单元303、文本识别单元304和融合单元305，如下：

(1)获取单元301；

获取单元301，用于获取需要进行识别的视频信息。

此外，该视频信息还可以包括观看用户信息等其他信息。其中，该观看用户信息可以包括视频观看用户数量、以及群体分布等信息。

(2)图片识别单元302；

图片识别单元302，用于对该视频内容中的图片进行识别，得到图片识别结果。

例如，以图片识别结果具体为恶意图片概率为例，该图片识别单元302可以包括图片提取子单元、图片解析子单元和图片确定子单元，如下：

该图片提取子单元，可以用于从该视频内容中提取图片，得到图片集合；

该图片解析单元，可以用于对该图片集合中的图片分别进行解析，以识别出恶意图片。

例如，该图片解析子单元，具体可以用于对该图片集合中的图片进行解析，以提取图片参数，根据该图片参数确定相应的图片是否含有预设不良内容，若是，则确定该图片为恶意图片；若否，则确定该当前图片为非恶意图片。

图片确定子单元，可以用于确定该图片集合中恶意图片所占的比例，得到恶意图片概率。

例如，该图片确定子单元，具体可以用于统计该图片集合中图片的总量、以及恶意图片的数量，计算该恶意图片的数量与该图片的总量的比值，得到恶意图片概率。

(3)语音识别单元303；

语音识别单元303，用于对该视频内容中的语音进行识别，得到语音识别结果。

例如，以语音识别结果具体为恶意语音概率为例，则该语音识别单元303可以包括语音提取子单元、语音解析子单元和语音确定子单元，如下：

该语音提取子单元，用于从该视频内容中提取语音，得到语音集合。

该语音解析子单元，用于对该语音集合中的语音分别进行解析，以识别出恶意语音。

例如，该语音解析子单元，具体可以用于将该语音集合中的语音转换为相应的文本信息，将该文本信息划分为多个文本字段，确定该文本字段是否存在与预设敏感关键字匹配的词汇，若是，则确定该词汇所在文本字段所对应的语音为恶意语音；若否，则确定该词汇所在文本字段所对应的语音为非恶意语音。

该语音确定子单元，用于确定该语音集合中恶意语音所占的比例，得到恶意语音概率。

例如，该语音确定子单元，具体可以用于统计该语音集合中语音的总量、以及恶意语音的数量，计算该恶意语音的数量与该语音的总量的比值，得到恶意语音概率。

(4)文本识别单元304；

文本识别单元304，用于对该视频内容中的字幕和视频相关信息的文本进行识别，得到文本识别结果。

例如，以语音识别结果具体为恶意文本概率为例，则该文本识别单元304可以包括添加子单元、文本解析子单元和文本确定子单元，如下：

该添加子单元，用于将该视频内容中的字幕和视频相关信息的文本添加至文本集合。

该文本解析子单元，可以用于对文本集合中的文本进行解析，以识别出恶意文本。

例如，该文本解析子单元，具体可以用于将文本集合中的文本划分为多个文本字段，确定该文本字段是否存在与预设敏感关键字匹配的词汇，若是，则确定该词汇所在文本字段为恶意文本；若否，则确定该词汇所在文本字段为非恶意文本。

该文本确定子单元，可以用于确定该文本集合中恶意文本所占的比例，得到恶意文本概率。

(5)融合单元305；

融合单元305，用于将该图片识别结果、语音识别结果和文本识别结果进行融合计算，得到视频识别结果。

例如，可以为这些识别结果分别设置相应的权重，在需要进行融合计算时，将这些识别结果分别乘以其对应的权重，并进行相加，即可得到该视频识别结果，即：

该融合单元305，具体可以用于将该图片识别结果、语音识别结果和文本识别结果分别乘以相应的权重后，进行相加，得到视频识别结果。

P＝a*Pv+b*Ps+c*Pt；

其中，0<＝a,b,c<＝1，且a+b+c＝1；此外，0<＝Pv,Ps,Pt<＝1。

可选的，若视频信息中还携带了观看用户信息，比如携带了视频观看用户数量、以及群体分布等信息，则此时，还可以根据该观看用户信息对观看用户趋势进行识别，并在计算视频识别结果时，将该观看用户趋势的识别结果作为考量因素之一，即即如图3b所示，该视频识别装置还可以包括用户趋势分析单元306，如下：

获取单元301，具体可以用于获取需要进行识别的视频信息，该视频信息包括视频内容、视频相关信息和观看用户信息；

用户趋势分析单元306，可以用于根据该观看用户信息确定观看用户数量随时间变化的规律，得到变化特性信息，根据该观看用户信息确定观看用户的群体分布状况，得到群体分布信息，根据该变化特性信息和群体分布信息计算初始识别结果。

则此时，融合单元305，具体可以用于将该图片识别结果、语音识别结果、文本识别结果和初始识别结果分别乘以相应的权重后，进行相加，得到视频识别结果，用公式表示即为：

P＝a*Pv+b*Ps+c*Pt+d*Ph；

其中，Ph为初始识别结果，且满足0<＝Ph<＝1，而d为Ph对应的权重，0<＝d<＝1，且a+b+c+d＝1。

其中，权重a，b，c和d可以根据实际应用的需求进行设置，在此不再赘述。

可选的，为了提高识别的准确性，若在识别的过程中，发现高危疑似恶意内容的视频，还可以将该视频交由人工进行审核，即如图3b所示，该视频识别装置还可以包括处理单元307，如下：

处理单元307，用于确定视频识别结果满足预设条件，比如，若该视频识别结果表示该视频的恶意概率大于预设阈值，则可以将该视频信息发送给预设终端，以进行人工审核。

其中，该预设阈值可以根据实际应用的需求进行设置，在此不再赘述。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个不同的实体来实现，以上各个单元的具体实施可参见前面的实施例，在此不再赘述。

该视频识别装置具体可以集成在服务器等中，该服务器可以是单一的服务器，也可以是服务集群。

由上可知，本实施例在获取需要进行识别的视频信息后，可以由图片识别单元302、语音识别单元303、以及文本识别单元304等对该视频内容中的图片、语音、字幕和视频相关信息分别进行识别，得到多维的识别结果，即图片识别结果、语音识别结果和文本识别结果等，然后，由融合单元305将这些识别结果进行融合计算，得到最终的视频识别结果；由于在该方案中，可以从多个维度对视频进行识别，因此，相对于现在技术中只是单个维度地对视频进行识别而言，可以提高识别的准确率，大大改善识别效果；而且还可以大幅降低人工审核成本，大大提高审核效率。

实施例四、

相应的，本发明实施例还提供一种视频识别系统，可以包括本发明实施例所提供的任一种视频识别装置，具体可参见实施例三，例如，可以如下：

视频识别装置，用于获取需要进行识别的视频信息，该视频信息包括视频内容和视频相关信息等；对该视频内容中的图片进行识别，得到图片识别结果；对该视频内容中的语音进行识别，得到语音识别结果；对该视频内容中的字幕和视频相关信息的文本进行识别，得到文本识别结果；将该图片识别结果、语音识别结果和文本识别结果进行融合计算，得到视频识别结果。

该视频识别系统还可以包括其他的设备，比如业务服务器，如下：

业务服务器，用于向视频识别装置发送需要进行识别的视频信息，其中，该视频信息可以包括视频内容和视频相关信息，视频相关信息可以包括视频的弹幕和/或评论等信息。

以上各个设备的具体实施可参见前面的实施例，在此不再赘述。

由于该视频识别系统可以包括本发明实施例所提供的任一种视频识别装置，因此，可以实现本发明实施例所提供的任一种视频识别装置所能实现的有益效果，详见前面的实施例，在此不再赘述。

实施例五、

本发明实施例还提供一种服务器，如图4所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(Radio Frequency，RF)电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图片播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

RF电路403可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器401处理；另外，将涉及上行的数据发送给基站。通常，RF电路403包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路403还可以通过无线通信与网络和其他设备通信。该无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，General Packet Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long Term Evolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

服务器还包括给各个部件供电的电源404(比如电池)，优选的，电源404可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元405，该输入单元405可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元405可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器401，并能接收处理器401发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元405还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

该服务器还可包括显示单元406，该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元406可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器401以确定触摸事件的类型，随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

尽管未示出，服务器还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取需要进行识别的视频信息，该视频信息包括视频内容和视频相关信息等；对该视频内容中的图片进行识别，得到图片识别结果；对该视频内容中的语音进行识别，得到语音识别结果；对该视频内容中的字幕和视频相关信息的文本进行识别，得到文本识别结果；将该图片识别结果、语音识别结果和文本识别结果进行融合计算，得到视频识别结果。

例如，处理器401具体可以实现如下功能：

从该视频内容中提取图片，得到图片集合，对该图片集合中的图片分别进行解析，以识别出恶意图片，确定该图片集合中恶意图片所占的比例，得到恶意图片概率，将该恶意图片概率作为图片识别结果。

从该视频内容中提取语音，得到语音集合，对该语音集合中的语音分别进行解析，以识别出恶意语音，确定该语音集合中恶意语音所占的比例，得到恶意语音概率，将该恶意语音概率作为语音识别结果。

将该视频内容中的字幕和视频相关信息的文本添加至文本集合，对文本集合中的文本进行解析，以识别出恶意文本，确定该文本集合中恶意文本所占的比例，得到恶意文本概率，将该恶意文本概率作为文本识别结果。

可选的，若视频信息中还携带了观看用户信息，比如携带了视频观看用户数量、以及群体分布等信息，则此时，还可以根据该观看用户信息对观看用户趋势进行识别，并在计算视频识别结果时，将该观看用户趋势的识别结果作为考量因素之一，即处理器401还可以实现如下功能：

根据该观看用户信息确定观看用户数量随时间变化的规律，得到变化特性信息，根据该观看用户信息确定观看用户的群体分布状况，得到群体分布信息，根据该变化特性信息和群体分布信息计算初始识别结果。

则此时，在计算视频识别结果时，具体可以为：将该图片识别结果、语音识别结果、文本识别结果和初始识别结果分别乘以相应的权重后，进行相加，得到视频识别结果。

以上各个操作的具体可参见前面的实施例，在此不再赘述。

由上可知，本实施例的服务器在获取需要进行识别的视频信息后，可以对该视频内容中的图片、语音、字幕和视频相关信息分别进行识别，得到多维的识别结果，即图片识别结果、语音识别结果和文本识别结果等，然后，将这些识别结果进行融合计算，得到最终的视频识别结果；由于在该方案中，可以从多个维度对视频进行识别，因此，相对于现在技术中只是单个维度地对视频进行识别而言，可以提高识别的准确率，大大改善识别效果。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

以上对本发明实施例所提供的一种视频的识别方法、装置和系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上该，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余宗桥;
技术所有人：腾讯科技（深圳）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。