音视频内容分析方法及装置与流程

文档序号：16147146发布日期：2018-12-05 16:39阅读：283来源：国知局

本发明涉及计算机技术领域，尤其涉及一种音视频内容分析方法及装置。

背景技术

随着直播行业的快速发展，越来越多的人开始作为主播进入直播行业，在不断丰富观众多样化观看需求的同时，也造成直播行业内主播播出的直播内容良莠不齐。

目前，对视频内容的审核还是以人工审核为主，机器审核为辅。人工审核效率低，成本高，审核人员的工作负荷大，有时难以及时发现违规视频。

技术实现要素：

现有技术中，机器审核实质上就是采用视频截图并鉴定的方式。通过在视频直播过程中对实时流进行视频直播截图并生成图片，再使用图像分析系统进行分类。当视频数量较大且超过服务端的承载能力时，一般会通过视频流热度分析、热门主播、观看人数变化等数据进行辅助分类，以缩小视频审核的范围。其中，上述的视频流热度、热门主播、观看人数变化等数据可通过服务端(如cdn服务器，内容分发网络服务器)、日志客户端采集分析得到。在实际应用中，由于视频码率不均匀、违规内容的多样性等原因，单基于上述提到的几种数据对视频进行辅助分类，其准确率低，因此现有技术中还是需要以人工审核为主。

针对现有技术中存在的机器审核准确率低的问题，本发明实施例提供的如下的技术方案，以提高其审核准确性。

于是，在本发明的一个实施例中，提供了一种音视频内容分析方法。该方法包括：获取待处理音视频；获取与所述待处理音视频相关的关联用户的属性信息；根据所述关联用户的属性信息，对所述待处理音视频进行内容分析以输出所属类别信息。由于关联用户的属性信息中包含有大量的可利用和挖掘的与音视频内容相关的数据，基于这些数据来协助视频内容的审核，能有效的提高音视频内容审核的准确度，且有助于推进视频审核自动化的进程。

可选地，所述关联用户的属性信息包含：观众属性信息。相应的，上述获取与所述待处理音视频相关的关联用户的属性信息，包括：获取驻留在观看所述待处理音视频观众周围的设备采集到的针对所述观众的第一音视频；和/或从第三方服务平台、为所述待处理音视频提供播放平台的应用客户端和/或应用服务端，获取观看所述待处理音视频观众的用户信息；根据所述第一音视频和/或所述观众的用户信息，确定所述观众属性信息。本实施例利用了观众侧的一个或多个设备以采集相应的信息进而获知观众的观看反应，使得用于内容分析的辅助数据更加多样，且实时采集的数据更加直接、更具有针对性，有助于提高视频内容审核的准确性。

可选地，上述观众属性信息包括：观看情绪属性、观众所处场景属性和观众画像中的一项或多项；相应的，上述根据所述第一音视频和/或所述观众的用户信息，确定所述观众属性信息，可包括：

对所述第一音视频进行人脸识别以提取第一表情特征；和/或对所述第一音视频进行动作识别以提取第一动作特征；和/或对所述第一音视频进行语音识别以提取第一语音特征；根据所述第一表情特征、所述第一动作特征和/或所述第一语音特征，确定所述观看情绪属性；

和/或

对所述第一音视频进行环境识别以得到所述观众所处场景属性；

和/或

将所述观众的用户信息作为用户画像构建模型的输入，得到所述观众画像。

上述观众情绪属性表征了观众观看待处理音视频时的观看反应，例如“兴奋”、“亢奋”、“喜悦”等等；基于观众画像可获知观众的年龄、性格、视频观看喜好等等；这些信息都与待处理音视频的内容存在着直接或间接的联系，因此基于这些信息对待处理音视频进行内容分析，有助于提高视频审核准确率。

可选地，上述关联用户的属性信息还可包含：视频提供方属性信息。相应的，上述获取与所述待处理音视频相关的关联用户的属性信息，包括：获取驻留在视频提供方周围的设备采集到的针对所述视频提供方的第二音视频，其中，所述视频提供方为提供所述待处理音视频的用户；和/或从第三方服务平台、为所述待处理音视频提供播放平台的应用客户端和/或应用服务端，获取所述视频提供方的用户信息；根据所述第二音视频和/或所述视频提供方的用户信息，确定所述视频提供方属性信息。本实施例提供的技术方案不仅关注观众侧的信息，还增加了对视频提供方信息的关注，目的是进一步的完善用于内容分析的辅助数据的多样性和全面性。

可选地，所述视频提供方属性信息包括：行为属性和/或视频提供方画像。以及，根据所述第二音视频和/或所述视频提供方的用户信息，确定所述视频提供方属性信息，包括：

对所述第二音视频进行人脸识别以提取第二表情特征；和/或对所述第二音视频进行动作识别以提取第二动作特征；和/或对所述第二音视频进行语音识别以提取第二语音特征；根据所述第二表情特征、所述第二动作特征和/或所述第二语音特征，确定所述行为属性；

和/或

根据所述视频提供方的用户信息作为用户画像构建模型的输入，得到所述视频提供方画像。

其中，行为属性表征了视频提供方在录制/直播视频时的行为表现，例如“性感”，“粗鲁”等等；基于视频提供方画像可获知视频提供方的年龄、性格、直播喜好、视频上传喜好等等；这些信息也都与视频的内容存着直接或间接的联系。

可选地，上述提供的方法中：根据所述关联用户的属性信息，对所述待处理音视频进行内容分析以输出所属类别信息，包括：根据所述关联用户的属性信息，对所述待处理音视频进行辅助分类以得到辅助分类结果；若辅助分类结果为高概率违规类，则增加对待处理音视频的采样频率；根据增加后的所述采样频率，对所述待处理音视频进行采样得到采样信息；基于所述采样信息，对所述待处理音视频进行内容分析以输出所属类别信息。

可选地，所述关联用户的属性信息包含有观众属性信息及视频提供方属性信息；以及，上述根据所述关联用户的属性信息，对所述待处理音视频进行辅助分类以得到辅助分类结果，包括：对所述观众属性信息及所述视频提供方属性信息进行关联性分析，得到分析结果；若所述分析结果为强关联，则基于所述观众属性信息或视频提供方属性信息，将所述待处理音视频划分为高概率违规类或低概率违规类；若所述关联性分析结果为弱关联，则将所述待处理音视频划分为未知类。数据分析会对服务端有比较大的压力，因此本实施例先基于关联用户的属性信息对视频进行辅助分类(亦或称一次分类)，这样在使用现有技术框架下的采样&图像识别的方式对视频进行内容分析时，对于划分为高概率违规的视频来说增加采样，对于被划分为低概率违规的视频来说，可降低采样，其主旨是增加审核准确度的同时降低服务端的压力。

可选地，上述视频内容分析方法还可包括：获取与所述待处理音视频相关的网络统计数据。相应的，根据所述关联用户的属性信息，对所述待处理音视频进行内容分析以输出所属类别信息，包括：根据所述关联用户的属性信息及所述网络统计数据，对所述待处理音视频进行内容分析输出所属类别信息。通过增加与所述待处理音视频相关的网络统计数据作为用于视频内容审核的辅助数据，使得数据更加多样和全面，有助于提高审核的准确性。

可选地，所述网络统计数据包括：观看所述待处理音视频的观众人数、针对所述待处理音视频的评论数及针对所述待处理音视频的赞赏礼物数中的一项或多项。

可选地，上述方法还可包括：若所述待处理音视频所属类别信息为不确定类别，获取目标用户；将所述待处理音视频推送至所述目标用户对应的终端；获取所述目标用户针对所述待处理音视频提交的人工审核类别结果；将所述人工审核类别结果作为所述待处理音视频的所属类别信息。

可选地，上述方法还可包括：若所述人工审核类别结果为合规类别，则将所述待处理音视频计入样本库。

本发明另一实施例提供了一种视频内容分析装置，该装置包括：第一获取模块、第二获取摸和分析模块。其中，第一获取模块，用于获取待处理音视频；第二获取模块，用于获取与所述待处理音视频相关的关联用户的属性信息；分析模块，用于根据所述关联用户的属性信息，对所述待处理音视频进行内容分析以输出所属类别信息。

本发明实施例提供的技术方案，除了基于待处理音视频本身外，还结合与待处理音视频相关的关联用户的属性信息一同来对待处理音视频进行内容分析；其中，关联用户可以是观看待处理音视频的观众、直播待处理音视频的主播等等；关联用户的属性信息中包含有大量的可利用和挖掘的与视频内容相关的数据，基于这些数据对待处理音视频进行内容分析，能有效提高视频审核准确度，且有助于推进视频审核自动化的进程。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一实施例提供的音视频内容分析方法的流程示意图；

图2示出了本发明另一实施例提供的音视频内容分析方法的流程示意图；

图3示出了本发明又一实施例提供的音视频内容分析方法的流程示意图；

图4示出了本发明又一实施例提供的音视频内容分析方法的流程示意图；

图5为图4示出的音视频内容分析方法的流程示意图的另一种展现形式；

图6示出了本发明一实施例提供的音视频内容分析装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明一实施例提供的音视频内容分析方法的流程示意图。本实施例提供的所述方法的执行主体可以是服务端。具体的，如图1所示，本方法包括：

101、获取待处理音视频。

102、获取与所述待处理音视频相关的关联用户的属性信息。

103、根据所述关联用户的属性信息，对所述待处理音视频进行内容分析以输出所属类别信息。

上述101中，待处理音视频可以是直播平台上直播的视频、社交网络平台(例如微信、qq、微博等)上用户上传或转发的视频或视频网站(例如优酷、土豆、爱奇艺等)上的点播视频等等，本发明实施例对此不作具体限定。当然本发明实施例也可应用于单音频的内容分析或者单视频的内容分析。其中，视频可以是目前较为普遍的2d视频、还可以是vr(virtualreality，虚拟现实)视频等等。在一种可实现的方案中，上述待处理音视频可以是利用网络爬虫从网络侧(直播平台、社交网络平台或视频网站)抓取到的，或是人工输入的，又或是第三方平台服务器或用户终端推送的等等。例如，基于抓取任务，定时的从抓取任务指向的网站中抓取视频作为待处理音视频；或者将通过人机交互接口导入的视频作为待处理音视频；或者将接收的第三方平台服务器或用户终端推送的视频作为待处理音视频。获取到的待处理音视频可直接加入到待审核队列；或者，在获取到待处理音视频后，根据待处理音视频的属性信息，判断该待处理音视频是否符合预设的筛选规则，将满足预设的筛选规则的待处理音视频加入到待审核队列。例如，待处理音视频的属性信息是视频的清晰度，相应的筛选规则为清晰度需要达到预设值。又例如，待处理音视频的属性信息为视频格式，相应的筛选规则为视频格式为指定格式的视频。当然，待处理音视频的属性信息还可以是视频分类或描述信息等等，筛选规则可相应的进行调整，本发明对此不作具体限定。

上述102中，与待处理音视频相关的关联用户可以是：观看待处理音视频的观众、录制/制作待处理音视频的用户、直播待处理音视频的主播等等中的一类或多类用户。这里需要说明的是：在直播应用场景下主播即录制/制作待处理音视频的用户。上述关联用户属于哪一类用户可基于服务端数据获知，即各类用户的用户信息可从服务端获取得到。例如，在直播应用场景下，主播开始进行直播时，主播侧终端将采集到的音视频上传至服务端，服务端对其进行存储等处理。主播侧终端发送音视频的同时也将类似于主播昵称、主播侧终端ip地址、终端型号等主播用户信息发送至服务端；服务端将该主播用户信息对应的用户记为该音视频的主播。对于观众来说，观众想要观看该主播的音视频，观众侧终端需向服务端请求该主播的音视频，在向服务端请求主播的音视频信息的同时会向服务端发送类似于观众登录名、观众侧终端ip地址、终端型号等观众用户信息，以便于服务端根据观众用户信息将该主播的音视频发送给观众侧终端。服务端将该观众用户信息对应的用户记为与该音视频相关的观众。由上述内容可知，各类用户的用户信息可通过查询服务端数据即可获得。

基于上述内容可知，关联用户的属性信息可包含观众属性信息和/或视频提供方的属性信息等等。其中，视频提供方可以是：直播待处理音视频的主播或录制/制作待处理音视频的用户。

当关联用户的属性信息包含有观众属性信息时，上述102中获取与所述待处理音视频相关的关联用户的属性信息，可包括如下步骤：

s11、获取驻留在观看所述待处理音视频观众周围的设备采集到的针对所述观众的第一音视频；和/或从第三方服务平台、为所述待处理音视频提供播放平台的应用客户端和/或应用服务端，获取观看所述待处理音视频观众的用户信息。

s12、根据所述第一音视频和/或所述观众的用户信息，确定所述观众属性信息。

上述s11中，驻留在观看所述待处理音视频观众周围的设备，包括但不限于：手机、电脑、智能电视、摄像头、红外分析仪、智能手表等设备。驻留在观众周围的设备可包含有观众观看待处理音视频所使用的设备。例如，观众使用手机进入直播平台观看某一直播间的视频时，手机上的前置摄像头即可采集观众在观看视频时的音视频。针对观众的第一音视频可采用如下几种方式来获取：

方式一、获取观看待处理音视频的观众的用户信息；然后，根据所述观众的用户信息，识别网络侧驻留在所述观众周围的设备；随后，向识别出的设备发送获取请求；最后，接收设备反馈的其采集到的针对所述观众的第一音视频。

方式二、设备实时采集音视频，并将采集到的音视频上传至服务端或云端，同时上传采集时间、设备ip地址、设备型号等等信息。相应的，获取观众的第一音视频的步骤可包括：获取观看待处理音视频的观众的用户信息及观看时间；然后根据所述观众的用户信息，识别观众同时使用的多个设备；随后，根据观众观看时间从服务端或云端侧，查找识别出的多个设备在观众观看时间所在时段采集到的音视频，将查找到的音视频作为第一音视频。

上述方式一和方式二中观众的用户信息可基于服务端数据获取到。例如，根据待处理音视频的标识，查询服务端数据中存储的与待处理音视频标识关联的观众的用户信息。

上述两种方式中均涉及到识别观众同时使用的多个设备，其目的是为了启用观众侧的一个或多个设备来采集音视频信息。这里启用并非特指联动“启动”，即在主播直播视频时、观众打开视频时即联动“启动”其他设备。一种可行的方案是可以引导用户打开其他设备，即观众同时使用的多个设备被开启后发出注册信息以便于本实施例提供的方法的执行主体能够根据注册信息将多个设备关联到同一观众。具体实施过程为：将注册信息中携带的设备标识与观众的用户信息进行关联存储，这样根据观众的用户信息即可获得与其关联的设备标识，进而实现识别观众同时使用的多个设备的过程。另一种可行的技术方案是利用当前用户周围已经处于打开的智能设备，然后通过类似现有“米家”app(应用)等把设备“关联”到一个用户；或是智能家庭系统中以中心控制设备为中心控制的多个设备，通过该中心控制设备来把多个设备“关联”到一个用户。这里“关联”到一个用户是指这些设备是被认为由一个人(或一家人)在使用，也就是说这些设备收集到的数据有一定关联性。例如，本实施提供的所述方法的执行主体根据观众的用户信息，向观众使用的终端发送获取其他设备信息的请求，接收到该请求的终端反馈与其关联的设备标识，进而实现识别观众同时使用的多个设备的过程。又一种可行的方案是基于访问同一家庭ip(网络之间互连的协议)地址的多个设备(手机和平板电脑)作为线索，来将访问同一ip地址的多个设备“关联”到一个用户。例如，用户可能会在手机上搜索产品a，然后在笔记本电脑上搜索购物网站来寻找该产品a。短时间内在相同地理位置的搜索，再综合其他的信息，就能够说明是同一用户在使用两个设备。即基于大数据的方式：根据观众的用户信息，基于大数据分析识别观众同时使用的多个设备。其中，观众的用户信息包括：用户网络行为数据、观众使用设备ip地址、观众使用设备型号等等。又一种可行的方案是通过跨id(标识)识别不同设备背后的同一用户。同一个用户可能同时拥有两部手机、两台电脑、一个平板、一个智能手表，家人共享一台智能电视。同一用户的注意力将在不同的时间和场景被不同的设备分割。目前主要有三种跨设备id识别的方法，分别为精准识别、纯概率识别和精准+概率识别。

方法一、精准识别即利用一个id去进行设备的匹配。其实现前提是需自身拥有一整套的账户id系统，即所谓的强账号体系。例如，阿里巴巴的淘宝账号、新浪微博以及腾讯的qq和微信，用户在多个设备上都会使用同一个账号登录。另一种就是如果一款产品本身能建立起pc和移动端的连接，它也可以实现跨设备id的识别，比如360手机助手这样的能建立一对一关系的产品。一种可实现的技术方案是，用户使用终端a(如手机)登录应用x时，终端a会向该应用服务端发送登录请求，该登录请求中携带有登录id以及设备a信息(如设备型号)。当用户使用终端b(如智能手表，平板电脑等)登录应用x时，同样终端b会向该应用服务端发送登录请求，该登录请求中携带有登录id以及设备b信息(如设备型号)。应用服务端将用户登录id与设备信息进行关联存储。具体实施时，可基于登录id与设备信息的对应关系，查找登录id是否有多个与其关联的设备信息；若有，则将多个设备信息对应的设备作为关联设备(即认为关联设备背后的用户为同一用户)。

方式二、概率识别就是通过算法来配对，寻求不同设备同属于同一用户的可能性。通过定义诸如ip、时间序列、上网行为、设备号等特征值，经过特定算法来做概率匹配，比如同一ip下的一些设备如果满足一定条件的话就可以认为它是同一用户。

在一种可实现的技术方案中，识别同一用户使用的不同设备的方法包括：

从云端获取用户网络行为数据；该网络行为数据包括：上网使用终端设备信息、网页浏览记录、ip地址等等；

根据所述网络行为数据，采用概率匹配规则识别同一用户使用的多个终端的设备信息；

将多个终端的设备信息进行关联存储。

其中，概率匹配规则可依据经验人为设定，本发明实施例对此不作具体限定。

方式三、精准+概率匹配核心是在概率匹配方法外，用自身数据源、合作方数据源等技术构建精准匹配集，并应用深度学习等技术，持续进行模型训练及分析，从而在保证可规模化应用的前提下提高准确率。该方法就是结合上述方法一和方法二的方法。其中，深度学习等技术、以及模型训练及分析均可采用现有技术中的相应内容，此处不再赘述。

识别观众侧的设备以采集观众在观看待处理音视频时针对观众的第一音视频的目的是为了获得观众观看待处理音视频时的观看反应。例如，观众使用手机观看待处理音视频，此时观众所处环境中还包含有处于工作状态的摄像头、电脑、智能电视、智能手表等等设备；而这些设备所采集的音视频信息可能含有观众的影像和/或声音；也可能既没有观众的影像也没有观众的声音。因此，接收到一个或多个设备采集的音视频信息后，需对音视频信息进行识别，以确定是否包含有针对观众的音视频信息。在一种可实现的技术方案中，识别方法可以是：基于预设的人脸部特征，判断接收到第一音视频是否存在人脸特征,如果存在，则采用该第一音视频，以便于后需基于该第一音视频确定观众的观看情绪属性；如果不存在人脸，则弃用该第一音视频。

上述提到的第三方服务平台可以是微信、qq、淘宝、微博等等；为所述待处理音视频提供播放平台的应用客户端可以是：熊猫tv、斗鱼、花椒直播、优酷、爱奇艺等对应的app；为待处理音视频提供播放平台的应用服务端可以是：熊猫tv、斗鱼、花椒直播、优酷、爱奇艺等应用对应的服务器。观众的用户信息可以包括：登录信息、网络行为记录、用户ip地址等等。其中，网络行为记录包括：发表过的文字、上传的视频/图片、评论/留言、网页浏览记录、关注的公众号、视频观看记录等等。

其中，观众属性信息可以包括观看情绪属性、观众所处场景属性和观看画像中的一项或多项。在一种可实现的方案中，上述获取观众在观看所述待处理音视频时的观看情绪属性可基于观众侧的设备(如手机、电脑、智能电视、摄像头、红外分析仪、智能手表或其他智能设备)采集到的信息获得。其中，观看情绪属性和观众所处场景属性可通过分析驻留在观众周围的设备采集的第一音视频来获得。具体的：

上述s12可采用如下方法实现：

和/或

对所述第一音视频进行环境识别以得到所述观众所处场景属性；

和/或

将所述观众的用户信息作为用户画像构建模型的输入，得到所述观众画像。

这里需要补充说明的是：本实施例提供的技术方案涉及到的对音视频进行人脸识别、动作识别都是对音视频中的一个人物影像进行的。若在第一音视频中出现多个人物的影像，需对第一音视频中的多个人物影像进行识别以确定出一个人物影像为目标人物影像。例如，将第一音视频中最清晰的人物影像作为目标人物影像，或将第一音视频中处于指定位置(例如视频中间区域)的人物影像作为目标人物影像。

在一种可实现的技术方案中，上述提到的人脸识别包含人脸特征提取及基于提取的特征进行表情分类的过程。人脸特征提取过程包括：识别第一音视频中人物影像的脸部几何特征(如眼睛、鼻子、嘴巴、下巴等部件的形状及位置)；然后根据第一音视频的影像流的顺序提取几何特征的变化信息(即各部件之间的位置关系及形状变化信息)。基于提取的特征进行表情分类的过程如下：将提取到的几何特征的变化信息与预设的表情库中的几何特征样本进行匹配，将匹配度高的几何特征样本所属的表情分类(如“激动”、“害羞”、“愤怒”、“高兴”等等)作为第一音视频中人物影像的第一表情特征。

上述提到的动作识别可采用模板匹配方法实现。事先对每一连续动作建立起样本模板，该样本模板中包含有多个具有时间顺序的动作特征数据。对第一音视频进行动作识别时，定时从第一音视频中截取动作特征数据；然后按时间顺序将多次截取的动作特征数据分别与样本模板中的多个动作特征数据进行匹配，将匹配度高的样本模板所属的动作特征(“鼓掌”、“跳跃”等等)作为提取到所述第一动作特征。

上述提到的语音识别过程可包括：第一音视频中的语音信号进行预处理，以对原始信号进行预滤波、采样、量化等滤除掉那些不重要的信息以及背景噪声等；然后从语音信号的语音波形中提取出随时间变化的语音特征序列，将该语音特征序列作为提取到的第一语音特征。

观看情绪属性可通过分析观众观看时的动作、面部表情、发出的声音等等中的一项或多项得到。即上述提到的根据所述第一动作特征和/或所述第一语音特征，确定所述观看情绪属性，具体实现过程如下：

首先、对表情特征、动作特征、语音特征和情绪属性的关联性进行建模,得到情绪模型。该情绪模型是将多个样本通过人工神经网络算法以一定的学习准则进行学习得到。多个样本为多个已知具有关联性的表情特征、动作特征、语音特征和情绪属性。例如，样本1为：具有关联性的眉毛嘴角上扬、鼓掌、笑声和高兴；样本2为：具有关联性的嘴角下垂、双手掩面、哭声和悲伤；样本3...…等等，此次不一一列举。具体实施时，人工神经网络算法可采用现有技术架构来实现。现有技术架构包括但不限于：谷歌的tensorflow(谷歌张量流图学习系统)。tensorflow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。本发明实施例上述提到的表情模型即可基于该tensorflow来实现。

然后，将第一表情特征、第一动作特征和/或第一语音特征作为情绪模型的输入计算得到观看情绪属性。

具体实施时，上述观众的情绪属性可由类似于如下的一个或多个情绪标签构成：“自然”、“愉悦”、“兴奋”、“激动”、“羞涩”、“拘束”、“粗俗”等。

本发明实施例提供的技术方案中，还可基于第一音视频识别出观众观看待处理音视频时所处的环境。例如：明亮还是昏暗的环境，公共场合还是私人场合等等。在一种可实现的方案中，上述对所述第一音视频进行环境识别以得到所述观众所处场景属性，可采用如下方法实现：

从第一音视频中截取图像；获取图像中各像素的明亮度，若图像中明亮度低于预设亮度的像素数量超过设定数量，则识别出观众观看待处理音视频时所处的环境为昏暗环境；否则，识别出观众观看待处理音视频时所处的环境为明亮环境；

判断第一音视频中的音频信号的音频噪声强度是否超过预设强度，若是，则识别出观众观看待处理音视频时所处的环境为公共场合；否则识别出观众观看待处理音视频时所处的环境为私人场合。

由上述内容可知，观众所处场景属性包含但不限于：环境明暗信息、场合类型信息等等。基于观众的第一音视频不仅可分析出观众情绪属性及观众观看时所处场景，还可分析出其他信息，这些信息越多，就越有助于提高后续视频内容审核的准确度。

上述提到的观众画像构建就是为了还原观众的用户信息，因此数据来源于所有与观众相关的用户数据。这些用户数据可从云端、各应用(如熊猫tvapp、斗鱼app、优酷app、爱奇艺app等)服务端、各应用客户端获取。这些用户数据可包括但不限于：用户登录信息、用户使用终端的ip地址、用户使用终端的设备型号、用户网络行为数据(例如：直播互动留言、微信关注公众号、微博关注用户、微博发表的评论、微博点赞记录、浏览数据、广告关注信息等)。这些用户数据可划分为静态信息数据和动态信息数据。静态信息数据包括：人口属性、商业属性等等。其中，人口属性包括：性别、年龄、地域、商圈、职业、婚姻状况等等；商业属性包括：消费等级、消费周期等等。动态信息数据包括：用户网络行为数据。

这里需要说明的是：用户在不同平台上留下的数据信息多种多样，但总有关联性。比如，以下信息可能在不同的平台上是一致的：设备标识(如通过智能手机访问不同app留下的识别码等)、手机号、邮箱、预留的身份证号或银行卡号(转换为用户识别码后进行匹配)、关联的支付宝账户等等。因此，在具体实施时，可向云端或各应用服务端发送携带有上述多种信息中的一种或多种的用户数据获取请求。这样云端或各应用服务端便可基于设备标识(如通过智能手机访问不同app留下的识别码等)、手机号、邮箱、预留的身份证号或银行卡号(转换为用户识别码后进行匹配)、关联的支付宝账户等等中的一种或多种查找到同一用户的用户数据。对于各应用客户端上的用户数据，可向用户所使用手机号对应的终端发送用户数据获取请求，以使具有该手机号的终端反馈其上安装的各应用客户端侧存储的用户数据。

若为待处理音视频提供播放平台非第三方平台而是自有平台，则可通过在客户端应用中增加api接口的方式来获取。对于应用服务端侧的数据，可通过向服务端发送数据获取请求的方式实现。对于第三方服务平台的数据，可通过双方默认的协议在其所允许的权限内发送数据请求的方式获取。

构建观众画像的目的是通过分析观众的行为，最终为每个观众打上标签以及该标签的权重。标签表征了内容，观众的观看兴趣，需求等；权重表征了指数，可理解为该标签的可信度、概率等。上述提到的用户画像构建模型实质上就是将用户的每一次网络行为数据构建成一个对应的事件模型。该事件模型包括：时间、地点、人物三个要素。用户画像构建模型可以概括为下面的公式：用户标识+时间+行为类型+接触点(网址+内容)。基于该数据模型为该用户打上对应标签。用户标签的权重可能随时间的增加而衰减，因此定义时间为衰减因子r，行为类型、网址决定了权重，内容决定了标签，进一步转换为公式：标签权重＝衰减因子*行为权重*网址子权重。

例如用户a，昨天在**网站浏览一瓶价值238元的长城干红葡萄酒信息。

标签：红酒，长城

时间：因为是昨天的行为，假设衰减因子为r＝0.95

行为类型，浏览行为记为权重1

地点：**网站的网址子权重记为0.9

则用户偏好标签是：红酒，权重0.95*0.7*1＝0.665，即，用户a：红酒0.665、长城0.665。

当关联用户为提供待处理音视频的视频提供方时，上述关联用户的属性信息包含：视频提供方属性信息。相应的，上述102还可包括：

s13、获取驻留在视频提供方周围的设备采集到的针对所述视频提供方的第二音视频；和/或从第三方服务平台、为所述待处理音视频提供播放平台的应用客户端和/或应用服务端，获取所述视频提供方的用户信息。

s14、根据所述第二音视频和/或所述视频提供方的用户信息，确定所述视频提供方属性信息。

其中，所述视频提供方为提供所述待处理音视频的用户。

上述涉及的针对视频提供方的第二音视频是指包含有视频提供方影像和/或声音的音视频。在一种可实现的方案中，可采用音视频提供方侧的设备来采集针对视频提供方的第二音视频。视频提供方的设备包括但不限于如下的几种：手机、电脑、智能电视、摄像头、红外分析仪、智能手表或其他智能设备。获取针对视频提供方的第二音视频的方法同上述第一音视频的获取方法，此次不再赘述。

上述视频提供方属性信息可包括：行为属性和/或视频提供方画像。相应地，上述s14可采用如下方法实现：

对所述第二音视频进行人脸识别以提取第二表情特征；和/或对所述第二音视频进行动作识别以提取第二动作特征；和/或对所述第二音视频进行语音识别以提取第二语音特征；根据所述第二表情特征、所述第二动作特征和/或所述第二语音特征，确定所述行为属性；和/或

根据所述视频提供方的用户信息作为用户画像构建模型的输入，得到所述视频提供方画像。

具体实施时，上述视频提供方行为属性可由类似于如下的一个或多个行为标签构成：“煽情”、“性感”、“优雅”等。

上述人脸识别提取表情特征、动作识别提取动作特征以及语言识别提取语音特征均可采用上述内容提供的具体方法，此次不再赘述。

视频提供方行为属性可通过分析视频提供方在拍摄/制作待处理视频时的动作、表情、发出的声音等中的一项或多项得到。同上述观众的观看情绪属性，可预先对表情特征、动作特征和语言特征与行为属性的关联性进行建模，得到行为模型。然后，将上述第二表情特征、第二动作特征和/或第二语音特征作为行为模型的输入计算得到行为属性。其中，上述的行为模型是将多个样本通过人工神经网络算法以一定的学习准则进行学习得到。多个样本为多个已知具有关联性的表情特征、动作特征、语音特征和行为属性。这些用于模型学习的样本可由技术人员基于经验人为设定。具体实施时人工神经网络算法可采用现有技术架构来实现。现有技术架构包括但不限于：谷歌的tensorflow(谷歌张量流图学习系统)。tensorflow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。本发明实施例上述提到的行为模型即可基于该tensorflow来实现。

上述提到的构建视频提供方画像(通常被称为用户画像)实质上就是视频提供方信息标签化的过程，就是通过收集与分析用户的社会属性、生活习惯、消费行为等主要信息的数据之后，完美地抽象出一个用户的虚拟全貌作是大数据技术的基本方式。用户画像通常是高度精炼的特征标识的集合，如年龄、性别、地域、用户偏好等，最后将用户的所有标签综合来看，就勾勒出该用户的“画像”。其中，用户画可基于网络侧大量的用户数据获得，例如使用apacheflume(分布式日志收集系统)进行用户数据的收集，然后通过构建模型来产生标签，进而生成用户画像。例如：某主播画像为：“九零后”、“奢侈品”、“淘宝”、“性感”、“美女”等。通过视频提供方画像可分析出视频提供方的喜好(例如经常上传/直播违规视频，喜欢观看违规视频等等)，将视频提供方的喜好参与到待处理音视频的辅助分类过程中，有助于提高视频审核准确度。

这里需要说明的是：上述视频提供方画像可采用上述内容提到的观众画像构建方法实现，此次不再赘述。

上述103根据所述关联用户的属性信息，对所述待处理音视频进行内容分析以输出所属类别信息，可采用如下方法实现：

10311、根据所述关联用户的属性信息，对所述待处理音视频进行辅助分类；

10312、若辅助分类结果为高概率违规类，则增加对待处理音视频的采样频率；

10313、根据增加后的所述采样频率，对所述待处理音视频进行采样得到采样信息；

10314、基于所述采样信息，对所述待处理音视频进行内容分析以输出所属类别信息。

上述10311中根据所述关联用户的属性信息，对所述待处理音视频进行辅助分类的实现存在如下几种情况。

情况一、关联用户的属性信息仅包含观众属性信息。此时，可通过对观众属性信息来对待处理音视频进行辅助分类。例如，观看待处理音视频的观众中，多数观众属性信息中都包含有“宅男”、“美女”、“兴奋”、“激动”等这类信息，可认为其违规概率较高，将该待处理音视频划为高概率违规类。多数观众属性信息中都包含有“文艺青年”、“自然”等这类信息，可认为其违规概率较低，将该待处理音视频划为低概率违规类。若所有观众属性信息中有关上述两类信息的占比相当，则可将该待处理音视频划为未知类。

有上述内容可知，观众属性信息包括：观看情绪属性、观众所处场景属性及观众画像中的一项或多项。观看情绪属性可由类似于如下的一个或多个情绪标签构成：“自然”、“愉悦”、“兴奋”、“激动”、“羞涩”、“拘束”、“粗俗”等。观众所处场景属性包含：明亮/昏暗属性、公共/私人场景。观众画像包含有基于观众的用户信息构建的多个画像标签及各画像标签对应的权重。下面以观众属性信息包含：观看情绪属性、观众所处场景属性及观众画像为例，对上述根据所述关联用户的属性信息，对所述待处理音视频进行辅助分类的实现过程进行说明。具体的，其实现过程可包括：

从多个观众对应的观看情绪属性中提取出现概率大于第一概率值的情绪标签；

从多个观众对应的观众画像中提取出现概率大于第二概率值的画像标签；

若第一违规样本库中包含有与情绪标签及画像标签相同或相似的标签样本，且多个观众中超过预设比例的观众所处场景属性中包含有昏暗属性和私人场景，则将待处理音视频划为高概率违规类；否则，将待处理音视频划分为低概率违规类。

这里补充的是：第一概率值、第二概率值及预设比例可根据实际经验人为设定。从多个观众对应的观看情绪属性和观众画像中提取情绪标签和画像标签，实质上就是为了获取多数观众的共性标签。其中，第一违规样本库可由工作人员预先创建得到，其中包含有多个标签样本，例如：“激动”、“羞涩”、“粗俗”、“美女”、“宅男”等等。或者，第一违规样本库中的标签样本可基于大数据获得，例如，基于对大量用户的网络行为数据，分析得到喜欢观看违规视频的用户；然后根据这些用户的用户画像，从中提取出具有共性的画像标签(即出现概率大于第二概率值的画像标签)存入违规样本库中；基于对大量已知用户(例如参与实验的志愿者等)的观看情绪属性，从中提取出具有共性的情绪标签(即出现概率大于第一概率值的情绪标签)存入违规样本库中。因为，有些情绪标签与画像标签相同或相似，因此本实施例将情绪标签与画像标签存入同一违规样本库中进行统一判定；当然也可针对情绪标签建立对应的情绪违规样本库，针对画像标签建立对应的画像标签违规样本库，然后分别进行判定，只要有一种标签在对应标签样本库中有相同或相似的标签，即认为违规。

情况二、关联用户的属性信息仅包含视频提供方属性信息。此时，可通过视频提供方属性信息来对待处理音视频进行辅助分类。

视频提供方属性信息包含有：视频提供方行为属性和/或视频提供方画像。例如，视频提供方属性信息中包含有“煽情”、“性感”、“美女”、“网红”等信息，可认为其违规概率较高，将该待处理音视频划为高概率违规类。视频提供方属性信息中包含有“清晰”、“自然”、“搞笑”的信息，可认为其违规概率较低，将该待处理音视频划为低概率违规类。

同样的，视频提供方行为属性可由类似于如下的一个或多个情绪标签构成：“煽情”、“挑逗”、“粗俗”等。视频提供方画像包含有基于视频提供方的用户信息构建的多个画像标签及各画像标签对应的权重，例如：“美女”、“网红”等等。下面以视频提供方属性信息包含有：视频提供方行为属性及视频提供方画像为例，对上述根据所述关联用户的属性信息，对所述待处理音视频进行辅助分类的实现过程进行说明。具体的，其实现过程可包括：

若第二违规样本库中包含有与视频提供方行为属性中的行为标签及视频提供方画像中的画像标签相同或相似的标签样本，则将待处理音视频划为高概率违规类；否则，将待处理音视频划分为低概率违规类。

其中，第二违规样本库可与第一违规样本库为同一样本库。

情况三、关联用户的属性信息包含视频提供方属性信息和视频提供方属性信息。此时，根据所述关联用户的属性信息，对所述待处理音视频进行辅助分类，包括：对所述观众属性信息及所述视频提供方属性信息进行关联性分析，得到分析结果；若所述分析结果为强关联，则基于所述关联用户的属性信息，划分所述待处理音视频所属的分类；若所述关联性分析结果为弱关联，则将所述待处理音视频划分为未知类。

在一种可实现的方案中，观众属性信息及视频提供方属性信息的关联性分析过程如下：

从多个观众对应的观看情绪属性中提取出现概率大于第一概率值的情绪标签；和/或

从多个观众对应的观众画像中提取出现概率大于第二概率值的画像标签；

将上述提取出的情绪标签和/或画像标签作为观众侧标签；

将视频提供方属性信息中包含的行为标签和/或画像标签作为音视频提供方侧标签；

基于语义识别技术，分析观众侧标签与音视频提供方侧标签是否具有语义关联性；

若具有语义关联性，则得出观众属性信息及视频提供方属性信息具有强关联性；

若不具有语义关联性，则得出观众属性信息及视频提供方属性信息具有弱关联性。

这里需要补充的是：从观众属性信息中提取出的情绪标签和/或画像标签可能为多个，视频提供方属性中包含的行为标签和/或画像标签也可能为多个。因此，一种可实现的技术方案中，上述语音关联性分析过程只要有一个观众侧标签与一个音视频提供方侧标签具有语音关联性，即可认为两者具有强关联性。

观众属性信息及视频提供方属性信息具有强关联，则说明观众在观看视频提供方提供的视频时做出了与视频内容相符的反应。比如，主播做了一个被鉴定为“过分性感”的行为，很多观众的观看情绪都被鉴定为“激动”，则认为主播的属性信息与观众属性信息为强关联。但如果主播做了一个被鉴定为“过分性感”的行为，而很多观众或绝大多数观众的观看情绪为“平静”、“自然”；则认为主播的属性与观众的属性具有弱关联。由此可知，上述提到语义识别技术实质上就是识别观众侧标签是否与音视频提供方侧标签具有关联性的技术。一种可实现的技术方案是：预先建立语义关联库，该语义关联库中包含有音视频提供方侧的一个标签以及该标签对应的一个或多个观众侧标签。例如，语义关联库可表征为如下表1：

可见，在上述情况一和情况二下，对待处理音视频进行辅助分类的分类结果准确度较情况三差。情况三同时结合的观众属性信息及视频提供方属性信息。

另一种可实现的技术方案中，根据关联用户的属性信息，对待处理音视频进行辅助分类的实现过程可理解为多个判定条件是否满足的判定过程。例如，但不限于以下条件的判定：条件1、视频提供方属性信息为“美女”、“性感”；等等；条件2、多个观众具有同样的属性“宅男”、“喜欢看美女”、观看情绪“兴奋”、“粗俗”；等等。若上述条件都满足，则上述待处理音视频归为高概率违规分类；若上述条件都不满足，则上述待处理音视频归为低概率违规分类；若上述条件部分满足、部分不满足，则上述待处理音视频归为未知类。其中，条件1可以是视频提供方属性信息的集合；条件2可以是多数观众属性信息的集合。关联用户的属性信息中有关视频提供方属性信息包含有与条件1集合中给出的信息相同或类似的信息，则可认为满足；关联用户的属性信息中有关观众属性信息包含有与条件2集合中给出的信息相同或类似的信息，则可认为满足。

上述10312和10313中，采样频率为每单位时间(如每秒)从连续信号中提取并组成离散信号的采样个数。例如，从待处理音视频中提取一个或多个因此，上述增加对待处理音视频的采样频率可理解为：增加对待处理音视频的采样信息个数。对于音频信号来说其对应的采样信息就是音频片段；对于视频信号来说其对应的采样信息为帧图片。

上述10314中，基于采样信息对视频进行内容分析的过程可直接采用现有技术实现。即对采样信息(如视频帧图片)使用图像分析系统进行内容分析。图像分析系统的工作步骤包括：对视频图片进行预处理(例如噪声消除等等)；然后对预处理后的图片进行识别及分类。其中，识别内容包括但不限于：识别图像中裸露皮肤位置、识别裸露皮肤的面积大小、识别图像中人体姿态等等。一种可实现的技术方案是，对图像中的影像进行人体识别以提取人体特征(头、四肢、躯干等)区域；若人体特征中包含有躯干特征区域，则从躯干特征区域中提取指定位置区域；获取指定位置区域对应的像素值，若指定位置区域对应的所有像素的像素值均在预设数值范围内，则识别出裸露皮肤位置为指定违规位置；获取躯干特征区域内的所有像素的像素值，若躯干特征区域内的所有像素的像素值中有超过特定数值(该特定数值可人为设定)在预设数值范围内，则识别出裸露皮肤的面积超过指定违规面积；采用现有技术中的动作识别方法对图像中的影像进行动作识别，以判断图像中人体姿态是否为指定违规姿态；若图像中裸露皮肤位置为指定违规位置、裸露皮肤的面积大小超过指定违规面积、图像中人体姿态为违规姿态中的任一一项或多项则得出该处理视频为违规视频。当采样信息包含有音频信息时，可通过音频识别，判定音频中是否存在例如违规声调的音谱、违规语句等等。例如将采样音频信息与违规音频样本库中的样本进行声谱匹配，若样本库中存在与采样音频信息匹配高的违规样本，则可判定该视频存在声音违规(例如反动言论)。其中，违规音频样本库中包含有多个样本声谱，通过将采样音频信息与样本声谱进行声谱匹配，匹配的结果为一个概率值，概率值越大说明匹配度越高。因此，可预先设定一个标准概率，超过标准概率值的两个声谱可认定为匹配度高。

这里需要补充的是：当辅助分类结果为低概率违规类时，可不改变或降低对待处理音视频的采样频率。数据分析会对服务端有比较大的压力，因此本实施例先基于关联用户的属性信息对视频进行辅助分类(亦或称一次分类)，这样在使用现有技术框架下的采样&图像识别的方式对视频进行内容分析时，对于划分为高概率违规的视频来说增加采样，对于被划分为低概率违规的视频来说可降低采样，其主旨是增加审核准确度的同时降低服务端的压力。

待处理视频所属类别信息可分为违规类别、合规类别和模糊类别。即，采用上述图像分析系统识别出音视频违规时即得到待处理视频所属类别信息为违规类别；采用上述图像分析系统识别出音视频合规时即得到待处理视频所属类别信息为合规类别；采用上述图像分析系统识别出的结果为未知时即得到待处理视频所属类别信息为模糊类别。

本实施例提供的技术方案，除了基于待处理音视频本身外，还结合与待处理音视频相关的关联用户的属性信息一同来对待处理音视频进行内容审核；其中，关联用户可以是观看待处理音视频的观众、直播待处理音视频的主播、转播待处理音视频的用户、导播员等等；关联用户的属性信息中包含有大量的可利用和挖掘的与视频内容相关的数据，基于这些数据对视频进行辅助分类，能有效提高审核准确度，且有助于推进视频审核自动化的进程。

图2示出了本发明另一实施例提供的视频内容分析方法的流程示意图。本实施例提供的所述方法的执行主体可以是服务端。具体的，如图2所示，本方法包括：

201、获取待处理音视频。

202、获取与所述待处理音视频相关的关联用户的属性信息。

203、获取与所述待处理音视频相关的网络统计数据。

204、根据所述关联用户的属性信息及所述网络统计数据，对所述待处理音视频进行内容分析以输出所属类别信息。

其中，201和202可参见上述实施例中的相应步骤，此处不再赘述。

上述203中，网络统计数据可以是观看人数、评论人数、赞赏礼物数量等等。获取网络统计数据的目的是为了分析网络统计数据的变化趋势。例如，观看人数变化趋势、评论数变化趋势、赞赏礼物数量变化趋势等等。发明人在实际调研后发现，视频直播出现违规画面或音频时通常都伴随着数据的变化，数据变化量越大，其违规的概率越高。因此，本实施例中将网络统计数据也作为内容审核的依据。

网络统计数据可从服务端及应用端数据来获得。例如，观看人数可从cdn(contentdeliverynetwork，内容分发网络)节点、长链服务器等获得，或者直接读取应用端界面中显示的人气/点击次数；评论数可从服务端获取或直接读取应用端界面中显示的评论数；同样的，赞赏礼物数量也可从服务端获取或者直接读取应用端界面中显示的赞赏/礼物数量。其中，网络统计数据的变化趋势可通过获取一段时间的网络统计数据，然后基于这段时间的网络统计数据进行变化趋势分析。对于不同应用场景下，其获取时段可能也会不同。对于直播类的视频来说，需分析直播时段内网络统计数据的变化，因此需要间隔很短的时间频繁获取网络统计数据并进行趋势分析。对于点播类的视频来说，趋势分析的时段可拉长，例如近一、两天的网络统计数据的变化趋势。对于社交类平台的视频来说，趋势分析时段可介于直播视频和点播视频之间。当然，理论上趋势分析时段越短越好，但同时会带来处理量大的问题，可根据实际应用中的需求和处理能力，平衡趋势分析时段的选取。一种可实现的技术方案是，根据待处理视频的信息(如标识、url(uniformresourcelocator，统一资源定位符)地址等等)，获取指定时段内的网络统计数据。其中，指定时段可根据视频类型人为设定，本发明实施例对此不作具体限定。

上述204可采用如下方法实现：根据预设时段内获取到的多个网络统计数据，计算网络统计数据的变化趋势；然后根据关联用户的属性信息及网络统计数据的变化趋势，对待处理音视频进行辅助分类；若辅助分类结果为高概率违规类，则增加对待处理音视频的采样频率；根据增加后的所述采样频率，对所述待处理音视频进行采样得到采样信息；基于所述采样信息，对所述待处理音视频进行内容分析以输出所属类别信息。进一步的，若辅助分类结果为低概率违规类，可不改变采样频率或降低采样频率。

其中，根据关联用户的属性信息及网络统计数据的变化趋势，对待处理音视频进行辅助分类的实现过程实质上可理解为多个判定条件是否满足的判定过程。例如，但不限于以下条件的判定：条件1、视频提供方属性信息为：“美女”、“性感”；条件2、多个观众具有同样的属性信息：“宅男”、“喜欢看美女”、观看情绪“兴奋”、“粗俗”；条件3、评论数激增、礼物激增、观看人数激增等。若上述条件都满足，则上述待处理音视频归为高概率违规分类；若上述条件都不满足，则上述待处理音视频归为低概率违规分类；若上述条件部分满足、部分不满足，则上述待处理音视频归为未知类。即上述得到的根据关联用户的属性信息及网络统计数据的变化趋势，对待处理音视频进行辅助分类，可采用如下方法包括：

判断关联用户的属性信息及网络统计数据的变化趋势是否满足预设判定条件中的所有子条件；

若都满足，则待处理音视频划分为高概率违规分类；若都不满足，则待处理音视频划分为低概率违规分类；若部分满足部分不满足，则待处理音视频划分为未知类。

上述预设判定条件中的所有子条件可人为设定。例如，预设判定条件中包含有：视频提供方属性信息判定子条件(以下简称子条件1)、观众属性信息判定子条件(以下简称子条件2)以及网络统计数据的变化趋势判定子条件(以下简称子条件3)。其中，上述有关子条件1和子条件2的判定过程可参见上述实施例1中的相关内容，此次不再赘述。上述子条件3的判定过程可包括：

若网络统计数据的变化趋势中包含有评论数变化趋势，则判断评论数变化趋势是否为上升趋势且上升率达到第一阈值；

若网络统计数据的变化趋势中包含有礼物数变化趋势，则判断礼物数变化趋势是否为上升趋势且上升率达到第二阈值；

若网络统计数据的变化趋势中包含有观看人数变化趋势，则判断观看人数变化趋势是否为上升趋势且上升率达到第三阈值；

当评论数变化趋势为上升趋势且上升率达到第一阈值、礼物数变化趋势为上升趋势且上升率达到第二阈值或观看人数变化趋势为上升趋势且上升率达到第三阈值时，满足子条件3。

对于高概率违规类，可通过增加对待处理音视频的采样频率的方式进行内容审核。对于低概率违规类，可通过不改变或降低对待处理音视频的采样频率的方式进行内容审核。上述两种分类(高概率违规类及低概率违规类)，基于采样信息得到的内容审核结果即作为最终的结果。但对于未知类来说，基于采样信息得到的内容审核结果也可能是不能准确确定的；内容审核结果为模糊类别的情况，将在后续实施例中有详细介绍。本发明实施例提供的技术方案之所以先对待处理音视频进行辅助分类，是因为数据分析会对服务端有比较大的压力，这样作的主旨是通过动态调整频率来更好的捕捉视频截图，增加鉴别准确度的同时降低服务端压力或利用服务端闲置资源。

本实施例较上一实施例，新增加了网络统计数据作为内容审核基础，有助于进一步提高视频内容审核的准确度。

图3示出了本发明又一实施例提供的视频内容分析方法的流程示意图。本实施例提供的所述方法的执行主体可以是服务端。具体的，如图3所示，本方法包括：

301、获取待处理音视频。

302、获取与所述待处理音视频相关的关联用户的属性信息。

303、获取与所述待处理音视频相关的网络统计数据。

304、根据所述关联用户的属性信息及所述网络统计数据，对所述待处理音视频进行内容分析以输出所属类别信息。

305、若所述待处理音视频所属类别信息为模糊类别，则获取目标用户。

306、将所述待处理音视频推送至所述目标用户对应的终端。

307、获取所述目标用户针对所述待处理音视频提交的人工审核类别结果。

308、将所述人工审核类别结果作为所述待处理音视频的所属类别信息。

上述301～304可参见上述各实施例中的相应内容，此处不再赘述。

上述305中目标用户可以是一些志愿者，或有意愿审核视频的观众，或“正直”、“热心”的用户等等。从所有应用端用户(包括但不限于观看当前视频直播的用户)或视频内容审核众包平台中的用户中，选取有意愿配合做内容审核，且厌恶违规视频直播的用户。这里描述的“视频内容审核众包平台”是非已有平台，但可以用已有平台在一定程度上代替，比如类似猪八戒网、赶集网等兼职平台，企业可以发布任务，用户通过在平台上领取任务。一种可实现的方案中，基于用户的画像信息，从众多用户中选取有意愿参与视频审核的用户。例如，将用户的画像信息中包含有“正直”、“热心”等标签的用户选为本实施例中的目标用户。

进一步的，针对提交人工审核结果的用户可给予相应的奖励。例如，用户通过应用端(包括但不限于手机应用)上传待处理音视频的人工审核结果后，应用服务平台可给予用户积分奖励或虚机币奖励等。

进一步的，本实施例提供的所述方法还可包括：若所述人工审核结果为合规，则将所述待处理音视频计入样本库。其中，将人工审核合规的视频计入样本库的目的是为了增加图像识别机器学习的数据量。对于需要大量数据做基础的机器学习而言，保证识别模型的持续迭代，也就是说样本图片越多，分析才会越准确。因此，通过将确切合规的视频计入样本库，是为了使图像识别机器能够基于新添加的视频进行数据的迭代，以增进其后续处理结果的准确性。

上述306中，待处理音视频推送的方式是将可播放的链接或视频，采用类似于当前的app消息通知等的形式发送至用户终端。

本实施例提供的技术方案充分的利用观众侧资源，以在无法确定视频是否合规或违规的情况下，将待处理音视频推送给目标用户(如志愿者或选取出的用户)，提示用户对该视频进行审核，进而减少对于企业内容审核人员的依赖，降低企业成本。

这里需要补充的是：上述待处理音视频的内容审核结果模糊类别可能是因为待处理音视频在进行辅助分类时属于未知类；也可能是因为视频过于模糊无法进行机器识别的情况，需采用人工审核的方式。其中，辅助分类属于未知类的判定可参见上述各实施例中的相关内容，此次不再赘述。

图4和图5示出了本发明又一实施例提供的视频内容分析方法的流程示意图。图5较图4更形象的展示了本实施例提供的方法的实现过程。本实施例提供的所述方法的执行主体可以是服务端。本实施例以直播技术领域为例说明。具体的，如图4和图5所示，本方法包括：

401、从视频直播服务端获取与待处理音视频相关的网络统计数据。

402、对网络统计数据进行数据趋势化分析，以得到视频直播属性集。

403、从视频直播服务端、视频直播应用端及第三方平台等获取主播画像及观众(观看主播直播视频的用户)画像。

404、对主播画像及观众画像信息进行信息抽取分析，以得到用户属性集a。

405、获取一个或多个设备在观众观看待处理音视频时采集的针对观众的音视频信息。

406、根据针对观众的音频信息进行分析，得到观众属性信息。

407、将多个观众属性信息进行聚合分析，得到多个观众具有的共性属性。

408、获取一个或多个设备在主播直播待处理音视频时采集的针对主播的音视频信息。

409、根据针对主播的音视频信息进行分析，得到主播的属性信息。

410、对多个观众具有的共性属性与主播的属性信息进行关联性分析，得到用户属性集b。

411、根据视频直播属性集、用户属性集a和用户属性集b，对待处理音视频进行内容审核判定；若内容审核判定结果为确定合规(即上述各实施例中提到的待处理音视频所属类别信息为合规类别)，则无响应；若内容审核判定结果为确定违规(即上述各实施例中提到的待处理音视频所属类别信息为违规类别)，则作出相应响应(例如直播断流、禁播、封停、隔离或清除等)；若内容审核判定结果为不确定(即上述各实施例中提到的待处理音视频所属类别信息为模糊类别)，则进入步骤412。

412、对所有观众或内容审核平台众包平台的用户进行用户画像分析，以找到有意愿参与内容审核的目标用户。

413、采用灰度推送的方式推送至目标用户端。

414、接收目标用户在观看待处理音视频后提交的内容审核结果(即上述实施例中提到人工审核类别结果)，若内容审核结果为确定合规，则作出相应响应(例如将该待处理音视频计入机器学习样本库等)；若内容审核结果为确定违规，则作出相应响应(例如直播断流、禁播、封停、隔离或清除等)。

上述401在具体实施过程中，可根据待处理音视频的信息(如视频名称、标识、url地址等等)，从视频直播服务端获取与待处理音视频相关的网络统计数据。具体实施时，可获取历史上多个时段的网络统计数据。

上述402中，网络统计数据可包括：评论数、礼物数、观看人数等等。对网络统计数据进行数据趋势化分析就是基于历史上多个时段的网络统计数据分析得到网络统计数据的变化趋势是上升、下降或平稳，并在趋势为上升或下降时计算相应的上升率或下降率。即视频直播属性集中可包含多个网络统计数据对应的变化趋势及变化率。

上述403中主播画像可基于主播的用户信息构建获得，观众画像可基于观众的用户信息构建获得。其中，构建方法可参见上述各实施例中的相应内容，此处不再赘述。

上述404中，因为画像信息包含多方面的信息，因此需在画像信息中抽取一些与视频方面有关的信息，因此需进行信息抽取分析。其中，信息抽取分析的过程可简单的理解为：从画像信息中抽取出与预设样本集中的信息相同或相似的信息。

上述405和406可参见上述各实施例中的相应内容，此处不再赘述。

上述407中涉及到的对多个观众属性信息进行聚合分析可以理解为是找出多个观众属性信息中包含有相同或相似的信息项(即上述各实施例中提到的情绪标签和/或画像标签)的过程。

例如，观众a的属性信息中包含有：“宅男”、“90后”、“爱看美女视频”、“热心”、“兴奋”、“激动”等等；

观众b的属性信息中包含有“it男”、“爱看美女视频”、“粗俗”、“激动”等等；

将上述两个观众属性信息进行聚合分析后，得到的观众a和观众b的属性信息中均包含的“爱看美女视频”、“激动”。

由此可知，本实施例提供的聚合分析过程具体为：

获取多个观众的属性信息；

从所述多个观众的属性信息中提取出现频次大于预设频次的信息项(即上述实施例中提到的情绪标签和/或画像标签)。

其中，预设频次可人为设定。例如，出现频次为多个观众中有超过60～80的观众的属性信息中都包含有同一信息项或相似的信息项。

上述408和409可参见上述各实施例中的相应内容，此处不再赘述。

上述410中有关多个观众具有的共性属性与主播的属性信息进行关联性分析可参见上述实施例中提供的相应内容，此处不再赘述。

上述411中，根据视频直播属性集、用户属性集a和用户属性集b，对待处理音视频进行内容审核判定，包括：

根据视频直播属性集、用户属性集a和用户属性集b，对待处理音视频进行辅助分类；

若辅助分类结果为高概率违规类，则增加对待处理音视频的采样频率；

根据增加后的所述采样频率，对所述待处理音视频进行采样得到采样信息；

基于所述采样信息，对所述待处理音视频进行内容分析以输出所属类别信息。

其中，视频直播属性集即上述实施例中提到的网络统计数据的变化趋势；用户属性集a和用户属性集b即上述实施例中提到的关联用户的属性信息。此处涉及的各步骤的具体实现过程可参见上述实施例中的相应内容，此处不再赘述。

上述412可基于用户的画像，从众多用户中选取有意愿参与视频审核的用户。例如，将用户的画像信息中包含有“正直”、“热心”等画像标签的用户选为本实施例中的目标用户。具体实施时，可预先建立画像标签库，将用户的画像信息中包含有与画像标签库中的标签项相同或相似的画像标签对应的用户作为目标用户。上述412还可参见上述图3所示实施例中的步骤305部分的内容。

上述413中，提到的灰度推送是指针对内侧组的一种推送方式。推送可播放的链接或视频，类似于当前的app消息通知等给指定的用户，即本实施例中提到的目标用户。

上述直播断流指的是制止违规视频继续播放。“隔离或清除“指的是对于淫秽内容进行删除处理。在视频直播服务端对某个视频进行禁播是个很普遍的技术。隔离是指针对违规视频中不适宜传播的内容，可以是删除、禁止访问等隔离手段。封停指的是针对违规视频，可能反动、淫秽或出现当前不允许播放的内容，如侵犯版权等。

本发明所带来的有益效果：

1、在音视频提供方侧、观众侧同时进行音视频采集，并基于采集到的音视频信息分析视频提供方的行为属性及观看情绪属性，而不是仅针对服务端进行截图分析，有效利用了音视频提供方侧、观众侧的智能设备，避免了现有技术中仅依据主播侧数据的片面性。

2、结合其他应用或平台的用户信息进行更精准的分析，而不局限于单一途径的数据。

3、依据音视频提供方侧和观众侧属性的关联性进行分析，解决仅依赖音视频提供方侧数据的片面性，更精准。

4、采用有效的分发方式对未确定的视频进行内容审核，减少对于企业内容审核人员的依赖，降低企业成本。

需要说明的是：上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤101至步骤103的执行主体可以为设备a；又比如，步骤101和102的执行主体可以为设备a，步骤103的执行主体可以为设备b；等等。

图6示出了本发明一实施例提供的一种音视频内容分析装置的结构框图。如图6所示，本实施例提供的所述装置包括：第一获取模块501、第二获取模块502和分析模块503。其中，第一获取模块用于获取待处理音视频；第二获取模块用于获取与所述待处理音视频相关的关联用户的属性信息；分析模块用于根据所述关联用户的属性信息，对所述待处理音视频进行内容分析以输出所属类别信息。

本实施例提供的技术方案，除了基于待处理音视频本身外，还结合与待处理音视频相关的关联用户的属性信息一同来对待处理音视频进行内容审核；其中，关联用户可以是观看待处理音视频的观众、直播待处理音视频的主播、转播待处理音视频的用户、导播员等等；由于关联用户的属性信息中包含有大量的可利用和挖掘的与视频内容相关的数据。较现有技术中仅依据流热度、热门主播、观看人数等与视频内容无关的数据来对视频进行辅助分类，本发明实施例基于关联用户的属性信息对视频进行辅助分类，能有效提高审核准确度，且有助于推进视频审核自动化的进程。

进一步的，关联用户的属性信息包含：观众属性信息。相应的，所述第二获取模块可包括第一接收单元和/或第二获取单元，以及第一确定单元。其中，第一接收单元，用于获取驻留在观看所述待处理音视频观众周围的设备采集到的针对所述观众的第一音视频；第二获取单元，用于从第三方服务平台、为所述待处理音视频提供播放平台的应用客户端和/或应用服务端，获取观看所述待处理音视频观众的用户信息；第一确定单元，用于根据所述第一音视频和/或所述观众的用户信息，确定所述观众属性信息。

进一步的，所述观众属性信息包括：观看情绪属性、观众所处场景属性和观众画像中的一项或多项，以及

所述第一确定单元，还用于：

和/或

对所述第一音视频进行环境识别以得到所述观众所处场景属性；

和/或

将所述观众的用户信息作为用户画像构建模型的输入，得到所述观众画像。

进一步的，所述关联用户的属性信息包含：视频提供方属性信息；

以及，所述第二获取模块，包括：

第二接收单元，用于获取驻留在视频提供方周围的设备采集到的针对所述视频提供方的第二音视频，其中，所述视频提供方为提供所述待处理音视频的用户；和/或

第二获取单元，用于从第三方服务平台、为所述待处理音视频提供播放平台的应用客户端和/或应用服务端，获取所述视频提供方的用户信息；

第二确定单元，用于根据所述第二音视频和/或所述视频提供方的用户信息，确定所述视频提供方属性信息。

进一步的，所述视频提供方属性信息包括：行为属性和/或视频提供方画像；以及

所述第二确定单元，还用于：

和/或

根据所述视频提供方的用户信息作为用户画像构建模型的输入，得到所述视频提供方画像。

进一步的，所述分析模块，还用于：

根据所述关联用户的属性信息，对所述待处理音视频进行辅助分类以得到辅助分类结果；

若辅助分类结果为高概率违规类，则增加对待处理音视频的采样频率；

根据增加后的所述采样频率，对所述待处理音视频进行采样得到采样信息；

基于所述采样信息，对所述待处理音视频进行内容分析以输出所属类别信息。

进一步的，所述关联用户的属性信息包含有观众属性信息及视频提供方属性信息；

以及，所述分析模块还用于：

对所述观众属性信息及所述视频提供方属性信息进行关联性分析，得到分析结果；

若所述分析结果为强关联，则基于所述观众属性信息或视频提供方属性信息，将所述待处理音视频划分为高概率违规类或低概率违规类；

若所述关联性分析结果为弱关联，则将所述待处理音视频划分为未知类。

进一步的，所述装置还包括：

第三获取模块，用于获取与所述待处理音视频相关的网络统计数据；

以及，所述分析模块还用于：

根据所述关联用户的属性信息及所述网络统计数据，对所述待处理音视频进行内容分析输出所属类别信息。

进一步的，所述网络统计数据，包括：观看所述待处理音视频的观众人数、针对所述待处理音视频的评论数及针对所述待处理音视频的赞赏礼物数中的一项或多项。

进一步的，第四获取模块，用于当所述待处理音视频所属类别信息为不确定类别时，获取目标用户；

推送模块，用于将所述待处理音视频推送至所述目标用户对应的终端；

第五获取模块，用于获取所述目标用户针对所述待处理音视频提交的人工审核类别结果；

所述分析模块，还用于将所述人工审核类别结果作为所述待处理音视频的所属类别信息。

进一步的，所述装置还包括：

计入模块，用于当所述人工审核类别结果为合规类别时，将所述待处理音视频计入样本库。

这里需要说明的是：上述实施例提供的音视频内容分析装置可实现上述各方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王世超
技术所有人：北京金山云网络技术有限公司;北京金山云科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。