一种多媒体内容的播放控制方法、装置及存储介质与流程

文档序号：15116818发布日期：2018-08-07 20:34阅读：166来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及多媒体领域，尤其涉及一种多媒体内容的播放控制方法、装置及存储介质。

背景技术：

目前，各类视频平台，对于少儿用户的保护，远未达到智能化的阶段，若有少儿用户观看视频时，就无法有效地规避暴力等不适于少儿用户观看的内容。

现有技术中，采用的方式通常是在视频主页上提供一个少儿频道的入口，用户可以点击该少儿频道的入口，然后跳转到对应的少儿内容展示界面，展示少儿用户适合观看的视频内容。

但是，现有技术中的方法，需要用户手动并主动选择少儿频道，少儿视频内容的展示更多的依靠用户手动操作，并且少儿用户不容易控制，若没有家长的陪伴，其很容易跳转到其它不适于其观看的视频内容，效率较低并且也无法保证对少儿用户的保护效果。

技术实现要素：

本发明实施例提供一种多媒体内容的播放控制方法、装置及存储介质，以解决现有技术中需要依靠用户手动操作，导致效率较低并且也无法保证对少儿用户的保护效果的问题。

本发明实施例提供的具体技术方案如下：

根据本发明实施例的第一方面，提供了一种多媒体内容的播放控制方法，该方法包括，包括：

确定多媒体内容的播放环境符合预设的触发条件时，获取多媒体内容的播放环境图像；

在所述播放环境图像查找人脸图像；

提取所述人脸图像中预设的特征信息，确定所述人脸图像的特征信息对应的用户类别；

确认所述用户类别被设置为禁止观看所述多媒体内容时，确定停止播放所述多媒体内容。

根据本发明实施例的第二方面，提供了一种多媒体内容的播放控制方法，该方法包括：

获取多媒体内容的播放环境中出现的用户声音；

确认所述播放环境中出现的用户声音的语音特征对应的用户类别；

确认所述用户类别被设置为禁止观看所述多媒体内容时，确定停止播放所述多媒体内容。

根据本发明实施例的第三方面，提供了一种多媒体内容的播放控制方法，该方法包括：

确定多媒体内容的播放环境符合预设的触发条件时，获取多媒体内容的播放环境图像；

将所述播放环境图像发送给多媒体内容服务器；

接收所述多媒体内容服务器返回的播放控制指令；

确认所述播放控制指令中携带禁止播放所述多媒体内容的指示信息时，停止播放所述多媒体内容，其中，所述多媒体内容服务器在所述播放环境图像查找人脸图像，并提取所述人脸图像中预设的特征信息，确定所述人脸图像的特征信息对应的用户类别为禁止观看所述多媒体内容时，在所述播放控制指令中携带所述指示信息。

根据本发明实施例的第四方面，提供了一种多媒体内容的播放控制方法，该方法包括：

检测多媒体内容的播放环境中出现的用户声音；

将所述用户声音发送给多媒体内容服务器；

接收所述多媒体内容服务器返回的播放控制指令；

确认所述播放控制指令中携带禁止播放所述多媒体内容的指示信息时，停止播放所述多媒体内容，其中，所述多媒体内容服务器确认所述用户声音的语音特征对应的用户类别，并确认所述用户类别被设置为禁止观看所述多媒体内容时，在所述播放控制指令中携带所述指示信息。

根据本发明实施例的第五方面，提供了一种多媒体内容的播放控制装置，该装置包括：

获取模块，用于确定多媒体内容的播放环境符合预设的触发条件时，获取多媒体内容的播放环境图像；

查找模块，用于在所述播放环境图像查找人脸图像；

用户类别确定模块，用于提取所述人脸图像中预设的特征信息，确定所述人脸图像的特征信息对应的用户类别；

控制模块，用于确认所述用户类别被设置为禁止观看所述多媒体内容时，确定停止播放所述多媒体内容。

根据本发明实施例的第六方面，提供了一种多媒体内容的播放控制装置，该装置包括：

获取模块，用于获取多媒体内容的播放环境中出现的用户声音；

用户类别确定模块，用于确认所述播放环境中出现的用户声音的语音特征对应的用户类别；

控制模块，用于确认所述用户类别被设置为禁止观看所述多媒体内容时，确定停止播放所述多媒体内容。

根据本发明实施例的第七方面，提供了一种多媒体内容的播放控制装置，该装置包括：

获取模块，用于确定多媒体内容的播放环境符合预设的触发条件时，获取多媒体内容的播放环境图像；

发送模块，用于将所述播放环境图像发送给多媒体内容服务器；

接收模块，用于接收所述多媒体内容服务器返回的播放控制指令；

处理模块，用于确认所述播放控制指令中携带禁止播放所述多媒体内容的指示信息时，停止播放所述多媒体内容，其中：所述多媒体内容服务器在所述播放环境图像查找人脸图像，并提取所述人脸图像中预设的特征信息，确定所述人脸图像的特征信息对应的用户类别为禁止观看所述多媒体内容时，在所述播放控制指令中携带所述指示信息。

根据本发明实施例的第八方面，提供了一种多媒体内容的播放控制装置，该装置包括：

获取模块，用于检测多媒体内容的播放环境中出现的用户声音；

发送模块，用于将所述用户声音发送给多媒体内容服务器；

接收模块，用于接收所述多媒体内容服务器返回的播放控制指令；

处理模块，用于确认所述播放控制指令中携带禁止播放所述多媒体内容的指示信息时，停止播放所述多媒体内容，其中，所述多媒体内容服务器确认所述用户声音的语音特征对应的用户类别，并确认所述用户类别被设置为禁止观看所述多媒体内容时，在所述播放控制指令中携带所述指示信息。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种多媒体内容的播放控制方法的步骤。

本发明实施例中，确定多媒体内容的播放环境符合预设的触发条件时，获取多媒体内容的播放环境图像；在所述播放环境图像查找人脸图像；提取所述人脸图像中预设的特征信息，确定所述人脸图像的特征信息对应的用户类别；确认所述用户类别被设置为禁止观看所述多媒体内容时，确定停止播放所述多媒体内容，这样，根据播放环境图像，可以确定相应的用户类别，进而可以根据用户类别，实现对多媒体内容的播放控制，自动识别当前的用户类别和播放控制，不需要用户手动操作，提高了效率，并且也可以保证对少儿用户的保护效果，提升了用户的观影体验，并且确定播放环境符合预设的触发条件时，才触发获取播放环境图像，不需要一直调用摄像头采集播放环境图像，避免资源浪费，提高了效率。

附图说明

图1a为本发明实施例中多媒体内容的播放控制方法的应用场景架构图；

图1b为本发明实施例中多媒体内容的播放控制方法的应用场景架构图；

图2为本发明实施例中提供的多媒体内容的播放控制方法的流程图；

图3为本发明实施例中规格化的音节/秒随年龄增长的变化趋势示意图；

图4为本发明实施例中提供的另一种多媒体内容的播放控制方法的流程图；

图5为本发明实施例中具体应用场景下的多媒体内容的播放控制方法的流程图；

图6为本发明一个实施例中提供的多媒体内容的播放控制装置结构示意图；

图7为本发明一个实施例中提供的多媒体内容的播放控制装置结构示意图；

图8为本发明一个实施例中提供的多媒体内容的播放控制装置结构示意图；

图9为本发明一个实施例中提供的多媒体内容的播放控制装置结构示意图；

图10为本发明实施例中服务器结构示意图；

图11为本发明实施例中终端结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面先对几个概念进行简单介绍：

人脸检测：是指对于任意一幅给定的图像，采用一定的策略对其进行搜索以确定其中是否含有人脸，如果是则返回一脸的位置、大小和姿态。

智能电视：是具有全开放式平台，搭载了操作系统，用户在欣赏普通电视内容的同时，可自行安装和卸载各类应用软件，持续对功能进行扩充和升级的新电视产品。

电视盒子：是一个小型的计算终端设备，只要简单的通过高清晰度多媒体接口(highdefinitionmultimediainterface，hdmi)或色差线等技术将其与传统电视连接，就能在传统电视上实现网页浏览、网络视频播放、应用程序安装，甚至能将手机、平板中的照片和视频投射到大屏幕电视当中，它可以将互联网内容通过其在电视机上进行播放。

梅尔频率倒谱系数(mel-frequencycepstralcoefficients，mfcc)：梅尔频率是基于人耳听觉特性提出来的，它与hz频率成非线性对应关系，mfcc则是利用它们之间的这种关系，计算得到的hz频谱特征，主要用于语音数据特征提取和降低运算维度。

线性预测倒谱系数(linearpredictioncepstrumcoefficient，lpcc)：线性预测倒谱系数是线性预测系数在倒谱域的表示方式，实验中lpc阶数为线性预测倒谱参数。

高斯混合模型(gaussianmixedmode，gmm)：也可以简写为(mixtoreofgaussian，mog)，高斯模型就是用高斯概率密度函数精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数形成的模型。

参阅图1a和图1b所示，为本发明实施例中多媒体内容的播放控制方法的应用场景架构图，至少包括终端、服务器。

终端可以是智能手机、平板电脑、便携式个人计算机、智能电视等任何智能设备。终端上可以安装有各种应用程序(application，app)，例如视频app，终端可以通过视频app向用户提供视频服务。

终端与服务器之间通过互联网相连，实现相互之间的通信。

例如，在图1a中，终端为智能电视，智能电视可以与电视盒子通过预设的接口进行连接，智能电视通过电视盒子与服务器进行通信，或者智能电视可以直接与服务器进行通信。

又例如，在图1b中，终端为智能手机，智能手机与服务器通过互联网相连。

服务器为终端提供各种网络服务，对于不同的终端或终端上的应用程序，服务器可以认为是提供相应网络服务的后台服务器，例如，本发明实施例中，服务器可以是多媒体内容服务器，多媒体内容服务器为终端提供多媒体内容或其他多媒体服务，例如，终端向服务器发送视频内容获取请求，服务器可以根据该请求，向终端返回视频内容，实现用户在终端上观看视频。又例如，服务器可以向终端发送更新包，实现app的更新。

其中，服务器可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

参阅图1a和图1b所示，在一种可能的实施方式中，终端安装并运行有视频app，相应地，服务器为多媒体内容服务器，终端通过视频app向服务器发送视频内容获取请求，服务器接收到视频内容获取请求后，向服务器返回相应的视频内容，以使终端通过该视频app向用户展示相应的视频内容。

但是，现有技术中在这个过程中不能自动对视频内容进行过滤展示，不考虑当前观看视频的用户类别，这样，对于少儿用户来说，很容易看到不适于其当前年龄段观看的视频内容，导致一方面不利于少儿用户的健康成长，另一方面也影响视频app运营商的形象。

为了解决现有技术中需要依靠用户手动操作，导致效率较低并且也无法保证对少儿用户的保护效果的问题，本发明实施例中，提供了一种多媒体内容的播放控制方法，在一种可能的实施方式中，终端获取多媒体内容的播放环境图像，将所述播放环境图像发送给多媒体内容服务器；多媒体内容服务器接收到播放环境图像后，在该播放环境图像查找人脸图像，并确定人脸图像对应的用户类别，当确定人脸图像的特征信息对应的用户类别为禁止观看多媒体内容时，向终端发送播放控制指令，并在播放控制指令中携带禁止播放该多媒体内容的指示信息；终端接收多媒体内容服务器返回的播放控制指令，并确认播放控制指令中携带禁止播放该多媒体内容的指示信息时，停止播放该多媒体内容，这样，可以通过播放环境图像来实现识别当前的用户类别，根据用户类别确定是否停止播放当前的多媒体内容，进而可以控制少儿用户的观看内容，不需要手动操作，并且还可以根据不同用户类别，实现个性化内容推荐。

本发明实施例中，多媒体内容的播放控制方法，还提供了另一种可能的实施方式，终端检测多媒体内容的播放环境中出现的用户声音，并将该用户声音发送给多媒体内容服务器；多媒体内容服务器接收到用户声音后，确定该用户声音的语音特征对应的用户类别，并当确定确认该用户类别被设置为禁止观看所述多媒体内容时，向终端发送播放控制指令，并在播放控制指令中携带禁止播放该多媒体内容的指示信息；终端接收多媒体内容服务器返回的播放控制指令，并当确认播放控制指令中携带禁止播放该多媒体内容的指示信息时，停止播放该多媒体内容，这样，可以根据声音直接进行用户类别识别和播放控制，相较于根据播放环境图像的方式，实现更为简单，例如可以通过麦克风来获取声音，并且目前大部分终端都具有麦克风功能，硬件实现也比较方便简单，但是根据播放环境图像的方式准确性会更高一些。

本发明实施例中，在另一种可能的实施方式中，也可以在终端中集成全部的多媒体内容的播放控制功能，终端获取多媒体内容的播放环境图像，并进行判断，在该播放环境图像查找人脸图像，并确定人脸图像对应的用户类别，或者根据播放环境中出现的用户声音，确定用户声音对应的用户类别，当确定用户类别为禁止观看多媒体内容时，确定停止播放该多媒体内容。

也就是说，多媒体内容的播放控制的方法执行，可以由终端执行，也可以由服务器执行，本发明实施例中并不进行限制。

可选的，本发明实施例中，对多媒体内容的播放控制方法，在确定出用户类别后，还可以有其他的实施方式，可以根据预设的用户类别与视频频道的映射关系，确定切换到用户类别对应的视频频道；或者，根据用户类别，推荐用户类别对应的多媒体内容。

可选的，本发明实施例中，为进一步提高效率，在确定出用户类别后，还提供了另一种可能的实施方式，终端可以直接根据用户类别，切换到对应的视频频道，并只保证该对应的视频频道是可用的，即不允许用户切换到其它的视频频道，这时，用户只能在该对应的视频频道上选择视频内容进行观看，保证了对少儿用户的保护效果，并且不需要将用户类别发送给服务器，减少了与服务器的交互，也节省了时间和网络资源。

可选地，上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络，包括但不限于局域网(localareanetwork，lan)、城域网(metropolitanareanetwork，man)、广域网(wideareanetwork，wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(hypertextmark-uplanguage，html)、可扩展标记语言(extensiblemarkuplanguage，xml)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(securesocketlayer，ssl)、传输层安全(transportlayersecurity，tls)、虚拟专用网络(virtualprivatenetwork，vpn)、网际协议安全(internetprotocolsecurity，ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

值得说明的是，本发明实施例中的应用场景架构图是为了更加清楚地说明本发明实施例中的技术方案，并不构成对本发明实施例提供的技术方案的限制，并且，本发明实施例中，并不仅限于视频领域，这里仅是以视频领域的用户类别识别和应用进行说明，对于其它的应用场景架构和业务应用，本发明实施例提供的技术方案对于类似的问题，同样适用。

本发明各个实施例中，以多媒体内容的播放控制方法用于图1a或图1b所示的终端和服务器为例进行示意性说明。

为了解决现有技术中需要依靠用户手动操作，导致效率较低并且也无法保证对少儿用户的保护效果的问题，本发明实施例中，实现能够自动识别出用户类别，例如识别当前是否为少儿用户，进而可以根据用户类别，实现对多媒体内容的播放控制。基于上述实施例，以服务器为多媒体内容服务器为例，参阅图2所示，为本发明实施例中，多媒体内容的播放控制方法的流程图，该方法包括：

步骤200：终端获取多媒体内容的播放环境。

本发明实施例中，为使得终端可以获取所需的播放环境的数据，以及之后能够采集播放环境图像，终端需要预先设置有相应的硬件设备，例如终端需要预先设置的硬件设备有摄像头、光传感器，例如为环境光传感器、麦克风等。其中，摄像头用于采集播放环境图像，光传感器用于获取环境亮度，检测周围播放环境的环境亮度变化，麦克风用于采集周围播放环境的声音。

例如，若终端为智能手机，目前智能手机中通常集成有这些硬件设备，可以用于支持本发明实施例提供的技术方案。

又例如，针对目前智能电视还未安装有上述硬件设备的情况，可以有以下几种解决方式：1)可以为智能电视或者智能电视的电视盒子提供外置的摄像头和光传感器集成设备；智能电视与电视盒子进行连接，并实现相互之间通信。2)可以提供自由硬件设备平台，例如企鹅极光盒子，在该自由硬件设备上集成摄像头、光传感器等硬件设备。3)可以为智能电视的遥控器设置麦克风，通过遥控器实现对播放环境中用户声音的获取。也就是说，针对智能电视的应用场景，终端可以为智能电视和/或智能电视的电视盒子的组合。

其中，播放环境中至少包括环境亮度、用户声音。当然，本发明实施例中，并不仅限于环境亮度和用户声音，对于其它可以用于用户类别识别的播放环境的数据，也都可以适用于本发明实施例提供的方案。

例如，用户在终端上启动某视频app后，在该某视频app正常播放节目展示过程中，可以实时检测和获取终端周围的播放环境。

步骤201：终端将播放环境发送给多媒体内容服务器。

步骤202：多媒体内容服务器接收终端发送的播放环境。

例如，若本发明实施例中针对某视频app，实现视频内容的个性化推荐，则该多媒体内容服务器可以为该某视频app相应的后台服务器，在终端上该某视频app启动后，在该视频app的视频界面展示过程中，若检测到播放环境的数据，则该多媒体内容服务器可以接收终端发送的播放环境的数据。

步骤203：服务器若确定播放环境符合预设的触发条件，则触发终端采集播放环境图像。

执行步骤203时，可以包括以下几种情况：

第一种情况：播放环境中至少包括环境亮度，则确定播放环境符合预设的触发条件，具体包括：

首先，判断所述环境亮度的强度降低的值是否不小于预设阈值，若确定不小于预设阈值，则确定出现环境亮度的强度降低的区域。

其中，预设阈值，本发明实施例中，并不进行限制，可以根据实际需求进行设置。

也就是说，本发明实施例中，可以通过光传感器检测环境亮度，当出现人影遮挡终端的屏幕时，会检测到终端的屏幕的部分区域的环境亮度的强度会降低，因此，可以先判断环境亮度的强度是否降低，为提高准确性，设置一个预设阈值，若确定环境亮度的强度降低的值不小于该预设阈值，可以确定终端的屏幕有遮挡物，为了提高进行用户类别识别触发的准确性，本发明实施例中还需要进一步判断该遮挡物是否为人影。

然后，根据所述区域的形状和预设的人影形状，判断所述区域的形状是否符合人影形状，若确定符合，则确定所述环境亮度符合预设的触发条件。

具体为：若确定区域的形状和预设的人影形状的相似度不小于设定值，则确定区域的形状符合人影形状。

由于实际中人影的形状的大致是相同的，即使不同相差也不是很大，本发明实施例中，可以预先设置多个不同的人影形状，可以作为一个人影形状数据库，也可以确定出人影形状的特征等，从而将环境亮度降低的区域的形状进行模式识别和比对，就可以准确识别出人影出现的场景。

第二种情况：播放环境中至少包括用户声音，则确定播放环境符合预设的触发条件，具体包括：

确认所述播放环境中出现的用户声音的语音特征对应的用户类别，被设置为禁止观看所述多媒体内容。

本发明实施例中，考虑到通过声音来进行用户类别的确定，这是因为，实际中，用户声音是和年龄有一定的相关性的，参阅图3所示，为规格化的音节/秒随年龄增长的变化趋势示意图，其中，横坐标是年龄，纵坐标规格化的音节/秒，可以用来表示语速，可知，对于男性和女性，语速是不同的，声音是有区别的，因此，本发明实施例中，在建立语音识别模型时，需要将男性和女性区分开，并且，随着年龄的变化，不管男性和女性，语速也是不断变化的，因此，本发明实施例中，可以声音来判断年龄，即进行用户类别的识别和确定，并且为提高准确性，本发明实施例中，还可以使用其他的语音特征，来进行用户类别的确定。

具体为：首先，提取播放环境中用户声音的语音特征。

其中，语音特征，较佳的选取对年龄区分性较好语音特征，例如为mfcc、lpcc，当然也可以选取其它的语音特征，本发明实施例中并不进行限制。

然后，确定播放环境中出现的用户声音的语音特征对应的用户类别。

其中，本发明实施例中，根据用户声音确定对应的用户类别，可以有以下两种方式：

第一种方式：根据预先建立的语音识别模型和该用户声音的语音特征，分析该用户声音的语音特征对应的年龄，确定该用户声音对应的用户类别。

其中，本发明实施例中，预先建立的语音识别模型，用于识别不同用户声音对应的年龄，语音识别模型的训练方式为：

1)获取语音样本。

本发明实施例中，获取各个年龄段的语音样本，为实现对少儿用户的识别，并且由于男女的声音通常是有明显区别的，因此，本发明实施例中，可以根据年龄和性别划分为四个区间，例如，男性18岁及以上，男性18岁以下，女性18岁及以下，女性18岁以上，从而可以相应地得到四个语音识别模型。

2)提取语音样本的语音特征。

例如，语音特征为mfcc、或lpcc等。

3)根据语音样本的语音特征和语音样本对应的年龄，并基于预设的训练模型，建立语音识别模型。

例如，预设的训练模型为gmm模型，语音特征为mfcc，提取各个语音样本的mfcc，根据mfcc和对应的年龄，利用gmm模型，进行训练学习，从而建立语音识别模型。

其中，预设的训练模型也可以为神经网络等，本发明实施例中，并不进行限制。

这样，本发明实施例中，可以根据用户声音确定当前的用户类别，例如，可以根据少儿用户的语音识别模型，判断是否有少儿用户。

第二种方式：本发明实施例中，还提供了另一种根据用户声音确定用户类别的实施方式，接收用户输入的语音样本和所述用户设定的所述语音样本对应的用户类别；将所述播放环境中出现的用户声音与所述语音样本进行比对，若确定相似度大于第一设定值，则根据所述用户设定的所述语音样本对应的用户类别，确定所述播放环境中出现的用户声音对应的用户类别。

也就是说，本发明实施例中，可以预先接收用户输入的用户声音和相应的用户类别，例如，提供一个界面操作入口，用户通过该入口，上传家庭中少儿用户的语音样本，并预先设定上传的语音样本的用户类别为少儿用户，这样，获取到用户声音后，可以直接与该语音样本进行比对，若相似度大于第一设定值，则就可以确定用户类别为少儿用户，这样，可以针对不同家庭中的少儿用户的声音直接进行判断，增加了识别准确率。

最后，确认播放环境中出现的用户声音的语音特征对应的用户类别，被设置为禁止观看所述多媒体内容时，确定播放环境符合预设的触发条件。

这是因为，通过用户声音识别用户类别可能会存在一定的误差，例如，可能出现声音比较像少儿的成人的情况，为提高准确性，因此，在通过用户声音判断出用户类别为禁止观看该多媒体内容时，需要进一步通过采集图像，判断是否的确对应的用户类别为禁止观看。

步骤204：终端采集播放环境图像。

例如，终端可以通过调用摄像头来采集多媒体内容的播放环境图像。

步骤205：终端将播放环境图像发送给多媒体内容服务器。

步骤206：多媒体内容服务器在播放环境图像查找人脸图像，并确定人脸图像的特征信息对应的用户类别。

执行步骤206时，具体包括：

首先，根据预设的人脸检测算法，在播放环境图像中查找有人脸图像。

其中，预设的人脸检测算法，本发明实施例中，并不进行限制，根据人脸检测算法，若检测到人脸后，可以得到人脸的位置等信息，例如输出人脸框的坐标序列。

然后，提取人脸图像中预设的特征信息。

其中，预设的特征信息，例如为眼睛、鼻子等特征信息，本发明实施例中并不进行限制，较佳的，为能够区分不同年龄的特征信息。

最后，将所述人脸图像中预设的特征信息与预设的人脸模型进行比对，确定对应的用户类别。

其中，预设的人脸模型表征各个年龄阶段对应的人脸特征。

具体地，本发明实施例中，根据播放环境图像和识别出的人脸图像的坐标序列，进行人脸配准，可以输出人脸图像中特征信息的坐标序列；根据特征信息的坐标序列，对人脸图像进行处理，例如，旋转、缩放、扣取等操作，将人脸图像调整到预设的大小和形态；然后提取出各特征信息，并进行属性分析，将特征信息与预设的人脸模型进行对比，识别出人脸图像对应的年龄，从而确定对应的用户类别，即可以判断出是否为少儿用户。

进一步地，本发明实施例中，还可以根据不同年龄的人脸的各特征信息，训练并学习得到图像年龄识别模型，从而可以根据该图像年龄模型和提取出的人脸图像中的特征信息，判断该人脸图像的年龄。

可选的，本发明实施例中，为了提高准确率和效率，还提供了另一种确定人脸图像的特征信息对应的用户类别的实施方式，接收用户输入的图像样本和所述用户设定的所述图像样本对应的用户类别；将所述人脸图像与所述图像样本进行比对，若确定相似度大于第二设定值，则根据所述用户设定的所述图像样本对应的用户类别，确定所述人脸图像对应的用户类别。

例如，用户可以上传家庭中少儿的照片，该照片作为图像样本，并设定该照片对应的用户类别为少儿用户，则就可以直接根据该照片进行判断，判断当前采集到的播放环境图像中的人脸图像是否与该家庭中的少儿相似，从而可以针对不同的家庭，快速识别是否为家庭中的少儿用户，提高了效率并针对性更强。

可选的，本发明实施例中，确定人脸图像的特征信息对应的用户类别的实施方式，还提供了另一种实施方式，接收用户输入的语音样本和图像样本，将播放环境图像与图像样本进行比对，并将播放环境中出现的用户声音与语音样本进行对比，从而确定用户类别，这样，可以进一步提高用户类别判断的准确性，能够很好的避免父子相像等使用场景可能造成误判的情况。

步骤207：多媒体内容服务器确认用户类别被设置为禁止观看多媒体内容时，向终端返回播放控制指令。

其中，该播放控制指令中携带禁止播放所述多媒体内容的指示信息。

步骤208：终端接收多媒体内容服务器返回的播放控制指令。

步骤209：终端确认播放控制指令中携带禁止播放多媒体内容的指示信息时，停止播放多媒体内容。

值得说明的是，图2仅是以通过停止播放多媒体内容，来实现对多媒体内容的播放控制为例进行说明，当然还可以采用其他的方式，例如，根据预设的用户类别与视频频道的映射关系，确定切换到用户类别对应的视频频道。又例如，根据用户类别，推荐用户类别对应的多媒体内容。

例如，若确定用户类别为少儿用户，则切换到少儿频道，展示少儿频道的内容，能够避免向少儿用户展示不适于其观看的视频内容，达到保护少儿用户的目的，提升用户的使用度，也可以提升视频app的品牌形象和竞争力。

当然，本发明实施例中，并不仅限于视频领域，也可以将多媒体内容的播放控制的方法应用到其它领域，例如，例如，根据确定出的用户类别，若确定该用户类别与预设的信息查看权限的用户类别不一致，则关闭当前展示的信息，或展示该用户类别对应的其它信息。

本发明实施例中另一个可能的实施例中，不是根据获取播放环境，来确定是否触发进行播放环境图像采集，而是针对其它使用场景，采用其它的触发方式，具体有以下几种情况：1)第一种情况：确定应用程序首次启动。2)第二种情况：确定屏幕休眠后被唤醒。

可选的，本发明实施例中还可以提供是否开启多媒体内容的播放控制方法的功能按键，用户可以根据该功能按键选择是否开启，只有当用户选择开启该功能时，才会进行多媒体内容的播放控制，这样，可以提高灵活性，并可以进一步满足用户需求。例如，若用户家庭里没有少儿，则可以选择不开启，防止对用户播放多媒体内容的干扰。

基于上述实施例，参阅图4所示，为本发明实施例中提供的另一种多媒体内容的播放控制方法的流程图，该方法包括：

步骤400：获取多媒体内容的播放环境中出现的用户声音。

步骤401：确认所述播放环境中出现的用户声音的语音特征对应的用户类别。

步骤402：确认所述用户类别被设置为禁止观看所述多媒体内容时，确定停止播放所述多媒体内容。

也就是说，本发明实施例中还可以根据用户声音来确定用户类别，并实现对多媒体内容的播放控制，不需要调用摄像头，实现更为简单。

基于上述实施例，以对少儿用户进行多媒体内容的播放控制为例，即判断当前用户的用户类别是否为少儿用户为例进行说明，参阅图5所示，为本发明实施例中提供的另一种多媒体内容的播放控制方法的流程图，该方法包括：

步骤500：应用程序启动。

步骤501：获取多媒体内容的播放环境图像，并根据播放环境图像进行用户类别检测。

例如，用户打开终端上的某视频app，则主动进行一次用户类别判断，调用摄像头，并通过摄像头获取播放环境图像，进行用户类别检测。

步骤502：判断是否为少儿用户，若是，则执行步骤503，否则，则执行步骤504。

步骤503：展示少儿内容。

例如，切换到少儿频道，展示少儿频道的内容。

又例如，直接在当前界面推荐少儿内容，并进行展示。

步骤504：正常内容展示。

也就是说，并不进行限制，可以正常展示用户想要观看的内容。

步骤505：判断是否检测到声音，若是，则执行步骤506，否则，则执行步骤507。

步骤506：判断是否为少儿用户，若是，则执行步骤503，否则，则执行步骤509。

具体地，判断播放环境中出现的用户声音的语音特征对应的用户类别是否为少儿用户。

例如，根据用户声音和预先建立的语音识别模型，判断是否为少儿用户。

本发明实施例中，如图5所示的另一种多媒体内容的播放控制方法中，若播放环境中至少包括用户声音，判断用户声音是否符合预设的触发条件，即触发是否采集播放环境图像，根据播放环境图像进行用户类别识别时，还提供了另一种可能的实施方式，在根据用户声音确认对应的用户类别不是少儿用户时，也可以确认为符合预设的触发条件，相应地，这时，若判断为少儿用户时，可以直接展示少儿内容。这是因为，通过用户声音识别用户类别可能会存在一定的误差，为提高准确性，并能够针对某特定用户类别进行识别和对多媒体内容的播放控制，因此，在通过用户声音识别出的用户类别为允许观看该多媒体内容时，即不是少儿用户，需要进一步来进行判断是否的确是允许观看，则触发采集播放环境图像，根据播放环境图像来识别用户类别，例如，根据用户声音识别出用户类别不是少儿用户，则确定符合触发条件，通过播放环境图像识别来进一步判断该用户类别是否为少儿用户，这样可以提高判断的准确性，防止误判。

步骤507：检测环境亮度是否发生变化，若是，则执行步骤508，否则，则执行步骤504。

步骤508：判断是否为人影，若是，则执行步骤509，否则，则返回执行步骤504。

步骤509：获取多媒体内容的播放环境图像，并根据播放环境图像进行用户类别检测，并返回步骤502。

本发明实施例中，确定多媒体内容的播放环境符合预设的触发条件时，获取多媒体内容的播放环境图像，在播放环境图像查找人脸图像，提取人脸图像中预设的特征信息，确定人脸图像的特征信息对应的用户类别，并确认用户类别被设置为禁止观看所述多媒体内容时，确定停止播放所述多媒体内容，这样，可以准确判断出当前的用户类别，并自动根据不同的用户类别，实现对多媒体内容的播放控制，进行个性化视频内容推荐，效率更高，不需要用户手动操作，提高了用户的观影体验，并且也可以保证对少儿用户的保护效果，并且确定播放环境符合预设的触发条件时，才触发获取播放环境图像，这样可以不需要一直调用摄像头采集播放环境图像，在符合触发条件时，才启动摄像头进行图像采集，避免资源浪费，提高了效率。

基于上述实施例，参阅图6所示，本发明实施例中，多媒体内容服务器侧的多媒体内容的播放控制装置，该装置通过硬件或者软硬件的结合实现成为多媒体内容服务器的全部或者一部分，具体包括：

第一确定模块64，用于确定多媒体内容的播放环境是否符合预设的触发条件；

获取模块60，用于在第一确定模块64确定多媒体内容的播放环境符合预设的触发条件时，获取多媒体内容的播放环境图像；

查找模块61，用于在所述播放环境图像查找人脸图像；

用户类别确定模块62，用于提取所述人脸图像中预设的特征信息，确定所述人脸图像的特征信息对应的用户类别；

控制模块63，用于确认所述用户类别被设置为禁止观看所述多媒体内容时，确定停止播放所述多媒体内容。

可选的，所述播放环境中至少包括环境亮度；则所述确定多媒体内容的播放环境符合预设的触发条件，第一确定模块64用于：判断所述环境亮度的强度降低的值是否不小于预设阈值，若确定不小于预设阈值，则确定出现环境亮度的强度降低的区域；根据所述区域的形状和预设的人影形状，判断所述区域的形状是否符合人影形状，若确定符合，则确定所述环境亮度符合预设的触发条件。

可选的，所述播放环境中至少包括用户声音，则所述确定多媒体内容的播放环境符合预设的触发条件，第一确定模块64用于：确认所述播放环境中出现的用户声音的语音特征对应的用户类别，被设置为禁止观看所述多媒体内容。

可选的，用户类别确定模块62具体用于：提取所述人脸图像中预设的特征信息；将所述人脸图像中预设的特征信息与预设的人脸模型进行比对，确定对应的用户类别。

该装置进一步包括，接收模块65，用于：接收用户输入的语音样本和所述用户设定的所述语音样本对应的用户类别；和/或，接收用户输入的图像样本和所述用户设定的所述图像样本对应的用户类别。

可选的，用户类别确定模块62，进一步用于：将所述播放环境中出现的用户声音与所述语音样本进行比对，若确定相似度大于第一设定值，则根据所述用户设定的所述语音样本对应的用户类别，确定所述播放环境中出现的用户声音对应的用户类别；

用户类别确定模块62具体用于：将所述人脸图像与所述图像样本进行比对，若确定相似度大于第二设定值，则根据所述用户设定的所述图像样本对应的用户类别，确定所述人脸图像对应的用户类别。

可选的，所述确定所述人脸图像的特征信息对应的用户类别之后，控制模块63进一步用于：根据预设的用户类别与视频频道的映射关系，确定切换到所述用户类别对应的视频频道；或，根据所述用户类别，推荐所述用户类别对应的多媒体内容。

基于上述实施例，参阅图7所示，本发明实施例中，还提供了另一种多媒体内容服务器侧的多媒体内容的播放控制装置，该装置通过硬件或者软硬件的结合实现成为多媒体内容服务器的全部或者一部分，具体包括：

获取模块70，用于获取多媒体内容的播放环境中出现的用户声音；

用户类别确定模块71，用于确认所述播放环境中出现的用户声音的语音特征对应的用户类别；

控制模块72，用于确认所述用户类别被设置为禁止观看所述多媒体内容时，确定停止播放所述多媒体内容。

基于上述实施例，参阅图8所示，本发明实施例中，提供了一种终端侧的多媒体内容的播放控制装置，该装置通过硬件或者软硬件的结合实现成为终端的全部或者一部分，具体包括：

获取模块80，用于确定多媒体内容的播放环境符合预设的触发条件时，获取多媒体内容的播放环境图像；

发送模块81，用于将所述播放环境图像发送给多媒体内容服务器；

接收模块82，用于接收所述多媒体内容服务器返回的播放控制指令；

处理模块83，用于确认所述播放控制指令中携带禁止播放所述多媒体内容的指示信息时，停止播放所述多媒体内容，其中：所述多媒体内容服务器在所述播放环境图像查找人脸图像，并提取所述人脸图像中预设的特征信息，确定所述人脸图像的特征信息对应的用户类别为禁止观看所述多媒体内容时，在所述播放控制指令中携带所述指示信息。

基于上述实施例，参阅图9所示，本发明实施例中，提供了另一种终端侧的多媒体内容的播放控制装置，该装置通过硬件或者软硬件的结合实现成为终端的全部或者一部分，具体包括：

获取模块90，用于检测多媒体内容的播放环境中出现的用户声音；

发送模块91，用于将所述用户声音发送给多媒体内容服务器；

接收模块92，用于接收所述多媒体内容服务器返回的播放控制指令；

处理模块93，用于确认所述播放控制指令中携带禁止播放所述多媒体内容的指示信息时，停止播放所述多媒体内容，其中，所述多媒体内容服务器确认所述用户声音的语音特征对应的用户类别，并确认所述用户类别被设置为禁止观看所述多媒体内容时，在所述播放控制指令中携带所述指示信息。

基于上述实施例，参阅图10所示，本发明实施例中，一种服务器的结构示意图。

本发明实施例提供了一种服务器，该服务器可以包括处理器1010(centerprocessingunit，cpu)、存储器1020、输入设备1030和输出设备1040等，输入设备1030可以包括键盘、鼠标、触摸屏等，输出设备1040可以包括显示设备，如液晶显示器(liquidcrystaldisplay，lcd)、阴极射线管(cathoderaytube，crt)等。

存储器1020可以包括只读存储器(rom)和随机存取存储器(ram)，并向处理器1010提供存储器1020中存储的程序指令和数据。在本发明实施例中，存储器1020可以用于存储多媒体内容的播放控制方法的程序。

处理器1010通过调用存储器1020存储的程序指令，处理器1010用于按照获得的程序指令执行：

确定多媒体内容的播放环境符合预设的触发条件时，获取多媒体内容的播放环境图像；

在所述播放环境图像查找人脸图像；

提取所述人脸图像中预设的特征信息，确定所述人脸图像的特征信息对应的用户类别；

确认所述用户类别被设置为禁止观看所述多媒体内容时，确定停止播放所述多媒体内容。

可选的，所述播放环境中至少包括环境亮度；则所述确定多媒体内容的播放环境符合预设的触发条件，处理器1010用于：判断所述环境亮度的强度降低的值是否不小于预设阈值，若确定不小于预设阈值，则确定出现环境亮度的强度降低的区域；根据所述区域的形状和预设的人影形状，判断所述区域的形状是否符合人影形状，若确定符合，则确定所述环境亮度符合预设的触发条件。

可选的，所述播放环境中至少包括用户声音；则所述确定多媒体内容的播放环境符合预设的触发条件，处理器1010用于：确认所述播放环境中出现的用户声音的语音特征对应的用户类别，被设置为禁止观看所述多媒体内容。

可选的，处理器1010具体用于：提取所述人脸图像中预设的特征信息；将所述人脸图像中预设的特征信息与预设的人脸模型进行比对，确定对应的用户类别。

可选的，处理器1010进一步用于：接收用户输入的语音样本和所述用户设定的所述语音样本对应的用户类别；和/或，接收用户输入的图像样本和所述用户设定的所述图像样本对应的用户类别。

可选的，处理器1010进一步用于：将所述播放环境中出现的用户声音与所述语音样本进行比对，若确定相似度大于第一设定值，则根据所述用户设定的所述语音样本对应的用户类别，确定所述播放环境中出现的用户声音对应的用户类别；

所述确定所述人脸图像的特征信息对应的用户类别，处理器1010具体用于：

将所述人脸图像与所述图像样本进行比对，若确定相似度大于第二设定值，则根据所述用户设定的所述图像样本对应的用户类别，确定所述人脸图像对应的用户类别。

可选的，处理器1010进一步用于：

根据预设的用户类别与视频频道的映射关系，确定切换到所述用户类别对应的视频频道；或，

根据所述用户类别，推荐所述用户类别对应的多媒体内容。

本发明实施例中，另一种实施方式中，处理器1010通过调用存储器1020存储的程序指令，处理器1010用于还可以按照获得的程序指令执行：

获取多媒体内容的播放环境中出现的用户声音；

确认所述播放环境中出现的用户声音的语音特征对应的用户类别；

确认所述用户类别被设置为禁止观看所述多媒体内容时，确定停止播放所述多媒体内容。

参阅图11所示，本发明实施例中，一种终端的结构示意图。

本发明实施例提供了一种终端，终端可以为但不限于手机、平板电脑、智能电视等。该终端可以包括：存储器1110、输入模块1120、发送模块1130、接收模块1140、输出模块1150、无线通信模块1160和处理器1170、传感器1180、音频电路1190等。具体为：

存储器1110可以包括只读存储器(rom)和随机存取存储器(ram)，并向处理器1170提供存储器1110中存储的程序指令和数据，还可以存储终端的操作系统、应用程序(application，app)(例如，视频app)、模块和终端所使用的各种数据等。

输入模块1120可以包括键盘、鼠标、触摸屏等，用于接收用户输入的数字、字符信息或触摸操作，以及产生与终端的用户设置以及功能控制有关的键信号的输入等，例如，本发明实施例中，输入模块1120可以接收用户在终端的视频app上执行对视频的点击操作、搜索视频时输入的视频关键字等。具体地，输入模块1120可包括图像输入设备以及其他输入设备。图像输入设备可以是摄像头，也可以是光电扫描设备。除了图像输入设备，输入模块1120还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。例如，本发明实施例中，可以通过摄像头来采集播放环境图像。

发送模块1130可以提供终端与服务器之间的接口。

接收模块1140同样提供终端与服务器之间的接口，例如，本发明实施例中，用于接收服务器返回的个性化推荐视频信息等。

输出模块1150可以包括显示模块，如液晶显示器(liquidcrystaldisplay，lcd)、阴极射线管(cathoderaytube，crt)等，其中，显示模块可以用于显示由用户输入的信息或提供给用户的信息，或各种终端或社交应用的菜单、用户界面等。例如，本发明实施例中，可以用于向用户展示提供的视频信息。

无线通信模块1160包括但不限于无线保真(wirelessfidelity，wifi)模块、蓝牙模块、红外通信模块等。例如，本发明实施例中，终端中接收模块1140与发送模块1130，向服务器之间的信息交互，是通过wifi模块实现了与服务器之间的通信。

处理器1170是终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1110内的软件程序和/或模块，以及调用存储在存储器1110内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控。

传感器1180，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可以包括环境光传感器及接近传感器，其中，环境光传感器可以获取环境亮度，并且环境光传感器还可以根据环境光线的明暗来调节终端的显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；另外，终端还可以配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1190、扬声器1191，传声器1192可提供用户与终端之间的音频接口。音频电路1190可将接收到的音频数据转换后的电信号，传输到扬声器1191，由扬声器1191转换为声音信号输出；另一方面，传声器1192将收集的声音信号转换为电信号，由音频电路1190接收后转换为音频数据，再将音频数据输出处理器1170处理后，经无线通信模块1160发送给例如另一电子设备，或者将音频数据输出至存储器1110以便进一步处理。音频电路1190还可能包括耳塞插孔，以提供外设耳机与终端的通信。例如，本发明实施例中，可以通过传声器1192采集声音，其中，传声器1192也可以称为麦克风。

当然，图11中所示的终端的结构，仅仅是其中一种示例，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

基于上述实施例，本发明实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的多媒体内容的播放控制方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋伟
技术所有人：腾讯科技(深圳)有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。