音视频内容的评价方法和装置与流程

文档序号:16008688发布日期:2018-11-20 20:23阅读:180来源:国知局

本发明涉及计算机技术领域,具体涉及音视频内容的评价方法和装置。



背景技术:

在很多场景下需要对音视频内容进行内容评价,例如,在网络直播领域,可以对主播的直播内容进行评价,以衡量主播的价值,然而如何评价一个主播的直播内容是很难做到客观的,例如,许多直播平台以“观看数”或“热度”等方式标注出主播的受欢迎程度,或者以标签的方式标注直播内容,但是都存在一些缺点,例如,很容易在后台数据造假,或者利用虚拟机等方式实现出大量没有实际观看的用户;标签可以被主播随意修改,经常出现一个本该是直播游戏的直播间却直播唱歌,等等。因此需要有一种可以客观评价直播等音视频内容的方式。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的音视频内容的评价方法和装置。

依据本发明的一个方面,提供了一种音视频内容的评价方法,包括:

在播放音视频内容的过程中,采集当前环境的图像和/或声音;

对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准;

是则根据识别出的特征信息生成对所述音视频内容的评价结果。

可选地,所述对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准包括:

识别所述声音是否包括人声,是则判定所述声音满足评价标准;

所述根据识别出的特征信息生成对所述音视频内容的评价结果包括:根据识别出的人声生成对所述音视频内容的评价结果。

可选地,所述对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准包括进一步包括;

识别所述人声在第一预设时间区间内是否存在重复片段,是则判定所述声音不满足评价标准。

可选地,所述根据识别出的人声生成对所述音视频内容的评价结果包括:

对人声进行语音识别,根据语音识别结果生成对所述音视频内容的评价结果;

和/或,

根据人声的声音属性生成对所述音视频内容的评价结果;

和/或,

对人声进行情感识别,根据情感识别结果生成对所述音视频内容的评价结果。

可选地,所述对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准包括:

识别所述图像是否包括人脸,是则判定所述图像满足评价标准;

所述根据识别出的特征信息生成对所述音视频内容的评价结果包括:对所述人脸进行表情识别,根据表情识别结果生成对所述音视频内容的评价结果。

可选地,所述对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准包括进一步包括:

识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化,否则判定所述图像不满足评价标准,是则进一步识别所述变化在第三预设时间区间内是否发生重复,否则判定所述图像不满足评价标准。

可选地,所述识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化包括如下的一种或多种:

识别上下眼皮距离是否发生变化;

识别嘴角角度是否发生变化;

识别上下嘴唇距离是否发生变化。

可选地,所述识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化包括:

当图像中有多个人脸时,随机选取一个人脸作为识别对象,或者,选取在第一帧图像中面积占比最大的人脸作为识别对象。

可选地,该方法还包括:获取与识别出的特征信息对应的时间信息;

所述根据识别出的特征信息生成对所述音视频内容的评价结果包括:生成与所述时间信息相关的评价结果。

可选地,该方法还包括:

将对所述音视频内容的评价结果发送至服务器,以使服务器根据多个对所述音视频内容的评价结果生成对所述音视频内容的总体评价结果。

依据本发明的另一方面,提供了一种音视频内容的评价装置,包括:

采集单元,适于在播放音视频内容的过程中,采集当前环境的图像和/或声音;

判断单元,适于对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准;

评价单元,适于在采集的图像和/或声音满足评价标准时,根据识别出的特征信息生成对所述音视频内容的评价结果。

可选地,所述判断单元,适于识别所述声音是否包括人声,是则判定所述声音满足评价标准;

所述评价单元,适于根据识别出的人声生成对所述音视频内容的评价结果。

可选地,所述判断单元,进一步适于识别所述人声在第一预设时间区间内是否存在重复片段,是则判定所述声音不满足评价标准。

可选地,所述评价单元,适于对人声进行语音识别,根据语音识别结果生成对所述音视频内容的评价结果;和/或,根据人声的声音属性生成对所述音视频内容的评价结果;和/或,对人声进行情感识别,根据情感识别结果生成对所述音视频内容的评价结果。

可选地,所述判断单元,适于识别所述图像是否包括人脸,是则判定所述图像满足评价标准;

所述评价单元,适于对所述人脸进行表情识别,根据表情识别结果生成对所述音视频内容的评价结果。

可选地,所述判断单元,进一步适于识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化,否则判定所述图像不满足评价标准,是则进一步识别所述变化在第三预设时间区间内是否发生重复,否则判定所述图像不满足评价标准。

可选地,所述判断单元,适于以如下的一种或多种方式识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化:识别上下眼皮距离是否发生变化;识别嘴角角度是否发生变化;识别上下嘴唇距离是否发生变化。

可选地,所述判断单元,适于当图像中有多个人脸时,随机选取一个人脸作为识别对象,或者,选取在第一帧图像中面积占比最大的人脸作为识别对象。

可选地,所述评价单元,还适于获取与识别出的特征信息对应的时间信息,生成与所述时间信息相关的评价结果。

可选地,所述评价单元,还适于将对所述音视频内容的评价结果发送至服务器,以使服务器根据多个对所述音视频内容的评价结果生成对所述音视频内容的总体评价结果。

依据本发明的又一方面,提供了一种智能终端,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。

依据本发明的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。

由上述可知,本发明的技术方案,通过在播放音视频内容的过程中采集当前环境的图像和/或声音来获取用户对音视频的直观反应,并且通过特征信息识别的结果来判断采集的图像和/或声音是否满足评价标准,利用满足评价标准的图像和/或声音中提取的特征信息生成对音视频内容的评价结果。该技术方案能够在不影响用户观看或收听音视频的情况下,通过了解用户在获知音视频内容后的情绪等反应获取用户的评价,并且通过筛选掉虚假数据保证了评价的真实性,使得得到的评价结果更客观准确。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明一个实施例的一种音视频内容的评价方法的流程示意图;

图2示出了根据本发明一个实施例的一种音视频内容的评价装置的结构示意图;

图3示出了根据本发明一个实施例的智能终端的结构示意图;

图4示出了根据本发明一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的一种音视频内容的评价方法的流程示意图。如图1所示,该方法包括:

步骤S110,在播放音视频内容的过程中,采集当前环境的图像和/或声音。

本发明所称的音视频包括音频和/或视频,例如MP3等格式的音频文件、MP4等格式的视频文件(即独立的音频和/或视频文件,其中视频文件可能包含音频流)、音频流、视频流(例如直播)等。

步骤S120,对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准。

步骤S130,是则根据识别出的特征信息生成对音视频内容的评价结果。

可见,图1所示的方法,通过在播放音视频内容的过程中采集当前环境的图像和/或声音来获取用户对音视频的直观反应,并且通过特征信息识别的结果来判断采集的图像和/或声音是否满足评价标准,利用满足评价标准的图像和/或声音中提取的特征信息生成对音视频内容的评价结果。该技术方案能够在不影响用户观看或收听音视频的情况下,通过了解用户在获知音视频内容后的情绪等反应获取用户的评价,并且通过筛选掉虚假数据保证了评价的真实性,使得得到的评价结果更客观准确。

在本发明的一个实施例中,对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准包括:识别声音是否包括人声,是则判定声音满足评价标准;根据识别出的特征信息生成对音视频内容的评价结果包括:根据识别出的人声生成对音视频内容的评价结果。

如果采集的声音中没有人声,自然也就不能体现反映出人的情绪,也就不能作为评价的基础数据。如果有人声,那么往往还需要对人声进行进一步的识别。

在本发明的一个实施例中,对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准包括进一步包括;识别人声在第一预设时间区间内是否存在重复片段,是则判定声音不满足评价标准。

该实施例是针对可能存在的造假情况所设计的,例如,用音箱播放一段笑声的循环,这样可以造成用户对音视频内容非常感兴趣,被逗得笑个不停的假象。为了避免被欺骗,可以采用本实施例中的方式,判断若干秒内的人声是否有重复,如果是,那么很可能就是一个造假场景,这样就不再进行后续的评价。

在本发明的一个实施例中,根据识别出的人声生成对音视频内容的评价结果包括:对人声进行语音识别,根据语音识别结果生成对音视频内容的评价结果;和/或,根据人声的声音属性生成对音视频内容的评价结果;和/或,对人声进行情感识别,根据情感识别结果生成对音视频内容的评价结果。

在本实施例中给出了几种可行的评价方式,第一种是利用语音识别,例如用户不由自主地感慨“真精辟”、“太搞笑了”,那么显然是正面的评价;如果用户评价为“没劲”、“赶紧换下一个吧”,那么显然是负面的评价。第二种是根据声音属性,例如笑声的有无、笑声的大小等等生成评价结果。第三种是对人声进行情感识别,例如识别出是开心的大笑还是不感兴趣的叹气,等等。

当然,在具体实施中也可以不限于上面示出的这几种方式进行评价。

在本发明的一个实施例中,对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准包括:识别图像是否包括人脸,是则判定图像满足评价标准;根据识别出的特征信息生成对音视频内容的评价结果包括:对人脸进行表情识别,根据表情识别结果生成对音视频内容的评价结果。

与前面的实施例相类似的地方是,也是利用包含“人”的数据进行评价,在图像中则是需要包含人脸,这样通过表情识别可以进一步进行评价。那么可能产生利用照片进行造假的方式,因此在本发明的一个实施例中,对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准包括进一步包括:识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化,否则判定图像不满足评价标准;是则进一步识别变化在第三预设时间区间内是否发生重复,否则判定图像不满足评价标准。这样就杜绝了采用照片和视频进行造假的方式。

在本发明的一个实施例中,识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化包括如下的一种或多种:识别上下眼皮距离是否发生变化;识别嘴角角度是否发生变化;识别上下嘴唇距离是否发生变化。

对于整张脸识别变化是没有必要的,会浪费大量资源,并且降低识别的准确率,而对几个特征部位进行识别就可以很好的实现,并且,在本实施例中示出的这几个特征部位还可以用于后续的表情识别,降低了识别的资源消耗。

在本发明的一个实施例中,识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化包括:当图像中有多个人脸时,随机选取一个人脸作为识别对象,或者,选取在第一帧图像中面积占比最大的人脸作为识别对象。

当有多个人时,考虑到情绪是通常具有整体性的,一个人笑,其他人也会笑;一个人觉得音视频内容没劲,通常其他人也不会表现出很喜欢,因此仅对其中的任一个人的人脸进行识别即可。当然为了考虑到识别效果,还可以从中选取出面积占比最大的人脸作为识别对象。

在本发明的一个实施例中,该方法还包括:获取与识别出的特征信息对应的时间信息;根据识别出的特征信息生成对音视频内容的评价结果包括:生成与时间信息相关的评价结果。

这样,就可以知道用户是对哪部分音视频内容产生的反应,例如有多个人轮换讲笑话,就可以指定哪个人讲得有趣,哪个人比较无聊。

在本发明的一个实施例中,该方法还包括:将对音视频内容的评价结果发送至服务器,以使服务器根据多个对音视频内容的评价结果生成对音视频内容的总体评价结果。

在本实施例中,所有采集的图像、声音在本地不落地保存,仅缓存用于评价,也不上传至服务器,保护了用户的隐私;而将评价结果进行上传,还可以使服务器根据多个用户的评价,得到一个更客观、大众化的评价结果。

图2示出了根据本发明一个实施例的一种音视频内容的评价装置的结构示意图。如图2所示,音视频内容的评价装置200包括:

采集单元210,适于在播放音视频内容的过程中,采集当前环境的图像和/或声音。

本发明所称的音视频包括音频和/或视频,例如MP3等格式的音频文件、MP4等格式的视频文件(即独立的音频和/或视频文件,其中视频文件可能包含音频流)、音频流、视频流(例如直播)等。

判断单元220,适于对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准。

评价单元230,适于在采集的图像和/或声音满足评价标准时,根据识别出的特征信息生成对音视频内容的评价结果。

可见,图2所示的装置,通过在播放音视频内容的过程中采集当前环境的图像和/或声音来获取用户对音视频的直观反应,并且通过特征信息识别的结果来判断采集的图像和/或声音是否满足评价标准,利用满足评价标准的图像和/或声音中提取的特征信息生成对音视频内容的评价结果。该技术方案能够在不影响用户观看或收听音视频的情况下,通过了解用户在获知音视频内容后的情绪等反应获取用户的评价,并且通过筛选掉虚假数据保证了评价的真实性,使得得到的评价结果更客观准确。

在本发明的一个实施例中,上述装置中,判断单元220,适于识别声音是否包括人声,是则判定声音满足评价标准;评价单元230,适于根据识别出的人声生成对音视频内容的评价结果。

如果采集的声音中没有人声,自然也就不能体现反映出人的情绪,也就不能作为评价的基础数据。如果有人声,那么往往还需要对人声进行进一步的识别。

在本发明的一个实施例中,上述装置中,判断单元220,进一步适于识别人声在第一预设时间区间内是否存在重复片段,是则判定声音不满足评价标准。

该实施例是针对可能存在的造假情况所设计的,例如,用音箱播放一段笑声的循环,这样可以造成用户对音视频内容非常感兴趣,被逗得笑个不停的假象。为了避免被欺骗,可以采用本实施例中的方式,判断若干秒内的人声是否有重复,如果是,那么很可能就是一个造假场景,这样就不再进行后续的评价。

在本发明的一个实施例中,上述装置中,评价单元230,适于对人声进行语音识别,根据语音识别结果生成对音视频内容的评价结果;和/或,根据人声的声音属性生成对音视频内容的评价结果;和/或,对人声进行情感识别,根据情感识别结果生成对音视频内容的评价结果。

在本实施例中给出了几种可行的评价方式,第一种是利用语音识别,例如用户不由自主地感慨“真精辟”、“太搞笑了”,那么显然是正面的评价;如果用户评价为“没劲”、“赶紧换下一个吧”,那么显然是负面的评价。第二种是根据声音属性,例如笑声的有无、笑声的大小等等生成评价结果。第三种是对人声进行情感识别,例如识别出是开心的大笑还是不感兴趣的叹气,等等。

当然,在具体实施中也可以不限于上面示出的这几种方式进行评价。

在本发明的一个实施例中,上述装置中,判断单元220,适于识别图像是否包括人脸,是则判定图像满足评价标准;评价单元230,适于对人脸进行表情识别,根据表情识别结果生成对音视频内容的评价结果。

与前面的实施例相类似的地方是,也是利用包含“人”的数据进行评价,在图像中则是需要包含人脸,这样通过表情识别可以进一步进行评价。那么可能产生利用照片进行造假的方式,因此在本发明的一个实施例中,上述装置中,判断单元220,进一步适于识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化,否则判定图像不满足评价标准,是则进一步识别变化在第三预设时间区间内是否发生重复,否则判定图像不满足评价标准。这样就杜绝了采用照片和视频进行造假的方式。

在本发明的一个实施例中,上述装置中,判断单元220,适于以如下的一种或多种方式识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化:识别上下眼皮距离是否发生变化;识别嘴角角度是否发生变化;识别上下嘴唇距离是否发生变化。

对于整张脸识别变化是没有必要的,会浪费大量资源,并且降低识别的准确率,而对几个特征部位进行识别就可以很好的实现,并且,在本实施例中示出的这几个特征部位还可以用于后续的表情识别,降低了识别的资源消耗。

在本发明的一个实施例中,上述装置中,判断单元220,适于当图像中有多个人脸时,随机选取一个人脸作为识别对象,或者,选取在第一帧图像中面积占比最大的人脸作为识别对象。

当有多个人时,考虑到情绪是通常具有整体性的,一个人笑,其他人也会笑;一个人觉得音视频内容没劲,通常其他人也不会表现出很喜欢,因此仅对其中的任一个人的人脸进行识别即可。当然为了考虑到识别效果,还可以从中选取出面积占比最大的人脸作为识别对象。

在本发明的一个实施例中,上述装置中,评价单元230,还适于获取与识别出的特征信息对应的时间信息,生成与时间信息相关的评价结果。

这样,就可以知道用户是对哪部分音视频内容产生的反应,例如有多个人轮换讲笑话,就可以指定哪个人讲得有趣,哪个人比较无聊。

在本发明的一个实施例中,上述装置中,评价单元230,还适于将对音视频内容的评价结果发送至服务器,以使服务器根据多个对音视频内容的评价结果生成对音视频内容的总体评价结果。

在本实施例中,所有采集的图像、声音在本地不落地保存,仅缓存用于评价,也不上传至服务器,保护了用户的隐私;而将评价结果进行上传,还可以使服务器根据多个用户的评价,得到一个更客观、大众化的评价结果。

综上所述,本发明的技术方案,通过在播放音视频内容的过程中采集当前环境的图像和/或声音来获取用户对音视频的直观反应,并且通过特征信息识别的结果来判断采集的图像和/或声音是否满足评价标准,利用满足评价标准的图像和/或声音中提取的特征信息生成对音视频内容的评价结果。该技术方案能够在不影响用户观看或收听音视频的情况下,通过了解用户在获知音视频内容后的情绪等反应获取用户的评价,并且通过筛选掉虚假数据保证了评价的真实性,使得得到的评价结果更客观准确。

需要说明的是:

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的音视频内容的评价装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

例如,图3示出了根据本发明一个实施例的智能终端的结构示意图。该智能终端包括处理器310和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器320。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码331的存储空间330。例如,用于存储计算机可读程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码331。计算机可读程序代码331可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图4所述的计算机可读存储介质。图4示出了根据本发明一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质400存储有用于执行根据本发明的方法步骤的计算机可读程序代码331,可以被智能终端300的处理器310读取,当计算机可读程序代码331由智能终端300运行时,导致该智能终端300执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码331可以执行上述任一实施例中示出的方法。计算机可读程序代码331可以以适当形式进行压缩。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明的实施例公开了A1、一种音视频内容的评价方法,包括:

在播放音视频内容的过程中,采集当前环境的图像和/或声音;

对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准;

是则根据识别出的特征信息生成对所述音视频内容的评价结果。

A2、如A1所述的方法,其中,所述对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准包括:

识别所述声音是否包括人声,是则判定所述声音满足评价标准;

所述根据识别出的特征信息生成对所述音视频内容的评价结果包括:根据识别出的人声生成对所述音视频内容的评价结果。

A3、如A2所述的方法,其中,所述对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准包括进一步包括;

识别所述人声在第一预设时间区间内是否存在重复片段,是则判定所述声音不满足评价标准。

A4、如A2所述的方法,其中,所述根据识别出的人声生成对所述音视频内容的评价结果包括:

对人声进行语音识别,根据语音识别结果生成对所述音视频内容的评价结果;

和/或,

根据人声的声音属性生成对所述音视频内容的评价结果;

和/或,

对人声进行情感识别,根据情感识别结果生成对所述音视频内容的评价结果。

A5、如A1所述的方法,其中,所述对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准包括:

识别所述图像是否包括人脸,是则判定所述图像满足评价标准;

所述根据识别出的特征信息生成对所述音视频内容的评价结果包括:对所述人脸进行表情识别,根据表情识别结果生成对所述音视频内容的评价结果。

A6、如A5所述的方法,其中,所述对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准包括进一步包括:

识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化,否则判定所述图像不满足评价标准,是则进一步识别所述变化在第三预设时间区间内是否发生重复,否则判定所述图像不满足评价标准。

A7、如A6所述的方法,其中,所述识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化包括如下的一种或多种:

识别上下眼皮距离是否发生变化;

识别嘴角角度是否发生变化;

识别上下嘴唇距离是否发生变化。

A8、如A6所述的方法,其中,所述识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化包括:

当图像中有多个人脸时,随机选取一个人脸作为识别对象,或者,选取在第一帧图像中面积占比最大的人脸作为识别对象。

A9、如A1所述的方法,其中,该方法还包括:获取与识别出的特征信息对应的时间信息;

所述根据识别出的特征信息生成对所述音视频内容的评价结果包括:生成与所述时间信息相关的评价结果。

A10、如A1-A9中任一项所述的方法,其中,该方法还包括:

将对所述音视频内容的评价结果发送至服务器,以使服务器根据多个对所述音视频内容的评价结果生成对所述音视频内容的总体评价结果。

本发明的实施例还公开了B11、一种音视频内容的评价装置,包括:

采集单元,适于在播放音视频内容的过程中,采集当前环境的图像和/或声音;

判断单元,适于对采集的图像和/或声音进行特征信息识别,根据特征信息识别结果判断采集的图像和/或声音是否满足评价标准;

评价单元,适于在采集的图像和/或声音满足评价标准时,根据识别出的特征信息生成对所述音视频内容的评价结果。

B12、如B11所述的装置,其中,

所述判断单元,适于识别所述声音是否包括人声,是则判定所述声音满足评价标准;

所述评价单元,适于根据识别出的人声生成对所述音视频内容的评价结果。

B13、如B12所述的装置,其中,

所述判断单元,进一步适于识别所述人声在第一预设时间区间内是否存在重复片段,是则判定所述声音不满足评价标准。

B14、如B12所述的装置,其中,

所述评价单元,适于对人声进行语音识别,根据语音识别结果生成对所述音视频内容的评价结果;和/或,根据人声的声音属性生成对所述音视频内容的评价结果;和/或,对人声进行情感识别,根据情感识别结果生成对所述音视频内容的评价结果。

B15、如B11所述的装置,其中,

所述判断单元,适于识别所述图像是否包括人脸,是则判定所述图像满足评价标准;

所述评价单元,适于对所述人脸进行表情识别,根据表情识别结果生成对所述音视频内容的评价结果。

B16、如B15所述的装置,其中,

所述判断单元,进一步适于识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化,否则判定所述图像不满足评价标准,是则进一步识别所述变化在第三预设时间区间内是否发生重复,否则判定所述图像不满足评价标准。

B17、如B16所述的装置,其中,所述判断单元,适于以如下的一种或多种方式识别在第二预设时间区间内连续采集的图像中的人脸是否发生变化:识别上下眼皮距离是否发生变化;识别嘴角角度是否发生变化;识别上下嘴唇距离是否发生变化。

B18、如B16所述的装置,其中,

所述判断单元,适于当图像中有多个人脸时,随机选取一个人脸作为识别对象,或者,选取在第一帧图像中面积占比最大的人脸作为识别对象。

B19、如B11所述的装置,其中,

所述评价单元,还适于获取与识别出的特征信息对应的时间信息,生成与所述时间信息相关的评价结果。

B20、如B11-B19中任一项所述的装置,其中,

所述评价单元,还适于将对所述音视频内容的评价结果发送至服务器,以使服务器根据多个对所述音视频内容的评价结果生成对所述音视频内容的总体评价结果。

本发明的实施例还公开了C21、一种智能终端,其中,该智能终端包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如A1-A10中任一项所述的方法。

本发明的实施例还公开了D22、一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如A1-A10中任一项所述的方法。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1