一种基于人眼感知特性的生成视频的质量评估方法和装置

文档序号:37301953发布日期:2024-03-13 20:49阅读:10来源:国知局
一种基于人眼感知特性的生成视频的质量评估方法和装置

本发明涉及视频质量评估,具体而言,涉及一种基于人眼感知特性的生成视频的质量评估方法和装置。


背景技术:

1、随着人工智能技术的发展,语音驱动唇形的技术越来越受到广泛关注。其通过人工智能技术生成人脸视频,并且口型与输入音频的完美契合,使得虚拟人物的口型更加流畅自然,带给用户更好的视觉效果。

2、在应用中,如何准确的检测唇形与语音、语音与视频的契合度对应的关系是至关重要的,这将直接影响到合成视频的效果与观看者的体验。研究评估声音与合成唇部的同步检测指标,不仅可以衡量生成模型的性能,还可以提供有价值的反馈和建议,以进一步改进模型的设计和性能。

3、在先技术中用以检测人工智能技术生成的人脸视频的方法中,唇同步误差距离(lip sync error-distance,lse-d)需要要较大的训练集才能得到准确的结果。弗雷切图像距离(fréchet inception distance,fid)受数据集大小和模型稳定性影响。结构相似性指标(structural simi larity index measure,ssim)受场景限制,不能处理非线性变换的图像

4、有鉴于此,申请人在研究了现有的技术后特提出本申请。


技术实现思路

1、本发明提供了一种基于人眼感知特性的生成视频的质量评估方法和装置,以改善上述技术问题中的至少一个。

2、第一方面、本发明实施例提供了一种基于人眼感知特性的语音生成视频质量评估方法,其包含步骤s1至步骤s5。

3、s1、获取包含面部图像的说话录像和语音生成视频。其中,所述语音生成视频为根据所述说话录像的音频通过人工智能技术生成的包含虚拟面部图像的视频。

4、s2、根据所述说话录像的音频,分别从所述说话录像和所述语音生成视频中提取发出相同声音时的视频帧,以组成图像对。其中,遍历所述说话录像的音频的时间线后得到图像对序列。

5、s3、分别对图像对序列中的各个图像对中的两张图像进行识别和分割,获取图像中的眼睛区域、嘴部区域、面部其它区域和背景区域。

6、s4、根据所述眼睛区域、所述嘴部区域、所述面部其它区域和所述背景区域,通过位置结构相似性指标lssim计算各个图像对的图像相似度,以获取图像对相似度序列。

7、s5、根据所述图像对相似度序列进行汇总计算,获取说话录像和语音生成视频之间的视频相似度,以作为语音生成视频的质量评判指标。

8、第二方面、本发明实施例提供了一种基于人眼感知特性的语音生成视频质量评估装置,其包含:

9、视频获取模块,用于获取包含面部图像的说话录像和语音生成视频。其中,所述语音生成视频为根据所述说话录像的音频通过人工智能技术生成的包含虚拟面部图像的视频。

10、图像提取模块,用于根据所述说话录像的音频,分别从所述说话录像和所述语音生成视频中提取发出相同声音时的视频帧,以组成图像对。其中,遍历所述说话录像的音频的时间线后得到图像对序列。

11、图像分割模块,用于分别对图像对序列中的各个图像对中的两张图像进行识别和分割,获取图像中的眼睛区域、嘴部区域、面部其它区域和背景区域。

12、相似度计算模块,用于根据所述眼睛区域、所述嘴部区域、所述面部其它区域和所述背景区域,通过位置结构相似性指标lssim计算各个图像对的图像相似度,以获取图像对相似度序列。

13、相似度汇总模块,用于根据所述图像对相似度序列进行汇总计算,获取说话录像和语音生成视频之间的视频相似度,以作为语音生成视频的质量评判指标。

14、通过采用上述技术方案,本发明可以取得以下技术效果:

15、本发明实施例的基于人眼感知特性的语音生成视频质量评估方法对于语音驱动唇形视频的评价更加贴合实际,大大提高了准确性与可靠性,同时能够提高评价的客观性。



技术特征:

1.一种基于人眼感知特性的语音生成视频质量评估方法,其特征在于,包含:

2.根据权利要求1所述的一种基于人眼感知特性的语音生成视频质量评估方法,其特征在于,所述位置结构相似性指标lssim的计算模型为:

3.根据权利要求2所述的一种基于人眼感知特性的语音生成视频质量评估方法,其特征在于,权重的确认方法为:

4.根据权利要求3所述的一种基于人眼感知特性的语音生成视频质量评估方法,其特征在于,当样本数n≥800,x≥50时,各区域的权重值趋于稳定,代表了不同区域内容的人眼感知特性;各区域权重值如下:眼睛区域的权重we=25.3%;嘴部区域的权重wm=46.1%;面部其它区域的权重wf=15.8%;背景区域的权重wo=12.8%。

5.根据权利要求2所述的一种基于人眼感知特性的语音生成视频质量评估方法,其特征在于,ssim相似度的计算模型为:

6.根据权利要求5所述的一种基于人眼感知特性的语音生成视频质量评估方法,其特征在于,当α=β=γ,时,所述ssim相似度的计算模型简化为:

7.根据权利要求1至6任意一项所述的一种基于人眼感知特性的语音生成视频质量评估方法,其特征在于,根据所述图像对相似度序列进行汇总计算,获取说话录像和语音生成视频之间的视频相似度,以作为语音生成视频的质量评判指标,具体包括:

8.一种基于人眼感知特性的语音生成视频质量评估装置,其特征在于,包含:


技术总结
本发明提供一种基于人眼感知特性的生成视频的质量评估方法和装置,涉及视频质量评估技术领域。该种语音生成视频质量评估方法包含步骤S1至步骤S5。S1、获取包含面部图像的说话录像和语音生成视频。S2、根据说话录像的音频,分别从说话录像和语音生成视频中提取发出相同声音时的视频帧,以组成图像对。S3、分别对图像对序列中的各个图像对中的两张图像进行识别和分割,获取图像中的眼睛区域、嘴部区域、面部其它区域和背景区域。S4、根据眼眼睛区域、嘴部区域、面部其它区域和背景区域,通过位置结构相似性指标LSSIM计算各个图像对的图像相似度,以获取图像对相似度序列。S5、根据图像对相似度序列,获取说话录像和语音生成视频之间的视频相似度。

技术研发人员:刘莉
受保护的技术使用者:厦门理工学院
技术研发日:
技术公布日:2024/3/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1