一种基于自蒸馏的低码率半参考图像质检方法及系统与流程

文档序号:42949935发布日期:2025-09-09 18:49阅读:31来源:国知局

本技术涉及图像质检,尤其涉及一种基于自蒸馏的低码率半参考图像质检方法及系统。


背景技术:

1、在智慧物联场景下,智能视觉终端(例如nb-iot安防摄像头、远程农业微摄像头、杆塔巡检相机等)通常部署于上行带宽受限、计算资源有限的边缘环境。在上述场景中,终端需要持续上报图像或视频流,后台则需实时掌握画面质量,以便动态调整编码码率、触发差错重传或发出告警指令。

2、现有图像质量评估技术在智慧物联环境中均存在明显短板:全参考图像质量评估依赖完整原始图像作对照,需额外传输数百kb乃至mb的无损或高质量参考图,超出物联网链路承载能力;无参考图像质量评估仅依据失真图像自身特征,虽然带宽占用最小,但在面对压缩伪影、随机噪声、运动模糊与色彩漂移等多失真混合场景时预测精度难以保证;现有的半参考评估方法使用直方图、边缘等低级统计特征,参考码率虽低,但对结构-色彩混合失真适应性不足;同时差异建模网络参数量普遍超过20m,无法在低功耗mcu或边缘网关上实时运行。

3、因此,如何在极低码率条件下获取足以支撑高精度评估的参考信息,并在受限算力芯片上实时完成质量评估,成为智慧物联智能终端亟待解决的核心技术问题。


技术实现思路

1、本技术提供一种基于自蒸馏的低码率半参考图像质检方法及系统,以解决如何在极低码率条件下获取足以支撑高精度评估的参考信息,并在受限算力芯片上实时完成质量评估的问题。

2、第一方面,本技术提供了一种基于自蒸馏的低码率半参考图像质检方法,所述方法包括:

3、获取智能视觉终端图像样本集,执行标准化处理获得归一化后图像;其中,图像样本集由若干图像样本构成;

4、采用冻结的基础图像编码器网络模型,提取归一化后图像的图像语义向量;

5、对图像语义向量进行乘积量化,获得参考码流;

6、将图像样本对应的失真图像和参考码流同步发送至接收端,接收端根据参考码流获得图像样本对应的重构语义向量;

7、基于重构语义向量和失真图像,生成伪参考图像;

8、在预设显著区域内对伪参考图像与失真图像执行跨图差异对齐,获得差异特征张量;

9、基于差异特征张量,获得教师网络质量回归子头和失真分类子头的输入,以及利用差异特征张量,教师网络获得图像样本集中各图像样本的质量预测置信度指标和失真分类预测置信度指标,进而确定各图像样本的类型;其中,类型分为:低不确定、中不确定和高不确定;基于差异特征张量、各样本的类型,冻结教师网络参数,获得训练好的学生网络;

10、获取测试数据的差异特征张量,利用训练好的学生网络,输出主观质量分以及预设若干类失真概率向量,取为测试数据的主导失真类型。

11、在本技术的一种实现方式中,获取智能视觉终端样本集,执行标准化处理获得归一化后图像,具体包括:

12、终端摄像头采集智能视觉终端样本集,分辨率固定为1280*720像素,帧格式为yuv-420;

13、对的三个色度分量分别施加3×3高斯滤波核;

14、应用直方图均衡化调整亮度分布,使像素灰度均匀;

15、将处理后图像转换为rgb,并按如下公式进行归一化至[-1,1]区间。

16、在本技术的一种实现方式中,采用冻结的基础图像编码器网络模型,提取归一化后图像的图像语义向量,具体包括:

17、将归一化后图像送入基础图像编码器;通过公式:

18、,读取基础图像编码器网络最后一层cls token,得到图像语义向量;

19、其中,为冻结的基础图像编码器网络模型;代表第i个语义维度。

20、在本技术的一种实现方式中,对图像语义向量进行乘积量化,获得参考码流,具体包括:

21、根据预设划分公式:

22、,将图像语义向量依次划分为m=16个32维子向量;

23、根据预设公式:

24、,对每个在对应码本中计算欧式距离,获得一级量化索引;

25、其中,k代表每个码本的码字个数;=[],代表第m个码本;{1,...,256}代表一级量化索引;

26、将16个一级量化索引按顺序保存为16byte无符号整数数组,得到一级量化重构向量;

27、对每个子残差执行操作:;其中,表示二级残差索引,表示第m 个子向量的一级量化残差,表示第m个残差码本中的第jm个码字;

28、将每个子向量的一级量化索引和为二级残差索引组合成索引对,通过rangecoder熵编码将索引对压缩为参考码流b。

29、在本技术的一种实现方式中,接收端根据参考码流获得重构语义向量,具体包括:

30、接收端获得参考码流b:

31、通过公式:

32、,将参考码流解码为重构语义向量;表示解码函数。

33、在本技术的一种实现方式中,基于重构语义向量和失真图像,生成伪参考图像,具体包括:

34、将重构语义向量输入映射网络,输出文本提示t。

35、以失真图像作为起始噪声,加载latent diffusion模型;

36、行5步dpm-solver采样,得到伪参考图像;其中,表示latentdiffusion模型的第5步dpm-solver逆向采样器,∈表示伪参考图像。

37、在本技术的一种实现方式中,在预设显著区域内对伪参考图像与失真图像执行跨图差异对齐,获得差异特征张量,具体包括:

38、将伪参考图像与失真图像切分为16×16patch,获得token序列如下:;

39、通过公式:

40、,计算自注意力权重;

41、并选取top-20%patch组成集合β;

42、其中,表示第i个patch平均注意力;,表示第h头查询/键权重矩阵;

43、对β中token输入6层cross-vit,输出差异特征张量d。

44、在本技术的一种实现方式中,利用差异特征张量,教师网络获得样本集中各样本的质量预测置信度指标和失真分类预测置信度指标,进而确定各样本的类型,具体包括:

45、对于同一差异特征张量d,在教师网络中启用dropout并执行 m=3次前向传播,模拟网络输出的预测波动性,获得3组质量预测结果{q(1),q(2),q(3)},以及对应的失真类型分类概率向量{c(1),c(2),c(3)};

46、计算3次质量预测分数的方差,得到,作为质量预测置信度指标;

47、通过公式:

48、,计算3次分类概率向量的熵值将作为失真分类预测置信度指标;

49、根据全部样本的质量预测置信度指标和失真分类预测置信度指标,获得质量预测置信度指标分布和失真分类预测置信度指标分布;

50、根据分布的预设分位点,获得质量预测波动性阈值和分类预测置信度阈值;

51、当样本的质量预测置信度指标小于等于质量预测波动性阈值,且失真分类预测置信度指标小于等于分类预测置信度阈值,样本为低不确定类型;

52、当样本的质量预测置信度指标大于质量预测波动性阈值或失真分类预测置信度指标大于分类预测置信度阈值,样本为中不确定类型;

53、当样本的质量预测置信度指标大于质量预测波动性阈值且失真分类预测置信度指标大于分类预测置信度阈值,样本为高不确定类型。

54、在本技术的一种实现方式中,基于差异特征张量、各样本的类型,利用学生网络,输出主观质量分以及预设若干类失真概率向量,取为主导失真类型,具体包括:

55、输入差异特征张量,经过均值池化与最大池化,得到:

56、;其中,()为均值池化函数,()为最大池化函数;

57、基于,进行质量子头执行两层全连接,维度变化:384→ 64 →1,输出主观质量预测;

58、基于,进行分类子头执行两层全连接,维度变化为:384→ 64 →8,经softmax得到失真概率;其中,;

59、根据公式:

60、,计算不确定性加权蒸馏损失;

61、其中,、为教师网络输出的主观质量预测与失真概率;

62、其中,权重设置如下:

63、,

64、,

65、其中,表示预设调整因子;

66、反向传播只更新学生网络以及量化码本;教师网络始终冻结;

67、获得训练好的学生网络;

68、将差异特征张量,输入训练好的学生网络,输出主观质量分以及失真概率向量,取为主导失真类型。

69、第二方面,本技术提供了一种基于自蒸馏的低码率半参考图像质检系统,所述系统包括:

70、图像获得模块,用于获取智能视觉终端样本集,执行标准化处理获得归一化后的图像;

71、向量提取模块,用于采用冻结的基础图像编码器网络模型,提取归一化后的图像语义向量;

72、码流获得模块,用于对图像语义向量进行乘积量化,获得参考码流;

73、向量重构模块,用于将样本对应的失真图像和参考码流同步发送至接收端,接收端根据参考码流获得样本对应的重构语义向量;

74、图像生成模块,用于基于重构语义向量和失真图像,生成伪参考图像;

75、向量获得模块,用于在预设显著区域内对伪参考图像与失真图像执行跨图差异对齐,获得差异特征张量;

76、教师网络模块,用于基于差异特征张量,获得教师网络质量回归子头和失真分类子头的输入,以及利用差异特征张量,教师网络获得图像样本集中各图像样本的质量预测置信度指标和失真分类预测置信度指标,进而确定各图像样本的类型;其中,类型分为:低不确定、中不确定和高不确定;

77、学生网络模块,用于基于差异特征张量、各样本的类型,冻结教师网络参数,获得训练好的学生网络;获取测试数据的差异特征张量,利用训练好的学生网络,输出主观质量分以及预设若干类失真概率向量,取为测试数据的主导失真类型。

78、从以上技术方案可以看出,本技术具有以下优点:

79、一、降低了参考数据带宽占用:

80、本技术通过乘积量化将图像语义向量压缩为低码率参考码流,相比传统全参考方法传输数百kb至mb级无损图像,可将参考数据量压缩至原数据量的1/100以下。这种压缩机制使得在智慧物联有限的网络带宽环境下,能够实现参考信息的实时传输,突破物联网链路承载能力的瓶颈。

81、二、提升了多失真混合场景评估精度:

82、通过伪参考图像生成与跨图差异对齐技术,能够有效捕捉压缩伪影、随机噪声、运动模糊与色彩漂移等混合失真特征。教师网络的双子头结构(质量回归与失真分类)结合不确定度评估机制,使系统在面对复杂失真场景时仍能保持较高的预测准确性,克服传统无参考方法精度不足的缺陷。

83、三、实现了边缘设备实时计算:

84、采用自蒸馏训练策略,通过冻结教师网络参数训练轻量级学生网络,可将模型参数量控制在5m以下。配合乘积量化的高效计算特性,本技术能够在算力受限的mcu或边缘网关上实现实时评估,满足智慧物联终端对实时性的严格要求。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1