一种基于多模态学习的美学质量评价模型和方法

文档序号:32951761发布日期:2023-01-14 13:55阅读:来源:国知局

技术特征:
1.一种基于多模态学习的美学质量评价模型,其特征在于,包括数据处理模块、视觉transformer模块、文本transformer模块、多模态融合模块和统一美学预测任务模块;所述数据处理模块用于处理模型训练所需要的数据,并构建输入集分别传送给视觉transformer模块和文本transformer模块;所述视觉transformer模块作为视觉特征提取器,用于提取视觉特征;所述文本transformer模块作为文本特征提取器,用于提取高级语义;所述多模态融合模块用于融合视觉特征和文本特征,交互两者之间的信息以产生最终输出送入统一美学预测任务模块;所述统一美学预测任务模块多模态融合模块融合的特征,用于完成美学评分分布预测、美学评分回归和美学评分分类三项美学任务。2.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,在数据处理模块中,所有图像数据通过深度学习的函数进行数据增强,并附加划分后的文本数据,形成一个输入集;将输入集进行划分训练集、验证集和测试集,作为后续模块的前置条件。3.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,所述视觉transformer模块基于输入集,提取出图像特征;如果是视觉单模态流,将图像特征映射成美学预测分布;如果作为多模态融合模块的前置部分,则仅提取特征。4.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,所述文本transformer模块基于输入集,使用bert和roberta预训练模型,针对每句评论,通过分词器将其拆分并标记,增加[cls]用来标记头部,增加[sep]用来标记尾部;如果是文本单模态流,最后将cls token经过的分类器输出预测美学分数分布;如果作为多模态融合模块的前置部分,则仅提取特征。5.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,多模态融合模块包含m层多模态融合层,每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络;得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层;最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。6.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,统一美学预测任务模块将多模态融合模块提取的多模态融合特征,经过映射分类后得到1到10分的预测分数分布;然后通过numpy函数生成从1到10的等差数列分布将两个分布分别相乘求和得到美学回归分数;根据真实得分占比得到真实分数分布;将预测分数分布和真实分数分布比较,计算其斯皮尔曼等级相关系数srcc和皮尔逊线性相关系数plcc;将预测分数大于5且实际分数也大于5或者预测分数小于5且实际分数也小于5视为分类正确,并计算分类准确率。7.一种基于多模态学习的美学质量评价方法,其特征在于,基于权利要求1-6任一项所述的模型,所述方法的步骤为:步骤1、根据ava数据集及其评论数据集,按照标准数据集的划分方法,随机选取90%图像作为训练集,其余10%作为测试集;步骤2、利用数据处理模块,对图像数据进行预处理,得到数据增强后的图像;
步骤3、利用数据处理模块,对评论数据进行预处理,将图像和对应的评论构建成一个输入集;步骤4、利用视觉transformer模块提取美学图像特征f
vision
;如果是视觉单模态流,则将此特征直接用于后续的美学预测任务中;如果作为多模态融合模块的前置部分,则仅提取图像特征作为多模态融合层的输入;步骤5、利用文本transformer模块提取美学高级语义f
text
;如果是文本单模态流,则将此特征直接用于后续的美学预测任务中;如果作为多模态融合模块的前置部分,则仅提取文本特征作为多模态融合层的输入;步骤6、利用多模态融合模块,将以上模块提取到的视觉特征和文本特征输入到该模块中,得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征;步骤7、使用emdloss作为损失函数,计算出模型损失以完成训练;其中,代表美学实际分数分布,分别对应1-10主观评分数,代表预测分数分布,是累积分布分数,代表分数桶总数,由于美学特征空间中都是二维矩阵,将设置为2,表示在之间惩罚欧氏距离;;步骤8、利用统一美学预测任务模块,将提取后的特征通过分类层映射为预测美学分布并生成从1到10的等差数列分布,将预测美学分布和等差数列分布分别相乘求和得到美学回归分数;按照5分为阈值,美学回归分数高于阈值的图像被划分为高质量图像,美学回归分数低于阈值的图像被划分为低质量图像;步骤9、将预测的美学分布与实际美学分布相比较,计算出两者的皮尔逊相关系数plcc和斯皮尔曼相关系数srcc,其绝对值越接近于1表示更具有相关性,即模型预测美学分数与实际人类主观评价分数一致性越高;步骤10、将步骤8的回归分数作为预测分数,如果实际分数大于5且预测分数也大于5或者实际分数小于5且预测分数也小于5,则表示分类正确。8.根据权利要求7所述的一种基于多模态学习的美学质量评价方法,其特征在于,步骤2中,图像数据是ava数据集的美学图像,每一张的分辨率大小不等;对于训练集,对所有图像进行数据增强,即每一张图像会进行重塑,再进行随机水平翻转和随机裁剪。9.根据权利要求7所述的一种基于多模态学习的美学质量评价方法,其特征在于,步骤3中,文本数据是在根据每张美学图像爬取的评论集,按照#划分出每句评论,最后将图像数据和对应的文本数据建立成一个输入集。10.根据权利要求7所述的一种基于多模态学习的美学质量评价方法,其特征在于,步骤6中,多模态融合模块包含m层多模态融合层,每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络;得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层;最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征;在交叉注意力层中,图像部分使用自身的查询向量,使用文本的键向量和值向量;同样
地,文本部分使用自身的查询向量,使用图像的键向量和值向量,其计算交叉注意力计算如下:;其中,a代表计算注意力,是键向量key的维度,和代表所有标记token的键向量值向量value,代表图像或文本的查询向量;经过交叉注意力层后,最后会经过前馈神经网络层,其中对于视觉特征会先经过一维自适应平均池化层,再通过head pooler映射成batchsize
×
768,而文本特征直接经过head pooler后也映射成batchsize
×
768;其中,head pooler中选取第一个token的tensor作为最重要信息;最后将得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征;,。

技术总结
本发明属于图像处理技术领域,公开了一种基于多模态学习的美学质量评价模型和方法,其根据文本信息和图像信息,在图像特征和文本特征提取后,基于跨越注意力机制,动态融合图像与文本之间的信息;在多模态学习的基础上使用Transformer作为骨干网络,不考虑传统的CNN方法,通过视觉和文本Transformer分别提取图像特征和高级语义,从而实现基于多模态学习的纯Transformer美学质量评价模型和方法。本发明有效提高了美学质量评价的准确率和其他评价指标;有利于促进美学应用,加快深度学习在未来美学领域的发展。来美学领域的发展。来美学领域的发展。


技术研发人员:亓晋 苏灿 胡筱旋 孙莹 孙雁飞 董振江 许斌
受保护的技术使用者:南京邮电大学
技术研发日:2022.12.15
技术公布日:2023/1/13
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1