一种基于多模态学习的美学质量评价模型和方法

文档序号：32951761发布日期：2023-01-14 13:55阅读：来源：国知局

技术特征：
1.一种基于多模态学习的美学质量评价模型，其特征在于，包括数据处理模块、视觉transformer模块、文本transformer模块、多模态融合模块和统一美学预测任务模块；所述数据处理模块用于处理模型训练所需要的数据，并构建输入集分别传送给视觉transformer模块和文本transformer模块；所述视觉transformer模块作为视觉特征提取器，用于提取视觉特征；所述文本transformer模块作为文本特征提取器，用于提取高级语义；所述多模态融合模块用于融合视觉特征和文本特征，交互两者之间的信息以产生最终输出送入统一美学预测任务模块；所述统一美学预测任务模块多模态融合模块融合的特征，用于完成美学评分分布预测、美学评分回归和美学评分分类三项美学任务。2.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，在数据处理模块中，所有图像数据通过深度学习的函数进行数据增强，并附加划分后的文本数据，形成一个输入集；将输入集进行划分训练集、验证集和测试集，作为后续模块的前置条件。3.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，所述视觉transformer模块基于输入集，提取出图像特征；如果是视觉单模态流，将图像特征映射成美学预测分布；如果作为多模态融合模块的前置部分，则仅提取特征。4.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，所述文本transformer模块基于输入集，使用bert和roberta预训练模型，针对每句评论，通过分词器将其拆分并标记，增加[cls]用来标记头部，增加[sep]用来标记尾部；如果是文本单模态流，最后将cls token经过的分类器输出预测美学分数分布；如果作为多模态融合模块的前置部分，则仅提取特征。5.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，多模态融合模块包含m层多模态融合层，每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络；得到视觉特征和文本特征之后，送入自注意力层后再经过交叉注意力层；最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。6.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，统一美学预测任务模块将多模态融合模块提取的多模态融合特征，经过映射分类后得到1到10分的预测分数分布；然后通过numpy函数生成从1到10的等差数列分布将两个分布分别相乘求和得到美学回归分数；根据真实得分占比得到真实分数分布；将预测分数分布和真实分数分布比较，计算其斯皮尔曼等级相关系数srcc和皮尔逊线性相关系数plcc；将预测分数大于5且实际分数也大于5或者预测分数小于5且实际分数也小于5视为分类正确，并计算分类准确率。7.一种基于多模态学习的美学质量评价方法，其特征在于，基于权利要求1-6任一项所述的模型，所述方法的步骤为：步骤1、根据ava数据集及其评论数据集，按照标准数据集的划分方法，随机选取90%图像作为训练集，其余10%作为测试集；步骤2、利用数据处理模块，对图像数据进行预处理，得到数据增强后的图像；
步骤3、利用数据处理模块，对评论数据进行预处理，将图像和对应的评论构建成一个输入集；步骤4、利用视觉transformer模块提取美学图像特征f
vision
；如果是视觉单模态流，则将此特征直接用于后续的美学预测任务中；如果作为多模态融合模块的前置部分，则仅提取图像特征作为多模态融合层的输入；步骤5、利用文本transformer模块提取美学高级语义f
text
；如果是文本单模态流，则将此特征直接用于后续的美学预测任务中；如果作为多模态融合模块的前置部分，则仅提取文本特征作为多模态融合层的输入；步骤6、利用多模态融合模块，将以上模块提取到的视觉特征和文本特征输入到该模块中，得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征；步骤7、使用emdloss作为损失函数，计算出模型损失以完成训练；其中，代表美学实际分数分布，分别对应1-10主观评分数，代表预测分数分布，是累积分布分数，代表分数桶总数，由于美学特征空间中都是二维矩阵，将设置为2，表示在之间惩罚欧氏距离；；步骤8、利用统一美学预测任务模块，将提取后的特征通过分类层映射为预测美学分布并生成从1到10的等差数列分布，将预测美学分布和等差数列分布分别相乘求和得到美学回归分数；按照5分为阈值，美学回归分数高于阈值的图像被划分为高质量图像，美学回归分数低于阈值的图像被划分为低质量图像；步骤9、将预测的美学分布与实际美学分布相比较，计算出两者的皮尔逊相关系数plcc和斯皮尔曼相关系数srcc，其绝对值越接近于1表示更具有相关性，即模型预测美学分数与实际人类主观评价分数一致性越高；步骤10、将步骤8的回归分数作为预测分数，如果实际分数大于5且预测分数也大于5或者实际分数小于5且预测分数也小于5，则表示分类正确。8.根据权利要求7所述的一种基于多模态学习的美学质量评价方法，其特征在于，步骤2中，图像数据是ava数据集的美学图像，每一张的分辨率大小不等；对于训练集，对所有图像进行数据增强，即每一张图像会进行重塑，再进行随机水平翻转和随机裁剪。9.根据权利要求7所述的一种基于多模态学习的美学质量评价方法，其特征在于，步骤3中，文本数据是在根据每张美学图像爬取的评论集，按照#划分出每句评论，最后将图像数据和对应的文本数据建立成一个输入集。10.根据权利要求7所述的一种基于多模态学习的美学质量评价方法，其特征在于，步骤6中，多模态融合模块包含m层多模态融合层，每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络；得到视觉特征和文本特征之后，送入自注意力层后再经过交叉注意力层；最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征；在交叉注意力层中，图像部分使用自身的查询向量，使用文本的键向量和值向量；同样
地，文本部分使用自身的查询向量，使用图像的键向量和值向量，其计算交叉注意力计算如下：；其中，a代表计算注意力，是键向量key的维度，和代表所有标记token的键向量值向量value，代表图像或文本的查询向量；经过交叉注意力层后，最后会经过前馈神经网络层，其中对于视觉特征会先经过一维自适应平均池化层，再通过head pooler映射成batchsize
×
768，而文本特征直接经过head pooler后也映射成batchsize
×
768；其中，head pooler中选取第一个token的tensor作为最重要信息；最后将得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征；，。

技术总结
本发明属于图像处理技术领域，公开了一种基于多模态学习的美学质量评价模型和方法，其根据文本信息和图像信息，在图像特征和文本特征提取后，基于跨越注意力机制，动态融合图像与文本之间的信息；在多模态学习的基础上使用Transformer作为骨干网络，不考虑传统的CNN方法，通过视觉和文本Transformer分别提取图像特征和高级语义，从而实现基于多模态学习的纯Transformer美学质量评价模型和方法。本发明有效提高了美学质量评价的准确率和其他评价指标；有利于促进美学应用，加快深度学习在未来美学领域的发展。来美学领域的发展。来美学领域的发展。

技术研发人员：亓晋苏灿胡筱旋孙莹孙雁飞董振江许斌
受保护的技术使用者：南京邮电大学
技术研发日：2022.12.15
技术公布日：2023/1/13

完整全部详细技术资料下载

当前第2页1 2