基于轮廓特征增强的图像描述方法

文档序号：34229871发布日期：2023-05-24 12:20阅读：99来源：国知局

本发明涉及图像描述，具体涉及一种基于轮廓特征增强的图像描述方法。

背景技术：

1、随着互联网技术的快速发展和应用，从图像获取信息、以图像传递信息逐渐成为人们日常生活的主流，为图像描述技术带来了极大的机遇和挑战。图像描述作为现代计算机跨模态领域的一个代表性任务，贯通了计算机视觉与自然语言处理两个领域的技术，旨在让计算机识别、分析和理解给定图像的内容，并准确生成流畅自然的描述性语句，辅助信息传递。图像描述技术在教育、辅助医疗、人机交互等方面具有广阔的实际应用价值和前景。

2、挖掘提取和分析理解图像中的语义信息是图像描述技术的关键。现有的图像描述技术通常采用编码器-解码器结构，即利用预训练的视觉特征提取器编码图像，获取图像中的语义，再联合部分已经生成的文本信息，送入解码器来预测文本描述。随着更强大的视觉特征提取器的开发，性能也将不断提高。然而，仅仅依靠功能强大的视觉特征提取器的发展不足以增强视觉内容的贡献。为此，一些技术提出利用视觉内容预测包含高级语义的文本模态信息（例如图中的主体、主体间关系、主体的属性等）来强化视觉信息，但这里涉及两个技术问题：首先，由于文本和视觉信息是异质的，图像特征不足以直接预测出高质量的文本；其次，带有高级语义的文本特征不易与图像特征融合，在融合质量和复杂性之间存在权衡。

3、针对上述缺陷，本发明提出了一种基于轮廓特征增强的图像描述方法，以提升图像描述的表现。

技术实现思路

1、为解决上述技术问题，本发明提供一种基于轮廓特征增强的图像描述方法。

2、为解决上述技术问题，本发明采用如下技术方案：

3、一种基于轮廓特征增强的图像描述方法，通过图像描述模型识别给定的图像，生成文本描述；图像描述模型的训练过程，包括以下步骤：

4、步骤一、轮廓增强图像特征提取：

5、通过边缘检测方法得到图像的轮廓图，再将图像及对应的轮廓图分别送入视觉特征提取器中进行图像编码，分别得到图像的网格视觉特征和轮廓图的网格视觉特征；

6、将图像的网格视觉特征与图像的全局特征拼接，得到融合局部和全局视觉信息的图像视觉特征；将输入至transformer编码器得到图像特征；

7、将轮廓图的网格视觉特征与轮廓图的全局特征拼接，得到融合局部和全局视觉信息的轮廓视觉特征；将输入至transformer编码器得到轮廓特征；

8、将图像特征和轮廓特征分别经过多头自注意力机制和层归一化，并融合得到轮廓增强图像特征；

9、步骤二、联合预测：初始化语义向量，将轮廓增强图像特征和语义向量共同输入至transformer解码器，通过自注意力机制编码，学习视觉信息与高级语义间的潜在关联，并与语义向量相加作为基于视觉特征获取的高级语义特征；将轮廓增强图像特征和高级语义特征作为标准transformer解码器结构的输入，按顺序生成文本描述，为中的第个单词，为中单词的总数；

10、步骤三、联合优化：

11、设置高级语义预测损失；高级语义词，表示从语义特征到单词的降维映射，为不对称损失，表示借助数据集标注构建的语义词标签；

12、定义图像描述预测损失，其中，表示标注的描述句，ce代表交叉熵损失；

13、图像描述模型的整体损失函数。

14、具体地，步骤一中，将图像的网格视觉特征与图像的全局特征拼接前，先将图像的网格视觉特征从二维展开为一维，则图像视觉特征；其中，为图像的全局特征，为视觉特征提取器获得的图像中第个一维的网格视觉特征，为网格视觉特征的总数。

15、具体地，步骤一中，将输入至transformer编码器得到图像特征时：

16、；

17、为transformer模型中的层归一化运算，为transformer模型的多头注意机制操作。

18、具体地，步骤一中，将轮廓图的网格视觉特征与轮廓图的全局特征拼接前，先将轮廓图的网格视觉特征从二维展开为一维，则轮廓视觉特征；其中，为轮廓图的全局特征，为视觉特征提取器获得的轮廓图中第个一维的网格视觉特征，为网格视觉特征的总数。

19、具体地，步骤一中，将输入至transformer编码器得到轮廓特征时：

20、；

21、为transformer模型中的层归一化运算，为transformer模型的多头注意机制操作。

22、具体地，步骤一中，将图像特征和轮廓特征分别经过多头自注意力机制和层归一化，并融合得到轮廓增强图像特征时：

23、；

24、；

25、；

26、；

27、。

28、其中，为transformer模型中的层归一化运算，为transformer模型的多头注意机制操作，为全连接层，、分别表示和经多头自注意力编码后的特征，、分别表示和经过层归一化后的特征。

29、具体地，步骤二中，计算高级语义特征时：

30、；

31、为transformer模型中的层归一化运算，为transformer模型的多头注意机制操作。

32、具体地，步骤二中，按顺序生成文本描述时：

33、；

34、其中，中间隐藏状态，为transformer模型中的层归一化运算，为transformer模型的多头注意机制操作。

35、与现有技术相比，本发明的有益技术效果是：

36、本发明显式地利用并提取了轮廓中的视觉信息，其优点有二：一是轮廓信息虽然是黑白的但保留了边缘信息，可以看作是图像在目标语义级别的互补视图，对预测包含高级语义的文本模态信息可以起到促进作用；二是与其他低级的视觉信息(如分割掩膜)不同，轮廓在语义上和空间上与图像更一致，使得特征的融合更直接，增强了预测图像描述中的视觉贡献。

技术特征：

1.一种基于轮廓特征增强的图像描述方法，通过图像描述模型识别给定的图像，生成文本描述；图像描述模型的训练过程，包括以下步骤：

2.根据权利要求1所述的基于轮廓特征增强的图像描述方法，其特征在于：步骤一中，将图像的网格视觉特征与图像的全局特征拼接前，先将图像的网格视觉特征从二维展开为一维，则图像视觉特征；其中，为图像的全局特征，为视觉特征提取器获得的图像中第个一维的网格视觉特征，为网格视觉特征的总数，为拼接操作。

3.根据权利要求1或2所述的基于轮廓特征增强的图像描述方法，其特征在于：步骤一中，将输入至transformer编码器得到图像特征时：

4.根据权利要求1所述的基于轮廓特征增强的图像描述方法，其特征在于：步骤一中，将轮廓图的网格视觉特征与轮廓图的全局特征拼接前，先将轮廓图的网格视觉特征从二维展开为一维，则轮廓视觉特征；其中，为轮廓图的全局特征，为视觉特征提取器获得的轮廓图中第个一维的网格视觉特征，为网格视觉特征的总数，为拼接操作。

5.根据权利要求1或4所述的基于轮廓特征增强的图像描述方法，其特征在于：步骤一中，将输入至transformer编码器得到轮廓特征时：

6.根据权利要求1所述的基于轮廓特征增强的图像描述方法，其特征在于：步骤一中，将图像特征和轮廓特征分别经过多头自注意力机制和层归一化，并融合得到轮廓增强图像特征时：

7.根据权利要求1所述的基于轮廓特征增强的图像描述方法，其特征在于：步骤二中，计算高级语义特征时：

8.根据权利要求1所述的基于轮廓特征增强的图像描述方法，其特征在于：步骤二中，按顺序生成文本描述时：

技术总结
本发明涉及图像描述技术领域，公开了一种基于轮廓特征增强的图像描述方法，包括以下步骤：轮廓增强图像特征提取；联合预测；联合优化；轮廓增强特征提取将轮廓作为图像的互补视图，利用轮廓增强图像特征可以促进高级语义预测，增加了语言预测中的视觉贡献；联合预测利用视觉信息的两个额外方面，包括高级语义特征和轮廓增强图像特征，联合预测图像的描述性句子；联合优化的目的是让高级语义预测任务和图像描述任务共同优化；整个模型能够以端到端的方式进行训练，以更好地适应句子解码过程。

技术研发人员：张勇东,毛震东,赵慧婷,陈伟东,王婷
受保护的技术使用者：中国科学技术大学
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张勇东毛震东赵慧婷陈伟东王婷
技术所有人：中国科学技术大学
我是此专利的发明人

上一篇：一种支持RMT的动作执行引擎及其执行方法
上一篇：一种农用追肥装置

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。