技术特征:
技术总结
本发明属于计算机视觉与自然语言处理的交叉技术领域,提出了一种基于多模态注意力的图像标题自动生成方法,用以解决传统的基于神经网络的方法在预测单词过程中视觉特征和语言特征的对齐问题以及忽略句子特征的问题,提高了模型的收敛速度与图像标题的质量。本方法首先利用卷积神经网络自动地对图像区域进行特征提取;然后利用带视觉注意力的LSTM实现了句子特征的提取;最后设计了一种带多模态注意力(视觉注意力和隐变量注意力)的LSTM产生最终的图像标题。实验证明所提方法在MS COCO等基准数据集上取得了很好的结果。
技术研发人员:葛宏伟;闫泽杭
受保护的技术使用者:大连理工大学
技术研发日:2018.06.05
技术公布日:2018.11.16