技术编号:30384145
提示:您尚未登录,请点 登 陆 后下载,如果您还没有账户请点 注 册 ,登陆完成后,请刷新本页查看技术详细信息。.本发明涉及人工智能技术领域,具体涉及一种基于对比学习和自适应注意力的图像描述生成方法及介质。背景技术.图像字幕任务是跨模态的视觉语言任务之一,其旨在自动生成自然语言句子来描述给定图像的视觉内容。目前其主要采用编码器-解码器框架,编码器提取视觉特征,解码器生成图像描述的句子,并通过引入注意机制来帮助模型在生成每个单词时关注相关位置。因此,改进图像字幕模型主要集中在两个主要方面:a)图像特征表示;b)模型结构。在视觉表示方面,模型往往采用图像的单层特征作为输入,如语义较弱的网格特征、语义中等的...
注意:该技术已申请专利,请尊重研发人员的辛勤研发付出,在未取得专利权人授权前,仅供技术研究参考不得用于商业用途。
该专利适合技术人员进行技术研发参考以及查看自身技术是否侵权,增加技术思路,做技术知识储备,不适合论文引用。
请注意,此类技术没有源代码,用于学习研究技术思路。