一种基于网络结构搜索的图像描述生成方法与流程

文档序号：34113696发布日期：2023-05-10 23:09阅读：57来源：国知局

本发明涉及一种自然语言处理领域的图像描述生成方法，具体为一种基于网络结构搜索的图像描述生成方法。

背景技术：

1、网络结构搜索(neural architecture search，nas)是自动机器学习(automatedmachine learning，automl)的一个重要的分支，尤其在人工智能正在向高效智能迈进的时期，这个领域的发展显得有更加独特的意义。在自动机器学习领域中，研究人员进行繁琐手动调整的时间被大大减少，转而采用数据驱动的决策方式，由机器自动地决定出最佳的学习策略。

2、传统的机器学习流程中，针对不同的任务、不同的数据，研究人员都要完成特征提取、模型设计等一系列工作才能进行下一步，即模型的训练与调优。随着深度学习研究方向的诞生与发展，机器学习从业者逐渐地从特征设计提取的工作中摆脱出来，此类工作更多地交付给模型去处理。但对于模型设计的工作，相关的研究人员还是需要花费大量的宝贵时间去设计出适用的神经网络并进行不断的实验尝试，借以调整超参数并优化其中的细节。与此同时，这种人工模型设计的方式对研究人员理解任务的程度依赖较大，也会受到其思想知识的某些局限性限制，即使经过大量的实验测试与验证，设计出的模型也不能确保达到最优，因此目前许多基于深度学习的方法对相关领域的专家依旧有着较强的依赖性。

3、网络结构搜索能够排除上述流程中模型设计工作对人工的过分依赖，能够有效降低难以接受的人工试错与时间成本。它采用网络结构自动搜索的研究思想，能够达到针对特定的任务，在不需要人工过多干预就能实现精确建模的效果。

4、网络结构搜索技术虽然在各个领域的基础性任务中得到了不错的效果，但就目前来说，为了设计与搜索出区别于传统人工设计结构的具有突破性的结构，网络结构搜索任务的搜索空间往往要定义的相对大一些，目前较为先进的方法还非常注重拓扑结构的构成优化，这极大地提高了搜索过程的灵活性与结构的多样性，但也导致了网络结构搜索对于计算资源的大量消耗，因此网络结构搜索领域的大部分工作也都聚焦在相对轻量级的任务(如图像处理领域的图像分类任务等)上。这样做的目的主要在于使用更加轻量级的任务来验证提出的方法，以降低网络结构搜索对算力的要求。基于上述的一系列原因，网络结构搜索领域针对较复杂任务，即重量级任务(如图像处理领域的图像描述生成任务等)的处理与应用仍然亟需研究人员的不断探索与尝试。

技术实现思路

1、针对当前网络结构搜索技术在各领域的较复杂任务应用稀缺的问题，本发明提供一种基于网络结构搜索的图像描述生成方法，可将基础性任务上搜索到的结构单元应用到复杂任务上，并实现任务性能的提升。

2、为解决上述技术问题，本发明采用的技术方案是：

3、本发明提供一种基于网络结构搜索的图像描述生成方法，包括以下步骤：

4、1)使用网络结构优化方法基于图像分类任务搜索卷积单元，获得普通卷积与规约池化单元结构；

5、2)使用搜索出的单元结构构建出模型结构，并将模型结构基于图像分类数据集进行训练；

6、3)使用搜索训练得到的卷积单元模型结构构建视觉注意力模型，应用于图像描述生成任务；

7、4)基于束搜索对得到的上述应用于图像描述生成任务的视觉注意力模型进行解码与评估，实现图像描述的生成。

8、步骤1)具体过程为：

9、101)随机生成多个卷积结构加入结构池，使用搜索控制器的单层lstm编码器对每一个卷积结构进行嵌入编码，将离散的卷积结构映射到连续空间中，并对每一个离散的卷积结构进行训练以及模型性能的评估；

10、102)使用评估后的卷积结构及模型性能数据对训练搜索的控制器；

11、103)挑选多个性能优秀的卷积结构，在其基础上使用控制器的性能预测器函数f基于编码器的隐藏层状态派生出新的卷积结构嵌入表示ex′：

12、

13、其中ht为编码器的隐藏层状态，ex′为派生出的新结构嵌入，h’t为新结构嵌入在各维度上的分量，η为用于派生的超参数，t为编码器的隐藏层维度大小，h′t为派生出的卷积结构嵌入表示的最后一个分量；

14、104)将新卷积结构的表示解码后加入结构池，相当于编码结构过程的逆操作，将结构池中的结构从连续表示恢复成字符序列；重复评估、训练与派生的迭代过程，直至搜索控制器收敛，选择结构池中最优结构作为搜索结果，获得普通卷积与规约池化单元结构。

15、步骤3)具体过程如下：

16、301)将图片传入搜索训练得到的卷积神经网络加以处理，使用平均池化单元将不同大小的图片编码成相同尺寸的特征向量，缩放到统一尺寸，并将其送入解码器进行扁平化操作；

17、302)使用注意力机制对图片向量特征进行相对权重计算，得到上下文向量，并使用门控单元对其加权，以便进行更好的目标物体识别，同时将图片描述进行词嵌入；

18、303)将上下文向量、图片描述的词嵌入向量以及编码器的隐藏层状态输入解码单元进行解码，通过解码结果与真实标签的交叉熵损失进行训练。

19、步骤4)是将步骤3)中扁平化及之前的处理扩展为k维，以实现束大小为k的束搜索方法，每个预测序列从头开始解码，解码结束后将其从解码队列中移除，增加生成图片描述的多样性。

20、本发明具有以下有益效果及优点：

21、1.本发明解决了当前网络结构搜索技术在各领域重量级任务上应用不足的问题，成功地将网络结构优化方法基于轻量级图像分类任务搜索的卷积结构单元应用到更复杂的图像理解任务当中。

22、2.此外，本发明提出的方法能够有效地减少模型的参数量，提升相应任务的性能，通过搜索的方式自动化地得到适配任务的更优模型结构。

技术特征：

1.一种基于网络结构搜索的图像描述生成方法，其特征在于包括以下步骤：

2.按照权利要求1所述的一种基于网络结构搜索的图像描述生成方法，其特征在于：在步骤1)具体过程为：

3.按照权利要求1所述的一种基于网络结构搜索的图像描述生成方法，其特征在于：步骤3)具体过程如下：

4.按照权利要求1所述的一种基于网络结构搜索的图像描述生成方法，其特征在于：步骤4)是将步骤3)中扁平化及之前的处理扩展为k维，以实现束大小为k的束搜索方法，每个预测序列从头开始解码，解码结束后将其从解码队列中移除，增加生成图片描述的多样性。

技术总结
本发明公开一种基于网络结构搜索的图像描述生成方法，包括以下步骤：使用网络结构优化方法基于图像分类任务搜索卷积单元，获得普通卷积与规约池化单元结构；使用搜索出的单元结构构建出模型结构，并将模型结构基于图像分类数据集进行训练；使用搜索训练得到的卷积单元模型结构构建视觉注意力模型，应用于图像描述生成任务；基于束搜索对得到的上述应用于图像描述生成任务的视觉注意力模型进行解码与评估，实现图像描述的生成。本发明解决了当前网络结构搜索技术在各领域重量级任务上应用不足的问题，成功地将网络结构优化方法基于轻量级图像分类任务搜索的卷积结构单元应用到更复杂的图像理解任务中，有效减少模型的参数量，提升相应任务的性能。

技术研发人员：刘兴宇,姜炎宏
受保护的技术使用者：沈阳雅译网络技术有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘兴宇姜炎宏
技术所有人：沈阳雅译网络技术有限公司
我是此专利的发明人

上一篇：一种多层复合包芯结构微纳米纱及其制备方法
上一篇：一种基于PXE和带外安装共存的操作系统安装方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。