数据处理、图文检索、图像分类方法及相关设备与流程

文档序号：34388205发布日期：2023-06-08 07:36阅读：53来源：国知局

本发明涉及人工智能，尤其涉及数据处理、图文检索、图像分类方法及相关设备。

背景技术：

1、随着人工智能的快速发展，通过海量的图像-文本对进行视觉语言表征学习得到的图文匹配模型，因其在零样本分类、文本-图像检索等领域的巨大潜力而备受关注。

2、在现有技术中，为了保证图像匹配模型的精确度，往往需要大规模地训练数据进行模型训练，才能获得足够多的对比损失来保证学到一个更好的特征表示。可见，为了得到高精度的图像匹配模型，需要高性能、高存储空间的计算设备来支撑。例如，在训练数据的批处理大小为65536时，使用float32，需要耗费约16gb的内存。但是，目前的计算设备的存储空间、计算能力有限，从而影响图像匹配模型的精度。

3、基于此，如何在计算设备性能有限的情况下，提高图像匹配模型的性能成为亟需解决的技术问题。

技术实现思路

1、本发明的主要目的在于提供一种数据处理、图文检索、图像分类方法及相关设备，旨在解决现有技术中计算设备的计算能力和存储空间有限，影响图文匹配模型的图文匹配性能的问题。

2、为了实现上述目的，本发明提供了一种数据处理方法，所述数据处理方法基于预设的分布式系统，所述分布式系统包括若干计算节点；所述数据处理方法包括：

3、各第一计算节点分别获取训练样本集中每个样本图像-文本对的样本图像特征和样本文本特征；

4、其中，所述样本图像特征为待训练图文匹配模型的图像编码器对所述样本图像-文本对的样本图像进行特征提取得到，所述样本文本特征为待训练图文匹配模型的文本编码器对所述样本图像-文本对的样本文本进行特征提取得到；

5、各所述第一计算节点选择一个样本图像特征作为选定图像特征，确定所述选定图像特征与每个所述样本文本特征的特征相似度，以使预设的第二计算节点确定所述训练样本集对应的梯度信息，并基于所述梯度信息调整所述待训练图文匹配模型的模型参数，得到已训练的图文匹配模型；

6、其中，各第一计算节点的所述选定图像特征互不相同，且各所述选定图像特征组成所述训练样本集对应所有所述样本图像特征。

7、可选地，所述确定所述选定图像特征与每个所述样本文本特征的特征相似度之后，所述方法还包括：

8、所述第一计算节点根据所述选定图像特征与每个所述样本文本特征的所述特征相似度，确定所述选定图像特征对应的选定图像的第一对比损失函数；以及

9、所述第一计算节点根据选定文本特征与每个所述样本图像特征的特征相似度，确定所述选定文本特征对应的选定文本的第二对比损失函数；

10、其中，所述选定文本特征为与所述选定图像特征匹配的所述样本文本特征；

11、第三计算节点获取各所述第一计算节点的第二对比损失函数，并根据所述第二对比损失函数确定各所述选定文本的第三对比损失函数；

12、所述第二计算节点根据所述第一对比损失函数、所述第二对比损失函数以及所述第三对比损失函数，确定所述训练样本集对应的梯度信息，并基于所述梯度信息调整所述待训练图文匹配模型的模型参数，得到已训练的图文匹配模型。

13、可选地，所述第一计算节点根据选定文本特征与每个所述样本图像特征的特征相似度，确定所述选定文本特征对应的选定文本的第二对比损失函数之前，所述方法还包括：

14、所述第一计算节点根据所述选定文本特征，从其他所述第一计算节点中获取所述选定文本特征与所述样本图像特征的特征相似度，以使所述第一计算节点得到所述选定文本特征与每个所述样本图像特征的特征相似度。

15、可选地，所述第三计算节点获取各所述第一计算节点的第二对比损失函数，并根据所述第二对比损失函数确定各所述选定文本的第三对比损失函数，具体包括：

16、各所述第一计算节点将各所述选定文本的第二对比损失函数同步至所述第三计算节点；

17、各所述第三计算节点根据所述各所述选定文本的第二对比损失函数，确定非选定文本的对比损失函数，作为所述选定文本的第三对比损失函数；

18、其中，所述非选定文本为所述训练样本集合中除所述选定文本外的其他所述样本文本。

19、可选地，所述第二计算节点根据所述第一对比损失函数、所述第二对比损失函数以及所述第三对比损失函数，确定所述训练样本集对应的梯度信息，具体包括：

20、各所述第一计算节点将所述第一对比损失函数和所述第二对比损失函数同步至所述第二计算节点；以及

21、所述第三计算节点将所述第三对比损失函数同步至所述第二计算节点；

22、所述第二计算节点根据获取的各第一对比损失函数，确定所述训练样本集对应的图像-文本对比损失函数；以及根据各第一对比损失函数，确定所述训练样本集对应的文本-图像对比损失函数；

23、所述第二计算节点将所述图像-文本对比损失函数的梯度信息作为第一梯度信息、所述文本-图像对比损失函数的梯度信息作为第二梯度信息、以及训练样本集对应的反例文本-图像对比损失函数的梯度信息作为第三梯度信息；

24、其中，所述反例文本-图像对比损失函数为根据各所述选定文本的所述第三对比损失函数计算得到；

25、所述第二计算节点将所述第一梯度信息和所述第二梯度信息以及所述第三梯度信息的和值，作为所述训练样本集对应的梯度信息。

26、可选地，所述分布式系统还包括主控节点，所述方法还包括：

27、主控节点获取所述训练样本集中的训练样本数量，并基于所述训练样本数量为所述训练样本集分配若干所述第一计算节点。

28、为了实现上述目的，本发明还提供了一种图文检索方法，其包括：

29、将待检索文本输入图文匹配模型的文本编码器，以获取所述文本编码器所输出的所述待检索文本的文本特征；

30、其中，所述图文匹配模型为通过如上任意一项所述的数据处理方法得到的；

31、基于所述待检索文本的文本特征和预设图像库中各图像的图像特征，计算所述待检索文本与所述预设图像库中每个所述图像的相似度；

32、其中，所述预设图像库中各所述图像的图像特征为采用所述图文匹配模型的图像编码器获得；

33、基于相应的所述相似度，从所述预设图像库中确定与所述待检索文本匹配的至少一个图像。

34、为了实现上述目的，本发明还提供了一种图像分类方法，其包括：

35、将待分类图像输入图文匹配模型的图像编码器，以获取所述图像编码器输出的所述待分类图像的图像特征；

36、其中，所述图文匹配模型为通过如上任意一项所述的数据处理方法得到的；

37、基于所述待分类图像的图像特征和预设文本库中各文本的文本特征，计算所述待分类图像与所述预设文本库中每个所述文本的相似度；

38、其中，所述预设文本库中各所述文本的文本特征为采用所述图文匹配模型的文本编码器获得；

39、基于相应的相似度，确定所述预设文本库中确定与所述待分类图像匹配的至少一个文本，作为所述待分类图像的图像标签。

40、为了实现上述目的，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任意一项所述的图数据处理方法中的步骤，或者如上所述的图文检索方法中的步骤，亦或者如上所述的图像分类方法中的步骤。

41、为了实现上述目的，本发明还提供了一种终端，包括：处理器和存储器；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序时实现如上任意一项所述的数据处理方法中的步骤，或者如上所述的图文检索方法中的步骤，亦或者如上所述的图像分类方法中的步骤。

42、本发明通过将训练样本集中的每个样本图像-文本对的样本图像特征和样本文本特征同步至各第一计算节点，每个第一计算节点仅计算其对应的选定图像特征与每个样本文本特征的特征相似度。基于各第一计算节点计算得到的特征相似度，第二计算节点确定该训练样本集对应的梯度信息，并根据该梯度信息调整待训练图文匹配模型的模型参数，以得到已训练的图文匹配模型。通过上述方法，每个计算节点仅需为原本1/n的计算量，可以实现大规模训练数据的模型训练，即在计算设备的计算能力和存储空间有限的情况下，也可以实现大规模训练数据对图文匹配模型的训练并且可以提高模型的训练速度，以提高训练得到的图文匹配模型的准确度，提高图文检索、零样本图像分类的准确度。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈意浩齐宪标王佳楠张磊
技术所有人：粤港澳大湾区数字经济研究院（福田）
我是此专利的发明人

上一篇：一种基于压力波法的气侵早期监测实验装置及实验方法
上一篇：电助力自行车助力控制方法和系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。