基于视觉大模型的相似背景图像归类方法与流程

文档序号：35375005发布日期：2023-09-08 14:34阅读：47来源：国知局

本发明涉及计算机视觉，具体为一种基于视觉大模型的相似背景图像归类方法。

背景技术：

1、相似背景图像归类即将不同视角拍摄的具有同一背景的图像归为一类。接近的技术如图像聚类和图像检索，但又不完全相同，一是图像聚类需要知道具体类别数量，本方法所提及的归类预先并不知道类别数量，二是图像检索是已知一张图像用于检索相似图像，本方法的图像归类是在整个图像数据集中进行归类，并且要求是同一背景。

2、常见技术通过人工设计特征或者使用深度学习算法提取图像特征，然后使用聚类算法进行归类，比如k-均值聚类等，在千万级甚至上亿级别的图像数据库中，需要将具有相同背景的图像挑选出来，对于人工而言是不可能完成的任务，已有的技术方法，比如基于图像特征进行聚类，其局限在于需要事先假设类别数量已知；图像检索技术已知一张图用于在图像数据库中查找相似图像，无法适用于大量数据集的批量归类。

3、综上所述，本申请提出基于视觉大模型的相似背景图像归类方法来解决上述问题，且本方法产生于面向商户的电商应用场景，商户入驻需要站在门店前拍照进行审核，本方法用于判断商户是否上传同一门店的多张图片，避免门店虚报。

技术实现思路

1、针对现有技术的不足，本发明提供了一种基于视觉大模型的相似背景图像归类方法，具备计算效率高，图像特征表达能力强等优点，解决了已有的技术方法限在于需要事先假设类别数量已知；图像检索技术已知一张图用于在图像数据库中查找相似图像，无法适用于大量数据集的批量归类的问题。

2、为实现上述目的，本发明提供如下技术方案：基于视觉大模型的相似背景图像归类方法，包括以下步骤：

3、1)图像编码：对于一张输入图像i∈rh×w×3，首先进行归一化预处理，然后使用上述预训练好的大模型，仅使用其视觉模块，将预处理的图像编码为一个向量v∈rd，将其规范化，使|v|＝1；

4、2)相似度矩阵构造：设图像库中图像数量为n，则经过上述步骤提取图像特征构造一个特征矩阵d∈rn×d，则d与dt的矩阵乘积s＝(slf)n×n＝ddr，s∈rn×d；

5、3)对角线归零：由于相似度矩阵s其对角线的值sii表示图像与其自身的相似度，恒为1，为了后续的计算，将其置为0；

6、4)阈值过滤：设置阈值t，选定一个方向(列或者行，这里以行为例)计算相似度矩阵的最大值smax＝max(s，dim＝1)，smax∈rn×1，计算smax大于阈值t所有的索引；

7、5)取上三角矩阵并归类图像：将相似度矩阵m变为上三角矩阵mtriu，计算其值大于阈值t的行列索引[(x1，y1)，(x2，y2)，...，(xn，yn)]。

8、进一步，所述i∈rh×w×3中，h，w分别为图像的高和宽，所述v∈rd中，d为向量维度，通常取512或768。

9、进一步，所述步骤2)中s即为相似度矩阵，sij表示第i张图像与第j张图像的余弦相似度。

10、进一步，所述步骤4)中根据该索引得到新的相似度矩阵m∈rn1×n1，n1<<n，这一步操作通常可将d缩减几个数量级。

11、进一步，所述步骤5)中，若(xi，yi)与(xj，yj)有相同索引，则归为一类，类标从0开始，依次递增，最后根据索引取得对应图像。

12、与现有技术相比，本申请的技术方案具备以下有益效果：

13、该基于视觉大模型的相似背景图像归类方法，计算效率高，在海量数据集上使用预训练好的模型提取特征，构造相似度矩阵，直接对矩阵进行操作。在内存有限条件下，可将相似度矩阵进行切片，并行计算，图像特征表达能力强，预训练大模型已经在上亿级图像数据上进行了训练，采用(图像，文本)多模态，能够更好的泛化，提出的方法不用事先设定类别数量，因此可在千万级甚至上亿级别的图像数据库中，需要将具有相同背景的图像挑选出来，且适用于大量数据集的批量归类。

技术特征：

1.基于视觉大模型的相似背景图像归类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于视觉大模型的相似背景图像归类方法，其特征在于：所述i∈rh×w×3中，h，w分别为图像的高和宽，所述v∈rd中，d为向量维度，通常取512或768。

3.根据权利要求1所述的基于视觉大模型的相似背景图像归类方法，其特征在于：所述步骤2)中s即为相似度矩阵，sij表示第i张图像与第j张图像的余弦相似度。

4.根据权利要求1所述的基于视觉大模型的相似背景图像归类方法，其特征在于：所述步骤4)中根据该索引得到新的相似度矩阵m∈rn1×n1，n1<<n，这一步操作通常可将d缩减几个数量级。

5.根据权利要求1所述的基于视觉大模型的相似背景图像归类方法，其特征在于：所述步骤5)中，若(xi，yi)与(xj，yj)有相同索引，则归为一类，类标从0开始，依次递增，最后根据索引取得对应图像。

技术总结
本发明涉及基于视觉大模型的相似背景图像归类方法，包括以下步骤：1)图像编码：对于一张输入图像I∈R<supgt;h×w×3</supgt;，首先进行归一化预处理，然后使用上述预训练好的大模型，仅使用其视觉模块，将预处理的图像编码为一个向量V∈R<supgt;d</supgt;，将其规范化，使|V|＝1。该基于视觉大模型的相似背景图像归类方法，计算效率高，在海量数据集上使用预训练好的模型提取特征，构造相似度矩阵，直接对矩阵进行操作，在内存有限条件下，可将相似度矩阵进行切片，并行计算，图像特征表达能力强，预训练大模型已经在上亿级图像数据上进行了训练，采用(图像，文本)多模态，能够更好的泛化，提出的方法不用事先设定类别数量，可在千万级甚至上亿级别的图像数据库中挑选相同背景的图像。

技术研发人员：高利军,黄泽琪,罗凡,胡博,郭恺
受保护的技术使用者：唯思电子商务（深圳）有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高利军黄泽琪罗凡胡博郭恺
技术所有人：唯思电子商务（深圳）有限公司
我是此专利的发明人

上一篇：一种气体氮气分离器及其方法与流程
上一篇：使用GIS进行水田选址大数据分析方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。