基于自适应提示词的开放环境图像分析方法、装置与流程

文档序号:39532368发布日期:2024-09-30 12:53阅读:62来源:国知局

本申请涉及计算机视觉,例如涉及一种基于自适应提示词的开放环境图像分析方法、装置。


背景技术:

1、在当前科技飞速发展的时代,图像理解技术作为人工智能领域的关键一环,正逐步渗透到场景安全、自动驾驶、安防监控等多个行业,展现出其无可估量的应用潜力。然而,当技术触角延伸至更加复杂且多变的真实世界场景时,传统图像识别技术的局限性便逐渐显露。这些局限主要面对多目标参与的复杂场景,传统的模型往往很难判断不同目标间的联动关系,只能通过简单的逻辑及分类来实现检测,识别准确率非常低。更为棘手的是,复杂场景图像数据标注非常繁琐,且高质量的标注数据往往难以大规模获取,特别是在一些专业或稀有领域,这无疑为图像理解技术的发展设置了重重障碍。

2、在此背景下,clip模型的出现,为图像理解领域带来了革新。它通过预先在大量图像-文本对上进行无监督学习,建立起图像特征与自然语言描述之间的高效映射关系,从而能够在无需特定任务微调的情况下,对图像内容进行一定程度的理解和分类。然而,clip模型在针对复杂场景的分析理解上,仍存在准确性较差的问题。

3、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。

2、本公开实施例提供了一种基于自适应提示词的开放环境图像分析方法、装置及存储介质。

3、在一些实施例中,基于自适应提示词的开放环境图像分析方法,可以包括:

4、获取不同场景、不同角度、不同采集时段下目标事件的多张图像,并将多张图像依次输入clip模型得到每张图像的向量表示,得到一个向量集v;

5、使用k-means聚类算法将向量集v聚成k个簇,每个簇对应一个聚类中心分别为c1,c2,...,ck,聚类中心对应的高维向量组vimg用于表示目标事件的语义特征;

6、基于大语言模型对每个图像的初始表述进行分析,得到对应的提示词;

7、使用clip模型,将提示词映射到高维向量空间,得到文本向量集vtext,用于表示提示词的语义特征;

8、两两计算聚类中心对应的高维向量组vimg与文本向量集vtext的欧式距离作为其相似度得分;

9、根据平均相似度得分满足预设条件的提示词与待测图像通过clip模型进行向量化,计算其语义相似度得分;

10、若待测图像与满足预设条件的提示词的相似度得分的算术平均值超过阈值,则判定待测图像中存在目标事件对应的行为。

11、在一些实施例中,两两计算聚类中心对应的高维向量组vimg与文本向量集vtext的欧式距离,满足公式:

12、

13、其中,m表示向量的维度,xm、ym分别表示两个向量的第m维元素,dij表示vimg中第i个向量与vtext中第j个向量的欧式距离。

14、在一些实施例中,将欧式距离作为其相似度得分,满足公式:

15、

16、其中sj表示vtext中第j个元素的平均相似度得分,k表示vimg中的向量总数。

17、在一些实施例中,确定平均相似度得分满足预设条件的提示词,包括:

18、取平均相似度得分按照由高到低的前z个提示词作为每个图像的新初始表述,基于大语言模型对每个图像的新初始表述进行分析,得到对应更新后的提示词;

19、并基于更新后的提示词得到更新后的文本向量集vtext,两两计算聚类中心对应的高维向量组vimg与更新后的文本向量集vtext的欧式距离作为其相似度得分,不断循环,直至前z个提示词的平均相似度得分均大于设定的分数阈值。

20、在一些实施例中,基于自适应提示词的开放环境图像分析装置,可以包括:

21、获取模块,用于获取不同场景、不同角度、不同采集时段下目标事件的多张图像,并将多张图像依次输入clip模型得到每张图像的向量表示,得到一个向量集v;

22、处理模块,用于使用k-means聚类算法将向量集v聚成k个簇,每个簇对应一个聚类中心分别为c1,c2,...,ck,聚类中心对应的高维向量组vimg用于表示目标事件的语义特征;

23、分析模块,用于基于大语言模型对每个图像的初始表述进行分析,得到对应的提示词;

24、处理模块,还用于使用clip模型,将提示词映射到高维向量空间,得到文本向量集vtext,用于表示提示词的语义特征;

25、处理模块,还用于两两计算聚类中心对应的高维向量组vimg与文本向量集vtext的欧式距离作为其相似度得分;

26、处理模块,还用于根据平均相似度得分满足预设条件的提示词与待测图像通过clip模型进行向量化,计算其语义相似度得分;

27、处理模块,还用于若待测图像与满足预设条件的提示词的相似度得分的算术平均值超过阈值,则判定待测图像中存在目标事件对应的行为。

28、在一些实施例中,两两计算聚类中心对应的高维向量组vimg与文本向量集vtext的欧式距离,满足公式:

29、

30、其中,m表示向量的维度,xm、ym分别表示两个向量的第m维元素,dij表示vimg中第i个向量与vtext中第j个向量的欧式距离。

31、在一些实施例中,将欧式距离作为其相似度得分,满足公式:

32、

33、其中sj表示vtext中第j个元素的平均相似度得分,k表示vimg中的向量总数。

34、在一些实施例中,该存储介质,存储有程序指令,其特征在于,程序指令在运行时,执行上述实施例中基于自适应提示词的开放环境图像分析方法。

35、本公开实施例提供的基于自适应提示词的开放环境图像分析方法、装置及存储介质,可以实现以下技术效果:

36、通过动态优化提示词集与图像特征向量之间的语义匹配度,实现了在开放环境下对图像内容更为精细和准确地理解判断。

37、利用自适应提示词策略和clip模型的跨模态特性,减少了对大规模人工标注数据的依赖。通过自动扩展和优化提示词,能够在有限的监督下学习到更广泛且深入的图像-文本关联知识,进而高效准确适应新的复杂场景。

38、以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。



技术特征:

1.一种基于自适应提示词的开放环境图像分析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述两两计算聚类中心对应的高维向量组vimg与文本向量集vtext的欧式距离,满足公式:

3.根据权利要求2所述的方法,其特征在于,将所述欧式距离作为其相似度得分,满足公式:

4.根据权利要求1所述的方法,其特征在于,确定所述平均相似度得分满足预设条件的提示词,包括:

5.一种基于自适应提示词的开放环境图像分析装置,其特征在于,所述装置包括:

6.根据权利要求5所述的装置,其特征在于,所述两两计算聚类中心对应的高维向量组vimg与文本向量集vtext的欧式距离,满足公式:

7.根据权利要求6所述的装置,其特征在于,将所述欧式距离作为其相似度得分,满足公式:

8.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如权利要求1至4任一项所述的基于自适应提示词的开放环境图像分析方法。


技术总结
本申请涉及计算机视觉技术领域,公开了一种基于自适应提示词的开放环境图像分析方法、装置,通过融合CLIP模型的跨模态优势与自适应提示词的动态生成机制,能够根据输入图像的内容智能调整最相关的文本提示,显著提升识别效果,此外通过动态优化提示词与图像特征的匹配程度,无需大量人工标注数据即可在新场景下展现出良好的泛化能力,极大提高了图像分析理解的灵活性和准确性。

技术研发人员:王光鑫,李雪,陈其宾,姜凯,李锐
受保护的技术使用者:山东浪潮科学研究院有限公司
技术研发日:
技术公布日:2024/9/29
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1