一种图像检索方法、装置、设备及存储介质与流程

文档序号：26050726发布日期：2021-07-27 15:25阅读：119来源：国知局

本申请涉及图像处理
技术领域：
，具体涉及一种图像检索方法、装置、设备及存储介质。
背景技术：
：目标检测，是一种基于目标几何和统计特征的图像定位与识别，能识别出图像中物体的类别、位置和大小。它将目标的定位和识别合二为一，目标检测作为在大量的视觉信息中来定位区域或目标的一种处理过程被应用于多项领域当中。近年来，图像检索技术广泛应用于如商品、商标、艺术品、地标建筑室内室外等检索服务中。现有技术中的较为成熟的技术一般为基于输入图像获取其图像特征，并进一步经由特征进行检索，最终输出与输入图像相似的图像。如直接将待测目标的整幅图像直接输入到神经网络中，通过检测并裁剪感兴趣目标区域而形成感兴趣的子图像，并对子图像分别提取并融合图像特征来进行检索，但是该方法一般需要使用多个神经网络独立的提取多个子图像的特征，深度神经网络应用的过程包括首先获取样本，标注样本，然后用样本来训练神经网络，让神经网络学习到样本的特征，最后在训练好的神经网络上预测新的样本。其可以对输入图像上的每个像素进行分类，可以对输出图像上从像素级别区别哪些像素是背景，哪些像素属于哪种类型的缺陷，因而其计算量大，效率不高，检索速度慢，并且一般的图像中都会带有干扰，如背景，遮挡，光照，拍摄角度等，这些都会对神经网络产生影响，成为检索目标重要的障碍，降低检索准确性。技术实现要素：本申请实施例的目的在于提出一种图像检索方法、装置、设备及存储介质，用于解决现有技术中裁剪形成多个子图像，干扰信息多，计算量大，并且检索速度慢准确性低的技术问题。为了解决上述技术问题，本申请实施例提供一种图像检索方法，包括下述步骤：获取待测目标图像的置信度和检测框；提取所述待测目标图像的局部特征，并获取所述局部特征所对应的感受野；根据所述检测框和感受野，计算所述局部特征的加权比重；根据所述所述置信度，对加权后的所述局部特征融合得到所述待测目标图像的全局特征；根据所述全局特征进行图像检索。进一步地，所述根据所述检测框和感受野，计算所述局部特征的加权比重的步骤，包括：根据所述检测框和感受野，计算所述局部特征的交并比；根据所述交并比，计算所述局部特征的注意得分；根据所述注意力得分计算所述局部特征的注意力权重。进一步地，根据以下公式计算所述局部特征的交并比：iou＝|a∩b|/a∪b|；其中，iou为所述局部特征的交并比，a为所述局部特征的感受野，b为检测框。进一步地，所述根据公式①或公式②计算所述局部特征的注意得分：a＝iou①；a＝1-iou②；其中，a为所述局部特征的注意得分。进一步地，所述根据所述注意力得分计算所述局部特征的注意力权重的步骤，包括：获取每个所述局部特征的注意力得分；根据每个所述局部特征的注意力得分和所有局部特征的注意力得分的占比计算每个所述局部特征的注意力权重λ：进一步地，所述根据所述注意力得分计算所述局部特征的注意力权重的步骤，还包括：根据置信度和所述局部特征的注意力得分计算每个所述局部特征的注意力权重：λ＝softmax(s*a)；其中s为所述待测目标图像的置信度。进一步地，所述根据所述置信度，对加权后的所述局部特征融合得到所述待测目标图像的全局特征，包括：根据以下公式③获取加权后每个所述局部特征对应的注意力局部特征；根据所述置信度，通过公式④和公式⑤对所述注意力局部特征yi进行加权融合得到全局特征：yi＝xi*λ③；f＝(∑|yi|p)1/p④；p＝3s⑤；其中，xi为所提取的局部特征，yi为加权后的注意力局部特征，f为加权融合得到的全局特征。为了解决上述技术问题，本申请实施例还提供一种图像检索装置，包括：获取模块，用于获取待测目标图像的置信度和检测框；局部特征提取模块，用于提取所述待测目标图像的局部特征，并获取所述局部特征所对应的感受野；加权计算模块，用于根据所述检测框和感受野，计算所述局部特征的加权比重；融合模块，用于根据所述所述置信度，对加权后的所述局部特征融合得到所述待测目标图像的全局特征；检索模块，用于根据所述全局特征进行图像检索。为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：一种计算机设备，包括存储器、处理器和网络接口，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述的图像检索方法的步骤。为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的图像检索方法的步骤。与现有技术相比，本申请实施例主要有以下有益效果：本申请实施例提供一种图像检索方法，包括获取待测目标图像的置信度和检测框；提取所述待测目标图像的局部特征，并获取所述局部特征所对应的感受野；根据所述检测框和感受野，计算所述局部特征的加权比重；根据所述所述置信度，对加权后的所述局部特征融合得到所述待测目标图像的全局特征；根据所述全局特征进行图像检索。本申请所提供的图像检索方法通过获取和利用目标检测模型产生的检测置信度和检测框信息，通过局部特征的感受野，计算感受野和检测框的交并比，得到注意力得分图，利用注意力机制加权产生注意力局部特征，提高感兴趣目标的特征，抑制背景干扰。本申请通过利用检测置信度加权融合注意力局部特征得到全局特征进行图像检索。相较于现有技术通过检测并裁剪感兴趣目标区域而形成感兴趣的子图像，可避免裁剪多个子图像，减少背景的负面影响，提高了图像检索准确率及检索效率。附图说明为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1为本发明实施例可以应用于其中的示例性系统架构图；图2为本申请的图像检索方法的流程示意图；图3为申请的图像检索方法的应用系统的结构示意图；图4为本申请的图像检索装置的一个实施例的结构示意图；图5是根据本申请的计算机设备的一个实施例的结构示意图。附图标记：100系统架构101、102、103终端设备104网络105服务器301目标检测模型302检索模型303局部特征提取模块304注意力模块305全局特征融合模块306检索模块4图像检索装置401获取模块402局部特征提取模块403加权计算模块404融合模块405检索模块5计算机设备51存储器52处理器53网络接口具体实施方式除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的
技术领域：
的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。为了使本
技术领域：
的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等，操作图像检索方法的业务及应用。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品，例如智能手机、平板电脑等，所述移动电子产品可以采用任意操作系统，如android操作系统、ios操作系统等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(asic)、可编程门阵列(fpga)、数字处理器(dsp)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(cloudcomputing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、vpn网络、无线自组织网络(adhoc网络)等。当然，本领域技术人员应能理解上述终端设备仅为举例，其他现有的或今后可能出现的终端设备如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。服务器105可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。其也可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。需要说明的是，本申请实施例所提供的图像检索方法一般由终端设备执行，相应地，图像检索装置一般设置于终端设备中。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。请参考图2，示出了根据本申请的一种图像检索方法的一个实施例的流程图。所述的图像检索方法，包括以下步骤：201：获取待测目标图像的置信度和检测框。在本发明实施例中，所述终端设备可以从本地数据库或通过有线连接方式或者无线连接方式从通信连接的各种电子设备获取待测目标图像，然后通过目标检测模型对待测目标进行检测，获取待测目标的检测信息。具体地，可将所述待测目标的图像输入所述目标检测模型中，所述目标检测模型分析待测目标图像中目标的位置信息和对所述待测目标进行分类，获取所述待测目标图像的置信度s和检测框b等检测信息。202：提取所述待测目标图像的局部特征，并获取所述局部特征所对应的感受野。在本发明实施例中，所述终端设备可以将所述待测目标图像输入特征提取模型中提取所述待测目标图像中的局部特征x，对所提取的局部特征x可通过注意力模块的网络结构，计算得到每个提取的所述局部特征的感受野a，所述感受野a为所述局部特征的像素点在所述特征提取模型的网络结构中某层的特征图上的像素点在输入图像中映射的区域大小。在一些实现方式中，可以通过所述局部特征x的中心位置和它的尺寸大小来描述。如本申请实施例可采用cnn(convolutionalneuralnetworks，卷积神经网络)计算所述局部特征x的所述感受野，对各个维度和每个层次计算每一层的感受野大小。需要说明的是，本申请还可通过其他网络结构提取所述待测目标的局部特征，可根据具体的网络结构得到对应的感受野，本申请对此不作限定。203：根据所述检测框和感受野，计算所述局部特征的加权比重。在本发明实施例中，可根据检测框b和感受野a，计算感受野跟检测框的交并比iou(intersectionoverunion)：iou＝|a∩b|/a∪b|。所述交并比是所述局部特征的像素点在在输入图像中映射的区域大小与所述待测目标图像的检测框的交叠率。根据每个所述局部特征x对应的所述感受野和所述检测框的交并比，可计算所述局部特征x的注意得分a，并可得到由每个所述局部特征x的注意力得分形成的所述待测目标图像的注意力得分图，从所述注意力得分图可出所述待测目标图像中每个局部区域的重要程度。在本发明的一个实施中，可以将所述交并比作为所述局部特征的注意力得分，即a＝iou，此注意力得分计算方法，更适用检索所述待测目标图像中的特定前景物体。在本发明的一个实施中，所述局部特征的注意力得分为：a＝1-iou，此时，更适用检索所述待测目标图像中的背景部分，如公共背景。进一步地，根据所述注意力得分通过注意力机制对所述待测目标图像中的每个所述局部特征x进行加权分析，得到每个所述局部特征的注意力权重λ，经过加权分析后得到注意力局部特征y，如在一种可能的实施例方式中，y＝x*λ。经过加权分析后的所述注意力局部特征权重y可以有效抑制背景特征，加强目标区域的特征。204：根据所述所述置信度，对加权后的所述局部特征融合得到所述待测目标图像的全局特征。经过步骤201-203得到加权分析处理后的每个注意力局部特征yi，对注意力局部特征yi进行融合，得到包含局部图像重要性信息的全局特征，再通过所述置信度s对每个所述注意力局部特征yi进行加权融合得到全局特征f：f＝(∑|yi|p)1/p，p＝3s；需要说明的是，当所述置信度s比较小接近0，也就是无明显主要目标时，对每个所述局部特征近似平均处理。当s接近1，也就是目标检测信息可信度越高时，可以在注意力局部特征y的基础上进一步强调目标区域的特征，提高所述待测目标图像中感兴趣目标的特征，降低背景或其他非目标区域特征的干扰。205：根据所述全局特征进行图像检索。根据步骤204融合后的全局特征进行检索，此时所述待测目标的可以有效抑制背景特征，加强目标区域的特征，降低了非目标区域的干扰，从而提高所述待测目标图像检索的准确率。本申请所提供的图像检索方法通过获取和利用目标检测模型产生的检测置信度和检测框信息，通过局部特征的感受野，计算感受野和检测框的交并比，得到注意力得分图，利用注意力机制加权产生注意力局部特征，提高感兴趣目标的特征，抑制背景干扰。本申请通过利用检测置信度加权融合注意力局部特征得到全局特征进行图像检索。相较于现有技术通过检测并裁剪感兴趣目标区域而形成感兴趣的子图像，可避免裁剪多个子图像，减少背景的负面影响，提高了图像检索准确率及检索效率。请参阅图3，本申请所述图像检索方法所应用的一种神经网络系统的结构示意图，如图所示，该系统应用目标检测模型301和检索模型302。其中，所述待测目标图像输入到所述目标检测模型301中，输出所述测目标图像的置信度和检测框等检测信息。所述检测模型302首先通过其中的局部特征提取模块303从所述待测图像目标的图像中提取局部特征，通过所述注意力模块304从所述目标检测模型301获取的置信度和检测框对所提取的局部特征进行加权分析，得到注意力得分图，利用注意力机制加权产生注意力局部特征，提高感兴趣目标的特征，抑制背景干扰。再经过全局特征融合模块305利用检测置信度加权融合注意力局部特征得到全局特征，检索模块306根据全局特征进行图像检索。本申请可避免裁剪多个子图像，减少背景的负面影响，提高了图像检索准确率及检索效率。具体地，所述目标检测模型301被配置为对输入图像进行目标检测，产生目标检测信息，终端设备输入的所述待测目标图像经由目标检测模型301进行处理，产生目标检测的置信度s和检测框b。同时，所述待测目标图像由局部特征提取模块303提取局部特征x∈rc*h*w，x可以看作由h*w个维度为c的局部特征向量x组成的特征集合x＝{x1,x2,...xn}n＝h*w，所述注意力模块从所述目标检测模型获取检测框等检测信息，并根据所述局部特征提取模块303所使用的网络结构，计算得到每个局部特征x所对应的感受野a。在一种可实现的方式中，所述感受野a的计算方式为：其中，所述ak表示第k层的感受野，f表示第k层的滤波器大小，si表示第i层的滤波器步长。进一步的，根据检测框b和感受野a，计算感受野跟检测框的交并比iou为：iou＝|a∩b|/|a∪b|。需要说明的是，本申请实施例所述待测目标图像类型、及其设定方式的限定，所述目标检测模块301检测的检测框个数、形状等也不做限定。在其他的一些课实现的实施方式中，当所述目标检测模型301输出的检测框b多个检测框组成的集合b＝{b1,b2,…bn}时，所述感受野跟检测框的交并比iou为：iou＝∑|a∩b|/∑|a∪b|。进一步地，所述注意力模块304根据每个局部特征x对应的感受野a跟检测框的交并比，得到注意力得分a，并形成注意力得分图，从所述注意力得分图中的注意力得分分布可看出每个所述局部区域的重要程度。所述注意力模块304根据所述注意力得分进一步对所述局部特征进行加权分析，得到所述局部特征的注意力权重。一种可是实现的方式中，所述注意力权重为：通过每个所述局部特征的注意力得分与所有局部特征的注意力得分之和的比值作为注意力权重，适用于检索特定前景物体。在其他实施方式中，根据置信度和所述局部特征的注意力得分计算每个所述局部特征的注意力权重：λ＝softmax(s*a)；通过检测置信度s对注意力得分a进行尺度变换后计算权重，能有效平滑注意力权重的分布。根据注意力权重λ对局部特征进行加权，得到注意力局部特征y∈rc*h*w，yi＝x*λ。所述注意力局部特征可以有效抑制背景特征，加强目标区域的特征。再通过所述全局特征融合模块305对每个注意力局部特征yi进行融合，得到包含局部图像重要性信息的全局特征。具体地，所述全局特征融合模块利用置信度s对注意力局部特征yi进行加权融合得到全局特征f：f＝(∑|yi|p)1/p；p＝3s。当所述置信度s比较小接近0，也就是无明显主要目标时，对每个所述局部特征近似平均处理。当s接近1，也就是目标检测信息可信度越高时，可以在注意力局部特征y的基础上进一步强调目标区域的特征，提高所述待测目标图像中感兴趣目标的特征，降低背景或其他非目标区域特征的干扰。为解决上述技术问题，如图4所示，本申请实施例还提供图像检索装置4。图像检索装置4，包括：获取模块401，用于获取待测目标图像的置信度和检测框；局部特征提取模块402，用于提取所述待测目标图像的局部特征，并获取所述局部特征所对应的感受野；加权计算模块403，用于根据所述检测框和感受野，计算所述局部特征的加权比重；融合模块404，用于根据所述所述置信度，对加权后的所述局部特征融合得到所述待测目标图像的全局特征；检索模块405，用于根据所述全局特征进行图像检索。所述待测目标图像输入到所述获取模块401，通过目标检测模型计算输出所述测目标图像的置信度和检测框等检测信息。所述局部特征提取模块从所述待测图像目标的图像中提取局部特征，所述加权计算模块403从所述目标检测模型获取的置信度和检测框对所提取的局部特征进行加权分析，得到注意力得分图，利用注意力机制加权产生注意力局部特征，提高感兴趣目标的特征，抑制背景干扰。再经过所述融合模块404利用检测置信度加权融合注意力局部特征得到全局特征通过检索模块405进行图像检索。本申请可避免裁剪多个子图像，减少背景的负面影响，提高了图像检索准确率及检索效率。。所述图像检索装置4还包括显示模块，所述显示模块与所述调整模块相连，所述显示模块用于显示所述图像检索装置的数据信息及操作页面。所述图像检索装置4还可以包括输入模块，所述输入模块与所述显示模块相连，所述输入模块可包括按键,可用于输入用户id的账号、密码、名称等信息，所述图像检索过程操作页面可以在所述图像检索装置中的显示模块中显示，并且所述显示模块还可以显示所述用户的其他信息，并将此信息存储起来，方便用户随时进行查看。需要说明的是，本实施例的装置，与方法实施例的属于同一构思，其具体实现过程详细见方法实施例，且方法实施例中的技术特征在本实施例中均对应适用，这里不再赘述。为解决上述技术问题，本申请实施例还提供计算机设备5。具体请参阅图5，(applicationspecificintegratedcircuit，asic)、可编程门阵列(field－programmablegatearray，fpga)、数字处理器(digitalsignalprocessor，dsp)、嵌入式设备等。所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。所述存储器51至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器51可以是所述计算机设备5的内部存储单元，例如该计算机设备5的硬盘或内存。在另一些实施例中，所述存储器51也可以是所述计算机设备5的外部存储设备，例如该计算机设备5上配备的插接式硬盘，智能存储卡(smartmediacard，smc)，安全数字(securedigital，sd)卡，闪存卡(flashcard)等。当然，所述存储器51还可以既包括所述计算机设备5的内部存储单元也包括其外部存储设备。本实施例中，所述存储器51通常用于存储安装于所述计算机设备5的操作基金系统和各类应用软件，例如图像检索方法的程序代码等。此外，所述存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。所述处理器52在一些实施例中可以是中央处理器(centralprocessingunit，cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制所述计算机设备5的总体操作。本实施例中，所述处理器52用于运行所述存储器51中存储的程序代码或者处理数据，例如运行所述图像检索方法的程序代码。所述网络接口53可包括无线网络接口或有线网络接口，该网络接口53通常用于在所述计算机设备5与其他电子设备之间建立通信连接。本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有图像检索程序，所述图像检索程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的图像检索方法的步骤。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的
技术领域：
，均同理在本申请专利保护范围之内。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孔明明
技术所有人：深圳依时货拉拉科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。