跨模态视觉对象检索方法及装置

文档序号：31576957发布日期：2022-09-20 23:48阅读：56来源：国知局

1.本技术涉及立体视觉对象跨模态检索技术领域，特别涉及一种跨模态视觉对象检索方法及装置。

背景技术：

2.相关技术中，不同与二维视觉对象和立体视觉对象通常有着多种表达形式，例如：点云、体素、多视图、网格等，这些表示形式间有着天然的语义鸿沟，并且获取方法也不尽相同。当存在立体视觉对象的一种模态表示时，针对如何去检索到相似对象的另一种模态表示，现有的大部分方法尝试将不同模态的表示直接拉近到同一特征空间下，并取得了一定的效果。
3.然而，在相关技术中，由于立体视觉对象的跨模态检索方法不同模态表示形式间有天然的语义鸿沟，导致无法充分利用同一物体不同模态表示间的关联性和互补性，从而无法训练不同模态的表示映射到同一表示空间的投影矩阵，降低了跨模态视觉对象检索的性能精度，亟待改进。

技术实现要素：

4.本技术提供一种跨模态视觉对象检索方法及装置，以解决相关技术中未能充分利用同一物体不同模态表示间的关联性和互补性，从而无法训练不同模态的表示映射到同一表示空间的投影矩阵，降低了跨模态视觉对象检索的性能精度等问题。
5.本技术第一方面实施例提供一种跨模态视觉对象检索方法，包括以下步骤：获取待查询立体视觉对象的多模态表示；将所述多模态表示输入至预先训练的模型中，得到所述待查询立体视觉对象在预设特征空间下的特征表示；计算所述特征表示与预设特征表示之间的距离，并利用所述距离输出所述待查询立体视觉对象的最终检索列表。
6.可选地，在本技术的一个实施例中，在将所述多模态表示输入至所述预先训练的模型之前，还包括：根据立体视觉对象的多模态表示的编码信息提取所述多模态的嵌入表示；根据所述多模态的嵌入表示构建模态内的多尺度超图结构，并基于所述多尺度超图结构，在不同模态间构建模态间消息传播通路；利用所述模态间消息传播通路将所述多模态的嵌入表示投影到所述预设特征空间，得到不同模态的特征表示；基于所述不同模态的特征表示对模型进行迭代训练，生成所述预先训练的模型。
7.可选地，在本技术的一个实施例中，所述根据立体视觉对象的多模态表示的编码信息提取所述多模态的嵌入表示，包括：确定所述立体视觉对象的数据模态；基于构建的模态特征的自编码网络，将所述不同模态的特征嵌入映射成相同维度的向量，得到所述多模态的嵌入表示。
8.可选地，在本技术的一个实施例中，所述根据所述多模态的嵌入表示构建模态内的多尺度超图结构，包括：构建所述每个模态的基于k近邻的超边组和基于距离的超边组；融合所述基于k近邻的超边组和基于距离的超边组，生成所任一模态内的多尺度超图结构。
9.可选地，在本技术的一个实施例中，所述利用所述模态间消息传播通路将所述多模态的嵌入表示投影到所述预设特征空间，包括：对所述任一模态，构建从所述任一模态投影到所述预设特征空间的投影矩阵，基于所述投影矩阵，嵌入用于评估两个嵌入表示的距离的距离度量函数。
10.可选地，在本技术的一个实施例中，所述基于所述不同模态的特征表示对模型进行迭代训练，生成所述预先训练的模型，包括：从由不同模态的特征表示得到的训练样本中采样多个正负样本对；对每个正负样本对三元组分别计算三元组损失及可训练参数的梯度，并将不同层的梯度进行回传，更新网络模型的参数，直至达到收敛条件，得到所述预先训练的模型。
11.本技术第二方面实施例提供一种跨模态视觉对象检索装置，包括：获取模块，用于获取待查询立体视觉对象的多模态表示；输入模块，用于将所述多模态表示输入至预先训练的模型中，得到所述待查询立体视觉对象在预设特征空间下的特征表示；输出模块，用于计算所述特征表示与预设特征表示之间的距离，并利用所述距离输出所述待查询立体视觉对象的最终检索列表。
12.可选地，在本技术的一个实施例中，本技术实施例的装置还包括：提取模块，用于根据立体视觉对象的多模态表示的编码信息提取所述多模态的嵌入表示；构建模块，用于根据所述多模态的嵌入表示构建模态内的多尺度超图结构，并基于所述多尺度超图结构，在不同模态间构建模态间消息传播通路；投影模块，用于利用所述模态间消息传播通路将所述多模态的嵌入表示投影到所述预设特征空间，得到不同模态的特征表示；生成模块，用于基于所述不同模态的特征表示对模型进行迭代训练，生成所述预先训练的模型。
13.可选地，在本技术的一个实施例中，所述提取模块包括：确定单元，用于确定所述立体视觉对象的数据模态；映射单元，用于基于构建的模态特征的自编码网络，将所述不同模态的特征嵌入映射成相同维度的向量，得到所述多模态的嵌入表示。
14.可选地，在本技术的一个实施例中，所述构建模块包括：构建单元，用于构建所述每个模态的基于k近邻的超边组和基于距离的超边组；融合单元，用于融合所述基于k近邻的超边组和基于距离的超边组，生成所述任一模态内的多尺度超图结构。
15.可选地，在本技术的一个实施例中，所述投影模块包括：投影单元，用于对所述任一模态，构建从所述任一模态投影到所述预设特征空间的投影矩阵；嵌入单元，用于基于所述投影矩阵，嵌入用于评估两个嵌入表示的距离的距离度量函数。
16.可选地，在本技术的一个实施例中，所述生成模块包括：采样单元，用于从由不同模态的特征表示得到的训练样本中采样多个正负样本对；更新单元，用于对每个正负样本对三元组分别计算三元组损失及可训练参数的梯度，并将不同层的梯度进行回传，更新网络模型的参数，直至达到收敛条件，得到所述预先训练的模型。
17.本技术第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的跨模态视觉对象检索方法。
18.本技术第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上述实施例所述的跨模态视觉对象检索方法。
19.本技术实施例可以基于待查询立体视觉对象的多模态表示，从而得到待查询立体视觉对象在预设特征空间下的特征表示，进而计算特征表示与预设特征表示之间的距离，并利用距离输出待查询立体视觉对象的最终检索列表，充分利用多模态表示的同一性和协同性，进一步提升跨模态视觉对象检索的性能，即基于超图的多模态特征表示学习的方法，可以建立多模态表示间的信息通路，从而充分利用多模态表示的同一性和协同性，可以训练不同模态的表示映射到同一表示空间的投影矩阵，有效提升跨模态视觉对象检索的性能精度。由此，解决了相关技术中未能充分利用同一物体不同模态表示间的关联性和互补性，导致无法训练不同模态的表示映射到同一表示空间的投影矩阵，降低了跨模态视觉对象检索的性能精度等问题。
20.本技术附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到。
附图说明
21.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
22.图1为根据本技术实施例提供的一种跨模态视觉对象检索方法方法的流程图；
23.图2为根据本技术一个实施例提供的基于超图的跨模态视觉对象检索方法的流程图；
24.图3为根据本技术实施例的跨模态视觉对象检索方法装置的结构示意图；
25.图4为根据本技术实施例提供的电子设备的结构示意图。
具体实施方式
26.下面详细描述本技术的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本技术，而不能理解为对本技术的限制。
27.下面参考附图描述本技术实施例的跨模态视觉对象检索方法及装置。针对上述背景技术中心提到的相关技术中未能充分利用同一物体不同模态表示间的关联性和互补性，导致无法训练不同模态的表示映射到同一表示空间的投影矩阵，降低了跨模态视觉对象检索的性能精度的问题，本技术提供了一种跨模态视觉对象检索方法，在该方法中，本技术实施例可以基于待查询立体视觉对象的多模态表示，从而得到待查询立体视觉对象在预设特征空间下的特征表示，进而计算特征表示与预设特征表示之间的距离，并利用距离输出待查询立体视觉对象的最终检索列表，充分利用多模态表示的同一性和协同性，进一步提升跨模态视觉对象检索的性能，即基于超图的多模态特征表示学习的方法，可以建立多模态表示间的信息通路，从而充分利用多模态表示的同一性和协同性，可以训练不同模态的表示映射到同一表示空间的投影矩阵，进一步提升跨模态视觉对象检索的性能精度。由此，解决了相关技术中未能充分利用同一物体不同模态表示间的关联性和互补性，导致无法训练不同模态的表示映射到同一表示空间的投影矩阵，降低了跨模态视觉对象检索的性能精度等问题。
28.具体而言，图1为本技术实施例所提供的一种跨模态视觉对象检索方法的流程示
意图。
29.如图1所示，该跨模态视觉对象检索方法包括以下步骤：
30.在步骤s101中，获取待查询立体视觉对象的多模态表示。
31.可以理解的是，本技术实施例可以在在线应用阶段，首先获取待查询立体视觉对象的多模态表示，如对立体视觉对象的多模态表示分别进行编码，提取多模态的嵌入表示，从而通过学习多模态立体视觉对象表示的同一性和协同性，提升了单一模态嵌入表示的刻画能力。
32.在步骤s102中，将多模态表示输入至预先训练的模型中，得到待查询立体视觉对象在预设特征空间下的特征表示。
33.具体而言，本技术实施例在得到多模态表示之后，将多模态表示输入至离线训练阶段训练完成的模型中，下面会对如何训练模型进行详细描述，从而获取立体视觉对象在预设特征空间下的特征表示，如构建模态内的多尺度超图结构进行获取，充分利用多模态表示的同一性和协同性，进一步提升多模态视觉对象检索的性能精度。
34.可选地，在本技术的一个实施例中，在将多模态表示输入至预先训练的模型之前，还包括：根据立体视觉对象的多模态表示的编码信息提取多模态的嵌入表示；根据多模态的嵌入表示构建模态内的多尺度超图结构，并基于多尺度超图结构，在不同模态间构建模态间消息传播通路；利用模态间消息传播通路将多模态的嵌入表示投影到预设特征空间，得到不同模态的特征表示；基于不同模态的特征表示对模型进行迭代训练，生成预先训练的模型。
35.可以理解的是，本技术实施例可以首先对立体视觉对象的多模态表示分别进行编码，提取多模态的嵌入表示，并且针对每个模态表示，构建模态内的多尺度超图结构，并在不同模态间构建模态间消息传播通路，强化多模态特征表示的互补学习，以及将多个模态的表示投影到同一特征空间，使得在该空间下跨模态表示特征的距离计算是有意义的，最后构造检索任务，对模型进行迭代训练，并将训练好的模型用于未知模态表示间的检索推理。
36.由此，本技术实施例可以采用超图建模多模态内的复杂关联，从而构建消息传播通路学习模态间表示的互补性，进而有效提升了多模态视觉对象检索的性能，并设计了可训练的多模态投影矩阵，能将不同模态的特征表示投影到公共特征表示空间，克服了不同模态表示间的语义鸿沟。
37.其中，在本技术的一个实施例中，根据立体视觉对象的多模态表示的编码信息提取多模态的嵌入表示，包括：确定立体视觉对象的数据模态；基于构建的模态特征的自编码网络，将不同模态的特征嵌入映射成相同维度的向量，得到多模态的嵌入表示。
38.具体而言，在实际执行的过程中，本技术实施例可以明确立体视觉对象的数据模态，选择合适的模态表示模型进行学习，从而构建模态特征的自编码网络，将不同模态的特征嵌入映射成相同维度的向量，从而得到多模态的嵌入表示，通过学习多模态立体视觉对象表示的同一性和协同性，进一步提升了单一模态嵌入表示的刻画能力，从而使模态内立体视觉对象的关联性可以被充分利用。
39.进一步地，在本技术的一个实施例中，根据多模态的嵌入表示构建模态内的多尺度超图结构，包括：构建每个模态的基于k近邻的超边组和基于距离的超边组；融合基于k近
邻的超边组和基于距离的超边组，生成所任一模态内的多尺度超图结构。
40.举例而言，本技术实施例可以针对每个模态构建基于k近邻的超边组，同时针对每个模态构建基于距离的超边组，并且针对每个模态融合多尺度的超边组生成模态i的超图表示，即：
41.gi＝(vi；ei；wi)，
42.其中，gi是模态i生成的超图结构表示，vi是模态i中所包含的所有数据点的集合，ei是通过模态i中数据的关联构建出来的超边的集合，wi中包含了超边集合ei中每一个超边对应的权重。
43.可选地，在本技术的一个实施例中，利用模态间消息传播通路将多模态的嵌入表示投影到预设特征空间，包括：对任一模态，构建从任一模态投影到预设特征空间的投影矩阵，基于投影矩阵，嵌入用于评估两个嵌入表示的距离的距离度量函数。需要说明的是，本技术实施例可以利用在不同模态间构建模态间消息传播通路，从而强化多模态特征表示的互补学习。
44.具体而言，本技术实施例对模态i构建从i模态投影到预设特征空间如一个公共表示空间的一个投影矩阵pi，并且设计嵌入表示的距离度量函数d(a,b)，通过该度量函数评估两个嵌入表示的距离/相似度。
45.综上，本技术实施例采用超图建模模态内不同立体视觉对象间的复杂关联，在不同模态间构建模态间消息传播通路，强化多模态特征表示的互补学习，将多个模态的表示投影到同一特征空间，使得在该空间下跨模态表示特征的距离计算是有意义的，进而对多模态的表示学习不再孤立，有效提升样本间信息的利用率。
46.另外，在本技术的一个实施例中，基于不同模态的特征表示对模型进行迭代训练，生成预先训练的模型，包括：从由不同模态的特征表示得到的训练样本中采样多个正负样本对；对每个正负样本对三元组分别计算三元组损失及可训练参数的梯度，并将不同层的梯度进行回传，更新网络模型的参数，直至达到收敛条件，得到预先训练的模型。
47.作为一种可能实现的方式，本技术实施例可以从训练样本中批量采样出正负样本对，从而对每一个正负样本三元组分别计算三元组损失及可训练参数的梯度，将不同层的梯度进行回传，并更新网络模型的参数，直到模型收敛，最后得到预先训练的模型，从而降低了不同模态的表示映射到同一表示空间的投影矩阵的训练难度，并且充分利用模态内立体视觉对象的关联性，从而提升建模跨模态表示的同一性和协同性。
48.在步骤s103中，计算特征表示与预设特征表示之间的距离，并利用距离输出待查询立体视觉对象的最终检索列表。
49.可以理解的是，本技术实施例对于未知的立体视觉对象表示，提取其多模态表示，并将未知的立体视觉对象多模态表示输入到训练好的网络模型中得到公共表示空间下的特征表示，并计算与已由特征表示之间的距离，得到最终的检索列表，充分利用多模态表示的同一性和协同性，有效提升了跨模态视觉对象检索的性能。
50.具体而言，本技术实施例利用多模态的投影矩阵，该矩阵的目的在与将不同模态不同度量空间的嵌入表示投影到同一空间下，克服了多模态表示间的语义鸿沟，使得投影后的多模态特征可直接被度量，同时配合三元组的多模态检索损失函数，极大的提升了检索性能和精度。
51.如图2所示，下面以一个具体实施例对本技术实施例的检索方法的工作原理进行详细描述。
52.如图2所示，本技术实施例包括以下步骤：
53.步骤s1：对立体视觉对象的多模态表示分别进行编码，提取多模态的嵌入表示。
54.步骤s1.1：明确立体视觉对象的数据模态，选择合适的模态表示模型进行学习。针对点云数据本技术实施例使用pointnet作为基础网络。将中间层的512维的全局特征r1作为点云的特征表示。对于多视图数据，本技术实施例使用mvcnn(multi-view convolutional neural networks，多视图卷积神经网络)类似的架构，将resnet18作为基础网络，提取多视图下的512维全局特征r2。对于体素数据，本技术实施例使用voxnet作为基础网络，提取出6912维度全局特征r3。
55.步骤s1.2：构建模态特征的自编码网络，将不同模态的特征嵌入映射成相同维度的向量。虽然不同的特征所属的空间并不一致，但是维度一致可以使得检索时的距离计算更加的公平，因此这里设计了一个自编码的网络将多模态特征均编码到512维{x1,x2,x3}，如下：
[0056][0057]
其中，r1为中间层的512维的全局特征，r2为提取多视图下的512维全局特征，r3为提取出6912维度全局特征。
[0058]
其中，
[0059][0060]
其中，{x1,x2,x3}分别是三种模态的特征表示用于输入到后续的网络结构中用与跨模态检索。
[0061]
步骤s2：针对每个模态表示，构建模态内的多尺度超图结构。
[0062]
步骤s2.1：针对每个模态构建基于k近邻的超边组。生成的超边组为：
[0063][0064]
其中，m3指的是立体视觉对象的三种模态表示。
[0065]
步骤s2.2：针对每个模态构建基于距离的超边组。生成的超边组为：
[0066][0067]
其中，m3指的是立体视觉对象的三种模态表示。
[0068]
步骤s2.3：针对每个模态融合多尺度的超边组生成模态i的超图表示：
[0069]gi
＝(vi；ei；wi)，
[0070]
其中，gi是模态i生成的超图结构表示，vi是模态i中所包含的所有数据点的集合，ei是通过模态i中数据的关联构建出来的超边的集合，wi中包含了超边集合ei中每一个超边对应的权重。
[0071]
步骤s3：在不同模态间构建模态间消息传播通路，强化多模态特征表示的互补学习。对于三个模态节点特征{x1,x2,x3}与超图结构{g1,g2,g3}。本技术实施例使用如下的卷
积对模态内特征进行学习：
[0072][0073]
其中，θi为单独的可学习，hi为超图关联矩阵。
[0074]
针对每一个模态，均使用单独的可学习参数θi、超图关联矩阵hi。其中每个超图里节点的度和超边的度都有着如下的定义：
[0075][0076]
其中，d(v)指的是顶点v的度，d(e)指的是超边e的度，h(v,e)是h矩阵中对应项的值。
[0077]
接下来，本技术实施例定义了如下的多模态消息传播的结构：
[0078][0079]
其中，xi和xj分别是两种模态下的节点特征，θj→i和θi→j是从模态j到模态i与模态i到模态j的投影矩阵。
[0080]
步骤s4：将多个模态的表示投影到到预设特征空间，使得在预设特征空间下跨模态表示特征的距离计算是有意义的。
[0081]
步骤s4.1：构建从该模态投影到一个公共表示空间的一个投影矩阵pi。
[0082][0083]
其中，{z1,z2,z3}是最终投影到公共空间下的不同模态的特征表示。
[0084]
步骤s4.2：设计嵌入表示的距离度量函数d(a,b)，通过该度量函数评估两个嵌入表示的距离/相似度。
[0085]
步骤s5：构造检索任务，对模型进行迭代训练。并将训练好的模型用于未知模态表示间的检索推理。
[0086]
步骤s5.1：从训练样本中批量采样出正负样本对。
[0087]
步骤s5.2：对每一个正负样本三元组分别计算三元组损失及可训练参数的梯度。将不同层的梯度进行回传，并更新网络模型的参数。重复步骤s5.1和步骤s5.2直到模型收敛。
[0088]
步骤s5.3：对于未知的立体视觉对象表示，提取其多模态表示。
[0089]
步骤s5.4：将未知的立体视觉对象多模态表示输入到训练好的网络模型中得到公共表示空间下的特征表示，并计算与已由特征表示之间的距离，得到最终的检索列表。
[0090]
根据本技术实施例提出的跨模态视觉对象检索方法，可以根据待查询立体视觉对象的多模态表示，从而得到待查询立体视觉对象在预设特征空间下的特征表示，进而计算特征表示与预设特征表示之间的距离，并利用距离输出待查询立体视觉对象的最终检索列表，充分利用多模态表示的同一性和协同性，进一步提升跨模态视觉对象检索的性能，即基于超图的多模态特征表示学习的方法，可以建立多模态表示间的信息通路，从而充分利用
多模态表示的同一性和协同性，可以训练不同模态的表示映射到同一表示空间的投影矩阵，进一步提升跨模态视觉对象检索的性能精度。
[0091]
其次参照附图描述根据本技术实施例提出的跨模态视觉对象检索装置。
[0092]
图3是本技术实施例的跨模态视觉对象检索装置的方框示意图。
[0093]
如图3所示，该跨模态视觉对象检索装置10包括：获取模块100、输入模块200和输出模块300。
[0094]
具体地，获取模块100，用于获取待查询立体视觉对象的多模态表示。
[0095]
输入模块200，用于将多模态表示输入至预先训练的模型中，得到待查询立体视觉对象在预设特征空间下的特征表示。
[0096]
输出模块300，用于计算特征表示与预设特征表示之间的距离，并利用距离输出待查询立体视觉对象的最终检索列表。
[0097]
可选地，在本技术的一个实施例中，本技术实施例的装置10还包括：提取模块、构建模块、投影模块和生成模块。
[0098]
具体地，提取模块，用于根据立体视觉对象的多模态表示的编码信息提取多模态的嵌入表示。
[0099]
构建模块，用于根据多模态的嵌入表示构建模态内的多尺度超图结构，并基于多尺度超图结构，在不同模态间构建模态间消息传播通路。
[0100]
投影模块，用于利用模态间消息传播通路将多模态的嵌入表示投影到预设特征空间，得到不同模态的特征表示。
[0101]
生成模块，用于基于不同模态的特征表示对模型进行迭代训练，生成预先训练的模型。
[0102]
可选地，在本技术的一个实施例中，提取模块包括：确定单元和映射单元。
[0103]
其中，确定单元，用于确定立体视觉对象的数据模态。
[0104]
映射单元，用于基于构建的模态特征的自编码网络，将不同模态的特征嵌入映射成相同维度的向量，得到多模态的嵌入表示。
[0105]
可选地，在本技术的一个实施例中，构建模块包括：构建单元和融合单元。
[0106]
其中，构建单元，用于构建每个模态的基于k近邻的超边组和基于距离的超边组。
[0107]
融合单元，用于融合基于k近邻的超边组和基于距离的超边组，生成任一模态内的多尺度超图结构。
[0108]
可选地，在本技术的一个实施例中，投影模块包括：投影单元和嵌入单元。
[0109]
其中，投影单元，用于对任一模态，构建从任一模态投影到预设特征空间的投影矩阵。
[0110]
嵌入单元，用于基于投影矩阵，嵌入用于评估两个嵌入表示的距离的距离度量函数。
[0111]
可选地，在本技术的一个实施例中，生成模块包括：采样单元和更新单元。
[0112]
其中，采样单元，用于从由不同模态的特征表示得到的训练样本中采样多个正负样本对。
[0113]
更新单元，用于对每个正负样本对三元组分别计算三元组损失及可训练参数的梯度，并将不同层的梯度进行回传，更新网络模型的参数，直至达到收敛条件，得到预先训练
的模型。
[0114]
需要说明的是，前述对跨模态视觉对象检索方法实施例的解释说明也适用于该实施例的跨模态视觉对象检索装置，此处不再赘述。
[0115]
根据本技术实施例提出的跨模态视觉对象检索装置，可以根据待查询立体视觉对象的多模态表示，从而得到待查询立体视觉对象在预设特征空间下的特征表示，进而计算特征表示与预设特征表示之间的距离，并利用距离输出待查询立体视觉对象的最终检索列表，充分利用多模态表示的同一性和协同性，进一步提升跨模态视觉对象检索的性能，即基于超图的多模态特征表示学习的方法，可以建立多模态表示间的信息通路，从而充分利用多模态表示的同一性和协同性，可以训练不同模态的表示映射到同一表示空间的投影矩阵，进一步提升跨模态视觉对象检索的性能精度。
[0116]
图4为本技术实施例提供的电子设备的结构示意图。该电子设备可以包括：
[0117]
存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。
[0118]
处理器402执行程序时实现上述实施例中提供的跨模态视觉对象检索方法。
[0119]
进一步地，电子设备还包括：
[0120]
通信接口403，用于存储器401和处理器402之间的通信。
[0121]
存储器401，用于存放可在处理器402上运行的计算机程序。
[0122]
存储器401可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
[0123]
如果存储器401、处理器402和通信接口403独立实现，则通信接口403、存储器401和处理器402可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture，简称为isa)总线、外部设备互连(peripheral component，简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture，简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0124]
可选地，在具体实现上，如果存储器401、处理器402及通信接口403，集成在一块芯片上实现，则存储器401、处理器402及通信接口403可以通过内部接口完成相互间的通信。
[0125]
处理器402可能是一个中央处理器(central processing unit，简称为cpu)，或者是特定集成电路(application specific integrated circuit，简称为asic)，或者是被配置成实施本技术实施例的一个或多个集成电路。
[0126]
本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的跨模态视觉对象检索方法。
[0127]
在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或n个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0128]
此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中，“n个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
[0129]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更n个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本技术的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本技术的实施例所属技术领域的技术人员所理解。
[0130]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或n个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
[0131]
应当理解，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，n个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
[0132]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
[0133]
此外，在本技术各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
[0134]
上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本技术的限制，本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高跃丰一帆闫循石
技术所有人：清华大学
我是此专利的发明人

上一篇：一种水环境治理用拦污装置的制作方法
上一篇：一种环保型电池的加工用包膜机构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。