多模态检索方法、装置以及存储介质与流程

文档序号：37477071发布日期：2024-03-28 19:00阅读：26来源：国知局

本申请涉及信息检索，特别是涉及一种多模态检索方法、装置以及存储介质。

背景技术：

1、多模态检索利用多种类型的数据(或模态)作为检索输入信息进行检索操作。这些模态可以包括图像、语音音频、文本描述等。通过综合利用这些不同的信息源，系统可以更全面地理解用户的检索意图，从而实现更加准确的检索。

2、目前的多模态检索技术对图像进行编码生成相应的图像特征，然后对文本信息(该文本信息包括文本描述以及对语音音频进行识别而确定的文本)进行编码生成相应的文本特征。然后，多模态检索技术将图像特征和文本特征进行级联(concate)，生成图文合并特征，并根据该图文合并特征进行检索，从而返回检索的信息作为检索结果。

3、但是，图像特征和文本特征属于不同的信息类型，并且图像和文本的序列化的方式是不同的，具体在于图像是通过块嵌入(patch embedding)的方式序列化的，文本则是通过词嵌入(word embedding)的方式序列化的。因此这使得图像特征与文本特征在同一个特征空间的对齐变得困难起来，如果编码模块编码后的图像特征和文本特征不能在同一个特征空间进行对齐，则会使得多模态检索的准确性大大降低。

4、针对上述的现有技术中存在的图像特征和文本特征难于在同一个特征空间中对齐，从而使得多模态检索的准确性降低的技术问题，目前尚未提出有效的解决方案。

技术实现思路

1、本公开的实施例提供了一种多模态检索方法、装置以及存储介质，以至少解决现有技术中存在的图像特征和文本特征难于在同一个特征空间中对齐，从而使得多模态检索的准确性降低的技术问题。

2、根据本公开实施例的一个方面，提供了一种多模态检索方法，包括：确定作为检索输入信息的图像信息和文本信息；利用预先设置的第一编码模块对文本信息进行编码，确定与文本信息对应的属于文本特征空间的第一文本特征；利用预先设置的第一迁移模块对第一文本特征进行迁移，确定相应的属于图像特征空间的第二文本特征，并将第一文本特征和第二文本特征进行合并，生成第三文本特征；对图像信息进行编码，生成与图像信息对应的图像特征；将第三文本特征与图像信息的图像特征进行合并，生成图文合并特征；以及基于图文合并特征进行检索，获取与图像信息和文本信息对应的检索结果。

3、根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上所述的方法。

4、根据本公开实施例的另一个方面，还提供了一种多模态检索装置，其包括：检索输入信息确定模块，用于确定作为检索输入信息的图像信息和文本信息；文本编码模块，用于利用预先设置的第一编码模块对文本信息进行编码，确定与文本信息对应的属于文本特征空间的第一文本特征；文本特征迁移模块，用于利用预先设置的第一迁移模块对第一文本特征进行迁移，确定相应的属于图像特征空间的第二文本特征，并将第一文本特征和第二文本特征进行合并，生成第三文本特征；图像编码模块，用于对图像信息进行编码，生成与图像信息对应的图像特征；特征合并模块，用于将第三文本特征与图像特征进行合并，生成图文合并特征；以及检索模块，用于基于图文合并特征进行检索，获取与图像信息和文本信息对应的检索结果。

5、根据本公开实施例的另一个方面，还提供了一种多模态检索装置，包括：处理器；以及存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：确定作为检索输入信息的图像信息和文本信息；利用预先设置的第一编码模块对文本信息进行编码，确定与文本信息对应的属于文本特征空间的第一文本特征；利用预先设置的第一迁移模块对第一文本特征进行迁移，确定相应的属于图像特征空间的第二文本特征，并将第一文本特征和第二文本特征进行合并，生成第三文本特征；对图像信息进行编码，生成与图像信息对应的图像特征；将第三文本特征与图像特征进行合并，生成图文合并特征；以及基于图文合并特征进行检索，获取与图像信息和文本信息对应的检索结果。

6、从而在本公开实施例中，在对文本信息进行编码时，不仅生成属于文本特征空间的第一文本特征，还利用第一迁移模块对第一文本特征进行特征迁移，生成与第一文本特征对应的属于图像特征空间的第二文本特征，然后将第一文本特征和第二文本特征进行合并生成第三文本特征。然后，本技术方案将图像特征和第三文本特征进行合并后，生成图文合并特征，并根据图文合并特征进行检索。由于第三文本特征中包含了属于图像特征空间的第二文本特征的分量。所以图像特征和第三文本特征能够在同一个特征空间中更好地对齐，从而基于图像特征和第三文本特征合并生成的图文合并特征，能够准确地进行检索。从而解决了现有技术中存在的图像特征和文本特征难于在同一个特征空间中对齐，从而使得多模态检索的准确性降低的技术问题。

技术特征：

1.一种多模态检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述图像信息进行编码，生成与所述图像信息对应的图像特征的操作，包括：

3.根据权利要求2所述的方法，其特征在于，确定作为检索输入信息的图像信息和文本信息的操作，包括：

4.根据权利要求2所述的方法，其特征在于，所述第二编码模块通过以下操作进行训练：

5.根据权利要求4所述的方法，其特征在于，所述第一编码模块通过以下操作进行训练：

6.根据权利要求5所述的方法，其特征在于，所述第二迁移模块通过以下操作进行训练：

7.根据权利要求5所述的方法，其特征在于，所述第一迁移模块通过以下操作进行训练：

8.根据权利要求7所述的方法，其特征在于，利用所述第三样本集对所述第一迁移模块进行训练的操作，包括：

9.一种多模态检索装置，其特征在于，包括：

10.一种多模态检索装置，其特征在于，包括：

技术总结
本申请公开了一种多模态检索方法、装置以及存储介质。方法包括：确定作为检索输入信息的图像信息和文本信息；利用预先设置的第一编码模块对文本信息进行编码，确定与文本信息对应的属于文本特征空间的第一文本特征；利用预先设置的第一迁移模块对第一文本特征进行迁移，确定相应的属于图像特征空间的第二文本特征，并将第一文本特征和第二文本特征进行合并，生成第三文本特征；对图像信息进行编码，生成与图像信息对应的图像特征；将第三文本特征与图像特征进行合并，生成图文合并特征；以及基于图文合并特征进行检索，获取与图像信息和文本信息对应的检索结果。

技术研发人员：李鲲,李永海
受保护的技术使用者：泰德网聚（北京）科技股份有限公司
技术研发日：
技术公布日：2024/3/27

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李鲲,李永海
技术所有人：泰德网聚（北京）科技股份有限公司
我是此专利的发明人

上一篇：基于产品生产数据的包装管理系统
上一篇：一种高远监控视角下人员小目标检测方法、设备及介质

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。