训练方法、图像识别方法、装置、设备及可读存储介质与流程

文档序号：34111883发布日期：2023-05-10 22:30阅读：29来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本公开涉及图像处理，尤其涉及人工智能、深度学学习，具体而言，本公开涉及一种训练方法、图像识别方法、装置、设备及可读存储介质。

背景技术：

1、随着移动互联网的发展，内容消费随之升级，内容展现形式由单纯文字展示升级到图文结合展示，再到视频展示。

2、内容在发布以供用户获取信息之前需要进行风控审核。风控审核的主要目的是过滤风险内容(如低俗等不良内容)，以保证内容质量。

技术实现思路

1、本公开为了解决上述缺陷中的至少一项，提供了一种训练方法、图像识别方法、装置、设备及可读存储介质。

2、根据本公开的第一方面，提供了一种训练方法，该方法包括：

3、将至少一个待训练图像输入图像编码器，获取所述待训练图像的图像编码特征；

4、将与所述待训练图像配对的待训练文本输入文本编码器，获取所述待训练文本的文本编码特征；

5、根据所述图像编码特征以及所述文本编码特征的相似度对所述图像编码器和所述文本编码器进行训练。

6、根据本公开的第二方面，提供了一种图像识别方法，该方法包括：

7、将待识别图像输入图像编码器，获取所述待识别图像的图像编码特征；

8、将多个候选标签文本输入文本编码器，获取多个所述候选标签文本的文本编码特征；

9、至少根据所述待识别图像的图像编码特征与每个所述候选标签文本的文本编码特征的相似度确定多个所述候选标签文本中的一个候选标签文本为与所述待识别图像配对的标签文本；

10、其中，所述图像编码器和所述文本编码器为根据上述的训练方法训练得到的图像编码器和文本编码器。

11、根据本公开的第三方面，提供了一种训练装置，该装置包括：

12、第一编码单元，用于将至少一个待训练图像输入图像编码器，获取所述待训练图像的图像编码特征；

13、第二编码单元，用于将与所述待训练图像配对的待训练文本输入文本编码器，获取所述待训练文本的文本编码特征；

14、预测单元，用于根据所述图像编码特征以及所述文本编码特征的相似度对所述图像编码器和所述文本编码器进行训练。

15、根据本公开的第四方面，提供了一种图像识别装置，该装置包括：

16、第一编码模块，用于将待识别图像输入图像编码器，获取所述待识别图像的图像编码特征；

17、第二编码模块，用于将多个候选标签文本输入文本编码器，获取多个所述候选标签文本的文本编码特征；

18、预测模块，用于至少根据所述待识别图像的图像编码特征与每个所述候选标签文本的文本编码特征的相似度确定多个所述候选标签文本中的一个候选标签文本为与所述待识别图像配对的标签文本；

19、其中，所述图像编码器和所述文本编码器为根据上述的训练方法训练得到的图像编码器和文本编码器。

20、根据本公开的第五方面，提供了一种电子设备，该电子设备包括：

21、至少一个处理器；以及

22、与上述至少一个处理器通信连接的存储器；其中，

23、存储器存储有可被上述至少一个处理器执行的指令，指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行上述训练方法和图像识别方法。

24、根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使计算机执行上述训练方法和图像识别方法。

25、根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述训练方法和图像识别方法。

26、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种训练方法，包括：

2.根据权利要求1所述的方法，其中，所述根据所述图像编码特征以及所述文本编码特征的相似度对所述图像编码器和所述文本编码器进行训练，包括：

3.根据权利要求2所述的方法，其中，所述将所述相似度矩阵的第i行第i列元素作为正样本预测值，将所述相似度矩阵的其他元素作为负样本预测值，确定所述相似度矩阵每个元素对应的损失值，并根据所述损失值对所述图像编码器以及所述文本编码器进行训练，包括：

4.一种图像识别方法，包括：

5.根据权利要求4所述的方法，其中，所述将待识别图像输入图像编码器，获取所述待识别图像的图像编码特征之后，还包括：

6.根据权利要求5所述的方法，其中，所述根据所述待识别图像的图像编码特征和所述样本图像的图像编码特征计算所述样本图像对应的相似度得分，包括：

7.根据权利要求5所述的方法，其中，所述根据所述相似度得分确定与所述样本图像对应的第一候选标签文本的自编码得分，包括：

8.根据权利要求7所述的方法，其中，根据与所述第一候选标签文本对应的所有样本图像的相似度得分确定所述第一候选标签文本的自编码得分，包括：

9.根据权利要求5所述的方法，其中，所述至少根据所述待识别图像的图像编码特征与每个所述候选标签文本的文本编码特征的相似度确定多个所述候选标签文本中的一个候选标签文本为与所述待识别图像配对的标签文本，包括：

10.根据权利要求4所述的方法，其中，所述将待识别图像输入图像编码器，获取所述待识别图像的图像编码特征之前还包括：

11.一种训练装置，包括：

12.一种图像识别装置，包括：

13.一种电子设备，包括：

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-3中任一项所述的训练方法以及权利要求4-10中任一项所述的图像识别方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-3中任一项所述的训练方法以及权利要求4-10中任一项所述的图像识别方法。

技术总结
本公开提供了训练方法、图像识别方法、装置、设备及可读存储介质，涉及图像处理技术领域，尤其涉及人工智能、深度学学习技术领域。具体实现方案为：将至少一个待训练图像输入图像编码器，获取所述待训练图像的图像编码特征；将与所述待训练图像配对的待训练文本输入文本编码器，获取所述待训练文本的文本编码特征；根据所述图像编码特征以及所述文本编码特征的相似度对所述图像编码器和所述文本编码器进行训练。

技术研发人员：张言,杨羿,何楷文,梁晓旭
受保护的技术使用者：百度在线网络技术(北京)有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张言杨羿何楷文梁晓旭
技术所有人：百度在线网络技术(北京)有限公司
我是此专利的发明人

上一篇：射频开关电路及形成方法与流程
上一篇：一种聚合物包覆锂电池正极材料及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。