一种神经网络的训练方法以及相关装置与流程

文档序号：35129430发布日期：2023-08-15 00:49阅读：34来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本技术涉及人工智能，尤其涉及一种神经网络的训练方法以及相关装置。

背景技术：

1、随着互联网的发展，各种图文信息的发布量以指数级速度增长，这些图文信息的来源渠道和质量层次不齐。因此，在图文信息分发至用户前，对具体的内容进行人工审核和标记，将存在质量问题的图片过滤处理。

2、目前采用的方法是通过机器学习辅助算法对内容进行识别，通常神经网络模型的迭代过程如下：需求确定、数据采集、模型训练、模型测试与上线。由于图文信息的种类非常广泛，因此，模型训练时为了保证模型的训练精度，需要使用种类分布广泛的训练数据。

3、对这些训练数据的标签信息，目前需要人工标记。大量的训练数据导致模型的训练成本较高，进而导致模型的训练效率较低。

技术实现思路

1、本技术实施例提供了一种神经网络的训练方法以及相关装置。预训练数据包括多张图片以及多张图片的标签信息，由于该图片的标签信息为该图片来源天然具有的属性信息，具有容易获取的特点。因此，可以容易获取大量的预训练数据。基于该预训练数据，对预训练模型进行训练得到图片神经网络，可以有效提升神经网络模型的训练效率和训练精度。该预训练模型采用自监督训练，可以有效提升训练效率和训练精度。

2、有鉴于此，本技术一方面提供一种神经网络的训练方法，其特征在于，包括：

3、获取预训练数据，预训练数据包括多张图片和多张图片对应的标签信息，多张图片包括以下一项或多项：

4、视频文件中的抽帧图，其中，抽帧图对应的标签信息为视频文件的标签信息，

5、或者，图文信息的图片，其中，图文信息的图片对应的标签信息为图文信息的标题或者摘要信息，

6、或者，基于目标标签信息搜索得到的公共图片，其中，将目标标签信息作为公共图片对应的标签信息；

7、根据预训练数据对预训练模型进行自监督训练，得到图片神经网络，其中，图片神经网络用于获取图片的嵌入embedding特征。

8、本技术另一方面提供一种神经网络训练装置，包括：

9、收发模块，用于获取预训练数据，预训练数据包括多张图片和多张图片对应的标签信息，多张图片包括以下一项或多项：

10、视频文件中的抽帧图，其中，抽帧图对应的标签信息为视频文件的标签信息，

11、或者，图文信息的图片，其中，图文信息的图片对应的标签信息为图文信息的标题或者摘要信息，

12、或者，基于目标标签信息搜索得到的公共图片，其中，将目标标签信息作为公共图片对应的标签信息；

13、处理模块，用于根据预训练数据对预训练模型进行自监督训练，得到图片神经网络，其中，图片神经网络用于获取图片的嵌入embedding特征。

14、在本技术实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：

15、处理模块，还用于根据预训练数据，采用对比学习方式对预训练模型进行自监督训练，得到图片神经网络，其中，预训练数据中多张图片对应的标识信息作为训练中的监督信号。

16、在本技术实施例的另一方面的另一种实现方式中，视频文件中的抽帧图包括：同一视频文件中临近的多个视频帧对应的抽帧图，和/或，不同视频文件中视频帧对应的抽帧图；

17、图文信息的图片包括：图文信息的封面图片，图文信息的正文图片，和/或，图文信息的摘要图片。

18、在本技术实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：

19、收发模块，还用于获取多个视频文件；

20、处理模块，还用于对多个视频文件进行去重处理，得到去重后的多个视频文件；

21、处理模块，还用于从去重后的多个视频文件中提取视频文件中的抽帧图。

22、在本技术实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：

23、处理模块，还用于对预训练模型进行知识蒸馏处理，得到图片神经网络。

24、在本技术实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：

25、收发模块，还用于获取业务样本，业务样本包括一张或多张图片，和图片对应的标识信息；

26、处理模块，还用于使用业务样本对预训练模型进行微调处理，得到微调后的预训练模型。

27、在本技术实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：

28、收发模块，还用于获取第一标签信息集合，第一标签信息集合包括以下一项或多项：一个或多个视频文件的标签信息，或者，一个或多个图文信息的标签信息；

29、处理模块，还用于对第一标签信息集合进行去重处理，得到目标标签信息；

30、处理模块，还用于基于目标标签信息通过搜索引擎获取多张待筛选公共图片；

31、处理模块，还用于剔除多张待筛选公共图片中分辨率低于第一阈值的图片，得到公共图片。

32、本技术另一方面提供一种计算机设备，包括：存储器、处理器以及总线系统；

33、其中，存储器用于存储程序；

34、处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；

35、总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

36、本技术的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

37、本技术的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

38、从以上技术方案可以看出，本技术实施例具有以下优点：

39、首先，获取预训练数据，预训练数据包括多张图片和多张图片对应的标签信息，多张图片包括以下一项或多项：视频文件中的抽帧图，其中，抽帧图对应的标签信息为视频文件的标签信息，或者，图文信息的图片，其中，图文信息的图片对应的标签信息为图文信息的标题或者摘要信息，或者，基于目标标签信息搜索得到的公共图片，其中，将目标标签信息作为公共图片对应的标签信息；然后，根据预训练数据对预训练模型进行自监督训练，得到图片神经网络，其中，预训练模型的主干网络包括swin transformer网络，图片神经网络用于获取图片的嵌入embedding特征。

40、本技术中，预训练数据包括多张图片以及多张图片的标签信息，由于该图片的标签信息为该图片来源天然具有的属性信息，具有容易获取的特点。因此，可以容易获取大量的预训练数据。基于该预训练数据，对预训练模型进行训练得到图片神经网络，可以有效提升神经网络模型的训练效率和训练精度。该预训练模型采用自监督训练，可以有效提升训练效率和训练精度。该预训练模型的主干网络包括swin transformer网络，在节省训练时间的同时，可以保证较高的训练精度。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘刚
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。