一种神经网络的训练方法以及相关装置与流程

文档序号:35129430发布日期:2023-08-15 00:49阅读:34来源:国知局
一种神经网络的训练方法以及相关装置与流程

本技术涉及人工智能,尤其涉及一种神经网络的训练方法以及相关装置。


背景技术:

1、随着互联网的发展,各种图文信息的发布量以指数级速度增长,这些图文信息的来源渠道和质量层次不齐。因此,在图文信息分发至用户前,对具体的内容进行人工审核和标记,将存在质量问题的图片过滤处理。

2、目前采用的方法是通过机器学习辅助算法对内容进行识别,通常神经网络模型的迭代过程如下:需求确定、数据采集、模型训练、模型测试与上线。由于图文信息的种类非常广泛,因此,模型训练时为了保证模型的训练精度,需要使用种类分布广泛的训练数据。

3、对这些训练数据的标签信息,目前需要人工标记。大量的训练数据导致模型的训练成本较高,进而导致模型的训练效率较低。


技术实现思路

1、本技术实施例提供了一种神经网络的训练方法以及相关装置。预训练数据包括多张图片以及多张图片的标签信息,由于该图片的标签信息为该图片来源天然具有的属性信息,具有容易获取的特点。因此,可以容易获取大量的预训练数据。基于该预训练数据,对预训练模型进行训练得到图片神经网络,可以有效提升神经网络模型的训练效率和训练精度。该预训练模型采用自监督训练,可以有效提升训练效率和训练精度。

2、有鉴于此,本技术一方面提供一种神经网络的训练方法,其特征在于,包括:

3、获取预训练数据,预训练数据包括多张图片和多张图片对应的标签信息,多张图片包括以下一项或多项:

4、视频文件中的抽帧图,其中,抽帧图对应的标签信息为视频文件的标签信息,

5、或者,图文信息的图片,其中,图文信息的图片对应的标签信息为图文信息的标题或者摘要信息,

6、或者,基于目标标签信息搜索得到的公共图片,其中,将目标标签信息作为公共图片对应的标签信息;

7、根据预训练数据对预训练模型进行自监督训练,得到图片神经网络,其中,图片神经网络用于获取图片的嵌入embedding特征。

8、本技术另一方面提供一种神经网络训练装置,包括:

9、收发模块,用于获取预训练数据,预训练数据包括多张图片和多张图片对应的标签信息,多张图片包括以下一项或多项:

10、视频文件中的抽帧图,其中,抽帧图对应的标签信息为视频文件的标签信息,

11、或者,图文信息的图片,其中,图文信息的图片对应的标签信息为图文信息的标题或者摘要信息,

12、或者,基于目标标签信息搜索得到的公共图片,其中,将目标标签信息作为公共图片对应的标签信息;

13、处理模块,用于根据预训练数据对预训练模型进行自监督训练,得到图片神经网络,其中,图片神经网络用于获取图片的嵌入embedding特征。

14、在本技术实施例的另一方面的另一种实现方式中,神经网络训练装置,还包括:

15、处理模块,还用于根据预训练数据,采用对比学习方式对预训练模型进行自监督训练,得到图片神经网络,其中,预训练数据中多张图片对应的标识信息作为训练中的监督信号。

16、在本技术实施例的另一方面的另一种实现方式中,视频文件中的抽帧图包括:同一视频文件中临近的多个视频帧对应的抽帧图,和/或,不同视频文件中视频帧对应的抽帧图;

17、图文信息的图片包括:图文信息的封面图片,图文信息的正文图片,和/或,图文信息的摘要图片。

18、在本技术实施例的另一方面的另一种实现方式中,神经网络训练装置,还包括:

19、收发模块,还用于获取多个视频文件;

20、处理模块,还用于对多个视频文件进行去重处理,得到去重后的多个视频文件;

21、处理模块,还用于从去重后的多个视频文件中提取视频文件中的抽帧图。

22、在本技术实施例的另一方面的另一种实现方式中,神经网络训练装置,还包括:

23、处理模块,还用于对预训练模型进行知识蒸馏处理,得到图片神经网络。

24、在本技术实施例的另一方面的另一种实现方式中,神经网络训练装置,还包括:

25、收发模块,还用于获取业务样本,业务样本包括一张或多张图片,和图片对应的标识信息;

26、处理模块,还用于使用业务样本对预训练模型进行微调处理,得到微调后的预训练模型。

27、在本技术实施例的另一方面的另一种实现方式中,神经网络训练装置,还包括:

28、收发模块,还用于获取第一标签信息集合,第一标签信息集合包括以下一项或多项:一个或多个视频文件的标签信息,或者,一个或多个图文信息的标签信息;

29、处理模块,还用于对第一标签信息集合进行去重处理,得到目标标签信息;

30、处理模块,还用于基于目标标签信息通过搜索引擎获取多张待筛选公共图片;

31、处理模块,还用于剔除多张待筛选公共图片中分辨率低于第一阈值的图片,得到公共图片。

32、本技术另一方面提供一种计算机设备,包括:存储器、处理器以及总线系统;

33、其中,存储器用于存储程序;

34、处理器用于执行存储器中的程序,处理器用于根据程序代码中的指令执行上述各方面的方法;

35、总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。

36、本技术的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。

37、本技术的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。

38、从以上技术方案可以看出,本技术实施例具有以下优点:

39、首先,获取预训练数据,预训练数据包括多张图片和多张图片对应的标签信息,多张图片包括以下一项或多项:视频文件中的抽帧图,其中,抽帧图对应的标签信息为视频文件的标签信息,或者,图文信息的图片,其中,图文信息的图片对应的标签信息为图文信息的标题或者摘要信息,或者,基于目标标签信息搜索得到的公共图片,其中,将目标标签信息作为公共图片对应的标签信息;然后,根据预训练数据对预训练模型进行自监督训练,得到图片神经网络,其中,预训练模型的主干网络包括swin transformer网络,图片神经网络用于获取图片的嵌入embedding特征。

40、本技术中,预训练数据包括多张图片以及多张图片的标签信息,由于该图片的标签信息为该图片来源天然具有的属性信息,具有容易获取的特点。因此,可以容易获取大量的预训练数据。基于该预训练数据,对预训练模型进行训练得到图片神经网络,可以有效提升神经网络模型的训练效率和训练精度。该预训练模型采用自监督训练,可以有效提升训练效率和训练精度。该预训练模型的主干网络包括swin transformer网络,在节省训练时间的同时,可以保证较高的训练精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1