一种神经网络训练集的获取方法及其系统与流程

文档序号:15559729发布日期:2018-09-29 01:57阅读:504来源:国知局

本发明涉及数据处理领域,尤指一种神经网络训练集的获取方法及其系统。



背景技术:

近年来,随着计算机视觉技术的不断发展,特别是神经网络模型的迅速发展,人们对计算机视觉训练所需图像数据的需求特别是对标签信息准确的图像数据的需求日益增大。

神经网络模型(convolutionalneuralnetworks,cnn)是深度学习算法的一种,是图像识别等领域重要的处理分析工具,近年来已经成为众多科学领域的研究热点之一。神经网络模型算法的优点在于训练模型时不需要使用任何人工标注的特征,可以自动探索输入变量所隐含的特征,同时网络的权值共享特性,大大降低了模型的复杂度,减少了权值的数量。这些优点在网络的输入是图像时表现的尤为明显,原始图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。

为获取训练神经网络模型所需的大量图像样本数据集,最便捷的方式是通过网络获取,采用网络爬虫的方法,网络爬虫能够按照设定的条件将符合该条件的信息从互联网的海量信息中抓取出来。

目前的做法是,采用网络爬虫海量的爬取,随后进行人工筛选和清洗。带来的问题是工作量异常巨大,筛选结果主观性大,筛选结果容易出错,同时,采用错误的图像样本数据集对神经网络进行训练,会带来错误的分类结果。当使用传统网络爬虫技术获取图像数据时,爬取的图像质量随爬取的数量增加,大体呈现下降的趋势,导致传统网络爬虫爬取的数据存在较大的噪声,影响后续基于神经网络模型的图像识别的训练结果。



技术实现要素:

本发明的目的是提供一种神经网络训练集的获取方法及其系统,实现减少人工筛选样本数据集,提升筛选效率和筛选可靠性,提高神经网络的准确性。

本发明提供的技术方案如下:

本发明提供一种神经网络训练集的获取方法,包括步骤:

s100获取待筛选图像集的类别信息;

s200筛选目标图像,获得所述待筛选图像集对应的目标图像数据集;所述目标图像为与样本图像之间相似度达到预设相似度阈值的图像数据;所述样本图像为待筛选图像集的类别信息对应的模板图像;

s300对所述目标图像数据进行对抗训练获得样本数据集。

进一步的,所述步骤s100之前包括步骤:

s010检测各个类别的图像集对应的测试准确率;

s020判断当前图像集的测试准确率是否低于预设性能阈值;若是,执行步骤s030;否则,执行步骤s040;

s030将所述当前图像集标记为所述待筛选图像集;

s040切换下一图像集的测试准确率进行判断,直至所有图像集完成判断。

进一步的,所述步骤s200包括步骤:

s210采集属于所述待筛选图像集的类别信息的图像数据;

s220获取所述待筛选图像集的类别信息对应的样本图像;

s230根据所述样本图像,判断各个图像数据是否符合预设爬虫策略,根据判断结果标记所述图像数据;

s240获取所有标记为目标图像的图像数据得到所述待筛选图像集对应的目标图像数据集;

其中,所述预设爬虫策略包括预设摘要值,预设关键字,预设相似度。

进一步的,所述步骤s300包括步骤:

s310对所述目标图像数据进行像素变换,获取像素变换后的图像数据作为所述样本数据集;

s320对所述目标图像数据进行几何变换,获取几何变换后的图像数据作为所述样本数据集。

进一步的,所述步骤s300之后包括步骤:

s400根据所述样本数据集扩大神经网络模型的数据集;

s500检测扩大后的神经网络模型的性能,判断所述性能是否达到预设性能阈值;若是,结束;否则,返回步骤s100。

本发明还提供一种神经网络训练集的获取系统,包括:

信息获取模块,获取待筛选图像集的类别信息;

图像筛选模块,筛选目标图像,获得所述待筛选图像集对应的目标图像数据集;所述目标图像为与样本图像之间相似度达到预设相似度阈值的图像数据;所述样本图像为待筛选图像集的类别信息对应的模板图像;

数据集获取模块,对所述目标图像数据进行对抗训练获得样本数据集。

进一步的,还包括:

准确率检测模块,检测各个类别的图像集对应的测试准确率;

准确率判断模块,判断当前图像集的测试准确率是否低于预设性能阈值;

图像标记模块,将所述当前图像集标记为所述待筛选图像集;

所述准确率判断模块,切换下一图像集的测试准确率进行判断,直至所有图像集完成判断。

进一步的,所述图像筛选模块包括:

图像数据采集单元,采集属于所述待筛选图像集的类别信息的图像数据;

样本图像获取单元,获取所述待筛选图像集的类别信息对应的样本图像;

图像数据筛选单元,根据所述样本图像,判断各个图像数据是否符合预设爬虫策略,根据判断结果标记所述图像数据,获取所有标记为目标图像的图像数据,得到所述待筛选图像集对应的目标图像数据集;

其中,所述预设爬虫策略包括预设摘要值,预设关键字,预设相似度。

进一步的,所述数据集获取模块包括:

像素变换数据增广单元,对所述目标图像数据进行像素变换,获取像素变换后的图像数据作为所述样本数据集;

几何变换数据增广单元,对所述目标图像数据进行几何变换,获取几何变换后的图像数据作为所述样本数据集。

进一步的,还包括:

数据处理模块,根据所述样本数据集扩大神经网络模型的数据集;

性能判断模块,检测扩大后的神经网络模型的性能,判断所述性能是否达到预设性能阈值;

所述信息获取模块,还当所述性能未达到预设性能阈值时,重新获取待筛选图像集的类别信息,由所述图像筛选模块和所述数据集获取模块,重新获取新的目标图像数据集进行对抗训练得到新的样本数据集。

通过本发明提供的一种神经网络训练集的获取方法及其系统,能够带来以下至少一种有益效果:

1)本发明通过对待筛选图像集的类别信息进行针对性的数据集增广,大幅度的降低了人工工作量,减少人工筛选的主观性导致的数据筛选出错,对目标图像数据进行对抗训练,以引入随机变量,提高神经网络模型的鲁棒性。

2)本发明在获取神经网络模型后,从神经网络模型中获取测试准确率低于预设准确率的图像数据集为待筛选图像集,通过对待筛选图像集的类别信息进行针对性的数据集增广,避免无差别,无目的,无针对性的进行数据集增广,

3)本发明在获取神经网络模型后,从神经网络模型中获取测试准确率低于预设准确率的图像数据集为待筛选图像集,通过对待筛选图像集的类别信息进行针对性的数据集增广,加大了类别信息对应的待筛选图像集在神经网络模型的整体数据集中的比重,快速高效并且有目的性地进行网络训练和参数调整。

4)本发明根据像素变换或者几何变换的任意一种或者多种组合进行数据增广引入随机变量,能够在不改变图像类别的情况下,增加数据量,能提高神经网络模型的泛化能力,对样本做了对抗处理即对数据集引入了随机变量,能够提高神经网络的鲁棒性,准确率,容错性。

附图说明

下面将以明确易懂的方式,结合附图说明优选实施方式,对一种神经网络训练集的获取方法及其系统的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明第一实施例的流程图;

图2是本发明第二实施例的流程图;

图3是本发明第二实施例的流程图;

图4是本发明第三实施例的流程图;

图5是本发明第四实施例的流程图;

图6是本发明第五实施例的流程图;

图7是本发明第六实施例的结构示意图;

图8是本发明第七实施例的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。

为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。

本发明的第一实施例,如图1所示:

一种神经网络训练集的获取方法,包括步骤:

s100获取待筛选图像集的类别信息;

s200筛选目标图像,获得所述待筛选图像集对应的目标图像数据集;所述目标图像为与样本图像之间相似度达到预设相似度阈值的图像数据;所述样本图像为待筛选图像集的类别信息对应的模板图像;

s300对所述目标图像数据进行对抗训练获得样本数据集。

具体的,本实施例中,当处理图像识别或者图像分类或者其他机器学习任务的时候,如何能够提升神经网络模型的性能(识别率、分类准确率),由于神经网络模型中的数据量越大,数据的相似性越高时,神经网络模型的性能就越好,现有技术为了提高神经网络模型的性能,一般采用人工筛选的方式进行筛选数据,人工筛选不仅仅工作量大,而且获取的数据由于人工主观性高导致数据的相似度由用户自行判断并分类,导致神经网络模型可能错误的额数据而影响神经网络模型的性能。本发明从神经网络模型中获取待筛选图像集,然后获取待筛选图像集的类别信息,根据类别信息获取待筛选图像集对应的样本图像,从而将获取的图像数据与样本图像进行比较相似度,当图像数据与样本图像之间的相似度达到预设相似度阈值时,该图像数据就是目标图像,将所有的图像数据进行上述相似度比较,根据判断结果筛选出所有的目标图像,这些根据类别信息获取的目标图像组成该类别信息对应的待筛选图像集的目标图像数据集,然后对目标图像数据进行对抗训练,以引入随机变量,提高神经网络模型的鲁棒性。本发明通过对待筛选图像集的类别信息进行针对性的数据集增广,大幅度的降低了人工工作量,减少人工筛选的主观性导致的数据筛选出错,对目标图像数据进行对抗训练,以引入随机变量,提高神经网络模型的鲁棒性。

本发明的第二实施例,如图2所示:

一种神经网络训练集的获取方法,包括步骤:

s010检测各个类别的图像集对应的测试准确率;

s020判断当前图像集的测试准确率是否低于预设性能阈值;若是,执行步骤s030;否则,执行步骤s040;

s030将所述当前图像集标记为所述待筛选图像集;

s040切换下一图像集的测试准确率进行判断,直至所有图像集完成判断;

s100获取待筛选图像集的类别信息;

s200筛选目标图像,获得所述待筛选图像集对应的目标图像数据集;所述目标图像为与样本图像之间相似度达到预设相似度阈值的图像数据;所述样本图像为待筛选图像集的类别信息对应的模板图像;

s300对所述目标图像数据进行对抗训练获得样本数据集。

具体的,本实施例是上述第一实施例的优选实施例,本实施例中,检测各个类别的图像集对应的测试准确率,判断当前图像集的测试准确率是否低于预设性能阈值,若当前图像集的测试准确率低于预设性能阈值时,将当前图像集标记为待筛选图像集,若当前图像集的测试准确率不低于(高于或者等于)预设性能阈值时,切换下一图像集的测试准确率,继续进行判断下一图像集的测试准确率是否低于预设性能阈值,根据判断结果标记下一图像集,直至神经网络模板中的所有类别的图像集完成判断并分类标记后,获取到神经网络模板中测试准确率低于预设性能阈值的待筛选图像集的类别信息。本发明在获取神经网络模型后,从神经网络模型中获取测试准确率低于预设准确率的图像数据集为待筛选图像集,通过对待筛选图像集的类别信息进行针对性的数据集增广,避免无差别,无目的,无针对性的进行数据集增广,通过预测的结果对输入源是否进行数据集的扩充进行判断,这种处理对于工作量的减小有极大的帮助。此外针对性的进行数据集增广,加大了类别信息对应的待筛选图像集在神经网络模型的整体数据集中的比重,由于在神经网络模型的训练中,比重的变化会影响到最后得出的网络参数,从而也提高了神经网络的鲁棒性,能够快速高效并且有目的性地进行网络训练和参数调整。

本发明的第三实施例,如图3所示:

一种神经网络训练集的获取方法,包括步骤:

s100获取待筛选图像集的类别信息;

s210采集属于所述待筛选图像集的类别信息的图像数据;

s220获取所述待筛选图像集的类别信息对应的样本图像;

s230根据所述样本图像,判断各个图像数据是否符合预设爬虫策略,根据判断结果标记所述图像数据;

s240获取所有标记为目标图像的图像数据得到所述待筛选图像集对应的目标图像数据集;

s310对所述目标图像数据进行像素变换,获取像素变换后的图像数据作为所述样本数据集;

其中,所述预设爬虫策略包括预设摘要值,预设关键字,预设相似度。

具体的,本实施例是上述第一和第二实施例的优选实施例,本实施例中,采集属于待筛选图像集的类别信息的图像数据,并且获取待筛选图像集的类别信息对应的样本图像,然后根据样本图像,判断各个图像数据是否符合预设爬虫策略,通过预设爬虫策略对图像数据进行筛选得到目标图像,比如根据预设关键字进行对应的搜索比较,根据预设摘要值进行校验比较(通过md5算法,或者sha1算法,crc32算法等等摘要算法计算摘要值,将计算得到的摘要值与预设摘要值进行比较),根据预设相似度进行匹配对比等等方式,根据比较判断结果标记各个图像数据获取所有标记为目标图像的图像数据得到待筛选图像集对应的目标图像数据集,过滤掉不需要的图像数据,从而提高了筛选处理效率,降低了人工的工作量。此外,对目标图像数据进行像素变换,获取像素变换后的图像数据作为样本数据集,像素变换包括:1、增加噪声和滤波,噪声的方式包括但是不限于椒盐噪声,高斯噪声,中值滤波;2、变换通道,调整rbg三个通道的顺序;3、调整对比度、亮度和饱和度,色彩抖动。本发明可以根据上述像素变换的任意一种或者多种组合进行数据增广引入随机变量,能够在不改变图像类别的情况下,增加数据量,能提高神经网络模型的泛化能力,通过对目标图像数据进行像素变换,对样本做了对抗处理即对数据集引入了随机变量,能够提高神经网络的鲁棒性,准确率,容错性。

本发明的第四实施例,如图4所示:

一种神经网络训练集的获取方法,包括步骤:

s100获取待筛选图像集的类别信息;

s210采集属于所述待筛选图像集的类别信息的图像数据;

s220获取所述待筛选图像集的类别信息对应的样本图像;

s230根据所述样本图像,判断各个图像数据是否符合预设爬虫策略,根据判断结果标记所述图像数据;

s240获取所有标记为目标图像的图像数据得到所述待筛选图像集对应的目标图像数据集;

s320对所述目标图像数据进行几何变换,获取几何变换后的图像数据作为所述样本数据集;

其中,所述预设爬虫策略包括预设摘要值,预设关键字,预设相似度。

具体的,本实施例是上述第一和第二实施例的优选实施例,本实施例中,采集属于待筛选图像集的类别信息的图像数据,并且获取待筛选图像集的类别信息对应的样本图像,然后根据样本图像,判断各个图像数据是否符合预设爬虫策略,通过预设爬虫策略对图像数据进行筛选得到目标图像,比如根据预设关键字进行对应的搜索比较,根据预设摘要值进行校验比较(通过md5算法,或者sha1算法,crc32算法等等摘要算法计算摘要值,将计算得到的摘要值与预设摘要值进行比较),根据预设相似度进行匹配对比等等方式,根据比较判断结果标记各个图像数据获取所有标记为目标图像的图像数据得到待筛选图像集对应的目标图像数据集,过滤掉不需要的图像数据,从而提高了筛选处理效率,降低了人工的工作量。此外,对目标图像数据进行几何变换,获取几何变换后的图像数据作为样本数据集,几何变换包括:1、翻转,例如:水平翻转,竖直翻转,根据实际情况来翻转,比如,关于人脸,上下翻转了就变成倒的人脸了,翻转没有了实际意义;2、平移,模拟现实生活中的图片不居中的情况,发生位置的变换;3、旋转;4、置黑,模拟被部分遮挡的数据样本;5、裁剪;6、缩放。本发明可以根据上述几何变换的任意一种或者多种组合进行数据增广引入随机变量,能够在不改变图像类别的情况下,增加数据量,能提高神经网络模型的泛化能力,通过对目标图像数据进行几何变换,对样本做了对抗处理即对数据集引入了随机变量,能够提高神经网络的鲁棒性,准确率,容错性。

本发明的第五实施例,如图5所示:

一种神经网络训练集的获取方法,包括步骤:

s100获取待筛选图像集的类别信息;

s210采集属于所述待筛选图像集的类别信息的图像数据;

s220获取所述待筛选图像集的类别信息对应的样本图像;

s230根据所述样本图像,判断各个图像数据是否符合预设爬虫策略,根据判断结果标记所述图像数据;

s240获取所有标记为目标图像的图像数据得到所述待筛选图像集对应的目标图像数据集;

s310对所述目标图像数据进行像素变换,获取像素变换后的图像数据作为所述样本数据集;

s320对所述目标图像数据进行几何变换,获取几何变换后的图像数据作为所述样本数据集;

其中,所述预设爬虫策略包括预设摘要值,预设关键字,预设相似度。

具体的,本实施例是上述第一和第二实施例的优选实施例,具体效果参见上述第三和第四实施例,在此不再一一赘述。

本发明的第六实施例,如图6所示:

一种神经网络训练集的获取方法,包括步骤:

s100获取待筛选图像集的类别信息;

s200筛选目标图像,获得所述待筛选图像集对应的目标图像数据集;所述目标图像为与样本图像之间相似度达到预设相似度阈值的图像数据;所述样本图像为待筛选图像集的类别信息对应的模板图像;

s300对所述目标图像数据进行对抗训练获得样本数据集;

s400根据所述样本数据集扩大神经网络模型的数据集;

s500检测扩大后的神经网络模型的性能,判断所述性能是否达到预设性能阈值;若是,结束;否则,返回步骤s100。

具体的,本实施例中,由于神经网络模型中的数据的相似性保持一致(此处一致为在一定的相似性范围内)时,若数据量越大神经网络模型的性能相对就越好,通过对待筛选图像集的类别信息进行针对性的数据集增广获得样本数据集,大幅度的降低了人工工作量,将获取的样本数据集加入到神经网络模型中,扩大神经网络模型的数据集,使得神经网络模型的数据得到增广,然后检测扩大后的神经网络模型的性能,如果扩大后的神经网络模型的性能达到预设性能阈值,则经过上述数据增广训练后的神经网络模型就是一个合格的神经网络模型,可以通过该合格的神经网络模型进行后续的图片识别分类。如果扩大后的神经网络模型的性能未达到预设性能阈值则重新获取待筛选图像集的类别信息,根据类别信息筛选目标图像,获得待筛选图像集对应的目标图像数据集后对目标图像数据进行对抗训练获得样本数据集。本发明通过检测根据样本数据集扩大后的神经网络模型的性能,根据判断结果进行判断是否继续进行数据增广训练,从而提升神经网络模型的鲁棒性。

本发明的第七实施例,如图7所示:

一种神经网络训练集的获取系统,包括:

信息获取模块110,获取待筛选图像集的类别信息;

图像筛选模块120,筛选目标图像,获得所述待筛选图像集对应的目标图像数据集;所述目标图像为与样本图像之间相似度达到预设相似度阈值的图像数据;所述样本图像为待筛选图像集的类别信息对应的模板图像;

数据集获取模块130,对所述目标图像数据进行对抗训练获得样本数据集。

具体的,本实施例是上述方法实施例对应的系统实施例,具体效果参见上述方法实施例,在此不再一一赘述。

本发明的第八实施例,如图8所示:

一种神经网络训练集的获取系统,包括:

信息获取模块110,获取待筛选图像集的类别信息;

图像筛选模块120,筛选目标图像,获得所述待筛选图像集对应的目标图像数据集;所述目标图像为与样本图像之间相似度达到预设相似度阈值的图像数据;所述样本图像为待筛选图像集的类别信息对应的模板图像;

数据集获取模块130,对所述目标图像数据进行对抗训练获得样本数据集。

优选的,还包括:

准确率检测模块010,检测各个类别的图像集对应的测试准确率;

准确率判断模块020,判断当前图像集的测试准确率是否低于预设性能阈值;

图像标记模块030,将所述当前图像集标记为所述待筛选图像集;

所述准确率判断模块020,切换下一图像集的测试准确率进行判断,直至所有图像集完成判断。

优选的,所述图像筛选模块120包括:

图像数据采集单元121,采集属于所述待筛选图像集的类别信息的图像数据;

样本图像获取单元122,获取所述待筛选图像集的类别信息对应的样本图像;

图像数据筛选单元123,根据所述样本图像,判断各个图像数据是否符合预设爬虫策略,根据判断结果标记所述图像数据,获取所有标记为目标图像的图像数据,得到所述待筛选图像集对应的目标图像数据集;

其中,所述预设爬虫策略包括预设摘要值,预设关键字,预设相似度。

优选的,所述数据集获取模块130包括:

像素变换数据增广单元131,对所述目标图像数据进行像素变换,获取像素变换后的图像数据作为所述样本数据集;

几何变换数据增广单元132,对所述目标图像数据进行几何变换,获取几何变换后的图像数据作为所述样本数据集。具体的,本实施例中,

优选的,还包括:

数据处理模块140,根据所述样本数据集扩大神经网络模型的数据集;

性能判断模块150,检测扩大后的神经网络模型的性能,判断所述性能是否达到预设性能阈值;

所述信息获取模块110,还当所述性能未达到预设性能阈值时,重新获取待筛选图像集的类别信息,由所述图像筛选模块120和所述数据集获取模块130,重新获取新的目标图像数据集进行对抗训练得到新的样本数据集。

具体的,本实施例是上述方法实施例对应的系统实施例,具体效果参见上述方法实施例,在此不再一一赘述。

应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1