生成数据集的方法和装置与流程

文档序号:11918612阅读:234来源:国知局
生成数据集的方法和装置与流程

本发明涉及信息技术领域,并且更具体地,涉及一种生成数据集的方法和装置。



背景技术:

随着具有庞大潜在市场规模的物联网、自动驾驶等新兴颠覆性技术的兴起,以及IBM、Google、百度等标杆公司在认知计算领域的大规模投入与成功实践,我们正见证着人工智能的爆炸式发展。正是认知计算、机器学习、大数据挖掘等技术的发展让机器能够具有模拟人类通过感官接受外界信息、识别周围环境的感知能力,进而理解感知到的环境内容,并根据理解进行有目的处理的“认知”能力成为可能。机器也可以具有“学习”这项只属于人类的高级技能。

然而,让机器获得这种“认知”能力首先就要对其进行大量的数据输入,并使用这些数据对系统进行训练,也就是要让机器“学习”,系统输入的数据集越大训练效果越好。这就像人学习一样,看的书本越多,认识的知识越多,识别能力也就越强。而较小的数据集难以满足大规模算法模型(如神经网络)训练的需要,经常发生过拟合,即往往在训练集上准确率很高,而在使用测试数据集测试时效果会变差,成为制约算法分析的瓶颈。因此,庞大的数据集是认知计算系统应用成功实现的关键。

用于训练系统的数据必须是带有标注的,而标注过的数据集是公司的核心机密,比如百度每年投入千万规模的经费用于标记数据,因此带标注的数据集具有非常大的应用价值与意义,达到一定规模的数据集更是非常昂贵。因此,亟需一种利用现有的数据集生成更多的数据集的方法,来丰富认知计算系统的训练数据。



技术实现要素:

本发明实施例提供一种生成数据集的方法和装置,能够利用现有的源数 据集中的源数据生成包括大量的丰富的目标数据的目标数据集。

第一方面,提供了一种生成数据集的方法,该方法包括:将第一源数据中的第一源数据元素进行数据处理,生成多个目标数据元素;根据所述多个目标数据元素的配置信息,由所述多个目标数据元素生成目标数据集,所述配置信息指示由所述多个目标数据元素生成所述目标数据集的生成方式,所述目标数据集中的每个目标数据包括所述多个目标数据元素中的至少一个目标数据元素。

结合第一方面,在第一方面的第一种实现方式中,所述配置信息包括以下信息中的至少一项:所述多个目标数据元素中的每个目标数据元素在所述目标数据集中的每个目标数据中出现的概率、所述每个目标数据元素在所述目标数据集中的每个目标数据中出现的位置或所述每个目标数据元素在所述位置出现的概率。

结合第一方面及其上述实现方式,在第一方面的第二种实现方式中,所述方法还包括:根据将所述第一源数据元素进行数据处理生成的所述多个目标数据元素,以及将第二源数据元素进行数据处理生成的多个目标数据元素,生成所述目标数据集。

结合第一方面及其上述实现方式,在第一方面的第三种实现方式中,所述将第一源数据中的第一源数据元素进行数据处理,生成多个目标数据元素,包括:采用以下数据处理方式中的至少一种,对所述第一源数据元素进行数据处理,生成该多个目标数据元素:拉伸、剪裁、变色、亮度调节、饱和度调节、旋转、光照变化、仿射变换、加噪声。

结合第一方面及其上述实现方式,在第一方面的第四种实现方式中,所述第一源数据元素的数据类型为以下数据类型中的一种:图像、语音、文本或环境参数。

结合第一方面及其上述实现方式,在第一方面的第五种实现方式中,该第一源数据元素为带有标注的数据元素。

第二方面,提供了一种生成数据集的装置,该装置包括执行第一方面中的方法的各模块。

第三方面,提供了一种生成数据集的装置,该装置包括存储器和与该存储器连接的处理器,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,当该处理器执行该存储器中存储的指令时,该处理具体用于执行 第一方面中的方法。

基于上述技术方案,本发明实施例的生成数据集的方法和装置,能够通过对现有的数据集中的源数据元素进行数据处理生成多个目标数据元素,然后由该多个目标数据元素生成包括大量的丰富的目标数据的目标数据集,因此,目标数据集丰富了现有的数据集中的数据的多样性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的生成数据集的方法的示意性流程图。

图2是根据本发明另一实施例的生成数据集的方法的流程图。

图3是根据本发明实施例的生成数据集的装置的示意性框图。

图4是根据本发明另一实施例的生成数据集的装置的示意性框图

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1示出了根据本发明实施例的生成数据集的方法100的示意性流程图,该方法100可以由生成数据集的装置完成,如图1所示,该方法100包括:

S110,将第一源数据中的第一源数据元素进行数据处理,生成多个目标数据元素;

S120,根据该多个目标数据元素的配置信息,由该多个目标数据元素生成目标数据集,该配置信息指示由该多个目标数据元素生成该目标数据集的生成方式,该目标数据集中的每个目标数据包括该多个目标数据元素中的至少一个目标数据元素。

具体而言,第一源数据可以为现有的数据集中的部分或全部,该生成数 据集的装置可以对该第一源数据中的第一源数据元素进行数据处理,生成针对该第一源数据元素的多个目标数据元素。可选地,该第一源数据元素可以为带有标注的数据元素。可选地,该生成数据集的装置可以通过对该第一源数据元素采用多种不同的数据处理方式进行数据处理来生成该多个目标数据元素,例如,在该第一源数据元素为图像元素时,可以采用拉伸、剪裁、变色、亮度调节、饱和度调节、旋转、光照变化、仿射变换或加噪声等多种数据处理方式中的一种或几种的组合对该第一源数据元素进行数据处理。这样通过对该第一源数据元素采用不同的数据处理方式进行处理可以得到多个不同的目标数据元素。在对该第一源数据元素进行数据处理以后,可选地,该生成数据集的装置还可以对第二源数据元素进行数据处理,该第二源数据元素可以是从第一源数据中获取的,也可以是从现有的数据集中的另一个源数据中获取的,以图像元素为例,该第二源数据元素和第一源数据元素可以取自同一张图片,也可以取自不同的图片,本发明实施例对此不作限制。可选地,同样可以采用上述数据处理方式中的一种或几种的组合对该第二源数据元素进行数据处理,来生成针对该第二源数据元素的多个目标数据元素。也就是说,该步骤S110可以重复一次或多次。同样地,也可以对该第一源数据元素和第二源数据元素采用相同的处理方式进行处理。可选地,该生成目标数据集的装置还可以对一张图片中的全部数据元素进行统一的处理。在生成该多个目标数据元素后,该生成数据集的装置可以根据该多个目标数据元素生成目标数据集。该多个目标数据元素可以为对该第一源数据元素进行数据处理生成的多个目标数据元素,也可以为对该第一源数据元素和该第二源数据元素进行数据处理生成的多个目标数据元素,本发明实施例对此不作限制。可选地,在生成该多个目标数据元素后,该生成数据集的装置可以根据该多个目标数据元素的配置信息,由该多个目标数据元素生成目标数据集,该配置信息指示该多个目标数据元素生成该目标数据集的生成方式。可选地,该配置信息可以指示该生成数据集的装置根据该多个目标数据元素在目标数据集中的每个目标数据中出现的概率生成该目标数据集,可选地,该配置信息可以包括该多个目标数据元素中的每个目标数据元素在该目标数据集中的每个目标数据中出现的概率,通过控制该多个目标数据元素中的每个目标数据元素在该目标数据集中的每个目标数据中出现的概率,可以生成该多个目标数据元素中的一个或多个目标数据元素随机组合而成的多个目 标数据;可选地,该配置信息还可以包括该多个目标数据元素中的每个目标数据元素在该目标数据集中的每个目标数据中出现的位置以及在该位置出现的概率,该生成数据集的装置可以根据该多个目标数据元素中的每个目标数据元素在该目标数据集中的每个目标数据中出现的位置以及在该位置出现的概率,可以生成该多个目标数据元素中的一个或多个目标数据元素在上述位置中的任意位置组合而成的多个目标数据。可选地,该生成数据集的装置还可以为该多个目标数据元素选择一张或多张背景图片,通过设置该多个目标数据元素中的每个目标数据元素在每张背景图片中出现的概率、该多个目标数据元素中的每个目标数据元素在该每张背景图片中出现的位置以及在该位置出现的概率可以生成更大数据量的目标数据集。例如,通过设置该多个目标数据元素中的每个目标数据元素在背景图片中出现的概率,就可以产生大量的由不同的目标数据元素组合产生的目标数据,还可以通过设置该多个目标数据元素在背景图片中的位置,以及在该位置出现的概率,可以生成该多个目标数据元素中的每个目标数据元素出现在背景图片中不同位置的多个目标数据,还可以生成该多个目标数据元素中的部分或全部数据元素的组合出现在背景图片中不同位置的多个目标数据。

因此,本发明实施例的生成数据集的方法,能够通过对现有的第一源数据中的第一源数据元素进行数据处理生成多个目标数据元素,然后根据该多个目标数据元素生成包括大量的丰富的目标数据的目标数据集,因此,目标数据集丰富了现有的数据集中的数据的多样性,从而丰富了认知计算系统的训练数据。

应理解,本发明实施例以该第一源数据元素的数据类型为图像元素为例进行介绍仅仅是为了示例,而不应对本发明实施例构成任何限定,本发明实施例也不限于此,本发明实施例的该第一源数据元素的数据类型还可以为以下数据类型的一种:语音、文本或环境参数,本发明实施例可以对语音元素进行加噪声、裁剪处理或者可以将多个语音元素进行合成处理,也可以设置可以作为噪声的语音元素在新生成的语音数据中的概率来丰富语音数据集中语音数据的数量等。

可选地,在本发明实施例中,该将第一源数据中的第一源数据元素进行数据处理,生成多个目标数据元素,包括:

采用以下数据处理方式中的至少一种对该第一源数据元素进行数据处 理,生成多个目标数据元素:

拉伸、剪裁、变色、亮度调节、饱和度调节、旋转、光照变化、仿射变换、加噪声。

具体而言,该生成目标数据集的装置可以通过采用不同的数据处理方式,对该第一源数据元素进行数据处理,以生成多个目标数据元素,可选地,可以采用以下数据处理方式中的至少一种对该第一源数据元素进行数据处理:拉伸、剪裁、变色、亮度调节、饱和度调节、旋转、光照变化、仿射变换、加噪声。这样,通过采用上述的数据处理方式中的一种或几种的组合对第一源数据元素进行数据处理,可以产生大量的对应该第一源数据元素的多个目标数据元素。可选地,在这个步骤中,该生成数据集的装置还可以设置在不同的处理方式下的相应参数的概率值,例如,当采用拉伸的处理方式对该第一源数据元素进行处理时,可选地,可以设置拉伸的比例范围,也可以设置第一源数据元素在该比例范围内的概率值,再例如,当采用旋转的处理方式对该第一源数据元素进行处理时,可选地,可以设置旋转的角度范围,也可以设置该第一源数据元素在该角度范围内的概率值等。

应理解,在本发明实施例中,该生成数据集的装置还可以采用其他的处理方式对该第一数据元素进行处理,例如,对该第一数据元素进行腐蚀,锐化、或膨胀处理等,本发明实施例对此不作限制。

可选地,在本发明实施例中,该配置信息可以包括以下信息中的至少一项:该多个目标数据元素中的每个目标数据元素在该目标数据集中的每个目标数据中出现的概率、该每个目标数据元素在该目标数据集中的每个目标数据中出现的位置或该每个目标数据元素在该位置出现的概率。

具体而言,该配置信息可以包括以下信息中的至少一项:该多个目标数据元素中的每个目标数据元素在该目标数据集中的每个目标数据中出现的概率、该每个目标数据元素在该目标数据集中的每个目标数据中出现的位置或该每个目标数据元素在该位置出现的概率。在对该第一源数据元素通过采用不同的数据处理方式进行数据处理,生成多个目标数据元素后,可选地,该生成数据集的装置可以根据该配置信息由该多个目标数据元素生成该目标数据集。具体来说,该生成数据集的装置可以通过设置该每个目标数据元素的在该目标数据集中的每个目标数据中出现的概率,可以生成大量的由不同数量的目标数据元素任意组合生成的目标数据,通过设置每个目标数据元 素在目标数据集中的每个目标数据中出现的位置以及在该位置出现的概率,可以产生大量的同一目标数据元素在不同的位置出现的目标数据或不同的目标数据元素在不同的位置出现的目标数据等,这些目标数据组成目标数据集,也就是说,该生成数据集的装置通过设置上述信息中的至少一项,可以产生大量的不同场景下的目标数据元素的组合,从而丰富了目标数据集中目标数据的数量和内容。

可选地,在本发明实施例中,待处理的源数据元素也可以为多个,此时该方法100还可以包括:

根据将该第一源数据元素进行数据处理生成的该多个目标数据元素,以及对第二源数据元素进行数据处理生成的多个目标数据元素,生成该目标数据集。

具体而言,在对该第一源数据元素进行数据处理得到多个对应该第一源数据元素的多个目标数据元素后,可选地,该生成数据集的装置还可以对第二源数据中的第二源数据元素进行数据处理,可选地,可以采用以下数据处理方式中的至少一种对该第二源数据元素进行数据处理,生成多个目标数据元素:拉伸、剪裁、变色、亮度调节、饱和度调节、旋转、光照变化、仿射变换、加噪声。这样,生成目标数据集时,就可以根据该第一源数据元素生成的该多个目标数据元素,以及该第二源数据元素生成的该多个目标数据元素生成该目标数据集。因此,通过增加待处理的源数据元素的数量,进而生成目标数据集的数据源的内容也就更加丰富,将每个源数据元素进行数据处理,然后组合生成的目标数据的数量也就更大,内容也就更加丰富。

应理解,该第一源数据和第二源数据可以为同一个源数据,也可以为不同的源数据,当该第一源数据和第二源数据为同一个源数据时,也就是该第一源数据元素和第二源数据元素取自同一个源数据,以图片数据为例,也就是该第一源数据元素和第二源数据元素可以取自同一张图片;该第一源数据元素和第二源数据元素可以为同一个源数据元素,也可以为不同的源数据元素,可以为带有相同标注的数据元素,也可以为带有不同标注的数据元素,本发明实施例对此不作限制。

可选地,在本发明实施例中,该方法100还可以包括:

在确定该目标数据集中存在两个完全相同的目标数据时,将该两个完全相同的目标数据中的其中一个目标数据删除。

具体来说,在该生成数据集的装置生成目标数据集后,可以对该目标数据集中的任意两个目标数据进行对比分析,在确定该目标数据集中存在两个完全相同的目标数据时,可以将相同的目标数据中的一个目标数据删除,从而使得相同的目标数据只保留一份,从而减少了目标数据集中目标数据的冗余,提高了目标数据集中目标数据的质量和精度。

因此,本发明实施例的生成数据集的方法,能够通过对现有的第一源数据中的第一源数据元素进行数据处理生成多个目标数据元素,然后根据该多个目标数据元素生成包括大量的丰富的目标数据的目标数据集,因此,目标数据集丰富了现有的数据集中的数据的多样性。

下面结合图2,以图片数据集为具体实施例对根据本发明实施例的生成数据集的方法进行详细介绍。

在S201中,从源数据集中获取源数据元素。

可选地,可以将现有的数据集中的源数据输入到生成数据集的装置,作为该生成数据集的装置的输入数据,用户可以从这些输入的源数据中选择需要处理的数据元素,为了方便用户快速搜索需要处理的带有标注的数据元素,该生成数据集的装置还可以将该数据集中的带有标注的数据元素进行分类,例如,可以按照动物、植物、任务、建筑物等对这些带有标注的数据元素进行分类,也可以将动物进行进一步的分类等,本发明实施例不做限制。该生成数据集的装置可以根据用户的需要在该带有标注的数据集中检索出包括用户需要的标注的数据元素的数据。可选地,用户可以从这些带有标注的数据元素中选择一个作为待处理的源数据元素。

例如,为图片数据集的部分示例,在该图片数据集中存在大量的带有标注的图像元素,可以从这些带有标注的图像元素中选择用户需要处理的图像元素进行处理。例如,用户可以选择带有猴子标注的图像元素,那么该生成数据集的装置可以把图片数据集中的带有猴子标注的图片搜索出来,用户可以选择对其中的一个图像元素进行处理,也可以选择对其中的多个图像元素进行处理。

在S202中,将该源数据元素进行数据处理,生成多个目标数据元素。

可选地,该生成数据集的装置可以采用以下数据处理方式中的至少一种对该源数据元素进行数据处理,生成多个目标数据元素:

拉伸、剪裁、变色、亮度调节、饱和度调节、旋转、光照变化、仿射变 换、加噪声。

在S203中,判断是否需要添加新的源数据元素,如果是,流程进行到S201,从源数据集中获取另一个待处理的源数据元素,对该源数据元素进行数据处理,生成针对该源数据元素的多个目标数据元素。如果否,流程进行到S204。

也就是说,步骤S201和S202可以重复多次,这样就可以得到针对多个源数据元素的多个目标数据元素,从而丰富了目标数据集的数量和多样性。

在S204中,根据上述多个目标数据元素生成目标数据集。

可选地,该生成目标数据集的装置可以根据以下信息中的至少一项,由该多个目标数据元素生成该目标数据集:该多个目标数据元素中的每个目标数据元素在该目标数据集中的每个目标数据中出现的概率、该每个目标数据元素在该目标数据集中的每个目标数据中出现的位置或该每个目标数据元素在该位置出现的概率。

应理解,该多个目标数据元素可以为一个源数据元素生成的多个目标数据元素,也可以为多个源数据元素生成的多个目标数据元素,本发明实施例对此不作限制。

例如,通过对两个带有猴子标注的图像元素进行数据处理,可以得到多个不同的带有猴子标注的图像元素,然后可以给这些带有猴子标注的图像元素选择一张背景图片,通过设置这些图像元素在背景图片中出现的概率、出现的位置以及出现在上述位置的概率可以产生大量的图片数据。

上文结合图1和图2,详细介绍了根据本发明实施例的生成数据集的方法,下文结合图3,对根据本发明实施例的生成数据集的装置进行介绍。

图3示出了根据本发明实施例的生成数据集的装置300的示意性框图,如图3所示,该生成数据集的装置300包括:

数据处理模块310,用于将第一源数据中的该第一源数据元素进行数据处理,生成多个目标数据元素;

数据生成模块320,用于根据多个目标数据元素的配置信息,由该数据处理模块310处理得到的该多个目标数据元素生成目标数据集,该目标数据集中的每个目标数据包括该多个目标数据元素中的至少一个目标数据元素。

具体而言,第一源数据可以为现有的数据集中的部分或全部,该数据处理模块310可以对该第一源数据中的第一源数据元素进行数据处理,生成针 对该第一源数据元素的多个目标数据元素,可选地,通过对该第一源数据元素采用以下的数据处理方式中的至少一种生成多个目标数据元素:拉伸、剪裁、变色、亮度调节、饱和度调节、旋转、光照变化、仿射变换或加噪声。这样通过对该第一源数据元素采用不同的数据处理方式进行处理可以得到多个不同的目标数据元素。在生成该多个目标数据元素后,该数据生成模块320可以根据该多个目标数据元素的配置信息,由该多个目标数据元素生成目标数据集。可选地,该配置信息可以包括以下信息中的至少一项:该多个目标数据元素中的每个目标数据元素在该目标数据集中的每个目标数据中出现的概率、该每个目标数据元素在该目标数据集中的每个目标数据中出现的位置或该每个目标数据元素在该位置出现的概率。可选地,数据生成模块320可以为该多个目标数据元素选择一张或多张背景图片,通过设置该多个目标数据元素中的每个目标数据元素在每张背景图片中出现的概率、该多个目标数据元素中的每个目标数据元素在该每张背景图片中出现的位置以及在该位置出现的概率来生成更大数据量的目标数据集。

因此,本发明实施例的生成数据集的装置,能够通过对现有的第一源数据中的第一源数据元素进行数据处理生成多个目标数据元素,然后根据该多个目标数据元素生成包括大量的丰富的目标数据的目标数据集,因此,目标数据集丰富了现有的数据集中的数据的多样性。

可选地,在本发明实施例中,该数据处理模块310具体用于:

采用以下数据处理方式中的至少一种对该第一源数据元素进行数据处理,生成多个目标数据元素:

拉伸、剪裁、变色、亮度调节、饱和度调节、旋转、光照变化、仿射变换、加噪声。

具体而言,该数据处理模块310可以采用以下数据处理方式中的至少一种对该第一源数据元素进行数据处理:拉伸、剪裁、变色、亮度调节、饱和度调节、旋转、光照变化、仿射变换、加噪声。这样,通过采用上述的数据处理方式中的一种或几种的组合,可以产生大量的对应该第一源数据元素的多个目标数据元素。可选地,数据处理模块310还可以设置生成的每个目标数据元素在目标数据集中出现的概率,这样,在根据这些目标数据元素生成目标数据时,就可以根据该每个目标数据元素在目标数据集中出现的概率,进一步丰富目标数据集中目标数据的数量。

可选地,在本发明实施例中,该配置信息可以包括以下信息中的至少一项:该多个目标数据元素中的每个目标数据元素在该目标数据集中的每个目标数据中出现的概率、该每个目标数据元素在该目标数据集中的每个目标数据中出现的位置或该每个目标数据元素在该位置出现的概率。

具体而言,在该数据处理模块310对该第一源数据元素通过采用不同的数据处理方式进行数据处理,生成多个目标数据元素后,可选地,该数据生成模块320可以根据该多个目标数据元素的配置信息,由该多个目标数据元素生成目标数据集,可选地,该配置信息可以包括以下信息中的至少一项:该多个目标数据元素中的每个目标数据元素在该目标数据集中的每个目标数据中出现的概率、该每个目标数据元素在该目标数据集中的每个目标数据中出现的位置或该每个目标数据元素在该位置出现的概率。具体来说,该数据生成模块320可以通过设置该每个目标数据元素在该目标数据集中的每个目标数据中出现的概率,生成大量的由不同数量的目标数据元素任意组合生成的目标数据,通过设置每个目标数据元素在目标数据集中的每个目标数据元素中出现的位置以及在该位置出现的概率,产生大量的同一目标数据元素在不同的位置出现的目标数据,或者不同的目标数据元素在不同的位置出现的目标数据,这些目标数据组成目标数据集,也就是说,通过设置上述信息中的至少一项,可以产生大量的不同场景下的目标数据元素的组合,从而丰富了目标数据集的数量。

可选地,在本发明实施例中,该数据生成模块320还用于根据将该第一源数据元素进行数据处理生成的该多个目标数据元素,以及将第二源数据元素进行数据处理生成的多个目标数据元素生成该目标数据集。

具体而言,在对该第一源数据元素进行数据处理得到多个对应该第一源数据元素的多个目标数据元素后,可选地,然后该数据处理模块310还可以对第二源数据中的第二源数据元素进行数据处理。这样,在该数据生成模块320生成目标数据集时,就可以根据该第一源数据元素生成的该多个目标数据元素,以及该第二源数据元素生成的该多个目标数据元素生成该目标数据集。因此,通过增加待处理的源数据元素的数量,进而生成目标数据集的数据源的内容也就更加丰富,将每个源数据元素进行数据处理,然后组合生成的目标数据的数量也就更大,内容也就更加丰富。

可选地,在本发明实施例中,该第一源数据元素的数据类型还可以为以 下数据类型的一种:语音、文本或环境参数。

可选地,在本发明实施例中,该生成数据集的装置300还可以包括:

查重模块,用于在确定该目标数据集中存在两个完全相同的目标数据时,将该两个完全相同的目标数据中的其中一个目标数据删除。

在该数据生成模块320生成目标数据集后,可选地,该查重模块可以对该目标数据集中的任意两个目标数据进行对比分析,删除相同的目标数据中的一个,从而使得相同的目标数据只保留一份,减少了目标数据集的冗余。

可选地,在本发明实施例中,该生成数据集的装置300还可以包括:

数据元素添加模块,用于在对该第一源数据元素进行数据处理后,获取新的待处理的源数据元素,将该待处理的源数据元素送入到数据处理模块310进行数据处理。

也就是说,该生成数据集的装置可以对多个源数据元素分别进行数据处理,根据该多个源数据元素处理得到的多个目标数据元素生成目标数据集。

可选地,在本发明实施例中,该生成数据集的装置300还可以包括:

数据存储模块,用于在待处理的源数据元素为多个时,临时存储已进行数据处理的源数据元素生成的多个目标数据元素。

因此,本发明实施例的生成数据集的装置,能够通过对现有的第一源数据中的第一源数据元素进行数据处理生成多个目标数据元素,然后根据该多个目标数据元素生成包括大量的丰富的目标数据的目标数据集,因此,该目标数据集丰富了现有的数据集中的数据的多样性。

如图4所示,本发明实施例还提供了一种生成数据集的装置800,该生成数据集的装置800包括处理器810、存储器820、总线系统830。其中,处理器810、存储器820通过总线系统830相连,该存储器820用于存储指令,该处理器810用于执行该存储器820存储的指令。其中,该处理器810用于将第一源数据中的第一源数据元素进行数据处理,生成多个目标数据元素,根据该多个目标数据元素的配置信息,由该多个目标数据元素生成目标数据集,该配置信息指示由该多个目标数据元素生成该目标数据集的生成方式,该目标数据集中的每个目标数据包括该多个目标数据元素中的至少一个目标数据元素。

应理解,在本发明实施例中,该处理器810可以是中央处理单元(Central Processing Unit,简称为“CPU”),该处理器810还可以是其他通用处理器、 数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器820可以包括只读存储器和随机存取存储器,并向处理器810提供指令和数据。存储器820的一部分还可以包括非易失性随机存取存储器。例如,存储器820还可以存储设备类型的信息。

该总线系统830除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统830。

在实现过程中,上述方法的各步骤可以通过处理器810中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器820,处理器810读取存储器820中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。

可选地,在本发明实施例中,该处理器810具体用于:

采用以下数据处理方式中的至少一种对该第一源数据元素进行数据处理,生成多个目标数据元素:

拉伸、剪裁、变色、亮度调节、饱和度调节、旋转、光照变化、仿射变换、加噪声。

可选地,在本发明实施例中,该配置信息包括以下信息中的至少一项:该多个目标数据元素中的每个目标数据元素在该目标数据集中出现的概率、该每个目标数据元素在该目标数据集中出现的位置或该每个目标数据元素在该位置出现的概率。

可选地,在本发明实施例中,该处理器810还用于:

根据将该第一源数据元素进行数据处理生成的该多个目标数据元素,以及将第二源数据元素进行数据处理生成的多个目标数据元素,生成该目标数据集。

可选地,在本发明实施例中,该第一源数据元素的数据类型还可以为以下数据类型的一种:语音、文本或环境参数。

因此,本发明实施例的生成数据集的装置,能够通过对现有的第一源数据中的第一源数据元素进行数据处理生成多个目标数据元素,然后根据该多个目标数据元素生成包括大量的丰富的目标数据的目标数据集,因此,该目标数据集丰富了现有的数据集中的数据的多样性。

应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元 中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1