本发明涉及数据增强,尤其是涉及一种基于形状空间理论的数据特征增强方法、装置、电子设备及介质。
背景技术:
1、在利用机器学习特别是深度学习进行数据处理的时候,需要大量的训练样本。然而,由于设备成本、人力成本、时间成本等原因,有标注高质量的训练样本往往是有限的。因此需要数据增强来提高训练样本的数量和多样性。数据增强是一种提升机器学习模型性能的简单且高效的方法。目前主要有两种方式:一种是对数据进行一定程度的扰动,比如对图像数据进行平移、旋转、翻转、裁剪、添加噪声等方法。这些处理方法相对简单,但也存在一定的局限性。更复杂的数据处理方法,比如图像处理中的随机擦除、mixup、cutout、randaugment等,可以通过对原始图像数据进行更深入的修改,迫使模型学习更多图像数据的细节,从而提高其泛化能力。另一种方式是使用生成模型对原始数据进行扩充,常见的生成模型包括是gans(生成对抗网络)和vae(自编码器),由于其不可思议的生成能力,得到了迅速发展。但目前大多数生成模型仍然依赖于较大的数据规模,如果样本数据量较少就会导致生成的图像质量较差,并且可能生成现实世界中不存在的图像样本。
技术实现思路
1、本发明的目的是针对机器学习过程中可能面临的小样本训练数据,提供一种基于形状空间理论的数据特征增强方法、装置、电子设备及介质,首先,利用形状空间理论来提取训练样本的特征作为一个特征向量投影到预形状空间中;然后,构造测地曲线拟合预形状空间中多个样本的特征向量;沿着测地曲线,可以生成多个高质量的特征向量用来满足机器学习模型对样本数据的需求。这种方法比目前的数据生成方法更加容易和迅速,同时也能满足模型训练对数据量的需求,从而提高模型的数据处理能力。
2、本发明的目的可以通过以下技术方案来实现:
3、一种基于形状空间理论的数据特征增强方法,包括以下步骤:
4、s1、构建特征提取模型,将训练数据输入模型进行初训练,保存训练好的模型参数;
5、s2、将训练数据输入到初训练后的特征提取模型中,获取训练特征,构建样本的第一特征数据集;
6、s3、对第一特征数据集中每一个样本的特征向量进行升维处理;
7、s4、投影升维后的特征向量到预形状空间,得到第二特征数据集;
8、s5、构造测地曲线函数拟合预形状空间中的第二特征数据集;
9、s6、利用拟合好的测地曲线扩充样本特征数据;
10、s7、载入扩充的特征数据和原始的特征数据,训练机器学习模型直至收敛。
11、所述步骤s3具体为:对每一个样本的特征向量u0={x1,x2,…,xn},采用升维函数y=x求得新元素,得到升维后的特征向量u={x1,y1,x2,y2,…,xn,yn},向量维度从n变为2n,其中,n为图像样本的特征数据维度。
12、所述步骤s4包括以下步骤:
13、s41、对升维后的特征向量u减其特征均值,得到特征向量u′:
14、u′={x′1,y′1,x′2,y′2,…,x′n,y′n|x′i=xi-xμ,y′i=yi-yμ,i∈[1,n]}
15、其中,
16、s42、对特征向量u′除以向量u′的模长,得到特征向量u″:
17、u″={x″1,y″1,x″2,y″2,…,x″n,y″n}
18、其中,
19、s43、基于特征向量u″得到第二特征数据集,记为
20、所述测地曲线函数为:
21、
22、其中,s表示弧度值;参数v和参数w为测地曲线的待确定参数,即测地曲线起终的特征点。
23、所述步骤s5包括以下步骤:
24、s51、计算第二特征数据集中所有特征向量u″1,u″2,…,u″m之间的距离,选取距离总和最大的特征点作为初始化参数v*的样本点;
25、s52、获取距离特征向量v*最远的两个已知样本特征向量w0,w1,并代入测地曲线函数中,遍历弧度s得到曲线上多个特征向量集合将参数v*与分别组合,得到备选测地曲线集合其中,s表示弧度值的数量;
26、s53、分别计算特征数据集中所有特征向量u″1,u″2,…,u″m到测地曲线集的测地距离,在特征向量集合中找到满足的一个特征向量记为w*,其中,表示特征数据集分别到测地曲线集的距离;
27、s54、将w*赋给v*,重复s52-s53,直至w*,v*之间不在变化为止,完成对第二特征数据集的拟合。
28、所述s6具体为:利用拟合好的测地曲线扩充样本特征数量,即,采用指定范围的均匀分布随机抽样出k个弧度值,依次代入测地线中,得到新生成的特征数据{z1,…,zk},其中,s表示弧度值。
29、所述特征提取模型基于神经网络构建。
30、一种基于形状空间理论的数据特征增强装置,所述装置包括:
31、模型构建与初训练模块:构建特征提取模型,将训练数据输入模型进行初训练,保存训练好的模型参数;
32、数据特征增强模块,用于执行以下步骤:将训练数据输入到初训练后的特征提取模型中,获取训练特征,构建样本的第一特征数据集;对第一特征数据集中每一个样本的特征向量进行升维处理;投影升维后的特征向量到预形状空间,得到第二特征数据集;构造测地曲线函数拟合预形状空间中的第二特征数据集;利用拟合好的测地曲线扩充样本特征数据;
33、再训练模块:载入数据特征增强模块扩充的特征数据和原始的特征数据,训练机器学习模型直至收敛。
34、一种电子设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序以执行上述所述的数据特征增强方法。
35、一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的数据特征增强方法。
36、与现有技术相比,本发明具有以下有益效果:
37、(1)本发明的核心优势在于其针对特征数据进行处理,从而避免了数据类型对于增强效果的负面影响,适用于各种数据类型的数据集。
38、(2)基于数据特征,本发明在预形状空间中构造测地曲线,能够在保留数据本身特性的基础上,提升数据的丰富性,从而为机器学习模型的训练提供更多的信息。
39、(3)本发明适用于小样本数据环境下机器学习模型的训练,扩充数据的引入有助于缓解模型对于数据规模的依赖,提高机器学习模型中小样本的训练效果,进而提升模型的泛化性能,从而有效应对数据量不足的问题,同时可以降低时间和人力成本,为数据科学领域的研究和实践带来了积极影响。
40、(4)本发明通过生成的特征数据来直接扩充原始数据集,相比于目前的数据增强方法更加容易实现,且生成数据更加迅速。
1.一种基于形状空间理论的数据特征增强方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于形状空间理论的数据特征增强方法,其特征在于,所述步骤s3具体为:对每一个样本的特征向量u0={x1,x2,…,xn},采用升维函数y=x求得新元素,得到升维后的特征向量u={x1,y1,x2,y2,…,xn,yn},向量维度从n变为2n,其中,n为图像样本的特征数据维度。
3.根据权利要求1所述的一种基于形状空间理论的数据特征增强方法,其特征在于,所述步骤s4包括以下步骤:
4.根据权利要求1所述的一种基于形状空间理论的数据特征增强方法,其特征在于,所述测地曲线函数为:
5.根据权利要求4所述的一种基于形状空间理论的数据特征增强方法,其特征在于,所述步骤s5包括以下步骤:
6.根据权利要求1所述的一种基于形状空间理论的数据特征增强方法,其特征在于,所述s6具体为:利用拟合好的测地曲线扩充样本特征数量,即,采用指定范围的均匀分布随机抽样出k个弧度值,依次代入测地线中,得到新生成的特征数据{z1,…,zk},其中,s表示弧度值。
7.根据权利要求1所述的一种基于形状空间理论的数据特征增强方法,其特征在于,所述特征提取模型基于神经网络构建。
8.一种基于形状空间理论的数据特征增强装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序以执行权利要求1-7任一所述的数据特征增强方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一所述的数据特征增强方法。