用于减少训练数据的方法与流程

文档序号:30225951发布日期:2022-06-01 01:12阅读:187来源:国知局
用于减少训练数据的方法与流程

1.本发明涉及一种按照权利要求1的前序部分所述的用于减少训练数据的方法。


背景技术:

2.由tianyang wang、jun huan、bo li的《data dropout:为卷积神经网络优化训练数据》(ieee,第30届人工智能工具国际会议(ictai)2018年)已知,通过有针对性地减少训练数据可以改进对人工神经网络(knn)的训练。在此,分两个步骤执行训练,其中,训练的第一部分用完整的训练数据组进行并且训练的第二部分用减少的数据组进行。


技术实现要素:

3.在这个背景下,本发明的任务在于,进一步改进现有技术并且特别是说明了一种用于减少训练数据的有效方法,该方法优选避免了用完整的、未经减少的训练数据组的训练。
4.该任务通过一种带有权利要求1的特征的用于减少训练数据的方法解决。该任务同样通过一种带有权利要求14的特征的计算机程序产品和一种带有权利要求15的特征的计算机系统解决。本发明的有利的设计方案是从属权利要求的主题。
5.按照用于借助包括编码器的系统来减少训练数据的方法,其中,至少一部分训练数据形成一个时间序列并且综合成或者说组合成第一组训练数据,并且编码器将输入数据映射到一组原型特征向量的原型特征向量上,a)接收来自第一组训练数据的第一输入数据,b)通过编码器传播(propagieren)第一输入数据,其中,由编码器将一个或多个特征向量分派给所述输入数据,并且根据所分派的特征向量求出特定量的原型特征向量并将其分派给第一输入数据,c)为第一输入数据设立第一聚合向量,d)用来自第一组训练数据的第二输入数据执行步骤a)至c)并且为第二输入数据设立第二聚合向量,e)至少比较第一聚合向量和第二聚合向量并且确定所述聚合向量的相似度和f)当所确定的相似度超过阈值时,标记或移除来自第一组训练数据的第一输入数据,其中,标记或移除造成的结果是,来自第一训练数据组的第一输入数据不用于第一次训练。
6.按本发明的方法的优点是,可以快速和高效地从训练排除训练数据并且因此改进训练成果。所述方法也进一步改进了高效执行预处理步骤(英文的“preprocessing”,即预处理)的可能性。用关于训练数据的内容的附加信息(“labeling”,即标签)来丰富各个训练数据例如就属于此。因为在执行所述方法之后,必然会标注更少的数据,所以预处理也更为高效。
7.同样有利的是,按本发明所使用的编码器可以用未准备好的或者说未预处理的数据、特别是未标注的数据进行训练。这例如在训练包括所述编码器的自编码器时发生。不受监督的机器学习的训练要不耗费得多,因为可以省去标注或注解训练数据的耗时的步骤。
8.在所述方法的一种扩展设计方案中,第一组训练数据包括视频帧、雷达帧和/或激光雷达帧。
9.训练数据的典型类型是传感器数据并且在此专门是成像的或检测周围环境的传感器、例如相机、雷达传感器或激光雷达传感器的传感器数据。因此典型的训练数据是视频帧、雷达帧或激光雷达帧。
10.在所述方法的一种实施方式中,第一组训练数据的视频帧、雷达帧和/或激光雷达帧是传感器数据的时间序列、特别是在车辆行驶时记录的传感器数据的或者人工生成的、从而模仿车辆行驶的传感器数据的传感器数据的时间序列。
11.帧是关于由传感器检测的图像部分的瞬时记录。各个单个的帧大多形成了由时间上前后相继的单帧构成的序列。作为传感器数据的时间序列的这种训练数据经常由车辆记录。这些车辆在此运动经过常见的道路交通,以便为这种状况采集典型的传感器数据。传感器数据备选也可以人工生成。为此可以在仿真中生成例如道路交通的虚构的场景并且由此计算出针对仿真车辆的传感器数据。这可以出于时间原因而发生,因为仿真可以运行得比真正的行驶快很多。甚至在现实中无法良好调整的状况、例如紧急制动或甚至事故,同样也能在仿真中简单地加以调整。在这种序列训练数据中极为常见的是,并非所有帧包含用于训练的重要信息或两个帧仅包含现实上仅冗余的信息。在此例如指的是道路交通中的等待红灯。在等待期间采集了大量传感器数据,但所述传感器数据在对训练重要的方面没有差别或差别不大。
12.在所述方法的其它实施方式中,第一组训练数据的第一输入数据和第二输入数据是在训练数据的时间序列中的时间上连续相继的数据。
13.在所述方法的另一种实施方式中,第一组训练数据的训练数据用于训练用来高度自动化地或自主地控制车辆的算法。
14.在开发用于控制高度自动化的或自主的车辆的算法的范畴内,需要大量训练数据。因为大部分算法基于人工智能和特别是深度神经网络,所以必须用相应的训练数据训练这些算法。需要进一步的训练数据用于测试或保护开发的算法。按本发明的方法可以用于特别是从很大一组训练数据中选出重要的训练数据,然后用所述重要的训练数据训练或测试用于高度自动化的或自主的车辆的算法。
15.在所述方法的一种实施方式中,直接在记录或生成训练数据时执行步骤a)至f)并且当超过所述相似度的阈值时在步骤f)中移除第一训练数据。
16.所测得的或生成的训练数据、特别是传感器数据,通常需要很多存储空间并且在道路交通中行驶时仅能储存在车辆中并且因此仅能储存在有限的空间中。由于传感器数据的大小,无线传输传感器数据在大多数情况下都行不通。为了现在节省存储空间,适合时间上直接在检测数据之后执行按本发明的方法,直接进一步删除鉴别为冗余的数据并且节省了存储空间。
17.在所述方法的其它实施方式中,在用第一组训练数据的训练数据训练或预处理之前执行步骤a)至f)。
18.按本发明的方法同样也可以在更晚的时间点上使用,以便在训练之前或在预处理之前将冗余的训练数据从有待使用的数据组移除。这在准备训练数据时尤其节省了时间和计算资源并且在训练时提供了更好的结果。预处理尤其包括标注或注解有待用于训练的训练数据。
19.在所述方法的一种扩展设计方案中,聚合向量是直方图向量,所述直方图向量为
aggregierter vektor)30,该聚合向量综合了包含在所分配的原型特征向量中的信息。这可以例如以直方图的形式完成。在接下来的步骤d)中,与先前所说明的做法相似地为另外的第二输入数据执行步骤a)至c),这导致另外的针对第二输入数据的第二聚合向量30。为了现在能够决策,第一输入数据是否与第二输入数据这样相似,以致在训练中不应使用两者,在步骤e)中将两个输入数据的聚合向量30进行比较。比较的一种可能性例如是通过余弦相似性。如果比较的结果超出了所确定的阈值,那么就识别到两个输入数据的高度相似性并且在步骤f)中将第一输入数据标记为不能用于训练或立即完全从第一训练数据组移除。在所述两种情况下,第一输入数据没有用于后续的训练。
33.图2示意性地示出了可以部分用于按本发明的方法的自编码器1的结构。借助输入层10向编码器12输送数据。在向量量化单元14中将编码器12作为输送给该编码器的数据的结果发出的特征向量映射到所谓的码本的固定的一组原型特征向量上。这个过程对应量化,因为映射到固定数量的离散的状态或向量上。自编码器1还包括解码器16,解码器由输送给它的原型特征向量的汇合(zusammenstellung)而作为编码器12的反转或者说逆转重构了用于输出层18的数据。重构后的数据在此应当尽可能对应输入层10的数据。若训练自编码器1,那么在编码器12和解码器16中存在的参数和码本的原型特征向量被如此调整,使得在输出数据层18中进行对输入数据10的尽可能准确的重构。
34.在图3中示意性示出了用于求出按本发明的方法的聚合信息或聚合向量30的结构。输入层10以及编码器12和向量量化单元14如已经在图2中展示和说明那样地示出。进一步展示的是聚合单元20,该聚合单元获得了针对输入数据求出的原型特征向量。这生成了一个聚合向量30,该聚合向量综合了来自所有属于一个输入数据的原型特征向量的信息。这例如能以直方图向量的形式完成。在此形成了长度为n的向量,其中,n是码本中原型特征向量的数量,并且针对每个原型特征向量在直方图向量的相应的行中保存相应的原型特征向量分配给相应的输入数据有多频繁。但诸如形成平均值之类的信息聚合的其它形式也是可能的。形式为聚合向量30的这些信息然后储存在数据存储器22中、例如数据库中,并将这些信息分配给来自所述训练数据组的相应的输入数据。然后可以要么立即要么在之后的时间点上在按本发明的方法的范畴内继续使用它们,以便确定两个输入数据的相似性并且决策,其中一种输入数据是否不应用于训练。
35.图4是序列训练数据的图示并且示出了两个这样的训练数据的比较的流程。在用t标注的轴上示意性地示出了输入数据的序列顺序。针对每种输入数据在步骤a)至c)之后生成相关的聚合向量并且如在图3中所示那样地加以储存。现在在比较单元32中比较两个时间相邻的输入数据的聚合向量30并且以特征码的形式确定它们的相似性。在此可以例如使用余弦相似性。在阈值单元34中——所述阈值单元接收有关于相似性的特征码的阈值38——确认,两个聚合向量30的相似性有没有超过所述阈值38。基于这种确认,在决策单元36中确认,两个输入数据是否用于训练或者是否丢弃第一输入用于训练。这可以通过专门的标记或删除输入数据完成。始终有利的是,丢弃时间在前的输入数据,因为这样确保了,当按本发明的方法应当适用于训练数据组的另外的或甚至所有的输入数据时,可以将时间上接在第二输入数据之后的输入数据与其时间上的直接的前者相比较。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1