用来生成用于训练机器学习算法的训练数据的方法与流程

文档序号：34218757发布日期：2023-05-19 20:52阅读：38来源：国知局

本发明涉及一种用来生成用于训练机器学习算法的训练数据的方法以及尤其是一种被设计为以简单的方式并且以低的资源消耗来生成附加训练数据的方法。

背景技术：

1、机器学习算法基于：使用统计方法，以便对数据处理系统进行训练，使得该数据处理系统可以在该数据处理系统最初未曾明确为了特定任务而被编程的情况下执行该特定任务。在此，机器学习的目的在于构建可以从数据中学习并做出预测的算法。这些算法创建数学模型，利用这些数学模型例如可以对数据进行分类。

2、在此，例如可以通过测量来检测待建模系统，其中依据测量值例如可以创建经验模型并且相对应地训练机器学习算法。然而，在这种情况下例如可能发生无法完全从头到尾测量待建模过程或者待建模系统的情况。然而，这可能导致：只有来自子空间的部分数据可用于建立经验模型或者相对应地训练机器学习算法，其中然而在运行时也可能出现未被这些训练数据考虑进去的过程状态。

3、提出了增强方法，即用于生成附加训练数据的方法，作为该问题的解决方案。然而，在已知的增强方法方面，被证明不利的是：这些增强方法非常复杂并且需要很多计算机资源、尤其是存储和计算能力，使得这些增强方法难以用常规的数据处理系统来实现。

4、从出版文献us 2019/0354895 a1公知一种用来学习用于训练机器学习算法的数据补充策略的方法，其中接收用于训练机器学习算法的训练数据并且确定多个数据补充策略，其方式是：基于先前的数据补充策略的质量参数来生成当前的数据补充策略；基于当前的数据补充策略来训练机器学习算法；并且在基于当前的数据补充策略来训练机器学习算法之后，确定关于当前的数据补充策略的质量参数，其中然后基于各个数据补充策略的质量参数来选择数据补充策略。

技术实现思路

1、因此，本发明所基于的任务在于：说明一种经改进的用来生成用于训练机器学习算法的训练数据的方法。

2、该任务利用一种按照专利权利要求1的特征的用来生成用于训练机器学习算法的训练数据的方法来被解决。

3、该任务还利用一种按照专利权利要求8的特征的用来生成用于训练机器学习算法的训练数据的控制设备来被解决。

4、有利的实施方式和扩展方案从从属权利要求中以及从参考附图的描述中得到。

5、按照本发明的一个实施方式，该任务通过一种用来生成用于训练机器学习算法的训练数据的方法来被解决，其中这些训练数据分别具有数据点和被分配给该数据点的数据值，而且其中提供用于训练机器学习算法的第一训练数据，对这些第一训练数据的数据点的至少一部分所在的流形进行近似，确定在该流形中的这些第一训练数据的数据点的该至少一部分的结构，并且基于在该流形中的这些第一训练数据的数据点的该至少一部分的结构来生成附加训练数据。

6、在这种情况下，数据点被理解成信息载体或信息单元，这些信息载体或信息单元表示机器学习算法的输入参量，即可通过该机器学习算法来处理的数据。

7、数据值或函数值进一步被理解成信息载体或信息单元，这些信息载体或信息单元分别表示机器学习算法的输出参量，即通过该机器学习算法对相对应的输入参量的处理所生成的输出参量。

8、在这种情况下，流形被理解成一种可以用来以（n-1）个或更少的坐标来表示或确定n维空间中的点的产物（gebilde）。因此，“对这些第一训练数据的数据点的至少一部分所在的流形进行近似”意味着：与这些第一训练数据的数据点的该至少一部分相对应的来自n维空间中的数据点可以在该流形中以（n-1）个或更少的坐标来被确定。

9、在该流形中的这些第一训练数据的数据点的该至少一部分的结构进一步被理解成在该流形中的相对应的数据点的坐标之间的关联或数学关系。

10、对这些第一训练数据的数据点的至少一部分所在的流形进行近似，其中然后基于被近似的流形来生成附加训练数据，具有如下优点：可以显著减少在生成附加训练数据期间所要处理的维度或坐标的数目并且因此可以显著简化与生成附加训练数据相关的工作。

11、“进一步基于在该流形中的这些第一训练数据的数据点的该至少一部分的结构来生成附加训练数据”还具有如下优点：训练数据彼此间的相关性被考虑并且所生成的附加训练数据与这些第一训练数据的该至少一部分匹配，例如全都具有一定的特性。

12、因此，总体上说明了一种方法，利用该方法可以显著简化对附加训练数据的生成而且可以以简单的方式并且以比较低的资源消耗、例如低的存储和/或计算能力来生成附加训练数据。例如如果这些第一训练数据是来自时间序列的时间点，则与生成附加训练数据相关的工作可以被显著简化，使得该方法尤其也可以在计算机资源有限的控制设备上被实施。

13、因此，总体上说明了一种经改进的用来生成用于训练机器学习算法的训练数据的方法。

14、在一个实施方式，对这些第一训练数据的数据点的该至少一部分所在的至少一个流形进行近似的步骤具有：针对来自这些第一训练数据中的每个数据点，确定在这些第一训练数据的数据点之内的相对应的数据点的最近邻，其中针对这些第一训练数据的每个数据点，分别基于该数据点和相对应的数据点的最近邻来确定在该流形中的这些第一训练数据的数据点的该至少一部分的结构。因此，对流形的近似或者对附加训练数据的生成可以以简单的方式基于相对应的最近邻以及尤其是邻域图来实现，即使用比较少的计算机资源。

15、在此，在该流形中的这些第一训练数据的数据点的该至少一部分的结构例如可以基于主成分分析来被确定。

16、在此，针对这些第一训练数据的每个数据点，可以基于欧几里得范数来确定这些最近邻。

17、在此，欧几里得范数或标准范数用于：尤其是在二维或三维空间中，确定两个点或向量之间的距离。

18、因此，这些最近邻也可以分别以简单的方式并且以少的计算机资源消耗来被确定。

19、然而，“基于欧几里得范数来确定这些最近邻”只是一种可能的实施方式。更确切地说，这些最近邻也可以基于用于确定各个数据点之间的距离的其它方法来被确定。

20、此外，该方法可以针对在附加训练数据中的每个数据点进一步具有：基于被分配给相对应的数据点的最近邻的数据值来分别确定相对应的数据点的数据值。

21、尤其是由于这些最近邻已经在生成附加训练数据期间被确定，因此也可以在工作不多的情况下并且以少的计算机资源来确定相对应的数据值。

22、这些第一训练数据还可以是传感器数据或者通过传感器所检测到的数据。

23、传感器，也称为检测器、（测量参量或测量）记录仪或者（测量）探测器，是一种技术构件，该技术构件可以定性地或者可以作为测量参量来定量地检测该技术构件的周围环境的特定物理或化学特性和/或材料性质。

24、因此，以简单的方式就可以检测在其上生成附加训练数据的实际数据处理系统以外的现实情况并且在生成附加训练数据时考虑这些现实情况。

25、利用本发明的另一实施方式，还说明一种用于训练机器学习算法的方法，其中通过上文描述的用来生成用于训练机器学习算法的训练数据的方法来提供第一训练数据和附加训练数据，而且其中基于这些第一训练数据和这些附加训练数据来训练该机器学习算法。

26、因此，说明了一种用于训练机器学习算法的方法，该方法以通过经改进的用来生成用于训练机器学习算法的训练数据的方法所生成的训练数据为基础。该方法尤其是基于用来生成用于训练机器学习算法的训练数据的方法，利用该方法可以显著简化对附加训练数据的生成而且可以以简单的方式并且以比较低的资源消耗、例如低的存储和/或计算能力来生成附加训练数据。例如如果这些第一训练数据是来自时间序列的时间点，则与生成附加训练数据相关的工作可以被显著简化，使得用来生成用于训练机器学习算法的训练数据的方法尤其也可以在计算机资源有限的控制设备上被实施。

27、此外，利用本发明的另一实施方式，还说明一种用于控制可控系统的至少一个功能的方法，其中提供用于控制该可控系统的至少一个功能的机器学习算法，其中该机器学习算法是通过上文描述的用于训练机器学习算法的方法来被训练的，而且基于该机器学习算法来控制该可控系统的至少一个功能。

28、在此，该可控系统例如可以是机器人系统，其中该机器人系统例如可以是内燃机的喷射系统。此外，但是该机器人系统例如也可以是任何其它基于机器学习算法的可控系统，例如机动车的驾驶员辅助系统、厨房用具或洗衣机。

29、因此，说明了一种用于控制可控系统的至少一个功能的方法，该方法基于机器学习算法，该机器学习算法是基于通过经改进的用来生成用于训练机器学习算法的训练数据的方法所生成的训练数据来被训练的。在此，这些训练数据尤其是通过用来生成用于训练机器学习算法的训练数据的方法来被生成的，利用该方法可以显著简化对附加训练数据的生成而且可以以简单的方式并且以比较低的资源消耗、例如低的存储和/或计算能力来生成附加训练数据。例如如果这些第一训练数据是来自时间序列的时间点，则与生成附加训练数据相关的工作可以被显著简化，使得用来生成用于训练机器学习算法的训练数据的方法尤其也可以在计算机资源有限的控制设备上被实施。

30、此外，利用本发明的另一实施方式，还说明一种用来生成用于训练机器学习算法的训练数据的控制设备，其中这些训练数据分别具有数据点和数据值，而且其中该控制设备具有：提供单元，该提供单元被设计为提供第一训练数据；近似单元，该近似单元被设计为对这些第一训练数据的数据点的至少一部分所在的流形进行近似；查明单元，该查明单元被设计为确定在该流形中的这些第一训练数据的数据点的该至少一部分的结构；和生成单元，该生成单元被设计为基于在该流形中的这些第一训练数据的数据点的该至少一部分的结构来生成附加训练数据。

31、因此，总体上说明了一种经改进的用来生成用于训练机器学习算法的训练数据的控制设备。尤其说明了一种控制设备，利用该控制设备可以显著简化对附加训练数据的生成而且可以以简单的方式并且以比较低的资源消耗、例如低的存储和/或计算能力来生成附加训练数据。例如如果这些第一训练数据是来自时间序列的时间点，则与生成附加训练数据相关的工作可以被显著简化，使得该控制设备尤其也可以是计算机资源有限的控制设备。

32、在一个实施方式中，该近似单元在此被设计为：针对来自这些第一训练数据中的每个数据点，确定在这些第一训练数据的数据点之内的最近邻，以便对这些第一训练数据的数据点的该至少一部分所在的流形进行近似，其中该查明单元被设计为：针对来自这些第一训练数据中的每个数据点，分别基于该数据点和相对应的数据点的最近邻来确定在该流形中的这些第一训练数据的数据点的该至少一部分的结构。因此，对流形的近似或者对附加训练数据的生成可以以简单的方式基于相对应的最近邻以及尤其是邻域图来实现，即使用比较少的计算机资源。

33、在此，在该流形中的这些第一训练数据的数据点的该至少一部分的结构例如又可以基于主成分分析来被确定，即该查明单元可以相对应地被设计。

34、在此，该近似单元可以进一步被设计为：针对来自这些第一训练数据中的每个数据点，分别基于欧几里得范数来确定这些最近邻。因此，这些最近邻也可以分别以简单的方式并且以少的计算机资源消耗来被确定。

35、此外，该控制设备可以进一步具有确定单元，该确定单元被设计为：针对在附加训练数据中的每个数据点，基于被分配给相对应的数据点的最近邻的数据值来分别确定相对应的数据点的数据值。尤其是由于这些最近邻已经在生成附加训练数据期间被确定，因此也可以在工作不多的情况下并且以少的计算机资源来确定相对应的数据值。

36、此外，这些第一训练数据又可以是传感器数据或者通过传感器所检测到的数据。因此，以简单的方式就可以检测在其上生成附加训练数据的实际数据处理系统以外的现实情况并且在生成附加训练数据时考虑这些现实情况。

37、此外，利用本发明的另一实施方式，还说明一种用于训练机器学习算法的控制设备，其中该控制设备具有：提供单元，该提供单元被设计为提供第一训练数据和附加训练数据，其中这些附加训练数据是通过上文描述的用来生成用于训练机器学习算法的训练数据的控制设备来被生成的；和训练单元，该训练单元被设计为基于这些第一训练数据和这些附加训练数据来训练该机器学习算法。

38、因此，说明一种用于训练机器学习算法的控制设备，该控制设备被设计为：基于通过经改进的用来生成用于训练机器学习算法的训练数据的方法所生成的训练数据来训练机器学习算法。在此，这些附加训练数据尤其是通过用来生成用于训练机器学习算法的训练数据的方法来被生成，利用该方法可以显著简化对附加训练数据的生成而且可以以简单的方式并且以比较低的资源消耗、例如低的存储和/或计算能力来生成附加训练数据。例如如果这些第一训练数据是来自时间序列的时间点，则与生成附加训练数据相关的工作可以被显著简化，使得相对应的用来生成用于训练机器学习算法的训练数据的方法尤其也可以在计算机资源有限的控制设备上被实施。

39、此外，利用本发明的另一实施方式，还说明一种用于控制可控系统的至少一个功能的控制设备，其中该控制设备具有：提供单元，该提供单元被设计为提供用于控制该可控系统的至少一个功能的机器学习算法，其中该机器学习算法是通过上文描述的用于训练机器学习算法的控制设备来被训练的；和控制单元，该控制单元被设计为基于该机器学习算法来控制该可控系统的至少一个功能。

40、因此，说明了一种用于控制可控系统的至少一个功能的控制设备，该控制设备基于机器学习算法，该机器学习算法是基于通过经改进的用来生成用于训练机器学习算法的训练数据的方法所生成的训练数据来被训练的。在此，这些训练数据尤其是通过用来生成用于训练机器学习算法的训练数据的方法来被生成的，利用该方法可以显著简化对附加训练数据的生成而且可以以简单的方式并且以比较低的资源消耗、例如低的存储和/或计算能力来生成附加训练数据。例如如果这些第一训练数据是来自时间序列的时间点，则与生成附加训练数据相关的工作可以被显著简化，使得用来生成用于训练机器学习算法的训练数据的方法尤其也可以在计算机资源有限的控制设备上被实施。

41、总而言之，应着重指出：利用本发明，说明了一种用来生成用于训练机器学习算法的训练数据的方法以及尤其是一种被设计为以简单的方式并且以低的资源消耗来生成附加训练数据的方法。

42、所描述的设计方案和扩展方案可以彼此任意组合。

43、本发明的其它可能的设计方案、扩展方案和实现方案也包括本发明的之前或者在下文关于实施例所描述的特征的没有明确提到的组合。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：K
技术所有人：罗伯特
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。