机器学习场景下训练数据的获取方法及设备与流程

文档序号：36646197发布日期：2024-01-06 23:30阅读：23来源：国知局

本技术涉及机器学习领域，尤其涉及一种机器学习场景下训练数据的获取方法及设备。

背景技术：

1、在大数据和人工智能时代数据成为重要的生产资料，目前大数据技术日益成熟，各组织团体都将所需数据存入大数据平台/系统进行计算分析。

2、然而，在泛机器学习场景中(包括不限于机器学习、深度学习、联邦学习)，机器学习应用或系统很难直接对接大数据平台/系统，因为训练数据通常需要二次处理后再传输至机器学习应用或系统进行训练或推理，较为繁琐、复杂。在一般机器学习场景下，训练和推理的数据准备过程往往需要人工介入通过复杂的程序实现自动化，且不可或很难进行复用。

3、因此，如何设计一个合适的在机器学习场景下获取训练数据的办法，以解决机器学习过程中数据提取分布分散、预处理繁琐、数据传输繁琐成为一个亟需解决的问题。

技术实现思路

1、本技术提供一种机器学习场景下训练数据的获取方法及设备，用以解决机器学习过程中数据提取分布分散、预处理繁琐、数据传输繁琐的问题。

2、第一方面，本发明实施例提供一种机器学习场景下训练数据的获取方法应用于机器学习系统，所述机器学习系统包括多个数据使用端、数据获取端和多个数据源，所述方法应用于所述数据获取端，包括：

3、获取所述数据使用端发送的数据查询语句，其中，不同的数据源对应的数据查询语句的结构相同，所述数据查询语句包括样本字段和返回结果字段，其中，所述样本字段包括数据源标识、数据查询子语句和数据类型，所述返回结果字段用于指示结果的返回方式；

4、根据所述数据查询子语句和所述数据类型对所述数据源进行查询，得到数据查询结果；

5、根据所述返回结果字段，反馈所述数据查询结果。

6、在一种可能的设计中，所述数据查询语句具体包括数据标签的样本字段和训练数据的样本字段以及所述返回结果字段；

7、其中，所述数据标签包括至少一个标签，每个标签对应一个样本字段；

8、所述训练数据包括至少一维数据，每维数据对应至少一个样本字段。

9、在一种可能的设计中，所述根据所述数据查询子语句和所述数据类型对所述数据源进行查询，得到数据查询结果，包括：

10、根据所述数据源标识，获取待查询的数据源；

11、根据所述数据查询子语句和所述数据类型，调用所述数据源对应的调用工具对所述数据源进行查询，得到数据查询结果，其中，所述数据源对应的调用工具包括每种数据类型对应的调用函数和/或调用程序。

12、在一种可能的设计中，所述数据查询语句还包括数据标识，所述样本字段包括多个数据查询子语句，所述根据所述数据查询子语句和所述数据类型，调用所述数据源对应的调用工具对所述数据源进行查询，得到数据查询结果，包括：

13、根据所述多个数据查询子语句和所述数据类型，并行调用所述数据源对应的调用工具对所述数据源进行查询，得到多个数据查询子结果；

14、根据所述数据标识，对所述多个数据查询子结果进行串联处理，得到数据查询结果。

15、在一种可能的设计中，所述根据所述返回结果字段，反馈所述数据查询结果，包括：

16、以二级制码流向所述数据使用端反馈所述数据查询结果；

17、或者将所述数据查询结果反馈至目标数据源，其中，所述目标数据源的标识携带在所述数据查询语句中，以使得所述数据使用端从所述目标数据源中读取数据。

18、在一种可能的设计中，所述反馈所述数据查询结果之前，所述方法还包括：

19、对所述数据查询结果进行数据处理，所述数据处理包括：删除有缺失值的数据和/或删除重复数据。

20、在一种可能的设计中，所述数据查询语句的语言格式为json、yaml或xml中的一种。

21、第二方面，本技术提供一种机器学习场景下训练数据的获取设备，应用于机器学习系统，所述机器学习系统包括多个数据使用端、所述获取设备和多个数据源，所述获取设备包括：

22、获取模块，用于获取所述数据使用端发送的数据查询语句，其中，不同的数据源对应的数据查询语句的结构相同，所述数据查询语句包括样本字段和返回结果字段，其中，所述样本字段包括数据源标识、数据查询子语句和数据类型，所述返回结果字段用于指示结果的返回方式。

23、查询模块，用于根据所述数据查询子语句和所述数据类型对所述数据源进行查询，得到数据查询结果。

24、反馈模块，用于根据所述返回结果字段，反馈所述数据查询结果。

25、在一种可能的设计中，所述数据查询语句具体包括数据标签的样本字段和训练数据的样本字段以及所述返回结果字段；

26、其中，所述数据标签包括至少一个标签，每个标签对应一个样本字段；

27、所述训练数据包括至少一维数据，每维数据对应至少一个样本字段。

28、在一种可能的设计中，所述查询模块具体用于：

29、根据所述数据源标识，获取待查询的数据源；

30、根据所述数据查询子语句和所述数据类型，调用所述数据源对应的调用工具对所述数据源进行查询，得到数据查询结果，其中，所述数据源对应的调用工具包括每种数据类型对应的调用函数和/或调用程序。

31、在一种可能的设计中，所述数据查询语句还包括数据标识，所述样本字段包括多个数据查询子语句，所述查询模块具体用于：

32、根据所述多个数据查询子语句和所述数据类型，并行调用所述数据源对应的调用工具对所述数据源进行查询，得到多个数据查询子结果；

33、根据所述数据标识，对所述多个数据查询子结果进行串联处理，得到数据查询结果。

34、在一种可能的设计中，所述反馈模块具体用于：

35、以二级制码流向所述数据使用端反馈所述数据查询结果；

36、或者将所述数据查询结果反馈至目标数据源，其中，所述目标数据源的标识携带在所述数据查询语句中，以使得所述数据使用端从所述目标数据源中读取数据。

37、在一种可能的设计中，所述查询模块，还具体用于：

38、对所述数据查询结果进行数据处理，所述数据处理包括：删除有缺失值的数据和/或删除重复数据。

39、在一种可能的设计中，所述数据查询语句的语言格式为json、yaml或xml中的一种。

40、第三方面，本发明实施例提供一种机器学习场景下训练数据的获取设备，包括：至少一个处理器和存储器；

41、所述存储器存储计算机执行指令；

42、所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能设计所述的一种机器学习场景下训练数据的获取方法。

43、第四方面，一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能设计所述的一种机器学习场景下训练数据的获取方法。

44、本实施例提供的机器学习场景下训练数据的获取方法及设备，通过获取数据使用端发送的数据查询语句，对数据查询语句进行解析得到样本字段和返回结果字段，样本字段包括数据源标识、数据查询子语句和数据类型，返回结果字段用于指示结果的返回方式；根据数据查询子语句和数据类型对所述数据源进行查询，得到数据查询结果；根据返回结果字段，反馈数据查询结果。本实施例通过统一接入各类数据源，并通过自定义数据查询语句进行自动查询、数据处理，并将数据查询结果返回给数据使用端，解决了机器学习过程中数据提取分布分散、预处理繁琐、数据传输繁琐的问题。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨子敬,李洁,吴洋,张亚南,郝若晶,程新洲,高洁,只璐,刘亮,杨斌
技术所有人：中国联合网络通信集团有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。