用于存储设备中的数据集准备的机器学习分面的制作方法

文档序号:37218216发布日期:2024-03-05 15:10阅读:12来源:国知局
用于存储设备中的数据集准备的机器学习分面的制作方法


背景技术:

1、在服务器上执行的机器学习(ml)应用,例如,将读取请求发送到存储设备以检索数据,该数据用于对算法和模型进行训练以生成洞察。数据可以包括数据样本和关联的特征,其中一些可能对特定ml应用不是有用的。开发ml模型的目标是以一种及时的方式生成准确的洞察,并且当其各自的ml应用消耗包括不是有用信息的大型数据集时,从存储设备中检索此类数据集成为限制ml模型的性能的巨大瓶颈。


技术实现思路



技术特征:

1.一种存储设备,包括:

2.根据权利要求1所述的存储设备,其中为了标识所述ml分面,所述处理资源执行所述指令中的一个或多个以:将所述数据集输入到分析工作流,其中所述分析工作流确定所述数据集的所述ml分面和与所述ml分面相关联的数据集部分。

3.根据权利要求2所述的存储设备,其中为了生成所述经过滤的数据集,所述处理资源执行所述指令中的一个或多个指令以:

4.根据权利要求1所述的存储设备,还包括:

5.根据权利要求1所述的存储设备,其中所述处理资源执行所述指令中的一个或多个指令以:存储ml分面、应用类型和数据集类型之间的ml分面映射。

6.根据权利要求5所述的存储设备,其中所述处理资源执行所述指令中的一个或多个指令以:响应于接收到针对所述数据集的所述请求,基于所述ml分面、所述应用类型和所述数据集类型之间的所述映射,向所述ml应用推荐所述ml分面中的一个或多个ml分面以供选择。

7.根据权利要求6所述的存储设备,其中为了推荐所述ml分面,所述处理资源执行所述指令中的一个或多个指令以:

8.根据权利要求7所述的存储设备,还包括用户界面,用以:向所述ml应用呈现所述ml分面中的一个或多个ml分面以供选择。

9.根据权利要求1所述的存储设备,其中所述处理资源执行所述指令中的一个或多个指令以:基于数据集度量、存储性能度量、或应用性能度量中的一个或多个来计算所述第一质量得分和所述第二质量得分。

10.根据权利要求9所述的存储设备,其中所述处理资源执行所述指令中的一个或多个指令以:

11.根据权利要求10所述的存储设备,其中所述处理资源执行所述指令中的一个或多个指令以:

12.根据权利要求1所述的存储设备,其中所述处理资源执行所述指令中的一个或多个指令以:

13.根据权利要求1所述的存储设备,其中所述ml分面包括以下各项中的一项或多项:相关特征、非相关特征、超参数、偏差、季节性、平衡数据集、均值、象限、私有数据、方差、缺失值、数据完整性、异常数据集、量化、高频过滤和空数据集。

14.一种方法,包括:

15.根据权利要求14所述的方法,还包括:

16.根据权利要求15所述的方法,还包括:

17.根据权利要求16所述的方法,还包括:

18.根据权利要求15所述的方法,还包括:

19.根据权利要求15所述的方法,还包括:

20.一种非暂态机器可读存储介质,所述非暂态机器可读存储介质包括指令,所述指令在被执行时使存储设备的处理资源:


技术总结
本公开涉及用于存储设备中的数据集准备的机器学习分面。本文描述的示例涉及在存储设备中为机器学习(ML)应用准备数据集。示例包括维护ML分面和数据集准备标记之间的ML分面映射,导出存储在存储设备中的数据集的ML分面,以及使用ML分面和ML分面映射从数据集中生成经过滤的数据集。与未过滤数据集相比,经过滤的数据集与改进的数据集质量相关联。存储设备将经过滤的数据集传输到请求数据集的ML应用。一些示例包括由存储设备基于性能度量向ML应用推荐ML分面。

技术研发人员:K·卡纳,C·卡利安普尔,B·拉贝,S·巴塔查里亚,K·坦加拉尤
受保护的技术使用者:慧与发展有限责任合伙企业
技术研发日:
技术公布日:2024/3/4
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1