进化的机器学习模型的制作方法

文档序号:23679364发布日期:2021-01-23 09:53阅读:118来源:国知局
进化的机器学习模型的制作方法
进化的机器学习模型
[0001]
其他申请的交叉引用本申请要求于2018年3月26日提交的、题为evolved machine learning models的美国临时专利申请第62/648,203号(代理案卷号h2o1p004+)的优先权,该申请通过参考并入本文用于所有目的。
[0002]
发明背景机器学习是计算机科学的一个领域,它给予计算机在没有明确编程的情况下学习的能力。可以训练机器学习模型(mlm)来实现复杂函数,该复杂函数被配置为基于输入集合生成一个或多个预测。mlm一旦被训练,就像黑盒一样起作用:它接收输入集合,该输入集合被应用于复杂函数,并且一个或多个预测被输出。然而,基于模型的具体细节和输入集合中包括的初始特征,这样的预测的准确度是有限的。
附图说明
[0003]
在以下详细描述和附图中公开了本发明的各种实施例。
[0004]
图1是图示了用于生成进化的机器学习模型的系统的实施例的框图。
[0005]
图2a是图示了输入数据集的实施例的图解。
[0006]
图2b是图示了输入数据集的实施例的图解。
[0007]
图3是图示了用于生成进化的机器学习模型的过程的实施例的流程图。
[0008]
图4是图示了用于确定多个初始机器学习模型的过程的实施例的流程图。
[0009]
图5是图示了用于过滤模型的过程的实施例的流程图。
[0010]
图6是图示了用于生成进化的机器学习模型的过程的流程图。
[0011]
图7是图示了训练和验证数据集的实施例的图解。
[0012]
图8是图示了用于生成整体模型的过程的实施例的流程图。
具体实施方式
[0013]
本发明可以以多种方式实现,包括实现为过程;装置;系统;物质的组成;体现在计算机可读存储介质上的计算机程序产品;和/或处理器,诸如被配置为执行存储在耦合到处理器的存储器上和/或由该存储器提供的指令的处理器。在本说明书中,这些实现或者本发明可以采取的任何其他形式可以被称为技术。一般而言,在本发明的范围内,可以更改所公开的过程的步骤次序。除非另有声明,否则被描述为被配置为执行任务的组件(诸如处理器或存储器)可以被实现为被临时配置为在给定时间执行任务的一般组件或被制造为执行任务的特定组件。如本文所使用的,术语“处理器”指代被配置为处理数据(诸如计算机程序指令)的一个或多个设备、电路和/或处理核心。
[0014]
下面提供了本发明的一个或多个实施例的详细描述连同说明本发明原理的附图。结合这样的实施例描述了本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求限制,并且本发明涵盖许多替代物、修改和等同物。为了提供对本发明的透彻理解,在以下描述中阐述了许多具体细节。这些细节是出于示例的目的而提供的,并且可以在没有
这些具体细节中的一些或全部的情况下根据权利要求来实践本发明。为了清楚的目的,没有详细描述与本发明相关的技术领域中已知的技术材料,以便不会不必要地模糊本发明。
[0015]
公开了一种进化的机器学习模型技术。接收输入数据集合。输入数据由多个条目组成。每个条目与多个特征和对应特征值相关联。输入数据可以被划分成训练数据和验证数据。在一些实施例中,选择所述多个特征中的特征。在其他实施例中,选择所述多个特征中未包括的特征。所选特征是机器学习模型将被训练以针对其预测对应的特征标签(例如,特征值)的特征。
[0016]
使用训练数据来训练多个初始机器学习模型,以提供预测。每个初始机器学习模型可以使用特征的子集来训练。可以使用机器学习算法生成初始机器学习模型,所述机器学习算法诸如决策树、朴素贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络、深度学习等。将初始机器学习模型的预测特征标签与训练数据的实际特征值进行比较。可以基于该比较来调整初始机器学习模型。例如,可以调整与初始机器学习模型中包括的一个或多个特征相关联的一个或多个权重,以改进初始机器学习模型的准确度。
[0017]
可以使用验证数据来验证多个初始机器学习模型。将初始机器学习模型的预测特征标签与实际特征值进行比较。至少部分基于验证分数对多个初始机器学习模型进行评分。
[0018]
在一些实施例中,通过计算条目的预测特征标签与实际特征值之间的差异来确定初始机器学习模型的验证分数。机器学习模型针对条目的验证分数(例如条目的准确度)可以确定为:验证分数=损失(实际,预测)(1)机器学习模型针对所有条目的总体验证分数(例如,总体准确度)可以确定为:总体验证分数= (2)在其他实施例中,通过计算验证数据的第一多个随机条目的实际特征值的预测特征标签之间的差异来确定初始机器学习模型的采样验证分数。可以使用等式(1)来计算每个随机条目的验证分数。可以使用等式(2)来计算随机条目的总体验证分数。可以对验证数据的第二多个随机条目进行采样。第二多个随机条目可以包括第一多个随机条目中所包括的一个或多个条目。可以使用等式(1)来计算第二多个中包括的每个随机条目的验证分数。可以使用等式(2)来计算随机条目的总体验证分数。可以重复选择多个随机条目、计算条目验证分数以及多个随机条目的总体验证分数的过程,直到已经达到了停止条件(例如,阈值迭代次数、持续时间)。采样验证分数可以确定为:采样验证分数=(3)可以基于分数对多个初始机器学习模型进行排序。可以基于排序来对多个初始机器学习模型进行过滤。在一些实施例中,基于随机配对分配之后的成对消除,表现在前的初始机器学习模型(例如,前一半、前几(即,前2)、前百分比)被保留为一个或多个幸存机器学习模型,并且一半的非表现在前的初始机器学习模型被丢弃。
[0019]
可以生成一个或多个进化的机器学习模型。进化的机器学习模型是包括一个或多个新特征的机器学习模型,所述一个或多个新特征基于一个或多个幸存机器学习模型的一
个或多个重要特征。可以确定一个或多个幸存机器学习模型的一个或多个重要特征。
[0020]
在一些实施例中,基于特征被用于划分决策树的次数来确定一个或多个重要特征。一个或多个重要特征可以基于特征在决策树划分内的位置来确定。例如,用于在决策树顶部处划分决策树的特征可能比用于在决策树底部处划分决策树的特征更重要。
[0021]
在其他实施例中,通过随机重新排列对应于特征的特征值,并将具有随机重新排列的特征值的机器学习模型的预测与没有随机重新排列的特征值的机器学习模型的预测进行比较,来确定一个或多个重要特征。在机器学习模型的预测的验证分数随着随机特征数据而改进的情况下,该特征被确定为不可信特征,而不是重要特征。在机器学习模型的预测的验证分数没有随着随机特征数据在阈值统计量(例如,5%)内改变的情况下,该特征被确定为不是重要特征。在机器学习模型的预测的验证分数随着随机特征数据降低多于阈值统计量(例如,5%)的情况下,该特征被确定为重要特征。
[0022]
一个或多个新特征可以至少部分地通过对一个或多个重要特征中的至少一个执行变换来生成。
[0023]
在一些实施例中,一个或多个重要特征包括幸存机器学习模型之一的一个或多个重要特征。在其他实施例中,一个或多个重要特征包括任何幸存机器学习模型的一个或多个重要特征。在一些实施例中,一个或多个重要特征包括对多个幸存机器学习模型重要的特征(即,特征被标识为多个幸存机器学习模型的重要特征)。在一些实施例中,一个或多个重要特征包括来自不同幸存机器学习模型的重要特征的组合(例如,特征x是幸存机器学习模型a的重要特征,并且特征y是幸存机器学习模型b的重要特征)。
[0024]
变换对一个或多个特征执行操作以创建新特征。例如,变换可以执行将与两个不同特征相关联的特征值组合以创建新特征的操作。可以基于与一个或多个重要特征的特征值相关联的数据类型来选择变换。与特征值相关联的数据类型可以是浮点值、整数值、序数值、类别值、字符串等。变换可以使用字符串作为输入,并且可以选择具有针对特征值的字符串值的重要特征。变换可以随机选择。
[0025]
使用训练数据来训练一个或多个进化的机器学习模型。可以使用一个或多个新特征和原始特征的子集来训练进化的机器学习模型。在一些实施例中,原始特征的子集不包括一个或多个新特征所基于的一个或多个原始特征。原始特征的子集不包括要针对其做出预测的特征。可以使用与幸存机器学习模型相同的机器学习算法或不同的机器学习算法来生成进化的机器学习模型。将进化的机器学习模型的预测特征标签与训练数据的实际特征值进行比较。可以基于该比较来调整进化的机器学习模型。例如,可以调整与进化的机器学习模型中包括的一个或多个特征相关联的一个或多个权重,以改进特征值预测的验证分数。
[0026]
可以使用验证数据来验证进化的机器学习模型中的一个或多个。将进化的机器学习模型的预测特征标签与实际特征值进行比较。至少部分基于预测验证分数对多个进化的机器学习模型进行评分。
[0027]
在一些实施例中,通过计算(1)和(2)来确定进化的机器学习模型的验证分数。
[0028]
在其他实施例中,通过计算验证数据的第一多个随机条目的实际特征值的预测特征标签之间的差异来确定进化的机器学习模型的采样验证分数。可以使用等式(1)来计算每个随机条目的验证分数。可以使用等式(2)来计算随机条目的总体验证分数。可以对验证
数据的第二多个随机条目进行采样。第二多个随机条目可以包括第一多个随机条目中所包括的一个或多个条目。可以使用等式(1)来计算第二多个中包括的每个随机条目的验证分数。可以使用等式(2)来计算第二多个中包括的随机条目的总体验证分数。可以通过使用等式(3)来确定采样验证分数。可以重复选择随机条目、计算条目级别验证分数以及多个随机条目的总体验证分数的过程,直到已经达到了停止条件(例如,阈值迭代次数、持续时间)。
[0029]
在尚未达到停止条件的情况下,将进化的机器学习模型的预测验证分数跟与一个或多个幸存机器学习模型相关联的预测验证分数进行比较。每个进化的机器学习模型基于预测验证分数进行评分。进化的机器学习模型的总体验证分数可以与幸存机器学习模型的总体验证分数进行比较。在一些实施例中,部分基于随机配对分配之后的成对消除,表现在前的一个或多个进化的机器学习模型和一个或多个幸存机器学习模型(例如,前一半、前几(即,前2)、前百分比)被保留为一个或多个幸存机器学习模型,并且非表现在前的进化的机器学习模型和幸存机器学习模型被丢弃。在其他实施例中,进化的机器学习模型与幸存机器学习模型配对。在一些实施例中,在进化的机器学习模型与幸存机器学习模型之间,具有较高总体验证分数的机器学习模型被保留为幸存机器学习模型,并且具有较低总体验证分数的机器学习模型被丢弃。在其他实施例中,进化的机器学习模型的总体验证分数必须大于幸存机器学习模型的统计度量(例如,在条目验证分数的范围之外),以便将进化的机器学习模型保留为幸存机器学习模型。这可以防止模型对特征集合的过度拟合。
[0030]
可以基于排序来对一个或多个幸存机器学习模型和一个或多个进化的机器学习模型进行过滤。部分基于随机配对分配之后的成对消除,表现在前的机器学习模型(例如,前一半,前几)可以被保留为幸存机器学习模型,并且一半的非表现在前的机器学习模型可以被丢弃。
[0031]
在已经达到了停止条件的情况下,对剩余的机器学习模型进行评分和排序。
[0032]
生成一个或多个进化的机器学习模型并将进化的机器学习模型与一个或多个幸存机器学习模型进行比较的过程是对机器学习领域的改进。机器学习模型可以通过生成一个或多个新特征来进化和改进其预测,而不是限于输入数据集中包括的特征。该过程自身进行重复,直到已经达到了停止条件。作为结果,该过程寻求利用每次迭代改进机器学习模型的预测。
[0033]
在一些实施例中,生成整体模型。整体模型由多个机器学习模型组成。可以创建多个版本的输入数据。每个版本的输入数据具有对应的训练数据和验证数据。训练数据和/或验证数据中的一些或没有训练数据和/或验证数据可能在版本之间重叠。针对每个版本的输入数据生成并验证多个机器学习模型。验证数据集可以应用于多个机器学习模型中的每一个,并且针对每个机器学习模型确定验证分数。可以基于机器学习模型的每个验证分数来针对整体模型确定总体分数。总体分数可以用于调整与机器学习模型相关联的权重。权重可以是与机器学习模型相关联的总体权重。权重可以是与关联于机器学习模型的内部权重之一相关联的个体权重。通过调整与机器学习模型相关联的权重,可以限制机器学习模型对用于整体的总体分数的影响,并且可以改进整体模型预测的总体准确度。
[0034]
图1是图示了用于生成进化的机器学习模型的系统的实施例的框图。在所示的示例中,系统100包括服务器102、网络112和客户端设备122。
[0035]
服务器102包括多个机器学习模型104、训练数据106、验证数据108和变换110。服
务器102可以接收输入数据。输入数据可以从客户端设备122或经由网络112连接到服务器102的另一设备接收。输入数据由多个条目组成。每个条目与多个原始特征和对应特征值相关联。输入数据可以被划分成训练数据106和验证数据108。训练数据106包括第一多个条目,并且验证数据108包括第二多个条目。输入数据可以被划分成不同版本的训练数据和不同版本的验证数据。
[0036]
服务器102可以接收对要针对其做出预测的输入数据的特征的选择。服务器102被配置为生成机器学习模型,该机器学习模型基于与条目相关联的所选特征集合和对应特征值来预测特征的特征标签。所选特征集合包括输入数据特征的子集。输入数据特征的子集可以包括除了要针对其做出预测的所选特征之外的一些或全部特征。
[0037]
服务器102可以被配置为基于训练数据生成多个机器学习模型。可以使用机器学习算法来生成机器学习模型,所述机器学习算法诸如决策树、朴素贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络、深度学习等。可以使用与另一个机器学习模型相同的特征集合来训练机器学习模型,但是使用不同的机器学习算法。机器学习模型可以使用与不同的机器学习模型相同的机器学习算法来训练,但是使用不同的特征子集来训练。
[0038]
服务器102被配置为存储多个变换110。在一些实施例中,一个或多个原始特征的组合可以通过变换器经历变换。在其他实施例中,一个或多个新特征和一个或多个原始特征的组合可以通过变换器经历变换。在其他实施例中,一个或多个新特征的组合可以通过变换器经历变换。
[0039]
变换器可以包括过滤变换器、频次变换器、批量交互变换器、截断svd数字变换器、交叉验证目标编码变换器、交叉验证类别到数字编码变换器、日期变换器、日期极性变换器、文本变换器、类别目标编码变换器、数字到类别目标编码变换器、聚类目标编码变换器、聚类距离变换器、证据权重和/或数字到类别证据权重变换器。
[0040]
考虑示例数据集:建筑日期平方英尺#卧室#浴室州价格01/01/1920170032ny700,000
[0041]
过滤变换器可以通过数据集中的数字特征。例如,过滤变换器取得数据集中的价格列,并且输出未被更改的价格列。
[0042]
频次变换器可以对类别列中的每个值进行计数。该计数可以是原始计数或归一化计数。例如,示例数据集可以变换为:建筑日期平方英尺#卧室#浴室州价格频次_州01/01/1920170032ny700,0004,500该变换指示该数据集中存在4500个房产具有州= ny。
[0043]
批量交互变换器可以在特征数据集中加上、除以、乘以和/或减去两列。例如,示例数据集可以变换为:
建筑日期平方英尺#卧室#浴室州价格交互_#卧室-#浴室01/01/1920170032ny700,0001
该变换指示该房产的卧室比浴室数量多一。
[0044]
截断奇异值分解(svd)数字变换器可以在数据集中的所选数字列上进行训练。截断svd的组成部分将是新特征。例如,示例数据集可以变换为:
建筑日期平方英尺#卧室#浴室州价格截断svd_价格_#卧室_#浴室_101/01/1920170032ny700,0000.632
价格、卧室数量、浴室数量列的截断svd的第一组成部分。
[0045]
标签编码变换器可以通过创建类别值到枚举整数的字典映射来将类别列转换为数字列。例如,示例数据集可以包括房产的“类型”特征列,并且包括“公寓”、“联排别墅”或“单独立式(single-detached)”的值。标签编码变换器可以将“公寓”、“联排别墅”和“单独立式”分别转换为“1”、“2”和“3”。
[0046]
日期变换器可以检索任何数据值(例如,年、季度、月份、日、一年中的天、周、工作日、小时、分、秒等)。例如,示例数据集可以变换为:建筑日期平方英尺#卧室#浴室州价格建筑日期_月份01/01/1920170032ny700,0001这指示该住宅是在一月份中建造的。
[0047]
日期极性变换器可以使用极坐标扩展日期。日期变换器将仅将日期扩展为不同的单位,例如月份。这没有捕获月份十二月与一月(12与1)或小时23与0之间的相似性。极坐标通过将数据单位表示为循环中的一点来捕获这些情况之间的相似性。例如,极性单位:取小时中的分钟,将是时钟上的分钟位置。例如,示例数据集可以变换为:
建筑日期平方英尺#卧室#浴室州价格建筑日期_年中月份_x建筑日期_年中月份_y01/01/1920170032ny700,0000.51
年中一月份的极坐标是(0.5,1)。这允许模型捕捉到一月与十二月之间的相似性。该信息未在样本日期变换器中捕获。
[0048]
文本变换器可以使用tfidf(术语频次-逆文档频次)或计数(单词计数)来变换文本列。这可以继之以使用截断svd进行降维。
[0049]
类别目标编码变换器可以对类别列执行交叉验证目标编码。例如,示例数据集可以变换为:建筑日期平方英尺#卧室#浴室州价格cv_te_州01/01/1920170032ny700,000550,000ny州中的房产的平均价格是$550,000。为了防止过度拟合,使用交叉验证计算拼接折叠(out-of-fold)数据上的平均值。
[0050]
数字到类别目标编码变换器可以通过分箱(bin)将数字列转换为类别。交叉验证目标编码在分箱的数字列上完成。例如,示例数据集可以变换为:建筑日期平方英尺#卧室#浴室州价格cv_te_平方英尺01/01/1920170032ny700,000345,000“平方英尺”列已经被分桶为10个同等填充的箱。该房产位于“平方英尺”桶1,572至1,749中。具有该平方英尺范围的房产的平均价格为$345,000。为了防止过度拟合,无人驾驶ai使用交叉验证在拼接折叠数据上计算该平均值。
[0051]
聚类目标编码变换器可以对数据中的所选列进行聚类,并在聚类id上完成目标编码。例如,示例数据集可以变换为:
建筑日期平方英尺#卧室#浴室州价格聚类te_4_#卧室_#浴室_平方英尺01/01/1920170032ny700,000450,000“#卧室”、“#浴室”和“平方英尺”列已经被分割为四个聚类。与所选房产在相同聚类中
的房产的平均价格为 $450,000。为了防止过度拟合,无人驾驶ai使用交叉验证在拼接折叠数据上计算该平均值。
[0052]
聚类距离变换器可以对数据中的所选列进行聚类,并且计算到所选择的聚类中心的距离。例如,示例数据集可以变换为:
建筑日期平方英尺#卧室#浴室州价格聚类距离_4_#卧室_#浴室_平方英尺_101/01/1920170032ny700,0000.83“#卧室”、“#浴室”和“平方英尺”列已经被分割为四个聚类。从该记录到聚类1的差异为0.83。
[0053]
证据权重可以使用证据权重(woe)变换方法创建对数似然类型的特征。证据权重告知自变量相对于因变量的预测力,例如,好客户相对于差客户的度量。woe = in(好的分布/差的分布)。
[0054]
数字到类别证据权重变换器可以通过分箱将数字列转换为类别,并且然后使用woe变换方法创建似然类型的特征。
[0055]
服务器102可以使用一个或多个计算设备来实现,所述一个或多个计算设备诸如计算机、多处理器系统、基于微处理器的系统、专用设备、包括任何前述系统或设备的分布式计算环境、或者包括一个或多个处理器以及耦合到处理器并被配置为向处理器提供指令的存储器的其他适当的硬件/软件/固件组合。
[0056]
网络112将服务器102连接到客户端设备122。网络112包括以下各项中的一个或多个:局域网、广域网、有线网络、无线网络、因特网、内联网或任何其他适当的通信网络。
[0057]
客户端设备122包括可由客户端设备122的用户访问的web浏览器或其他客户端应用124。客户端设备240的示例包括计算机、膝上型计算机、台式计算机、平板计算机、移动设备、pda或操作web浏览器或客户端应用的任何其他设备。
[0058]
客户端设备122的用户可以经由gui接口126录入选择,以选择要针对其做出预测的输入数据的特征。该选择可以经由网络112从应用124提供给服务器102。在已经做出了预测之后,客户端设备122可以从服务器102接收针对所选特征的预测。
[0059]
图2a是图示了输入数据集的实施例的图解。输入数据集200可以由诸如服务器102的服务器来实现。输入数据集200可以用于生成初始机器学习模型。
[0060]
在所示的示例中,输入数据集200包括条目a
1
、a
2

a
n
。每个条目由具有对应特征值的一个或多个特征组成。例如,条目a
1
由具有对应特征值x
1
、y
1

z
1
的特征f
1
、f
2

f
n
组成。条目a
2
由具有对应特征值x
2
、y
2

z
2
的特征 f
1
、f
2

f
n
组成。条目a
n
由具有对应特征值 x
n
、y
n

z
n
的特征f
1
、f
2

f
n
组成。在一些实施例中,特征值可以对应于特征的实际值(例如,温度= 98
°
)。在其他实施例中,特征值可以对应于值的范围之一(例如,值“2”指示20-40的温度范围)。在其他实施例中,特征值可以对应于可能的非数字值之一(例如,“0”=男性,“1”=女性)。在其他实施例中,特征值可以是文本字符串(例如,“红色”、“黄色”)。
[0061]
诸如机器学习模型104的机器学习模型可以被配置为基于其他特征及其对应特征值来针对所选特征执行预测。例如,模型可以被配置为至少部分基于特征f
2

f
n
中的一些及其对应特征值来输出针对f
1
的预测。机器学习模型被配置为分别针对条目a
1
、a
2

a
n
输出为p
1
、p
2

p
n
的预测。在一些实施例中,预测是所选特征的预测特征标签。在一些实施例中,预测是所选特征的预测特征标签,并且被提供有统计置信度(例如,90%置信)。在一些实施例
中,预测是所选特征的预测值,并且被提供有范围(例如,120 mph
±
15 mph)。
[0062]
机器学习模型的验证分数可以从预测中确定。例如,可以针对条目确定预测特征标签与实际特征值之间的差异。可以通过计算(1)来确定机器学习模型针对条目的验证分数。可以通过计算(2)来确定机器学习模型针对所有条目的总体验证分数。
[0063]
图2b是图示了输入数据集的实施例的图解。在所示的示例中,输入数据集250可以由诸如服务器102的系统来实现。输入数据集250可以是用于生成进化的机器学习模型的数据集。
[0064]
在所示的示例中,输入数据集250包括条目a
1
、a
2

a
n
。除了一个或多个特征已经基于原始特征(f
1
、f
2

f
n
)进行了变换之外,用于输入数据集250的条目是用于输入数据集200的相同条目。原始特征的组合可以通过变换器经历变换。变换器可以包括过滤变换器、频次变换器、批量交互变换器、截断svd数字变换器、交叉验证目标编码、交叉验证类别到数字编码变换器、日期变换器、日期极性变换器、文本变换器、类别目标编码变换器、数字到类别目标编码变换器、聚类目标编码变换器、聚类距离变换器、证据权重和/或数字到类别证据权重变换器。
[0065]
在一些实施例中,输入数据集250被更新以包括新特征的附加列。在其他实施例中,计算新特征,而不必将值存储在输入数据集250中。
[0066]
诸如机器学习模型104之一的机器学习模型可以被配置为基于至少一个原始特征及其对应值和一个或多个新特征及其对应值的组合来执行预测。例如,机器学习模型可以分别针对输入a
1
、a
2

a
n
输出为p
1

、p
2


p
n

的预测标签。预测可以是所选特征的预测特征标签。预测可以是所选特征的预测特征标签,并且被提供有统计置信度(例如,90%置信)。预测可以是所选特征的预测标签,并且被提供有范围(例如,120 mph
±
15 mph)。
[0067]
进化的机器学习模型的验证分数可以从预测中确定。例如,可以针对条目确定预测特征标签与实际特征值之间的差异。可以通过计算(1)来确定进化的机器学习模型针对条目的验证分数。可以通过计算(2)来确定进化的机器学习模型针对所有条目的总体验证分数。
[0068]
在一些实施例中,将进化的机器学习模型的总体验证分数与幸存机器学习模型的总体验证分数进行比较。在一些实施例中,在进化的机器学习模型的总体验证分数大于幸存机器学习模型的总体验证分数的情况下,进化的机器学习模型被确定为比幸存机器学习模型更有效(例如,更准确)。在其他实施例中,将进化的机器学习模型的总体验证分数与幸存机器学习模型的条目验证分数进行比较。在进化的机器学习模型的总体验证分数处于幸存机器学习模型的条目验证分数范围内的情况下,则进化的机器学习模型被确定为不比幸存机器学习模型更有效(例如,不那么准确)。在进化的机器学习模型的总体验证分数超过幸存机器学习模型的条目验证分数范围的情况下,则进化的机器学习模型被确定为比幸存机器学习模型更有效(例如,更准确)。
[0069]
图3是图示了用于生成进化的机器学习模型的过程的实施例的流程图。过程300可以由诸如服务器102的服务器来实现。
[0070]
在302处,确定多个初始机器学习模型。多个初始机器学习模型可以被配置为基于数据集中包括的多个其他特征及其对应特征值,输出与数据集中包括的特征之一相关联的预测。例如,数据集中包括的特征可以是“年龄”。给定其他特征集合和对应特征值,初始机
器学习模型可以被配置为预测与条目相关联的“年龄”。在一些实施例中,预测标签被提供有统计置信度值(例如,90%置信)。在其他实施例中,预测标签被提供有范围(例如,18岁
±
5岁)。
[0071]
多个初始机器学习模型可以被配置为基于数据集中包括的多个特征及其对应值,输出与数据集中未包括的特征相关联的预测。例如,数据集中未包括的特征可以是“最大速度”。然而,数据集可以包括“制造”和“型号”特征。给定特征集合和对应特征值,初始机器学习模型可以被配置为预测与条目相关联的“最大速度”。在一些实施例中,预测标签被提供有统计置信度值(例如,90%置信)。在其他实施例中,预测标签被提供有范围(例如,120 mph
±
15 mph)。
[0072]
用户可以选择针对其做出预测的特征和对应特征值。例如,用户可以选择“年龄”或“最大速度”作为要针对其做出对应预测的特征。
[0073]
接收输入数据集合。输入数据由多个条目组成。每个条目由多个特征和对应特征值组成。输入数据被划分成训练数据和验证数据。可以使用多个特征的子集来训练每个初始机器学习模型。第一初始机器学习模型的特征子集可以使用与第二初始机器学习模型的特征子集相关联特征中的全部、一些或者不使用所述特征中任何一个。
[0074]
可以基于机器学习算法(例如,决策树、朴素贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络、深度学习等)来生成初始机器学习模型。在一些实施例中,使用与另一初始机器学习模型相同的机器学习算法类型来生成第一初始机器学习模型,但是与第一初始机器学习模型相关联的特征子集不同于与第二初始机器学习模型相关联的特征子集。在其他实施例中,使用与另一初始机器学习模型不同的机器学习算法类型来生成第一初始机器学习模型。在一些实施例中,第一初始机器学习模型可以基于与第二初始机器学习模型相同的特征子集生成,但是第一和第二初始机器学习模型是使用不同的机器学习算法类型生成的。
[0075]
可以使用训练数据来训练多个初始机器学习模型,以输出特征的预测特征标签。训练数据可以用于调整多个初始机器学习模型。
[0076]
可以使用验证数据来验证多个初始机器学习模型。基于验证,每个初始机器学习模型可以被分配一分数。
[0077]
在一些实施例中,初始机器学习模型的分数是初始机器学习模型的总体验证分数。验证数据由多个条目组成。对于验证数据的每个条目,可以将由初始机器学习模型输出的预测特征标签与实际特征值进行比较。例如,特征“年龄”的预测特征标签可以是“21”,并且特征“年龄”的实际特征值是“18”。可以通过计算(1)来确定与条目相关联的预测的验证分数。可以通过计算(2)来确定初始机器学习模型的总体验证分数。
[0078]
在其他实施例中,初始机器学习模型的验证分数是初始机器学习模型的采样验证。验证数据由多个条目组成。可以随机选择多个条目的第一子集(例如,预定数量)。可以通过计算(1)来确定与多个条目的子集的每个条目相关联的预测的验证分数。可以通过计算(2)来确定多个条目的子集的总体验证分数。可以随机选择多个条目的第二子集(例如,预定数量)。第二子集可以包括多个条目的第一子集中所包括的条目中的一些或者不包括所述条目中任何一个。可以通过计算(1)来确定与多个条目的第二子集的每个条目相关联的预测的验证分数。可以通过计算(2)来确定多个条目的第二子集的总体验证分数。可以确
定预定数量的子集和对应的总体子集验证分数。初始机器学习模型的采样验证分数可以确定为:采样验证分数= (4)。
[0079]
可以基于分数对多个初始机器学习模型进行排序。例如,可以生成四个不同的机器学习模型,并基于它们对应的分数对所述四个不同的机器学习模型进行排序。
[0080]
在304处,对多个机器学习模型基于它们对应的分数进行过滤。
[0081]
对于第一次迭代,多个机器学习模型可以由多个初始机器学习模型组成。在一些实施例中,部分基于随机配对分配之后的成对消除,多个初始机器学习模型中表现在前的机器学习模型(例如,前一半、前几、前10%等)被保留为幸存机器学习模型,并且多个初始机器学习模型中非表现在前的机器学习模型(例如,后一半、除了前两个之外的所有模型、后90%等)被丢弃。例如,多个初始机器学习模型可以由四个不同的机器学习模型组成。前两个机器学习模型可以被保留,并且非前两个机器学习模型可以被丢弃。在其他实施例中,初始机器学习模型与另一个初始机器学习模型配对,并且两个初始机器学习模型彼此比较(即,头对头)。例如,第一初始机器学习模型与第二初始机器学习模型配对,并且第三初始机器学习模型与第四初始机器学习模型配对。在第一初始机器学习模型与第二初始学习模型之间,具有较高总体验证分数的机器学习模型可以被保留为幸存机器学习模型,并且较低总体验证分数可以被丢弃。在第三初始机器学习模型与第四初始学习模型之间,具有较高总体验证分数的机器学习模型可以被保留为幸存机器学习模型,并且具有较低总体验证分数的机器学习模型可以被丢弃。
[0082]
对于后续迭代,多个机器学习模型可以由一个或多个幸存机器学习模型和一个或多个进化的机器学习模型组成。在一些实施例中,部分基于随机配对分配之后的成对消除,一个或多个幸存机器学习模型和一个或多个进化的机器学习模型中表现在前的机器学习模型(例如,前一半、前几、前10%等)被保留为幸存机器学习模型,并且一个或多个幸存机器学习模型和一个或多个进化的机器学习模型中非表现在前的机器学习模型(例如,后一半、除了前两个之外的所有模型、后90%等)被丢弃。例如,多个机器学习模型可以由两个幸存机器学习模型和两个进化的机器学习模型组成。部分基于随机配对分配之后的成对消除,前两个机器学习模型(幸存机器学习模型或进化的机器学习模型)可以被保留为幸存机器学习模型,并且非前两个机器学习模型可以被丢弃。在其他实施例中,一个或多个幸存机器学习模型与相应的进化的机器学习模型配对,并且两个机器学习模型彼此比较(即,头对头)。例如,第一幸存机器学习模型与第一进化的机器学习模型配对,并且第二幸存机器学习模型与第二进化的机器学习模型配对。在第一幸存机器学习模型与第一进化的机器学习模型之间,具有较高总体验证分数的机器学习模型可以被保留为幸存机器学习模型,并且具有较低总体验证分数的机器学习模型可以被丢弃。在第二幸存机器学习模型与第二进化的机器学习模型之间,具有较高总体验证分数的机器学习模型可以被保留为幸存机器学习模型,并且具有较低总体验证分数的机器学习模型可以被丢弃。在一些实施例中,进化的机器学习模型必须具有大于阈值统计度量的总体验证分数,以便替换幸存机器学习模型。例如,进化的机器学习模型的总体验证分数必须大于幸存机器学习模型的所有条目验证分数。这通过生成进化的机器学习机器而减少了可能出现的数据过度拟合。
[0083]
在306处,生成一个或多个进化的机器学习模型。进化的机器学习模型是可以基于幸存机器学习模型的模型。将进化的机器学习模型配置为针对幸存机器学习模型被配置为做出的相同特征做出预测。幸存机器学习模型是在304处没有被过滤掉的模型。幸存机器学习模型所基于的一个或多个重要特征可以被确定并用于生成未包括在输入数据中的一个或多个新特征。
[0084]
重要特征可以基于特征被用于划分决策树的次数来确定。重要特征可以基于特征在决策树划分内的位置来确定。例如,用于在决策树顶部处划分决策树的特征可能比用于在决策树底部处划分决策树的特征更重要。在一些实施例中,随机重新排列对应于输入数据的特征的特征值,并且重复至少部分基于该特征的机器学习模型的预测。在机器学习模型的验证分数随着随机特征数据而改进的情况下,该特征被确定为不可信特征,而不是重要特征。在机器学习模型的验证分数没有随着随机特征数据在阈值统计量(例如,5%)内改变的情况下,该特征被确定为不是重要特征。在机器学习模型的验证分数随着随机特征数据降低多于阈值统计量(例如,5%)的情况下,该特征被确定为重要特征。
[0085]
可以使用变换来生成一个或多个新特征。该变换可以将两个或更多个特征组合成单个特征。变换器可以包括过滤变换器、频次变换器、批量交互变换器、截断svd数字变换器、交叉验证目标编码、标签编码变换器、日期变换器、日期极性变换器、文本变换器、类别目标编码变换器、数字到类别目标编码变换器、聚类目标编码变换器、聚类距离变换器、证据权重和/或数字到类别证据权重变换器。在一些实施例中,随机选择变换器。在其他实施例中,基于与特征相关联的数据类型来选择变换器。例如,特征值可以是数字值、类别值(例如,男性/女性、红色/蓝色、晴天/雨天等)、序数值(第一、第二、第三等)等。在幸存机器学习模型基于多个特征——其中至少一个特征值类型是数字值并且至少一个特征值类型是类别值——的情况下,可以选择接收数字值和类别值作为输入的变换器。
[0086]
一个或多个新特征可以用于生成进化的机器学习模型。在一些实施例中,除了进化的机器学习模型包括一个或多个新特征并且排除一个或多个新特征所基于的一个或多个特征之外,进化的机器学习模型类似于幸存机器学习模型。在其他实施例中,进化的机器学习模型基于一个或多个新特征和一个或多个原始特征。
[0087]
可以生成一个或多个进化的机器学习模型。可以基于机器学习算法(例如,决策树、朴素贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络、深度学习等)来生成进化的机器学习模型。在一些实施例中,使用与幸存机器学习模型和/或其他进化的机器学习模型相同的机器学习算法类型来生成进化的机器学习模型,但是与进化的机器学习模型相关联的特征子集不同于与幸存机器学习模型相关联的特征子集和与其他进化的机器学习模型相关联的特征子集。在其他实施例中,使用与其他幸存机器学习模型和/或进化的机器学习模型不同的机器学习算法类型来生成进化的机器学习模型。在一些实施例中,可以基于与第二进化的机器学习模型相同的特征子集来生成进化的机器学习模型,但是第一和第二进化的机器学习模型是使用不同的机器学习算法类型生成的。
[0088]
可以确定每个进化的机器学习模型的总体验证分数(例如,总体准确度)。进化的机器学习模型的总体验证分数可以与幸存机器学习模型的总体验证分数进行比较。在一些实施例中,一个或多个幸存机器学习模型和一个或多个进化的机器学习模型中表现在前的机器学习模型(例如,前一半、前几、前10%等)被保留为幸存机器学习模型,并且一个或多个
幸存机器学习模型和一个或多个进化的机器学习模型中非表现在前的机器学习模型(例如,后一半、除了前两个之外的所有模型、后90%等)被丢弃或用一个或多个进化的机器学习模型替换。例如,多个机器学习模型可以由两个幸存机器学习模型和两个进化的机器学习模型组成。前两个机器学习模型(幸存机器学习模型或进化的机器学习模型)可以被保留为幸存机器学习模型,并且非前两个机器学习模型可以被丢弃或用进化的机器学习模型替换。在其他实施例中,一个或多个幸存机器学习模型与相应的进化的机器学习模型配对,并且两个机器学习模型彼此比较(即,头对头)。例如,第一幸存机器学习模型与第一进化的机器学习模型配对,并且第二幸存机器学习模型与第二进化的机器学习模型配对。在第一幸存机器学习模型与第一进化的机器学习模型之间,具有较高总体验证分数的机器学习模型可以被保留为幸存机器学习模型,并且具有较低总体验证分数的机器学习模型可以用进化的机器学习模型替换。在第二幸存机器学习模型与第二进化的机器学习模型之间,具有较高总体验证分数的机器学习模型可以被保留为幸存机器学习模型,并且具有较低总体验证分数的机器学习模型可以用进化的机器学习模型替换。在一些实施例中,进化的机器学习模型必须具有大于阈值统计度量的总体验证分数,以便替换幸存机器学习模型。例如,幸存机器学习模型具有与验证数据的每个条目相关联的条目验证分数。在一些实施例中,进化的机器学习模型的总体验证分数必须在条目验证分数的分布之外,才被认为是在幸存机器学习模型之上的改进。
[0089]
在308处,确定是否已经达到了停止条件。在一些实施例中,停止条件是迭代次数(例如,5000)。在其他实施例中,停止条件是持续时间(例如,10分钟)。
[0090]
在尚未达到停止条件的情况下,过程300返回到304。在已经达到了停止条件的情况下,过程300前进到310,并且保留一个或多个幸存机器学习模型。
[0091]
将进化的机器学习模型与幸存机器学习模型进行比较的迭代过程改进了特征值预测准确度,因为该过程寻求利用每次迭代来改进预测。在310处保留的机器学习模型将为特征提供比初始机器学习模型更好(即,更准确)的预测。
[0092]
图4是图示了用于确定多个初始机器学习模型的过程的实施例的流程图。过程400可以由诸如服务器102的服务器来实现。在一些实施例中,过程400用于执行过程300的302中的一些或全部。
[0093]
在402处,接收输入数据。输入数据由多个条目组成。每个条目与多个特征和对应特征值相关联。例如,输入数据可以以数据集的形式,诸如输入数据集200。可以从诸如客户端122的客户端或远程设备接收输入数据。
[0094]
在404处,输入数据被划分成训练数据和验证数据。训练数据可以用于训练机器学习模型。验证数据可以用于验证经训练的机器学习模型。在一些实施例中,训练数据包括比验证数据多的输入数据条目(例如,80%的条目用于训练数据,20%的条目用于验证数据)。在其他实施例中,训练数据包括与验证数据相等数量的输入数据条目(例如,50%的条目用于训练数据,50%的条目用于验证数据)。在其他实施例中,训练数据包括比验证数据少的输入数据条目(例如,40 %的条目用于训练数据,60%的条目用于验证数据)。
[0095]
在406处,针对数据类型分析输入数据。特征值可以是数字值、类别值(例如,男性/女性、红色/蓝色、晴天/雨天等)、序数值(第一、第二、第三等)等。确定与特征值相关联的数据类型(例如,浮点、整数、字符串等)。在一些实施例中,字符串特征值被变换成数字值。例
如,“性别”的特征和“男性”或“女性”的特征值可以分别变换成“1”和“0”的数字值。
[0096]
在408处,接收对要针对其做出预测的特征的选择。在一些实施例中,所选特征是输入数据中包括的特征之一。在一些实施例中,所选特征是输入数据中未包括的特征。该选择可以从诸如客户端设备122的客户端设备接收。所选特征是所有初始机器学习模型将被训练以针对其进行预测的特征。
[0097]
在410处,针对每个初始机器学习模型选择初始特征集合。初始特征集合可以包括输入数据的一些或全部特征。初始特征集合不包括所选特征。在一些实施例中,初始特征集合是随机选择的。在其他实施例中,初始特征集合由算法选择。用于第一初始机器学习模型的初始特征集合可以包括与用于第二初始机器学习模型的初始特征集合相同的特征中的一些、全部或者不包括所述特征中任何一个。
[0098]
在412处,基于训练数据生成多个初始机器学习模型。可以基于机器学习算法(例如,决策树、朴素贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络、深度学习等)来生成初始机器学习模型。机器学习模型中的一些可以使用相同的机器学习算法,而其他的可以使用不同的算法。给定初始特征集合和对应特征值,机器学习模型被配置为输出所选特征的预测特征标签。在一些实施例中,机器学习模型输出所选特征的预测值。在其他实施例中,机器学习模型被配置为输出所选特征的预测标签和与预测值相关联的置信度值。在其他实施例中,机器学习模型被配置为输出所选特征的预测标签和与预测值相关联的范围(例如,
±
5)。
[0099]
一旦已经训练了初始机器学习模型,就可以将所选特征的预测标签与所选特征的实际值进行比较。可以基于该比较来重新训练机器学习模型,例如,微调机器学习模型以做出更准确的预测。在一些实施例中,调整与机器学习模型相关联的一个或多个权重,以改进机器学习模型的准确度。
[0100]
在414处,使用验证数据验证初始机器学习模型。验证数据被输入到机器学习模型。给定与机器学习模型相关联的特征,并且将对应特征值提供给机器学习模型。机器学习模型被配置为基于相关联的验证特征和对应特征值来输出所选特征的预测标签。可以基于与机器学习模型相关联的验证分数将分数分配给机器学习模型。
[0101]
在一些实施例中,初始机器学习模型的分数是初始机器学习模型的总体验证分数(例如,总体准确度)。验证数据由多个条目组成。对于验证数据的每个条目,可以将由初始机器学习模型输出的预测特征标签与实际特征值进行比较。例如,特征“年龄”的预测特征标签可以是“21”,并且特征“年龄”的实际特征值是“18”。可以通过计算(1)来确定与条目相关联的预测的验证分数。可以通过计算(2)来确定初始机器学习模型的总体验证分数。
[0102]
在其他实施例中,初始机器学习模型的分数是初始机器学习模型的采样验证分数。验证数据由多个条目组成。可以随机选择多个条目的第一子集(例如,预定数量)。可以确定与多个条目的子集的每个条目相关联的预测的验证分数。可以确定多个条目的子集的总体验证分数。可以随机选择多个条目的第二子集(例如,预定数量)。第二子集可以包括多个条目的第一子集中所包括的条目中的一些或者不包括所述条目中任何一个。可以确定与多个条目的第二子集的每个条目相关联的预测的验证分数。可以确定多个条目的第二子集的总体验证分数。可以确定预定数量的子集和对应的总体子集验证分数。初始机器学习模型的采样验证可以确定为:
采样验证分数= 。
[0103]
在416处,基于对应的分数对初始机器学习模型进行排序。
[0104]
图5是图示了用于过滤模型的过程的实施例的流程图。过程500可以由诸如服务器102的服务器来实现。在一些实施例中,过程500用于执行过程300的304中的一些或全部。
[0105]
在502处,随机选择预定数量的条目。在一些实施例中,从训练数据中选择预定数量的条目。在其他实施例中,从验证数据中选择预定数量的条目。在其他实施例中,从训练数据和验证数据的组合中选择预定数量的条目。
[0106]
在504处,针对每个条目计算分数。该分数可以表示机器学习模型针对该特定条目的准确度。机器学习模型被配置为输出特征的预测标签。从输入数据中知道特征的实际值。可以通过计算(1)来确定条目的验证分数(例如,准确度)。
[0107]
在506处,针对所有随机选择的条目计算统计指标。统计指标可以是机器学习模型针对所有条目的总体验证分数。可以通过计算(2)来确定总体验证分数。
[0108]
在508处,确定是否已经达到了停止条件。在一些实施例中,停止条件是阈值迭代次数。在其他实施例中,停止条件是持续时间。在尚未达到停止条件的情况下,过程500前进到502,在502中可以再次随机选择预定数量的条目。预定数量的条目可以包括在先前迭代中用于计算机器学习模型的验证分数(例如,准确度)的条目。在已经达到了停止条件的情况下,过程500前进到510。
[0109]
在510处,确定统计指标的一个或多个统计度量。在一些实施例中,统计度量是验证分数的分布。在其他实施例中,统计度量是所计算的总体验证分数的平均值。
[0110]
在512处,将所确定的统计指标与另一机器学习模型的参考指标进行比较。在一些实施例中,该另一机器学习模型是幸存机器学习模型。在其他实施例中,该另一机器学习模型是进化的机器学习模型。例如,总体准确度的平均值可以与另一模型的条目验证分数的分布进行比较。可以确定总体准确度的平均值是否超过另一模型的条目验证分数的分布。在总体准确度的平均值超过另一模型的条目验证分数的分布的情况下,该模型被确定为该另一模型的改进,并替换该另一模型作为幸存机器学习模型。
[0111]
图6是图示了用于生成进化的机器学习模型的过程的流程图。过程600可以由诸如服务器102的服务器来实现。在一些实施例中,过程600用于执行过程300的306中的一些或全部。
[0112]
在602处,标识一个或多个幸存机器学习模型的一个或多个重要特征。
[0113]
在一些实施例中,基于特征被用于划分决策树的次数来确定一个或多个重要特征。一个或多个重要特征可以基于特征在决策树划分内的位置来确定。例如,用于在决策树顶部处划分决策树的特征可能比用于在决策树底部处划分决策树的特征更重要。
[0114]
在一些实施例中,随机重新排列对应于输入数据的特征的特征值,并且重复至少部分基于该特征的机器学习模型的预测。在机器学习模型的预测的验证分数随着随机特征数据而改进的情况下,该特征被确定为不可信特征,而不是重要特征。在机器学习模型的预测的验证分数没有随着随机特征数据在阈值统计量(例如,5%)内改变的情况下,该特征被确定为不是重要特征。在机器学习模型的预测的验证分数随着随机特征数据降低多于阈值统计量(例如,5%)的情况下,该特征被确定为重要特征。
[0115]
在604处,将一个或多个变换应用于所标识的一个或多个重要特征,以生成一个或多个新特征。在一些实施例中,变换被应用于所标识的重要特征之一。在一些实施例中,变换被应用于多个所标识的重要特征。在其他实施例中,变换被应用于所标识的重要特征和未被标识为重要特征的一个或多个特征中的至少一个。
[0116]
可以使用变换来生成一个或多个新特征。变换器可以包括过滤变换器、频次变换器、批量交互变换器、截断svd数字变换器、标签编码变换器、交叉验证的类别到数字编码变换器、日期变换器、日期极性变换器、文本变换器、类别目标编码变换器、数字到类别目标编码变换器、聚类目标编码变换器、聚类距离变换器、证据权重和/或数字到类别证据权重变换器。在一些实施例中,随机选择变换器。在其他实施例中,基于与特征相关联的数据类型来选择变换器。例如,特征值可以是数字值、类别值(例如,男性/女性、红色/蓝色、晴天/雨天等)、序数值(第一、第二、第三等)等。在幸存机器学习模型基于多个特征——其中至少一个特征值类型是数字值并且至少一个特征值类型是类别值——的情况下,可以选择接收数字值和类别值作为输入的变换器。
[0117]
一个或多个新特征可以用于生成进化的机器学习模型。在一些实施例中,除了进化的机器学习模型包括一个或多个新特征并且排除一个或多个新特征所基于的一个或多个原始特征之外,进化的机器学习模型类似于幸存机器学习模型。在其他实施例中,进化的机器学习模型基于一个或多个新特征和一个或多个原始特征。
[0118]
在606处,使用训练数据集生成进化的机器学习模型。进化的机器学习模型被配置为对与初始机器学习模型相同的特征做出预测值。可以生成一个或多个进化的机器学习模型。可以使用一个或多个新特征和原始特征的子集来训练进化的机器学习模型。在一些实施例中,原始特征的子集不包括一个或多个新特征所基于的一个或多个原始特征。可以使用与幸存机器学习模型相同的机器学习算法或不同的机器学习算法来生成进化的机器学习模型。将进化的机器学习模型的预测特征标签与训练数据的实际特征值进行比较。可以基于该比较来调整进化的机器学习模型。例如,可以调整与进化的机器学习模型中包括的一个或多个特征相关联的一个或多个权重,使得进化的机器学习模型提供更接近训练数据的实际特征值的预测。
[0119]
图7是图示了训练和验证数据集的实施例的图解。
[0120]
在所示的示例中,训练和验证数据集710a、710b、710c、710d是由诸如服务器102的服务器记载的输入数据的示例。输入数据可以被划分成不同版本的训练和验证数据集。训练和验证数据集710a、710b、710c、710d各自包括相同的数据集合,但是将每个数据集分开所用的方式是不同的。训练和验证数据集610a包括训练数据702a和验证数据702b。训练和验证数据集710b包括训练数据704a、验证数据704b和训练数据704c。训练和验证数据集710c包括训练数据706a、验证数据706b和706c。训练和验证数据集710d包括验证数据708a和训练数据708b。
[0121]
训练和验证数据集的验证数据可以是训练和验证数据集的任何部分。在一些实施例中,验证数据的条目数量是多个训练和验证数据集之间的条目的相同数量。在一些实施例中,训练和验证数据集的验证数据的条目数量少于训练和验证数据集的训练数据的条目数量。在其他实施例中,验证数据的条目数量等于训练和验证数据集的训练数据的条目数量。在其他实施例中,验证数据的条目数量大于训练和验证数据集的训练数据的条目数量。
[0122]
可以针对每个训练和验证数据集生成多个机器学习模型。可以使用对应训练和验证数据集的对应训练数据来训练机器学习模型,并且使用对应训练和验证数据集的对应验证数据来验证该机器学习模型。例如,可以使用训练和验证数据集710a生成第一机器学习模型、第二机器学习模型和第三机器学习模型。可以使用训练和验证数据集710b生成第四机器学习模型、第五机器学习模型和第六机器学习模型。可以使用训练和验证数据集710c生成第七机器学习模型、第八机器学习模型和第九机器学习模型。可以使用训练和验证数据集71da生成第十机器学习模型、第十一机器学习模型和第十二机器学习模型。
[0123]
图8是图示了用于生成整体模型的过程的实施例的流程图。过程800可以由诸如服务器102的服务器来实现。
[0124]
在802处,测试数据被应用于每个机器学习模型。测试数据包括先前数据集中未包括的数据。测试数据可以由一个或多个条目组成。每个条目包括多个特征和对应特征值。
[0125]
在804处,针对每个机器学习模型生成分数。测试数据被输入到机器学习模型。测试数据可以由一个或多个条目组成。机器学习模型被配置为输出特定特征的预测标签。特定值的实际值被包括在测试数据中。可以通过计算(1)和/或(2)来确定机器学习模型的验证分数。
[0126]
在806处,针对所有模型生成总体分数。总体分数可以是模型的总体验证分数。例如,每个机器学习模型的验证分数的总和可以被求和并除以机器学习模型的总数。
[0127]
在808处,使用测试数据调谐模型。例如,可以调整与机器学习模型中的一个或多个相关联的权重,使得模型的总体分数增加。例如,模型的总体分数可以计算为:,其中n是机器学习模型的数量,a
i
是权重并且m
i
是与机器学习模型相关联的验证分数。在其他实施例中,可以调整与机器学习模型相关联的一个或多个权重(相关联的权重),以改进特定模型的准确度。例如,特征的预测值可以表示为。可以调整与特定模型相关联的一个或多个权重,使得。
[0128]
尽管为了理解清楚的目的,已经对前述实施例进行了一些详细描述,但是本发明不限于所提供的细节。存在许多实现本发明的替代方式。所公开的实施例是说明性的而非限制性的。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1