机器学习模型的超参数配置方法、装置以及可读存储介质与流程

文档序号：29859022发布日期：2022-04-30 10:17阅读：172来源：国知局

1.本技术涉及人工智能技术领域，尤其涉及一种机器学习模型的超参数配置方法、装置以及可读存储介质。

背景技术：

2.机器学习作为人工智能(artificial intelligence，ai)的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。在机器学习过程中，需要在开始学习之前为机器学习模型配置超参数，便于机器学习模型基于配置的超参数进行学习。超参数是一种需要预先配置的参数，不能通过模型训练得到，通常是基于人工的现有经验进行人工赋值来为机器学习模型配置超参数。超参数定义了关于机器学习模型的更高层次的概念，如模型复杂性或学习能力，因此为机器学习模型选择一组最优超参数对提高模型学习的性能和效果至关重要，机器学习模型中配置的该组最优超参数也称为机器学习模型的超参数配置。
3.本技术的发明人在研究和实践过程中发现，现有技术中，通常是基于人工经验来配置机器学习模型的超参数，然而基于人工经验调优得到的超参数往往是次优解，并非最优超参数，超参数优化效果差，并且超参数调优过程耗时长，适用性差。

技术实现要素：

4.本技术实施例提供一种机器学习模型的超参数配置方法、装置以及可读存储介质，可以提高机器学习模型的超参数生成效率，减少了超参数调优耗时，超参数配置选取的有效率高，适用性强。
5.第一方面，本技术实施例提供了一种机器学习模型的超参数配置方法，该方法包括：
6.获取机器学习模型基于训练样本数据和多个初始超参数配置进行机器学习得到的多个第一奖励参量；
7.获取超参数配置采样器基于上述多个初始超参数配置、上述多个初始超参数配置中各初始超参数配置对应的第一奖励参量，以及超参数搜索空间得到的多个候选超参数配置；
8.通过多个奖励参量预测模型基于上述多个初始超参数配置、上述各初始超参数配置对应的第一奖励参量，以及上述多个候选超参数配置，获取上述多个候选超参数配置中各候选超参数配置对应的多个奖励参量预测值；
9.基于上述多个候选超参数配置、上述各候选超参数配置对应的多个奖励参量预测值、上述训练样本数据以及上述机器学习模型，从上述多个候选超参数配置中确定出上述机器学习模型的目标超参数配置。
10.在一种可能的实现方式中，上述超参数配置采样器包括随机采样器和超参数优化采样器；
11.上述获取超参数配置采样器基于上述多个初始超参数配置、上述多个初始超参数配置中各初始超参数配置对应的第一奖励参量，以及超参数搜索空间得到的多个候选超参数配置包括：
12.通过上述超参数优化采样器基于上述多个初始超参数配置、上述多个初始超参数配置中各初始超参数配置对应的第一奖励参量，以及上述超参数搜索空间获取多个第一候选超参数配置；
13.通过上述随机采样器基于上述超参数搜索空间获取多个第二候选超参数配置；
14.将上述多个第一候选超参数配置和上述多个第二候选超参数配置确定为上述多个候选超参数配置。
15.在一种可能的实现方式中，上述基于上述多个候选超参数配置、上述各候选超参数配置对应的多个奖励参量预测值、上述训练样本数据以及上述机器学习模型，从上述多个候选超参数配置中确定出上述机器学习模型的目标超参数配置包括：
16.获取上述多个奖励参量预测模型中，任一奖励参量预测模型获取的上述多个第一候选超参数配置对应的奖励参量预测值，并将数值较大的前n个奖励参量预测值对应的n个第一候选超参数配置确定为一组目标第一候选超参数配置，以得到基于上述多个奖励参量预测模型获取的多组目标第一候选超参数配置；
17.获取上述多个奖励参量预测模型中，任一奖励参量预测模型获取的上述多个第二候选超参数配置对应的奖励参量预测值，并将数值较大的前m个奖励参量预测值对应的n个第二候选超参数配置确定为一组目标第二候选超参数配置，以得到基于上述多个奖励参量预测模型获取的多组目标第二候选超参数配置；
18.从上述多组目标第一候选超参数配置中确定出出现次数大于阈值的n个目标第一候选超参数配置，并从上述多组目标第二候选超参数配置中确定出出现次数大于上述阈值的m个目标第二候选超参数配置，上述阈值基于上述多个奖励参量预测模型的数量得到；
19.基于上述n个目标第一候选超参数配置、上述m个目标第二候选超参数配置、上述训练样本数据以及上述机器学习模型确定出上述机器学习模型的目标超参数配置。
20.在一种可能的实现方式中，上述方法还包括：
21.若从上述多组目标第一候选超参数配置中确定出的出现次数大于阈值的目标第一候选超参数配置的数量n1不等于n，则基于各组目标第一候选超参数配置中各第一候选超参数配置对应的奖励参量预测值的平均值，从上述多组目标第一候选超参数配置中确定出n个目标第一候选超参数配置，n1为正整数；
22.若从上述多组目标第二候选超参数配置中确定出的出现次数大于阈值的目标第二候选超参数配置的数量m1不等于m，则基于各组目标第二候选超参数配置中各第二候选超参数配置对应的奖励参量预测值的平均值，从上述多组目标第二候选超参数配置中确定出m个目标第二候选超参数配置，m1为正整数。
23.在一种可能的实现方式中，上述基于上述n个目标第一候选超参数配置以及上述m个目标第二候选超参数配置、上述训练样本数据以及上述机器学习模型确定出上述机器学习模型的目标超参数配置包括：
24.获取上述机器学习模型基于上述训练样本数据、上述n个目标第一候选超参数配置以及上述m个目标第二候选超参数配置进行机器学习得到的各目标第一候选超参数配置
对应的第二奖励参量以及各目标第二候选超参数配置对应的第二奖励参量；
25.从上述n个目标第一候选超参数配置和上述m个目标第二候选超参数配置中确定出第二奖励参量最大的目标第一候选超参数配置或者目标第二候选超参数配置作为上述机器学习模型的目标超参数配置。
26.在一种可能的实现方式中，上述获取上述机器学习模型基于上述训练样本数据、上述n个目标第一候选超参数配置以及上述m个目标第二候选超参数配置进行机器学习得到的各目标第一候选超参数配置对应的第二奖励参量以及各目标第二候选超参数配置对应的第二奖励参量包括：
27.根据上述机器学习模型基于上述训练样本数据和各目标第一候选超参数配置进行第i次机器学习得到的候选奖励参量确定第一候选奖励参量参考值，若上述第一候选奖励参量参考值小于奖励参量均值，则获取上述机器学习模型基于上述训练样本数据和上述各目标第一候选超参数配置进行第i-1次机器学习得到的候选奖励参量作为上述各目标第一候选超参数配置对应的第二奖励参量，其中i为正整数，上述奖励参量均值由上述机器学习模型获得上述第一奖励参量之前，基于上述训练样本数据和历史超参数配置进行机器学习获得的历史奖励参量得到；
28.根据上述机器学习模型基于各目标第二候选超参数配置进行第i次机器学习得到的候选奖励参量确定第二候选奖励参量参考值，若上述第二候选奖励参量参考值小于上述奖励参量均值，则获取上述机器学习模型基于上述各目标第二候选超参数配置进行第i-1次机器学习得到的候选奖励参量作上述各目标第二候选超参数配置对应的第二奖励参量。
29.在一种可能的实现方式中，上述基于上述n个目标第一候选超参数配置、上述m个目标第二候选超参数配置、上述训练样本数据以及上述机器学习模型确定出上述机器学习模型的目标超参数配置之后，上述方法包括：
30.获取上述机器学习模型基于上述训练样本数据和上述n个目标第一候选超参数配置中任一目标第一候选超参数配置进行机器学习的第一学习次数，若上述第一学习次数大于或等于机器学习次数阈值，则拷贝上述任一目标第一候选超参数配置；
31.获取上述机器学习模型基于上述训练样本数据和上述m个目标第二候选超参数配置中任一目标第二候选超参数配置进行机器学习的第二学习次数，若上述第二学习次数大于或等于上述机器学习次数阈值，则拷贝上述任一目标第二候选超参数配置；
32.基于上述n个目标第一候选超参数配置、上述m个目标第二候选超参数配置、拷贝后的各目标第一候选超参数配置以及拷贝后的各目标第二候选超参数配置更新上述机器学习模型的初始超参数配置，以供更新上述机器学习模型的目标超参数配置时上述机器学习模型进行机器学习时使用。
33.第二方面，本技术实施例提供了一种机器学习模型的超参数配置装置，该装置包括：
34.获取模块，用于获取机器学习模型基于训练样本数据和多个初始超参数配置进行机器学习得到的多个第一奖励参量；
35.候选超参数配置生成模块，用于通过超参数配置采样器基于上述获取模块得到的多个初始超参数配置、上述各初始超参数配置对应的第一奖励参量，以及超参数搜索空间得到多个候选超参数配置；
36.奖励参量预测模块，用于通过多个奖励参量预测模型基于上述获取模块得到的多个初始超参数配置、上述各初始超参数配置对应的第一奖励参量，以及上述候选超参数配置生成模块得到的多个候选超参数配置，得到上述多个候选超参数配置中各候选超参数配置对应的多个奖励参量预测值；
37.目标超参数配置生成模块，用于基于上述多个候选超参数配置、上述各候选超参数配置对应的多个奖励参量预测值、上述训练样本数据以及上述机器学习模型，从上述多个候选超参数配置中确定出上述机器学习模型的目标超参数配置。
38.第三方面，本技术实施例提供了一种计算机设备，上述计算机设备包括：处理器、存储器以及网络接口；
39.上述处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，上述存储器用于存储程序代码，上述处理器用于调用上述程序代码，以执行如本技术实施例第一方面中的方法。
40.第四方面，本技术实施例提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序包括程序指令，当上述处理器执行上述程序指令时执行如本技术实施例第一方面中的方法。
附图说明
41.为了更清楚地说明本技术实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
42.图1是本技术实施例提供的系统架构示意图；
43.图2是本技术实施例提供的机器学习模型的超参数配置方法的一数据交互示意图；
44.图3是本技术实施例提供的机器学习模型的超参数配置方法的流程示意图；
45.图4是本技术实施例提供的机器学习模型的超参数配置方法的另一数据交互示意图；
46.图5是本技术实施例提供的机器学习模型的超参数配置装置的结构示意图；
47.图6是本技术实施例提供的计算机设备的结构示意图。
具体实施方式
48.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
49.人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原
理与实现方法，使机器具有感知、推理与决策的功能。
50.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
51.机器学习(machine learning,ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
52.本技术实施例提供的方案涉及人工智能领域中的机器学习技术，具体通过如下实施例进行说明：
53.本技术实施例提供的机器学习模型的超参数配置方法(或简称本技术实施例提供的方法)适用于对机器学习中各类机器学习模型配置超参数，超参数是一种在机器学习模型(比如，可以是自然语言处理(nature language processing,nlp)、计算机图像(computer vision，cv)等相关的机器学习模型，具体可根据实际应用场景确定，本技术在此不做限制)开始学习之前为机器学习模型配置的参数，不能通过模型训练得到，通常是基于人工的现有经验进行人工赋值来为机器学习模型配置超参数。例如，在自然语言处理相关的机器学习模型中可以在模型学习之前设置学习率(learning rate)、每次模型训练选取的样本数(batch size)等超参数，超参数的配置可以影响到机器学习模型的最终训练效果，不同的超参数配置可以使得机器学习模型获得不同的训练效果。比如对于上述自然语言处理相关的机器学习模型，如果设置每次模型训练选取的样本数过小或过大，均会影响模型的优化程度和训练速度，同时样本数的大小也会直接影响到gpu内存的使用情况。超参数的配置直接影响到机器学习模型的模型复杂性或学习能力，因此为机器学习模型选择一组最优超参数可以提高机器学习模型的学习性能和学习效果。为方便描述，下面将以对机器学习模型的学习训练之前，针对机器学习模型以及模型的各类超参数进行超参数优化以得到最优超参数配置为例进行示例说明。这里，模型的各类超参数的配置也称为模型的超参数配置，比如，超参数配置可以包括一种(或类)或多种超参数，一种超参数中也可以包括一个或者多个超参数，具体可根据实际应用场景确定，在此不做限制。为方便描述，基于本技术提供的方法为机器学习模型配置的超参数配置(比如最优超参数配置)可以以目标超参数配置为例进行说明。
54.基于本技术实施例提供的方法可以在减少超参数调优(即寻找最优超参数配置的过程)耗时的情况下生成更适合机器学习模型的目标超参数配置，这里，可以通过上述机器学习模型基于当前模型的超参数配置以及训练样本数据(可以是验证集中的训练样本数据)进行机器学习，并获取机器学习模型基于当前设置的超参数配置进行机器学习所获得的训练效果指标(比如，对于nlp相关的机器学习模型，训练效果指标可以是准确率、接收者操作特征曲线下的面积(area under curve，auc)等)，通过上述训练效果指标(为方便描述，可以以奖励参量为例进行说明)来评价当前机器学习模型的训练效果，从而可以基于各
超参数配置的奖励参量确定目标超参数配置，使得机器学习模型在上述目标超参数配置下进行模型学习训练，进一步提高模型的学习性能和学习效果。
55.在本技术实施例提供的方法中，机器学习模型的目标超参数配置生成过程中，可通过超参数配置采样器获得多个候选超参数配置以从上述多个候选超参数配置中选取更适合机器学习模型的候选超参数配置，并通过多个奖励参量预测模型基于上述多个候选超参数配置获取各候选超参数配置对应的多个奖励参量预测值(即预测各候选超参数配置在设置到机器学习模型后，机器学习模型基于各候选超参数配置进行机器学习所得到的训练效果)，从而基于各候选超参数配置对应的多个奖励参量预测值选取训练效果最优的候选超参数配置作为机器学习模型的目标超参数配置。
56.参见图1，图1是本技术实施例提供的系统架构示意图。如图1所示，该系统架构可以包括业务服务器100以及终端集群，终端集群可以包括：终端设备200a、终端设备200b、终端设备200c、
……
、终端设备200n等终端设备。其中，上述业务服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备(包括终端设备200a、终端设备200b、终端设备200c、
……
、终端设备200n)可以是智能手机、平板电脑、笔记本电脑、台式计算机、掌上电脑、移动互联网设备(mobile internet device,mid)、可穿戴设备(例如智能手表、智能手环等)、智能电脑、智能车载等智能终端。其中，业务服务器100与终端集群中的各终端设备可以建立通信连接，终端集群中的各终端设备之间也可建立通信连接。换句话说，业务服务器100可与终端设备200a、终端设备200b、终端设备200c、
……
、终端设备200n中的各终端设备建立通信连接，例如终端设备200a与业务服务器100之间可建立通信连接。终端设备200a与终端设备200b之间可建立通信连接，终端设备200a与终端设备200c之间也可建立通信连接。其中，上述通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接等，具体可根据实际应用场景确定，本技术在此不做限制。
57.应该理解，如图1所示的终端集群中的每个终端设备均可以部署有机器学习模型(比如自然语言处理、计算机图像等相关的机器学习模型)，上述终端设备中的机器学习模型可以通过其对应的终端设备接收上述业务服务器100发送的超参数配置(可以是候选超参数配置或者目标超参数配置)，各机器学习模型基于训练样本数据以及接收到的超参数配置进行模型训练，并向上述业务服务器100反馈每次训练对应的奖励参量。上述业务服务器100作为各机器学习模型的目标超参数配置的提供方，可以部署有超参数配置采样器以及多个奖励参量预测模型，可以基于接收到的奖励参量不断优化上述超参数配置采样器以及多个奖励参量预测模型，以基于优化后的超参数配置采样器和多个奖励参量预测模型向上述各机器学习模型提供训练效果最优的目标超参数配置。本技术实施例提供的方法可以由如图1所示的业务服务器100执行，也可以任一由终端设备(如图1所示的终端设备200a、终端设备200b、
……
、终端设备200n中的任意一个)执行，还可以由终端设备和业务服务器共同执行，具体可根据实际应用场景确定，此处不做限制。
58.在一些可行的实施方式中，可以将终端设备200a作为机器学习模型的提供方，业务服务器100基于终端设备200a中部署的机器学习模型生成目标超参数配置。在业务服务
器100目标超参数配置生成过程中，业务服务器100可以部署有超参数配置采样器，通过超参数配置采样器得到多个候选超参数配置，以从上述多个候选超参数配置中选取更适合机器学习模型的目标超参数配置。同时，业务服务器100可以部署有多个奖励参量预测模型，通过多个奖励参量预测模型基于上述多个候选超参数配置获取多个候选超参数配置中各候选超参数配置对应的多个奖励参量预测值，即预测各候选超参数配置在设置到机器学习模型后，机器学习模型基于各候选超参数配置进行机器学习所得到的训练效果，从而基于各候选超参数的奖励参量预测值选取训练效果最优的目标超参数配置。最后，业务服务器100基于上述各候选超参数配置对应的多个奖励参量预测值从上述多个候选超参数配置中选取(可以是通过投票法选取)部分候选超参数配置作为向机器学习模型推送的候选超参数配置，为方便描述，可以以目标候选超参数配置为例进行说明，下文不再赘述。业务服务器100可基于上述训练样本数据以及上述机器学习模型，从上述多个目标候选超参数配置中确定出上述机器学习模型的目标超参数配置，使得上述终端设备200a中的机器学习模型在目标超参数配置下有最优的学习效果，目标超参数配置选取效果好，超参数调优过程耗时短，适用性强。
59.在一些可行的实施方式中，可以是终端设备200a基于其部署的机器学习模型生成目标超参数配置。终端设备200a可以部署有超参数配置采样器，通过超参数配置采样器得到多个候选超参数配置，同时，终端设备200a可以部署有多个奖励参量预测模型，通过多个奖励参量预测模型基于上述多个候选超参数配置获取多个候选超参数配置中各候选超参数配置对应的多个奖励参量预测值，即预测各候选超参数配置在设置到机器学习模型后，机器学习模型基于各候选超参数配置进行机器学习所得到的训练效果，从而基于各候选超参数的奖励参量预测值选取训练效果最优的目标超参数配置。最后，终端设备200a基于上述各候选超参数配置对应的多个奖励参量预测值从上述多个候选超参数配置中选取(可以是通过投票法选取)多个目标候选超参数配置，并结合上述训练样本数据以及上述机器学习模型，从上述多个目标候选超参数配置中确定出上述机器学习模型的目标超参数配置。使得上述终端设备200a中的机器学习模型在目标超参数配置下有最优的学习效果，目标超参数配置选取效果好，超参数调优过程耗时短，适用性强。
60.应该理解，针对机器学习模型以及模型的各类超参数进行超参数优化以得到最优超参数配置的过程中，可以通过多次超参数优化过程以不断优化模型的各类超参数，每一次超参数优化过程可以获取更优的超参数配置(即每一次超参数优化过程对应的目标超参数配置)。上述多次超参数优化中任一次获取目标超参数配置过程中，可以接收来自其上一次超参数优化得到的多个目标候选超参数配置(即上一次超参数优化中基于各候选超参数配置对应的多个奖励参量预测值从上述多个候选超参数配置中选取的部分候选超参数配置)。此时，为区分上述任一次的目标候选超参数配置，下面在对上述任一次进行超参数优化以得到目标超参数配置的过程描述中将以初始超参数配置表示其上一次超参数优化得到的多个目标候选超参数配置。任一次获取目标超参数配置过程中，可以接收机器学习模型基于训练样本数据和多个初始超参数配置进行机器学习得到的多个奖励参量(可以为第一奖励参量)，并基于多个初始超参数配置及其对应的多个第一奖励参量不断提升超参数优化效果。请参见图2，图2是本技术实施例提供的机器学习模型的超参数配置方法的一数据交互示意图。如图2所示，图2中的数据交互可以为上述多次超参数优化过程中的一次超
参数优化过程，超参数配置采样器和多个奖励参量预测模型可以获取机器学习模型基于训练样本数据和多个初始超参数配置进行机器学习得到的多个第一奖励参量，上述多个初始超参数配置可以是其上一次超参数优化得到的多个目标候选超参数配置。通过超参数配置采样器基于接收到的多个初始超参数配置及其对应的多个第一奖励参量，以及超参数搜索空间得到多个候选超参数配置。通过多个奖励参量预测模型基于接收到的多个初始超参数配置、多个第一奖励参量以及多个候选超参数配置获取各候选超参数配置对应的多个奖励参量预测值，最后基于上述多个候选超参数配置、各候选超参数配置对应的多个奖励参量预测值、训练样本数据以及机器学习模型，从上述多个候选超参数配置中确定目标超参数配置并输出到机器学习模型以供上述机器学习模型使用，提高了模型的学习性能和学习效果，目标超参数配置选取效果好，减少了超参数调优过程耗时，适用性强。其中，上述超参数配置采样器可以基于接收到的多个初始超参数配置及其对应的多个第一奖励参量进行机器学习以提高候选超参数配置的采样效果，提高基于各候选超参数配置获得机器学习模型的更优训练效果(即奖励参量取值更高)的概率，从而在更有价值的候选超参数配置中更快选取得到目标超参数配置，提高机器学习模型的最优超参数配置的获取效率。上述多个奖励参量预测模型可以基于接收到的多个初始超参数配置及其对应的多个第一奖励参量进行机器学习以提高各奖励参量预测模型的预测准确率，即对各候选超参数配置赋予更真实的奖励参量预测值，从而基于各候选超参数的奖励参量预测值选取训练效果最优的目标超参数配置。
61.为方便描述，下面将以终端设备作为本技术实施例提供的方法的执行主体，针对多次超参数优化过程中的单次超参数优化(或称超参数的单轮优化迭代)，通过一个实施例具体说明通过终端设备进行目标超参数配置生成的实现方式。
62.参见图3，图3是本技术实施例提供的机器学习模型的超参数配置方法的流程示意图。如图3所示，该方法包括如下步骤：
63.s101，获取机器学习模型基于训练样本数据和多个初始超参数配置进行机器学习得到的多个第一奖励参量。
64.s102，获取超参数配置采样器基于多个初始超参数配置、各初始超参数配置对应的第一奖励参量，以及超参数搜索空间得到的多个候选超参数配置。
65.在一些可行的实施方式中，终端设备(比如终端设备200a)可以获取多个初始超参数配置以及各初始超参数配置对应的第一奖励参量，用于获得多个候选的超参数配置。这里，上述多个初始超参数配置可以由距离当前次的超参数优化(或者超参数的当前轮优化迭代)时间最近的上一次超参数优化(或者超参数的上一轮优化迭代)得到的多个目标候选超参数配置构成，也可以由预设配置的超参数配置构成，具体可根据实际应用场景确定。上述各初始超参数配置对应的第一奖励参量可以由机器学习模型基于训练样本数据和各初始超参数配置进行机器学习得到。请参见图4，图4是本技术实施例提供的机器学习模型的超参数配置方法的另一数据交互示意图，如图4所示，基于机器学习模型可以获得多个初始超参数配置及对应的第一奖励参量，机器学习模型获得的多个初始超参数配置及对应的第一奖励参量可以输入超参数配置采样器。超参数配置采样器可以基于接收到的多个初始超参数配置及其对应的多个第一奖励参量进行机器学习，基于接收到的多个初始超参数配置及其对应的多个第一奖励参量进行超参数配置采样器的机器学习可以提高超参数配置采
样器对候选超参数配置的采样有效率。采样有效率更高的超参数配置采样器可以输出更加有效的候选超参数配置，从而使得奖励参量预测模型可以在更有价值的候选超参数配置中选取得到目标超参数配置，可提高目标超参数配置的选取效率，适用性更强。同时，在图4所示的数据交互过程中，通过上述超参数配置采样器还可以基于超参数搜索空间得到多个候选超参数配置，可提高候选超参数配置的采样方式多样性，增强候选超参数配置的采样有效率，操作简单，适用性高。
66.在一些可行的实施方式中，如图4所示，上述超参数配置采样器可以包括随机采样器和超参数优化采样器，具体的，上述超参数优化采样器可以是具有建模任一超参数配置与其对应奖励参量的关系的一个或多个超参数优化采样器。这里，超参数优化采样器可以包括基于树状结构parzen估计(tree-structured parzen estimator，tpe)算法获得的超参数优化采样器、基于协方差矩阵自适应进化策略(covariance matrix adaptation evolution strategy，cma-es)算法获得的超参数优化采样器等中的一个或多个，具体可根据实际应用场景确定。由于最终生成的目标超参数配置来自于通过超参数配置采样器获取的多个候选超参数配置，因此，在采样阶段选取可以通过建模了任一超参数配置与其对应奖励参量关系的超参数优化采样器进行采样，通过超参数优化采样器可以选取对应奖励参量更高的多个候选超参数配置(为方便描述，可以以第一候选超参数配置为例进行示例说明)，从而可以得到在机器学习模型的训练中表现更优的候选超参数配置，可提升候选超参数配置的选取质量，有助于更快从多个候选超参数配置中获取目标超参数配置，提升目标超参数配置的训练效果。同时，为了避免基于上述超参数优化采样器获取的多个候选超参数配置是在超参数搜索空间中的局部最优候选超参数配置，即超参数优化采样器选取的候选超参数配置值只限定在部分范围中有最佳机器学习模型训练效果，因此在上述超参数优化采样器获取的多个候选超参数配置之外还可通过随机采样器(可以是基于拉丁超立方采样(latin hypercube sampling，lhs)的随机采样器)获取多个候选超参数配置(为方便描述，可以以第二候选超参数配置为例进行示例说明)，以避免仅使用超参数优化采样器陷入局部最优区域。此外，上述超参数优化采样器还可以基于接收的多个初始超参数配置及其对应的多个第一奖励参量进行机器学习，以获得更好的建模任一超参数配置与其对应奖励参量关系的能力，从而可提高基于各第一候选超参数配置获得机器学习模型的更优超参数配置(即奖励参量更高)的概率。请再次参见图4，通过超参数优化采样器基于上述多个初始超参数配置及对应的第一奖励参量，以及超参数搜索空间(图中未示出)可以获取多个第一候选超参数配置，超参数优化采样器可以将多个第一候选超参数配置输出到多个奖励参量预测模型。通过随机采样器基于上述超参数搜索空间可以获取多个第二候选超参数配置，并将多个第二候选超参数配置输出到多个奖励参量预测模型。上述多个第一候选超参数配置以及多个第二候选超参数配置构成多个候选超参数配置，既保证了各候选超参数配置在机器学习模型的训练中有更优表现，又避免了仅使用超参数优化采样器陷入局部最优区域，候选超参数配置提取效果好，适用性强。
67.s103，通过多个奖励参量预测模型基于多个初始超参数配置、各初始超参数配置对应的第一奖励参量，以及多个候选超参数配置获取各候选超参数配置对应的多个奖励参量预测值。
68.在一些可行的实施方式中，上述多个奖励参量预测模型包括但不限于随机森林回
归器(或称random forest回归器)、梯度提升回归器(或称gradient-boosting回归器)、高斯过程回归器(或称gaussian process回归器)以及极端随机树回归器(或称extra-trees回归器)等，具体可根据实际应用场景确定，在此不做限制。本技术实施例将以多个奖励参量预测模型包括随机森林回归器、梯度提升回归器、高斯过程回归器以及极端随机树回归器为例进行说明，下文不再赘述。终端设备可以通过上述多个奖励参量预测模型基于接收到的各候选超参数配置进行奖励参量预测，以得到各候选超参数配置的奖励参量预测值(也可以称为兴趣点(point of interest，poi)值)，即可以通过上述各候选超参数配置对应的由上述多个奖励参量预测模型赋予的多个奖励参量预测值，预测该候选超参数配置在上述机器学习模型中可以取得的训练效果，从而可以基于各候选超参数配置对应的多个奖励参量，从上述多个候选超参数配置中选取部分具有更好训练效果的部分候选超参数配置(为方便描述，可以以目标候选超参数配置为例进行示例说明)，并从目标候选超参数配置获取目标超参数配置。请再次参考图4，多个奖励参量预测模型(包括随机森林回归器、梯度提升回归器、高斯过程回归器以及极端随机树回归器)可以接收来自超参数优化采样器的多个第一候选超参数配置以及来自随机采样器的多个第二候选超参数配置，基于各候选超参数配置得到其对应的多个奖励参量，可从上述多个候选超参数配置(包括第一候选超参数配置和第二候选超参数配置)中选取部分具有更好训练效果的目标候选超参数配置(图中未示出)，进而可从目标候选超参数配置获取目标超参数配置，输出该目标超参数配置至机器学习模型。可以理解，上述随机森林回归器、梯度提升回归器、高斯过程回归器以及极端随机树回归器仅为奖励参量预测模型的多种可选表现形式，并非全部，具体可根据实际应用场景确定，在此不做限制。为方便描述，下面将以上述4个奖励参量预测模型为例，对各奖励参量预测模型基于接收到的多个第一候选超参数配置和多个第二候选超参数配置，输出各候选超参数配置对应的多个奖励参量的实现方式进行示例说明。可以将多个第一候选超参数配置中的任一个第一候选超参数配置分别输入上述随机森林回归器、梯度提升回归器、高斯过程回归器以及极端随机树回归器，通过上述4个奖励参量预测模型分别得到该第一候选超参数配置对应的4个奖励参量预测值：m1、m2、m3以及m4。同样，可以将多个第二选超参数配置中的任一个第二候选超参数配置分别输入上述随机森林回归器、梯度提升回归器、高斯过程回归器以及极端随机树回归器，通过上述4个奖励参量预测模型分别得到该第二候选超参数配置对应的4个奖励参量预测值：n1、n2、n3以及n4。此外，上述多个奖励参量预测模型还可以接收多个初始超参数配置及其对应的第一奖励参量进行机器学习，以获得更好的基于任一候选超参数配置得到其对应的奖励参量预测值的能力，从而可以基于各候选超参数配置对应的多个奖励参量剔除部分候选超参数配置，可以更高效地选取具有最优模型训练效果的目标超参数配置，目标超参数配置提取效果好，适用性强。
69.s104，基于多个候选超参数配置、各候选超参数配置对应的多个奖励参量预测值、训练样本数据以及机器学习模型，从多个候选超参数配置中确定出机器学习模型的目标超参数配置。
70.在一些可行的实施方式中，终端设备可以基于各候选超参数配置对应的多个奖励参量从上述多个候选超参数配置中选取部分具有更好训练效果的多个目标候选超参数配置，具体的，基于各目标候选超参数配置的来源不同，可以包括通过上述超参数优化采样器从多个第一候选超参数配置中选取的目标第一候选超参数配置，以及通过上述随机采样器
从多个第二候选超参数配置中选取的目标第二候选超参数配置，即上述目标候选超参数配置包含来自于超参数优化采样器的目标第一候选超参数配置和来自于随机采样器的目标第二候选超参数配置。进一步地，终端设备可以基于训练样本数据以及机器学习模型获取上述目标第一候选超参数配置以及目标第二候选超参数配置分别对应的第二奖励参量，上述第二奖励参量反映了各第一候选超参数配置以及目标第二候选超参数配置在机器学习模型中的训练效果(比如，对于nlp相关的机器学习模型，第二奖励参量可以是准确率、接收者操作特征曲线下的面积等)。因此，基于上述第二奖励参量可以从目标第一候选超参数配置以及目标第二候选超参数配置中选取具有最优训练效果的目标超参数配置。这里，上述目标超参数配置可以是上述对应第二奖励参量最高的目标第一候选超参数配置或目标第二候选超参数配置，即目标超参数配置可以是目标第一候选超参数配置(该目标第一候选超参数配置对应的第二奖励参量在目标第一候选超参数配置以及目标第二候选超参数配置中最高)，也可以是目标第二候选超参数配置(该目标第二候选超参数配置对应的第二奖励参量在目标第一候选超参数配置以及目标第二候选超参数配置中最高)，以使得机器学习模型在上述目标超参数配置下进行更有效的模型学习训练，目标超参数配置提取效果好。
71.在一些可行的实施方式中，终端设备可以通过各奖励参量预测模型获取第一候选超参数配置中奖励参量预测值较大的前n个第一候选超参数配置，将上述各奖励参量预测模型对应的奖励参量预测值较大的前n个第一候选超参数配置作为一组目标第一候选超参数配置，从而可以基于多个奖励参量预测模型中各奖励参量预测模型得到的一组目标第一候选超参数配置得到多组目标第一候选超参数配置。同样的，将上述各奖励参量预测模型对应的奖励参量预测值较大的前n个第二候选超参数配置作为一组目标第二候选超参数配置，从而可以得到多组目标第二候选超参数配置。综合上述多组目标第一候选超参数配置与多组目标第二候选超参数配置，可以通过投票法得到具有更好训练效果的n个目标第一候选超参数配置与m个目标第二候选超参数配置。比如，假设有4个奖励参量预测模型，包括随机森林回归器、梯度提升回归器、高斯过程回归器以及极端随机树回归器，则可以通过上述4个奖励参量预测模型基于多个第一候选超参数配置得到4组目标第一候选超参数配置(对于各奖励参量预测模型，可以选取多个第一候选超参数配置中奖励参量预测值较大的前3个作为该奖励参量预测模型对应的一组目标第一候选超参数配置)，并通过上述4个奖励参量预测模型基于多个第二候选超参数配置得到4组目标第二候选超参数配置(对于各奖励参量预测模型，可以选取多个第二候选超参数配置中奖励参量预测值较大的前2个作为该奖励参量预测模型对应的一组目标第二候选超参数配置)。若上述4组目标第一候选超参数配置中(每组目标第一候选超参数配置包含3个第一候选超参数配置)，有第一候选超参数配置出现次数超过阈值(可以是奖励参量预测模型数量的一半，此处可以为2)，即出现次数大于2的第一候选超参数配置，则将上述第一候选超参数配置作为目标第一候选超参数配置以得到3个目标第一候选超参数配置。同样地，将上述4组目标第二候选超参数配置中(每组目标第二候选超参数配置包含2个第二候选超参数配置)出现次数大于2的第二候选超参数配置作为目标第二候选超参数配置以得到2个目标第二候选超参数配置。基于3个目标第一候选超参数配置、2个目标第二候选超参数配置、训练样本数据以及机器学习模型可以确定出机器学习模型的目标超参数配置，上述3个目标第一候选超参数配置与2个目标
第二候选超参数配置相对于被剔除的第一、第二候选超参数配置具有更好的训练效果。
72.可选的，在一些可行的实施方式中，若从上述多组目标第一候选超参数配置中确定出的目标第一候选超参数配置的数量不等于n，则可以基于上述各组目标第一候选超参数配置中各第一候选超参数配置对应的奖励参量预测的平均值确定出n个目标第一候选超参数配置，同样地，若从上述多组目标第二候选超参数配置中确定出的目标第二候选超参数配置的数量不等于m，则可以基于上述各组目标第二候选超参数配置中各第二候选超参数配置对应的奖励参量预测的平均值确定出m个目标第二候选超参数配置。举例来说，通过上述4个奖励参量预测模型基于多个第二候选超参数配置得到4组目标第二候选超参数配置(这里m可以为2，即选取2个目标第二候选超参数配置)，其中随机森林回归器对应的一组目标第二候选超参数配置可以为：第二候选超参数配置a1和第二候选超参数配置a2；梯度提升回归器对应的一组目标第二候选超参数配置可以为：第二候选超参数配置a3和第二候选超参数配置a4；高斯过程回归器对应的一组目标第二候选超参数配置可以为：第二候选超参数配置a2和第二候选超参数配置a4；极端随机树回归器对应的一组目标第二候选超参数配置可以为：第二候选超参数配置a2和第二候选超参数配置a3。上述4组目标第二候选超参数配置中只有第二候选超参数配置a2出现次数(3次)超过阈值(这里可以为2次)，即上述4个奖励参量预测模型中超过一半奖励参量预测模型确定第二候选超参数配置a2为一个目标第二候选超参数配置(而第二候选超参数配置a1、第二候选超参数配置a3以及第二候选超参数配置a4出现次数均不超过2次，不能通过投票法确定是否为目标第二候选超参数配置)。由于确定的目标第二候选超参数配置小于2个，则还可以分别获取第二候选超参数配置a1、第二候选超参数配置a3以及第二候选超参数配置a4在4个奖励参量预测模型中得到的奖励参量预测值的平均值，选取平均值最大的第二候选超参数配置(比如第二候选超参数配置a1)，从而将上述第二候选超参数配置a2以及第二候选超参数配置a1确定为目标第二候选超参数配置。
73.在一些可行的实施方式中，在上述基于训练样本数据以及机器学习模型获取上述目标第一候选超参数配置以及目标第二候选超参数配置分别对应的第二奖励参量过程中，上述机器学习模型可以在各目标第一候选超参数配置或各目标第二候选超参数配置下结合训练样本数据进行多次训练，每次训练结束后可以接收到各目标第一候选超参数配置或各目标第二候选超参数配置在各轮训练中的奖励参量(为方便描述，可称为候选奖励参量)，通过基于每次训练的候选奖励参量对当前参与训练的目标第一候选超参数配置或目标第二候选超参数配置进行早停，即拒绝训练表现差的超参数配置并留出更多资源给训练表现更好的超参数配置。具体的，可以基于上述机器学习模型基于各目标第一候选超参数配置在进行第i次机器学习得到的候选奖励参量确定第一候选奖励参量参考值，这里,第一候选奖励参量参考值可以是上述各目标第一候选超参数配置在进行前i次机器学习的候选奖励参量均值(即i个候选奖励参量的平均值)，或者，上述第一候选奖励参量参考值也可以是各目标第一候选超参数配置在进行第i次机器学习得到的候选奖励参量对应的上界值(可以是该候选奖励参量在95％置信度下的上界值)，具体可根据实际应用场景确定，本技术在此不做限制。若上述第一候选奖励参量参考值小于奖励参量均值，则获取上述机器学习模型基于上述各目标第一候选超参数配置进行第i-1次机器学习得到的候选奖励参量作为上述各目标第一候选超参数配置对应的第二奖励参量。这里，上述奖励参量均值由上述
机器学习模型基于获得上述第一奖励参量之前，基于上述训练样本数据和历史超参数配置进行机器学习获得的历史奖励参量得到(即可以是在终端设备获取多个初始超参数配置以及各初始超参数配置对应的第一奖励参量之前，终端设备得到的所有目标第一候选超参数配置以及目标第二候选超参数配置称为历史超参数配置，通过上述历史超参数配置及其对应的历史奖励参量可以得到上述奖励参量均值)。上述各目标第二候选超参数配置的第二奖励参量的获取过程和第一候选超参数配置类似，此处不再赘述。通过在基于训练样本数据以及机器学习模型获取上述目标第一候选超参数配置以及目标第二候选超参数配置分别对应的第二奖励参量过程中早停部分超参数配置，可以将更多资源留给训练表现更好的超参数配置，比如，当通过机器学习模型基于目标第一候选超参数配置以及目标第二候选超参数配置进行机器学习时(可以是机器学习模型同时在多个不同的超参数配置下进行机器学习)，若其中有目标第一候选超参数配置被早停，则此时该机器学习模型可以基于新的超参数配置进行机器学习，从而在同样的时间内训练更多的超参数配置(这里包括目标第一候选超参数配置以及目标第二候选超参数配置)，减少了最终获取目标超参数配置的总耗时，目标超参数配置提取效果更好。
74.可选的，在一些可行的实施方式中，终端设备还可以获取上述机器学习模型基于上述训练样本数据和上述任一目标第一候选超参数配置进行机器学习的学习次数(可以是第一学习次数)，若上述第一学习次数大于或等于机器学习次数阈值，则拷贝上述任一目标第一候选超参数配置。即对于各目标第一候选超参数配置，通过更多次机器学习模型训练后得到的该目标第一候选超参数配置对应的第二奖励参量(或称在大迭代步数下返回的第二奖励参量)相比于较少次机器学习模型训练后得到的第二奖励参量(或称在小迭代步数下返回的第二奖励参量)具有更好的准确性，即能够较好地反应超参数配置和其对应奖励参量之间的真实关系。可以将上述大迭代步数下返回的目标第一候选超参数配置进行拷贝，同样的，对于任一目标第二候选超参数配置进行机器学习的学习次数(可以是第二学习次数)，若上述第一学习次数大于或等于机器学习次数阈值，则拷贝上述任一大迭代步数下返回的目标第二候选超参数配置。将原本由多个候选超参数配置中选取得到的多个目标候选超参数配置(n个目标第一候选超参数配置以及m个目标第二候选超参数配置)更新上述机器学习模型的初始超参数配置以用于下一次目标超参数配置的生成，同时将拷贝后的各目标第一候选超参数配置以及拷贝后的各目标第二候选超参数配置也加入初始超参数配置以增加大迭代步数下返回的目标第一候选超参数配置或目标第一候选超参数配置的权重，使得初始超参数配置更好地反应超参数配置和其对应奖励参量之间的真实关系，加强初始超参数配置输入到各超参数配置采样器、各奖励参量预测模型的模型训练效果，可以基于上述各超参数配置采样器以及各奖励参量预测模型更高效地选取具有最优模型训练效果的目标超参数配置，适用性好。
75.可选的，在一些可行的实施方式中，对于高维度的超参数优化的情况，即在为相关机器学习模型选择最优超参数配置的过程中，机器学习模型的超参数配置包含的超参数种类较多，也可以在本技术提供的超参数配置方法中适配一种基于具有局部搜索能力的算法(可以是blendsearch算法)进行超参数优化的超参数配置方法。该方法结合了全局搜索和局部搜索，在优化过程中可以动态地在二者之间切换，即利用全局搜索保证整体最优的收敛性的同时，利用局部搜索减小生成目标超参数配置的耗时。
76.在本技术实施例中，终端设备可以通过超参数配置采样器(可以包括随机采样器和超参数优化采样器)基于超参数搜索空间得到多个候选超参数配置，通过上述超参数优化采样器输出多个第一候选超参数配置以及上述随机采样器输出的多个第二候选超参数配置构成多个候选超参数配置，既保证了各候选超参数配置在机器学习模型的训练中有更优表现，又避免了仅使用超参数优化采样器陷入局部最优区域。通过多个奖励参量预测模型(可以包括随机森林回归器、梯度提升回归器、高斯过程回归器以及极端随机树回归器)基于上述多个候选超参数配置获取各候选超参数配置对应的多个奖励参量预测值，即预测各候选超参数配置在设置到机器学习模型进行机器学习的训练效果，基于各候选超参数配置得到其对应的多个奖励参量，从上述多个候选超参数配置中选取部分具有更好训练效果的目标候选超参数配置，以从目标候选超参数配置获取目标超参数配置。此外，终端设备将多个初始超参数配置及其对应的多个第一奖励参量输入上述超参数配置采样器及上述多个奖励参量预测模型，上述超参数配置采样器基于接收到的多个初始超参数配置及其对应的多个第一奖励参量进行机器学习以提高候选超参数配置的采样效果，提高各候选超参数配置取得更优机器学习模型的训练效果(即奖励参量取值更高)的概率，从而在更有价值的候选超参数配置中更快选取得到目标超参数配置。将上述多个初始超参数配置及其对应的多个第一奖励参量输入上述多个奖励参量预测模型，上述多个奖励参量预测模型基于接收到的多个初始超参数配置及其对应的多个第一奖励参量进行模型训练以提高各奖励参量预测模型的预测准确率，即对各候选超参数配置赋予更真实的奖励参量预测值，从而基于各候选超参数的奖励参量预测值选取训练效果最优的目标超参数配置。目标超参数配置选取效果好，超参数调优过程耗时短，适用性强。
77.基于上述机器学习模型的超参数配置方法实施例的描述，本技术实施例还公开了一种机器学习模型的超参数配置装置(或简称超参数配置装置)，该超参数配置装置可以被应用于图1至图4所示实施例的机器学习模型的超参数配置方法中，以用于执行上述超参数配置方法中的步骤。这里，超参数配置装置可以是上述图1至图4所示实施例中的业务服务器或者终端设备，即该超参数配置装置可以为上述图1至图4所示实施例中机器学习模型的超参数配置方法的执行主体。请参见图5，图5是本技术实施例提供的机器学习模型的超参数配置装置的结构示意图。在本技术实施例中，该装置可运行如下模块：
78.获取模块31，用于获取机器学习模型基于训练样本数据和多个初始超参数配置进行机器学习得到的多个第一奖励参量。
79.候选超参数配置生成模块32，用于通过超参数配置采样器基于上述获取模块31得到的多个初始超参数配置、上述各初始超参数配置对应的第一奖励参量，以及超参数搜索空间得到多个候选超参数配置。
80.奖励参量预测模块33，用于通过多个奖励参量预测模型基于上述获取模块31得到的多个初始超参数配置、上述各初始超参数配置对应的第一奖励参量，以及上述候选超参数配置生成模块32得到的多个候选超参数配置，得到上述多个候选超参数配置中各候选超参数配置对应的多个奖励参量预测值。
81.目标超参数配置生成模块34，用于基于上述多个候选超参数配置、上述各候选超参数配置对应的多个奖励参量预测值、上述训练样本数据以及上述机器学习模型，从上述多个候选超参数配置中确定出上述机器学习模型的目标超参数配置。
82.在一些可行的实施方式中，上述候选超参数配置生成模块32中的超参数配置采样器包括随机采样器和超参数优化采样器；上述候选超参数配置生成模块32还用于：
83.通过上述超参数优化采样器基于上述多个初始超参数配置、上述多个初始超参数配置中各初始超参数配置对应的第一奖励参量，以及上述超参数搜索空间获取多个第一候选超参数配置；
84.通过上述随机采样器基于上述超参数搜索空间获取多个第二候选超参数配置；
85.将上述多个第一候选超参数配置和上述多个第二候选超参数配置确定为上述多个候选超参数配置。
86.在一些可行的实施方式中，上述目标超参数配置生成模块34还用于：
87.获取上述多个奖励参量预测模型中，任一奖励参量预测模型获取的上述多个第一候选超参数配置对应的奖励参量预测值，并将数值较大的前n个奖励参量预测值对应的n个第一候选超参数配置确定为一组目标第一候选超参数配置，以得到基于上述多个奖励参量预测模型获取的多组目标第一候选超参数配置；
88.获取上述多个奖励参量预测模型中，任一奖励参量预测模型获取的上述多个第二候选超参数配置对应的奖励参量预测值，并将数值较大的前m个奖励参量预测值对应的n个第二候选超参数配置确定为一组目标第二候选超参数配置，以得到基于上述多个奖励参量预测模型获取的多组目标第二候选超参数配置；
89.从上述多组目标第一候选超参数配置中确定出出现次数大于阈值的n个目标第一候选超参数配置，并从上述多组目标第二候选超参数配置中确定出出现次数大于上述阈值的m个目标第二候选超参数配置，上述阈值基于上述多个奖励参量预测模型的数量得到；
90.基于上述n个目标第一候选超参数配置、上述m个目标第二候选超参数配置、上述训练样本数据以及上述机器学习模型确定出上述机器学习模型的目标超参数配置。
91.在一些可行的实施方式中，上述目标超参数配置生成模块34还用于：
92.若从上述多组目标第一候选超参数配置中确定出的出现次数大于阈值的目标第一候选超参数配置的数量n1不等于n，则基于各组目标第一候选超参数配置中各第一候选超参数配置对应的奖励参量预测值的平均值，从上述多组目标第一候选超参数配置中确定出n个目标第一候选超参数配置，n1为正整数；
93.若从上述多组目标第二候选超参数配置中确定出的出现次数大于阈值的目标第二候选超参数配置的数量m1不等于m，则基于各组目标第二候选超参数配置中各第二候选超参数配置对应的奖励参量预测值的平均值，从上述多组目标第二候选超参数配置中确定出m个目标第二候选超参数配置，m1为正整数。
94.在一些可行的实施方式中，上述目标超参数配置生成模块34还用于：
95.获取上述机器学习模型基于上述训练样本数据、上述n个目标第一候选超参数配置以及上述m个目标第二候选超参数配置进行机器学习得到的各目标第一候选超参数配置对应的第二奖励参量以及各目标第二候选超参数配置对应的第二奖励参量；
96.从上述n个目标第一候选超参数配置和上述m个目标第二候选超参数配置中确定出第二奖励参量最大的目标第一候选超参数配置或者目标第二候选超参数配置作为上述机器学习模型的目标超参数配置。
97.在一些可行的实施方式中，上述目标超参数配置生成模块34还用于：
98.根据上述机器学习模型基于上述训练样本数据和各目标第一候选超参数配置进行第i次机器学习得到的候选奖励参量确定第一候选奖励参量参考值，若上述第一候选奖励参量参考值小于奖励参量均值，则获取上述机器学习模型基于上述训练样本数据和上述各目标第一候选超参数配置进行第i-1次机器学习得到的候选奖励参量作为上述各目标第一候选超参数配置对应的第二奖励参量，其中i为正整数，上述奖励参量均值由上述机器学习模型获得上述第一奖励参量之前，基于上述训练样本数据和历史超参数配置进行机器学习获得的历史奖励参量得到；
99.根据上述机器学习模型基于各目标第二候选超参数配置进行第i次机器学习得到的候选奖励参量确定第二候选奖励参量参考值，若上述第二候选奖励参量参考值小于上述奖励参量均值，则获取上述机器学习模型基于上述各目标第二候选超参数配置进行第i-1次机器学习得到的候选奖励参量作上述各目标第二候选超参数配置对应的第二奖励参量。
100.在一些可行的实施方式中，上述目标超参数配置生成模块34还用于：
101.获取上述机器学习模型基于上述训练样本数据和上述n个目标第一候选超参数配置中任一目标第一候选超参数配置进行机器学习的第一学习次数，若上述第一学习次数大于或等于机器学习次数阈值，则拷贝上述任一目标第一候选超参数配置；
102.获取上述机器学习模型基于上述训练样本数据和上述m个目标第二候选超参数配置中任一目标第二候选超参数配置进行机器学习的第二学习次数，若上述第二学习次数大于或等于上述机器学习次数阈值，则拷贝上述任一目标第二候选超参数配置；
103.基于上述n个目标第一候选超参数配置、上述m个目标第二候选超参数配置、拷贝后的各目标第一候选超参数配置以及拷贝后的各目标第二候选超参数配置更新上述机器学习模型的初始超参数配置，以供更新上述机器学习模型的目标超参数配置时上述机器学习模型进行机器学习时使用。
104.根据上述图3所对应的实施例，图3所示的机器学习模型的超参数配置方法中步骤s101至s104所描述的实现方式可由图5所示的装置的各个模块执行。例如，上述图3所示的超参数配置方法中步骤s101所描述的实现方式可由图5所示的装置中获取模块31来执行，步骤s102所描述的实现方式可由候选超参数配置生成模块32来执行，步骤s103所描述的实现方式可由奖励参量预测模块33来执行，步骤s104所描述的实现方式可由目标超参数配置生成模块34来执行。其中，上述获取模块31、候选超参数配置生成模块32、奖励参量预测模块33以及目标超参数配置生成模块34所执行的实现方式可参见上述图3所对应的实施例中各个步骤所提供的实现方式，在此不再赘述。
105.在本技术实施例中，超参数配置装置可以通过超参数配置采样器(可以包括随机采样器和超参数优化采样器)基于超参数搜索空间得到多个候选超参数配置，通过上述超参数优化采样器输出多个第一候选超参数配置以及上述随机采样器输出的多个第二候选超参数配置构成多个候选超参数配置，既保证了各候选超参数配置在机器学习模型的训练中有更优表现，又避免了仅使用超参数优化采样器陷入局部最优区域。通过多个奖励参量预测模型(可以包括随机森林回归器、梯度提升回归器、高斯过程回归器以及极端随机树回归器)基于上述多个候选超参数配置获取各候选超参数配置对应的多个奖励参量预测值，即预测各候选超参数配置在设置到机器学习模型进行机器学习的训练效果，基于各候选超参数配置得到其对应的多个奖励参量，从上述多个候选超参数配置中选取部分具有更好训
练效果的目标候选超参数配置，以从目标候选超参数配置获取目标超参数配置。此外，超参数配置装置将多个初始超参数配置及其对应的多个第一奖励参量输入上述超参数配置采样器及上述多个奖励参量预测模型，上述超参数配置采样器基于接收到的多个初始超参数配置及其对应的多个第一奖励参量进行机器学习以提高候选超参数配置的采样效果，提高各候选超参数配置取得更优机器学习模型的训练效果(即奖励参量更高)的概率，从而在更有价值的候选超参数配置中更快选取得到目标超参数配置。将上述多个初始超参数配置及其对应的多个第一奖励参量输入上述多个奖励参量预测模型，上述多个奖励参量预测模型基于接收到的多个初始超参数配置及其对应的多个第一奖励参量进行模型训练以提高各奖励参量预测模型的预测准确率，即对各候选超参数配置赋予更真实的奖励参量预测值，从而基于各候选超参数的奖励参量预测值选取训练效果最优的目标超参数配置。目标超参数配置选取效果好，超参数调优过程耗时短，适用性强。
106.在本技术实施例中，上述图所示的装置中的各个模块可以分别或全部合并为一个或若干个另外的模块来构成，或者其中的某个(些)模块还可以再拆分为功能上更小的多个模块来构成，这可以实现同样的操作，而不影响本技术实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由多个模块来实现，或者多个模块的功能由一个模块实现。在本技术的其它可行的实现方式中，上述装置也可以包括其它模块，在实际应用中，这些功能也可以由其它模块协助实现，并且可以由多个模块协作实现，在此不做限制。
107.请参见图6，图6是本技术实施例提供的计算机设备的结构示意图。如图6所示，该计算机设备1000可以为上述图2-4所对应实施例中的终端设备。该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，该计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(display)、键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1004可以是高速ram存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
108.其中，该计算机设备1000中的网络接口1004还可以与上述图1所对应实施例中的终端200a进行网络连接，且可选用户接口1003还可以包括显示屏(display)、键盘(keyboard)。在图6所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户(或开发人员)提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现前文图3所对应实施例中机器学习模型的超参数配置方法。
109.应当理解，本技术实施例中所描述的计算机设备1000可执行前文图3所对应实施例中对机器学习模型的超参数配置方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。
110.此外，这里需要指出的是本技术实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的超参数配置装置所执行的计算机程序，且上述
计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图3所对应实施例中对机器学习模型的超参数配置方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本技术方法实施例的描述。
111.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等。
112.以上所揭露的仅为本技术较佳实施例而已，当然不能以此来限定本技术之权利范围，因此依本技术权利要求所作的等同变化，仍属本技术所涵盖的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：史仪男王晓利赵明军鲁舢
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。