用于实现模型训练的方法及装置、计算机存储介质与流程

文档序号:23542852发布日期:2021-01-05 20:53阅读:123来源:国知局
用于实现模型训练的方法及装置、计算机存储介质与流程
本申请涉及机器学习领域,特别涉及一种用于实现模型训练的方法及装置、计算机存储介质。
背景技术
:机器学习,是指让机器基于训练样本训练出机器学习模型,使机器学习模型对训练样本之外的数据具有类别预测能力。在机器学习的具体实践任务中,选择一组具有代表性的特征组成特征集来构建机器学习模型是非常重要的问题。在进行特征选择时,通常采用有标签样本数据,选择与类别相关性强的特征集来训练机器学习模型。其中,标签用于标识样本数据的类别。在机器学习模型发生劣化后,需要对机器学习模型进行重训练,以保证机器学习模型的性能。目前对机器学习模型进行重训练的过程包括:获取大量样本数据进行标签标注;采用特征选择算法基于有标签样本数据,计算当前特征集中各个特征与类别的相关程度;基于专家经验根据各个特征与类别的相关程度确定当前特征集中的失效特征;在去除当前特征集中的失效特征后,再基于专家经验从特征库中选择合适的新特征加入特征集,得到新的特征集;最后利用新的特征集重新训练并评估机器学习模型,直至模型评估结果达到预期要求。但是,由于在机器学习模型的训练和重训练过程中,均需要使用大量的有标签样本数据,而对样本数据进行标签标注的过程耗费时间较长,因此目前的模型训练效率较低。技术实现要素:本申请提供了一种用于实现模型训练的方法及装置、计算机存储介质,可以解决目前的模型训练效率较低的问题。第一方面,提供了一种用于实现模型训练的方法。当机器学习模型发生劣化时,分析设备先获取第一特征集的有效性信息,该第一特征集中包括用来训练得到该机器学习模型的多个特征,有效性信息包括第一特征集中每个特征的有效性评分,特征的有效性评分与该特征跟第一特征集中的其它特征之间的相关性负相关。该分析设备基于有效性信息,确定第一特征集中的失效特征。最后,该分析设备生成不包括失效特征的第二特征集,该第二特征集用于对机器学习模型进行重训练。本申请实现了无监督特征有效性判别,在机器学习模型发生劣化后,可以根据基于特征彼此间的相关性计算得到的特征的有效性评分确定特征集中的失效特征,而无需采用有标签数据计算特征与标签的相关程度,因此在特征集的更新过程中无需对样本数据进行标签标注,减少了特征集更新过程中的人工干预,提高了特征集的更新效率,进而提高了机器学习模型的重训练效率。可选地,特征的有效性评分是根据特征相对于第一特征集中的所有其它特征的互信息得到的。例如,特征的有效性评分具体可以为该特征相对于第一特征集中的每个其它特征的互信息的平均值。由于特征相对于所有其它特征的互信息的数值越大,表示该特征与其它特征之间的相关性越低,该特征包含的有效信息越多。因此根据特征相对于第一特征集中的所有其它特征的互信息得到的特征的有效性评分,可以通过特征彼此之间的相关性反映特征对特征集的信息贡献度,其可靠性较高。示例地,分析设备先从目标数据中提取第一特征集中每个特征的特征数据;然后分别对每个特征的特征数据进行离散化处理,得到每个特征的离散特征值;再根据第一特征集中所有特征的离散特征值,分别基于信息熵原理计算每个特征的有效性评分。以计算第一特征的有效性评分为例,计算特征的有效性评分的过程包括:基于第一特征的离散特征值,计算第一特征的信息熵;基于第一特征的离散特征值以及第二特征的离散特征值,计算第一特征相对于第二特征的条件熵,第二特征为第一特征集中除第一特征以外的任一特征;基于第一特征的信息熵以及第一特征相对于第二特征的条件熵,计算第一特征相对于第二特征的互信息;根据第一特征与第一特征集中除第一特征以外的所有其它特征的互信息,计算第一特征的有效性评分。可选地,采用有效性评分公式,计算第一特征t的有效性评分s(t),有效性评分公式为:其中,l表示第一特征集中除第一特征以外的所有其它特征的数量;qi表示所有其它特征中的第i个特征;i(t;qi)表示第一特征相对于第i个特征的互信息;i和l均为正整数。在一种可实现方式中,失效特征包括第一特征集中有效性评分低于评分阈值的特征。可选地,评分阈值基于第一特征集中所有特征的有效性评分的均值、第一特征集中所有特征的有效性评分的方差以及第一特征集中所有特征的有效性评分的标准差中的一个或多个计算得到。由于评分阈值是根据第一特征集中所有特征的有效性评分计算得到的,针对不同的特征集或针对同一特征集在不同时刻计算得到的评分阈值可能不同,其能够随特征集中特征的有效性评分的变化而变化,因此与固定设置的评分阈值相比,采用本申请提供的评分阈值对失效特征和有效特征的划分更准确。在另一种可实现方式中,失效特征包括第一特征集中有效性评分最低的若干个特征,例如可以将第一特征集中有效性评分最低的20%的特征作为失效特征。在获取第一特征集的有效性信息后,可以将第一特征集中所有特征按照有效性评分高低进行排序,并为有效性评分最低的若干个特征设置失效特征标记。可选地,在获取第一特征集的有效性信息之后,分析设备基于有效性信息,生成第一特征集的有效性评分列表,该有效性评分列表包括第一特征集中每个特征的特征标识以及每个特征的有效性指示信息,该有效性指示信息包括有效性评分和有效性标记中的至少一个,该有效性标记包括有效特征标记或失效特征标记;将有效性评分列表发送给管理设备。该管理设备可以是oss或其它与分析设备连接的网络设备。可选地,当生成有效性评分列表的分析设备具有显示功能时,分析设备也可以直接在自身的显示界面上显示该有效性评分列表,以供专家查阅和/或修改。可选地,有效性指示信息包括有效性评分和有效性标记,上述方法还包括:分析设备接收管理设备发送的更新后的有效性评分列表;并将更新后的有效性评分列表中,有效性标记为失效特征标记的特征确定为第一特征集中的失效特征。本申请中,专家可查阅该有效性评分列表,并对该有效性评分列表中的有效性标记进行修改,例如将某个特征的有效特征标记修改为失效特征标记,或者,将某个特征的失效特征标记修改为有效特征标记,以调整有效性评分列表中的有效特征和失效特征,分析设备会基于最终确认的有效性评分列表获取失效特征,因此在本申请中,获取特征集中失效特征的灵活性较高。可选地,在获取第一特征集的有效性信息之前,分析设备还获取目标数据,机器学习模型对该目标数据的预测结果的置信度低于置信度阈值。则获取第一特征集的有效性信息的过程中,分析设备基于目标数据确定第一特征集的有效性信息。当机器学习模型发生劣化后,选取预测结果的置信度低于置信度阈值的数据进行特征有效性分析,由于该数据能够较好地反映导致机器学习发生劣化的数据的分布特征和/或统计特征,因此无需采用全量数据进行特征有效性分析,可以降低计算成本。可选地,分析设备生成不包括失效特征的第二特征集的过程,包括:分析设备确定样本数据的模式特点,该模式特点表征样本数据的分布特征和统计特征中的至少一个,该样本数据是在机器学习模型发生劣化后采集的;生成第三特征集,该第三特征集包括样本数据的模式特点对应的特征;删除第三特征集中的失效特征,得到第二特征集。由于机器学习模型发生了劣化,可以推断机器学习模型劣化时网络设备采集的数据的模式特点相较于数据存储系统中存储的历史数据的模式特点发生了较大变化,因此基于网络设备在机器学习模型发生劣化后采集的数据生成第二特征集,可以保证第二特征集中的特征的可靠性。可选地,在分析设备生成第三特征集之后,分析设备将第三特征集发送给管理设备;并接收管理设备发送的更新后的第三特征集。本申请中,分析设备将第一特征集发送给管理设备,供专家在管理设备上查阅和/或修改第一特征集中的特征,以更新第一特征集。可选地,分析设备也可以在获取样本数据的模式特点对应的所有特征以及每个特征的特征参数后,生成特征推荐列表,该特征推荐列表中包括样本数据的模式特点对应的所有特征以及每个特征的特征参数,并向管理设备发送该特征推荐列表,专家可在管理设备上修改该特征推荐列表,例如,删除特征推荐列表中的某个特征,在特征推荐列表中增加新特征,以及修改特征推荐列表中的特征的参数等,以更新特征推荐列表,最终管理设备将更新后的特征推荐列表发送给分析设备,分析设备采用更新后的特征推荐列表中的特征更新第一特征集。由于专家可查阅第一特征集中的特征,并灵活调整第一特征集中的特征,因此本申请中的特征选择灵活性较高。第二方面,提供了另一种用于实现模型训练的方法。分析设备先确定样本数据的模式特点,该模式特点表征样本数据的分布特征和统计特征中的至少一个。然后,分析设备生成目标特征集,该目标特征集包括样本数据的模式特点对应的特征,目标特征集中的特征用于对机器学习模型进行训练,机器学习模型用于对网络设备采集到的待预测数据进行预测。其中,机器学习模型对待预测数据进行预测,包括:机器学习模型对待预测数据进行分类,则机器学习模型输出的预测结果为分类结果。本申请中,通过确定样本数据的模式特点,生成与样本数据的模式特点对应的特征集,本申请无需采用有标签样本数据计算特征库中各个特征与标签的相关程度以生成特征集,因此在特征集的生成过程中无需对样本数据进行标签标注,减少了模型训练过程中的人工干预,提高了模型训练效率。可选地,当目标特征集中的特征用于对机器学习模型进行初次训练时,上述样本数据可以是基于数据存储系统中存储的网络设备采集的历史数据得到的;当目标特征集中的特征用于对发生劣化后的机器学习模型进行训练,也即是,分析设备先确定机器学习模型发生劣化,再确定样本数据的模式特点时,上述样本数据是在机器学习模型发生劣化后采集的。可选地,在生成目标特征集之后,分析设备还将目标特征集发送给管理设备;接收管理设备发送的更新后的目标特征集。可选地,在确定机器学习模型发生劣化之后,分析设备先获取用于训练得到发生劣化的机器学习模型的第一特征集;再计算第一特征集中每个特征的有效性评分,特征的有效性评分与该特征跟第一特征集中的其它特征之间的相关性负相关;然后基于第一特征集中每个特征的有效性评分,确定第一特征集中的失效特征;最后删除目标特征集中的失效特征,得到第二特征集,该第二特征集用于对发生劣化的机器学习模型进行重训练。第三方面,提供了一种用于实现模型训练的装置,所述装置包括多个功能模块:所述多个功能模块相互作用,实现上述第一方面及其各实施方式中的方法。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现,且所述多个功能模块可以基于具体实现进行任意组合或分割。第四方面,提供了另一种用于实现模型训练的装置,所述装置包括多个功能模块:所述多个功能模块相互作用,实现上述第二方面及其各实施方式中的方法。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现,且所述多个功能模块可以基于具体实现进行任意组合或分割。第五方面,提供了又一种用于实现模型训练的装置,包括:处理器和存储器;所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;所述处理器,用于调用所述计算机程序,实现如第一方面或第二方面任一所述的用于实现模型训练的方法。第六方面,提供了一种计算机存储介质,所述计算机存储介质上存储有指令,当所述指令被处理器执行时,实现如第一方面或第二方面任一所述的用于实现模型训练的方法。第七方面,提供了一种芯片,芯片包括可编程逻辑电路和/或程序指令,当芯片运行时,实现如第一方面或第二方面任一所述的用于实现模型训练的方法。本申请提供的技术方案带来的有益效果至少包括:通过确定样本数据的模式特点,并生成与样本数据的模式特点对应的特征集,由于样本数据的模式特点能够表征样本数据的分布特征和/或统计特征,因此采用特征集中的特征对待预测数据进行预测的可靠性较高。本申请无需采用有标签样本数据计算特征库中各个特征与标签的相关程度以生成特征集,因此在特征集的生成过程中无需对样本数据进行标签标注,减少了模型训练过程中的人工干预,提高了模型训练效率。另外,本申请实现了无监督特征有效性判别,在机器学习模型发生劣化后,可以根据基于特征彼此间的相关性计算得到的特征的有效性评分确定特征集中的失效特征,而无需采用有标签数据计算特征与标签的相关程度,因此在特征集的更新过程中无需对样本数据进行标签标注,减少了特征集更新过程中的人工干预,提高了特征集的更新效率,进而提高了模型重训练效率。附图说明图1是本申请实施例提供的用于实现模型训练方法所涉及的应用场景示意图;图2是本申请实施例提供的一种用于实现模型训练的方法流程图;图3是本申请实施例提供的不同类别网络kpi的曲线对比示意图;图4是本申请实施例提供的网络流量kpi的曲线示意图;图5是本申请实施例提供的样本特征数据集的示意图;图6是本申请实施例提供的获取第一特征集的有效性信息的方法流程图;图7是本申请实施例提供的生成第二特征集的方法流程图;图8是本申请实施例提供的一种用于实现模型训练的装置的结构示意图;图9是本申请实施例提供的另一种用于实现模型训练的装置的结构示意图;图10是本申请实施例提供的又一种用于实现模型训练的装置的结构示意图;图11是本申请实施例提供的再一种用于实现模型训练的装置的结构示意图;图12是本申请另一实施例提供的一种用于实现模型训练的装置的结构示意图;图13是本申请另一实施例提供的另一种用于实现模型训练的装置的结构示意图;图14是本申请另一实施例提供的又一种用于实现模型训练的装置的结构示意图;图15是本申请另一实施例提供的再一种用于实现模型训练的装置的结构示意图;图16是本申请实施例提供的一种用于实现模型训练的装置的框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。特征工程是利用数据领域的专业知识,来创建能够使机器学习算法达到最佳性能的特征的过程,即将数据的原始属性通过处理转换为数据特征的过程。属性是数据本身具有的维度,例如图像的原始像素点,特征是数据呈现出的一种重要特性,通常通过对属性进行计算、组合或转换得到特征,例如图像的原始像素点经过卷积处理之后得到图像的特征。特征工程主要包括:特征构造、特征提取和特征选择。其中,特征选择与机器学习算法之间存在紧密联系,选择的特征会直接影响机器学习模型的性能。在进行特征选择时,通常选择与类别相关性强的特征集。特征选择一般包括产生过程(generationprocedure),评价函数(evaluationfunction),停止准则(stoppingcriterion)和验证过程(validationprocedure)这4个部分。产生过程是搜索特征集的过程,负责为评价函数提供特征集;评价函数是评价一个特征集好坏程度的准则;停止准则与评价函数相关,一般是一个阈值,当评价函数值达到这个阈值后即可停止搜索;验证过程指采用验证数据集中具有标签的样本数据,验证选出来的特征集的有效性的过程。目前,根据特征选择的评价标准以及与后续学习算法的结合方式,特征选择通常分为嵌入式(embedded)特征选择、过滤式(filter)特征选择和封装式(wrapper)特征选择。在嵌入式特征选择中,特征选择算法本身作为组成部分嵌入到学习算法中。最典型的嵌入式特征选择算法为决策树算法,包括迭代二叉树3代(iterativedichotomiser3,id3)算法、c4.5算法(基于id3算法改进得到)以及分类回归树(classificationandregressiontree,cart)算法等。决策树算法中,在树增长过程的每个递归步骤都必须选择一个特征,基于选择的特征将数据集划分成较小的数据子集,数据集对应父节点,每个数据子集对应一个子节点。选择特征的依据通常是划分后子节点的纯度,划分后子节点的纯度越高,表示划分效果越好。可见,决策树的生成过程即特征选择的过程。过滤式特征选择的评价标准基于数据集的本身性质确定,与学习算法无关,因此过滤式特征选择算法具有通用性。在过滤式特征选择中,通常选择与类别相关性强的特征或特征集,特征或特征集与类别的相关性越强,分类器基于该特征或特征集的分类结果准确率越高。过滤式特征选择的评价标准包括距离度量、信息度量、关联度度量以及一致性度量这四种。在封装式特征选择中,利用学习算法的性能来评价特征集的优劣。通常通过训练分类器,根据分类器的性能对特征集进行评价。用于评价特征集的学习算法包括决策树算法、神经网络算法、贝叶斯分类器、近邻法以及支持向量机等。利用网络设备在运行过程中采集到的各种数据(例如各类时间序列数据、日志数据以及设备状态数据等),可以训练不同的机器学习模型,以实现异常检测、预测、网络安全防护和应用识别等功能。时间序列数据包括网络关键绩效指标(keyperformanceindicator,kpi),网络kpi包括网络流量kpi、网络设备丢包kpi和用户接入kpi等。其中,网络流量kpi为具有周期性的时间序列数据。示例地,本申请实施例以用于对网络流量kpi进行异常检测的机器学习模型为例,对目前的模型训练和重训练过程进行说明。目前的模型训练过程包括:获取有标签样本数据;采用特征选择算法基于有标签样本数据,计算特征库中各个特征与标签的相关程度;选择与标签的相关程度高的特征加入特征集,采用特征集训练得到机器学习模型。示例地,训练用于对网络流量kpi进行异常检测的机器学习模型的特征集中可以包括同比、环比、指数移动平均以及小波变换。该机器学习模型的输入为基于当前特征集从待检测网络流量kpi中提取的特征数据,该机器学习模型的输出为异常检测结果。异常检测结果包括待检测网络流量kpi的分类结果以及置信度,分类结果包括正常或异常。置信度用于反映分类结果的可信度。当机器学习模型输出的异常检测结果中的置信度明显降低,表示该机器学习模型发生劣化,则该机器学习模型输出的待检测网络流量kpi的分类结果不可信。此时,需要专家对这些分类结果不可信的待检测网络流量kpi人工进行标签标注,标注出正常网络流量kpi和异常网络流量kpi。然后,采用合适的特征选择算法(例如贝叶斯分类器)基于有标签网络流量kpi,计算当前特征集中各个特征与标签的相关程度,某特征与标签的相关程度跟该特征在正常网络流量kpi中和在异常网络流量kpi中的差异性正相关,特征与标签的相关程度可以采用0至1之间的数值表示。将当前特征集中各个特征与标签的相关程度由高到低进行排序,与标签的相关程度较低的特征可认为是失效特征。例如,同比与标签的相关程度为0.95,环比与标签的相关程度为0.92,指数移动平均与标签的相关程度为0.9,小波变换与标签的相关程度为0.53,由于小波变换与标签的相关程度较低,可认为小波变换为失效特征。在专家确定失效特征后,去除当前特征集中的该失效特征,再基于专家经验从特征库中选择合适的新特征加入特征集,得到新的特征集。例如,失效特征为小波变化,基于专家经验选择的新特征包括峰度和偏度,则新的特征集中包括同比、环比、指数移动平均、峰度和偏度。最后利用新的特征集重新训练并评估该机器学习模型,直至模型评估结果达到预期要求,以更新机器学习模型。其中,模型评估结果达到预期要求,可以是机器学习模型输出的异常检测结果中的置信度达到某个阈值。由于在机器学习模型的训练和重训练过程中,均需要利用特征集训练机器学习模型,而在生成特征集的过程中需要采用大量的有标签数据计算特征与标签的相关程度,以确定特征有效性,因此需要对大量数据进行标签标注,耗费时间较长,导致目前的模型训练效率较低。图1是本申请实施例提供的用于实现模型训练方法所涉及的应用场景示意图。如图1所示,该应用场景中包括分析设备101和网络设备102a-102c(统称为网络设备102)。图1中分析设备和网络设备的数量仅用作示意,不作为对本申请实施例提供的用于实现模型训练方法所涉及的应用场景的限制。该应用场景可以是第二代(2-generation,2g)通信网络、第三代(3rdgeneration,3g)通信网络或长期演进(longtermevolution,lte)通信网络等。分析设备101可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。网络设备102包括路由器、交换机、基站或网络线缆等。分析设备101与网络设备102之间通过有线网络或无线网络连接。网络设备102用于向分析设备101上传采集到的数据,包括各类时间序列数据、日志数据和设备状态数据等。分析设备101用于训练有一个或多个机器学习模型,不同的机器学习模型利用网络设备102上传的数据,可以分别实现异常检测、预测、网络安全防护和应用识别等功能。图2是本申请实施例提供的一种用于实现模型训练的方法流程图。该方法可以应用于如图1所示的应用场景中的分析设备101,如图2所示,该方法包括:步骤201、确定样本数据的模式特点。样本数据的模式特点表征样本数据的分布特征和统计特征中的至少一个,样本数据的模式特点可通过样本数据的特征画像表示。分析设备在获取网络设备采集的数据后,可以对该数据进行预处理得到样本数据,并对样本数据进行模式识别以确定样本数据的模式特点。对数据进行预处理,包括:去除数据中的冗余字段以及填补数据中的空缺值等。在本申请实施例中,样本数据包括对网络设备采集到的一组数据进行预处理后得到的数据。示例地,本申请以下实施例中,以网络设备采集的数据为网络kpi为例进行说明。示例地,网络kpi的分布特征用于确定网络kpi的类别;网络kpi的统计特征包括网络kpi的统计值(包括最大值、最小值、均值和方差等)和特征值(例如周期值和噪声值)等。可选地,网络kpi的类别包括周期型(seasonal)(包括平滑周期型和毛刺周期型)、稀疏型(discrete)、离散型(irregular)、阶梯型(step)和多模态型(multi-mode)等。对网络kpi进行预处理后,可以得到网络kpi值以及采集时间。图3是本申请实施例提供的不同类别网络kpi的曲线对比示意图,其中x方向表示采集时间,y方向表示网络kpi值。如图3所示,平滑周期型的网络kpi的曲线波形较平滑,且呈现明显的周期性;毛刺周期型的网络kpi的曲线波形具有细小的干扰和抖动(毛刺)较多,且呈现明显的周期性;稀疏型的网络kpi的曲线波形整体平稳,但会随机发生突变;离散型的网络kpi的曲线波形呈现不规则的形状;阶梯型的网络kpi的曲线波形呈现台阶式的上升或下降;多模态型的网络kpi的曲线波形呈现多种形式,可能包括周期、毛刺和突变等混合模式。网络kpi的曲线具有周期性、离散性、趋势性、阶梯性、随机性和噪声等特征。对网络kpi进行模式识别,也即是根据网络kpi的曲线特征,确定网络kpi的模式特点。网络kpi的模式特点可以采用网络kpi的类别以及网络kpi的曲线的典型特征值表示。示例地,网络流量kpi的模式特点可以为:“平滑周期型,周期=266,趋势=10.9,噪声=3.1”。可选地,在对机器学习模型进行初次训练时,可以从数据存储系统中获取网络设备过去采集的历史数据,并对该历史数据进行预处理得到样本数据。其中,数据存储系统中可以存储有网络设备上报的各类历史数据,分析设备根据所训练的机器学习模型的功能,从数据存储系统中获取对应的历史数据。步骤202、生成第一特征集,第一特征集中包括样本数据的模式特点对应的特征。其中,第一特征集中的特征用于对机器学习模型进行训练,该机器学习模型用于对网络设备采集到的待预测数据进行预测。第一特征集中可以包括用于训练机器学习模型的所有特征。机器学习模型对待预测数据进行预测,包括:机器学习模型对待预测数据进行分类,则机器学习模型输出的预测结果为分类结果。示例地,待预测数据为网络流量kpi,则机器学习模型对网络流量kpi进行预测包括:机器学习模型对网络流量kpi进行异常检测,该机器学习模型输出的预测结果包括正常或异常这两类。可选地,分析设备获取样本数据的模式特点对应的所有特征以及每个特征的特征参数,将样本数据的模式特点对应的所有特征组成的集合作为第一特征集。在本申请实施例中,分析设备中可以预先存储有多个模式特点对应的所有特征以及每个特征的特征参数,其中,特征参数用于计算对应的特征的值。示例地,“简单移动平均”的特征参数包括窗口大小、是否有周期性以及周期长度等。分析设备中预先存储的模式特点对应的特征以及特征的特征参数可以是根据专家经验确定的。例如,当第一特征集用于训练进行异常检测的机器学习模型时,各个模式特点对应的特征可以根据异常检测特征选择的基本原则进行选择,该基本原则为选择在异常事件中值易发生剧烈变化的特征。示例地,图4是本申请实施例提供的网络流量kpi的曲线示意图,其中横坐标表示采集时间,纵坐标表示网络流量kpi值。如图4所示,该网络流量kpi曲线上存在异常点a、异常点b,正常点c和正常点d,通过比较异常点a、异常点b、正常点c和正常点d处各个特征的特征值,选择在异常点和正常点处特征值的差异较大的特征生成特征集。可选地,分析设备在生成第一特征集后,将第一特征集发送给管理设备,供专家在管理设备上查阅和/或修改第一特征集中的特征,以更新第一特征集;分析设备接收管理设备发送的更新后的第一特征集。在本申请实施例中,分析设备也可以在获取样本数据的模式特点对应的所有特征以及每个特征的特征参数后,生成特征推荐列表,该特征推荐列表中包括样本数据的模式特点对应的所有特征以及每个特征的特征参数,并向管理设备发送该特征推荐列表,专家可在管理设备上修改该特征推荐列表,例如,删除特征推荐列表中的某个特征,在特征推荐列表中增加新特征,以及修改特征推荐列表中的特征的参数等,以更新特征推荐列表,最终管理设备将更新后的特征推荐列表发送给分析设备,分析设备采用更新后的特征推荐列表中的特征更新第一特征集。该管理设备可以是运维支撑系统(operationssupportsystem,oss)或其它与分析设备连接的网络设备。可选地,当生成第一特征集的分析设备具有显示功能时,分析设备也可以直接在自身的显示界面上显示第一特征集或特征推荐列表,以供专家查阅和/或修改。本申请实施例中,专家可查阅第一特征集中的特征,并灵活调整第一特征集中的特征,因此本申请实施例中的特征选择灵活性较高。示例地,表1是本申请实施例提供的网络流量kpi对应的特征推荐列表。参见表1,对于网络流量kpi这类平滑周期型的网络kpi,选择的特征包括简单移动平均、加权移动平均、指数移动平均(包括一次指数移动平均、二次指示移动平均和三次指数移动平均)、时间序列分解周期分量(简称:周期)、时间序列分解趋势分量(简称:趋势)、时间序列分解噪声分量(简称:噪声)、分桶熵以及同比。表1表1中的特征标识可以采用特征的中文名称、英文名称和/或特定的符号表示;每个特征的参数支持根据参数个数动态扩展。窗口大小表示提取该特征的一个窗口所包含的网络流量kpi的个数。表1中的参数2和参数3采用“参数名:参数类型;参数解释”的格式表示。例如,“is_seasonal:int类型;是否有周期性,0无周期,1有周期”中,“is_seasonal”为参数名,“int类型”为参数类型,“是否有周期性,0无周期,1有周期”为参数解释。又例如,“alpha:float类型”中,“alpha”为参数名,“float类型”为参数类型。示例地,对于特征“简单移动平均”,若表1中,“参数1=266,参数2=1,参数3=266”,则表示简单移动平均的窗口大小为266,具有周期性,周期长度为266,采用这些参数能够计算得到简单移动平均值。可选地,特征推荐列表中还可以包括每个特征的参数个数,本申请实施例对特征推荐列表的形式及内容不做限定。本申请实施例中,通过确定样本数据的模式特点,并生成与样本数据的模式特点对应的第一特征集,由于样本数据的模式特点能够表征样本数据的分布特征和/或统计特征,专家基于样本数据的模式特点可以选择在不同事件(例如正常事件和异常事件)中特征值的差异性较大的特征以生成第一特征集,使第一特征集中的特征与类别相关性较强,因此采用第一特征集中的特征对数据进行预测的可靠性较高。本申请实施例无需采用有标签样本数据计算特征库中各个特征与标签的相关程度以生成特征集,因此无需对样本数据进行标签标注,减少了模型训练过程中的人工干预,进而可以提高模型训练效率。步骤203、基于第一特征集,训练得到机器学习模型。可选地,从数据存储系统中获取样本数据,并采用提取算法从样本数据中自动提取第一特征集中每个特征的特征数据,得到样本特征数据集;采用该样本特征数据集训练得到机器学习模型,例如将样本特征数据集输入模型训练器,模型训练器输出该机器学习模型。示例地,样本数据为网络流量kpi,机器学习模型用于对网络流量kpi进行异常检测,假设第一特征集中包括表1中的所有特征,则生成的样本特征数据集可以如图5所示,其中每一行数据表示从一组网络流量kpi中提取的特征数据,即一个样本特征数据。该机器学习模型在使用过程中,输入包括从待检测网络流量kpi中提取的第一特征集中各个特征的特征数据,输出包括待检测网络流量kpi的分类结果以及置信度。例如,机器学习模型输出包括:分类结果为异常,置信度为0.95,表示该待检测网络流量kpi异常的概率为95%。在本申请的一个可选实施例中,采用无标签样本数据训练机器学习模型,并根据机器学习模型输出的预测结果的置信度,对机器学习模型的性能进行评估。其中,机器学习模型输出的预测结果的置信度越高,表示模型性能越好。在本申请的另一个可选实施例中,采用大量的有标签样本数据训练机器学习模型,并根据机器学习模型输出的预测结果的准确率,对机器学习模型的性能进行评估。步骤204、当机器学习模型发生劣化时,获取第一特征集的有效性信息。其中,有效性信息包括第一特征集中每个特征的有效性评分,特征的有效性评分与特征跟第一特征集中的其它特征之间的相关性负相关。特征的有效性评分与特征跟第一特征集中的其它特征之间的相关性负相关,也即是,特征与第一特征集中的其它特征之间的相关性越低,该特征的有效性评分越高。特征有效性判别的目标就是为了寻找一个包含目标特征集中绝大部分信息或者全部信息的特征集,因此目前通常采用特征的信息贡献度判别特征有效性。特征的信息贡献度反映了特征包含的信息量,特征包含的信息量越大,则特征对特征集的信息贡献度越高。其中,特征对特征集的信息贡献度与特征跟类别之间的相关性正相关。而特征彼此间的相关性弱,可以理解为特征之间是相对独立的,对彼此影响较小,相关性弱的不同特征对类别预测作用不同,是不能被其它特征取代的;特征彼此间的相关性强,则表示特征之间会相互影响,一个特征的变化会导致另一个特征也发生变化,导致单个特征与类别的相关性不明显,也就是说,一般彼此间相关性弱的特征与类别的相关性较强,进而可以得到,彼此间相关性弱的特征对特征集的信息贡献度更高,即特征对特征集的信息贡献度与特征之间的相关性负相关,因此特征之间的相关性可以作为特征有效性判别依据。可选地,当机器学习模型在目标时间段内输出置信度低于置信度阈值的预测结果的累计数量达到第一数量,或者,机器学习模型连续输出置信度低于置信度阈值的预测结果的数量达到第二数量时,确定机器学习模型发生劣化。在本申请实施例中,第一特征集的有效性信息可以基于目标数据得到,也即是,在机器学习模型发生劣化后,分析设备可以获取目标数据,并基于目标数据确定第一特征集的有效性信息。机器学习模型对目标数据的预测结果的置信度低于置信度阈值。当机器学习模型发生劣化后,选取预测结果的置信度低于置信度阈值的数据进行特征有效性分析,由于该数据能够较好地反映导致机器学习发生劣化的数据的分布特征和/或统计特征,因此无需采用全量数据进行特征有效性分析,可以降低计算成本。其中,置信度阈值可以为0.6。可选地,第一特征集中特征的有效性评分可以根据该特征相对于第一特征集中的所有其它特征的互信息得到。图6是本申请实施例提供的获取第一特征集的有效性信息的方法流程图。如图6所示,包括以下实现过程:步骤2041、从第一数据中提取第一特征集中每个特征的特征数据。可选地,第一数据包括机器学习模型对其预测结果的置信度低于置信度阈值的数据。示例地,第一数据包括网络流量kpi,第一特征集中包括表1中的所有特征,从第一数据中提取的特征数据可以如图5所示。步骤2042、分别对每个特征的特征数据进行离散化处理,得到每个特征的离散特征值。可选地,采用无监督离散化的方式对特征数据进行离散化处理,例如,无监督离散化算法包括等宽区间法、等频区间法、串分析算法或聚类算法等。对数据进行离散化处理,也即是将连续数据转换为离散数据。示例地,假设噪声值在3.10~3.30之间连续变化,例如噪声值包括3.11、3.112、3.114、3.121和3.231等,采用等宽区间法对噪声值进行离散化处理,可以将处于3.10~3.12之间的值看作是1,将处于3.12~3.14之间的值看作是2,将处于3.14~3.16之间的值看作是3,依次类推,噪声值经过离散化处理后,可以得到多个离散特征值(1,2,3,等等)。步骤2043、根据第一特征集中所有特征的离散特征值,分别基于信息熵原理计算每个特征的有效性评分。可选地,步骤2043的实现过程包括以下s1~s4:在s1中,基于第一特征的离散特征值,计算第一特征的信息熵,第一特征为第一特征集中的任一特征。第一特征的信息熵用于描述第一特征取值的不确定性。采用信息熵公式计算第一特征t的信息熵h(t),信息熵公式为:其中,m表示第一特征t可取的离散特征值的数量;tm表示第一特征t的第m个离散特征值;p(tm)表示第一特征t的离散特征值等于tm的概率;m和m均为正整数。在s2中,基于第一特征的离散特征值以及第二特征的离散特征值,计算第一特征相对于第二特征的条件熵,第二特征为第一特征集中除第一特征以外的任一特征。第一特征相对于第二特征的条件熵用于描述在已知第二特征取值的条件下,第一特征取值的不确定性。采用条件熵公式计算第一特征t相对于第二特征q的条件熵h(t|q),条件熵公式为:其中,n表示第二特征q可取的离散特征值的数量;qn表示第二特征q的第n个离散特征值;p(qn)表示第二特征q的离散特征值等于qn的概率;p(tm|qn)表示当第二特征q的离散特征值等于qn时,第一特征t的离散特征值等于tm的概率;n和n均为正整数。在s3中,基于第一特征的信息熵以及第一特征相对于第二特征的条件熵,计算第一特征相对于第二特征的互信息。第一特征相对于第二特征的互信息用于描述在已知第二特征取值的条件下,第一特征取值的不确定性的减少量。第一特征相对于第二特征的互信息能够反映第一特征与第二特征之间的相关性,第一特征与第二特征之间的相关性越低,则第一特征相对于第二特征的互信息的值越大。第一特征相对于第二特征的互信息与第二特征相对于第一特征的互信息相等。采用互信息公式计算第一特征t相对于第二特征q的互信息i(t;q),互信息公式为:i(t;q)=h(t)-h(t|q)。在s4中,根据第一特征与第一特征集中除第一特征以外的所有其它特征的互信息,计算第一特征的有效性评分。可选地,采用有效性评分公式,计算第一特征t的有效性评分s(t),有效性评分公式为:其中,l表示第一特征集中除第一特征以外的所有其它特征的数量;qi表示所有其它特征中的第i个特征;i(t;qi)表示第一特征相对于第i个特征的互信息;i和l均为正整数。上述有效性评分公式中,采用特征相对于所有其它特征的互信息的均值作为特征的有效性评分,特征相对于所有其它特征的互信息的数值越大,表示该特征与其它特征之间的相关性越低,则该特征包含其它特征的信息越多。例如,同比特征包含分桶熵特征的大部分信息,且同比特征相对于分桶熵特征的互信息数值比较大,说明同比特征比分桶熵特征更有效。即使去除分桶熵特征,同比特征也会保留分桶熵特征的大部分信息,对待预测数据的类别预测结果影响也较小。因此,采用上述有效性评分公式计算得到的有效性评分,有效性评分高的特征可以最大程度地降低有效性评分低的特征的不确定性(即最大程度地覆盖有效性评分低的特征的信息),也就是说,当特征集中包含有效性评分高的特征后,有效性评分低的特征携带的信息对特征集的信息贡献度极低。本申请实施例实现了无监督特征有效性判别,在机器学习模型发生劣化后,可以根据基于特征彼此间的相关性计算得到的特征的有效性评分确定特征集中的失效特征,而无需采用有标签数据计算特征与标签的相关程度,因此无需对样本数据进行标签标注,减少了确定失效特征过程中的人工干预,提高了特征集的更新效率,进而提高了模型重训练效率。步骤205、基于第一特征集的有效性信息,确定第一特征集中的失效特征。在本申请的一个可选实施例中,失效特征包括第一特征集中有效性评分低于评分阈值的特征。该评分阈值可以基于第一特征集中所有特征的有效性评分的均值、第一特征集中所有特征的有效性评分的方差以及第一特征集中所有特征的有效性评分的标准差中的一个或多个计算得到。在获取第一特征集的有效性信息后,可以根据第一特征集中所有特征的有效性评分计算评分阈值。示例地,评分阈值th满足:th=z1*es+z2*ds,es为第一特征集中所有特征的有效性评分的均值,ds为第一特征集中所有特征的有效性评分的标准差,z1和z2均为系数,z1和z2可根据专家经验取值,例如z1的取值为1,z2的取值范围为0.5-3,本申请实施例对此不做限定。由于评分阈值是根据第一特征集中所有特征的有效性评分计算得到的,针对不同的特征集或针对同一特征集在不同时刻计算得到的评分阈值可能不同,其能够随特征集中特征的有效性评分的变化而变化,因此与固定设置的评分阈值相比,采用本申请提供的评分阈值对失效特征和有效特征的划分更准确。在本申请的另一个可选实施例中,失效特征包括第一特征集中有效性评分最低的若干个特征,例如可以将第一特征集中有效性评分最低的20%的特征作为失效特征。在获取第一特征集的有效性信息后,可以将第一特征集中所有特征按照有效性评分高低进行排序,并为有效性评分最低的若干个特征设置失效特征标记。可选地,分析设备在获取第一特征集的有效性信息之后,可以基于有效性信息,生成第一特征集的有效性评分列表,并将有效性评分列表发送给管理设备,供专家查阅和/或修改该有效性评分列表,例如,专家可以修改有效性评分列表中的有效性标记。该有效性评分列表包括第一特征集中每个特征的特征标识以及每个特征的有效性指示信息。有效性指示信息包括有效性评分和有效性标记中的至少一个,也即是,有效性指示信息包括有效性评分,或者,有效性指示信息包括有效性标记,或者,有效性指示信息包括有效性评分和有效性标记。其中,有效性标记包括有效特征标记或失效特征标记。该管理设备可以是oss或其它与分析设备连接的网络设备。可选地,当生成有效性评分列表的分析设备具有显示功能时,分析设备也可以直接在自身的显示界面上显示该有效性评分列表,以供专家查阅和/或修改。可选地,有效性指示信息包括有效性评分和有效性标记。分析设备还可以接收管理设备发送的更新后的有效性评分列表,并将更新后的有效性评分列表中,有效性标记为失效特征标记的特征确定为第一特征集中的失效特征。本申请实施例中,专家可查阅该有效性评分列表,并对该有效性评分列表中的有效性标记进行修改,例如将某个特征的有效特征标记修改为失效特征标记,或者,将某个特征的失效特征标记修改为有效特征标记,以调整有效性评分列表中的有效特征和失效特征,分析设备会基于最终确认的有效性评分列表获取失效特征,因此本申请实施例中的获取特征集中失效特征的灵活性较高。示例地,第一特征集包括表1中的所有特征,第一特征集的有效性评分列表可以如表2所示。表2特征标识有效性评分有效性标记简单移动平均3.056有效加权移动平均3.059有效一次指数移动平均3.191有效二次指示移动平均3.294有效三次指数移动平均3.512有效周期3.071有效趋势1.701失效噪声1.524失效分桶熵0.794失效同比3.283有效参见表2,有效性评分列表可以包括第一特征集中每个特征的特征标识、每个特征的有效性评分以及每个特征的有效性标记。其中,特征标识可以采用特征的中文名称、英文名称和/或特定的符号表示。有效性标记包括有效特征标记和失效特征标记,参见表2,有效特征标记为“有效”,失效特征标记为“失效”;或者,有效特征标记为“0”,失效特征标记为“1”,有效性标记还可以采用其它符号表示,本申请实施例对此不做限定。步骤206、生成不包括失效特征的第二特征集。可选地,步骤206的实现过程可以如图7所示,包括:步骤2061、确定第二数据的模式特点。第二数据的模式特点表征第二数据的分布特征和统计特征中的至少一个。该第二数据是在机器学习模型发生劣化后采集的,例如第二数据可以是网络设备当前采集的。由于机器学习模型发生了劣化,可以推断机器学习模型劣化时网络设备采集的数据的模式特点相较于数据存储系统中存储的历史数据的模式特点发生了较大变化,因此基于网络设备在机器学习模型发生劣化后采集的数据生成第二特征集,可以保证第二特征集中的特征的可靠性。步骤2061的实现方式可参考步骤201中的相关描述,本申请实施例在此不做赘述。步骤2062、生成第三特征集,第三特征集包括第二数据的模式特点对应的特征。可选地,分析设备在生成第三特征集之后,将第三特征集发送给管理设备,并接收管理设备发送的更新后的第三特征集。步骤2062的实现方式可参考上述步骤202中的相关描述,本申请实施例在此不做赘述。步骤2063、删除第三特征集中的失效特征,得到第二特征集。可选地,基于步骤2062中生成的第三特征集以及步骤205中生成的有效评分列表,生成第二特征集,也即是,将更新后的第三特征集中除有效性评分列表中被设置失效特征标记的特征以外的所有特征,作为第二特征集中的特征。可选地,若在生成特征推荐列表之前,分析设备已确定第一特征集中的失效特征,则步骤2062中分析设备生成的特征推荐列表可以为剔除失效特征后的特征推荐列表,则基于该特征推荐列表可以得到第二特征集。步骤207、基于第二特征集,对机器学习模型进行重训练,得到更新后的机器学习模型。基于第二特征集对机器学习模型进行重训练的过程,可参考上述步骤203中,基于第一特征集训练机器学习模型的过程,本申请实施例在此不做赘述。可选地,本申请实施例中,分析设备中包括数据存储系统、分析器和控制器。数据存储系统用于存储网络设备上传的数据;分析器用于执行上述步骤201-206,包括:特征选择、模型训练、模型评估、特征更新和模型重训练,当特征发生更新时,分析器向控制器发送模型特征更新通知消息;控制器用于在接收到分析器发送的模型特征更新通知消息后,决策是否启动模型重训练,并在确定需要进行模型重训练后,向分析器发送模型重训练指令,以指示分析器启动模型重训练。分析设备中包括一台或多台设备。可选地,数据存储系统、分析器和控制器可以部署在单台设备上,也可以分别部署在不同设备上。其中,分析器也可以包括一台设备或多台设备。当分析器包括一台设备时,上述步骤201-207均由该设备执行。当分析器包括第一设备和第二设备时,上述步骤201-203以及步骤207由第一设备执行,步骤204-206由第二设备执行,即当机器学习模型发生劣化后,第二设备更新特征集,并将更新后的特征集传输给第一设备,第一设备再基于更新后特征集对机器学习模型进行重训练。可选地,上述第二设备的功能可由第三设备和第四设备实现。本申请实施例中的步骤204可以由第三设备执行,步骤205和206可以由第四设备执行。第三设备在获取第一特征集的有效性信息后,将该有效性信息发送给第四设备,第四设备基于该有效性信息,确定第一特征集中的失效特征,并生成不包括失效特征的第二特征集。或者,第三设备在获取第一特征集的有效性信息后,生成有效性评分列表,并向管理设备发送该有效性评分列表;管理设备向第四设备发送有效性评分列表(可以是更新后的有效性评分列表),第四设备基于有效性评分列表确定第一特征集中的失效特征,并生成不包括失效特征的第二特征集。本申请实施例提供的用于实现模型训练的方法的步骤先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减。任何熟悉本
技术领域
的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。在本申请实施例提供的用于实现模型训练的方法中,通过确定样本数据的模式特点,并生成与样本数据的模式特点对应的特征集,由于样本数据的模式特点能够表征样本数据的分布特征和/或统计特征,因此采用特征集中的特征对待预测数据进行预测的可靠性较高。本申请实施例无需采用有标签样本数据计算特征库中各个特征与标签的相关程度以生成特征集,因此在特征集的生成过程中无需对样本数据进行标签标注,减少了模型训练过程中的人工干预,提高了模型训练效率。另外,本申请实施例实现了无监督特征有效性判别,在机器学习模型发生劣化后,可以根据基于特征彼此间的相关性计算得到的特征的有效性评分确定特征集中的失效特征,而无需采用有标签数据计算特征与标签的相关程度,因此在特征集的更新过程中无需对样本数据进行标签标注,减少了特征集更新过程中的人工干预,提高了特征集的更新效率,进而提高了模型重训练效率。图8是本申请实施例提供的一种用于实现模型训练的装置的结构示意图。该装置可以应用于如图1所示的应用场景中的分析设备101,如图8所示,该装置80包括:第一获取模块801,用于当机器学习模型发生劣化时,获取第一特征集的有效性信息,第一特征集中包括用来训练得到机器学习模型的多个特征,有效性信息包括第一特征集中每个特征的有效性评分,特征的有效性评分与特征跟第一特征集中的其它特征之间的相关性负相关。确定模块802,用于基于有效性信息,确定第一特征集中的失效特征。第一生成模块803,用于生成不包括失效特征的第二特征集,第二特征集用于对机器学习模型进行重训练。本申请实施例实现了无监督特征有效性判别,在机器学习模型发生劣化后,可以根据基于特征彼此间的相关性计算得到的特征的有效性评分确定特征集中的失效特征,而无需采用有标签数据计算特征与标签的相关程度,因此在特征集的更新过程中无需对样本数据进行标签标注,减少了特征集更新过程中的人工干预,提高了特征集的更新效率,进而提高了模型重训练效率。可选地,特征的有效性评分是根据特征相对于第一特征集中的所有其它特征的互信息得到的。可选地,失效特征包括第一特征集中有效性评分低于评分阈值的特征。可选地,评分阈值基于第一特征集中所有特征的有效性评分的均值、第一特征集中所有特征的有效性评分的方差以及第一特征集中所有特征的有效性评分的标准差中的一个或多个计算得到。可选地,如图9所示,本申请实施例提供的用于实现模型训练的装置还可以包括发送模块804和接收模块805,分析设备通过发送模块804向管理设备发送数据,并通过接收模块805接收管理设备发送的数据。可选地,如图10所示,装置80还包括:第二生成模块806,用于基于有效性信息,生成第一特征集的有效性评分列表,有效性评分列表包括第一特征集中每个特征的特征标识以及每个特征的有效性指示信息,有效性指示信息包括有效性评分和有效性标记中的至少一个,有效性标记包括有效特征标记或失效特征标记;上述发送模块804,用于将有效性评分列表发送给管理设备。上述接收模块805,用于接收管理设备发送的更新后的有效性评分列表;则确定模块802,用于:将更新后的有效性评分列表中,有效性标记为失效特征标记的特征确定为第一特征集中的失效特征。可选地,如图11所示,装置80还包括:第二获取模块807,用于获取目标数据,机器学习模型对目标数据的预测结果的置信度低于置信度阈值;则第一获取模块801,用于:基于目标数据确定第一特征集的有效性信息。可选地,第一生成模块,用于:确定样本数据的模式特点,模式特点表征样本数据的分布特征和统计特征中的至少一个,样本数据是在机器学习模型发生劣化后采集的;生成第三特征集,第三特征集包括样本数据的模式特点对应的特征;删除第三特征集中的失效特征,得到第二特征集。可选地,分析设备在通过第一生成模块生成不包括失效特征的第二特征集的过程中,可以通过上述发送模块804将第三特征集发送给管理设备;并通过上述接收模块805接收管理设备发送的更新后的第三特征集。本申请实施例实现了无监督特征有效性判别,在机器学习模型发生劣化后,可以根据基于特征彼此间的相关性计算得到的特征的有效性评分确定特征集中的失效特征,而无需采用有标签数据计算特征与标签的相关程度,因此在特征集的更新过程中无需对样本数据进行标签标注,减少了特征集更新过程中的人工干预,提高了特征集的更新效率,进而提高了模型重训练效率。另外,在机器学习模型发生劣化后,通过确定样本数据的模式特点,并生成与样本数据的模式特点对应的特征集,由于样本数据的模式特点能够表征样本数据的分布特征和/或统计特征,因此采用特征集中的特征对待预测数据进行预测的可靠性较高,本申请实施例无需基于专家经验从特征库中提取新特征,进一步减少了人工干预,实现模型更新的自动化。图12是本申请另一实施例提供的一种用于实现模型训练的装置的结构示意图。该装置可以应用于如图1所示的应用场景中的分析设备101,如图12所示,该装置120包括:第一确定模块1201,用于确定样本数据的模式特点,模式特点表征样本数据的分布特征和统计特征中的至少一个。生成模块1202,用于生成目标特征集,目标特征集包括样本数据的模式特点对应的特征,目标特征集中的特征用于对机器学习模型进行训练,机器学习模型用于对网络设备采集到的待预测数据进行预测。本申请实施例中,通过确定样本数据的模式特点,并生成与样本数据的模式特点对应的特征集,由于样本数据的模式特点能够表征样本数据的分布特征和/或统计特征,因此采用特征集中的特征对待预测数据进行预测的可靠性较高。本申请实施例无需采用有标签样本数据计算特征库中各个特征与标签的相关程度以生成特征集,因此在特征集的生成过程中无需对样本数据进行标签标注,减少了模型训练过程中的人工干预,提高了模型训练效率。可选地,如图13所示,装置120还包括:发送模块1203,用于将目标特征集发送给管理设备;接收模块1204,用于接收管理设备发送的更新后的目标特征集。可选地,如图14所示,装置120还包括:第二确定模块1205,用于确定机器学习模型发生劣化,则样本数据是在机器学习模型发生劣化后采集的。可选地,如图15所示,装置120还包括:获取模块1206,用于获取用于训练得到发生劣化的机器学习模型的第一特征集;计算模块1207,用于计算第一特征集中每个特征的有效性评分,特征的有效性评分与特征跟第一特征集中的其它特征之间的相关性负相关;第三确定模块1208,用于基于第一特征集中每个特征的有效性评分,确定第一特征集中的失效特征;删除模块1209,用于删除目标特征集中的失效特征,得到第二特征集,第二特征集用于对发生劣化的机器学习模型进行重训练。本申请实施例中,通过确定样本数据的模式特点,并生成与样本数据的模式特点对应的特征集,由于样本数据的模式特点能够表征样本数据的分布特征和/或统计特征,因此采用特征集中的特征对待预测数据进行预测的可靠性较高。本申请实施例无需采用有标签样本数据计算特征库中各个特征与标签的相关程度以生成特征集,因此在特征集的生成过程中无需对样本数据进行标签标注,减少了模型训练过程中的人工干预,提高了模型训练效率。另外,本申请实施例实现了无监督特征有效性判别,在机器学习模型发生劣化后,可以根据基于特征彼此间的相关性计算得到的特征的有效性评分确定特征集中的失效特征,而无需采用有标签数据计算特征与标签的相关程度,因此在特征集的更新过程中无需对样本数据进行标签标注,减少了特征集更新过程中的人工干预,提高了特征集的更新效率,进而提高了模型重训练效率。图16是本申请实施例提供的一种用于实现模型训练的装置的框图。该用于实现模型训练的装置可以是分析设备。如图16所示,分析设备160包括:处理器1601和存储器1602。存储器1601,用于存储计算机程序,计算机程序包括程序指令;处理器1602,用于调用计算机程序,实现如图2所示的用于实现模型训练的方法。可选地,该网络设备160还包括通信总线1603和通信接口1604。其中,处理器1601包括一个或者一个以上处理核心,处理器1601通过运行计算机程序,从而执行各种功能应用以及数据处理。存储器1602可用于存储计算机程序。可选地,存储器可存储操作系统和至少一个功能所需的应用程序单元。操作系统可以是实时操作系统(realtimeexecutive,rtx)、linux、unix、windows或osx之类的操作系统。通信接口1604可以为多个,通信接口1604用于与其它存储设备或网络设备进行通信。例如在本申请实施例中,通信接口1604可以用于接收通信网络中的网络设备发送的样本数据。存储器1602与通信接口1604分别通过通信总线1603与处理器1601连接。本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有指令,当指令被处理器执行时,实现如图2所示的用于实现模型训练的方法。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。在本申请实施例中,术语“第一”、“第二”和“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“至少一个”是指一个或多个,术语“多个”指两个或两个以上,除非另有明确的限定。本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的构思和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1