模型生成方法、装置、计算机设备及存储介质与流程

文档序号:17009764发布日期:2019-03-02 02:11阅读:128来源:国知局
模型生成方法、装置、计算机设备及存储介质与流程

本发明涉及机器学习技术领域,尤其涉及一种模型生成方法、装置、计算机设备及存储介质。



背景技术:

机器学习过程一般包括数据预处理过程及模型训练过程。目前在机器学习过程中无论是数据预处理过程还是模型训练过程都需要工程师通过编写代码来实现。然而,在很多情况下,机器学习过程中所使用的数据预处理方法、模型训练的方法等都具有较高的相似度。若每次都需要工程师写代码实现,势必会给工程师带来较大的工作量,造成重复性工作的同时,还浪费时间,降低产品开发的效率。另外,对于专业度不够的工程师或非工程师,因为专业限制等问题,无法进行数据预处理,在模型训练过程也无法正确地选择模型算法的情况下,建模的困难非常大,建模的效率非常低下。



技术实现要素:

本发明实施例提供了一种模型生成方法、装置、计算机设备及存储介质,以提高生成机器学习模型的效率。

第一方面,本发明实施例提供了一种模型生成方法,该方法包括:接收用户输入的原始训练数据、指定的所述原始训练数据的变量类型以及指定的训练模型算法;调用所述变量类型对应预存的数据预处理方法;利用所述数据预处理方法对所述原始训练数据进行预处理以得到处理后的训练数据;调用所述训练模型算法;利用所述处理后的训练模型算法对所述训练数据进行机器学习以生成机器学习模型。

第二方面,本发明实施例还提供了一种模型生成装置,所述模型生成装置包括用于实现第一方面所述的模型生成方法的单元。

第三方面,本发明实施例还提供了一种计算机设备,包括存储器,以及与所述存储器相连的处理器;所述存储器用于存储实现模型生成方法的计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如上述第一方面所述的方法。

第四方面,本发明实施例提供了一种存储介质,所述存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现上述第一方面所述的方法。

本发明实施例提供一种模型生成方法、装置、计算机设备及存储介质。该方法包括:接收用户输入的原始训练数据、指定的所述原始训练数据的变量类型以及指定的训练模型算法;调用所述变量类型对应预存的数据预处理方法;利用所述数据预处理方法对所述原始训练数据进行预处理以得到处理后的训练数据;调用所述训练模型算法;利用所述训练模型算法对所述训练数据进行机器学习以生成机器学习模型。该方法通过预存不同参数类型对应的数据预处理方法,使工程师无需每次都通过编程来预处理包含不同参数类型的原始训练数据来生成机器学习模型,大大减轻了工程师的工作量,提高获取机器学习模型的效率。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种模型生成方法的流程示意图;

图2是本发明一实施例提供的一种模型生成方法的子流程示意图;

图3是本发明另一实施例提供的一种模型生成方法的子流程示意图;

图4是本发明另一实施例提供的一种模型生成方法的流程示意图;

图5是本发明一实施例提供的一种模型生成装置的示意性框图;

图6是本发明一实施例提供的一种模型生成装置的子单元示意性框图;

图7是本发明另一实施例提供的一种模型生成装置的子单元示意性框图;

图8是本发明另一实施例提供的一种模型生成装置的示意性框图;

图9是本发明实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

也应当理解,尽管术语第一、第二等可以在此用来描述各种元素,但这些元素不应该受限于这些术语,这些术语仅用来将这些元素彼此区分开。

图1为本发明实施例提供的一种模型生成方法的流程示意图,该方法应用于台式电脑、手提电脑、平板电脑等终端中。如图1所示,该方法包括步骤s101~s105。

s101、接收用户输入的原始训练数据、指定的所述原始训练数据的变量类型以及指定的训练模型算法。

在本实施例中,终端可支持包含各类变量的数据的输入和处理,终端可以通过一用户操作界面与用户进行交互,用户可通过用户操作界面输入原始训练数据,指定该原始训练数据中包含的参数对应的参数类型,以及指定用于模型训练的训练模型算法。

用户可输入的数据例如为包含价格、产量等连续型变量的数据,包含性别等离散型变量的数据,包含日期型变量的数据或文本型变量的数据,用户输入的数据用作模型训练的样本。用户输入数据后,需要根据数据的特点指定该数据的参数类型,可选的类型包括连续型、离散型、日期型和文本型等,以便终端根据数据中各变量的变量类型调用不同的数据预处理方法,实现对数据的差异化处理。

另外,用户输入数据后还需要选定一个或多个训练模型算法来对数据进行机器学习,用户选训练择模型算法的依据包括:

1)、根据具体的建模任务选择回归模型算法或分类模型算法;

2)、根据不同的应用场景(识别图像、根据文字分析情绪、对用户主体分类等)可选择图像处理模型算法、语义分析模型算法、主体分类模型算法等;

3)、根据用户的个性化需求选择不同的模型算法。

s102,调用所述变量类型对应预存的数据预处理方法。

针对每种类型的变量数据一般都会有一种或几种常见的数据预处理方法,将机器学习过程中各类变量常用的预数据处理方法封装成脚本保存至终端,当用户输入数据后,终端直接调用参数类型对应的数据预处理方法处理数据。

例如,针对连续型变量,具有缺失值检测处理方法、异常值检测处理方法、连续变量离散化方法、数据转换方法(包括minmaxscaler归一化和去均值中心化)等;针对离散型变量;具有缺失值检测处理方法、噪声处理方法、编码处理方法(包括one-hot编码和dummy编码)、分箱方法(例如卡方分组法)等;针对日期型变量,具有数据转化方法(将日期型变量转换成按年、月、日、小时的排布)、缺失值检测处理方法、分箱方法(例如卡方分组法)等;针对文本型变量,具有数据转化方法(例如tf-idf(termfrequency–inversedocumentfrequency,词频-逆文本频率指数)算法,将文本转化为词向量)、缺失值检测处理方法等。

s103,利用所述数据预处理方法对所述原始训练数据进行预处理以得到处理后的训练数据。

例如,用户输入的是文本型变量的数据,则利用缺失值检测处理方法以及tf-idf算法对数据进行预处理后得到训练数据。

s104,调用所述训练模型算法。

用户根据需求选择训练模型算法,终端调用用户选择的训练模型算法进行训练。

在本实施例中,将不同建模任务涉及到的各种训练模型算法封装到终端中,模型参数与训练后的模型的准确率有着密不可分的关系,因此模型训练过程所选择的模型参数非常重要,因此,一个训练模型算法可以预先设置一组或多组备选参数,当调用该一个训练模型算法进行模型训练时逐一选择其中一组备选参数作为该模型训练的模型参数,以实现在模型训练时可进行模型参数调整

s105,利用所述处理后的训练数据对所述训练模型算法进行训练以生成机器学习模型。

在本实施例中,用户根据需求选择训练模型算法,终端调用用户选择的训练模型算法,利用训练数据对训练模型算法进行训练以生成机器学习模型。

生成的机器学习模型与选择的训练模型算法以及该训练模型算法的模型参数有关。

在一实施例中,用户指定的训练模型算法为1个,该训练模型算法的备选参数有多组。

如图2所示,步骤s105包括步骤s1051-s1055。

s1051,将所述处理后的训练数据分为训练集和验证集。

在一实施例中,将训练数据按照预设比例划分成训练集和验证集。预设比例例如为9:1或8:2。

s1052,获取所述训练模型算法的多组备选参数。

s1053,逐一选择一组备选参数作为所述训练模型算法的模型参数,利用所述训练集对所述训练模型算法进行训练以生成每一组备选参数对应的备选机器学习模型。

每次选择一组备选参数作为模型参数,在该模型参数下,利用训练集对训练模型算法进行训练以得到对应备选参数下的备选机器学习模型。

s1054,调用预设评价函数结合所述验证集对每个备选机器学习模型进行验证以得到每个备选机器学习模型的评价指标。

在生成备选机器学习模型后,将用验证集以及评价函数对生成的机器学习模型进行验证以得到对应的评价指标,其中,评价指标可以为精确率、准确率、召回率或其他指标,在此不做具体限制。

s1055,根据所述评价指标推荐最优的备选机器学习模型作为被选择的机器学习模型。

在本实施例中,得到每个备选机器学习模型的评价指标之后,根据评价指标选择一个最优的备选机器学习模型作为最终生成的机器学习模型并推荐给用户。最优的备选机器学习模型是准确率最高的备选机器学习模型。

另外,在其他实施例中,可以将每个备选机器学习模型以及对应的评价指标输出给用户,让用户自行选择一个机器学习模型。

在另一实施例中,用户指定的训练模型算法为多个,每个训练模型算法的备选参数有多组。

如图3所示,步骤s105包括步骤s1151-s1156。

s1151,将所述处理后的训练数据分为训练集和验证集。

在一实施例中,将训练数据按照预设比例划分成训练集和验证集。预设比例例如为9:1或8:2。

s1152,获取每个训练模型算法的多组备选参数。

s1153,将每个训练模型算法分别与该训练模型算法对应的每一个备选参数组合形成训练组合。

将用户指定的每个训练模型算法结合该训练模型算法下的备选参数

每次利用一个用户指定的训练模型算法,依次选择该训练模型算法的一组备选参数与该训练模型算法进行组合,以在不同的备选参数下对一训练模型算法进行训练。

s1154,利用所述训练集逐一对一训练组合进行训练以生成所述训练组合对应的备选机器学习模型。

在一个训练模型算法的不同备选参数下,利用训练集对该训练模型算法进行训练以得到不同备选参数下该训练模型算法对应的备选机器学习模型,即对于用户指定的每一个训练模型算法,针对每个训练模型算法不同的备选参数,生成不同的备选机器学习模型。即假设用户指定了i个训练模型算法,每个训练模型算法的备选参数均有n组,则针对一个训练模型算法生成n个备选机器学习模型,总共生成n*i个备选机器学习模型。

s1155,调用预设评价函数结合所述验证集对每个备选机器学习模型进行验证以得到每个备选机器学习模型的评价指标。

对利用不同训练模型算法、不同备选参数得到的所有备选机器学期模型进行验证得到评价指标,评价指标可以为准确率、精确率、召回率等,在此不做限定。

s1156,根据所述评价指标推荐最优的备选机器学习模型作为被选择的机器学习模型。

得到每个备选机器学习模型的评价指标之后,根据评价指标选择一个最优的备选机器学习模型作为最终生成的机器学习模型并推荐给用户。最优的备选机器学习模型是准确率最高的备选机器学习模型。

在其他实施例中,可以将每个备选机器学习模型以及对应的评价指标输出给用户,让用户自行选择一个机器学习模型。

在一实施例中,预设评价函数可以为recall函数,precision函数,accuracy函数,r2函数,f1-score函数中的任意一个,这些函数都是现有比较常用的评价函数,结合验证集可以对备选机器学习模型进行验证,得到对备选机器学习模型准确性的评估。

本发明实施例提供的模型生成方法,通过预存不同参数类型对应的数据预处理方法,使工程师无需每次都通过编程来预处理包含不同参数类型的原始训练数据来生成机器学习模型,大大减轻了工程师的工作量,提高获取机器学习模型的效率。

图4是本发明另一实施例提供的一种模型生成方法的流程示意图,该方法包括步骤s201-s209,其中步骤s201、s206-s209与前述实施例的步骤一致,步骤s201、s206-s209的具体描述可参考前述实施例,本发明实施例不做赘述。

s201,接收用户输入的原始训练数据、指定的所述原始训练数据的变量类型以及指定的训练模型算法。

s202,分析所述原始训练数据的分布情况,以得到所述正样本与所述负样本的比例。

接收到用户输入的原始训练数据之后,对数据的分布进行分析,得到正样本和负样本的分布情况以及比例情况。另外,还可以生成数据分布图、箱线图等显示在显示界面以供用户了解数据的分布情况。

s203,根据所述正样本与所述负样本的比例获取样本采样建议。

若正负样本分布相差悬殊,则建议对占比少的正样本进行重采样,建议删除部分占比较多的负样本,使正负样本的比例趋于均衡。

例如正样本与负样本的比例大于或等于3:7,则样本采样建议为删除部分负样本,使正样本和负样本的数量相等;若正样本与负样本的比例低于7:3,样本采样建议为对正样本进行重采样,删除部分负样本,使正样本和负样本的数量均为原始训练数据中总样本的一半。

s204,显示所述样本采样建议。

s205,若接收到用户确认所述样本采样建议的确认消息,按照所述样本采样建议对所述原始训练数据进行采样,以得到采样数据。

终端将样本采样建议显示在界面供用户参考,用户若确认该采样比例建议,终端则根据采样比例建议进行重新采样,否则不进行重新采样;另外,用户还可以自行输入正样本的采样比例以及负样本的采样比例来使终端进行重新采样。

将重采样的方法封装至终端中,当需要进行重采样时终端调用重采样的方法对正样本进行重采样。常用的重采样方法有最邻近内插法、双线性内插法和三次卷积法内插法,本发明实施例的重采样方法为其中的任意一种。

s206,调用所述变量类型对应预存的数据预处理方法。

步骤s206的顺序可以在步骤s205之后也可以在步骤s202之前,重采样的过程与调用数据预处理方法的过程不冲突,二者在时间上无必然的先后顺序。

s207,利用所述数据预处理方法对所述采样数据进行预处理以得到处理后的训练数据。

s208,调用所述训练模型算法。

s209,利用所述处理后的训练数据对所述训练模型算法进行训练以生成机器学习模型。

本发明实施例提供的模型生成方法,预存重采样方法、当两类样本的数量悬殊时对数量较少的样本进行重采样,不需工程师编写程序进行样本重采样;预存不同参数类型对应的数据预处理方法,工程师无需每次都通过编程来预处理包含不同参数类型的原始训练数据来生成机器学习模型,大大减轻了工程师的工作量,提高获取机器学习模型的效率。

图5为本发明实施例提供的一种模型生成装置100的示意性框图。该模型生成装置100包括用于执行上述模型生成方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。该模型生成装置100包括接收单元101、第一调用单元102、预处理单元103、第二调用单元104以及训练单元105。

接收单元101用于接收用户输入的原始训练数据、指定的所述原始训练数据的变量类型以及指定的训练模型算法。

第一调用单元102用于调用所述变量类型对应预存的数据预处理方法。

预处理单元103用于利用所述数据预处理方法对所述原始训练数据进行预处理以得到处理后的训练数据。

第二调用单元104用于调用所述训练模型算法。

训练单元105用于利用所述处理后的训练数据对所述训练模型算法进行训练以生成机器学习模型。

在一实施例中,所述训练模型算法为1个,所述训练模型算法的备选参数为多组;

如图6所示,所述训练单元105,包括:

第一划分子单元1051,用于将所述处理后的训练数据分为训练集和验证集;

第一获取子单元1052,用于获取所述训练模型算法的多组备选参数;

第一训练子单元1053,用于逐一选择一组备选参数作为所述训练模型算法的模型参数,利用所述训练集对所述训练模型算法进行训练以生成每一组备选参数对应的备选机器学习模型;

第一验证子单元1054,用于调用预设评价函数结合所述验证集对每个备选机器学习模型进行验证以得到每个备选机器学习模型的评价指标;以及

第一推荐子单元1055,用于根据所述评价指标推荐最优的备选机器学习模型作为被选择的机器学习模型。

在一实施例中,所述训练模型算法为多个,每个训练模型算法的备选参数为多组;

如图7所示,所述训练单元105,包括:

第二划分子单元1151,用于将所述处理后的训练数据分为训练集和验证集;

第二获取单元1152,用于获取每个训练模型算法的多组备选参数;

组合子单元1153,用于将每个训练模型算法分别与该训练模型算法对应的每一个备选参数组合形成训练组合;

第二训练子单元1154,用于利用所述训练集逐一对一训练组合进行训练以生成所述训练组合对应的备选机器学习模型;

第二验证子单元1155,用于调用预设评价函数结合所述验证集对每个备选机器学习模型进行验证以得到每个备选机器学习模型的评价指标;以及

第二推荐子单元1156,用于根据所述评价指标推荐最优的备选机器学习模型作为被选择的机器学习模型。

图8为本发明另一实施例提供的一种模型生成装置100的示意性框图,该模型生成装置100包括接收单元201、分析单元202、获取单元203、显示单元204、采样单元205、第一调用单元206、预处理单元207、第二调用单元208以及训练单元209。

接收单元201用于接收用户输入的原始训练数据、指定的所述原始训练数据的变量类型以及指定的训练模型算法。

分析单元202用于分析所述原始训练数据的分布情况,以得到所述正样本与所述负样本的比例。

获取单元203用于根据所述正样本与所述负样本的比例获取样本采样建议。

显示单元204用于显示所述样本采样建议。

采样单元205用于若接收到用户确认所述样本采样建议的确认消息,按照所述样本采样建议对所述原始训练数据进行采样,以得到采样数据。

第一调用单元206用于调用所述变量类型对应预存的数据预处理方法。

预处理单元207用于利用所述数据预处理方法对所述采样数据进行预处理以得到处理后的训练数据。

第二调用单元208用于调用所述训练模型算法。

训练单元209用于利用所述处理后的训练数据对所述训练模型算法进行训练以生成机器学习模型。

上述模型生成装置100与前述模型生成方法对应,本实施例中对模型生成装置100未详尽之处可参考前述方法实施例,此处不做赘述。

上述模型生成装置100可以实现为一种计算机程序的形式,计算机程序可以在如图9所示的计算机设备上运行。

图9为本发明实施例提供的一种计算机设备300的结构示意性框图。该计算机设备300,该计算机设备300可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。

该计算机设备300,包括通过系统总线301连接的处理器302、存储器和网络接口305,其中,存储器可以包括非易失性存储介质303和内存储器304。

该计算机设备300的非易失性存储介质303可存储操作系统3031和计算机程序3032,该计算机程序3032被执行时,可使得处理器302执行一种模型生成方法。该内存储器304为非易失性存储介质303中的计算机程序3032的运行提供环境。该计算机设备300的处理器302用于提供计算和控制能力,支撑整个计算机设备300的运行。计算机设备300的网络接口305用于进行网络通信,如发送分配的任务、接收数据等。

本领域技术人员可以理解,图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。

处理器302运行非易失性存储介质303中的计算机程序3032时,处理器302执行以下步骤:接收用户输入的原始训练数据、指定的所述原始训练数据的变量类型以及指定的训练模型算法;调用所述变量类型对应预存的数据预处理方法;利用所述数据预处理方法对所述原始训练数据进行预处理以得到处理后的训练数据;调用所述训练模型算法;利用所述处理后的训练数据对所述训练模型算法进行训练以生成机器学习模型。

在一实施例中,所述训练模型算法为1个,所述训练模型算法的备选参数为多组,所述处理器302在执行所述利用所述处理后的训练数据对所述训练模型算法进行训练以生成机器学习模型的步骤时,具体执行以下步骤:将所述处理后的训练数据分为训练集和验证集;获取所述训练模型算法的多组备选参数;逐一选择一组备选参数作为所述训练模型算法的模型参数,利用所述训练集对所述训练模型算法进行训练以生成每一组备选参数对应的备选机器学习模型;调用预设评价函数结合所述验证集对每个备选机器学习模型进行验证以得到每个备选机器学习模型的评价指标;根据所述评价指标推荐最优的备选机器学习模型作为被选择的机器学习模型。

在一实施例中,所述训练模型算法为多个,每个训练模型算法的备选参数为多组;所述处理器302在执行所述利用所述处理后的训练数据对所述训练模型算法进行训练以生成机器学习模型的步骤时,具体执行以下步骤:将所述处理后的训练数据分为训练集和验证集;获取每个训练模型算法的多组备选参数;将每个训练模型算法分别与该训练模型算法对应的每一个备选参数组合形成训练组合;利用所述训练集逐一对一训练组合进行训练以生成所述训练组合对应的备选机器学习模型;调用预设评价函数结合所述验证集对每个备选机器学习模型进行验证以得到每个备选机器学习模型的评价指标;根据所述评价指标推荐最优的备选机器学习模型作为被选择的机器学习模型。

在一实施例中,所述原始训练数据包括正样本和负样本;所述处理器302在执行所述调用所述变量类型对应预存的数据预处理方法的步骤之前,还执行还以下步骤:根据所述正样本与所述负样本的比例获取样本采样建议;显示所述样本采样建议。

在一实施例中,所述处理器302在执行所述显示所述采样比例建议的步骤之后,还执行以下步骤:若接收到用户确认所述样本采样建议的确认消息,按照所述样本采样建议对所述原始训练数据进行采样,以得到采样数据。

在一实施例中,所述处理器302在执行所述利用所述数据预处理方法对所述原始训练数据进行预处理以得到处理后的训练数据的步骤时,具体执行以下步骤:利用所数据述预处理方法对所述采样数据进行预处理以得到处理后的训练数据。

应当理解,在本申请实施例中,处理器302可以是中央处理单元(centralprocessingunit,cpu),该处理器302还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。

因此,本发明还提供一种存储介质,所述存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,可实现以下步骤:接收用户输入的原始训练数据、指定的所述原始训练数据的变量类型以及指定的训练模型算法;调用所述变量类型对应预存的数据预处理方法;利用所述数据预处理方法对所述原始训练数据进行预处理以得到处理后的训练数据;调用所述训练模型算法;利用所述处理后的训练数据对所述训练模型算法进行训练以生成机器学习模型。

在一实施例中,所述训练模型算法为1个,所述训练模型算法的备选参数为多组;在实现所述利用所述处理后的训练数据对所述训练模型算法进行训练以生成机器学习模型的步骤时,具体实现以下步骤:将所述处理后的训练数据分为训练集和验证集;获取所述训练模型算法的多组备选参数;逐一选择一组备选参数作为所述训练模型算法的模型参数,利用所述训练集对所述训练模型算法进行训练以生成每一组备选参数对应的备选机器学习模型;调用预设评价函数结合所述验证集对每个备选机器学习模型进行验证以得到每个备选机器学习模型的评价指标;根据所述评价指标推荐最优的备选机器学习模型作为被选择的机器学习模型。

在一实施例中,所述训练模型算法为多个,每个训练模型算法的备选参数为多组;在实现所述利用所述处理后的训练数据对所述训练模型算法进行训练以生成机器学习模型的步骤时,具体实现以下步骤:将所述处理后的训练数据分为训练集和验证集;获取每个训练模型算法的多组备选参数;将每个训练模型算法分别与该训练模型算法对应的每一个备选参数组合形成训练组合;利用所述训练集逐一对一训练组合进行训练以生成所述训练组合对应的备选机器学习模型;调用预设评价函数结合所述验证集对每个备选机器学习模型进行验证以得到每个备选机器学习模型的评价指标;根据所述评价指标推荐最优的备选机器学习模型作为被选择的机器学习模型。

在一实施例中,所述原始训练数据包括正样本和负样本;在实现所述调用所述变量类型对应预存的数据预处理方法的步骤之前,还实现还以下步骤:根据所述正样本与所述负样本的比例获取样本采样建议;显示所述样本采样建议。

在一实施例中,在实现所述显示所述采样比例建议的步骤之后,还实现以下步骤:若接收到用户确认所述样本采样建议的确认消息,按照所述样本采样建议对所述原始训练数据进行采样,以得到采样数据。

在一实施例中,在实现所述利用所述数据预处理方法对所述原始训练数据进行预处理以得到处理后的训练数据的步骤时,具体实现以下步骤:利用所述数据预处理方法对所述采样数据进行预处理以得到处理后的训练数据。

所述存储介质可以是u盘、移动硬盘、只读存储器(read-onlymemory,rom)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1