机器学习模型的优化方法、装置、终端设备和存储介质与流程

文档序号:16037925发布日期:2018-11-24 10:13阅读:261来源:国知局

本发明涉及数据处理领域,特别是涉及一种机器学习模型的优化方法、装置、终端设备和存储介质。

背景技术

随着人工智能的快速发展,机器学习已经在我们生活中普及,其是计算机利用一些训练数据,经过训练得出机器学习模型,并学习更有用的数据信息,并使用此模型的一种方法。其已经广泛应用于我们日常生活中,例如:图像识别、数据挖掘、计算机视觉、自然语言处理、生物特征识别、语音和手写识别等不同领域。

传统技术在对机器学习模型的优化过程中,需要人工标注全部的数据并进行数据预处理和筛选,通过调整模型结构和参数,且人工确认模型效果后才能上线使用。

传统技术在机器学习的过程中,耗费大量人力,使得人工成本高,机器学习效率低。



技术实现要素:

基于此,有必要针对传统技术中人工成本高、机器学习效率低的问题,提供一种机器学习模型的优化方法、装置、终端设备和存储介质。

第一方面,本发明实施例提供一种机器学习模型的优化方法,包括:

获取多个待处理数据;

将所述待处理数据输入机器学习模型,利用所述机器学习模型,筛选出符合预设条件的待处理数据作为标注数据;其中,所述标注数据包括训练数据和验证数据;

利用所述训练数据对所述机器学习模型进行训练,确定经训练模型;

至少根据所述经训练模型和所述验证数据,更新所述机器学习模型。

在其中一个实施例中,将所述待处理数据输入机器学习模型,利用所述机器学习模型,筛选出符合预设条件的待处理数据作为标注数据,包括:

将所述待处理数据输入所述机器学习模型,确定每个所述待处理数据的置信度;

选择置信度低于预设阈值的待处理数据作为标注数据。

在其中一个实施例中,将所述待处理数据输入所述机器学习模型,确定每个所述待处理数据的置信度,包括:

将所述待处理数据输入所述机器学习模型,获取所述机器学习模型的预设函数;

根据所述预设函数,确定所述待处理数据的置信度。

在其中一个实施例中,利用所述训练数据对所述机器学习模型进行训练,确定经训练模型,包括:

将所述训练数据输入所述机器学习模型,确定所述机器学习模型中对应的数据分布变化;

根据所述数据分布变化,确定经训练模型。

在其中一个实施例中,所述数据分布变化,调整训练数据中的参数,确认经训练的模型,包括:

根据所述数据分布的变化,以及与所述数据分布的变化对应的预设优化算法,调整所述训练数据中的参数;

根据所述训练数据中的参数,确认经训练模型。

在其中一个实施例中,根据所述经训练模型和所述验证数据,更新所述机器学习模型,包括:

将所述验证数据输入所述经训练模型,确定第一准确率;其中,所述第一准确率为所述经训练模型的准确率;

根据所述机器学习模型,确定第二准确率;其中,所述第二准确率为所述机器学习模型的准确率;

判断所述第一准确率是否大于第二准确率:若是,则更新所述机器学习模型为所述经训练模型。

在其中一个实施例中,将所述验证数据输入所述经训练模型,确定第一准确率,包括:

将所述验证数据输入所述经训练模型,确定第一模型结果;

根据人工标注数据,确定第二模型结果;

将所述第二模型结果与所述第一模型结果进行对比,确定模型预测正确的数量和模型总共预测的数量;

根据所述模型预测正确的数量与所述模型总共预测的数量,确定第一准确率。

本实施例提供的机器学习模型的优化方法,终端设备通过获取多个待处理数据,并将上述待处理数据输入机器学习模型,选择符合预设条件的待处理数据作为标注数据,其中,该标注数据包括训练数据和验证数据,然后利用上述训练数据对机器学习模型进行训练,确定经训练模型,并根据经训练模型、验证数据和机器学习模型,从而更新机器学习模型。由于终端设备在确定标注数据时,通过将多个待处理数据输入机器学习模型,能够自动筛选置信度低的待处理数据,提高了确定标注数据的效率,从而大量节省了标注人力,并通过将标注数据中的训练数据输入机器学习模型进行训练,使得终端设备能够对数据分布的变化及时响应,准确的得到经训练模型,使得模型能够自动迭代收敛,有效的提高训练效率。另外,通过将验证数据输入经训练模型,可以准确的对该经训练模型进行评估,当确定经训练模型优于机器学习模型时,则自动更新机器学习模型,从而大大节约了在模型优化过程中的人力和物力,很大程度上提高了机器学习模型的更新迭代过程的效率。

第二方面,本发明实施例提供一种机器学习模型的优化装置,包括:

获取模块,用于获取多个待处理数据;

第一确定模块,用于将所述待处理数据输入机器学习模型,利用所述机器学习模型,筛选出符合预设条件的待处理数据作为标注数据;其中,所述标注数据包括训练数据和验证数据;

第二确定模块,用于利用所述训练数据对所述机器学习模型进行训练,确定经训练的模型;

更新模块,用于根据所述经训练模型和所述验证数据,更新所述机器学习模型。

第三方面,本发明实施例提供的一种终端设备,包括存储器和处理器,存储器存储有计算机程序,所述处理器执行计算机程序时实现以下步骤:

获取多个待处理数据;

将所述待处理数据输入机器学习模型,利用所述机器学习模型,筛选出符合预设条件的待处理数据作为标注数据;其中,所述标注数据包括训练数据和验证数据;

利用所述训练数据对所述机器学习模型进行训练,确定经训练模型;

至少根据所述经训练模型和所述验证数据,更新所述机器学习模型。

第四方面,本发明实施例提供的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取多个待处理数据;

将所述待处理数据输入机器学习模型,利用所述机器学习模型,筛选出符合预设条件的待处理数据作为标注数据;其中,所述标注数据包括训练数据和验证数据;

利用所述训练数据对所述机器学习模型进行训练,确定经训练模型;

至少根据所述经训练模型和所述验证数据,更新所述机器学习模型。

本实施例提供的机器学习模型的优化方法、装置、终端设备及存储介质,能够通过获取多个待处理数据,并将上述待处理数据输入机器学习模型,选择符合预设条件的待处理数据作为标注数据,其中,该标注数据包括训练数据和验证数据,然后利用上述训练数据对机器学习模型进行训练,确定经训练模型,并根据经训练模型、验证数据和机器学习模型,从而更新机器学习模型。由于终端设备在确定标注数据时,通过将多个待处理数据输入机器学习模型,能够自动筛选置信度低的待处理数据,提高了确定标注数据的效率,从而大量节省了标注人力,并通过将标注数据中的训练数据输入机器学习模型进行训练,使得终端设备能够对数据分布的变化及时响应,准确的得到经训练模型,使得模型能够自动迭代收敛,有效的提高训练效率。另外,通过将验证数据输入经训练模型,可以准确的对该经训练模型进行评估,当确定经训练模型优于机器学习模型时,则自动更新机器学习模型,从而大大节约了在模型优化过程中的人力和物力,很大程度上提高了机器学习模型的更新迭代过程的效率。

附图说明

图1为一个实施例提供的一种终端设备的内部结构示意图;

图2为一个实施例提供的机器学习模型的优化方法的流程示意图;

图3为另一个实施例提供的机器学习模型的优化方法的流程示意图;

图4为又一个实施例提供的机器学习模型的优化方法的流程示意图;

图5为又一个实施例提供的机器学习模型的优化方法的流程示意图;

图6为又一个实施例提供的机器学习模型的优化方法的流程示意图;

图7为又一个实施例提供的机器学习模型的优化方法的流程示意图;

图8为又一个实施例提供的机器学习模型的优化方法的流程示意图;

图9为一个实施例提供的机器学习模型的优化装置的结构示意图;

图10为另一个实施例提供的机器学习模型的优化装置的结构示意图;

图11为另一个实施例提供的机器学习模型的优化装置的结构示意图;

图12为又一个实施例提供的机器学习模型的优化装置的结构示意图。

具体实施方式

本申请实施例提供的机器学习模型的优化方法,可以适用于图1所示的终端设备。该终端设备包括通过系统总线连接的处理器、内存储器、非易失性存储介质,该非易失性存储介质存储有操作系统和计算机程序,该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器执行该计算机程序时可以执行下述方法实施例的步骤。可选地,该终端设备还可以包括网络接口、显示屏和输入装置。其中,该终端设备的处理器用于提供计算和控制能力。该终端设备的网络接口用于与外部的终端通过网络连接通信。可选地,终端设备可以为个人计算机(personalcomputer,简称pc)、移动终端、便携式设备等具有数据处理功能、且可以与外部设备或者用户交互的电子设备,本实施例对终端设备的具体形式并不做限定。

传统技术中,在对机器学习模型的优化过程中,需要人工标注全部的数据后才能进行数据预处理和筛选,并在训练过程中,通过人工调整模型中的结构和参数,最后需要人工确认模型效果后方可上线使用。但是,由于传统技术中需要耗费大量的人力和物力,导致人工成本高,且机器学习效率低。本申请实施例提供的机器学习模型的优化方法、装置、终端设备和可读存储介质旨在解决传统技术的如上技术问题。

为了使本申请的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本申请实施例中的技术方案做进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。

需要说明的是,下述方法实施例的执行主体可以是机器学习模型的优化装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为终端设备的部分或者全部。下述方法实施例的执行主体以终端设备为例来进行说明。

图2为一个实施例提供的机器学习模型的优化方法的流程示意图,本实施例涉及的是终端设备如何对多个待处理数据中的标注数据进行训练,确定经训练模型,并根据经训练模型和验证数据,更新机器学习模型的具体过程。如图2所示,该方法可以包括:

s101、获取多个待处理数据。

具体的,待处理数据为需要进行标注处理的数据。多个待处理数据可以是包括各种类型的数据,例如:文本数据、语音数据、图像数据等。上述待处理数据可以是通过获取装置实时采集的数据,可以是通过云端下载的数据,可以是各种通过其他设备导入的数据等,本实施例对此不做限定。

可选的,终端设备获取待处理数据的过程可以为:终端设备接收用户输入的处理指令,并根据处理指令获取待处理数据。其中,处理指令中包含数据标识。

s102、将所述待处理数据输入机器学习模型,利用所述机器学习模型,筛选出符合预设条件的待处理数据作为标注数据;其中,所述标注数据包括训练数据和验证数据。

具体的,上述机器学习模型可以是朴素贝叶斯模型,可以是决策树模型,可以是逻辑回归模型,终端设备在获取到多个待处理数据后,将上述待处理数据输入至机器学习模型中,机器学习模型通过对上述待处理数据进行处理,会选取符合预设条件的待处理数据作为标注数据。可选的,上述预设条件可以是对该待处理数据中特征的匹配度比较,也可以是对该待处理数据中参数的比较。通过将待处理数据输入机器学习模型,并且模型能够自动筛选出置信度低的待处理数据,选择出符合预设条件的标注数据,可以大大节省了标注人力,通过对置信度低的数据进行标注处理,能够显著提高模型的训练效果。

需要说明的是,在确定出标注数据后,则通过人工对该标注数据进行标记,例如,机器学习模型用于对图像场景中的动物识别,则训练数据可以是多个图像,则人工标记该动物的一些特征信息,其中,该特征信息可以是该动物的鼻子、眼睛等特征。

s103、利用所述训练数据对所述机器学习模型进行训练,确定经训练模型。

具体的,终端设备在获取到标注数据后,并将获取到的该标注数据以7:3的比例随机分成训练数据和验证数据,其中,训练数据用于对机器学习模型进行训练,以确定出经训练模型,验证数据用来检测模型构建,用于评估模型的准确率。

机器学习模型可以应用到各种场景中,例如分类场景、问题求解场景中。例如:机器学习模型用于对图像中的前景进行人脸识别,那么训练数据可以包括多个图像,这些图像已经标记了是否具有人脸,甚至标记了人脸的位置。

可选的,用训练数据对机器学习模型进行训练时,可以通过梯度下降法、牛顿算法、共轭梯度法、柯西-牛顿法等算法对机器学习模型进行训练,进而确定经训练模型。

s104、至少根据所述经训练模型和所述验证数据,更新所述机器学习模型。

具体的,经训练模型为训练后得到的模型,在确定出经训练模型后,通过验证数据对经训练模型进行验证,并结合上述机器学习模型的相关数据,当确定出经训练模型效果比机器学习模型效果优化时,则更新机器学习模型。可选的,当确定出经训练模型没有比机器学习模型效果更优时,则继续对该经训练模型进行训练,得到新的模型,再跟之前的模型效果进行比对,直至该新的模型效果优于之前的模型效果时,更新之前的模型为新的模型。

本发明实施例提供的机器学习模型的优化方法,终端设备通过获取多个待处理数据,并将上述待处理数据输入机器学习模型,选择符合预设条件的待处理数据作为标注数据,其中,该标注数据包括训练数据和验证数据,然后利用上述训练数据对机器学习模型进行训练,确定经训练模型,并根据经训练模型、验证数据和机器学习模型,从而更新机器学习模型。由于终端设备在确定标注数据时,通过将多个待处理数据输入机器学习模型,能够自动筛选置信度低的待处理数据,提高了确定标注数据的效率,从而大量节省了标注人力,并通过将标注数据中的训练数据输入机器学习模型进行训练,使得终端设备能够对数据分布的变化及时响应,准确的得到经训练模型,使得模型能够自动迭代收敛,有效的提高训练效率。另外,通过将验证数据输入经训练模型,可以准确的对该经训练模型进行评估,当确定经训练模型优于机器学习模型时,则自动更新机器学习模型,从而大大节约了在模型优化过程中的人力和物力,很大程度上提高了机器学习模型的更新迭代过程的效率。

图3为另一实施例提供的机器学习模型的优化方法流程示意图。本实施例涉及的是终端设备如何将待处理数据输入机器学习模型,选择标注数据的具体过程。基于上述图2所示实施例的基础上,如图3所示,s101的一种可实现方式可以包括:

s201、将所述待处理数据输入所述机器学习模型,确定每个所述待处理数据的置信度。

具体的,待处理数据的置信度为真值在置信区间中出现的概率。当终端设备获取到多个待处理数据时,并将该待处理数据输入上述机器学习模型,确定上述待处理数据的置信度,可选的,在确定每个待处理数据的置信度时,可以通过大数定律确定每个待处理数据的置信度。

可选的,如图4所示,s201的一种可能的实现方式包括:

s301、将所述待处理数据输入所述机器学习模型,获取所述机器学习模型的预设函数。

具体的,将所述待处理数据输入上述机器学习模型,可以通过调用模型数据库来获取到机器学习模型的预设函数,也可以通过根据上述机器学习模型,对应的获取其中的预设函数。其中,不同的机器学习模型对应的预设函数不同。

s302、根据所述预设函数,确定所述待处理数据的置信度。

具体的,预设函数为机器学习模型中确定置信度的函数,当把多个待处理数据输入机器学习模型后,获取到其中的预设函数,将该待处理数据代入该预设函数,可以确定出每个待处理数据的置信度。其中,不同的待处理数据对应的置信度可能不同,也可能相同。

例如,当机器学习模型用于对图像场景中的动物识别时,则待处理数据可以是多个图像,该待处理数据的置信度即为每个图像为该动物的概率。

上述实施例提供的机器学习模型的优化方法,通过将上述待处理数据输入机器学习模型,获取上述机器学习模型的预设函数后,并根据该预设函数,确定待处理数据的置信度。通过获取预设函数,从而可以精确的获取待处理数据的置信度,进一步准确的确定标注数据。

s202、选择置信度低于预设阈值的待处理数据作为标注数据。

具体的,在确定出每个待处理数据的置信度后,并将上述置信度与预设阈值进行对比,可选的,可以将每个置信度分别与预设阈值进行比较,也可以先将置信度进行相互比较,确定出每个置信度的大小关系,其中,可以将上述置信度通过从大到小的方式进行排序,也可以对上述置信度通过冒泡排序确定出置信度之间的关系,并将该置信度与预设阈值进行比较,从而选取置信度低于预设阈值的待处理数据,作为标注数据。

本实施例提供的机器学习模型的优化方法,终端设备通过将待处理数据输入机器学习模型,获取到上述机器学习模型的预设函数,并根据预设函数,确定每个待处理数据的置信度,然后将每个待处理数据的置信度与预设阈值进行比较,确定置信度低于预设阈值的待处理数据作为标注数据。由于该终端设备在选择标注数据时,将置信度作为判定标准,并通过将置信度与预设阈值进行比较,从而精准的确定出标注数据,进一步提高了模型的训练效率。

图5为另一实施例提供的机器学习模型的优化方法流程示意图。本实施例涉及的是终端设备如何利用训练数据对机器学习模型进行训练,确定经训练模型的具体过程。基于上述图2所示实施例的基础上,如图5所示,s103的一种可实现方式可以包括:

s401、将所述训练数据输入所述机器学习模型,确定所述机器学习模型中对应的数据分布变化。

具体的,终端设备通过将待处理数据输入机器学习模型,确定标注数据后,并将该标注数据随机分成两组数据:训练数据和验证数据,当确定训练数据后,将上述训练数据输入机器学习模型中,可选的,该机器学习模型会经过不断的学习,通过与该机器学习模型中的一些属性指标进行比较,确定出机器学习模型中对应的数据分布变化。

可选的,可以通过测定该数据的集中趋势的指标来确定训练数据中的数据分布变化,其中,测定该数据的集中趋势的指标可以为位置平均数,可以为数值平均数,也可以通过数据分布图来确定训练数据中的数据分布变化。

s402、根据所述数据分布变化,调整训练数据中的参数,确定经训练模型。

具体的,数据分布变化为数据分布的集中趋势,终端设备在学习到训练数据中的分布变化时,会根据该数据分布的变化,通过学习识别数据中的关系、趋势和模式,来调整训练数据中的参数,确定经训练模型。

可选的,如图6所示,s402的一种可能的实现方式包括:

s501、根据所述数据分布的变化,以及与所述数据分布的变化对应的预设优化算法,调整所述训练数据中的参数。

具体的,机器学习模型在训练过程中,能够针对有数据变化的训练数据,通过一些优化算法,调整其中的参数。

需要说明的是,针对不同的机器学习模型,其数据分布的变化不同,对应的预设优化算法也不同。可选的,机器学习分为监督学习、无监督学习和半监督学习。其中,对于监督学习问题,如分类问题,可以采用分类算法来解决分类问题,通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别;其中,当机器学习模型为朴素贝叶斯模型时,可以通过朴素贝叶斯算法调整训练数据中的权重等参数,当机器学习模型为支持向量模型时,可以通过支持向量机算法调整支持向量机中的支持向量,如回归问题,则机器学习模型为逻辑回归模型时,可以通过线性回归算法调整训练数据中的参数,该参数可以是逻辑回归中的系数。

s502、根据所述训练数据中的参数,确认经训练模型。

其中,当调整好训练数据中的参数后,可以根据该训练数据中的参数,确定出经训练模型。

上述实施例中的机器学习模型的优化方法,机器学习模型在训练过程中,通过根据训练数据,使得终端设备能够自动学习到对应的数据分布变化,进而调整训练数据里面的参数,免去了人工对模型的调整,从而自动对模型进行调整和优化,很大程度上提高了对模型的训练效率。

本实施例提供的机器学习模型的优化方法,终端设备通过将训练数据输入机器学习模型,确定其中对应的数据分布变化,并根据该数据分布变化,通过优化算法,调整训练数据中的参数,从而确定经训练模型。由于该终端设备在能够根据数据分布的变化,自动对调整模型中的参数,从而对模型进行优化,进一步精准的确定给出经训练模型,大大节省了人力,显著提高了对模型的训练效果。

图7为另一实施例提供的机器学习模型的优化方法流程示意图。本实施例涉及的是终端设备如何根据经训练模型、验证数据和机器学习模型,更新机器学习模型的具体过程。基于上述图2所示实施例的基础上,如图7所示,s104的一种可实现方式可以包括:

s601、将所述验证数据输入所述经训练模型,确定第一准确率;其中,所述第一准确率为所述经训练模型的准确率。

具体的,验证数据用于检验模型,终端设备在确定出标注数据后,并将标注数据随机分成两组数据,一组为训练数据,一组为验证数据,其中,通过训练数据对机器学习模型训练完成后,得到经训练模型,并将验证数据输入该经训练模型,来确定该模型的准确率。

可选的,对于给定的测试数据集,可以通过分类器正确分出的样本数与总样本数之比,确定经训练模型的准确率。

可选的,如图8所示,上述s601的一种可能的实现方式可以包括:

s701、将所述验证数据输入所述经训练模型,确定第一模型结果。

具体的,将验证数据输入经训练模型后,会确定出相应的第一模型结果。

例如,当该机器学习模型用于对动物的识别时,则验证数据为多个图像,当验证数据输入经训练模型后,终端设备会自动通过该模型的相关处理,从而归纳和识别特定的目标,即对多个图像进行归纳和学习,从而识别出该图像中的动物,即为该模型的第一模型结果。

s702、根据人工标注数据,确定第二模型结果。

例如,机器学习模型用于对动物进行识别时,则终端设备选择标注数据,并通过人工对该数据进行标注,其中,该标注数据的结果即为人工根据自我认知对该图像识别得到的结果,即为第二模型结果。

s703、将所述第二模型结果与所述第一模型结果进行对比,确定模型预测正确的数量和模型总共预测的数量。

例如,当机器学习模型用于对图像场景中的动物识别时,第一模型结果为机器学习模型经训练后形成的新的包含目标动物特征的图像,第二模型结果为人工标注的包含目标动物特征的原图像,该场景中的模型总共预测的数量为该目标动物的所有特征的关键点数量,模型预测正确的数量为关于目标人物的所有关键点中,第一模型结果和第二模型结果中特征相同的关键点数量。可选的,可以对图像中目标动物的关键点通过向量或矩阵形式进行一定的数字化处理获得第一模型结果和第二模型结果。

s704、根据模型预测正确的数量与所述模型总共预测的数量,确定第一准确率。

进一步的,在确定模型预测正确的数量与模型总共预测的数量后,将该模型预测正确的数量与模型总共预测的数量的比值,确定为第一准确率。该第一准确率作为上述经训练模型的准确率的评判标准,能够更好的评估该经训练模型的效果。

上述实施例提供的机器学习模型的优化方法,通过将验证数据输入经训练模型,得到第一模型结果,并与人工标注得到的第二模型结果进行对比,能够精准的确定出该经训练模型的准确率。

s602、根据所述机器学习模型,确定第二准确率;其中,所述第二准确率为所述机器学习模型的准确率;

具体的,通过确定该模型的准确率,对上述机器学习模型进行评估,与上述确定第一准确率的过程相同,将验证数据输入该机器学习模型,会得到相应的模型结果,并与人工标注的结果进行比对,从而确定第二准确率。其中,该第二准确率作为判定机器学习模型效果的条件。

s603、判断所述第一准确率是否大于第二准确率:若是,则更新所述机器学习模型为所述经训练模型。

具体的,在终端设备得到第一准确率和第二准确率后,将第一准确率与第二准确率进行比较,当第一准确率大于第二准确率时,则更新机器学习模型为经训练模型;当第一准确率小于或等于第二准确率时,则再次对该经训练模型进行训练,进而通过自动学习其中的数据分布变化,得到新的模型,从而不断的迭代优化,直至得到的新的模型的准确率比之前模型的准确率大时,则自动更新之前模型为新的模型。通过终端设备自动判断经训练模型的模型效果,实现了对机器学习过程的自动迭代,大大提高了模型更新迭代过程的效率。

本实施例提供的机器学习模型的优化方法,通过将验证数据输入经训练模型,得到第一准确率,并采用同样的验证数据输入机器学习模型,得到第二准确率,通过对比第一准确率大于第二准确率时,则更新机器学习模型为经训练模型。终端设备通过确定经训练模型和机器学习模型的准确率,将准确率作为判定模型效果的标准,从而提高了模型的验证效率;同时,当确定第一准确率优于第二准确率时,终端设备能够自动对机器学习模型进行优化,避免了人工对模型优化产生的影响。

图9为一实施例提供的机器学习模型的优化装置的结构示意图。如图9所示,该机器学习模型的优化装置可以包括获取模块11、第一确定模块12、第二确定模块13和更新模块14。

具体的,获取模块11,用于获取多个待处理数据。

第一确定模块12,用于将所述待处理数据输入机器学习模型,利用所述机器学习模型,筛选出符合预设条件的待处理数据作为标注数据;其中,所述标注数据包括训练数据和验证数据;

第二确定模块13,用于利用所述训练数据对所述机器学习模型进行训练,确定经训练的模型;

更新模块14,用于至少根据所述经训练模型和所述验证数据,更新所述机器学习模型。

本实施例提供的机器学习模型的优化装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。

图10为另一实施例提供的机器学习模型的优化装置的结构示意图。在上述图9所示实施例的基础上,可选的,如图10所示,上述第一确定模块12可以包括第一确定单元121、比较单元122和选择单元123。

第一确定单元121,用于将所述待处理数据输入所述机器学习模型,确定每个所述待处理数据的置信度。

比较单元122,用于将所述待处理数据的置信度与预设阈值比较。

选择单元123,用于选择置信度低于预设阈值的待处理数据作为标注数据。

在其中一个实施例中,上述第一确定单元121,具体用于将所述待处理数据输入所述机器学习模型,获取所述机器学习模型的预设函数;根据所述预设函数,确定所述待处理数据的置信度。

本实施例提供的机器学习模型的优化装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。

图11为另一实施例提供的机器学习模型的优化装置的结构示意图。在上述图10所示实施例的基础上,可选的,如图11所示,上述第二确定模块13可以包括第二确定单元131和第三确定单元132。

第二确定单元131,用于将所述训练数据输入所述机器学习模型,确定所述机器学习模型中对应的数据分布变化。

第三确定单元132,用于根据所述数据分布变化,调整训练数据中的参数,确定经训练模型。

在其中一个实施例中,上述第三确定单元132,具体用于根据所述数据分布的变化,以及与所述数据分布的变化对应的预设优化算法,调整所述训练数据中的参数;根据所述训练数据中的参数,确认经训练模型。

本实施例提供的机器学习模型的优化装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。

图12为另一实施例提供的机器学习模型的优化装置的结构示意图。在上述图10所示实施例的基础上,可选的,如图12所示,上述更新模块14可以包括第四确定单元141、第五确定单元142和更新单元143。

第四确定单元141,用于将所述验证数据输入所述经训练模型,确定第一准确率;其中,所述第一准确率为所述经训练模型的准确率;

第五确定单元142,用于将根据所述机器学习模型,确定第二准确率;其中,所述第二准确率为所述机器学习模型的准确率;

更新单元143,用于判断所述第一准确率是否大于第二准确率:若是,则更新所述机器学习模型为所述经训练模型。

在其中一个实施例中,上述第五确定单元142,具体用于将所述验证数据输入所述经训练模型,确定第一模型结果;根据人工标注数据,确定第二模型结果;将所述第二模型结果与所述第一模型结果进行对比,确定模型预测正确的数量与模型总共预测的数量;根据所述模型预测正确的数量与所述模型总共预测的数量,确定第一准确率。

关于机器学习模型的优化装置的具体限定可以参见上文中对于机器学习模型的优化方法的限定,在此不再赘述。上述机器学习模型的优化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中,也可以以软件形式存储于终端设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种终端设备,该终端设备可以是终端,其内部结构图可以如图1所示。该终端设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该终端设备的处理器用于提供计算和控制能力。该终端设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像处理方法。该终端设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该终端设备的输入装置可以是显示屏上覆盖的触摸层,也可以是终端设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端设备的限定,具体的终端设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种终端设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取多个待处理数据;

将所述待处理数据输入机器学习模型,利用所述机器学习模型,筛选出符合预设条件的待处理数据作为标注数据;其中,所述标注数据包括训练数据和验证数据;

利用所述训练数据对所述机器学习模型进行训练,确定经训练模型;

至少根据所述经训练模型和所述验证数据,更新所述机器学习模型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

将所述待处理数据输入所述机器学习模型,确定每个所述待处理数据的置信度;选择置信度低于预设阈值的待处理数据作为标注数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

将所述待处理数据输入所述机器学习模型,获取所述机器学习模型的预设函数;根据所述预设函数,确定所述待处理数据的置信度。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

将所述训练数据输入所述机器学习模型,确定所述机器学习模型中对应的数据分布变化;根据所述数据分布变化,调整训练数据中的参数,确定经训练模型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据所述数据分布的变化,以及与所述数据分布的变化对应的预设优化算法,调整所述训练数据中的参数;根据所述训练数据中的参数,确认经训练模型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

将所述验证数据输入所述经训练模型,确定第一准确率;根据所述机器学习模型,确定第二准确率;判断所述第一准确率是否大于第二准确率:若是,则更新所述机器学习模型为所述经训练模型。其中,所述第一准确率为所述经训练模型的准确率,所述第二准确率为所述机器学习模型的准确率;

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

将所述验证数据输入所述经训练模型,确定第一模型结果;根据人工标注数据,确定第二模型结果;将所述第二模型结果与所述第一模型结果进行对比,确定模型预测正确的数量与模型总共预测的数量;根据所述模型预测正确的数量与所述模型总共预测的数量,确定第一准确率。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取多个待处理数据;

将所述待处理数据输入机器学习模型,利用所述机器学习模型,筛选出符合预设条件的待处理数据作为标注数据;其中,所述标注数据包括训练数据和验证数据;

利用所述训练数据对所述机器学习模型进行训练,确定经训练模型;

至少根据所述经训练模型和所述验证数据,更新所述机器学习模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

将所述待处理数据输入所述机器学习模型,确定每个所述待处理数据的置信度;选择置信度低于预设阈值的待处理数据作为标注数据;其中,所述预设条件为所述置信度低于预设阈值。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

将所述待处理数据输入所述机器学习模型,获取所述机器学习模型的预设函数;根据所述预设函数,确定所述待处理数据的置信度。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

将所述训练数据输入所述机器学习模型,确定所述机器学习模型中对应的数据分布变化;根据所述数据分布变化,调整训练数据中的参数,确定经训练模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据所述数据分布的变化,以及与所述数据分布的变化对应的预设优化算法,调整所述训练数据中的参数;根据所述训练数据中的参数,确认经训练模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

将所述验证数据输入所述经训练模型,确定第一准确率;根据所述机器学习模型,确定第二准确率;判断所述第一准确率是否大于第二准确率:若是,则更新所述机器学习模型为所述经训练模型。其中,所述第一准确率为所述经训练模型的准确率;所述第二准确率为所述机器学习模型的准确率。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

将所述验证数据输入所述经训练模型,确定第一模型结果;根据人工标注数据,确定第二模型结果;将所述第二模型结果与所述第一模型结果进行对比,确定模型预测正确的数量与模型总共预测的数量;根据所述模型预测正确的数量与所述模型总共预测的数量,确定第一准确率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1