分类阈值确定方法、装置、电子设备及存储介质与流程

文档序号:21729496发布日期:2020-08-05 01:23阅读:245来源:国知局
分类阈值确定方法、装置、电子设备及存储介质与流程

本申请属于数据挖掘领域,具体涉及一种分类阈值确定方法、装置、电子设备及存储介质。



背景技术:

目前对于医学图像的分类问题,一般来说是类似良性/恶性的二分类问题,即将样本分成正样本和负样本。其中,对于分类的准确性的评价多数靠灵敏度、特异性等指标来衡量。由于医学图像通常较大,在通过分类模型对医学图像进行分类处理时,通常需要将医学图像切分成固定大小的切片,比如256x256大小,然后将切分后的切片输入分类模型中进行训练或者分类,这一定程度会在图中引入噪音。噪音的引入会导致最后得到的切片分类结果不准确。



技术实现要素:

有鉴于此,本申请的目的在于提供一种分类阈值确定方法、装置、电子设备及存储介质,以缓解由于噪声导致的分类不准确的问题。

本申请的实施例是这样实现的:

第一方面,本申请实施例提供一种分类阈值确定方法,所述方法包括:将标注有分类标签的样本输入预先训练好的二分类模型,得到由所述二分类模型输出的正样本及负样本,所述分类标签包括正样本标签及负样本标签;将所述正样本、所述负样本与自身对应的分类标签进行对比,筛选出分类结果与所述分类标签不一致的难样本;对所述样本进行特征提取,并根据提取出的特征训练基础网络至收敛状态,得到三分类模型;将所述样本输入所述三分类模型,得到每个样本的分类概率;从所述分类概率中确定出与所述难样本对应的分类概率分布区间的范围端点值;将所述范围端点值确定为所述三分类模型的分类阈值。

在确定出分类阈值后,可以将对样本的分类由二分类转化为三分类。在三分类中,正样本与负样本的准确性得到提升,此外,可以只将筛选出的难样本反馈给人工进行重点核查,针对现有技术中需要对所有的分类结果进行核查的方案,也可以减轻人工核查的工作量。

结合第一方面实施例,在一种可能的实施方式中,在所述将标注有分类标签的样本输入预先训练好的二分类模型之前,所述方法还包括:对原始样本进行处理,得到与原始样本对应的概率热图,并将所述概率热图确定为所述样本。

结合第一方面实施例,在一种可能的实施方式中,所述对所述样本进行特征提取,包括:将所述样本作为python的skimage.measure函数的输入,得到与所述样本对应的最大直径、细胞数目、概率热图噪声,其中,所述最大直径、所述细胞数目以及所述概率热图噪声为所述提取出的特征。

结合第一方面实施例,在一种可能的实施方式中,在所述将标注有分类标签的样本输入预先训练好的二分类模型之前,所述方法还包括:对标注有所述分类标签的所述样本进行预特征提取;根据所述预特征训练基础网络至收敛状态,得到所述二分类模型,所述提取出的特征与所述预特征不同。

结合第一方面实施例,在一种可能的实施方式中,所述三分类模型包括激活函数,所述将所述样本输入所述三分类模型,得到每个样本的分类概率,包括:针对每个样本,根据所述激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值;针对每个样本,根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述三分类模型中的反向传播过程中的梯度值,并将所述梯度值确定为所述分类概率。

结合第一方面实施例,在一种可能的实施方式中,所述根据所述激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值,包括:当所述激活函数为softmax函数时,基于公式计算得到所述样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x0、x1分别表示所述三分类模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值,e表示自然常数;当所述激活函数为sigmoid函数时,基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x1表示所述三分类模型的输出层预测该样本为正样本的预测值,e表示自然常数。

结合第一方面实施例,在一种可能的实施方式中,所述方法还包括:将新的样本输入设置有所述分类阈值的三分类模型;由所述设置有所述分类阈值的三分类模型确定出所述新的样本中的正样本、负样本及难样本。

第二方面,本申请实施例提供一种分类阈值确定装置,所述装置包括:所述装置包括:获取模块,用于将标注有分类标签的样本输入预先训练好的二分类模型,得到由所述二分类模型输出的正样本及负样本,所述分类标签包括正样本标签及负样本标签;筛选模块,用于将所述正样本、所述负样本与自身对应的分类标签进行对比,筛选出分类结果与所述分类标签不一致的难样本;训练模块,用于对所述样本进行特征提取,并根据提取出的特征训练基础网络至收敛状态,得到三分类模型;所述获取模块,还用于将所述样本输入所述三分类模型,得到每个样本的分类概率;确定模块,用于从所述分类概率中确定出与所述难样本对应的分类概率分布区间的范围端点值;所述确定模块,还用于将所述范围端点值确定为所述三分类模型的分类阈值。

结合第二方面实施例,在一种可能的实施方式中,所述装置还包括处理模块,用于对原始样本进行处理,得到与原始样本对应的概率热图,并将所述概率热图确定为所述样本。

结合第二方面实施例,在一种可能的实施方式中,所述训练模块,用于将所述样本作为python的skimage.measure函数的输入,得到与所述样本对应的最大直径、细胞数目、概率热图噪声,其中,所述最大直径、所述细胞数目以及所述概率热图噪声为所述提取出的特征。

结合第二方面实施例,在一种可能的实施方式中,所述训练模块,还用于对标注有所述分类标签的所述样本进行预特征提取;根据所述预特征训练基础网络至收敛状态,得到所述二分类模型,所述提取出的特征与所述预特征不同。

结合第二方面实施例,在一种可能的实施方式中,所述三分类模型包括激活函数,所述获取模块,用于针对每个样本,根据所述激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值;针对每个样本,根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述三分类模型中的反向传播过程中的梯度值,并将所述梯度值确定为所述分类概率。

结合第二方面实施例,在一种可能的实施方式中,所述获取模块,用于当所述激活函数为softmax函数时,基于公式计算得到所述样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x0、x1分别表示所述三分类模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值,e表示自然常数;当所述激活函数为sigmoid函数时,基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x1表示所述三分类模型的输出层预测该样本为正样本的预测值,e表示自然常数。

结合第二方面实施例,在一种可能的实施方式中,所述装置还包括输出模块,用于将新的样本输入设置有所述分类阈值的三分类模型;由所述设置有所述分类阈值的三分类模型确定出所述新的样本中的正样本、负样本及难样本。

第三方面,本申请实施例还提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器连接;所述存储器用于存储程序;所述处理器调用存储于所述存储器中的程序,以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

第四方面,本申请实施例还提供一种非易失性计算机可读取存储介质(以下简称存储介质),其上存储有计算机程序,所述计算机程序被计算机运行时执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。

图1示出了本申请实施例提供的一种分类阈值确定方法的流程图。

图2示出了本申请实施例提供的二分类模型进行二分类的示意图。

图3示出了本申请实施例提供的三分类模型进行三分类的示意图。

图4示出了本申请实施例提供的一种分类阈值确定装置的结构框图。

图5示出了本申请实施例提供的一种电子设备的结构示意图。

100-电子设备;110-处理器;120-存储器;400-分类阈值确定装置;410-获取模块;420-筛选模块;430-训练模块;440-确定模块。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再者,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。

此外,针对现有技术中出现的图像分类问题所存在的缺陷(最后得到的切片分类结果不准确)是申请人在经过实践并仔细研究后得出的结果,因此,上述缺陷的发现过程以及在下文中本申请实施例针对上述缺陷所提出的解决方案,都应该是申请人在本申请过程中对本申请做出的贡献。

为了解决上述缺陷,本申请实施例提供一种分类阈值确定方法、装置、电子设备及存储介质,以缓解由于噪声导致的分类不准确的问题。该技术可采用相应的软件、硬件以及软硬结合的方式实现。以下对本申请实施例进行详细介绍。

下面将针对本申请所提供的分类阈值确定方法进行介绍。

请参阅图1,本申请实施例提供一种应用于电子设备的分类阈值确定方法。下面将结合图1对其所包含的步骤进行说明。

步骤s110:将标注有分类标签的样本输入预先训练好的二分类模型,得到由所述二分类模型输出的正样本及负样本。

作为一种可选的实施方式,在本申请实施例中,每个样本都可以为概率热图,以减少原始病理切片图像太大造成的影响。

其中,每个样本用于表征一个病理切片,有些病理切片由有癌区域切割而来,有些病理切片由无癌区域切割而来。若某个病理切片与有癌区域相对应,则该病理切片为阳性小图,若某个病理切片与无癌区域相对应,则该病理切片为阴性小图。此外,工作人员预先对每个样本添加分类标签,其中,若某个样本为阳性小图,则该样本的分类标签为正样本,若某个样本为阴性小图,则该样本的分类标签为负样本。

在得到标注有分类标签的样本后,将样本输入预先训练好的二分类模型。

其中,可以以标注有分类标签的样本(可以与上述样本为同一样本,也可以与上述样本不为同一样本)为训练集,并对训练集中的每个样本进行预特征提取,然后根据提取到的预特征训练基础网络至收敛状态,从而得到二分类模型。

其中,预特征可以包括但不限于样本所包括的连通域的数量、连通域的面积占该样本的总面积的比例、最大连通域的面积、所有连通域中最大面积连通域的主轴、所有连通域的平均面积、所有连通域面积的方差、所有连通域面积的偏度、所有连通域面积的峰度、所有连通域中最大的周长、所有连通域的平均周长、所有连通域周长的方差、所有连通域中周长的偏度、所有连通域周长的峰度、所有连通域的最大的偏心率(偏心率是焦距(焦点之间的距离)与主轴长度之比)、所有连通域的平均偏心率、所有连通域的偏心率的方差、所有连通域的偏心率的偏度、所有连通域的偏心率的峰度、所有连通域中extent的最大值(extent为连通区域中的像素与外界矩形的像素的比率)、所有连通域的extent的平均值、所有连通域的extent的方差、所有连通域的extent的偏度、所有连通域的extent的偏度、所有连通域中solidity的最大值(solidity为区域中像素与凸包图像像素的比率)、所有连通域中solidity的平均值、所有连通域中solidity的方差、所有连通域中solidity的偏度、所有连通域中solidity的峰度。

其中,在提取上述每个样本的特征时,可以将每个样本作为python的skimage.measure函数的输入,得到与每个样本对应的特征。由于通过将样本输入skimage.measure函数进行特征提取为现有技术,此处不再赘述。

值得指出的是,请参看图2,在二分类模型中,以p=0.5为阈值对输入的每个样本进行分类预测。在将标注有分类标签的样本输入二分类模型后,二分类模型对每个样本的分类概率进行计算。当某个样本的分类概率小于0.5时,该样本被分类为正样本,当某个样本的分类概率大于或等于0.5时,该样本被分类为负样本。

其中,计算分类概率的过程如下。

针对每个样本,电子设备根据二分类模型的激活函数,分别计算该样本被预测为不同样本类别的预测概率,即计算该样本被预测为正样本的概率值以及计算该样本被预测为负样本的概率值;然后根据样本被预测为正样本的概率值、样本被预测为负样本的概率值确定该样本在收敛的二分类模型中的反向传播过程中的梯度值,并将梯度值确定为分类概率。

具体的,二分类模型的输出层对输入的样本的分类类别进行预测得到预测值,该预测值包括样本被预测为正样本的预测值x1以及样本被预测为负样本的预测值x0。后续,电子设备获取到样本的分类类别预测值后,可以将预测值输入激活函数进行归一化处理,得到样本分别被预测为正样本的概率值以及被预测为负样本的概率值,即得到预测概率值。

可选的,当激活函数为softmax函数时,电子设备可以基于公式计算得到样本被预测为正样本的概率值p1、被预测为负样本的概率值p0。其中,x0、x1分别表示二分类模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值,e表示自然常数,label为0表示样本被预测为负样本,label为1表示样本被预测为正样本。

可选的,当激活函数为sigmoid函数时,电子设备可以基于公式计算得到该样本被预测为正样本的概率值p1、被预测为负样本的概率值p0。其中,x1表示二分类模型的输出层预测该样本为正样本的预测值,e表示自然常数,label为0表示样本被预测为负样本,label为1表示样本被预测为正样本。

在得到样本的预测概率值后,电子设备基于样本的预测概率值与该样本的真实标签计算损失函数。可选的,在本申请实施例中,可以用交叉熵来表示损失函数。该损失函数用于度量样本的预测类别和样本的真实标签间的差异性信息。其中,计算交叉熵的过程为现有技术,此处不再赘述。

在得到交叉熵后,可以得到公式:

softmax函数:sigmoid函数:

其中,p0、p1分别为二分类模型的输出层通过激活函数之后的样本预测概率,lce表示计算交叉熵的损失函数,符号表示关于模型的预测变量x0、x1对交叉熵lce求梯度。损失函数关于预测变量x0、x1下降最快的方向,损失函数越小,表示神经网络模型对训练集中样本分类预测越准确。

由于神经网络模型中参数学习的更新方向为负梯度方向,因此,可以确定样本的梯度与样本被预测为正样本的概率值、样本被预测为负样本的概率值之间的关系:

其中,g(样本)为样本的梯度值,当label为0时,p为该样本被预测为负样本的概率值,当label为1时,p为该样本被预测为正样本的概率值。

通过上述过程,即可以确定总训练集中的每个样本的梯度值(分类概率),然后根据分类概率与p之间的大小关系,从样本中确定出正样本与负样本。

步骤s120:将所述正样本、所述负样本与自身对应的分类标签进行对比,筛选出分类结果与所述分类标签不一致的难样本。

在通过二分类模型进行分类后,将由二分类模型进行分类后的正样本与其自身对应的分类标签进行比对,并将由二分类模型进行分类后的负样本与其自身对应的分类标签进行比对。其中,若某个样本的比对结果不一致,说明二分类模型对该样本的分类错误,该样本为容易导致分类错误的难样本。

经过上述比对,筛选出所有存在分类错误的难样本。

步骤s130:对所述样本进行特征提取,并根据提取出的特征训练基础网络至收敛状态,得到三分类模型。

值得指出的是,此处对样本进行特征提取时所提取的特征与训练二分类模型时所提取的特征不同。

可选的,当样本为概率热图时,此处所提取的特征包括每个样本对应的最大直径(单个样本所包括的连通域的外接圆的直径)、每个样本对应的细胞数目、每个样本对应的概率热图噪声等对噪声较为敏感的特征。

可选的,上述细胞数目包括样本对应的概率热图的最大连通域面积、样本对应的概率热图上的每个连通区域的平均面积、样本对应的概率热图是最大连通域所包括的细胞数目。

可选的,上述概率热图噪声包括样本对应的概率热图的连通区域数量、目标九宫格的数量,其中,目标九宫格包括9个格,其中,中间一个格为阳性,周围8个格为阴性。

其中,在提取上述每个样本的特征时,可以将每个样本作为python的skimage.measure函数的输入,得到与每个样本对应的特征。由于通过将样本输入skimage.measure函数进行特征提取为现有技术,此处不再赘述。

在得到此处的特征后,按照上述训练二分类模型的方式,基于此处提取到的特征训练新的基础网络至收敛状态,从而得到三分类模型。

值得指出的是,此处的三分类模型的分类阈值未被确定。

步骤s140:将所述样本输入所述三分类模型,得到每个样本的分类概率。

由于此步骤与将样本输入二分类模型,得到每个样本的分类概率的步骤类似,因此,此处不再赘述。

步骤s150:从所述分类概率中确定出与所述难样本对应的分类概率分布区间的范围端点值。

在得到每个样本在三分类模型下的分类概率后,电子设备在样本中搜索上述步骤所确定出的难样本,从而确定出上述难样本在三分类模型下的分类概率的分布区间,从而确定出分布区间所处的分类概率的端点值。

步骤s160:将所述范围端点值确定为所述三分类模型的分类阈值。

假设上述难样本所处的分布区间对应的分类概率的端点值为p1与p2,那么,电子设备将p1与p2确定为三分类模型的分类阈值。假设p1<p2,相应的,请参看图3,当后续将某个样本输入到三分类模型后,三分类模型计算出该样本的分类概率小于p1时,确定该样本为正样本,当三分类模型计算出该样本的分类概率大于p2时,确定该样本为负样本,当三分类模型计算出该样本的分类概率在p1与p2之间时,确定该样本为难样本。

本申请实施例所提供的一种分类阈值确定方法,在确定出分类阈值后,可以将对样本的分类由二分类转化为三分类。在三分类中,正样本与负样本的准确性得到提升,此外,可以只将筛选出的难样本反馈给人工进行重点核查,针对现有技术中需要对所有的分类结果进行核查的方案,也可以减轻人工核查的工作量。

如图4所示,本申请实施例还提供一种分类阈值确定装置400,分类阈值确定装置400可以包括:获取模块410、筛选模块420、训练模块430以及确定模块440。

获取模块410,用于将标注有分类标签的样本输入预先训练好的二分类模型,得到由所述二分类模型输出的正样本及负样本,所述分类标签包括正样本标签及负样本标签;

筛选模块420,用于将所述正样本、所述负样本与自身对应的分类标签进行对比,筛选出分类结果与所述分类标签不一致的难样本;

训练模块430,用于对所述样本进行特征提取,并根据提取出的特征训练基础网络至收敛状态,得到三分类模型;

所述获取模块410,还用于将所述样本输入所述三分类模型,得到每个样本的分类概率;

确定模块440,用于从所述分类概率中确定出与所述难样本对应的分类概率分布区间的范围端点值;

所述确定模块440,还用于将所述范围端点值确定为所述三分类模型的分类阈值。

可选的,所述装置还包括处理模块,用于对原始样本进行处理,得到与原始样本对应的概率热图,并将所述概率热图确定为所述样本。

可选的,所述训练模块430,用于将所述样本作为python的skimage.measure函数的输入,得到与所述样本对应的最大直径、细胞数目、概率热图噪声,其中,所述最大直径、所述细胞数目以及所述概率热图噪声为所述提取出的特征。

可选的,所述训练模块430,还用于对标注有所述分类标签的所述样本进行预特征提取;根据所述预特征训练基础网络至收敛状态,得到所述二分类模型,所述提取出的特征与所述预特征不同。

可选的,所述三分类模型包括激活函数,所述获取模块410,用于针对每个样本,根据所述激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值;针对每个样本,根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述三分类模型中的反向传播过程中的梯度值,并将所述梯度值确定为所述分类概率。

可选的,所述获取模块410,用于当所述激活函数为softmax函数时,基于公式计算得到所述样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x0、x1分别表示所述三分类模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值,e表示自然常数;当所述激活函数为sigmoid函数时,基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x1表示所述三分类模型的输出层预测该样本为正样本的预测值,e表示自然常数。

可选的,所述装置还包括输出模块,用于将新的样本输入设置有所述分类阈值的三分类模型;由所述设置有所述分类阈值的三分类模型确定出所述新的样本中的正样本、负样本及难样本。

本申请实施例所提供的分类阈值确定装置400,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。

此外,本申请实施例还提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被计算机运行时,执行如上述的分类阈值确定方法所包含的步骤。

此外,请参看图5,本发明实施例还提供一种电子设备100,可以包括:处理器110、存储器120。

可选的,电子设备100,可以是,但不限于个人电脑(personalcomputer,pc)、智能手机、平板电脑、移动上网设备(mobileinternetdevice,mid)等设备。

应当注意,图5所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,电子设备100也可以具有其他组件和结构。

处理器110、存储器120以及其他可能出现于电子设备100的组件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,处理器110、存储器120以及其他可能出现的组件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器120用于存储程序,例如存储有上文出现的分类阈值确定方法对应的程序或者上文出现的分类阈值确定装置。可选的,当存储器120内存储有分类阈值确定装置时,分类阈值确定装置包括至少一个可以以软件或固件(firmware)的形式存储于存储器120中的软件功能模块。

可选的,分类阈值确定装置所包括软件功能模块也可以固化在电子设备100的操作系统(operatingsystem,os)中。

处理器110用于执行存储器120中存储的可执行模块,例如分类阈值确定装置包括的软件功能模块或计算机程序。当处理器110在接收到执行指令后,可以执行计算机程序,例如执行:将标注有分类标签的样本输入预先训练好的二分类模型,得到由所述二分类模型输出的正样本及负样本,所述分类标签包括正样本标签及负样本标签;将所述正样本、所述负样本与自身对应的分类标签进行对比,筛选出分类结果与所述分类标签不一致的难样本;对所述样本进行特征提取,并根据提取出的特征训练基础网络至收敛状态,得到三分类模型;将所述样本输入所述三分类模型,得到每个样本的分类概率;从所述分类概率中确定出与所述难样本对应的分类概率分布区间的范围端点值;将所述范围端点值确定为所述三分类模型的分类阈值。

当然,本申请任一实施例所揭示的方法都可以应用于处理器110中,或者由处理器110实现。

综上所述,本发明实施例提出的分类阈值确定方法、装置、电子设备及存储介质,所述方法包括:将标注有分类标签的样本输入预先训练好的二分类模型,得到由所述二分类模型输出的正样本及负样本,所述分类标签包括正样本标签及负样本标签;将所述正样本、所述负样本与自身对应的分类标签进行对比,筛选出分类结果与所述分类标签不一致的难样本;对所述样本进行特征提取,并根据提取出的特征训练基础网络至收敛状态,得到三分类模型;将所述样本输入所述三分类模型,得到每个样本的分类概率;从所述分类概率中确定出与所述难样本对应的分类概率分布区间的范围端点值;将所述范围端点值确定为所述三分类模型的分类阈值。在确定出分类阈值后,可以将对样本的分类由二分类转化为三分类。在三分类中,正样本与负样本的准确性得到提升,此外,可以只将筛选出的难样本反馈给人工进行重点核查,针对现有技术中需要对所有的分类结果进行核查的方案,也可以减轻人工核查的工作量。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,笔记本电脑,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1