图像分类、数据分类、模型训练方法、设备及存储介质与流程

文档序号:31854940发布日期:2022-10-19 02:28阅读:33来源:国知局
图像分类、数据分类、模型训练方法、设备及存储介质与流程

1.本技术涉及机器学习技术领域,尤其涉及一种图像分类、数据分类、模型训练方法、设备及存储介质。


背景技术:

2.分类任务是机器学习领域中的任务之一,分类任务的目标是:基于给定的待分类数据,通过分类模型从预先设定的标签中筛选出与待分类数据匹配的标签。
3.其中,分类模型可通过训练数据学习不同标签对应的数据的特征分布情况。在分类模型的训练过程中,可通过数据增强的方法在训练样本中加入部分负样本数据,从而增加训练数据的覆盖面,以增强模型的泛化能力。
4.但是,这种训练方式未考虑负样本中的有效信息,从而不利于进一步提升模型的分类性能。因此,有待提出一种新的解决方案。


技术实现要素:

5.本技术的多个方面提供一种图像分类、数据分类、模型训练方法、设备及存储介质,用以提升分类模型的分类性能。
6.本技术实施例提供一种图像分类方法,包括:获取待分类的图像;利用所述分类模型,从预设标签集中确定所述图像对应的预测标签;所述预设标签集,包含正分类标签以及负分类标签;根据所述预测标签,确定所述图像所属的类别;其中,所述分类模型根据分类误差训练得到,所述分类误差根据正样本图像的正分类标签和预测标签之间的误差,以及负样本图像的负分类标签和预测标签之间的误差确定。
7.本技术实施例提供一种数据分类方法,包括:获取待分类的数据;利用所述分类模型,从预设标签集中确定所述数据对应的预测标签;所述预设标签集,包含正分类标签以及负分类标签;根据所述预测标签,确定所述数据所属的类别;其中,所述分类模型根据分类误差训练得到,所述分类误差根据正样本数据的正分类标签和预测标签之间的误差,以及负样本数据的负分类标签和预测标签之间的误差确定。
8.本技术实施例还提供一种分类模型的训练方法,包括:获取样本数据集,所述样本数据集包括:正样本数据集和负样本数据集;将所述正样本数据集以及所述负样本数据集输入机器学习模型,得到所述正样本数据集中的正样本数据各自的预测标签以及所述负样本数据集中的负样本数据各自的预测标签;根据所述正样本数据集中的正样本数据的正分类标签和预测标签之间的误差,以及所述负样本数据集中的负样本数据的负分类标签和预测标签之间的误差,确定所述机器学习模型的分类误差;根据所述分类误差,对所述机器学习模型中的参数进行调整,直至分类误差满足收敛条件,得到分类模型。
9.本技术实施例还提供一种电子设备,包括:存储器和处理器;所述存储器用于存储一条或多条计算机指令;所述处理器用于执行所述一条或多条计算机指令以用于:执行本技术实施例提供的方法中的步骤。
10.本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现本技术实施例提供的方法中的步骤。
11.本技术实施例提供的数据分类方法中,用于对数据执行分类操作的分类模型根据正样本数据的正分类标签以负样本数据的负分类标签训练得到。从而模型可在训练阶段学习正分类标签的特征分布以及负分类标签的特征分布,并基于正分类标签的特征分布以及负分类标签的特征分布之间的关系,提升对正分类标签的特征分布的辨识和区分能力。在预测阶段,模型可筛选出与负分类标签匹配的数据,以基于排除法原理降低这部分数据被识别为正分类标签所属类别的概率,并可筛选出与负分类标签不匹配的数据,以提升这部分数据被识别为正分类标签所属类别的概率,从而可极大提升分类模型的分类准确性。
附图说明
12.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
13.图1为本技术一示例性实施例提供的数据分类方法的流程示意图;
14.图2为本技术一示例性实施例提供的分类模型训练过程的示意图;
15.图3为本技术一示例性实施例提供的负分类标签的查询表示意图;
16.图4为本技术一示例性实施例提供的图像分类方法的流程示意图;
17.图5为本技术一示例性实施例提供的电子设备的结构示意图。
具体实施方式
18.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
19.分类任务是机器学习领域中的任务之一,分类任务的目标是:基于给定的待分类数据,通过分类模型从预先设定的标签中筛选出与待分类数据匹配的标签。其中,分类模型可通过训练数据学习不同标签对应的数据的特征分布情况。在分类模型的训练过程中,可通过数据增强的方法在训练样本中加入部分负样本数据,从而增加训练数据的覆盖面,以增强模型的泛化能力。但是,这种训练方式未考虑负样本中的有效信息,从而不利于进一步提升模型的分类性能。
20.针对上述技术问题,在本技术一些实施例中,提供了一种解决方案,以下结合附图,详细说明本技术各实施例提供的技术方案。
21.图1为本技术一示例性实施例提供的数据分类方法的流程示意图,如图1所示,该方法包括:
22.步骤101、获取待分类的数据。
23.步骤102、利用分类模型,从预设标签集中确定该数据对应的预测标签;该预设标签集,包含正分类标签以及负分类标签;其中,该分类模型根据分类误差训练得到,该分类误差根据正样本数据的正分类标签和预测标签之间的误差,以及负样本数据的负分类标签和预测标签之间的误差确定。
24.步骤103、根据该预测标签,确定该数据的类别。
25.在本实施例中,分类模型可应用在多种分类场景,例如图像分类场景、自然语言处理场景、行为数据分析场景等等。在不同场景中,待分类的数据的实现形态不同。例如,在图像分类场景中,待分类的数据可以为图像;在自然语言处理场景中,待分类的数据可以是文本或者音频;在行为数据分析场景中,待分类的数据可以是用户行为数据,例如用户的点击量数据、用户的网页浏览时长数据等等,不再一一列举。模型应用在不同分类场景时,可采用该分类场景对应的样本图像训练分类模型,具体训练过程将在后续实施例中介绍。
26.其中,预设标签集,可包括多个分类标签,该多个分类标签包括预设的正分类标签以及负分类标签。其中,正分类标签指的是预设的待分类类别的标签,正分类标签对应的样本数据可描述为正样本数据。例如,对商品进行分类时,正分类标签可包括预设的商品类别标签。例如,正分类标签可以是手机、平板电脑、游戏机等商品类别标签。负样本标签不是待分类类别的标签,可根据负样本数据进行定义。负样本数据是在分类模型训练过程中为提升样本覆盖广度而增加的样本数据,可为负样本数据定义所属类别的标签,作为负分类标签。例如,对电子产品进行分类时,若负样本包括动物图像,则可将负分类标签设置为动物种类标签。
27.在本实施例中,可采用样本数据对机器学习模型进行训练,得到分类模型。其中,机器学习模型可包括但不限于:卷积神经网络(convolutional neural networks,cnn)、深度神经网络(deep neural network,dnn)、图卷积神经网络(graph convolutional networks,gcn)、循环神经网络(recurrent neural network,rnn)以及长短期记忆神经网络(long short-term memory,lstm)一种或多种,或者可由上述一种或多种神经网络变形得到,本实施例不做限制。
28.其中,正样本数据(positive samples)是指包含分类对象的样本数据,负样本数据(negative samples)是指不包含分类对象或者在分类对象上叠加干扰信息以使得分类对象难以识别的样本数据。例如,在人脸识别场景中,正样本数据可以是包含人脸区域的图像,负样本数据可以是包括环境元素、人体的肢体、衣服等信息的图像。在训练机器学习模型的过程中,添加部分负样本数据,可使得机器学习模型学习分辨不同的特征,降低机器学习模型的过拟合现象,从而提升模型的泛化能力。
29.基于正样本数据的正分类标签和预测标签之间的误差,机器学习模型可学习正样本数据的特征分布,并学习对符合正样本特征分布的数据进行分辨的能力。基于负样本数据的负分类标签和预测标签之间的误差,机器学习模型可学习负样本数据的特征分布,并学习对符合负样本特征分布的数据进行分辨的能力。
30.对于机器学习模型而言,当具有对符合负样本特征分布的数据进行分辨的能力后,在预测阶段,机器学习模型可主动筛选出与负分类标签匹配的数据,以基于排除法原理降低这部分数据被识别为正标签所属类别的概率;同时,机器学习模型可主动筛选出与负标签不匹配的数据,以基于排除法原理提升这部分数据被识别为正标签所属类别的概率。基于这种方式,可通过学习负样本的特征强化模型的分类性能,极大提升分类模型的分类准确性。
31.在一些示例性的实施例中,该分类模型可采用如下的实施方式训练得到:
32.获取用于训练的样本数据集,该样本数据集包括:正样本数据集以及负样本数据
集。其中,正样本数据集可包含m个正样本数据,负样本数据集可包含n个负样本数据,m、n为正整数。
33.可选地,可预先确定待分类的类别以及每个类别对应的正分类标签。确定待分类的类别后,可采集每个类别对应的样本数据作为正样本数据,并可为采集到的样本数据添加所属类别对应的正分类标签,该正分类标签用于作为有监督训练过程中的监督信号。
34.在一些可选的实施例中,负样本数据集可以是根据正样本数据生成的。获取正样本数据集后,可对正样本数据集中不同类别的正样本数据进行融合,得到负样本数据集中的负样本数据。负样本数据集中,任一负样本数据由正样本数据集中的任意多个不同类别的正样本数据融合得到。其中,融合是指将多个数据融合成为一个数据。在一些实施例中,可通过数据融合函数,对多个正样本数据进行计算,得到一个负样本数据。可选地,用于执行融合操作的函数,可以是线性计算函数或者非线性计算函数,本实施例不做限制。
35.以任一负样本数据为例,负样本数据的生成过程可如以下公式1-1所示:
[0036][0037]
其中,表示新生成的负样本数据,xa,xb为正样本数据,q
x
为用于融合样本数据的函数。当该函数为线性计算函数时,负样本数据的生成过程可如以下公式1-2所示:
[0038][0039]
其中,k∈(0,1)。
[0040]
如图2所示,可将正样本数据x1以及正样本数据x2融合为负样本数据将正样本数据x2以及正样本数据x3融合为负样本数据可选地,在对正样本数据集中的正样本数据进行融合,得到负样本数据集的过程中,可获取用于融合得到该负样本数据的多个正样本数据各自的分类标签,并根据该多个正样本数据各自的分类标签,生成该负样本数据的负分类标签。如图2所示,可将正分类标签y1以及正分类标签y2融合为负分类标签正分类标签y2以及正分类标签y3融合为负分类标签
[0041]
在一些可选实施例中,根据多个正样本数据各自的分类标签,生成负样本数据的负分类标签时,可对多个正样本数据各自的分类标签进行拼接,得到负样本对应的分类标签。例如,正样本图像p1的分类标签为l1,正样本图像p2的分类标签为l2,根据正样本图像p1以及正样本图像p2融合得到负样本图像n1的过程中,将分类标签为l1以及分类标签l2进行拼接,得到新的分类标签l1-l2,负样本图像n1的分类标签。
[0042]
在另一些可选实施例中,根据多个正样本数据各自的分类标签,生成负样本数据的负分类标签时,可对多个正样本数据各自的分类标签进行计算,得到负样本对应的分类标签。其中,该计算方式可以是线性计算也可以是非线性计算,本实施例不做限制。
[0043]
以任一负样本数据为例,负样本数据的负分类标签的生成过程可如以下公式2所示:
[0044][0045]
其中,表示负样本数据的的分类标签,ya为正样本数据xa的分类标签,yb为正样本数据xb的分类标签,qy为分类标签的生成函数。
[0046]
在又一些可选实施例中,可预先生成负样本数据的备用分类标签,该备用分类标签可采用二维表进行存储。二维表中,行、列对应的字段可分别表示正分类标签以及负分类
标签,字段的值为该字段对应的新的分类标签。
[0047]
根据多个正样本数据各自的分类标签,生成负样本数据的负分类标签时,可根据多个正样本数据各自的分类标签的标识,查询二维表,得到负样本数据对应的负分类标签。在这种实施方式中,公式2中的qy可以是映射(mapping)函数。如图3所示,确定ya,yb之后,基于qy查询二维表,即可确定新的分类标签例如,ya=a1,yb=b2时,查询二维表,即可确定新的分类标签
[0048]
基于上述各实施方式确定正样本数据的正分类标签以及负样本数据的负分类标签后,在将正分类标签作为监督信号gt(ground truth)对机器学习模型进行训练。
[0049]
如图2所示,可将正样本数据集以及负样本数据集输入机器学习模型。在机器学习模型中,可通过编码网络(encoder network,图2中简单示意为e)提取每一样本数据的特征向量,并采用分类器(classifier,图2中简单示意为c)根据特征向量对样本数据进行分类,得到每一样本数据的预测标签。
[0050]
其中,预测标签是机器学习模型基于当前的模型参数计算得到的,当机器学习模型较好地学习到正样本数据的特征分布以及负样本数据的特征分布后,机器学习模型针对任一样本数据输出的预测标签与该样本数据的分类标签具有较高的相似性。反之,可通过优化机器学习的模型参数,提升机器学习模型的分类能力。
[0051]
在获取到正样本数据集中的正样本数据各自的预测标签以及负样本数据集中的负样本数据各自的预测标签之后,可根据正样本数据的正分类标签和预测标签之间的误差,以及负样本数据的负分类标签和预测标签之间的误差,确定机器学习模型的分类误差。其中,该分类误差为机器学习模型本轮的训练损失,用于对机器学习模型进行迭代优化。在迭代优化的过程中,可根据该分类误差,对机器学习模型中的参数进行调整,直至分类误差满足收敛条件,得到分类模型。
[0052]
可选地,机器学习模型的分类误差,可通过损失函数计算得到,该损失函数可包括但不限于交叉熵损失函数(cross entropy loss)、二项式损失函数、kl散度损失函数(kullback-leibler divergence loss)、对比损失函数(constrastive loss)、负对数似然损失函数(nagative maximum likehood loss)中的至少一种。
[0053]
在一些可选的实施例中,可根据正样本数据的正分类标签和预测标签之间的误差,以及负样本数据的负分类标签和预测标签之间的误差,构造负对数似然损失函数(nagative maximum likehood loss),作为机器学习模型的分类误差。该负对数似然损失函数可较好地表征概率分布,在多分类任务的分类训练过程中,有利于使得机器学习模型利用已知的样本特征分布,找到最有可能致使这种分布的参数值。
[0054]
可选地,在本实施例中,构造负对数似然损失函数时,针对正样本数据集以及负样本数据集中的任一样本数据,可获取该样本数据的特征向量与该样本数据的分类标签的特征向量的相似度,作为该样本数据的第一相似度;以及,可获取该样本数据的特征向量与该样本数据的预测标签的特征向量的相似度,作为该样本数据的第二相似度。其中,采用“第一、第二”描述相似度,仅用于方便对相同描述对象进行分区,并不作其他限制。
[0055]
为便于描述,将正样本数据集以及负样本数据集构成的样本数据集标记为样本数据集l。以样本数据集l中的第i个样本数据为例,第一相似度的计算公式可如以下公式3-1所示:
[0056][0057]
其中,表示第i个样本数据的第一相似度,wg表示第i个样本数据的分类标签的特征向量,w
gt
为第i个样本数据的分类标签的特征向量的转置矩阵。其中,正样本数据集包含c个分类标签,负样本数据集包含z-c个分类标签,i∈[1,m+n]。
[0058]
第i个样本数据的第二相似度的计算公式可如以下公式3-2所示:
[0059][0060]
其中,表示第i个样本数据的第二相似度,w
l
表示第i个样本数据的预测标签的特征向量,w
lt
为第i个样本数据的预测标签的特征向量的转置矩阵。
[0061]
继续以该任一样本数据为例,基于上述实施方式计算得到每个样本数据的第二相似度后,确定样本数据集中的多个样本数据各自的第二相似度的相似度累计值,并获取该样本数据的第一相似度与样本数据集的相似度累计值的比值,作为该样本数据的相似度误差。获取该样本数据的相似度误差的负对数,可作为该样本数据的负对数似然损失。对样本数据集中的多个样本数据各自的负对数似然损失进行累加,可得到机器学习模型的负对数似然损失函数。
[0062]
其中,第一相似度和第二相似度,可以采用前述公式3-1以及公式3-2进行计算,也可采用函数对上述公式3-1以及公式3-2的计算结果进行进一步计算,以捕捉细微误差。例如,可采用指数函数对第一相似度以及第二相似度进行优化,以提升机器学习模型对误差的敏感度。例如,第一相似度可以为:第二相似度可以为:
[0063]
上述实施方式构造的负对数损失函数,可参考以下公式4记载:
[0064][0065]
基于上述损失函数,机器学习模型在迭代训练的过程中,可学习正样本的特征分布以及负样本的特征分布,从而学习对正样本的分辨能力以及对负样本的分辨能力,从而提升分类性能。
[0066]
本技术实施例提供的数据分类方法,可以应用在多种分类场景中,例如图像分类场景、自然语言处理场景、行为数据分析场景等等。在不同的场景中,可定义不同的分类标签。例如,在行为数据分析场景中,可定义情感分类标签,来判断用户对产品的偏好度。在自然语言处理场景中,可定义语种分类标签,来识别语音对应的语种。例如,在图像分类场景中,可定义不同的产品分类标签,来识别不同类目的产品。
[0067]
以下将结合典型的图像分类场景进行示例性说明。
[0068]
图4为本技术一示例性实施例提供的图像分类方法的流程示意图,如图4所示,该图像分类方法包括:
[0069]
步骤401、获取待分类的图像。
[0070]
步骤402、利用分类模型,从预设标签集中确定该图像对应的预测标签;该预设标签集,包含正分类标签以及负分类标签;其中,分类模型根据分类误差训练得到,该分类误差根据正样本图像的正分类标签和预测标签之间的误差,以及负样本图像的负分类标签和
预测标签之间的误差确定。
[0071]
步骤403、根据该预测标签,确定该图像所属的类别。
[0072]
其中,该图像可以是商品图像、人脸图像、道路图像、动物图像等等。以商品图像为例,在一些场景中,向用户提供商品搜索服务时,可获取用户提供的待识别的商品图像,并将该商品图像输入分类模型。分类模型可基于预先学习到的参数,计算该商品图像对应的商品类别,并输出预测出的商品类别标签。基于该商品类别标签,可确定与该商品图像匹配的商品,并向用户返回准确的商品搜索结果。
[0073]
在训练分类模型时,可获取样本图像集,该样本图像集包括:正样本图像集和负样本图像集。可选地,负样本图像集由正样本图像集生成。可对该正样本图像集中不同类别的正样本图像进行融合,得到该负样本图像集中的负样本图像;该负样本图像集中,任一负样本图像由该正样本图像集中的任意多个正样本图像融合得到。
[0074]
例如,在商品分类场景中,可获取多种不同类别的商品图像作为正样本图像。将多张商品图像进行融合,可得到商品分类场景中的负样本图像。在人脸识别的场景中,可获取不同用户的人脸图像,作为正样本图像。将多个用户的人脸图像进行融合,可得到人脸识别场景中的负样本图像。在动物识别场景中,可获取不同动物的图像作为正样本图像。将多张动物图像进行融合,可得到动物分类场景中的负样本图像。其中,对多张图像进行融合的可选实施方式可参考前述实施例的记载,此处不赘述。
[0075]
可选地,在对正样本图像集中不同类别的正样本图像进行融合,得到负样本图像集的过程中,可获取用于融合得到该负样本图像的多个正样本图像各自的分类标签,并根据该多个正样本图像各自的分类标签,生成该负样本图像的负分类标签。
[0076]
例如,在动物分类场景中,多个动物类别对应的标签可以为:“猫”、“狗”、“狐狸”。在生成负样本图像时,可将一张标签为“猫”的动物图像与一张标签为“狗”的动物图像进行融合,得到一张负样本图像。该负样本图像的标签可以根据标签“猫”以及标签“狗”生成。
[0077]
接下来,可将该正样本图像集以及该负样本图像集输入机器学习模型,得到该正样本图像集中的正样本图像各自的预测标签以及该负样本图像集中的负样本图像各自的预测标签。根据该正样本图像集中的正样本图像的正分类标签和预测标签之间的误差,以及该负样本图像集中的负样本图像的负分类标签和预测标签之间的误差,确定该机器学习模型的分类误差。根据该分类误差,对该机器学习模型中的参数进行调整,直至分类误差满足收敛条件,得到该分类模型。
[0078]
可选地,该分类误差可基于负对数似然损失函数构造得到。在构造负对数似然损失函数的过程中,针对该样本图像集中的任一样本图像,获取该样本图像的特征向量与该样本图像的分类标签的特征向量的相似度,作为该样本图像的第一相似度;以及,获取该样本图像的特征向量与该样本图像的预测标签的特征向量的相似度,作为该样本图像的第二相似度。确定该样本图像集包含的多个样本图像各自的第二相似度的相似度累计值,并获取该样本图像的第一相似度与该相似度累计值的比值,作为该样本图像的相似度误差获取该样本图像的相似度误差的负对数,作为该样本图像的负对数似然损失,并对该多个样本图像各自的负对数似然损失进行累加,得到该负对数似然损失函数。具体可参考前述实施例的记载,此处不再赘述。
[0079]
在本实施例提供的图像分类方法中,用于对图像执行分类操作的分类模型根据正
样本图像的正分类标签以负样本图像的负分类标签训练得到。从而模型可在训练阶段学习正分类标签的特征分布以及负分类标签的特征分布,并基于正分类标签的特征分布以及负分类标签的特征分布之间的关系,提升对正分类标签的特征分布的辨识和区分能力。在预测阶段,模型可筛选出与负分类标签匹配的图像,以基于排除法原理降低这部分图像被识别为正分类标签所属类别的概率,并可筛选出与负分类标签不匹配的图像,以提升这部分图像被识别为正分类标签所属类别的概率,从而可极大提升分类模型的分类准确性。
[0080]
在一些场景中,可将前述各实施例提供的数据分类方法、图像分类方法或者分类模型训练方法封装为可供第三方使用的软件工具,例如saas(software-as-a-service,软件即服务)工具。其中,该saas工具可实现为插件或者应用程序。该插件或者应用程序可以被部署在服务器上,并可向客户端等第三方用户开放指定的接口。为便于描述,在本实施例中,将该指定的接口描述为第一接口。进而,客户端等第三方用户通过调用该第一接口,便捷地访问并使用服务端设备提供的上述方法。其中,该服务器可以是常规服务器或者云服务器,本实施例不做限制。
[0081]
以数据分类方法对应的saas工具为例,服务器可响应客户端对第一接口的调用请求,获取接口参数包含的待分类的数据。服务器可将该数据输入训练完成的分类模型,得到该数据对应的预测标签,并将该预测标签返回至客户端。
[0082]
以图像分类方法对应的saas工具为例,服务器可响应客户端对第一接口的调用请求,获取接口参数包含的待分类的图像。服务器可将该图像输入训练完成的分类模型,得到该图像对应的预测标签,并将该预测标签返回至客户端。
[0083]
以分类模型训练方法对应的saas工具为例,服务器可响应客户端对第一接口的调用请求,获取接口参数包含的正样本数据以及正样本数的分类标签。服务器可根据正样本数据以及正样本数的分类标签,生成负样本数据以及负样本数据对应的分类标签。将正样本数据以及负样本数据输入机器学习模型后,可得到正样本数据以及负样本数据各自的预测标签。根据正样本数据以及负样本数据各自的预测标签,可构造损失函数,并根据该损失函数对机器学习模型进行迭代训练。当损失函数收敛后,服务器可将训练得到的结果模型返回至客户端。
[0084]
在这种实施方式中,服务器可基于其上运行的saas工具,向客户端提供数据分类服务、图像分类服务或者分类模型训练服务,降低了客户端的计算压力以及计算成本。
[0085]
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤101至步骤103的执行主体可以为设备a;又比如,步骤101和102的执行主体可以为设备a,步骤103的执行主体可以为设备b;等等。
[0086]
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
[0087]
图5是本技术一示例性实施例提供的电子设备的结构示意图,如图5所示,该电子设备包括:存储器501以及处理器502。
[0088]
存储器501,用于存储计算机程序,并可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,消息,图片,视频等。
[0089]
其中,存储器501可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0090]
在一些实施例中,图5所示的服务器可用于执行数据分类方法。处理器502,与存储器501耦合,用于执行存储器501中的计算机程序,以用于:获取待分类的数据;利用分类模型,从预设标签集中确定该数据对应的预测标签;该预设标签集,包含正分类标签以及负分类标签;根据该预测标签,确定该数据所属的类别;其中,该分类模型根据分类误差训练得到,该分类误差根据正样本数据的正分类标签和预测标签之间的误差,以及负样本数据的负分类标签和预测标签之间的误差确定。
[0091]
可选地,处理器502还用于:获取样本数据集,该样本数据集包括:正样本数据集和负样本数据集;将该正样本数据集以及该负样本数据集输入机器学习模型,得到该正样本数据集中的正样本数据各自的预测标签以及该负样本数据集中的负样本数据各自的预测标签;根据该正样本数据集中的正样本数据的正分类标签和预测标签之间的误差,以及该负样本数据集中的负样本数据的负分类标签和预测标签之间的误差,确定该机器学习模型的分类误差;根据该分类误差,对该机器学习模型中的参数进行调整,直至分类误差满足收敛条件,得到该分类模型。
[0092]
可选地,处理器502在获取正样本数据集以及负样本数据集时,具体用于:获取该正样本数据集;对该正样本数据集中不同类别的正样本数据进行融合,得到该负样本数据集中的负样本数据;该负样本数据集中,任一负样本数据由该正样本数据集中的任意多个不同类别的正样本数据融合得到。
[0093]
可选地,处理器502还用于:在对该正样本数据集中不同类别的正样本数据进行融合,得到负样本数据集的过程中,获取用于融合得到该负样本数据的多个正样本数据各自的分类标签;根据该多个正样本数据各自的分类标签,生成该负样本数据的负分类标签。
[0094]
可选地,处理器502在根据该正样本数据集中的正样本数据的正分类标签和预测标签之间的误差,以及该负样本数据集中的负样本数据的负分类标签和预测标签之间的误差,确定该机器学习模型的分类误差时,具体用于:根据该正样本数据集中的正样本数据的正分类标签和预测标签之间的误差,以及该负样本数据集中的负样本数据的负分类标签和预测标签之间的误差,构造负对数似然损失函数,作为该分类误差。
[0095]
可选地,处理器502在根据该正样本数据集中的正样本数据的正分类标签和预测标签之间的误差,以及该负样本数据集中的负样本数据的负分类标签和预测标签之间的误差,构造负对数似然损失函数,作为该分类误差时,具体用于:针对该样本数据集中的任一样本数据,获取该样本数据的特征向量与该样本数据的分类标签的特征向量的相似度,作为该样本数据的第一相似度;以及,获取该样本数据的特征向量与该样本数据的预测标签的特征向量的相似度,作为该样本数据的第二相似度;确定该样本数据集包含的多个样本数据各自的第二相似度的相似度累计值,并获取该样本数据的第一相似度与该相似度累计
值的比值,作为该样本数据的相似度误差;获取该样本数据的相似度误差的负对数,作为该样本数据的负对数似然损失;对该多个样本数据各自的负对数似然损失进行累加,得到该负对数似然损失函数。
[0096]
进一步,如图5所示,该电子设备还包括:通信组件503、显示组件504、电源组件505、音频组件506等其它组件。图5中仅示意性给出部分组件,并不意味着电子设备只包括图5所示组件。
[0097]
其中,通信组件503被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如wifi,2g、3g、4g或5g,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件可基于近场通信(nfc)技术、射频识别(rfid)技术、红外数据协会(irda)技术、超宽带(uwb)技术、蓝牙(bt)技术和其他技术来实现。
[0098]
其中,显示组件504包括屏幕,其屏幕可以包括液晶显示组件(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。该触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与该触摸或滑动操作相关的持续时间和压力。
[0099]
其中,电源组件505,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
[0100]
本实施例中,用于对数据执行分类操作的分类模型根据正样本数据的正分类标签以负样本数据的负分类标签训练得到。从而模型可在训练阶段学习正分类标签的特征分布以及负分类标签的特征分布,并基于正分类标签的特征分布以及负分类标签的特征分布之间的关系,提升对正分类标签的特征分布的辨识和区分能力。在预测阶段,模型可筛选出与负分类标签匹配的数据,以基于排除法原理降低这部分数据被识别为正分类标签所属类别的概率,并可筛选出与负分类标签不匹配的数据,以提升这部分数据被识别为正分类标签所属类别的概率,从而可极大提升分类模型的分类准确性。
[0101]
图5所示的电子设备还可执行如下的分类模型的训练方法:处理器502获取样本数据集,该样本数据集包括:正样本数据集和负样本数据集;将该正样本数据集以及该负样本数据集输入机器学习模型,得到该正样本数据集中的正样本数据各自的预测标签以及该负样本数据集中的负样本数据各自的预测标签;根据该正样本数据集中的正样本数据的正分类标签和预测标签之间的误差,以及该负样本数据集中的负样本数据的负分类标签和预测标签之间的误差,确定该机器学习模型的分类误差;根据该分类误差,对该机器学习模型中的参数进行调整,直至分类误差满足收敛条件,得到分类模型。
[0102]
图5所示的电子设备还可执行如下的图像分类方法:处理器502获取待分类的图像;利用分类模型,从预设标签集中确定该图像对应的预测标签;该预设标签集,包含正分类标签以及负分类标签;根据该预测标签,确定该图像所属的类别;其中,该分类模型根据分类误差训练得到,该分类误差根据正样本图像的正分类标签和预测标签之间的误差,以及负样本图像的负分类标签和预测标签之间的误差确定。
[0103]
相应地,本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。
[0104]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0105]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程基于深度度量学习的模型优化设备的处理器以产生一个机器,使得通过计算机或其他可编程基于深度度量学习的模型优化设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0106]
这些计算机程序指令也可存储在能引导计算机或其他可编程基于深度度量学习的模型优化设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0107]
这些计算机程序指令也可装载到计算机或其他可编程基于深度度量学习的模型优化设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0108]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0109]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0110]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0111]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要
素的过程、方法、商品或者设备中还存在另外的相同要素。
[0112]
以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1