一种机器学习的均衡方法及相关装置与流程

文档序号:29970445发布日期:2022-05-11 11:20阅读:96来源:国知局
一种机器学习的均衡方法及相关装置与流程

1.本技术涉及人工智能技术领域,特别涉及一种机器学习的均衡方法及相关装置。


背景技术:

2.随着科学技术和人工智能的迅速发展,机器学习可以用来实现各自功能,例如,事件检测、文本分类、图像分类以及目标检测等。然而,在实际应用中,经常会出现呈长尾分布(long-tail)的数据集,该数据集中部分样本的类别标签所占据的数据量大,部分样本的类别标签所占据的数据量小,导致机器学习的学习不平衡,机器学习为了解决这种不平衡会大量训练数据量小的类别标签,使得机器学习模型可以针对对数据量小的类别标签对应的样本进行更精准识别,从而导致基于数据集训练的机器学习模型在数据量大的类别标签上出现过度拟合的现象,进而影响模型的模型性能。
3.因而现有技术还有待改进和提高。


技术实现要素:

4.本技术要解决的技术问题在于,针对现有技术的不足,提供一种机器学习的均衡方法及相关装置。
5.为了解决上述技术问题,本技术实施例第一方面提供了一种机器学习的均衡方法,所述的方法包括:
6.一种机器学习的均衡方法,所述的方法包括:
7.从所属正确类别为主要类别的训练样本中,按照预设概率筛选部分训练样本作为目标训练样本;
8.对原始类别序列中的类别标签进行错排,以形成错排类别序列,其中,所述原始类别序列为基于所述机器学习的所有训练样本所属的类别标签生成的;
9.基于所述目标训练样本和所述错排类别序列生成错排输入数据;
10.以所述错排输入数据对机器学习模型进行训练。
11.在一个实现方式中,所述原始类别序列的生成过程具体包括:
12.获取所述机器学习的所有训练样本所属的类别标签,并随机排列获取到的所有类别标签以生成原始类别序列。
13.在一个实现方式中,所述主要类别为数据量大于预设数量的类别标签,其中,所述数据量为属于所述类别标签的训练样本的数量。
14.在一个实现方式中,对所述原始类别序列中的类别标签进行错排,以形成错排类别序列的步骤,具体包括:
15.对所述原始类别序列中的各类别标签按照各自对应的数据量进行降序排列后,以得到初始类别序列;
16.在所述初始类别序列中,从前向后选取预设个数的类别标签作为目标错排类别,其中,预设个数的类别标签不包括所述目标训练样本对应的正确类别标签;
17.在所述原始类别序列中对选取到的目标错排类别进行全错排,以形成错排类别序列。
18.在一个实现方式中,所述基于所述目标训练样本和所述错排类别序列生成错排输入数据的步骤,具体包括:
19.将所述目标训练样本与所述错排类别序列相连接,以生成所述错排输入数据。
20.在一个实现方式中,所述以所述错排输入数据对机器学习模型进行训练的步骤,具体包括:
21.将所述错排输入数据输入所述样本训练模块,通过所述样本训练模块确定所述错排输入数据对应的语境化表达向量;所述语境化表达向量包括所述目标训练样本中的语义词组对应的语境化表达向量和所述错排类别序列中类别标签对应的语境化表达向量;
22.提取所述错排类别序列中类别标签对应的语境化表达向量,并输入所述预测模块,通过所述预测模块确定所述错排输入数据对应的各个类别标签的概率;
23.基于各类别标签的概率确定所述错排输入数据对应的预测类别,并基于所述预测类别对所述机器学习模型的训练进行调整。
24.在一个实现方式中,所述的方法还包括:
25.对于所属正确类别为次要类别的训练样本,以及所属正确类别为主要类别且未被筛选为目标训练样本的训练样本,基于所述训练样本和所述原始类别序列生成输入数据,并以所述输入数据对所述机器学习模型进行训练。
26.在一个实现方式中,所述基于所述训练样本和所述原始类别序列生成输入数据,并以所述输入数据对所述机器学习模型进行训练,具体包括:
27.将所述训练样本与所述原始类别序列相连接,以生成所述输入数据。
28.在一个实现方式中,所述以所述输入数据对所述机器学习模型进行训练的步骤,具体包括:
29.将所述输入数据输入所述样本训练模块,通过所述样本训练模块确定所述输入数据对应的语境化表达向量;所述语境化表达向量包括所述训练样本中的语义词组对应的语境化表达向量和所述原始类别序列中类别标签对应的语境化表达向量;
30.提取所述原始类别序列中类别标签对应的语境化表达向量,并输入所述预测模块,通过所述预测模块确定所述输入数据对应的各个类别标签的概率;
31.基于各类别标签的概率确定所述输入数据对应的预测类别,并基于所述预测类别对所述机器学习模型的训练进行调整。
32.本技术实施例第二方面提供了一种机器学习的均衡装置,所述的装置包括:
33.筛选模块,从所属正确类别为主要类别的训练样本中,按照预设概率筛选部分训练样本作为目标训练样本;
34.形成模块,用于对原始类别序列中的类别标签进行错排,以形成错排类别序列,其中,所述原始类别序列为基于所述机器学习的所有训练样本所属的类别标签生成的;
35.生成模块,用于基于所述目标训练样本和所述错排类别序列生成错排输入数据;
36.训练模块,用于以所述错排输入数据对机器学习模型进行训练。
37.本技术实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实
现如上所述的机器学习的均衡方法中的步骤。
38.本技术实施例第四方面提供了一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
39.所述通信总线实现处理器和存储器之间的连接通信;
40.所述处理器执行所述计算机可读程序时实现如上所述的机器学习的均衡方法中的步骤。
41.有益效果:与现有技术相比,本技术从所属正确类别为主要类别的训练样本中,按照预设概率筛选部分训练样本作为目标训练样本;对原始类别序列中的类别标签进行错排,以形成错排类别序列;基于所述目标训练样本和所述错排类别序列生成错排输入数据;以所述错排输入数据对机器学习模型进行训练。本技术通过错排方式将部分正确类别为主要类别的训练样本的原始类别序列修改为错排类别序列,这样即可以保留所有训练样本,使得机器学习可以学习到所有训练样本所携带的特征信息,同时又阻止机器学习过程中模型对类别序列中主要类别的过度学习,使得机器学习在主要类别上的权重更新变小且次要类别不受影响,使得机器学习的训练过程更加平衡,提高了模型性能。
附图说明
42.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员而言,在不符创造性劳动的前提下,还可以根据这些附图获得其他的附图。
43.图1为本技术提供的机器学习的均衡方法的流程图。
44.图2为本技术提供的机器学习的均衡方法的的全错排过程的示意图。
45.图3为本技术提供的机器学习的均衡方法中预测网络模型的训练过程的原理流程图。
46.图4为本技术提供的机器学习的均衡装置的结构原理图。
47.图5为本技术提供的终端设备的结构原理图。
具体实施方式
48.本技术提供一种机器学习的均衡方法及相关装置,为使本技术的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本技术进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
49.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称一组词语与另一组词语相连接,是指两组词语前后相连,或者通过特殊词语/符号相连。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
50.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该
理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
51.应理解,本实施例中各步骤的序号和大小并不意味着执行顺序的先后,各过程的执行顺序以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
52.发明人经过研究发现,随着科学技术和人工智能的迅速发展,机器学习可以用来实现各自功能,例如,事件检测、文本分类、图像分类以及目标检测。然而,在实际应用中,经常会出现呈长尾分布(long-tail)的数据集,该数据集中部分类别标签所对应的数据量大,部分类别标签所对应的数据量小,导致机器学习的学习不平衡,从而导致基于数据集训练的模型在数据量大的类别标签上出现过度拟合的现象,进而影响模型的模型性能。
53.为了解决数据集不均衡的问题,目前普遍采用的方式包括过采样(over-sampling)方式和下采样(down-sampling)方式,其中,过采样方式为对数据集中的数据量小的类别标签进行多次采用,以增加数据量小的类别标签的数据量;下采样方式为对数据量大的类别标签进行减少采用,以减少数据量大的类别标签的数据量。这种方式虽然均可以提高数据集的均衡性,但是,过采样会增加数据集的数据量,从而增加基于均衡后的数据集的训练难度以及训练效率;下采样方式会使得数据集中的部分样本数据丢失,减少模型可以学习到的特征信息,进而影响模型性能。
54.基于此,在本技术实施例中,从所属正确类别为主要类别的训练样本中,按照预设概率筛选部分训练样本作为目标训练样本;对原始类别序列中的类别标签进行错排,以形成错排类别序列;基于所述目标训练样本和所述错排类别序列生成错排输入数据;以所述错排输入数据对机器学习模型进行训练。本技术通过错排方式将部分正确类别为主要类别的训练样本的原始类别序列修改为错排类别序列,这样即可以保留所有训练样本,使得机器学习可以学习到所有训练样本所携带的特征信息,同时又阻止机器学习过程中模型对类别序列中主要类别的过度学习,使得机器学习在主要类别上的权重更新变小且次要类别不受影响,使得机器学习的训练过程更加平衡,提高了模型性能。此外,本技术为增加训练样本的样本数量,从而不会增加机器学习的复杂度以及学习效率。
55.下面结合附图,通过对实施例的描述,对申请内容作进一步说明。
56.本实施例提供了一种机器学习的均衡方法,如图1所示,所述方法包括:
57.s10、从所属正确类别为主要类别的训练样本中,按照预设概率筛选部分训练样本作为目标训练样本。
58.具体地,所述训练样本包含于用于机器学习的训练样本集内,训练样本集包括若干训练样本,其中,若干训练样本中的每个训练样可以均为多类别标签样本,或至少,部分训练样本为多类别标签样本,部分训练样本为单类别标签样本。可以理解的是,若干训练样本中可以存在一训练样本a,训练样本a对应有多个类别标签,通过多类别标签提供更加丰富的数据信息,为后续可能的应用(如,事件检测、文本分类管理、监控、过滤等等)提供更大的帮助。此外,每个训练样本均对应有正确类别,其中,正确类别包含于训练样本所属的所有类别标签中。也就是说,训练样本对应的所有类别标签中存在一个类别标签为训练样本所属的正确类别。例如,训练样本为一篇商业报道,该商业报道对应的类别标签包括四个:产品发布,投融资,营收以及市场营销,其中,投融资为该报道的正确类别。
59.用于机器学习的训练样本集不平衡样本集,例如,训练样本集为不平衡文本样本集等。在一个实现方式中,不平衡样本集为至少一个类别标签的数据量与另一个类别标签的数据量不均衡的样本集,也就是说,输入数据集中的至少存在一个类别标签对应的训练样本的数据量远大于另一个类别标签对应的训练样本的数据量,换句话说,训练样本集中的至少存在一个类别标签对应的训练样本的数据量与另一个类别标签对应的训练样本的数据量的数据差量大于预设数量阈值,其中,预设数量阈值可以基于训练样本集中的训练样本的数量确定,例如,预设数量阈值为训练样本集中的训练样本的数量的40%,50%等。
60.举例说明:训练样本集包括100个训练样本,训练样本集中所有训练样本所对应的所有类别标签分别记为类别标签a、类别标签b、类别标签c以及类别标签d,其中,类别标签a对应的训练样本的数据量为80,类别标签d对应的训练样本的数据量为5,那么类别标签a对应的数据量与类别标签d的数据量的数据差量大,那么该训练样本集为不平衡样本集。
61.主要类别包含于用于机器学习的所有训练样本所属的类别标签内,并且主要类别为数据量大于预设数量的类别标签,其中,所述数据量为属于所述类别标签的训练样本的数量。此外,用于机器学习的所有训练样本所属的类别标签内数据量小于或者等于预设数据量的类别标签为非主要类别,记为次要类别。可以理解的是,主要类别对应的数据量大于预设数量,次要类别对应的数据量小于或者等于预设数量,数据量为属于类别标签的训练样本的数量。其中,预设数量可以为预先设置的,也可以是基于训练样本集所包含的训练样本的数据量确定的,还可以是基于训练样本集中各训练样本所属的类别标签的标签数量确定。在一个实现方式中,预设数量为基于训练样本集所包含的训练样本的数据量确定的,例如,预设数量为训练样本集所包含的训练样本的数据量的50%,60%等。例如,训练样本集所包含的训练样本的数据量为100,预设数量为该数据量的50%,那么预设数量为50。
62.在一个实现方式中,训练样本集对应的主要类别的确定过程可以为:
63.基于所述训练样本集中的各训练样本所属的所有类别标签,确定训练样本集的所有类别标签;
64.确定训练样本集的每个类别标签对应的数据量;
65.选取数据量大于预设数量的类别标签,并将选取到的类别标签作为所述训练样本集对应的主要类别。
66.具体地,对于训练样本集中的每个训练样本,该训练样本中的训练样本所属的所有类别标签均包括于所述训练样本集对应的所有类别标签内,并且所述训练样本集对应的所有类别标签中的各类别标签互不相同。例如,训练样本集包括训练样本a、训练样本b以及训练样本c,训练样本a中的训练样本所属的所有类别标签分别为类别标签a、类别标签b以及类别标签c,训练样本b中的训练样本所属的所有类别标签分别为类别标签a、类别标签b以及类别标签d,训练样本c中的训练样本所属的所有类别标签分别为类别标签a、类别标签c以及类别标签d,那么训练样本集对应的所有类别标签包括类别标签a、类别标签b、类别标签c以及类别标签d。此外,数据量指的是训练样本集中携带有类别标签的训练样本的数量,例如,在上述例子中,训练样本集对应的所有类别标签包括类别标签a,类别标签a对应的数据量为3。
67.此外,由于训练样本集中每个训练样本均可以对应多个类别标签,从而数据量大于预设数量的类别标签可以为多个,也就是说,训练样本集可以对应多个主要类别。例如,
训练样本集对应的所有类别标签分别为类别标签a、类别标签b、类别标签c以及类别标签d,其中,类别标签a对应的数据量和类别标签b对应的数据量均大于预设数量,那么类别标签a和类别标签b均为训练样本集的主要类别。由此,当主要类别为多个时,当训练样本所属的正确类别为多个主要类别中的任一主要类别时,该训练样本为正确类别为主要类别的训练样本。
68.预设概率为预先设定,用于反映所属正确类别为主要类别的训练样本被筛选为目标训练样本的概率,其中,预设概率可以根据实际需求确定。在一个典型实现方式中,预设概率为0.2,例如,正确类别为主要类别的训练样本有100个,则选择其中20个训练样本作为目标训练样本。
69.s20、对原始类别序列中的类别标签进行错排,以形成错排类别序列。
70.具体地,所述原始类别序列为基于所述机器学习的所有训练样本所属的类别标签生成的,其中,原始类别序列中的部分类别标签为主要类别,部分类别标签为次要类别。此外,原始类别序列可以是将所述机器学习的所有训练样本所属的类别标签按照预设顺序排列所形成的(例如,对于类别标签对应的训练样本的数据量的升序等),或者是,将所述机器学习的所有训练样本所属的类别标签随机排列所形成等。
71.在一个典型实现方式中,所述原始类别序列的生成过程具体包括:
72.获取所述机器学习的所有训练样本所属的类别标签,并随机排列获取到的所有类别标签以生成原始类别序列。
73.具体地,所有类别标签中的每个类别标签均为机器学习的所有训练样本所属的类别标签,在获取到机器学习的所有训练样本后,可以获取每个训练样本所属的所有类别标签后,以得到所述机器学习的所有训练样本所属的类别标签,其中,所述机器学习的所有训练样本所属的类别标签中的各类别标签互不相同。然而,将获取到的机器学习的所有训练样本所属的类别标签进行随机排列得到随机类别序列,将该随机类别序列作为训练样本的原始类别序列。本实施例通过将机器学习的所有训练样本所属的类别标签随机排列来生成类别序列,这样可以降低机器学习对应类别标签在类别序列中的位置依赖,从而可以提高通过机器学习确定模型的模型性能。
74.错排类别序列为对原始类别序列中的类别标签进行错排所得到的,由此,错排类别序列所包括的类别标签与输入数据中的原始类别序列所包括的类别标签相同,均为机器学习的所有训练样本所处的类别标签。两者的不同在于,错排类别序列中至少存在两个目标类别标签,这两个目标类别标签在错排类别序列中的序列位置与其在原始类别序列中的序列位置不同。例如,机器学习的所有训练样本对应的所有类别标签分别为类别标签a,类别标签b以及类别标签c,错排类别序列为类别标签a、类别标签b、类别标签c,原始类别序列为类别标签b、类别标签a、类别标签c,类别标签a和类别标签b在错排类别序列中的序列位置与原始类别标签a和类别标签b在类别序列中的序列位置不同。
75.错排类别序列可以是直接将原始类别序列进行全错排所形成的,或者是,将原始类别序列中的预设个数的类别标签进行全错排所形成的。在本实施例的一个实现方式中,所述基于所述输入数据中的类别序列具体包括:
76.对所述原始类别序列中的类别标签进行错排,以形成错排类别序列的步骤,具体包括:
77.对所述原始类别序列中的各类别标签按照各自对应的数据量进行降序排列后,以得到初始类别序列;
78.在所述初始类别序列中,从前向后选取预设个数的类别标签作为目标错排类别,其中,预设个数的类别标签不包括所述目标训练样本对应的正确类别标签;
79.在所述原始类别序列中对选取到的目标错排类别进行全错排,以形成错排类别序列。
80.具体地,初始类别序列包括机器学习的所有训练样本(即用于机器学习的训练样本集)所属的所有类别标签,每个类别标签在初始类别序列中的序列位置是基于该训练样本集中携带有该类别标签的训练样本的数据量确定的,并且数据量越多的类别标签对应的序列位置越靠前,反之,数据量越少的类别标签对应的序列位置越靠后。例如,对于初始类别序列中的两个类别标签,分别记为类别标签a和类别标签b,类别标签a的序列位置位于类别标签b的序列位置之前,那么类别标签a对应的数据量多于类别标签b对应的数据量。
81.在获取到初始类别序列后,在初始类别序列中选取预设个数的目标错排类别进行全错排,其中,预设个数的数量大于或者等于2,且选取到的目标错排类别不为训练样本所属的正确类别。也就是说,在初始类别序列中选取预设个数的目标错排类别时,是在除正确类别外的各类别标签中按照从前到后的顺序选取预设个数的目标错排类别。本实施例通过选取在除正确类别外的预设个数的目标错排类别,并将选取到的预设个数的目标错排类别在类别序列中的序列位置进行全错排,这样可以使得全错排所得到的错排类别序列与训练样本对应的类别序列不同,同时还可以凸显正确类别。其中,全错排(derangement):对于一个有n个元素的序列,若一个排列使得序列中的所有的元素都不其原来位置上,那么该排列称为全错排。此外,值得说明的是,当选取到的目标训练样本为1个时,直接为目标训练样本生成错排类别序列,当选取到的目标训练样本为多个是,可以分别为每个目标训练样本生成一个错排类别序列,各目标训练样本各自对应的正确类别在其对应的错排类别序列的序列位置与其在初始类别序列中的序列位置相同。当然,也可以是为所有目标训练样本生成一个错排类别序列,各目标训练样本各自对应的正确类别在所述错排类别序列中的序列位置与各自在初始类别序列中的序列位置相同。
82.举例说明:假设原始类别序列为图2中上方的类别序列,原始类别序列包括主要类别a、主要类别e、主要类别b、主要类别c以及次要类别d各自对应的数据量依次降低,预设个数为2,训练样本a对应的正确类别为主要类别e;那么,训练样本a对应的初始类别序列为图2中的中间的类别序列,在初始类别序列中选取的两个目标错排类别分别为主要类别a和主要类别b,然后将类别序列中主要类别a和主要类别b进行全错排可以得到图2中的下方的错排类别序列。
83.此外,在实际应用中,当预设个数大于2时,将选取到的目标错排类别进行全错排时,可以得到至少两种序列顺序不同的错排类别序列,此时,可以在确定的所有错排类别序列中随机选取一个错排类别序列作为语义词组对应的错排类别序列,也可以将每个错排类别序列均作为语义词组对应的错排类别序列,这样后续可以确定多个错排输入数据。
84.举例说明:获取机器学习的所有训练样本对应的10个类别标签,生成原始类别序列s1为c5,c6,c7,c3,c4,c9,c1,c2,c10,c8;按照样本数量降序排列为初始类别序列c1,c2,c3,c4,c5,c6,c7,c8,c9以及c10,样本数量占50%以上的主要类别包括c1,c2,c3,c4;按照
概率p=0.2从正确类别是主要类别的100条训练样本中选择20个目标训练样本,其中,一目标训练样本所属的正确类别标签为c4,设全错排的类别标签的数量为3。由此,在初始类别序列中从前向后的顺序选取3个类别标签时,会选取到目标错排类别c1,c2和c3。然后,将原始类别序列s1中的目标错排类别c1,c2和c3进行全错排后得到的全错排序列可以为c5,c6,c7,c1,c4,c9,c2,c3,c10,c8;以及c5,c6,c7,c2,c4,c9,c3,c1,c10,c8,从而可以将c5,c6,c7,c1,c4,c9,c2,c3,c10,c8作为错排类别序列,也可以将c5,c6,c7,c2,c4,c9,c3,c1,c10,c8作为错排类别序列。
85.s30、基于所述目标训练样本和所述错排类别序列生成错排输入数据。
86.具体地,在所述错排输入数据中,所述错排类别序列为所述目标训练样本的类别序列,也就是说,基于目标训练样本与错排类别序列生成一个错排输入数据,这样使得一个训练样本对应有两个类别序列,从而在保持主要类别的训练样本不变的情况下,增加了主要类别的训练次数,从而可以降低模型在主要类别上的损失,从而使得模型训练是的学习更加平衡。
87.在本实施例的第一个实现方式中,所述基于所述目标训练样本和所述错排类别序列生成错排输入数据的步骤,具体包括:
88.将所述目标训练样本与所述错排类别序列相连接,以生成所述错排输入数据。
89.具体地,所述错排输入数据包括目标训练样本所包括的语义词组以及错排类别序列中的各类别标签,其中,将所述目标训练样本与所述错排类别序列相连接可以按照目标训练样本在前错排类别序列在后的顺序连接,即将目标训练样本中的语义词组和错排类别序列中的类别标签类按照语义词组-错排类别序列的顺序连接;或者是,将所述目标训练样本与所述错排类别序列相连接可以按照错排类别序列在前目标训练样本在后的顺序连接,即将目标训练样本中的语义词组和错排类别序列中的类别标签类按照按照错排类别序列-语义词组的顺序连接。这样将训练样本中的语义词组与错排类别序列相连接所形成的错排输入数据作为机器学习模型的输入项,使得机器学习模型可以学习到语义词组与类别标签的关联性,从而可以丰富模型所学习到的特征信息。
90.s40、以所述错排输入数据对机器学习模型进行训练。
91.具体地,当生成错排输入数据时,将错排输入数据作为机器学习模型的输入数据对机器学习模型进行训练。当然,对于机器学习的每个训练样本,可以直接基于训练样本与原始类别序列生成输入数据,并采用生成的输入数据进行机器学习。这样既可以保证次要类别的训练次数不变,又可以增加主要类别的训练次数,从而在让模型在主要类别上的权重更新变小的同时可以保证非主要类别不受影响,使得模型训练时的学习更加平衡,有效防止模型在主要类别上的过拟合,进而可以提高模型的模型性能。
92.基于此,在本实施例的一个实现方式中,所述方法还包括:
93.对于所属正确类别为次要类别的训练样本,以及所属正确类别为主要类别且未被筛选为目标训练样本的训练样本,基于所述训练样本和所述原始类别序列生成输入数据,并以所述输入数据对所述机器学习模型进行训练。
94.具体地,机器学习的所有训练样本中存在正确类别不为主要类别,对于该类训练样本无需替换训练样本对应的原始类别序列,从而可以直接基于该训练样本和原始类别序列生成输入数据,以所述输入数据对所述机器学习模型进行训练。此外,由于是按照预设概
率在所属正确类别为主要类别的训练样本中筛选部分目标训练样本,从而在正确类别为主要类别的训练样本中会存在部分未被筛选为目标训练样本的训练样本,即没有为该训练样本生成错排类别序列,此时,基于该训练样本和原始类别序列生成输入数据,并以所述输入数据对所述机器学习模型进行训练。
95.在一个实现方式中,基于所述训练样本和所述原始类别序列生成输入数据,并以所述输入数据对所述机器学习模型进行训练,具体包括:
96.将所述训练样本与所述原始类别序列相连接,以生成所述输入数据。
97.具体地,机器学习的训练样本与所述原始类别序列相连接也可以是按照训练样本在前原始类别序列在后的顺序连接,或者是,原始类别序列在前训练样本在后的顺序连接。此外,训练样本与所述原始类别序列相连接的连接顺序可以与目标训练样本与错排类别序列相连接的连接顺序相同,或者是,训练样本与所述原始类别序列相连接的连接顺序可以与目标训练样本与错排类别序列相连接的连接顺序相反。这里不做具体限定,具体可以根据实际需求确定。
98.本实施例中以输入数据对所述机器学习模型进行训练和以错排输入数据对所述机器学习模型进行训练的训练过程相同,这里对以输入数据对所述机器学习模型进行训练的训练过程做详细说明,以错排输入数据对所述机器学习模型进行训练的过程可以参照以输入数据对所述机器学习模型进行训练的训练过程。
99.所述以所述输入数据对所述机器学习模型进行训练的步骤,如图3所示,具体包括:
100.将所述输入数据输入机器学习的样本训练模块,通过所述样本训练模块确定所述输入数据对应的语境化表达向量;所述语境化表达向量包括所述训练样本中的语义词组对应的语境化表达向量和所述原始类别序列中类别标签对应的语境化表达向量;
101.提取所述原始类别序列中类别标签对应的语境化表达向量,并输入机器学习的预测模块,通过所述预测模块确定所述训练样本对应的各个类别标签的概率;
102.基于各类别标签的概率确定所述训练样本对应的预测类别,并基于所述预测类别对所述机器学习模型进行训练。
103.具体地,训练样本包括若干语义词组,所述样本训练模块用于学习训练样本中的语义词组与原始类别序列之间的相关性的语境化表达(contextualized representations),以便于预测模块可以获知语义词组与类别序列之间的相关性。其中,所述语境化表达向量包括所述训练样本中的语义词组对应的语境化表达向量和所述原始类别序列中类别标签对应的语境化表达向量。在一个实现方式中,样本训练模块可以为采用注意力机制模型,例如,样本训练模块采用预训练的bert(bidirectional encoder representations from transformer)模型等,注意力机制模型采用注意力机制将输入数据映射到同一纬度空间,以得到输入数据对应的语境化表达。所述预测模块用于确定输入数据中的训练样本所属的正确类别,也就是说,预测模块会基于样本训练模块确定的语境化表达向量中的所述原始类别序列中各类别标签对应的语境化表达向量,以确定训练样本对应的预测类别。在一个实现方式中,预测模块可以采用多层感知机(mlp),通过多层感知机确定原始类别序列中的各类别标签的概率,其中,类别概率序列中的各类别概率均为0-1之间的数字。
104.在获取到各类别标签的概率后,可以在各类别标签的概率中选取概率大于预设概率阈值的目标类别概率,并将所述目标类别概率对应给的类别标签作为所述输入数据对应的预测类别。也就是说,预测类别为类别概率序列中大于预设概率阈值的目标类别概率所对应的类别标签。例如,预设概率阈值为0.5,那么将类别概率序列中类别概率大于0.5的类别概率对应的类别标签作为训练样本对应的预测类别。
105.进一步,在确定训练样本对应的预测类别后,基于预测类别以及训练样本对应的正确类别确定损失项,并基于确定损失对机器学习模型进行反向传播,以得到经过训练的机器学习模型,其中,经过训练的机器学习模型可以用于事件检测,文本分类,以及计算机视觉中的图像分类和目标检测等。此外,为了证明本实施例提供的机器学习的均衡方法的学习到的网络模型的模型性能,发明人在公开数据集ace2005上进行试验,结果显示可以将模型的fi score从74.7%提升到78.1%,其中,f1 score是精确率和召回率的调和平均数,其最大为1,最小为0。当然,值得说明的是,在采用本实施例提供的机器学习的均衡方法对机器学习模型进行训练后,对机器学习模型进行测试时,直接采用测试样本集对经过训练的机器学习模型进行测试,而无需为测试样本集中的正确类别为主要类别的训练样本按照预设概率生成错排类别序列,以得到错排输入数据。换句话说,在对经过训练的网络模型进行测试时,为正确类别为主要类别的机器学习模型生成错排类别序列的预设概率为0。
106.综上所述,本实施例提供了一种机器学习的均衡方法,所述方法包括从所属正确类别为主要类别的训练样本中,按照预设概率筛选部分训练样本作为目标训练样本;对原始类别序列中的类别标签进行错排,以形成错排类别序列;基于所述目标训练样本和所述错排类别序列生成错排输入数据;以所述错排输入数据对机器学习模型进行训练。本技术通过错排方式将部分正确类别为主要类别的训练样本的原始类别序列修改为错排类别序列,这样即可以保留所有训练样本,使得机器学习可以学习到所有训练样本所携带的特征信息,同时又阻止机器学习过程中模型对类别序列中主要类别的过度学习,使得机器学习在主要类别上的权重更新变小且次要类别不受影响,使得机器学习的训练过程更加平衡,提高了模型性能。此外,本技术为增加训练样本的样本数量,从而不会增加机器学习的复杂度以及学习效率。
107.基于上述机器学习的均衡方法,本实施例提供了一种机器学习的均衡装置,如图4所示,所述的装置包括:
108.筛选模块100,从所属正确类别为主要类别的训练样本中,按照预设概率筛选部分训练样本作为目标训练样本;
109.形成模块200,用于对原始类别序列中的类别标签进行错排,以形成错排类别序列,其中,所述原始类别序列为基于所述机器学习的所有训练样本所属的类别标签生成的;
110.生成模块300,用于基于所述目标训练样本和所述错排类别序列生成错排输入数据;
111.训练模块400,用于以所述错排输入数据对机器学习模型进行训练。
112.基于上述机器学习的均衡方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的机器学习的均衡方法及相关装置中的步骤。
113.基于上述机器学习的均衡方法,本技术还提供了一种终端设备,如图5所示,其包
括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(communications interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
114.此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
115.存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
116.存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
117.此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
118.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1