员工离职特征的训练方法、装置、计算机设备及存储介质与流程

文档序号:15853715发布日期:2018-11-07 10:35阅读:224来源:国知局
员工离职特征的训练方法、装置、计算机设备及存储介质与流程

本发明涉及计算机技术领域,尤其涉及一种员工离职特征的训练方法、装置、计算机设备及存储介质。

背景技术

现有技术中,员工的离职容易造成企业队伍结构的不稳定,虽然员工离职现象在企业中司空见惯,在很多情况下,企业预先不知道员工有离职倾向,一旦员工申请离职,企业往往会处于被动的境况。



技术实现要素:

有鉴于此,本发明实施例提供一种员工离职特征的训练方法、装置、计算机设备及存储介质,可以提升企业预测员工离职意向的能力,以减少企业的损失。

一方面,本发明实施例提供了一种员工离职特征的训练方法,该方法包括:

采集与员工离职相关的多维度数据,作为训练用特征数据;

将所述训练用特征数据进行预处理,并将经过预处理的训练用特征数据作为训练样本;

按照预设规则将所述训练样本划分为m个相互独立的子样本集;

基于所述每个子样本集,对所述每个子样本集选择机器学习分类方法进行训练。

另一方面,本发明实施例提供了一种员工离职特征的训练装置,所述装置包括:

采集单元,用于采集与员工离职相关的多维度数据,作为训练用特征数据;

处理单元,用于将所述训练用特征数据进行预处理,并将经过预处理的训练用特征数据作为训练样本;

划分单元,用于按照预设规则将所述训练样本划分为m个相互独立的子样本集;

训练单元,用于基于所述每个子样本集,对所述每个子样本集选择机器学习分类方法进行训练。

又一方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的员工离职特征的训练方法。

再一方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行,以实现如上所述的员工离职特征的训练方法。

本发明实施例提供一种员工离职特征的训练方法、装置、计算机设备以及存储介质,其中方法包括:采集与员工离职相关的的多维度数据,作为训练用特征数据;将所述训练用特征数据进行预处理,并将经过预处理的训练用特征数据作为训练样本;按照预设规则将所述训练样本划分为m个相互独立的子样本集;基于所述每个子样本集,对所述每个子样本集选择机器学习模型进行训练,通过对离职员工的特征数据的训练,判断各个特征数据对员工离职的影响程度,从而可以提升企业预测员工离职意向的能力,以减少企业的损失。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种员工离职特征的训练方法的示意流程图;

图2是本发明实施例提供的一种员工离职特征的训练方法的示意流程图;

图3是本发明实施例提供的一种员工离职特征的训练方法的示意流程图;

图4是本发明另一实施例提供的一种员工离职特征的训练方法的示意流程图;

图5是本发明实施例提供的一种员工离职特征的训练方法的演示示意图;

图6是本发明实施例提供的一种员工离职特征的训练装置的示意性框图;

图7是本发明实施例提供的一种员工离职特征的训练装置的另一示意性框图;

图8是本发明实施例提供的一种员工离职特征的训练装置的另一示意性框图;

图9是本发明实施例提供的一种员工离职特征的训练装置的另一示意性框图;

图10是本发明实施例提供的一种计算机设备的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

请参阅图1,图1为本发明实施例提供的一种员工离职特征的训练方法的示意流程图。如图1所示,该方法包括步骤s101~s104。

s101,采集与员工离职相关的多维度数据,作为训练用特征数据。

在本发明实施例中,所述特征数据包括对员工离职产生影响的各种特征数据,不同的特征数据对员工离职的影响力是不相同的,其中,有些特征数据对员工离职产生较为主要的影响,而另一些特征数据对员工离职产生较为次要的影响,下面列举出本实施例中常用的特征数据。

本申请实施例中,所述与员工离职相关的特征数据,包括员工在企业中所担任的职位;员工在企业中每月或者每年所获得的薪水;员工在企业中从入职至当前工作状态的工作时长;员工在企业中是否具有职位晋升机会;员工在企业中工作,对企业的工作氛围、企业文化以及工作岗位的满意度。

可选的,在实际应用中,所述与员工离职相关的特征数据保存在数据库中(例如:mysql数据库),可以通过连接mysql数据库的方式采集该特征数据,具体地,可以通过jdbc(javadatabaseconnectivity,java数据库连接)方式连接mysql数据库,以采集mysql数据库中与员工离职相关的特征数据,例如,员工在企业中所担任的职位;员工在企业中每月或者每年所获得的薪水;员工在企业中从入职至当前工作状态的工作时长;员工在企业中是否具有职位晋升机会;员工在企业中工作,对企业的工作氛围、企业文化以及工作岗位的满意度等。

s102,将所述训练用特征数据进行预处理,并将经过预处理的训练用特征数据作为样本。

在本发明实施例中,在步骤s101中所采集的员工特征数据可以包括多名员工的特征数据,也可以包括所在企业中全部员工的特征数据;所述预处理过程中是先对数据的各个类型进行判断,并对同一类型的特征数据进行统一,再将各类型的数据抽象成消息,将各类型的数据抽象成消息的方式通过加载预设的消息模型,并将各类型的数据抽象成输入消息。进一步地,如图2所示,所述步骤s102还包括以下步骤:s102a,确定所述训练用特征数据的类型;在本实施例中,可以通过读取训练用特征数据所包括的数据类型字段,并解析出所述训练用特征数据从而确定所述训练用特征数据的类型;具体的,读取训练用特征数据所包括的数据类型字段的过程可以具体为:该训练用特征数据所包括的数据类型字段为完整字段,且该数据类型字段的属性为可读取,则读取训练用特征数据所包括的数据类型字段,生成读取结果;解析该读取结果,获取该训练用特征数据的数据类型,该解析过程可以是通过预设的解析规则实现的,该解析规则适用于所有训练用特征数据的数据类型字段,本发明实施例对具体的解析规则不加以限定。s102b,将确定类型的所述训练用特征数据映射为预设消息模型对应的输入消息。在本实施例中,所述与员工离职相关的特征数据是具有一定长度的数据,其每个特征数据均对应并影响员工离职,当所采集的员工特征数据包括多名员工的特征数据或者企业中全部员工的特征数据时,将所采集的多名或者全部员工的特征数据按照相同类别的数据类型进行分类,例如员工在企业中所担任的职位归为职位类数据;员工在企业中每月或者每年所获得的薪水归为薪水类数据;员工在企业中从入职至当前工作状态的工作时长归为工作时长类数据;员工在企业中是否具有职位晋升机会归为职位晋升类数据;员工在企业中工作,对企业的工作氛围、企业文化以及工作岗位的满意度归为员工满意度类数据;并将所采集的所有特征数据按照上述几种数据类型进行分类并统一划分;将进行归类后的所述特征数据映射为所述预设的消息模型对应的输入消息的方式为:提取所述特征数据中包含的各个字段信息,根据预设的消息模型,将提取的各个字段信息按照所述预设的消息模型的形式进行排列,最终将排列好的字段信息作为输入消息。具体地,所述输入消息是由一组连续的字段组成,字段可以是简单的数据名。所述预设消息模型的结构内容包括:a、消息名称、消息类型;其中,所述消息名称是以字母开头的字符串,不能包含的特殊字符包括空格、‘.’、‘-’等,并且由于消息名称需要在消息模型中相互引用,因此模型名称必须全局唯一,且能代表描述消息的含义,消息名称同时也作为模型配置的文件名;而所述消息类型具体为所述消息模型的编码方式,所述消息模型的编码方式可以是固定格式编码,如tlv(type-length-value,一种编码格式)编码,也可以是自定义的一些复杂编码等等;b、消息的逻辑条件表达式:消息模型中会配置一些逻辑表达式来控制消息被处理的流程,比如消息的创建条件表达式处理器和删除条件表达式处理器,当创建条件表达式满足时,消息才会被创建;删除条件表达式满足时,相应的消息在流程处理完就会删除;c、消息的组成:消息由字段组成;通常情况下,消息模型用xml(extensiblemarkuplanguage,可扩展标记语言)表示,考虑到消息模型动态变更,可以用关系数据库保存所述预设的消息模型。

s103,按照预设规则将所述训练样本划分为m个相互独立的子样本集。

在本发明实施例中,所述与员工离职相关的特征数据是具有一定长度的数据,其每个特征数据均对应并影响员工离职,所述子样本集可以由采集到的训练样本进行划分;所划分的子样本集的数量值m可以由训练样本中特征数据的种类的数量进行确定,假设一个训练样本中共有m种特征数据,相对应地,将训练样本划分为m个子样本集,则数量值m=m,其中m=1、2、...n,n为正整数;例如,所采集的训练样本中有5类特征数据,则将所述训练样本划分为5个相互独立的子样本集,每个子样本集中包括一类特征数据。例如,所述子样本集中,可以包括职位类样本集,薪水类样本集,工作时长类样本集,职位晋升类样本集,员工满意度类样本集,每类样本集构成一个子样本集。

可选的,在本实施例中,在划分成m个子样本集之后,可以对每个子样本集进行标记,得到每个子样本集的样本集标签,所标记的样本集标签包括可训练和不可训练,由于在有些企业,某种类别的特征数据并不会成为员工离职的原因,或者并不会直接影响到员工离职,因此,可以将这类子样本集进行标记,以排除此种类别的特征数据对员工离职的影响。

s104,基于所述每个子样本集,对所述每个子样本集选择机器学习模型进行训练。

在本发明实施例中,基于所述每个子样本集,可以对每个子样本集选择相同的机器学习模型或者不同的机器学习模型进行训练,将不同类型的特征数据进行分类并作为一个子样本集选择机器学习模型进行训练,其目的在于可以针对不同类型的特征数据进行训练,并得到不同类型的特征数据对员工离职的影响程度。

在本实施例中,选择利用相同的机器学习模型对子样本集进行训练作为示例,如图3所示,具体步骤包括:

s104a,对每个子样本集进行样本初始化;

s104b,从每个子样本集中有放回地抽取得到用于训练的特征数据di,其中,i=1,2,...n;

s104c,对从每个子样本集所抽取的特征数据di进行训练。

具体地,在实际应用中,对每个子样本集进行样本初始化,将剔除未被标记的子样本集,因为这类子样本集并不能对员工离职造成实际影响,例如,这类子样本集被标记的标签为不可训练,可以直接剔除或者不予考虑;对已剔除“不可训练”而剩下的每个子样本集,将从每个子样本集中有放回地抽取得到用于训练的特征数据di,其中,i=1,2,...n,n为子样本集中的特征数据的数量,本实施例中使用的机器学习模型为最大熵模型对每个子样本集的特征数据进行训练;

在最大熵模型下,每个子样本集进行训练的影响程度的公式如下:

其中,z(d)是归一化因子;fk,c是特征函数,fk,c可以定义为:

除了最大熵模型外,本实施例还可以使用朴素贝叶斯和支持向量机模型对子样本集中的特征数据进行训练,最后得到对员工离职造成影响的各离职特征的影响程度。

由以上可见,本实施例通过采集与员工离职相关的的多维度数据,作为训练用特征数据;将所述训练用特征数据进行预处理,并将经过预处理的训练用特征数据作为训练样本;按照预设规则将所述训练样本划分为m个相互独立的子样本集;基于所述每个子样本集,对所述每个子样本集选择机器学习分类方法进行训练,通过对离职员工的特征数据的训练,判断各个特征数据对员工离职的影响程度,从而可以提升企业预测员工离职意向的能力,以减少企业的损失。

请参阅图4,图4是本发明实施例提供的一种员工离职特征的训练方法的示意流程图。如图4所示,该方法包括步骤s201~s205。

s201,采集与员工离职相关的多维度数据,作为训练用特征数据。

在本发明实施例中,所述特征数据包括对员工离职产生影响的各种特征数据,不同的特征数据对员工离职的影响力是不相同的,其中,有些特征数据对员工离职产生较为主要的影响,而另一些特征数据对员工离职产生较为次要的影响,下面列举出本实施例中常用的特征数据。

本申请实施例中,所述与员工离职相关的特征数据,包括员工在企业中所担任的职位;员工在企业中每月或者每年所获得的薪水;员工在企业中从入职至当前工作状态的工作时长;员工在企业中是否具有职位晋升机会;员工在企业中工作,对企业的工作氛围、企业文化以及工作岗位的满意度。

可选的,在实际应用中,所述与员工离职相关的特征数据保存在数据库中(例如:mysql数据库),可以通过连接mysql数据库的方式采集该特征数据,具体地,可以通过jdbc(javadatabaseconnectivity,java数据库连接)方式连接mysql数据库,以采集mysql数据库中与员工离职相关的特征数据,例如,员工在企业中所担任的职位;员工在企业中每月或者每年所获得的薪水;员工在企业中从入职至当前工作状态的工作时长;员工在企业中是否具有职位晋升机会;员工在企业中工作,对企业的工作氛围、企业文化以及工作岗位的满意度等。

s202,将所述训练用特征数据进行预处理,并将经过预处理的训练用特征数据作为训练样本。

在本发明实施例中,所述员工特征数据可以包括多名员工的特征数据,也可以包括所在企业中全部员工的特征数据;所述预处理过程中是先对数据的各种类型进行判断,并对同一类型的特征数据进行统一,再将各类型的数据抽象成消息,将各类型的数据抽象成消息的方式通过加载预设的消息模型,并将各类型的数据抽象成输入消息。在本实施例中,所述与员工离职相关的特征数据是具有一定长度的数据,其每个特征数据均对应并影响员工离职,当所采集的员工特征数据包括多名员工的特征数据或者企业中全部员工的特征数据时,将所采集的多名或者全部员工的特征数据按照相同类别的数据类型进行分类,例如员工在企业中所担任的职位归为职位类数据;员工在企业中每月或者每年所获得的薪水归为薪水类数据;员工在企业中从入职至当前工作状态的工作时长归为工作时长类数据;员工在企业中是否具有职位晋升机会归为职位晋升类数据;员工在企业中工作,对企业的工作氛围、企业文化以及工作岗位的满意度归为员工满意度类数据;并将所采集的所有特征数据按照上述几种数据类型进行分类并统一划分;将进行归类后的所述特征数据映射为所述预设的消息模型对应的输入消息的方式为:提取所述特征数据中包含的各个字段信息,根据预设的消息模型,将提取的各个字段信息按照所述预设的消息模型的形式进行排列,最终将排列好的字段信息作为输入消息。具体地,所述输入消息是由一组连续的字段组成,字段可以是简单的数据名。所述预设消息模型的结构内容包括:a、消息名称、消息类型;其中,所述消息名称是以字母开头的字符串,不能包含的特殊字符包括空格、‘.’、‘-’等,并且由于消息名称需要在消息模型中相互引用,因此模型名称必须全局唯一,且能代表描述消息的含义,消息名称同时也作为模型配置的文件名;而所述消息类型具体为所述消息模型的编码方式,所述消息模型的编码方式可以是固定格式编码,如tlv(type-length-value,一种编码格式)编码,也可以是自定义的一些复杂编码等等;b、消息的逻辑条件表达式:消息模型中会配置一些逻辑表达式来控制消息被处理的流程,比如消息的创建条件表达式处理器和删除条件表达式处理器,当创建条件表达式满足时,消息才会被创建;删除条件表达式满足时,相应的消息在流程处理完就会删除;c、消息的组成:消息由字段组成;通常情况下,消息模型用xml(extensiblemarkuplanguage,可扩展标记语言)表示,考虑到消息模型动态变更,可以用关系数据库保存所述预设的消息模型。

s203,按照预设规则将所述训练样本划分为m个相互独立的子样本集。

在本发明实施例中,所述与员工离职相关的特征数据是具有一定长度的数据,其每个特征数据均对应并影响员工离职,所述子样本集可以由采集到的训练样本进行划分;所划分的子样本集的数量值m可以由训练样本中特征数据的种类的数量进行确定,假设一个训练样本中共有m种特征数据,相对应地,将训练样本划分为m个子样本集,则数量值m=m,其中m=1、2、...n,n为正整数;例如,所采集的训练样本中有5类特征数据,则将所述训练样本划分为5个相互独立的子样本集,每个子样本集中包括一类特征数据。例如,所述子样本集中,可以包括职位类样本集,薪水类样本集,工作时长类样本集,职位晋升类样本集,员工满意度类样本集,每类样本集构成一个子样本集。在本实施例中,在划分成m个子样本集之后,可以对每个子样本集进行标记,得到每个子样本集的样本集标签,由于本实施例要实现的是对子样本集进行训练,因此,所标记的样本集标签包括可训练和不可训练,由于在有些企业,某种类别的特征数据并不会成为员工离职的原因,或者并不会直接影响到员工离职,因此,可以将这类子样本集进行标记,以排除此种类别的特征数据对员工离职的影响。

s204,基于所述每个子样本集,对所述每个子样本集选择机器学习分类方法进行训练。

在本发明实施例中,基于所述每个子样本集,可以对每个子样本集选择相同的机器学习模型或者不同的机器学习模型进行训练,将不同类型的特征数据进行分类并作为一个子样本集选择机器学习模型进行训练,其目的在于可以针对不同类型的特征数据进行训练,并得到不同类型的特征数据对员工离职的影响程度。

在本实施例中,选择利用相同的机器学习模型对子样本集进行训练作为示例,具体步骤包括:

1),对每个子样本集进行样本初始化;

2),从每个子样本集中有放回地抽取得到用于训练的特征数据di,其中,i=1,2,...n;

3),对从每个子样本集所抽取的特征数据di进行训练。

在实际应用中,对每个子样本集进行样本初始化,将剔除未被标记的子样本集,因为这类子样本集并不能对员工离职造成实际影响,例如,这类子样本集被标记的标签为不可训练,可以直接剔除或者不予考虑;对已剔除“不可训练”而剩下的每个子样本集,将从每个子样本集中有放回地抽取得到用于训练的特征数据di,其中,i=1,2,...n,n为子样本集中的特征数据的数量,本实施例中使用的机器学习模型为最大熵模型对每个子样本集的特征数据进行训练;

在最大熵模型下,每个子样本集进行训练的影响程度的公式如下:

其中,z(d)是归一化因子;fk,c是特征函数,fk,c可以定义为:

除了最大熵模型外,本实施例还可以使用朴素贝叶斯和支持向量机模型对子样本集中的特征数据进行训练,最后得到对员工离职造成影响的各离职特征的影响程度。

s205,根据每个子样本集选择机器学习模型进行训练的训练结果,得到每个子样本集对应的基分类器。

在本发明实施例中,参考图5,图5为本实施例提供单层基分类器构建流程示意图,其中,gi代表第i个子样本集的所构建的基分类器的向量,di代表第i个子样本集,dsi代表第i个单层基分类器。本实施例中,使用对给定带有标签的子样本集使用机器学习模型(例如,最大熵模型、朴素贝叶斯和支持向量机模型)对子样本集中的特征数据进行训练,并得到建n个单层基分类器。其中,带有标签的子样本集由多个特征数据组成,子样本集为异常的,其标识为1;反之,子样本集正常的,其标识为0。

请参阅图6,对应上述一种员工离职特征的训练方法,本发明实施例还提出一种员工离职特征的训练装置,该装置100包括:采集单元101、处理单元102、划分单元103、训练单元104。

其中,所述采集单元101,用于采集与员工离职相关的多维度数据,作为训练用特征数据;

处理单元102,用于将所述训练用特征数据进行预处理,并将经过预处理的训练用特征数据作为训练样本;

划分单元103,用于按照预设规则将所述训练样本划分为m个相互独立的子样本集;

训练单元104,用于基于所述每个子样本集,对所述每个子样本集选择机器学习模型进行训练。

由以上可见,本实施例通过采集与员工离职相关的的多维度数据,作为训练用特征数据;将所述训练用特征数据进行预处理,并将经过预处理的训练用特征数据作为训练样本;按照预设规则将所述训练样本划分为m个相互独立的子样本集;基于所述每个子样本集,对所述每个子样本集选择机器学习模型进行训练,通过对离职员工的特征数据的训练,判断各个特征数据对员工离职的影响程度,从而可以提升企业预测员工离职意向的能力,以减少企业的损失。

如图7所示,所述处理单元102,包括:

确定单元1021,用于确定所述训练用特征数据的类型。

转换单元1022,用于将确定类型的所述训练用特征数据映射为预设消息模型对应的输入消息。

如图8所示,所述训练单元104,包括:

初始化单元1041,用于对每个子样本集进行样本初始化。

抽取单元1042,用于从每个子样本集中有放回地抽取得到用于训练的特征数据di,其中,i=1,2,...n。

训练子单元1043,用于对从每个子样本集所抽取的特征数据di进行训练。

请参阅图9,对应上述一种员工离职特征的训练方法,本发明实施例还提出一种员工离职特征的训练装置,该装置200包括:采集单元201、处理单元202、划分单元203、训练单元204、执行单元205。

其中,所述采集单元201,用于采集与员工离职相关的多维度数据,作为训练用特征数据。

处理单元202,用于将所述训练用特征数据进行预处理,并将经过预处理的训练用特征数据作为训练样本。

划分单元203,用于按照预设规则将所述训练样本划分为m个相互独立的子样本集。

训练单元204,用于基于所述每个子样本集,对所述每个子样本集选择机器学习模型进行训练,

执行单元205,用于根据每个子样本集选择机器学习模型进行训练的训练结果,得到每个子样本集对应的基分类器。

上述员工离职特征的训练装置与上述员工离职特征的训练方法一一对应,其具体的原理和过程与上述实施例所述方法相同,不再赘述。

上述员工离职特征的训练装置可以实现为一种计算机程序的形式,计算机程序可以在如图10所示的计算机设备上运行。

图10为本发明一种计算机设备的结构组成示意图。该设备可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式装置等具有通信功能的电子装置。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。参照图10,该计算机设备500包括通过系统总线501连接的处理器502、非易失性存储介质503、内存储器504和网络接口505。其中,该计算机设备500的非易失性存储介质503可存储操作系统5031和计算机程序5032,该计算机程序5032被执行时,可使得处理器502执行一种员工离职特征的训练方法。该计算机设备500的处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序被处理器执行时,可使得处理器502执行一种员工离职特征的训练方法。计算机设备500的网络接口505用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

其中,所述处理器502执行所述计算机程序时实现如下操作:

采集与员工离职相关的多维度数据,作为训练用特征数据;

将所述训练用特征数据进行预处理,并将经过预处理的训练用特征数据作为训练样本;

按照预设规则将所述训练样本划分为m个相互独立的子样本集;

基于所述每个子样本集,对所述每个子样本集选择机器学习模型进行训练。

在一个实施例中,所述处理器502执行所述计算机程序时还实现如下操作:

根据每个子样本集选择机器学习分类方法进行训练的训练结果,得到每个子样本集对应的基分类器。

在一个实施例中,所述基于所述每个子样本集,对所述每个子样本集选择机器学习模型进行训练,包括:

对每个子样本集进行样本初始化;

从每个子样本集中有放回地抽取得到用于训练的特征数据di,其中,i=1,2,...n;

对从每个子样本集所抽取的特征数据di进行训练。

在一个实施例中,所述将所述训练用特征数据进行预处理,包括:

确定所述训练用特征数据的类型;

将确定类型的所述训练用特征数据映射为预设消息模型对应的输入消息。

在一个实施例中,所述对每个子样本集选择机器学习模型进行训练,包括:

对每个子样本集选择相同的机器学习模型或者是不同的机器学习模型进行训练。

本领域技术人员可以理解,图10中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图10所示实施例一致,在此不再赘述。

本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行,以实现以下步骤:

采集与员工离职相关的多维度数据,作为训练用特征数据;

将所述训练用特征数据进行预处理,并将经过预处理的训练用特征数据作为训练样本;

按照预设规则将所述训练样本划分为m个相互独立的子样本集;

基于所述每个子样本集,对所述每个子样本集选择机器学习模型进行训练。

在一个实施例中,还实现以下步骤:

根据每个子样本集选择机器学习模型进行训练的训练结果,得到每个子样本集对应的基分类器。

在一个实施例中,所述基于所述每个子样本集,对所述每个子样本集选择机器学习模型进行训练,包括:

对每个子样本集进行样本初始化;

从每个子样本集中有放回地抽取得到用于训练的特征数据di,其中,i=1,2,...n;

对从每个子样本集所抽取的特征数据di进行训练。

在一个实施例中,所述将所述训练用特征数据进行预处理,包括:

确定所述训练用特征数据的类型;

将确定类型的所述训练用特征数据映射为预设消息模型对应的输入消息。

在一个实施例中,所述对每个子样本集选择机器学习模型进行训练,包括:

对每个子样本集选择相同的机器学习模型或者是不同的机器学习模型进行训练。

本发明前述的存储介质包括:磁碟、光盘、只读存储记忆体(read-onlymemory,rom)等各种可以存储程序代码的介质。

本发明所有实施例中的单元可以通过通用集成电路,例如cpu(centralprocessingunit,中央处理器),或通过asic(applicationspecificintegratedcircuit,专用集成电路)来实现。

本发明实施例员工离职特征的训练方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例员工离职特征的训练装置中的单元可以根据实际需要进行合并、划分和删减。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1