特征重要性获取方法及装置与流程

文档序号:15689686发布日期:2018-10-16 21:49阅读:121来源:国知局

本发明涉及数据处理领域,尤其涉及特征重要性获取方法及装置。



背景技术:

随着科技的不断发展,社会已经进入大数据时代,很多商家获取用户的行为数据,并对用户的行为数据进行分析,并根据分析结果调整销售策略已成为常态。例如,用户行为数据通常以一个m×n的特征矩阵来表示,其中该矩阵中的每一行可以表示一个用户,每一列可以表示不同用户的行为特征,例如该行为特征可以是用户的消费额度、常驻地点和社交关系等。

为了预测用户的未来行为以及获取导致用户未来行为的原因,现有技术中,通过建立对用户未来行为的预测模型,来输出导致该未来行为的重要的行为特征,用以辅助分析导致该行为的根因。例如,在实际业务场景中,利用分类/回归预测模型预测用户在未来是否消费额度下降,并输出每个特征对预测结果贡献的重要性权重,如图1所示,比如常驻地点特征重要性权重是0.8,而社交关系特征的重要性权重是0.2,通过对特征重要性权重从大到小排序,可以辅助分析最有可能是“常驻地点”的服务出现问题,才导致用户消费额度下降。然而,现有技术当中,在特征重要性排序时,输出的通常是一个基于整体的特征重要性向量。该特征重要性向量一般只能获取所有用户整体上的特征重要性,而无法直接获取所有用户中对于某个或部分用户的特征重要性排序。



技术实现要素:

为了解决现有技术当中的相关问题,本发明实施例提供了一种特征重要性获取方法及装置。

第一方面,本发明实施例提供了一种特征重要性获取方法,包括:

获取样本集合,所述样本集合包括多个样本,所述样本包括多个维度的特征;

通过所述样本集合对预设模型进行训练,得到训练模型,所述训练模型将所述样本集合划分为多个节点,每个所述节点包括由一个或者多个样本组成的样本群;

计算各个所述节点中预设类别的样本的激活强度和信息增益,所述激活强度表示所述节点中预设类别的样本在样本群中所占的权重,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,所述信息增益表示将所述节点划分前后的信息差,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关;

通过各个所述节点中预设类别的样本的激活强度和信息增益,获取每个所述预设类别的样本特征重要性,所述特征重要性表示所述预设类别的样本在各个维度分别对应的权重。在本发明实施例提供的一种可能的设计方式中,

在本发明实施例提供的一种可能的设计方式中,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,包括:

所述激活强度为预设类别的样本在样本群中所占比例的非负增函数。

在本发明实施例提供的一种可能的设计方式中,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关,包括:

所述预设类别的样本在样本群中所占的比例越高,所述预设类别的样本的信息增益越大。

在本发明实施例提供的一种可能的设计方式中,所述获取每个所述预设类别的样本特征重要性,包括:

获取每个所述预设类别的样本在所述训练模型中对应的节点;

将每个所述预设类别的样本在所述训练模型中对应节点的所述激活强度与所述信息增益之积,作为所述每个所述预设类别的样本特征重要性。

在本发明实施例提供的一种可能的设计方式中,所述获取每个所述预设类别的样本特征重要性,包括:

通过下述公式计算所述各个所述节点中预设类别的样本特征重要性:

t=mu*i(s_i,f_n),其中,t为所述节点上所述预设类别的样本特征重要性,mu为所述节点对应的激活强度,f_n为所述节点选择的分类特征,s_i为第i个节点上的样本群,i(s_i,f_n)为f_n对应的信息增益。

在本发明实施例提供的一种可能的设计方式中,所述方法还包括:

初始化矩阵z_{m,n},其中,m表示所述预设类别的样本的数量,n表示所述预设类别的样本的维度特征,m和n均为正整数;

通过下述公式计算所述预设类别的样本特征重要性矩阵:

z{m,n}=z{m,n}+mu*i(s_i,f_n),其中,mu为所述节点对应的激活强度,f_n为所述节点选择的分类特征,s_i为第i个节点上的样本群,i(s_i,f_n)为f_n对应的信息增益。

在本发明实施例提供的一种可能的设计方式中,所述预设模型包括:决策树模型、随机森林模型或增强树treeboosting模型。

第二方面,本发明实施例还提供了一种特征重要性获取装置,包括:

收发单元,用于获取样本集合,所述样本集合包括多个样本,所述样本包括多个维度的特征;

处理单元,用于通过所述样本集合对预设模型进行训练,得到训练模型,所述训练模型将所述样本集合划分为多个节点,每个所述节点包括由一个或者多个样本组成的样本群;

所述处理单元,还用于计算各个所述节点中预设类别的样本的激活强度和信息增益,所述激活强度表示所述节点中预设类别的样本在样本群中所占的权重,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,所述信息增益表示将所述节点划分前后的信息差,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关;

所述处理单元,还用于通过各个所述节点中预设类别的样本的激活强度和信息增益,获取每个所述预设类别的样本特征重要性,所述特征重要性表示所述预设类别的样本在各个维度分别对应的权重。

在本发明实施例提供的一种可能的设计方式中,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,包括:

所述激活强度为预设类别的样本在样本群中所占比例的非负增函数。

在本发明实施例提供的一种可能的设计方式中,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关,包括:

所述预设类别的样本在样本群中所占的比例越高,所述预设类别的样本的信息增益越大。

在本发明实施例提供的一种可能的设计方式中,所述处理单元,还用于获取每个所述预设类别的样本在所述训练模型中对应的节点;

所述处理单元,还用于将每个所述预设类别的样本在所述训练模型中对应节点的所述激活强度与所述信息增益之积,作为所述每个所述预设类别的样本特征重要性。

在本发明实施例提供的一种可能的设计方式中,所述处理单元,还用于通过下述公式计算所述各个所述节点中预设类别的样本特征重要性:

t=mu*i(s_i,f_n),其中,t为所述节点上所述预设类别的样本特征重要性,mu为所述节点对应的激活强度,f_n为所述节点选择的分类特征,s_i为第i个节点上的样本群,i(s_i,f_n)为f_n对应的信息增益。

在本发明实施例提供的一种可能的设计方式中,所述处理单元,还用于初始化矩阵z_{m,n},其中,m表示所述预设类别的样本的数量,n表示所述预设类别的样本的维度特征,m和n均为正整数;

所述处理单元,还用于通过下述公式计算所述预设类别的样本特征重要性矩阵:

z{m,n}=z{m,n}+mu*i(s_i,f_n),其中,mu为所述节点对应的激活强度,f_n为所述节点选择的分类特征,s_i为第i个节点上的样本群,i(s_i,f_n)为f_n对应的信息增益。

在本发明实施例提供的一种可能的设计方式中,所述预设模型包括:决策树模型、随机森林模型或增强树treeboosting模型。

在本发明实施例中提供的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述的特征重要性获取方法。

本发明实施例提供的特征重要性获取方法及装置,通过利用预设模型对样本进行训练,可以输出训练后的训练模型及样本的特征重要性矩阵。其中,样本的特征重要性矩阵中的每一列表示样本的一个特征重要性,通过样本的特征重要性矩阵可以获取任一一个或者多个样本的特征重要性。另外,本发明实施例还可以利用训练模型预测待测样本的特征重要性,通过训练模型输出的待测样本的特征重要性矩阵,可以获取一个或者多个待测样本的特征重要性。在实际应用当中,例如通过预测待测用户的多维度行为数据,得到待测用户的多维度特征重要性矩阵,可以获取到每个待测用户不同维度的数据对其重要性程度,进而可以指导业务人员针对某个或者多个不同的用户分别开展业务,提高工作效率。

附图说明

图1是现有技术中用户的特征重要性向量示意图;

图2是发明实施例提供的用户特征重要性矩阵示意图;

图3是根据本发明一示例性实施例示出的一种特征重要性获取方法的流程图;

图4是图3中步骤s324的流程图;

图5是根据本发明一示例性实施例示出的一种特征重要性获取装置的结构示意图;

图6是根据本发明一示例性实施例示出的又一种特征重要性获取装置的结构示意图。

具体实施方式

下面结合附图,对本发明的实施例进行描述。

在获取样本的特征重要性时,一般输出的通常是一个基于整体的特征重要性向量。该特征重要性向量一般只能体现所有样本整体上的特征重要性,而无法直接得到所有样本中对于每个样本的特征重要性。使得相关人员如业务人员无法根据得到的样本特征重要性,直接对某个或者部分样本的特征进行分析。

因此,为了获取每个样本的特征重要性,本发明实施例提供了一种特征重要性获取方法及装置,其中,本发明实施例中以业界主流的分类/回归模型“决策树”(categorizationandregressiontree,cart)为例进行说明,在其它实施例中,还可以是随机森林模型或增强树treeboosting模型等来实现,本发明实施例并不限于此,并且本发明实施例还可以通过输出样本特征重要性矩阵,进而可以获取实现对某个或者多个样本的特征重要性,并且根据需要,还可以对特征重要性进行排序。

本发明提供的实施例可以用于用户的行为特征分析,本发明实施例以运营商离网用户的根因分析为例进行说明,如图2所示,图2为本发明实施例提供的样本集合,其中,该样本集合为矩阵,该矩阵中每一行代表一个样本,即一个用户,该矩阵的每一列表示一个样本的维度特征,及用户的维度特征。本发明实施例通过计算出每个用户在各个维度特征上特征重要性,可以预测即将离网的用户哪些维度特征比较重要,以便指示业务人员有针对性的开展业务,提前采取相关措施,避免这些即将离网的用户离网。另外,需要说明的是,本发明实施例提供的特征重要性获取方法及装置,具体还可以应用于电声平台、社交网络和商场购物等场景中,本发明实施例不限于此,其用户的特征重要性可以通过下述实施例计算得到。

其中,本发明实施例可以将样本的特征重要性计算过程分为通过训练样本对模型的训练过程,以及通过训练后的模型对待测样本的预测过程。在训练过程中,通过训练样本对模型的训练,可以输出每个训练样本的特征重要性,进而得到特征重要性矩阵。在预测过程中,通过输入训练后的模型的待测样本,可以计算出每个待测样本在各个维度特征上的特征重要性。示例性的,在本发明提供的实施例中,输入的是训练样本的特征矩阵x_{m,n}和对应的标签向量y_{m}(以二分类为例),输出是cart模型参数和特征重要性向量z_{m,n}。决策树预测过程中,输入是预测样本的特征矩阵x’_{m,n}和cart模型参数,输出是预测样本对应的特征重要性矩阵z’_{m,n}。

本发明实施例以对cart模型为例进行说明,本发明实施例在对通过样本数据对cart模型训练过程中,若用{x,y}表示训练样本,需要将训练样本{x,y}输入到cart模型中,通过循环cart的所有叶子节点,判断cart的所有叶子节点是否均满足节点分裂结束条件。

其中,由于cart由节点和连接节点的边构成,在cart模型中,树中的节点只能分裂成左右两个节点,训练从最初始的根节点(最高一层)出发,分裂成左右两个叶子节点,然后不断对每个叶子节点进行切分,直到满足叶子节点的条件不再分裂。通常,将“叶子节点”定义为决策树的末梢节点,“根节点”定义为初始节点,中间的节点统称为普通的“节点”。当一个“叶子节点”分裂成左右两个叶子节点后,该“叶子节点”变为普通的“节点”。每个节点对应于一组样本群s,分裂为左右两个叶子节点对应的样本群分别为s_left和s_right,满足s_left和s_right无交集(或者并集为空),s_left和s_right的并集是s。某个特征f_n的切分点(splittingpoint)定义为一个阈值,如果样本的特征值小于该阈值,则被分到左节点,反之则被分到右节点。对于cart决策树的每个叶子节点,有两个操作:1)分裂;2)不分裂。当所有叶子节点都不分裂时,cart决策树训练结束,输出模型参数。

首先,本发明实施例中获取cart中的节点分裂过程如下。

步骤101、循环训练样本中的所有特征;

步骤102、对cart节点中的所有样本按照特征值的从小到大顺序排序;

步骤103、对于排序后的样本,如果相邻样本的标签y不同,那么把这两个样本特征值的平均值作为切分点;

步骤104、将小于切分点的样本划入左子节点,将不小于且分点的样本划入右子节点,并计算所有切分点对应的信息增益;

其中,信息增益可以通过计算基尼gini增益或者熵entropy增益得到。

gini增益可以通过公式(1)计算得到:

其中,pk表示第k类样本所占的比例,p、k和k均为正整数。

entropy增益可以通过下述公式(2)计算得到:

其中,pk表示第k类样本所占的比例,p、k和k均为正整数。

以通过gini为例,通过公式(3)来计算信息增益i(s,f_n):

i(s,f_n)=g(s)-pleft·g(sleft)-pright·g(sright)(3)

其中,i(s,f_n)表示信息增益,g(s)表示gini增益,pleft表示左节点中样本所占比例,g(sleft)表示左节点的gini增益,pright表示右节点中样本所占比例,g(sright)表示右节点的gini增益,sleft表示左节点,sright表示右节点。

步骤105、从所有切分点中选取增益值最大的作为该特征的最优切分点

步骤106、按照最优切分点从所有特征中选取增益值最大的特征来做为所需分裂节点的分裂特征,用最优切分点作为切分点对该节点进行分裂,将该节点中的样本群s分成两个子群,分别为s_left和s_right。

其次,判断cart中的节点何时结束分裂。

本发明实施例中用于判断节点是否分裂结束的条件可以有三个,可以分别用三个预先给定的算法参数:max_depth、min_samples_split和min_samples_leaf来表示。

其中,max_depth、min_samples_split和min_samples_leaf分别表示最大节点深度、最小分裂节点样本数和叶子节点最小样本数。

如果当前节点的深度(相对于根节点分裂的次数)大于或者等于max_depth,那么结束分裂,当前节点是叶子节点(根节点深度是0);

示例性的,如果max_depth为5,那么cart的每一支叶子节点分裂到第5层,就会停止分裂。

如果当前节点内的样本数小于min_samples_split,那么结束分裂,此时当前节点是叶子节点;另外,如果min_samples_split=1,表示叶子节点最终只有1个样本(正样本或者负样本),此时该节点停止分裂;

示例性的,如果min_samples_split定义为3,那么对每一个叶子节点检查样本群s的大小,如果小于3,该节点就停止分裂。

如果当前节点内的样本数小于2倍的min_samples_leaf,那么结束分裂,当前节点是叶子节点(如果小于了2倍,那么分裂后总有一个子节点的样本数小于min_samples_leaf,这样就不满足要求)。

示例性的,假设min_samples_leaf设为2,检查每一个分裂节点后的左节点样本群s_left和右节点样本群s_right,如果左节点样本群和右节点样本群中任何一个小于2,该分裂节点停止分裂。

再次,计算特征重要性矩阵z_{m,n}。

步骤201、循环cart所有节点中的样本集合s,计算每个节点相对正样本的激活强度mu。其中,mu的计算方式是每个节点中正样本占s的比例p+的一个非负增函数(线性或者非线性函数)f(p+),即p+增大,f(p+)也增大,即p+与f(p+)之间的关系可以是连续线性的,还可以是连续非线性的,抑或是不连续非线性的等等。示例性的,比如叶子节点中的训练数据有10个,其中8个为正样本,2个为负样本,那么最后落到这个叶子节点的预测数据预测为正样本的概率是0.8。

示例性的,本发明提供的实施例可以包含以下三种情况:1)在p+与f(p+)之间的关系为连续线性函数时,例如mu=p+,其中p+是当前节点的正样本占当前节点全部样本s的比例;2)在p+与f(p+)之间的关系为连续非线性函数时,例如mu=(p+)^2;3)在p+与f(p+)之间的关系为不连续非线性函数时,例如分裂的左右两节点:如果p+_left>p+_right,则mu_left=1;mu_right=0。如果p+_left<=p+_right,则mu_left=0;mu_right=1。这样,所有节点都会计算出一个对应的激活强度大小mu。

步骤202、每个样本沿着决策树(每个分裂节点的特征切分点值)一直走到叶子节点,记录每个样本经过的分裂节点。

步骤203、初始化矩阵z_{m,n}=0。当每个样本m经过一个分裂节点时,执行累加操作:z{m,n}=z{m,n}+mu*i(s_i,f_n),其中,mu为所述决策树模型上节点对应的激活强度,f_n为所述决策树模型上节点选择的分类特征,s_i为所述决策树模型上第i个节点的样本集合,i(s_i,f_n)为f_n对应的信息增益。

最后,预测待测样本的特征重要性。

通过初始化特征重要性矩阵z’_{m,n}=0,通过输入待测用户的预测样本及训练后得到的模型参数,将每个预测样本m沿着cart(每个分裂节点的特征切分点值)一直走到叶子节点,当每个样本经过一个分裂节点时,执行累加操作:z’_{m,n}=z’_{m,n}+mu*i(s_i,f_n),其中mu和i(s_i,f_n)是cart训练后输出的模型参数。

需要再次说明的是,本发明实施例以cart为例说明了如何通过训练后得到的待测样本,示例性的,可以通过预测模型来预测用户行为数据的特征重要性。本发明实施例可以输出用户的特征重要性矩阵,而该矩阵中每一行中的各个特征数据代表不同特征对一个用户的重要程度,通过该特征重要性矩阵,可以直接得到其中的一个或者多个用户的特征重要性排序,由于每个用户的特征重要性排序可能不同,这样可以指导业务人员针对某个或者多个用户分别开展业务,以提高工作效率。示例性的,如图2所示,图2为本发明实施例提供的用户特征重要性矩阵示意图。图2表示本发明实施例中通过输出每个用户对于各个属性的特征重要性,可以指示业务人员直接获取不同用户的特征重要性,例如,如果需要获取某个用户群的特征重要性(包括多个用户),可以将这些用户的特征重要性相加即可得到,通过特征重要性排序,可以获取哪些特征对于一个或多个用户是最重要的等等。

在本发明提供的又一实施例中,本发明实施例提供的cart还可以应用到回归当中,回归和分类的区别在于标签y的取值可以是连续实数,整个训练流程与上述实施例中的分类相似,仅在计算分裂节点的信息增益公式不同。对于回归问题,定义每个节点样本群s上的variance(方差)为:

其中,为ns为s节点的样本数量。信息增益的定义和之前的分类场景类似,参见下述公式(5)所示。

i(s,f_n)=v(s)-pleft·v(sleft)-pright·v(sright)(5)

其中,i(s,f_n)表示信息增益,v(s)表示gini增益,pleft表示左节点中样本所占比例,v(sleft)表示左节点的gini增益,pright表示右节点中样本所占比例,v(sright)表示右节点的gini增益,sleft表示左节点,sright表示右节点。

然后同样也是要找最优切分点(最大信息增益的切分点),再找最优特征f_n(在最优切分点下,信息增益最大的特增值),分裂为左右节点的子样本群。在预测流程中,回归的输出就是叶子节点中训练样本的标签值y的平均值。比如叶子节点中有3个训练样本,它们的标签分别是y={2,4,6}。那么落在这个叶子节点的预测样本的预测结果为4(公式为)。特征重要性计算公式和分类场景下完全一样,只是把i(s,f_n)换成回归场景下的公式。

为了详述上述实施例的执行流程,结合上述各实施例,在本发明提供的又一实施例中,还提供了一种特征重要性获取方法,如图3所示,该方法可以包括如下步骤:

在步骤s310中,获取样本集合。

其中,该样本集合包括多个样本,每个样本包括多个维度的特征。示例性的,该样本为多维度数据矩阵,该多维度数据矩阵的每一行表示一个样本,该多维度数据矩阵的每一列表示一个特征维度。

示例性的,可以如图2所示,针对用户对某超市或商场的购物场景,用户的多维度行为数据,可以是用户的收入、常住地、服务体验和商品价格等等。

在步骤s320中,通过样本集合对预设模型进行训练,得到训练模型。

其中,训练模型将样本集合划分为多个节点,每个节点包括由一个或者多个样本组成的样本群。

其中,将训练样本样本数据作为预测模型预设模型的输入量,该预测模型预设模型的输出量包括训练样本样本的特征重要性矩阵,该训练样本样本的特征重要性矩阵用于获取训练样本样本的特征重要性,该训练样本样本的特征重要性矩阵的每一行表示一个训练样本样本,每一列表示训练样本样本的重要性。

需要说明的是,本发明实施例中的预设模型,可以是cart、随机森林模型或增强树treeboosting模型等。

在步骤s330中,计算各个节点中预设类别的样本的激活强度和信息增益。

其中,该激活强度表示节点中预设类别的样本在样本群中所占的权重,激活强度与预设类别的样本占样本群的比例正相关,信息增益表示将节点划分前后的信息差,信息增益与预设类别的样本在样本群中的类别一致性正相关。示例性的,该预设类别可以是正样本。

另外,激活强度与预设类别的样本占样本群的比例正相关,可以是激活强度为预设类别的样本在样本群中所占比例的非负增函数。

信息增益与预设类别的样本在样本群中的类别一致性正相关,可以是预设类别的样本在样本群中所占的比例越高,预设类别的样本的信息增益越大。

本发明实施例中激活强度和信息增益的计算方式,已在上述实施例中有详细描述,具体请参见上述实施例,这里不再赘述。

在步骤s340中,通过各个节点中预设类别的样本的激活强度和信息增益,获取每个预设类别的样本特征重要性。

特征重要性表示预设类别的样本在各个维度分别对应的权重。

因此,为了详述如何获取每个预设类别的样本特征重要性,作为图3方法的细化,如图4所示,在本发明提供的又一实施例中,步骤s340还可以包括如下步骤:

在步骤s341中,获取每个预设类别的样本在训练模型中对应的节点。

在步骤s342中,将每个预设类别的样本在训练模型中对应节点的激活强度与信息增益之积,作为每个预设类别的样本特征重要性。

本发明实施例中可以通过下述公式计算各个节点中预设类别的样本特征重要性:

t=mu*i(s_i,f_n),其中,t为节点上预设类别的样本特征重要性,mu为节点对应的激活强度,f_n为节点选择的分类特征,s_i为第i个节点上的样本群,i(s_i,f_n)为f_n对应的信息增益。

另外,本发明实施例中还可以输出样本特征重要性矩阵,具体的,初始化矩阵z_{m,n},其中,m表示预设类别的样本的数量,n表示预设类别的样本的维度特征,m和n均为正整数;

通过下述公式计算预设类别的样本特征重要性矩阵:

z{m,n}=z{m,n}+mu*i(s_i,f_n),其中,mu为节点对应的激活强度,f_n为节点选择的分类特征,s_i为第i个节点上的样本群,i(s_i,f_n)为f_n对应的信息增益。

有关样本的特征重要性矩阵已在上述实施例中详细阐述,请参见上述实施例,这里不再赘述。

本发明实施例提供的特征重要性获取方法,通过利用预设模型对样本进行训练,可以输出训练后的训练模型及样本的特征重要性矩阵。其中,样本的特征重要性矩阵中的每一列表示样本的一个特征重要性,通过样本的特征重要性矩阵可以获取任一一个或者多个样本的特征重要性。另外,本发明实施例还可以利用训练模型预测待测样本的特征重要性,通过训练模型输出的待测样本的特征重要性矩阵,可以获取一个或者多个待测样本的特征重要性。在实际应用当中,例如通过预测待测用户的多维度行为数据,得到待测用户的多维度特征重要性矩阵,可以获取到每个待测用户不同维度的数据对其重要性程度,进而可以指导业务人员针对某个或者多个不同的用户分别开展业务,提高工作效率。

通过以上的方法实施例的描述,所属领域的技术人员可以清楚地了解到本发明实施例可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:只读存储器(rom)、随机存取存储器(ram)、磁碟或者光盘等各种可以存储程序代码的介质。

另外,作为对上述各实施例的实现,结合上述各实施例,本发明实施例还提供了一种特征重要性获取装置,该装置位于终端或服务器中,如图5所示,该装置可以执行上述实施例中提供的特征重要性获取方法,具体的,该装置包括:

收发单元,用于获取样本集合,所述样本集合包括多个样本,所述样本包括多个维度的特征;

处理单元,用于通过所述样本集合对预设模型进行训练,得到训练模型,所述训练模型将所述样本集合划分为多个节点,每个所述节点包括由一个或者多个样本组成的样本群;

所述处理单元10,还用于计算各个所述节点中预设类别的样本的激活强度和信息增益,所述激活强度表示所述节点中预设类别的样本在样本群中所占的权重,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,所述信息增益表示将所述节点划分前后的信息差,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关;

所述处理单元20,还用于通过各个所述节点中预设类别的样本的激活强度和信息增益,获取每个所述预设类别的样本特征重要性,所述特征重要性表示所述预设类别的样本在各个维度分别对应的权重。

在本发明提供的一种可能的设计方式中,所述预设模型包括:决策树模型、随机森林模型或增强树treeboosting模型。

在本发明提供的一种可能的设计方式中,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,包括:

所述激活强度为预设类别的样本在样本群中所占比例的非负增函数。

在本发明提供的一种可能的设计方式中,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关,包括:

所述预设类别的样本在样本群中所占的比例越高,所述预设类别的样本的信息增益越大。

在本发明提供的一种可能的设计方式中,所述处理单元,还用于获取每个所述预设类别的样本在所述训练模型中对应的节点;

所述处理单元,还用于将每个所述预设类别的样本在所述训练模型中对应节点的所述激活强度与所述信息增益之积,作为所述每个所述预设类别的样本特征重要性。

在本发明提供的一种可能的设计方式中,所述处理单元,还用于通过下述公式计算所述各个所述节点中预设类别的样本特征重要性:

t=mu*i(s_i,f_n),其中,t为所述节点上所述预设类别的样本特征重要性,mu为所述节点对应的激活强度,f_n为所述节点选择的分类特征,s_i为第i个节点上的样本群,i(s_i,f_n)为f_n对应的信息增益。

在本发明提供的一种可能的设计方式中,所述处理单元,还用于初始化矩阵z_{m,n},其中,m表示所述预设类别的样本的数量,n表示所述预设类别的样本的维度特征,m和n均为正整数;

所述处理单元,还用于通过下述公式计算所述预设类别的样本特征重要性矩阵:

z{m,n}=z{m,n}+mu*i(s_i,f_n),其中,mu为所述节点对应的激活强度,f_n为所述节点选择的分类特征,s_i为第i个节点上的样本群,i(s_i,f_n)为f_n对应的信息增益。

在本发明提供的一种可能的设计方式中,所述预设模型包括:决策树模型、随机森林模型或增强树treeboosting模型。

本发明实施例提供的特征重要性获取装置,通过利用预设模型对样本进行训练,可以输出训练后的训练模型及样本的特征重要性矩阵。其中,样本的特征重要性矩阵中的每一列表示样本的一个特征重要性,通过样本的特征重要性矩阵可以获取任一一个或者多个样本的特征重要性。另外,本发明实施例还可以利用训练模型预测待测样本的特征重要性,通过训练模型输出的待测样本的特征重要性矩阵,可以获取一个或者多个待测样本的特征重要性。在实际应用当中,例如通过预测待测用户的多维度行为数据,得到待测用户的多维度特征重要性矩阵,可以获取到每个待测用户不同维度的数据对其重要性程度,进而可以指导业务人员针对某个或者多个不同的用户分别开展业务,提高工作效率。

本发明实施例还提供一种装置,如图6所示,该终端210包括:至少一个处理器211、至少一个收发器213和至少一个存储器212,其中,

存储器212用于存储计算机执行指令;存储器212可以包括只读存储器和随机存取存储器,并向处理器211提供指令和数据。存储器212的一部分还可以包括非易失性随机存取存储器(nvram,non-volatilerandomaccessmemory);

处理器211与收发器213、存储器212相连接;

在本发明一个实施例中,该装置可以是终端,当第一终端运行时,处理器211执行存储器212中存储的计算机执行指令,处理器211可以上述实施例中提供的任一特征重要性获取方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

可以理解的是,本发明实施例可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里公开的发明实施例后,将容易想到本发明实施例的其它实施方案。本申请旨在涵盖本发明实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明实施例的一般性原理并包括本发明实施例未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明实施例的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明实施例并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明实施例的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1