一种基于关联网络的目标节点关键信息填补方法及系统与流程

文档序号:19741335发布日期:2020-01-18 05:15阅读:283来源:国知局
一种基于关联网络的目标节点关键信息填补方法及系统与流程

一种基于关联网络的目标节点关键信息填补方法及系统,用于基于关联网络,对目标节点的关键信息填补,属于数据挖掘、机器学习和图论技术领域。



背景技术:

在许多场景中,都存在目标信息不足情况下,有预测目标关键信息的需求。具体场景包括金融信贷领域、电商推荐领域和健康评估领域,以及其它领域。

场景一:金融信贷领域,如何对信用白户准入进行信用评估。信用白户自身没有足够的基础信贷信息供金融机构评估其还款意愿与还款能力,此时利用目标节点亲密关系人(即紧邻的网络节点)的相关信息,可以为目标节点的还款意愿进行评估。而关联网络的建立可以依靠金融机构的存量节点数据及目标节点进件时填写的紧急联系人信息、亲属信息及电话频繁联系人等维度构建。

场景二:电商推荐领域。目标节点活跃度较低时,即没有购物记录与鲜有浏览信息的情况下,如何预测其潜在的购物倾向,进而实现更加精准产品推荐。可以利用其社交信息建立关联网络,从邻近的网络节点中采集关联节点的浏览数据、购买数据等,建立模型评估目标节点的购物倾向。

场景三:健康评估领域。具体来说,如何对一个尚且健康的人预测未来某类疾病患病几率。已知家族病史具有一定的科学依据,可以利用人的亲属关系构建关联网络,利用关联节点的身体素质评估、患病年龄、患病种类、饮食习惯、生活习惯等维度信息,来对目标人的某类疾病的患病几率做预测,进而更早做好疾病预防工作。

最典型的场景是金融领域如何对信用白户授信。当新申请用户鲜有历史信贷记录(缺乏特征变量),贷款机构无法利用已有的评分模型对其信用风险进行评估。对于这种情况,目前采用的一般性方法有:

1.对用户缺失的特征维度,按照存量用户的平均值、中值、分位数、众数、随机值等替代,然后入模打分;缺失特征维度的填补效果较差,等于人为增加了噪声。

2.用其他已知特征做预测模型来算出缺失变量。问题在于,如果其他变量本身较少,并且与缺失特征无任何关联,预测的结果毫无意义;如果预测结果相当准确,则又说明预测变量与已知变量强相关,没必要加入模型中,所以造成尺度(即指未知特征对已知特征的拟合尺度)很难把握。

3.忽视这些特征维度,寻找其他的特征维度用以替代。常用方法是如果用户没有相关的特征变量,那就查找第三方与之对应的特征数据用以替代。该方法理论上有效,但是有以下问题:首先,该方法有对应特征存在假设,可能需要花非常多的精力、经费去寻找对应特征,有时甚至不可得。其次,如果用户缺失特征维度较多,即便是找到少许维度的对应特征,整体的特征缺失率仍然很高,还是无法对用户的关键行为做出准确的预测。

随着图论的发展,利用关联网络来预测目标节点的关键信息成为另一个可能性。人与人之间存在复杂的社交关系,利用社交关系建立的网络,网络里的人群行为往往存在相关性。以信用风险预测场景为例,目前采用关联网络来预测节点违约的主要步骤如下:

1.定义一个复杂网络,根据网络节点与目标节点的距离(亲疏关系),定义一阶邻近节点、二阶邻近节点。

2.信用风险的传递,主要分为了两种方法:

(1)权重训练法。即根据邻近节点的风险值及节点类型,设置不同的传播权重,建立模型来训练传播权重。通过在大样本上训练的权重来获得一般性的风险传播公式。这种方法的前提假设是1)关联网络里的风险值是相关的;2)不同网络之间的风险值传播权重有一个范用解。而现实生活中,人们的社交关系复杂,不同网络的结构及传播方法千变万化,很难找到一个风险传播权重范用解。该方法的预测效果往往较差。

(2)增添社交信息。利用建立好的关联网络,衍生出目标的社交网络信息,例如邻近节点中有多少人贷款逾期、多少人正常无逾期等。该方法本质上是增加了目标节点的特征维度,与上述一般性方法3类似。该方法的问题在于衍生的社交网络信息,与节点自身的关键信息(是否会逾期)并不存在强相关,往往无法独立使用,仍然需要结合目标节点自身已有的特征来进行预测。这样带来另一个问题:由于结合了已有特征与社交特征,特征维度暴增,由于社交网络信息的多变性,还会带来特征稀疏的问题,从而加大模型训练的困难,占用更多的计算资源。



技术实现要素:

针对上述研究的问题,本发明的目的在于提供一种基于关联网络的目标节点关键信息填补方法及系统,解决现有技术中,(1)对目标节点进行关键信息填补中,需要依靠目标节点自身的特征,在目标节点无相关特征的情况,根本无法对目标节点的关键信息进行填补;(2)填补的目标节点的关键信息准确率低;(3)占用资源多的问题。

为了达到上述目的,本发明采用如下技术方案:

一种基于关联网络的目标节点关键信息填补方法,包括如下步骤:

s1、根据应用场景,基于大量的节点中的各节点建立关系网络,得到大量的关系网络;

s2、基于大量的关系网络,获取有关键信息的节点作为目标节点,将其对应的关系网络作为关联网络整合成包含目标节点、目标节点对应的关键信息的标签、目标节点对应的关联节点、各关联节点的节点权重和与目标节点的关键信息相关联的、各关联节点的属性向量的数据结构,即得到整合后的训练集,其中,关键信息是指需要预测的行为;

s3、基于改进的随机森林法对整合后的训练集进行多次三维采样,得到多个训练决策树的子集;

s4、基于多个训练决策树的子集,给定多个相对应的决策树进行训练,对多个训练后的决策树进行整合,即得到最终模型;

s5、基于待填补关键信息的目标节点的关联节点的特征向量和权重,通过最终模型进行预测,得到多个结果,将多个结果加权平均,得到最终的填补信息,即关键信息。

进一步,所述步骤s1中的应用场景包括金融信贷场景、电商推荐场景或健康评估场景;关系网络的维度包括已知的节点的常用联系人、已知的节点的亲属关系、已知的节点的朋友、已知的节点的同事;关系网络中的关联节点根据关系疏远程度给予不同的权重或平均分配权重;大量的节点为一万个节点以上,关系网络的数量与节点的数量相同。

进一步,所述步骤s2的具体步骤为:

s2.1、基于大量的关系网络,采用有监督的机器学习方法准备训练样本,即在大量的关系网络中挑选有关键信息的节点作为目标节点,即训练样本,挑选的所有的有关键信息的目标节点构成训练集,其中,关键信息是指需要预测的行为,在金融信贷场景,包括用户是否违约;在电商推荐场景,包括用户是否有购买意向;在健康评估场景,包括用户患有某种疾病的风险的大小;

s2.2、将各训练样本对应的关系网络作为关联网络整合成包含目标节点、目标节点对应的关键信息的标签、目标节点对应的关联节点、各关联节点的节点权重和与目标节点的关键信息相关联的、各关联节点的属性向量的数据结构,即得到整合后的训练集。

进一步,所述步骤s2.2中,在金融信贷场景,属性向量包括关联节点的历史借款记录、收入、学历和年龄;在电商推荐场景,属性向量包括浏览数据和购买数据;在健康评估场景,属性向量包括身体素质评估、患病年龄、患病种类、饮食习惯和生活习惯。

进一步,所述步骤s3的具体步骤为:

s3.1、样本扰动:采用自助抽样法从整合后的训练集中均匀、有放回地选出m个包含目标节点数为n′的子集di,m为抽样次数,n′为每个子集包含的目标节点个数,与原训练集中的目标节点数量相同,di为m个子集中的第i个子集;

s3.2、属性类别扰动:基于目标节点数为n′的各子集di,已知关联节点属性向量维度为k,从k维里随机抽取不超过k维的属性向量ki作为子集di的属性向量,即各目标节点的关联节点的属性向量为ki,其中,ki代表第i个子集经属性类别扰动后的属性向量;

s3.3、属性值扰动:针对属性类别扰动后的各子集di中的每个目标节点on,进行属性值扰动,即已知目标节点on有m个关联节点rnm、m个关联权重wnm、m个属性向量组xnm,基于子集的属性向量ki,属性值为从m个属性向量组xnm中按照权重抽样得到,每个属性向量被抽取到的概率是j=1,2…m,其中,pj为第j个关联节点属性值被取到的概率,wj为第j个关联节点对应的权重,为所有关联节点的权重和;

s3.4、对m个子集di依次进行属性类别扰动和属性值扰动抽样后,得到m个训练决策树的子集。

进一步,所述步骤s4中,决策树结果为变量0或1时、为分类问题,采用majorityvoting,即多数投票法整合训练后的决策树;决策树结果为连续变量时、为回归问题,采用均值法整合训练后的决策树。

进一步,所述步骤s5中,基于待填补的目标节点的关联节点的特征向量和权重,通过最终模型进行预测,得到多个结果,将多个结果加权平均,得到最终的填补信息,公式如下:

pfinal=∑(wm×pm),

其中,pfinal为目标节点的关键信息,wm、pm为目标节点对应的某一关联节点的权重及最终模型输出的该关联节点的预测结果。

一种基于关联网络的目标节点关键信息填补系统,包括:

网络运算模块:根据应用场景,基于大量的节点中的各节点建立关系网络,得到大量的关系网络;

数据整合模块:基于大量的关系网络,获取有关键信息的节点作为目标节点,将其对应的关系网络作为关联网络整合成包含目标节点、目标节点对应的关键信息的标签、目标节点对应的关联节点、各关联节点的节点权重和与目标节点的关键信息相关联的、各关联节点的属性向量的数据结构,即得到整合后的训练集,其中,关键信息是指需要预测的行为;

三维抽样模块:基于改进的随机森林法对整合后的训练集进行多次三维采样,得到训练决策树的多个子集;

模型训练模块:基于多个训练决策树的子集,给定多个相对应的决策树进行训练,对多个训练后的决策树进行整合,即得到最终模型;

预测模块:基于待填补关键信息的目标节点的关联节点的特征向量和权重,通过最终模型进行预测,得到多个结果,将多个结果加权平均,得到最终的填补信息,即关键信息。

本发明同现有技术相比,其有益效果表现在:

一、本发明预测及训练样本中未用到目标节点自身任何的属性变量(即属性向量),只使用了关联节点的特征变量(即属性向量);从预测角度来看,实现了提前预测:因为不依赖于目标节点本身的属性向量,可以更早期的预测目标节点的关键行为倾向,而无需等待用户产生相关行为形成自身属性变量后再做预测,从用户自身角度来看,有些场景下,用户的自身属性无法获得,例如消费信贷的中的信用白户,存在没有历史信贷记录(无属性向量)-无法做信用评估-继无信贷记录(无属性向量)的恶性循环,而该技术可以破解该恶性循环;

本发明与传统社交网络增加变量维度的方法相比,由于不使用自身属性变量,而且属性向量为二维(列,层)堆叠(属性类别构成列,属性取值构成层),减少了特征维度,减缓了特征稀疏问题,降低了机器学习模型的训练复杂度及计算机的计算性能消耗;

二、与传统随机森林法相比,本发明更贴合目标节点整合关联网络后的数据结构,抽样的子样本集更多变,训练获得的子分类器差异性更大,最终模型融合后的预测效果会更优;

三、与传统关联网络应用不同,本发明的思想是通过关联节点的各种基础信息来预测目标节点的关键信息,并不需要节点之间存在关键信息能够直接传递的强假设,而只需要假设基础信息在节点之间可以部分近似传递,通过大量的基础信息维度的堆叠,最终来准确预测目标节点的关键信息,本发明更贴近现实场景,更为合理。

四、本发明普遍使用于数据挖掘领域,对计算硬件资源无特殊要求。

附图说明

图1为本发明的流程示意图;

图2是本发明的系统框架示意图;

图3是本发明的数据结构示意图;

图4是本发明实施例中整合后的训练集中的样本的关联网络节点的情况的示意图;

图5是本发明实施例中整合后的验证集中的样本的关联网络节点的情况示意图;

图6是本发明实施例中最终模型对验证样本逐个评估,针对验证样本的关联节点数输出相应个数的概率评估的示意图;

图7是本发明实施例中根据验证样本的关联节点个数分层,针对每一层用模型评估,以2组为例的示意图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

一种基于关联网络的目标节点关键信息填补方法,包括如下步骤:

s1、根据应用场景,基于大量的节点中的各节点建立关系网络,得到大量的关系网络;应用场景包括金融信贷场景、电商推荐场景或健康评估场景;关系网络的维度包括已知的节点的常用联系人、已知的节点的亲属关系、已知的节点的朋友、已知的节点的同事;还可为其它应用场景;关系网络中的关联节点根据关系疏远程度给予不同的权重或平均分配权重;大量的节点为一万个节点以上,关系网络的数量与节点的数量相同。

s2、基于大量的关系网络,获取有关键信息的节点作为目标节点,将其对应的关系网络作为关联网络整合成包含目标节点、目标节点对应的关键信息的标签、目标节点对应的关联节点、各关联节点的节点权重和与目标节点的关键信息相关联的、各关联节点的属性向量的数据结构,即得到整合后的训练集,其中,关键信息是指需要预测的行为;

具体步骤为:

s2.1、基于大量的关系网络,采用有监督的机器学习方法准备训练样本,即在大量的关系网络中挑选有关键信息的节点作为目标节点,即训练样本,挑选的所有的有关键信息的目标节点构成训练集,其中,关键信息是指需要预测的行为,在金融信贷场景,包括用户是否违约;在电商推荐场景,包括用户是否有购买意向;在健康评估场景,包括用户患有某种疾病的风险的大小,在各种场景中,还可为其它需求的关键信息;

s2.2、将各训练样本对应的关系网络作为关联网络整合成包含目标节点、目标节点对应的关键信息的标签、目标节点对应的关联节点、各关联节点的节点权重和与目标节点的关键信息相关联的、各关联节点的属性向量的数据结构,即得到整合后的训练集。

在金融信贷场景,属性向量包括关联节点的历史借款记录、收入、学历和年龄;在电商推荐场景,属性向量包括浏览数据和购买数据;在健康评估场景,属性向量包括身体素质评估、患病年龄、患病种类、饮食习惯和生活习惯。在各种场景中,还可为其它需求的属性向量。

s3、基于改进的随机森林法对整合后的训练集进行多次三维采样,得到多个训练决策树的子集;

具体步骤为:

s3.1、样本扰动:采用自助抽样法从整合后的训练集中均匀、有放回地选出m个包含目标节点数为n′的子集di,m为抽样次数,n′为每个子集包含的目标节点个数,与原训练集中的目标节点数量相同,di为m个子集中的第i个子集;具体为:整合后的训练集中有n′个目标节点,每次自助抽样时,均匀、有放回地选出m个包含目标节点数为n′的子集di,其中,自助抽样法多次利用训练样本,将训练集中的n′个目标节点个数,扩展为了m个n′的子集di;

s3.2、属性类别扰动:基于目标节点数为n′的各子集di,已知关联节点属性向量维度为k,从k维里随机抽取不超过k维的属性向量ki作为子集di的属性向量,即各目标节点的关联节点的属性向量为ki,其中,ki代表第i个子集经属性类别扰动后的属性向量;具体为:目标节点数为n′的各子集di有身高、学历、年龄和收入等k维的属性向量,从其中选取身高、学历和年龄作为各子集di中各目标节点的关联节点的属性向量;

s3.3、属性值扰动:针对属性类别扰动后的各子集di中的每个目标节点on,进行属性值扰动,即已知目标节点on有m个关联节点rnm、m个关联权重wnm、m个属性向量组xnm,基于子集的属性向量ki,属性值为从m个属性向量组xnm中按照权重抽样得到,每个属性向量被抽取到的概率是j=1,2…m,其中,pj为第j个关联节点属性值被取到的概率,wj为第j个关联节点对应的权重,为所有关联节点的权重和;具体为:目标节点为张三,他属于属性类别扰动后的某子集di中的目标节点,张三有两个关联人王五和李四,那张三的属性值为随机从王五、李四两个人抽的一组属性向量(身高、学历和年龄)。

s3.4、对m个子集di依次进行属性类别扰动和属性值扰动抽样后,得到m个训练决策树的子集。

s4、基于多个训练决策树的子集,给定多个相对应的决策树(现有的)进行训练,对多个训练后的决策树进行整合,即得到最终模型;其中,决策树结果为变量0或1时、为分类问题,采用majorityvoting,即多数投票法整合训练后的决策树;决策树结果为连续变量时、为回归问题,采用均值法整合训练后的决策树。

s5、基于待填补关键信息的目标节点的关联节点的特征向量和权重,通过最终模型进行预测,得到多个结果,将多个结果加权平均,得到最终的填补信息,即关键信息。

基于待填补的目标节点的关联节点的特征向量和权重,通过最终模型进行预测,得到多个结果,将多个结果加权平均,得到最终的填补信息,公式如下:

pfinal=∑(wm×pm),

其中,pfinal为目标节点的关键信息,wm、pm为目标节点对应的某一关联节点的权重及最终模型输出的该关联节点的预测结果。

一种基于关联网络的目标节点关键信息填补系统,包括:

网络运算模块:根据应用场景,基于大量的节点中的各节点建立关系网络,得到大量的关系网络;

数据整合模块:基于大量的关系网络,获取有关键信息的节点作为目标节点,将其对应的关系网络作为关联网络整合成包含目标节点、目标节点对应的关键信息的标签、目标节点对应的关联节点、各关联节点的节点权重和与目标节点的关键信息相关联的、各关联节点的属性向量的数据结构,即得到整合后的训练集,其中,关键信息是指需要预测的行为;

三维抽样模块:基于改进的随机森林法对整合后的训练集进行多次三维采样,得到训练决策树的多个子集;

模型训练模块:基于多个训练决策树的子集,给定多个相对应的决策树进行训练,对多个训练后的决策树进行整合,即得到最终模型;

预测模块:基于待填补关键信息的目标节点的关联节点的特征向量和权重,通过最终模型进行预测,得到多个结果,将多个结果加权平均,得到最终的填补信息,即关键信息。

实施例

根据金融信贷应用场景,基于50200个节点建立关系网络,挑选有关键信息(是否逾期)的23090个节点作为目标节点建立关联网络,其中,23090个目标节点对应的23090个关系网络,即为23090个关联网络;

基于上述目标节点的关联网络为23090个,将关联网络整合成包含目标节点、目标节点对应的关键信息的标签、目标节点对应的关联节点、各关联节点的节点权重和与目标节点的关键信息相关联的、各关联节点的属性向量的数据结构,即得到整合后的训练集;

通过关联网络找到关联节点,并且挖掘出关联节点的属性向量后,形成的整合后的训练集的正样本(关键信息正)为927,负样本(关键信息负)为22163,整合后的训练集中的样本的关联网络节点的情况如图4所示,有20177个目标节点有1个关联节点,对应1组属性向量,有2690个目标节点有2个关联节点,目标节点均对应2组属性向量,以此类推。定义样本网络复杂程度指标na=关联节点为1的节点数:关联节点大于1的节点数=20177:2913=6.93。显然na越小,说明样本的网络复杂程度越高,目标节点可选的关联节点属性向量越丰富。

采用三维采样方式从训练样本中获得2000个子集,2000个子集训练给定的模型(模型采用已有的决策树),获得2000个训练后的决策树。模型融合(即整合2000个训练后的决策树),即得到最终模型,采用输出概率均值法融合。采用整合后的训练集进行五折交叉验证,最终的模型评估效果为auc为0.66,ks为0.25。

得到最终模型后,使用验证集验证模型的效果,具体如下:

根据金融信贷应用场景,基于66110个节点建立关系网络,挑选有关键信息(是否逾期)的30050个节点作为目标节点建立关联网络,得到30050个目标节点对应的30050个关系网络,即为30050个关联网络;

基于目标节点的关联网络为30050个,将关联网络整合成包含目标节点、目标节点对应的关键信息的标签、目标节点对应的关联节点、各关联节点的节点权重和与目标节点的关键信息相关联的、各关联节点的属性向量的数据结构,即得到整合后的验证集;

通过关联网络找到关联节点,并且挖掘出关联节点的属性向量后,形成的整合后的验证集的正样本(关键信息正)为801,负样本(关键信息负)为29249;整合后的验证集中的样本的关联网络节点的情况,如图5所示,验证样本网络复杂程度指标na=7.36。

最终模型对验证样本逐个评估,针对验证样本的关联节点数输出相应个数的概率评估,如图6所示;将每个验证样本的多个概率评估做平均得到该验证样本的最终概率评估。在验证样本上,预测模型效果如下,与整合后的训练集上的五折交叉验证结果相近,auc为0.67,ks为0.26。

最终模型只需要训练样本即可完成,训练样本5折交叉验证只是为了提高模型的泛化性能,而验证样本才是真正验证泛化性能用的,代表了实际预测的效果。

验证样本分层预测方案,根据验证样本的关联节点个数分层,针对每一层用模型评估,以2组为例,结果如图7所示,可见当关联节点数大于等于2时,最终模型对验证样本的预测效果大幅提升。

对比权重训练法,权重训练法一般的最终模型auc一般在0.6~0.65左右,低于本发明分层预测方案关联节点数大于等于2的情形(auc为0.749)。对比已有利用目标节点自身强属性变量进行预测的模型,auc通常在0.75左右,与本发明分层预测方案关联节点数大于等于2的情形(auc为0.749)近似。说明本发明建立的模型已达到生产可用的程度,且本发明复杂度低,占用资源少,还可提前预测。

以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1