一种互联网征信评估方法和系统与流程

文档序号:15448172发布日期:2018-09-14 23:37阅读:439来源:国知局

本发明涉及通信技术领域,具体涉及一种互联网征信评估方法和系统。



背景技术:

随着大数据时代的来临,互联网征信的应用也越来越为广泛,其除了可以应用于互联网金融之外,还可以覆盖到其他的生活场景,比如打车、租车或酒店预订等,因此,如何保证互联网征信评估的准确和公平,也逐渐成为人们所关注的问题。

在现有技术中,一般可以通过收集用户的在训练期的行为数据作为训练数据集,然后,从中提取用户特征,利用决策树、以及逻辑回归等机器学习算法,来建立信用评分模型,并基于该信用评分模型对用户的信用进行评估。其中,训练数据集由违约用户和非违约用户组成,并切分成训练集和验证集,训练集用于训练模型,验证集用于对得到的模型进行评估,而评估的标准就是在验证集上的预测误差尽量小,该预测误差主要是预测违约情况(即预测用户是否违约)与真实违约情况的差异。

在对现有技术的研究和实践过程中,本发明的发明人发现,现有的互联网征信评估不够合理,准确性不高,导致应用效果不佳。



技术实现要素:

本发明实施例提供一种互联网征信评估方法和系统,可以提高评估的合理性和准确性,改善应用效果。

本发明实施例提供一种互联网征信评估方法,包括:

获取多个用户数据,所述用户数据包括用户的属性数据、行为数据和信用记录;

从所述用户数据中选择训练样本,得到训练数据集;

按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;

采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型;

基于所述训练后评估模型对用户的互联网征信进行评估。

本发明实施例还提供一种互联网征信评估系统,包括:

获取单元,用于获取多个用户数据,所述用户数据包括用户的属性数据、行为数据和信用记录;

选择单元,用于从所述用户数据中选择训练样本,得到训练数据集;

设置单元,用于按照预设策略为所述训练数据集中的各个训练样本设置权重,得到带权重的训练数据集;

训练单元,用于采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型;

评估单元,用于基于所述训练后评估模型对用户的互联网征信进行评估。

本发明实施例在得到训练数据集后,可以按照预设策略为该训练数据集中的各个训练样本设置权重,然后,采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型,并基于该训练后评估模型对用户的互联网征信进行评估;由于该方案可以按照预设策略为各个训练样本设置权重,再据此进行模型训练,因此,有利于对不同训练样本的违约影响进行区分,相对于现有只考虑训练样本是否违约的评估方案而言,可以大大提高评估的合理性和准确性,改善应用效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的互联网征信评估方法的框架图;

图1b是本发明实施例提供的互联网征信评估方法的流程图;

图2是本发明实施例提供的互联网征信评估方法的另一流程图;

图3a是本发明实施例提供的互联网征信评估系统的结构示意图;

图3b是本发明实施例提供的互联网征信评估系统的另一结构示意图;

图4是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种互联网征信评估方法和系统。

其中,该互联网征信评估系统具体可以集成在服务器等设备中。

例如,参见图1a,该互联网征信评估系统可以获取多个用户数据,如用户的属性数据、行为数据和信用记录等,然后,从该用户数据中选择训练样本,并按照预设策略为各个训练样本设置权重,比如,可以对各个训练样本的收益进行分析,基于分析结果为其设置权重,使得不同训练样本的违约对总体收益的影响可以得到区分,等等,此后,便可以采用这些带权重的训练样本对预设评估模型进行训练,并基于训练后评估模型对用户的互联网征信进行评估,从而提高评估的合理性和准确性。

其中,该预设评估模型可以根据实际应用的需求进行建立,比如,该评估模型可以包括用于预测用户违约情况的损失函数、以及用于预测用户收益情况的损失函数,即本发明实施例所说的第一损失函数和第二损失函数,等等。

以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。

实施例一、

本实施例将从互联网征信评估系统的角度进行描述,该互联网征信评估系统具体可以集成在服务器,比如评估服务器等设备中。

一种互联网征信评估方法,包括:获取多个用户数据,从该用户数据中选择训练样本,得到训练数据集,按照预设策略为该训练数据集中的各个训练样本设置权重,得到带权重的训练数据集,采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型,基于该训练后评估模型对用户的互联网征信进行评估。

如图1b所示,该互联网征信评估方法的具体流程可以如下:

101、获取多个用户数据。

其中,该用户数据可以包括用户的属性数据、行为数据和信用记录等数据。其中,用户的属性数据可以包括用户在平台注册或者从其他渠道获取的用户信息,比如用户的性别、年龄、地域、和/或学历等人口属性信息;用户的行为数据可以包括用户在平台登录、点击、发消息、购物、支付、和/或阅读等行为所产生的数据;用户的信用记录可以包括用户的违约记录等信息。

102、从该用户数据中选择训练样本,得到训练数据集。

其中,选择的方式可以有多种,比如,可以随机进行选择,或者,也可以根据用户的收益分布来进行选择,等等。以根据用户的收益分布来进行选择为了,则步骤“从该用户数据中选择训练样本,得到训练数据集”,具体可以如下:

(1)根据该用户数据分析用户收益。

比如,以贷款为例,该用户收益指的是资方(即贷款提供方,比如银行等机构)提供贷款给某个用户后,该用户为资方带来的利益收入,一般可以包括贷款利息收益和逾期罚息收益,因此,可以通过分析贷款利息收益和逾期罚息收益来计算该用户收益,即步骤“根据该用户数据分析用户收益”具体可以包括:

根据该用户数据确定用户的贷款利息收益,以及根据该用户数据确定用户的逾期罚息收益,然后,计算该贷款利息收益和逾期罚息收益的和,得到用户收益,用公式表示即为:

用户收益=贷款利息收益+逾期罚息收益。

其中,贷款利息收益的计算方法可以根据实际应用的需求而定,例如,可以根据本金和贷款利率来计算该贷款利息收益,等等,具体可以如下:

贷款利息收益=r1*m。

r1为贷款利率,m为本金。需说明的是,该贷款利率的单位可以根据实际应用的需求来进行设置,比如,可以设定为贷款日利率、贷款月利率或贷款年利率,等等,为了描述方便,在本发明实施例中,将均以r1为贷款月利率为例进行说明。此外,该贷款利率的具体取值也可以根据实际应用的需求进行设置,在此不再赘述。

其中,逾期罚息是用户由于逾期还款导致的罚款收益,但是,需说明的是,用户的逾期罚息越大,并不代表逾期罚息收益越大,因为用户如果逾期越久,该用户就越危险(即信用越差),很可能会因为还不上款而导致资方产生更大的损失,因此,在本发明实施例中,将逾期罚息收益定义成一个随着时间变化的变量,当逾期时间未超出预设阈值时,逾期罚息为正向收益,否则,当逾期时间超出预设阈值时,则变成负向收益。即,可选的,步骤“根据该用户数据确定用户的逾期罚息收益”具体可以如下:

根据该用户数据确定用户的本金、逾期罚款利率以及逾期时间;

若该逾期时间未超过预设阈值,则将该逾期时间、逾期罚款利率、以及本金的乘积,作为逾期罚息收益,用公式表示即为:逾期罚息收益=k*r2*m;

若该逾期时间超过预设阈值,则计算该逾期时间与预设阈值的差,将该差、该贷款利息收益和逾期罚息收益的逾期罚款利率、以及本金的乘积的相反数,作为逾期罚息收益,用公式表示即为:逾期罚息收益=-(k-m)*r2*m。

其中,r2为逾期罚款利率,m为本金,k为逾期时间,需说明的是,逾期时间与逾期罚款利率的单位可以根据实际应用的需求进行设置,比如,若逾期罚款利率为日利率,则可以将逾期时间的单位设定为“天数”,若逾期罚款利率为月利率,则可以将逾期时间的单位设定为“月数”,以此类推,等等。

若用reward来表示用户收益,则根据上面的描述可知,用户收益的计算公式可以如下:

若没有逾期:reward=r1*m+0=r1*m;

若逾期时间未超过预设阈值:reward=r1*m+k*r2*m;

若逾期时间未超过预设阈值:reward=r1*m+(-(k-m)*r2*m)=r1*m-(k-m)*r2*m。

其中,该预设阈值可以根据实际应用的需求进行设置,在此不再赘述。

(2)根据用户收益从该用户数据中选择训练样本,使得所选择的训练样本的用户收益的分布与该用户数据的用户收益的分布一致,得到训练数据集。

在选择训练样本时,可以根据用户收益将用户划分为“好用户”和“坏用户”,比如,可以将没有逾期或逾期次数小于预设次数(比如3次)的用户,确定为“好用户”,否则,若逾期次数大于预设次数,则确定为“坏用户”。可以按照一定抽样比例从“好用户”和“坏用户”中抽取相应的用户,作为训练样本,并添加至训练数据集中。

其中,所谓“所选择的训练样本的用户收益的分布与该用户数据的用户收益的分布一致”指的是,所选择的训练样本中“好用户”与“坏用户”的比例,与该获取到的所有用户数据中“好用户”与“坏用户”的比例一致,比如,若该获取到的所有用户数据中“好用户”与“坏用户”的比例为3:2,如果需要从中选取1000个训练样本,则此时,可以从“好用户”中选择600个训练样本,以及从“坏用户”中选择400个训练样本,这样,所选择的训练样本中“好用户”和“坏用户”的比例即为:600:400=3:2,与该获取到的所有用户数据中“好用户”与“坏用户”的比例一致,所以,可以认为,此时所选择的训练样本的用户收益的分布与该用户数据的用户收益的分布一致,依次类推,在此不再赘述。

103、按照预设策略为该训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。

其中,设置权重的方式可以有多种,比如,可以根据用户收益的大小来进行设置,具体可以如下:

根据用户收益的大小为该训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。

比如,还是用reward(x)来表示用户x所对应的用户收益,假设有n个训练样本,则每个训练样本x(即用户x)的权重weight(x)可以为:

weight(x)=(reward(x)-min(reward))/(max(reward)-min(reward));

其中,min(reward)为所有训练样本的用户收益中的最小值(即最小用户收益值),max(reward)为所有训练样本的用户收益中的最大值(即最大用户收益值)。

也就是说,可以计算当前训练样本的用户收益与最小用户收益值的差,得到第一值,以及计算最大用户收益值与最小用户收益值的差,得到第二值,将第一值和第二值的商,作为该当前训练样本的权重。

或者,除了可以根据用户收益大小来设置训练样本的权重之外,还可以将其他的因素,比如用户的信用记录也作为设定权重的考量因素之一,即步骤“按照预设策略为该训练数据集中的各个训练样本设置权重,得到带权重的训练数据集”具体可以如下:

根据用户收益的大小、以及用户的信用记录为该训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。

其中,具体的设置方法可以根据实际应用的需求而定,比如,可以分别为用户收益与信用记录设置一定的比重,然后基于该比重,按照预设的算法来计算该训练样本的权重,等等,在此不再赘述。

104、采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型。

其中,该评估模型可以根据实际应用的需求预先进行定义并进行存储,在需要时,直接从存储位置直接读取即可,或者,该评估模型也可以由系统直接进行建立,即在步骤“采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型”之前,该互联网征信评估方法还可以包括:

设置第一损失函数和第二损失函数,该第一损失函数为用于预测用户违约情况的损失函数,该第二损失函数为用于预测用户收益情况的损失函数,根据该第一损失函数和第二损失函数建立评估模型。

其中,第一损失函数和第二损失函数可以根据实际应用的需求进行设定,例如,可以从用户数据中挖掘用户特征、以及获取用户标签,然后,基于用户特征和用户标签来建立一逻辑回归模型,如下:

y(θ,x)=hθ(x)=θ0+θ1x1+θ2x2+……+θnxn;

其中,y为用户标签,表示用户是否违约,如果违约,则为1,否则为0,y是因变量;x表示用户特征,为自变量;θ表示自变量(用户特征x)的权重,为参数向量。

对该逻辑回归模型进行训练,训练过程主要是优化目标函数j(θ),使得目标函数j(θ)逐步向最大或者最小的方向变化。因为预测的是用户是否违约,所以目标函数j(θ)可以定义为预测错误的损失函数,可以用最小均方误差的方式来定义,如下:

其中,hθ(x(i))为第i个训练样本预测的值,y(i)表示第i个训练样本的真实值,训练目标是使得该损失函数最小化,即hθ(x(i))=y(i)

可见,j(θ)即为可以预测用户违约情况的损失函数,因此,可以将j(θ)作为第一损失函数,而第二损失函数可以定义为第一损失函数与每个训练样本的权重weight(x)的乘积,即以n个训练样本为例,若用公式表示的话,第一损失函数和第二损失函数分别可以如下:

第一损失函数:

第二损失函数:

根据上述第一损失函数和第二损失函数定义一结构化的目标函数“loss”,该目标函数所对应的模型即为该评估模型。

比如,可以将第一损失函数和第一损失函数的和作为该目标函数,等等。

可选的,为了可以更加灵活地控制两种损失函数(即第一损失函数和第二损失函数)之间的关系,还可以设置一常数项,作为第一损失函数和第二损失函数的平衡系数,用于控制第一损失函数和第二损失函数的比重关系;即在步骤“根据该用于预测用户违约情况的损失函数、以及用于预测用户收益情况的损失函数建立评估模型”之前,该互联网征信评估还可以包括:

设置平衡系数,该平衡系数用于控制第一损失函数和第二损失函数的比重关系。

则此时,步骤“根据该第一损失函数和第二损失函数建立评估模型”,包括:根据该第一损失函数、第二损失函数、以及平衡系数建立评估模型。

例如,可以计算平衡系数与第二损失函数的乘积,将该乘积与第一损失函数的和作为该目标函数“loss”,用公式表示即可如下:

其中,γ为平衡系数,为一个常数项,具体取值可以根据实际应用的需求,比如根据产品和/或行业等因素的变化,来灵活地进行设定,以达到调整评分策略的目的。

在得到该目标函数,即评估模型之后,便可以采用带权重的训练数据集对预设评估模型进行训练,以得到训练后评估模型。其中,训练过程可以采用开源的机器学习工具,比如决策树或逻辑回归等机器来进行训练,当目标函数达到一定阈值后终止训练过程,训练的目标为该目标函数最小化。

需说明的是,除了可以采用均方误差来定义上述损失函数(第一损失函数和第二损失函数)之外,还可以采用其他的方式,比如采用0-1损失函数、或者对数损失函数,等等,在此不再赘述。

另外,需说明的是,本发明实施例所说的用户特征可以包括基础特征,比如人口属性特征和基础行为特征等,还可以包括一些衍生特征,比如周/月度行为特征和/或行为序列特征等,其中,基础行为特征可以包括用户点击、阅读、转发、支付、购物和/或收藏等行为;周/月度行为特征可以根据用户点击、阅读、和/或转发等行为统计而得到,行为序列特征可以根据用户支付、购物和/或收藏等行为统计而得到,在此不再赘述。

105、基于该训练后评估模型对用户的互联网征信进行评估。例如,具体可以如下:

接收互联网征信评估请求,该互联网征信评估请求指示需要进行评估的目标用户,获取该目标用户的用户数据,根据该目标用户的用户数据,通过该训练后评估模型对目标用户的互联网征信进行评估。

例如,具体可以利用该训练后评估模型对目标用户的用户数据进行计算,并将计算结果转换为评分,以供参考;即步骤“根据该目标用户的用户数据,通过该训练后评估模型对目标用户的互联网征信进行评估”可以包括:

利用该训练后评估模型对该目标用户的用户数据进行计算,得到评估概率值,按照预设算法将该评估概率值转换为预设格式的分值,得到目标用户的互联网征信评分。

其中,该预设算法可以根据实际应用的需求进行设置,比如,以将评估概率值转换为大于400小于900的整数为例,则该预设算法具体可以如下:

score=400+500p;

其中,score为互联网征信评分,p为评估概率值,p的取值区间为[0,1]。

由上可知,本实施例在得到训练数据集后,可以按照预设策略为该训练数据集中的各个训练样本设置权重,然后,采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型,并基于该训练后评估模型对用户的互联网征信进行评估;由于该方案可以按照预设策略为各个训练样本设置权重,再据此进行模型训练,因此,有利于对不同训练样本的违约影响进行区分,相对于现有只考虑训练样本是否违约的评估方案而言,可以大大提高评估的合理性和准确性,改善应用效果。

实施例二、

根据实施例一所描述的方法,以下将举例作进一步详细说明。

在本实施例中,将以该互联网征信评估系统具体集成在评估服务器中、且以均方误差来定义损失函数为例进行说明。

如图2所示,一种互联网征信评估方法,具体流程可以如下:

201、评估服务器获取多个用户数据。

例如,具体可以从互联网或其他的途径采集多个用户数据,然后保存在本地或其他存储设备上,在需要时,由评估服务器从本地或该其他存储设备上进行读取;或者,还可以由评估服务器直接从互联网或其他的渠道对该用户数据进行采集,等等。

其中,该用户数据可以包括用户的属性数据、行为数据和信用记录等数据。

用户的属性数据可以包括用户在平台注册或者从其他渠道获取的用户信息,比如用户的性别、年龄、地域、和/或学历等人口属性信息。

用户的行为数据可以包括用户在平台登录、点击、发消息、购物、支付、和/或阅读等行为所产生的数据。

用户的信用记录可以包括用户的违约记录等信息。

202、评估服务器根据该用户数据分析用户收益。

其中,该用户收益的计算方法可以根据实际应用的需求而定。例如,以贷款为例,该用户收益指的是资方提供贷款给某个用户后,该用户为资方带来的利益收入,一般可以包括贷款利息收益和逾期罚息收益,因此,可以根据该用户数据确定用户的贷款利息收益和逾期罚息收益,然后,计算该贷款利息收益和逾期罚息收益的和,来得到用户收益,用公式表示即为:

用户收益=贷款利息收益+逾期罚息收益。

其中,贷款利息收益取决于本金和贷款利率,而逾期罚息则指的是由于用户逾期还款所导致的罚款收益,该逾期罚息为一个随着时间变化的变量,当逾期时间未超出预设阈值时,逾期罚息为正向收益,否则,当逾期时间超出预设阈值时,则变成负向收益。

比如,以本金为m,贷款利率为r1,逾期罚款利率为r2,k为逾期时间,m为逾期时间的预设阈值为例,则用户收益reward为:

若没有逾期:reward=r1*m+0=r1*m;

若逾期时间未超过预设阈值m(即k<m):reward=r1*m+k*r2*m;

若逾期时间超过预设阈值m(即k≥m):reward=r1*m+(-(k-m)*r2*m)=r1*m-(k-m)*r2*m。

其中,该预设阈值m可以根据实际应用的需求进行设置,等等。

需说明的是,该贷款利率r1的单位和取值可以根据实际应用的需求来进行设置,比如,可以将贷款利率r1设定为贷款日利率、贷款月利率或贷款年利率,等等;同理,逾期罚款利率为r2和逾期时间k的单位和取值也可以根据实际应用的需求来进行相应设置,比如,若将逾期罚款利率r2为日利率,则可以将逾期时间k的单位设定为“天数”,若逾期罚款利率r2为月利率,则可以将逾期时间k的单位设定为“月数”,以此类推,等等。

例如,以贷款利率r1为贷款月利率,逾期罚款利率r2为日利率,逾期时间k为天数,且逾期时间的预设阈值m为10天为例,若用户甲的本金为“10000”元,贷款利率r1为每月0.01%,逾期罚款利率r2为每日0.01%,则在不同的场景下,用户甲所对应的用户收益reward(即贷款给用户给资方带来的收益)分别可以如下:

(1)若用户甲没有逾期,则:

reward=r1*m+0=r1*m=0.01%*10000=1元。

即若用户甲没有逾期时间还款,则该用户甲所对应的用户收益为正向收益1元,即“赚1元”。

(2)若用户甲的逾期时间未超过10天,比如逾期时间为8天,则:

reward=r1*m+k*r2*m=0.01%*10000+8*0.01%*10000=9元。

即若用户甲的逾期时间为8天,则该用户甲所对应的用户收益为正向收益9元,即“赚9元”。

(3)若用户甲的逾期时间已超过10天,比如20天,则:

reward=r1*m+(-(k-m)*r2*m)=r1*m-(k-m)*r2*m=0.01%*10000-(20-10)*0.01%*10000=-9元。

即若用户甲的逾期时间为20天,则该用户甲所对应的用户收益为负向收益9元,即“亏损9元”。

203、评估服务器根据用户收益从该用户数据中选择训练样本,使得所选择的训练样本的用户收益的分布与该用户数据的用户收益的分布一致,得到训练数据集。

在选择训练样本时,可以根据用户收益将用户划分为“好用户”和“坏用户”,比如,可以将没有逾期或逾期次数小于预设次数(比如3次)的用户,确定为“好用户”,否则,若逾期次数大于预设次数,则确定为“坏用户”。可以按照一定抽样比例从“好用户”和“坏用户”中抽取相应的用户,作为训练样本,并添加至训练数据集中。

其中,所选择的训练样本中“好用户”与“坏用户”的比例,与该获取到的所有用户数据中“好用户”与“坏用户”的比例尽可能一致(允许存在一定范围的误差),以便使得所选择的训练样本的用户收益的分布与该用户数据的用户收益的分布可以保持一致。

例如,以该获取到的所有用户数据中“好用户”与“坏用户”的比例为7:3为例,若需要从中选取1000个训练样本,则此时,可以从“好用户”中选择700个训练样本,以及从“坏用户”中选择300个训练样本,这样,所选择的训练样本中“好用户”和“坏用户”的比例即为:700:300=7:3,与该获取到的所有用户数据中“好用户”与“坏用户”的比例一致,依次类推,等等。

204、评估服务器根据用户收益的大小为该训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。

例如,评估服务器具体可以计算当前训练样本的用户收益与最小用户收益值的差,得到第一值,以及计算最大用户收益值与最小用户收益值的差,得到第二值,将第一值和第二值的商,作为该当前训练样本的权重。用公式表示即为:

weight(x)=(reward(x)-min(reward))/(max(reward)-min(reward));

其中,weight(x)为用户x的权重,reward(x)表示用户x所对应的用户收益,min(reward)为所有训练样本的用户收益中的最小值(即最小用户收益值),max(reward)为所有训练样本的用户收益中的最大值(即最大用户收益值)。

比如,还是以用户甲为例,若用户甲所对应的用户收益为1元,而最小用户收益值为-15元,最大用户收益值为10元,则用户甲的权重为:

weight(x)=(1-(-15))/(10-(-15))=16/25=0.64。

可选的,除了可以根据用户收益大小来设置训练样本的权重之外,还可以将其他的因素,比如用户的信用记录也作为设定权重的考量因素之一,在此不再赘述。

205、评估服务器设置第一损失函数、第二损失函数和平衡系数。

其中,该第一损失函数为用于预测用户违约情况的损失函数,该第二损失函数为用于预测用户收益情况的损失函数,该平衡系数用于控制第一损失函数和第二损失函数的比重关系。

其中,第一损失函数和第二损失函数可以根据实际应用的需求进行设定,例如,可以如下:

第一损失函数:

第二损失函数:

其中,x(i)表示第i个训练样本的用户特征,hθ(x(i))为第i个训练样本预测的值,y(i)表示第i个训练样本的真实值,weight(x(i))表示第i个训练样本的权重。

206、评估服务器根据该第一损失函数、第二损失函数、以及平衡系数建立评估模型。

例如,评估服务器可以计算平衡系数与第二损失函数的乘积,将该乘积与第一损失函数的和作为该目标函数“loss”,用公式表示即可如下:

其中,γ为平衡系数,为一个常数项,具体取值可以根据实际应用的需求,比如根据产品和/或行业等因素的变化,来灵活地进行设定,以达到调整评分策略的目的。

在得到该目标函数,即评估模型之后,便可以采用带权重的训练数据集对预设评估模型进行训练,以得到训练后评估模型。其中,训练过程可以采用开源的机器学习工具,比如决策树或逻辑回归等机器来进行训练,当目标函数达到一定阈值后终止训练过程,训练的目标为该目标函数最小化。

基于上述目标函数(评估模型)可知,当预测正确,也就是“hθ(x(i))=y(i)”时,则没有收益损失。比如,还是以贷款为例,如果预测为“好用户”,则认为贷款给该用户没有风险,因为预测正确,所以事实上贷款给该用户也不会有风险,所以,不会带来损失;而如果预测为“坏用户”,则不会贷款给该用户,所以也不会带来损失。

需说明的是,在本实施例中,仅仅以采用均方误差来定义上述损失函数(第一损失函数和第二损失函数)为例进行说明,应当理解的是,除了可以采用均方误差来定义上述损失函数之外,还可以采用其他的方式,比如采用0-1损失函数、或者对数损失函数,等等,在此不再赘述。

207、评估服务器接收互联网征信评估请求,该互联网征信评估请求指示需要进行评估的目标用户。

例如,评估服务器具体可以接收其他设备,比如终端发送的互联网征信评估请求,其中,该互联网征信评估请求中携带需要进行评估的目标用户的用户标识,比如用户名称和/或帐号等信息。

208、评估服务器获取该目标用户的用户数据,根据该目标用户的用户数据,通过该训练后评估模型对目标用户的互联网征信进行评估;例如,具体可以如下:

利用该训练后评估模型对该目标用户的用户数据进行计算,得到评估概率值,按照预设算法将该评估概率值转换为预设格式的分值,得到目标用户的互联网征信评分。

其中,该预设算法可以根据实际应用的需求进行设置,比如,以评估概率值的取值区间为[0,1],需要将评估概率值转换为大于400小于900的整数为例,则该预设算法具体可以如下:

score=400+500p;

其中,score为互联网征信评分,p为评估概率值。

比如,若p为0.2,则score=400+500*0.2=500分。

又比如,若p为0.8,则score=400+500*0.8=800分,以此类推,等等。

在得到互联网征信评分之后,便可以根据该互联网征信评分确定该目标用户的信用如何,从而对该目标用户采取相应的流程,比如,提供贷款给该用户,或者,不提供贷款给该用户,或者,允许该用户执行某些权利,或者,不允许该用户执行某些权利,等等,具体的流程可根据实际应用的需求而定,在此不再赘述。

由上可知,本实施例在得到训练数据集后,可以按照预设策略为该训练数据集中的各个训练样本设置权重,然后,采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型,并基于该训练后评估模型对用户的互联网征信进行评估;由于该方案可以按照预设策略为各个训练样本设置权重,再据此进行模型训练,因此,有利于对不同训练样本的违约影响进行区分,相对于现有只考虑训练样本是否违约的评估方案而言,其评估更为合理和准确。

此外,由于该预设评估模型可以包括用于预测用户违约情况的损失函数、以及用于预测用户收益情况的损失函数,即本发明实施例所说的第一损失函数和第二损失函数,所以,可以使得训练结果可以保证在违约概率最小的前提下,获得总体收益最大,使不同训练样本的违约对总体收益的影响可以得到区分,不仅可以大大提高评估的合理性和准确性,改善应用效果,而且,还可以提高其灵活性和可操作性。

实施例三、

为了更好地实施上述方法,本发明实施例还提供一种互联网征信评估系统,该互联网征信评估系统具体可以集成在服务器,比如评估服务器等设备中。

如图3a所示,该互联网征信评估系统包括获取单元301、选择单元302、设置单元303、训练单元304和评估单元305,如下:

(1)获取单元301;

获取单元301,用于获取多个用户数据,该用户数据包括用户的属性数据、行为数据和信用记录。

其中,用户的属性数据可以包括用户在平台注册或者从其他渠道获取的用户信息,比如用户的性别、年龄、地域、和/或学历等人口属性信息;用户的行为数据可以包括用户在平台登录、点击、发消息、购物、支付、和/或阅读等行为所产生的数据;用户的信用记录可以包括用户的违约记录等信息。

(2)选择单元302;

选择单元302,用于从该用户数据中选择训练样本,得到训练数据集。

其中,选择的方式可以有多种,比如,可以根据用户的收益分布来进行选择,等等,即该选择单元302可以包括分析子单元和选择子单元,如下:

该分析子单元,用于根据该用户数据分析用户收益。

该选择子单元,用于根据用户收益从该用户数据中选择训练样本,使得所选择的训练样本的用户收益的分布与该用户数据的用户收益的分布一致,得到训练数据集。

例如,以贷款为例,该用户收益指的是资方(即贷款提供方,比如银行等机构)提供贷款给某个用户后,该用户为资方带来的利益收入,一般可以包括贷款利息收益和逾期罚息收益,因此,可以通过分析贷款利息收益和逾期罚息收益来计算该用户收益,即:

该分析子单元,具体可以用于根据该用户数据确定用户的贷款利息收益,根据该用户数据确定用户的逾期罚息收益,计算该贷款利息收益和逾期罚息收益的和,得到用户收益。用公式表示即为:

用户收益=贷款利息收益+逾期罚息收益。

其中,贷款利息收益的计算方法可以根据实际应用的需求而定,例如,可以根据本金和贷款利率来计算该贷款利息收益,等等,而逾期罚息是用户由于逾期还款导致的罚款收益,具体可以根据用户的本金、逾期罚款利率以及逾期时间来计算,即:

该分析子单元,具体可以用于根据该用户数据确定用户的本金、逾期罚款利率以及逾期时间;若该逾期时间未超过预设阈值,则将该逾期时间、逾期罚款利率、以及本金的乘积,作为逾期罚息收益;若该逾期时间超过预设阈值,则计算该逾期时间与预设阈值的差,将该差、该贷款利息收益和逾期罚息收益的逾期罚款利率、以及本金的乘积的相反数,作为逾期罚息收益,具体可参见前面的方法实施例,在此不再赘述。

其中,该预设阈值可以根据实际应用的需求进行设置。

(3)设置单元303;

设置单元303,用于按照预设策略为该训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。

其中,设置权重的方式可以有多种,比如,可以根据用户收益的大小来进行设置,具体可以如下:

该设置单元303,具体可以用于根据用户收益的大小为该训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。

比如,该设置单元303,具体可以计算当前训练样本的用户收益与最小用户收益值的差,得到第一值,以及计算最大用户收益值与最小用户收益值的差,得到第二值,将第一值和第二值的商,作为该当前训练样本的权重。

其中,最小用户收益值为该训练数据集中所有训练样本的用户收益中的最小值;最大用户收益值为该训练数据集中所有训练样本的用户收益中的最大值。

可选的,除了可以根据用户收益大小来设置这些训练样本的权重之外,还可以将其他的因素,比如用户的信用记录等也作为设定权重的考量因素之一,即:

该设置单元303,具体可以用于根据用户收益的大小、以及用户的信用记录为该训练数据集中的各个训练样本设置权重,得到带权重的训练数据集。

(4)训练单元304;

训练单元304,用于采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型。

其中,该评估模型可以根据实际应用的需求预先进行定义并进行存储,在需要时,直接从存储位置直接读取即可,或者,该评估模型也可以由系统直接进行建立,即如图3b所示,该互联网征信评估系统还可以包括设定单元306和建立单元307,如下:

设定单元306,可以用于设置第一损失函数和第二损失函数。

其中,该第一损失函数为用于预测用户违约情况的损失函数,该第二损失函数为用于预测用户收益情况的损失函数;该第一损失函数和第二损失函数可以根据实际应用的需求进行设定,例如,可以如下:

第一损失函数:

第二损失函数:

其中,x(i)表示第i个训练样本的用户特征,hθ(x(i))为第i个训练样本预测的值,y(i)表示第i个训练样本的真实值,weight(x(i))表示第i个训练样本的权重。

建立单元307,可以用于根据该第一损失函数和第二损失函数建立评估模型。

比如,建立单元307具体可以将第一损失函数和第二损失函数作为该评估模型的目标函数,等等。

可选的,为了可以更加灵活地调整这两种损失函数(即第一损失函数和第二损失函数)之间的关系,还可以设置一系数,比如设置一常数项,作为第一损失函数和第二损失函数的平衡系数,用于控制第一损失函数和第二损失函数的比重关系,即:

该设定单元306,还可以用于设置平衡系数。

则此时,该建立单元307,具体可以用于根据该第一损失函数、第二损失函数、以及平衡系数建立评估模型。

例如,建立单元307可以计算平衡系数与第二损失函数的乘积,将该乘积与第一损失函数的和作为该目标函数,用公式表示即可如下:

其中,“loss”为目标函数,γ为平衡系数,为一个常数项,具体取值可以根据实际应用的需求,比如根据产品和/或行业等因素的变化,来灵活地进行设定,以达到调整评分策略的目的。

在建立单元307得到该目标函数,即评估模型之后,训练单元304便可以采用带权重的训练数据集对预设评估模型进行训练,以得到训练后评估模型。其中,训练过程可以采用开源的机器学习工具,比如决策树或逻辑回归等机器来进行训练,当目标函数达到一定阈值后终止训练过程,训练的目标为该目标函数最小化。

需说明的是,除了可以采用均方误差来定义上述损失函数(第一损失函数和第二损失函数)之外,还可以采用其他的方式,比如采用0-1损失函数、或者对数损失函数,等等,在此不再赘述。

(5)评估单元305;

评估单元305,用于基于该训练后评估模型对用户的互联网征信进行评估。

例如,该评估单元可以包括接收子单元、数据获取子单元和评估子单元,如下:

该接收子单元,用于接收互联网征信评估请求,该互联网征信评估请求指示需要进行评估的目标用户。

数据获取子单元,用于获取该目标用户的用户数据。

评估子单元,用于根据该目标用户的用户数据,通过该训练后评估模型对目标用户的互联网征信进行评估。

比如,该评估子单元,具体可以用于利用该训练后评估模型对该目标用户的用户数据进行计算,得到评估概率值,按照预设算法将该评估概率值转换为预设格式的分值,得到目标用户的互联网征信评分。

其中,该预设算法可以根据实际应用的需求进行设置,比如,以将评估概率值转换为大于400小于900的整数为例,则该预设算法具体可以如下:

score=400+500p;

其中,score为互联网征信评分,p为评估概率值,p的取值区间为[0,1]。

具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。

由上可知,本实施例在得到训练数据集后,可以由设置单元303按照预设策略为该训练数据集中的各个训练样本设置权重,然后,由训练单元304采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型,并由评估单元305基于该训练后评估模型对用户的互联网征信进行评估;由于该方案可以按照预设策略为各个训练样本设置权重,再据此进行模型训练,因此,有利于对不同训练样本的违约影响进行区分,相对于现有只考虑训练样本是否违约的评估方案而言,可以使得评估结果更为合理和准确。

此外,由于该预设评估模型可以包括用于预测用户违约情况的损失函数、以及用于预测用户收益情况的损失函数,所以,可以使得训练结果可以保证在违约概率最小的前提下,获得总体收益最大,使不同训练样本的违约对总体收益的影响可以得到区分,不仅可以大大提高评估的合理性和准确性,改善应用效果,而且,还可以提高其灵活性和可操作性。

实施例四、

本发明实施例还提供一种服务器,可以作为本发明实施例的评估服务器。如图4所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:

获取多个用户数据,从该用户数据中选择训练样本,得到训练数据集,按照预设策略为该训练数据集中的各个训练样本设置权重,得到带权重的训练数据集,采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型,基于该训练后评估模型对用户的互联网征信进行评估。

例如,具体可以根据该用户数据分析用户收益根据用户收益从该用户数据中选择训练样本,使得所选择的训练样本的用户收益的分布与该用户数据的用户收益的分布一致,得到训练数据集,然后,根据用户收益的大小为该训练数据集中的各个训练样本设置权重,得到带权重的训练数据集,等等。

其中,该评估模型可以根据实际应用的需求预先进行定义并进行存储,在需要时,直接从存储位置直接读取,即该存储器402中的应用程序,还可以实现如下功能:

设置第一损失函数和第二损失函数,根据该第一损失函数和第二损失函数建立评估模型。

其中,该第一损失函数为用于预测用户违约情况的损失函数,该第二损失函数为用于预测用户收益情况的损失函数。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

由上可知,本实施例的服务器在得到训练数据集后,可以按照预设策略为该训练数据集中的各个训练样本设置权重,然后,采用带权重的训练数据集对预设评估模型进行训练,得到训练后评估模型,并基于该训练后评估模型对用户的互联网征信进行评估;由于该方案可以按照预设策略为各个训练样本设置权重,再据此进行模型训练,因此,有利于对不同训练样本的违约影响进行区分;而且,由于该预设评估模型可以包括用于预测用户违约情况的损失函数、以及用于预测用户收益情况的损失函数,所以,可以使得训练结果可以保证在违约概率最小的前提下,获得总体收益最大;因此,整体上而言,该方案相对于现有方案而言,不仅可以大大提高评估的合理性和准确性,改善应用效果,而且,还可以提高其灵活性和可操作性。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、磁盘或光盘等。

以上对本发明实施例所提供的一种互联网征信评估方法和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1