信用分值预测方法及装置与流程

文档序号:15230369发布日期:2018-08-21 19:20阅读:281来源:国知局

本发明涉及大数据技术领域,特别涉及一种信用分值预测方法及装置。



背景技术:

用户在日常生活的方方面面都可能会产生特征数据,而某些机构可能会收集用户在特定方面的特征数据,并根据收集到的特征数据确定信用分值,信用分值是一种能够反映用户信用的数据,通过信用分值可以衡量用户的可信程度,评估用户的信用风险。其中特征数据可以描述用户在特定方面的特征,信用分值可以表示用户在特定方面的可信程度。例如,银行会收集用户的金融特征数据,并确定用户在金融方面的可信程度,是否具有偿还欠款的能力,而公交公司会收集用户的交通特征数据,并确定用户在交通出行方面的可信程度,是否具有逃票风险等。

而随着大众用户的特征数据日益复杂,为了准确预测用户的信用分值,通常会获取预测模型,基于获取的预测模型进行预测。在获取预测模型时,可以将这些机构作为数据源,获取某一数据源提供的至少两个样本用户在特定方面的特征数据和信用分值,通过训练得到预测模型,该预测模型用于根据用户在特定方面的特征数据预测用户的信用分值,以信用分值来表示用户在特定方面的可信程度。那么,当要预测目标用户的信用分值时,获取该目标用户在特定方面的特征数据,输入到该预测模型中,即可基于该预测模型确定该目标用户的信用分值。

在实现本发明的过程中,发明人发现相关技术至少存在以下问题:上述获取预测模型的过程中采用的数据源单一,导致仅能根据样本用户在单一方面的特征数据和信用分值获取预测模型,进而导致应用该预测模型仅能预测目标用户在单一方面的信用分值,而不能全面预测目标用户的信用分值,预测不够精确。



技术实现要素:

为了解决相关技术的问题,本发明实施例提供了一种信用分值预测方法及装置。所述技术方案如下:

第一方面,提供了一种信用分值预测方法,所述方法包括:

获取至少两个数据源中每个数据源提供的样本数据,每个数据源提供的样本数据包括至少两个样本用户的特征数据和信用分值,不同数据源提供的特征数据用于描述样本用户在不同方面的特征,不同数据源提供的信用分值用于表示样本用户在不同方面的可信程度;

分别根据所述至少两个数据源中每个数据源提供的样本数据进行训练,得到与所述至少两个数据源对应的至少两个预测子模型,并获取每个预测子模型的错判率,所述错判率用于表示预测子模型预测错误的概率;

将目标用户的特征数据分别输入到所述每个预测子模型中,得到所述每个预测子模型输出的信用分值;

根据所述每个预测子模型的错判率,对所述每个预测子模型输出的信用分值进行统计,得到所述目标用户的信用分值。

第二方面,提供了一种信用分值预测装置,所述装置包括:

获取模块,用于获取至少两个数据源中每个数据源提供的样本数据,每个数据源提供的样本数据包括至少两个样本用户的特征数据和信用分值,不同数据源提供的特征数据用于描述样本用户在不同方面的特征,不同数据源提供的信用分值用于表示样本用户在不同方面的可信程度;

训练模块,用于分别根据所述至少两个数据源中每个数据源提供的样本数据进行训练,得到与所述至少两个数据源对应的至少两个预测子模型,并获取每个预测子模型的错判率,所述错判率用于表示预测子模型预测错误的概率;

预测模块,用于将目标用户的特征数据分别输入到所述每个预测子模型中,得到所述每个预测子模型输出的信用分值;

统计模块,用于根据所述每个预测子模型的错判率,对所述每个预测子模型输出的信用分值进行统计,得到所述目标用户的信用分值。

本发明实施例提供的技术方案带来的有益效果是:

本发明实施例提供的方法及装置,由于每个数据源提供的样本数据包括至少两个样本用户的特征数据和信用分值,且不同数据源提供的特征数据用于描述样本用户在不同方面的特征,不同数据源提供的信用分值用于表示样本用户在不同方面的可信程度,因此采用至少两个数据源提供的样本用户在至少两个方面的特征数据和信用分值获取至少两个预测子模型,应用该至少两个预测子模型以及该至少两个预测子模型的错判率统计得到的信用分值能够表示目标用户在至少两个方面的可信程度,预测的信用分值更加全面,提高了预测的精确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种信用分值预测方法的流程图;

图2a是本发明实施例提供的一种实施环境的示意图;

图2b是本发明实施例提供的另一种实施环境的示意图;

图2c是本发明实施例提供的一种数据的流程示意图;

图3a是本发明实施例提供的一种信用分值预测方法的流程图;

图3b是本发明实施例提供的一种信用分值预测方法的流程图;

图4是本发明实施例提供的一种信用分值预测装置的结构示意图;

图5是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在日常生活中,某一机构可以通过收集用户在特定方面的特征数据,描述用户在该特定方面的特征,还可以根据该特定方面的特征数据确定信用分值,以表示用户在该特定方面的可信程度。例如,银行可以通过收集用户在金融方面的金融特征数据,用金融特征数据确定信用分值。则该金融特征数据能够描述用户在金融方面的特征,该信用分值能够表示用户在金融方面的可信程度。

收集到的特征数据可以用于训练预测模型,基于该预测模型可以预测任一目标用户的信用分值。然而,仅采用单一的数据源获取预测模型,得到的预测模型仅能预测目标用户在单一方面的信用分值。而随着用户的特征数据日益复杂并趋于多元化,每个用户在日常生活的至少两个方面都会有特征数据,该预测模型不能预测目标用户在至少两个方面的信用分值,会导致预测不够准确。

而本发明实施例中,预测装置会根据至少两个数据源中每个数据源提供的样本数据进行预测。其中,该预测装置可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心,本发明实施例对该预测装置不做限定。

图1是本发明实施例提供的一种信用分值预测方法的流程图。本发明实施例的执行主体为预测装置,参见图1,该方法包括:

101、预测装置获取至少两个数据源中每个数据源提供的样本数据。

每个数据源提供的样本数据包括至少两个样本用户的特征数据和信用分值,不同数据源提供的特征数据用于描述样本用户在不同方面的特征,不同数据源提供的信用分值用于表示样本用户在不同方面的可信程度,因此,基于该预测模型预测的信用分值能够描述目标用户在至少两个方面的可信程度,提高了预测的准确性。

其中,信用分值的大小能够表示用户的可信程度强弱。该信用分值可以与用户的可信程度正相关,即,信用分值越大表示用户越可信。该信用分值也可以与用户的可信程度负相关,即,信用分值越大表示用户越不可信。

另外,信用分值可以以两个数值来表示,信用分值为第一数值表示用户可信,信用分值为第二数值表示用户不可信,例如0表示用户可信,1表示用户不可信。或者信用分值可以以给定数值范围内的数值来表示,以信用分值和用户的可信程度负相关为例,数值范围可以为(0,1),信用分值为0.2的用户比信用分值为0.8的用户更可信。

该至少两个数据源包括金融数据源、交通数据源、社交数据源、健康数据源、基础数据源中的至少一种,当然还可以包括其他类型的数据源。

其中,该金融数据源用于提供至少两个样本用户的金融特征数据和金融信用分值,金融特征数据包括但不限于:样本用户的信贷信息、公共记录、消费信息、投资信息、理财信息等,信贷信息包括信用卡记录、银行贷款记录、个人资产记录和其他信用贷款记录,公共记录包括个人住房公积金、个人养老保险等记录,本发明实施例对此不做限定。

该金融特征数据是根据样本用户在过去一段时间内的金融状况或者根据用户对相关金融信息进行的操作获得,可以由该预测装置通过样本用户在手机、平板或者个人电脑上多种应用中填写的用户资料获得,或者由多种与金融相关的应用根据样本用户的操作上报获得,与金融相关的应用可以包括理财平台、购物软件等。或者,该金融数据也可以由第三方服务器获取后发送给该预测装置,该第三方服务器可以为银行服务器、保险公司服务器、理财服务器等,本发明实施例对此不做限定。

金融信用分值用于表示样本用户在金融方面的可信程度,金融信用分值越大,表示样本用户在金融方面越可信。例如,金融信用分值可以用于表示样本用户是否具有偿还欠款的能力,则金融信用分值越大表示样本用户偿还欠款的能力越强。

该交通数据源用于提供至少两个样本用户的交通特征数据和交通信用分值。该交通数据源可以包括公交系统服务器、卡口拍摄设备、旅游公司服务器等,交通特征数据包括但不限于旅游出行数据、地理位置数据、自驾车使用信息、公共交通出行信息,旅游出行数据如票务订购,酒店预定等,地理位置数据如导航,签到,专车等,自驾车使用信息如自驾车使用频率、里程,公共交通出行信息如公共交通工具使用频率、里程。

交通信用分值用于表示样本用户在交通方面的可信程度,交通信用分值越大,表示样本用户在交通方面越可信。例如,交通信用分值可以用于表示样本用户是否具有逃票风险,则交通信用分值越大表示样本用户逃票风险越低。

该社交数据源用于提供至少两个样本用户的社交特征数据和社交信用分值,该社交数据源可以包括社交服务器、邮箱服务器等,社交特征数据包括但不限于聊天、电子邮件、语音通话、微博空间发表、豆瓣评论点评、知乎问答、公众号文章阅读、好友数量、朋友圈评论点赞、表情、社交账号头像以及虚拟增值服务数据等记录数据,虚拟增值服务数据如虚拟帐号角色装扮、游戏道具购买、影视会员服务、云存储空间增值服务、音乐流量包等。

社交信用分值用于表示样本用户在社交方面的可信程度,社交信用分值越大,表示样本用户在社交方面越可信。例如,社交信用分值可以用于表示样本用户的社交活跃程度,则社交信用分值越大表示样本用户越活跃。

该健康数据源用于提供至少两个样本用户的健康特征数据和健康信用分值,该健康数据源可以包括医院、健身房等,健康特征数据包括但不限于样本用户的运动记录、医疗记录等。

健康信用分值用于表示样本用户在健康方面的可信程度,健康信用分值越大,表示样本用户在健康方面越可信,即样本用户越健康。例如,健康信用分值可以用于表示样本用户的健康状况,则健康信用分值越大表示样本用户越健康,生病的风险越低。

该基础数据源用于提供至少两个样本用户的基础特征数据和基础信用分值。该基础数据源可以包括样本用户的终端、样本用户注册使用的应用等,基础特征数据包括但不限于样本用户的基础人口数据,如姓名、年龄、性别、地区、学历、职业、婚姻状况等。

基础信用分值用于表示样本用户本人的可信程度,基础信用分值越大,表示样本用户本人越可信。例如,高学历的样本用户可以具有较大的基础信用分值。

上述样本数据可以通过用户在手机、平板或者个人电脑上的多种应用中填写的用户资料获得,或者由该多种应用根据用户的操作上报获得,这些应用可以包括即时通信应用程序、游戏客户端、应用下载平台、理财平台、购物软件等,本发明实施例对此不做限定。

需要说明的是,当获取到样本数据后,在对样本数据进行训练之前,可以预先对样本数据进行预处理操作,以过滤掉异常情况下的样本数据。该预处理操作包括去重操作、清洗操作、填补操作等。例如,考虑到对于获取到的样本数据,可能会出现同一数据源重复记录同一样本用户的异常情况,此时应当对样本数据进行去重操作,或者,还可能出现某一样本用户的样本数据属于虚假数据或者样本数据格式错误的异常情况,此时应当对样本数据进行清洗操作,或者,还可能出现样本数据不完整的异常情况,此时应当对样本数据进行填补操作。

进一步地,考虑到不同数据源所存储的特征数据类型不同,如果用统一的处理策略对各个数据源的样本数据进行预处理操作,可能会造成对某种特征数据的处理策略不合理,进而导致数据损失或者引入不必要的噪声,因此,可以分别确定对每个数据源提供的样本数据进行预处理操作时的处理策略,以便根据每个数据源自身的特点,对每个数据源提供的样本数据分别进行预处理操作。

102、预测装置分别根据该至少两个数据源中每个数据源提供的样本数据进行训练,得到与该至少两个数据源对应的至少两个预测子模型,并获取每个预测子模型的错判率。

具体地,关于训练得到预测子模型的过程可以包括以下步骤1021,关于确定预测子模型的错判率的过程可以包括以下步骤1022:

1021、对于每个数据源,预测装置根据该数据源提供的样本数据进行训练,得到预测子模型。

考虑到不同数据源提供的样本数据具有不同的特点,例如有的数据源提供的样本数据具有量纲一致的特点,有的数据源提供的样本数据具有维度多样的特点,当预测装置得到不同数据源提供的样本数据后,可以针对每个数据源的样本数据各自的特点,分别为来自不同数据源的样本数据确定相同或不同的训练方式,根据每个数据源的样本数据以及相应的训练方式进行训练,得到与每个数据源对应的预测子模型。

实际应用中,预测子模型可以包括至少一个分类器,训练时可以根据每个数据源提供的样本数据的特点来确定训练预测子模型时采用的算法,从而训练出相应的预测子模型。例如可以确定每个数据源是采用非集成学习算法训练得到一个分类器,还是采用集成学习算法训练至少两个分类器。

在第一种可能的实现方式中,对于任一数据源提供的样本数据,预测装置可以采用非集成学习算法对该样本数据进行训练,得到一个分类器,该分类器即为该数据源对应的预测子模型。其中,该非集成学习算法可以包括线性划分训练算法、逻辑回归训练算法、决策树训练算法等。

在第二种可能的实现方式中,对于任一数据源提供的样本数据,预测装置可以采用集成学习算法对该样本数据进行训练,得到至少两个分类器,该至少两个分类器即为该数据源对应的预测子模型。其中,该集成学习算法可以包括boosting训练算法、bagging(bootstrapaggregating,自助整合)训练算法、随机森林训练算法等。

例如,预测装置可以按照boosting训练算法,对样本数据进行训练,首先对每个样本数据设置相同的权重,根据至少两个样本数据和相应的权重进行训练,得到一个分类器,根据该分类器的预测结果,确定被错判的样本数据,增大这些样本数据的权重,根据至少两个样本数据和调整后的相应的权重进行训练,再次得到一个分类器。通过不断地调整每个样本数据的权重可以训练得到至少两个分类器,训练得到的每个分类器的错判率将随着训练次数的增长逐渐降低。

通过多次执行上述步骤,对每个数据源提供的样本数据进行模型训练,得到与每个数据源对应的预测子模型,即可得到与至少两个数据源对应的至少两个预测子模型。

1022、预测装置将样本数据中至少两个样本用户的特征数据输入到预测子模型中,得到预测子模型输出的该至少两个样本用户的预测信用分值,根据该样本数据中该至少两个样本用户的信用分值以及该预测子模型输出的该至少两个样本用户的预测信用分值,确定该预测子模型的错判率。

该错判率用于表示预测子模型预测错误的概率。计算错判率时,根据该样本数据中该至少两个样本用户的信用分值以及该预测子模型输出的该至少两个样本用户的预测信用分值进行对比统计,得到预测错误的样本用户的数量,将预测错误的样本用户的数量与至少两个样本用户的总数量的比值作为该预测子模型的错判率。

其中,对于每个样本用户,由该预测子模型确定的预测信用分值可以认为是该样本用户的实际预测值,样本数据中该样本用户的信用分值可以认为是该样本用户的理论值,根据理论值与实际值的偏差可以确定该预测子模型是否正确地预测了该样本用户的信用分值。即当该预测信用分值和该信用分值的偏差小于预设阈值时,认为该预测子模型正确地预测到了该样本用户的信用分值,当预测信用分值和该信用分值的偏差不小于预设阈值时,认为该预测子模型错误地预测到了该样本用户的信用分值。该预设阈值用于规定预测正确的信用分值和理论信用分值的最大偏差,也即是只有偏差小于该预设阈值时预测的信用分值才是预测正确的信用分值,该预设阈值可以根据对预测子模型准确程度的需求确定。

需要说明的是,在实际应用中,训练得到的预测子模型包括至少一个分类器,确定得到的每个预测子模型的错判率包括该预测子模型中至少一个分类器的错判率。

具体地,当预测子模型包括至少一个分类器时,对于至少一个分类器中的每个分类器,预测装置将样本数据中至少两个样本用户的特征数据输入到该分类器中,得到该分类器输出的该至少两个样本用户的预测信用分值,根据该样本数据中该至少两个样本用户的信用分值以及该分类器输出的该至少两个样本用户的预测信用分值,确定该分类器的错判率。当遍历预测子模型中的每个分类器,分别得到各个分类器的错判率后,每个分类器的错判率即可以组成该预测子模型的错判率。例如,预测子模型包括分类器1、分类器2和分类器3,分类器1的错判率为a,分类器2的错判率为b,分类器3的错判率为c,则预测子模型的错判率为(a,b,c)。

103、预测装置将目标用户的特征数据分别输入到每个预测子模型中,得到该每个预测子模型输出的信用分值。

当得到至少两个数据源对应的至少两个预测子模型以及每个预测子模型的错判率后,可以将目标用户的特征数据分别输入到每个预测子模型中,得到每个预测子模型输出的信用分值,从而得到与至少两个预测子模型对应的至少两个信用分值。

进一步地,对于该至少两个预测子模型中的每个预测子模型,将目标用户的特征数据输入到该预测子模型中,可以指输入到该预测子模型的分类器中,每个分类器分别基于输入的目标用户的特征数据,输出信用分值,则预测装置可以得到预测子模型的至少一个分类器输出的信用分值。

104、预测装置根据该每个预测子模型的错判率,对该每个预测子模型输出的信用分值进行统计,得到该目标用户的信用分值。

当得到每个预测子模型基于目标用户的特征数据输出的信用分值以及每个预测子模型的错判率后,可以根据每个预测子模型的错判率和信用分值,确定目标用户的信用分值。可选地,可以根据每个预测子模型中至少一个分类器输出的信用分值以及至少一个分类器的错判率,确定目标用户的信用分值。

在一种可能的实现方式中,预测装置可以根据每个预测子模型中至少一个分类器的错判率,对每个预测子模型中至少一个分类器输出的信用分值应用以下公式进行统计,得到该目标用户的信用分值:

进一步地,考虑到在实际应用中,p(x)的数值范围通常在0至1之间,数值较小,导致不同用户的信用分值的差距体现不明显,因此,预测装置在得到信用分值p(x)后,可以对该信用分值进行换算,通过换算得到处于其他数值范围的信用分值。

具体地,可以将信用分值p(x)作为第一信用分值,当对每个预测子模型输出的信用分值进行统计,基于上述公式得到目标用户的第一信用分值之后,应用以下公式计算该目标用户的第二信用分值:

s=b+ln(1/p(x));

其中,p(x)表示该目标用户的第一信用分值,b表示预设基准数值,s表示该目标用户的第二信用分值,第二信用分值和第一信用分值的数值范围不同。

实际应用中,第一信用分值p(x)可以用于表示目标用户的违约概率,p(x)的大小与用户的可信程度负相关,p(x)越大,表示目标用户越可能违约,越不可信。而采用上述计算方式可以获取到与p(x)呈负相关关系的第二信用分值s,因此s的大小与用户的可信程度正相关,s越大,表示目标用户越不可能违约,越可信。

另外,通过设置预设基准数值b,可以调节s所处的数值范围,实现了将数值范围固定的p(x)平移至其他数值范围,用不同的数值大小表示信用分值。b的具体值可以根据对信用分值的数值范围需求确定,例如,当需要信用分值以三位数表示时,可以将b设置为100。

在另一种可能的实现方式中,预测装置可以根据每个预测子模型中至少一个分类器的错判率,对每个预测子模型中至少一个分类器输出的信用分值应用以下公式进行统计,得到该目标用户的信用分值:

其中,j表示预测子模型的标识,j表示预测子模型的数目,j为正整数,j为不大于j的正整数,t表示分类器标识,t表示预测子模型中的分类器数目,t为正整数,t为不大于t的正整数,x表示该目标用户的特征数据,ejt表示预测子模型j中分类器t的错判率,cjt(x)表示预测子模型j中分类器t输出的信用分值,h(x)表示该目标用户的信用分值,sign函数为符号函数。

这两种计算方式分别通过p(x)和h(x)表示目标用户的信用分值,这两种信用分值的区别之处在于,p(x)得到的信用分值是在0-1之间浮动的数值,p(x)可以表示目标用户的可信程度,p(x)的大小与可信程度成反比,p(x)越大,对应的目标用户的可信程度越小。而h(x)得到的信用分值为0或1,当信用分值为0时,表示对应的目标用户可信,当信用分值为1时,可以表示对应的目标用户不可信。

进一步地,由于通过上述公式计算信用分值的过程要求不同预测子模型的分类器的数目相等,而在实际应用中,由于不同预测子模型是基于不同数据源提供的样本数据进行训练的,不同预测子模型中分类器的数目可能相等,也可能不等。

为了保证信用分值的正常计算,当得到至少两个预测子模型后,可以将每个预测子模型划分为至少一个分类器集合,以保证不同预测子模型的分类器集合的数目相等,并根据每个预测子模型中每个分类器集合的错判率和输出的信用分值进行统计,得到目标用户的信用分值。

具体地,在上述步骤102中得到与该多个数据源对应的多个预测子模型之后,获取每个预测子模型的错判率之前,该方法可以包括以下步骤1121-1122:

1121、将每个预测子模型中的至少一个分类器按照错判率从大到小的顺序进行排序。

对于至少两个预测子模型中的每个预测子模型,当预测子模型包括至少一个分类器时,可以将至少一个分类器按照错判率从大到小的顺序进行排序。

具体地,对第j个数据源的样本数据进行训练,产生包括t个分类器的预测子模型时,该t个分类器中第t个分类器可以用cjt(x)表示,t为正整数,t为不大于t的正整数。相应地,该分类器的错判率可以用ejt表示。当获取t个分类器每个分类器cjt(x)的错判率ejt后,可以将该t个分类器按照错判率从大到小的顺序进行排序,得到的排序结果可以包括t个相互对应的分类器和错判率,该排序结果可以为(cj1(x),ej1)、(cj2(x),ej2)…(cjt(x),ejt),其中,ej1>ej2>…>ejt。

另外,当对第j个数据源的样本数据进行训练,预测子模型中只包括一个分类器时,则可以直接将该分类器用cj1(x)表示,将该分类器的错判率用ej1表示,则该预测子模型的排序结果即为(cj1(x),ej1)。

1122、将至少一个分类器按照排序结果划分为至少一个分类器集合。

当得到每个预测子模型的排序结果后,可以按照不同排序结果的长度,设置分类器集合数目。对于每个预测子模型中的至少一个分类器,可以根据分类器集合数目和该预测子模型中的分类器数目,将至少一个分类器划分为至少一个分类器集合,同一预测子模型的每个分类器集合内包括相同数目的分类器,而不同预测子模型的分类器集合的数目相等。

例如,得到社交数据源对应的第一预测子模型和交通数据源对应的第二预测子模型后,第一预测子模型的分类器数目为200,第二预测子模型的分类器数目为100。预测装置可以设置分类器集合数目为10,将第一预测子模型中的200个分类器划分为10个分类器集合,每个分类器集合包括20个按照错判率从大到小进行排序的分类器,将第二预测子模型中的100个分类器划分为10个分类器集合,每个分类器集合包括10个按照错判率从大到小进行排序的分类器。

相应地,上述步骤102中获取每个预测子模型的错判率的过程可以由以下步骤1123代替:

1123、对于每个分类器集合,将多个样本用户的特征数据输入到该分类器集合中,得到每个分类器输出的该多个样本用户的信用分值,根据分类器集合中每个分类器输出的该多个样本用户的信用分值进行统计,得到分类器集合输出的该多个样本用户的预测信用分值,根据该样本数据中该多个样本用户的信用分值以及分类器集合输出的该多个样本用户的预测信用分值,确定分类器集合的错判率。

其中,对于每个样本用户,根据分类器集合中每个分类器输出的信用分值进行统计时,可以按照预设投票策略对多个信用分值进行统计,为多个信用分值确定出一个信用分值,该信用分值与该分类器集合对应,综合地反映了分类器集合中各个分类器的预测结果。该预设投票策略可以为选取多个分类器输出的多个信用分值中出现次数最多的信用分值,计算多个分类器输出的多个信用分值的平均值等,本发明实施例对此不做限定。

确定分类器集合的错判率时,根据该样本数据中该多个样本用户的信用分值以及该分类器集合输出的该多个样本用户的预测信用分值进行对比统计,得到预测错误的样本用户的数量,将预测错误的样本用户的数量与样本用户的总数量的比值作为该分类器集合的错判率。关于每个样本用户是否预测错误,可以根据预测信用分值和实际信用分值的偏差确定,在此不再赘述。

那么,上述步骤103“将目标用户的特征数据分别输入到每个预测子模型中,得到该每个预测子模型输出的信用分值”可以由以下步骤1031代替:

1031、将目标用户的特征数据输入到预测子模型中,对于预测子模型中的每个分类器集合,根据分类器集合中每个分类器输出的信用分值进行统计,得到分类器集合输出的信用分值,进而得到该预测子模型中每个分类器集合输出的信用分值。

具体地,当得到分类器集合中至少两个分类器输出的至少两个信用分值后,可以按照预设投票策略对至少两个信用分值进行统计,为至少两个信用分值确定出一个信用分值,该信用分值与该分类器集合对应,综合地反映了分类器集合中各个分类器的预测结果。

其中,该预设投票策略可以为选取至少两个分类器输出的至少两个信用分值中出现次数最多的信用分值,计算至少两个分类器输出的至少两个信用分值的平均值等,本发明实施例对此不做限定。

则上述步骤104可以由以下步骤1041代替:

1041、根据每个预测子模型中至少一个分类器集合的错判率,对每个预测子模型中至少一个分类器集合输出的信用分值进行统计,得到目标用户的信用分值。

在一种可能的实现方式中,预测装置可以根据每个预测子模型中至少一个分类器集合的错判率,对每个预测子模型中至少一个分类器集合输出的信用分值应用以下公式进行统计,得到该目标用户的信用分值:

在另一种可能的实现方式中,预测装置可以根据每个预测子模型中至少一个分类器集合的错判率,对每个预测子模型中至少一个分类器集合输出的信用分值应用以下公式进行统计,得到该目标用户的信用分值:

其中,j表示预测子模型的标识,j表示预测子模型的数目,j为正整数,j为不大于j的正整数,t表示分类器集合标识,t表示预测子模型中的分类器集合数目,t为正整数,t为不大于t的正整数,x表示该目标用户的特征数据,ejt表示预测子模型j中分类器集合t的错判率,cjt(x)表示预测子模型j中分类器集合t输出的信用分值,h(x)表示该目标用户的信用分值,sign函数为符号函数。

需要说明的是,考虑到目标用户的特征数据包括至少两个方面的特征数据,当得到目标用户的信用分值之后,需要对该信用分值进行解释分析,以确定该目标用户的信用分值主要是由哪一方面的特征数据导致的。因此,本发明实施例在计算目标用户的信用分值时,使各个预测子模型计算的信用分值与预测子模型的错判率成反比,可以保证预测子模型的错判率越低,计算信用分值时所占的比重越高,影响越大。那么,可以认为该目标用户的信用分值预测结果主要是由该错判率最低的预测子模型所对应的特征数据导致的。例如,社交预测子模型的错判率最低,当确定目标用户的信用分值较小,目标用户不可信时,可以认为目标用户被判定为不可信的主要原因是由于社交不活跃。

本发明实施例提供的方法,由于每个数据源提供的样本数据包括至少两个样本用户的特征数据和信用分值,且不同数据源提供的特征数据用于描述样本用户在不同方面的特征,不同数据源提供的信用分值用于表示样本用户在不同方面的可信程度,因此采用至少两个数据源提供的样本用户在至少两个方面的特征数据和信用分值获取至少两个预测子模型,应用该至少两个预测子模型以及该至少两个预测子模型的错判率统计得到的信用分值能够表示目标用户在至少两个方面的可信程度,预测的信用分值更加全面,提高了预测的精确性。

进一步地,可以针对每个数据源的样本数据各自的特点,分别为来自不同数据源的样本数据确定相同或不同的训练方式,根据每个数据源的样本数据以及相应的训练方式进行训练,考虑到不同数据源之间的区别,避免了采用统一的训练方式对至少两个数据源的样本数据进行训练时导致的预测模型不准确的问题。

进一步地,获取到了每个预测子模型的错判率,当得到目标用户的信用分值之后,可以根据每个预测子模型的错判率,对信用分值进行解释分析,便于分析目标用户在不同方面的可信程度。

在上述图1所示实施例的基础上,本发明实施例提供了一种实施环境,图2a是本发明实施例提供的一种实施环境的示意图,该实施环境包括统计服务器和至少两个模型训练服务器,每个模型训练服务器均与统计服务器之间通过网络连接。

每个模型训练服务器,用于存储样本用户和目标用户的特征数据和信用分值,根据至少两个样本用户的特征数据和信用分值进行训练,得到预测子模型,并确定预测子模型的错判率。

统计服务器,用于根据每个预测子模型的错判率,根据每个预测子模型输出的信用分值进行统计,得到目标用户的信用分值。

不同的模型训练服务器可以存储样本用户和目标用户在不同方面的特征数据和信用分值,例如,参见图2b,该至少两个模型训练服务器可以包括金融数据服务器、社交数据服务器、健康数据服务器、交通数据服务器和基础数据服务器,统计服务器可以分别根据金融数据服务器、社交数据服务器、健康数据服务器、交通数据服务器和基础数据服务器输出的信用分值和相应的错判率进行统计,确定信用分值,如图2c所示。

在上述图2a所示实施环境的基础上,本发明实施例提供了一种信用分值预测方法,图3a是本发明实施例提供的一种信用分值预测方法的流程图。参见图3a,该信用分值预测方法的交互主体包括统计服务器和至少两个模型训练服务器。该方法包括:

301、每个模型训练服务器获取样本数据,根据样本数据进行训练,得到预测子模型,并获取预测子模型的错判率。

每个模型训练服务器可以获取至少两个样本用户的特征数据和信用分值,根据特征数据和信用分值进行训练,得到预测子模型并确定预测子模型的错判率。

其中,统计服务器可以向每个模型训练服务器发送至少两个样本用户的样本用户标识,每个模型训练服务器根据样本用户标识,从存储的大众用户的数据中确定与样本用户标识匹配的样本数据,根据至少两个样本用户的样本数据进行训练。

该样本用户标识可以为用户名称、该统计服务器为样本用户分配的编号等,不同模型训练服务器获取到同一个样本用户标识时,可以分别确定相同样本用户在不同方面的特征数据。

可选地,为了保证数据传输的安全性,统计服务器在向每个模型训练服务器发送至少两个样本用户标识和对应的信用分值时,可以采用加密传输的方式,每个模型训练服务器需要进行解密操作才能获取到样本用户标识和对应的信用分值。

其中,每个模型训练服务器训练样本数据的过程与上述步骤1021类似,确定预测子模型的错判率的过程与上述步骤1022类似。第j个模型训练服务器得到的预测子模型中的第t个分类器即上述图2a实施例中的cjt(x),该分类器的错判率即为ejt。

302、统计服务器获取目标用户的目标用户标识,向每个模型训练服务器发送该目标用户标识。

在本发明实施例中,模型训练服务器存储相互对应的用户标识和特征数据,每次进行预测时,统计服务器可以确定要预测信用分值的目标用户,获取该目标用户的目标用户标识,分别向每个模型训练服务器发送目标用户标识,以便模型训练服务器根据目标用户标识获取对应的特征数据。

303、每个模型训练服务器接收目标用户标识,根据目标用户标识获取目标用户的特征数据,将特征数据输入到预测子模型中,得到预测子模型输出的该目标用户的信用分值,向统计服务器发送预测子模型的错判率和该目标用户的信用分值。

304、统计服务器接收每个模型训练服务器发送的错判率和信用分值,根据每个预测子模型的错判率,对每个预测子模型输出的信用分值进行统计,得到该目标用户的信用分值。

当统计服务器确定了每个预测子模型中每个分类器输出的信用分值,即确定了c11(x)、c12(x)、c13(x)…cjt(x)…cjt(x),并确定错判率e11、e12、e13…ejt…ejt后,可以应用上述步骤104中的公式计算p(x)或h(x)。

可选的,当得到p(x)之后,还可以将p(x)作为第一信用分值,采用上述计算第二信用分值s的公式,得到目标用户的第二信用分值。

本发明实施例提供的方法,不同模型训练服务器进行训练时采用的特征数据表示样本用户在不同方面的特征,不同模型训练服务器进行训练时采用的信用分值表示样本用户在不同方面的可信程度,因此统计服务器采用至少两个预测子模型提供的信用分值以及该至少两个预测子模型的错判率进行统计,得到的信用分值能够表示目标用户在至少两个方面的可信程度,预测的信用分值更加全面,提高了预测的精确性。

在相关技术中,获取预测模型时,需要数据源向统计服务器传输样本用户和目标用户的特征数据。而特征数据通常数据量庞大,传输过程耗时长、需要占用的传输资源大,实施较为困难。并且,特征数据经常涉及用户隐私,一旦泄露,将造成用户隐私被窃取的风险。同时,不同数据源存储的特征数据的数据格式可能不同,不同数据源之间存在数据壁垒,会导致统计服务器无法识别所有的特征数据。

而在本发明实施例中,由模型训练服务器根据存储的特征数据自身执行对特征数据进行训练和预测信用分值的过程,无需向统计服务器传输特征数据,只需向统计服务器传输目标用户的信用分值和预测子模型的错判率即可,由于信用分值和错判率的数据量相对较小,能够节约传输过程所需要的时间和传输资源,并且,不同模型训练服务器向统计服务器传输的均为信用分值和错判率,而不是多种多样的特征数据,避免了数据壁垒和泄露用户特征数据的问题。

上述方法仅是以每个模型训练服务器基于各自的预测子模型获取目标用户的信用分值,统计服务器根据每个模型训练服务器发送的信用分值进行统计,确定最终的信用分值为例,实际应用中,每个模型训练服务器可以直接向统计服务器发送已训练的预测子模型,由统计服务器基于每个预测子模型分别获取目标用户的信用分值,并进行统计以确定最终的信用分值。

具体地,参见图3b,图3b是本发明实施例提供的另一种信用分值预测方法的流程图。该信用分值预测方法的交互主体包括统计服务器和至少两个模型训练服务器。该方法包括:

311、每个模型训练服务器获取样本数据,根据样本数据进行训练,得到预测子模型,并获取预测子模型的错判率。

312、每个模型训练服务器向统计服务器发送对应的预测子模型和错判率。

当模型训练服务器对样本数据进行训练,得到预测子模型后,可以直接向统计服务器发送预测子模型和错判率,如向统计服务器发送(cj1(x),ej1)、(cj2(x),ej2)…(cjt(x),ejt)。

313、统计服务器接收每个模型训练服务器发送的预测子模型和错判率,对应存储至少两个预测子模型和错判率。

当统计服务器得到每个预测子模型和相应的错判率后,可以通过上述步骤104中的公式,对至少两个预测子模型进行统计,确定p(x)或h(x),p(x)或h(x)即为统计后的至少两个预测子模型。

314、统计服务器获取目标用户的用户标识,向每个模型训练服务器发送用户标识。

315、每个模型训练服务器根据用户标识,获取目标用户的特征数据,向统计服务器发送目标用户的特征数据。

每个模型训练服务器根据样本用户的用户标识,获取用户标识对应的特征数据,即可得到样本用户的特征数据,该特征数据即为x的具体内容。

316、统计服务器接收每个模型训练服务器发送的目标用户的特征数据,将目标用户的特征数据分别输入到每个预测子模型中,得到每个预测子模型输出的信用分值,根据每个预测子模型的错判率,对每个预测子模型输出的信用分值进行统计,得到目标用户的信用分值。

上述步骤311-316与上述图2a实施例区别之处在于,每个模型训练服务器向统计服务器发送预测子模型、错判率和目标用户的特征数据,由统计服务器将目标用户的特征数据输入到每个预测子模型中,得到每个预测子模型输出的信用分值。其它的处理过程类似,在此不做赘述。

本发明实施例提供的方法,不同模型训练服务器进行训练时采用的特征数据表示样本用户在不同方面的特征,不同模型训练服务器进行训练时采用的信用分值表示样本用户在不同方面的可信程度,因此统计服务器采用至少两个预测子模型提供的信用分值以及该至少两个预测子模型的错判率进行统计,得到的信用分值能够表示目标用户在至少两个方面的可信程度,预测的信用分值更加全面,提高了预测的精确性。

图4是本发明实施例提供的一种信用分值预测装置的结构示意图。参见图4,该装置包括:获取模块401、训练模块402、预测模块403和统计模块404。

获取模块401,用于执行上述图1所示实施例中的步骤101,或者用于执行上述图3a所示实施例中步骤301的获取过程,或者用于执行上述图3b所示实施例中步骤311的获取过程。

训练模块402,用于执行上述图1所示实施例中的步骤102,或者用于执行上述图3a所示实施例中步骤301的训练过程,或者用于执行上述图3b所示实施例中步骤311的训练过程。

预测模块403,用于执行上述图1所示实施例中的步骤103,或者用于执行上述图3a所示实施例中步骤303得到预测子模型输出的信用分值的过程,或者用于执行上述图3b所示实施例中步骤316得到预测子模型输出的信用分值的过程。

统计模块404,用于执行上述图1所示实施例中的步骤104,或者用于执行上述图3a所示实施例中步骤304得到目标用户的信用分值的过程,或者用于执行上述图3b所示实施例中步骤316得到目标用户的信用分值的过程。

可选地,该训练模块402,包括:

训练子模块,用于执行上述每个实施例中得到预测子模型的过程。

输入子模块,用于执行上述每个实施例中将特征数据输入到预测子模型的过程。

确定子模块,用于执行上述每个实施例中确定预测子模型的错判率的过程。

可选的,该装置还包括:计算模块、集合划分模块。

该计算模块用于执行上述每个实施例中根据第一信用分值计算第二信用分值的过程。

该集合划分模块用于执行上述每个实施例中将至少一个分类器按照排序结果划分为至少一个分类器集合的过程。

上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。

需要说明的是:上述实施例提供的信用分值预测装置在预测信用分值时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将预测装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的信用分值预测装置与信用分值预测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

图5是本发明实施例提供的一种服务器的结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,一个或一个以上键盘556,和/或,一个或一个以上操作系统541,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。

该服务器500可以用于执行上述实施例提供的信用分值预测方法中预测装置所执行的步骤。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1