处理金融数据的方法和设备的制造方法_2

文档序号:9579773阅读:来源:国知局
户集合可以是银行或者其他金融机构的全部或者部分用户。第 一用户集合可以仅有用户的标识符组成,然后根据该用户的标识符查找该用户的具体信 息,该具体信息包括用户的金融行为数据和该用户的个人信息。该标识符可以是用户的证 件号码或者是其他能够区分不同用户的标识符等。该个人信息可以包括用户的性别、工作 单位、联系电话等。该金融行为数据可以是以下的任一种或多种:交易记录、不动产估值、贷 款数据等。该交易记录可以包括以下任一种或多种:银行卡交易记录、信用卡交易记录、理 财产品交易记录等。
[0029] 由于第一用户集合中的用户可能存在一些不活跃用户或者不稳定的用户,因此需 要从该第一用户集合中筛选出来一部分收支稳定的用户组成目标用户集合,使用该目标用 户集合中的用户作为样本训练第一随机森林模型。筛选目标用户集合中的用户的原则可以 是考虑用户的金融行为数据。
[0030] 具体地,该根据该第一用户集合中的用户的金融行为数据,确定该目标集合中的 用户,包括:根据该第一用户集合中的用户的金融行为数据,从该第一用户集合中选择出用 户组成该目标集合,其中该目标集合中的用户为以下多种用户中的任一种用户或者同时属 于以下多种用户中的至少两种用户:活跃用户、稳定用户以及月供用户,其中该活跃用户为 在第一时间段内平均转入资金高于第一门限的用户,在第二时间段内转出资金至不属于该 第一用户集合所属的机构的同名账户的次数低于第二门限的用户为该稳定用户,该月供用 户为有不动产月供贷款的用户。
[0031] 具体来说,该第一用户集合中的用户并非都适用于训练用于估算用户金融资产的 第一随机森林模型。例如,某些用户中的资金可能是长期不变的或者仅有极少的变化。这 些用户的金融行为数据就不适用于作为样本来训练第一随机森林模型。因此可以将这些用 户从目标用户集合中排除出去。该第一时间段内平均转入资金可以是指一年之内平均每月 的转入资金,也可以是指半年之内平均每月的转入资金,或者多个月之内平均每月的转入 资金。第一时间段可以根据需要进行调整。此外,平均转入资金可以基于第二时间粒度的 平均转入资金,该第二粒度可以是一个月、一个季度、几周等。例如可以是是平均每月转入 资金,也可以是平均每个季度转入资金,或者平均几天或者几周的转入资金。可以根据需要 设置计算平均转入资金的周期。再如,某些用户的账户可能会经常发生变动,例如,该用户 经常将账户中的资金转出到其他金融机构(例如银行)的自己名下的账户中。这些用户的 金融行为数据的波动过于频繁,因此也不适用于作为样本来训练该第一随机森林模型。所 以也可以将这些用户从目标用户集合中排除出去。第二时间段内转出资金的次数可以是指 一年之内转出的资金的次数,也可以是指半年之内转出的资金的次数,或者多个月之内转 出的资金的次数。第二时间段可以根据需要进行调整。又如,第一用户集合中的某些用户 可能存在不稳定的因素,典型引起不稳定的原因就是这些用户可能会申请大额贷款购买不 动产或者其他资产。这会导致这些用户的资金以及平均交易量发生较大的变化。因此,也可 以将这些用户排除在该目标用户集合之外。在此情况下,可以选择那些已经申请贷款购买 不动产并进行月供的用户作为该目标用户集合中的用户。因为这些用户的收支都已经较为 平稳,便于训练出一个稳定可靠的第一随机森林模型。综上所述,该第一用户集合中的活跃 用户可以组成该目标用户集合,或者,该第一用户结合中的稳定用户可以组成该目标用户 集合,或者,该第一用户集合中的月供用户可以组成该目标用户集合,或者,该第一用户集 合中同时属于该活跃用户和该稳定用户的用户可以组成该目标用户集合,或者,该第一用 户集合中同时属于该活跃用户和该月供用户的用户可以组成该目标用户集合,或者,该第 一用户集合中同时属于该稳定用户和该月供用户的用户可以组成该目标用户集合,或者, 该第一用户集合中同时属于该活跃用户、该稳定用户以及该月供用户的用户组成该目标用 户集合。当然,本领域技术人员还可以设计出其他过滤规则,以便从该第一用户集合中选择 出合适的用户作为该目标用户集合中的用户,以便使用该目标用户集合中的用户的金融行 为数据和最大净资产数据训练该第一随机森林模型。
[0032] 该最大净资产数据可以是该第一时刻至第二时刻内按第一时间粒度统计的最大 资产总值与月供贷款的差值,其中该最大资产总值为该第一时刻至该第二时刻内案该第一 时间粒度统计的最大资金数值和不动产估值,该第二时刻在该第一时刻之前。该第二时刻 以及该第一时间粒度可以根据需要进行设置。例如,可以按月统计两年内的最大资金数值 和不动产估值。在此情况下,该第一时刻至该第二时刻的时段为两年,该第一时间粒度为一 个月。或者,可以按季度统计三年内的最大资金数值和不动产估值。在此情况下,该第一时 刻至该第二时刻的时段为三年,该第一时间粒度为一个季度。该最大资金数值是从该金融 行为数据中统计得到的。例如,如果该金融行为数据仅包括银行卡交易记录,那么该最大资 金数值就是第一时间粒度内银行卡余额最高的数值。又如,如果该金融行为数据为银行卡 交易记录和理财产品交易记录,则该最大资金数值就是第一时间粒度中银行卡余额和理财 产品市值之和最大的数值。
[0033] 进一步,在确定了该第一随机森林模型之后,可以使用该第一随机森林模型确定 该第一用户集合中的任一个用户在该第一时刻之后的任一时刻的金融资产。该金融资产即 为该时刻的最大净资产数据。
[0034] 具体地,第一随机森林模型可以用于根据用户的金融行为数据确定该用户在该第 一时刻之后的任一时刻的最大净资产数据。也就是说,该第一随机森林模型可以用于预测 用户的金融资产,该第一随机森林模型用于预测用户的金融资产的前提是获取该用户的金 融行为数据,该第一随机森林模型的预测目标就是该用户在某一时刻的最大净资产数据。 该第一随机森林模型可以用于预测用户的最大净资产数据的原因是因为该第一随机森林 模型是根据目标用户集合的用户的过去的金融行为数据和过去的最大净资产数据训练得 到的。
[0035] 进一步,还可以图1所示的方法还可以包括:从该目标用户集合中确定更新用户, 其中该更新用于在第三时刻的最大净资产数据与该更新用户在该第一时刻的最大净资产 数据不同,该第一时刻在该第三时刻之前;从该第一随机森林模型中确定对应于该更新用 户的决策树并从该第一随机模型中删除对应该更新用户的决策树;使用该更新用户的金融 行为数据和该第三时刻的最大净资产数据作为样本获得第二随机森林模型;根据该第一随 机森林模型和该第二随机森林模型,确定更新随机森林模型,以便使用该更新随机森林模 型对该第三时刻之后的用户的金融资产进行估算。
[0036] 下面将结合具体实施例对本发明进行进一步描述,需要理解的是,下面的实施例 仅是为了帮助更好的理解本发明,而并非对本发明的限制。
[0037] 图2是根据本发明提供的处理金融数据的方法的示意性流程图。
[0038] 201,获取第一用户集合中的用户的数据。
[0039] 具体地,假设第一用户集合总共有Μ个用户并且可以该Μ个用户从1970年1月开 始Κ个月的金融行为数据是已知的。获取该Μ个用户Κ个月内的金融行为数据。该Μ个用 户中的第i个用户从1970年1月开始的第j个月的金融行为数据可以组成一个Ν维的特 征向量,可以记为1」^尺'丨=川丄2,...>1;,.丨=丨0,丨二...,1<丨,其中#表示1个用户统计的所 有时间的N维特征向量(即所有月份的金融行为数据)的集合。
[0040] 202,从该第一用户集合中筛选出目标用户集合。
[0041] 例如,该目标用户集合同时属于活跃用户、稳定用户以及月供用户。该目标用户集 合中共有T个用户。该T个用户中每一个用户都有一个对应的最大净资产数据,T个用户 中的第i个用户在第j个月的该最大净资产数据可以记为VAieT,j= {0,1,2,...,K}。
[0042] 203,训练第一随机森林模型。
[0043] 该Τ个用户从第j个月到第j+K个月的金融行为数据都是已知的。该Τ个用户从 第j个月到第j+K个月的最大净资产数据也是已知的。因此,可以根据该T个用户中所有用 户的j+n个月的金融行为数据和第j+a个月的最大净资产数据训练该第一随机森林模型, 其中η为小于a的正整数且j+a彡K。
[0044] 该第一随机森林中的每一个决策树对应于该T个用户中的一个用户的金融行为 数据和最大净资产数据。因此,对于该第一随机森林模型中的每一个决策树,可以记录构造 该决策树的训练样本集。
[0045] 204,使用该第一随机森林模型,确定属于该Μ个用户中的任一个用户在某一时刻 的最大净资产数据,其中该时刻是1970年1月的第Κ个月之后的任一个时刻。
[0046] 具体地,在确定该用户在该时刻的最大净
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1