一种基于客户交易数据的客户评级方法、装置及存储介质与流程

文档序号:27972518发布日期:2021-12-14 22:41阅读:157来源:国知局
一种基于客户交易数据的客户评级方法、装置及存储介质与流程

1.本发明涉及信息技术领域,提供了一种基于客户交易数据的客户评级方法、装置及存储介质。


背景技术:

2.银行等传统信贷机构在信贷业务经营中会积累很多时间序列数据。例如,客户的app登录行为埋点数据、借款申请行为记录数据、交易行为数据、还款行为数据、调额记录数据等等。数据往往呈现为非结构化形式,记录(record)形式如下:某用户(user)在某个时间点(time)做(action)了某一件事(event),无法为计算机直接分析计算,需要进一步对数据进行数据挖掘,最终整理为包含原始用户数据信息的结构化数据。
3.rfm模型最早是用来衡量客户价值和客户创利能力。后来引入数据挖掘领域,用于加工用户非结构化数据,其核心思想如下:
4.r(recency):客户最近一次交易消费时间的间隔。r值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。
5.f(frequency):客户在最近一段时间内交易消费的次数。f值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。
6.m(monetary):客户在最近一段时间内交易消费的金额。m值越大,表示客户价值越高,反之则表示客户价值越低。
7.通过上述三个指标(r、f、m),我们可以对不同用户数据来源的非结构化数据进行加工处理,以形成结构化数据。
8.例如,对于电商交易数据,按如上思路可加工如下特征:1、用户最近一次交易时间间隔;2、用户最近一次交易金额;3、用户最近一段时间(时间切片如一个月,三个月等)交易笔数,金额等等指标。这些特征指标往往需要结合相关业务经验,加工出更加切合业务目标相关的用户行为指标,因而特征指标设计者的业务经验决定了指标的最终效果。基于设计加工完成的用户行为指标,利用逻辑回归或xgboost等二分类算法训练模型,计算评估用户信用好坏等级,用于最终的信贷决策。
9.rfm模型较为全面的概括、抽取了原始用户行为数据中包含的相关信息,同时将抽象化、非结构化的数据转换成了结构化形式,有助于后续计算机的自动化处理,然而也存在着一些不足。首先在对原始用户信息进行设计、加工处理过程中,需要特征设计者对相关信贷领域拥有很深的经验,无经验或者经验不足的人设计出来的用户行为特征往往效果较差,该问题限制了相关技术的推广或无法保证效果;其次rfm存在天然的不足,通过对时间序列数据进行聚合各类聚合操作,rfm只提取了时间序列数据中的各类静态指标,无法提取出用户行为数据在时间维度上的变化趋势和相关性,而往往对于用户行为数据,很多有效的行为信息蕴含于在时间维度的变化当中;最后,rfm提取的特征无法考虑特征直接的交叉、组合,形成更高阶的用户信用反馈信息。


技术实现要素:

10.本发明的目的在于解决现有rfm模型fm只提取了时间序列数据中的各类静态指标,无法提取出用户行为数据在时间维度上的变化趋势和相关性问题及rfm提取的特征无法考虑特征直接的交叉、组合,形成更高阶的用户信用反馈信息的问题。
11.本发明为了解决上述技术问题,采用以下技术方案:
12.一种基于客户交易数据的客户评级方法,包括以下步骤:
13.步骤1、获取用户所有相关的交易流水数据;
14.步骤2、截取前n笔交易用于用户行为特征提取,若用户至今为止,交易次数少于n次,则由于用户交易量过少,无法对该用户进行准确的信用评级,用户样本予以剔除;
15.步骤3、对步骤2获取到的交易流水数据应用lstm模型进行用户行为特征抽取,得到最终交易流水数据的高阶特征表示,即得到用户行为特征;
16.步骤4、依据步骤3抽取的用户行为特征,运用逻辑回归模型进行最后的融合,给出最终的用户信用评级,即用户最终用户行为特征x=[x1,x2,...,x
k
,...],最终用户信用评级分数score=α1×
x1+α2×
x2+...+α
k
×
x
k
+...。
[0017]
上述技术方案中,步骤3包括以下步骤:
[0018]
步骤3.1、将交易流水数据中每一次交易数据字段划分为类别型字段、数值型字段以及时间类字段,对数值型字段做归一化处理,对时间类字段转换成距今天数差,类别型字段采用embedd ing网络进行编码转化;
[0019]
步骤3.2、经过步骤3.1处理后的字段进行concatenate合并,将3.1步中的类别型字段、数值型字段和时间类字段进行链接操作,使得每一次交易流水数据转化成一个向量进行表示,得到用户行为特制向量表示;
[0020]
步骤3.3、提取最终交易流水数据特征的高阶特征表示,将步骤3.2得到的用户行为特征表示向量,按照交易距今时间进行从大到小进行排序,组成时间序列数据输入进入lstm模型中,并提取lstm模型的最后一层隐层输出作为最终交易流水数据的高阶特征表示。
[0021]
一种基于客户交易数据的客户评级装置,包括:
[0022]
数据获取模块、获取用户所有相关的交易流水数据;
[0023]
数据预处理模块、截取前n笔交易用于用户行为特征提取,若用户至今为止,交易次数少于n次,则由于用户交易量过少,无法对该用户进行准确的信用评级,用户样本予以剔除;
[0024]
用户行为特征模块、对步骤2获取到的交易流水数据应用lstm模型进行用户行为特征抽取,得到最终交易流水数据的高阶特征表示,即得到用户行为特征;
[0025]
输出模块、依据步骤3抽取的用户行为特征,运用逻辑回归模型进行最后的融合,给出最终的用户信用评级,即用户最终用户行为特征x=[x1,x2,...,x
k
,...],最终用户信用评级分数score=α1×
x1+α2×
x2+...+α
k
×
x
k
+...。
[0026]
本发明还提供了一种基于客户交易数据的客户评级装置,用户行为特征模块包括中:
[0027]
将交易流水数据中每一次交易数据字段划分为类别型字段、数值型字段以及时间类字段,对数值型字段做归一化处理,对时间类字段转换成距今天数差,类别型字段采用
embedd ing网络进行编码转化;
[0028]
经过处理后的字段进行concatenate合并,将类别型字段、数值型字段和时间类字段进行链接操作,使得每一次交易流水数据转化成一个向量进行表示,得到用户行为特制向量表示;
[0029]
提取最终交易流水数据特征的高阶特征表示,将得到的用户行为特征表示向量,按照交易距今时间进行从大到小进行排序,组成时间序列数据输入进入lstm模型中,并提取lstm模型的最后一层隐层输出作为最终交易流水数据的高阶特征表示。
[0030]
本发明还提供了一种存储介质,所述存储介质存储有一种基于客户交易数据的客户评级的程序,处理器执行所述程序时实现所述的一种基于客户交易数据的客户评级方法。
[0031]
因为本发明采用上述技术方案,因此具备以下有益效果:
[0032]
1、本发明将用于文本、语音等领域的时间序列处理技术lstm引入风控信贷领域,能够直接处理用户交易流水数据。在非数值型用户行为特征表示中,采用embedd ing模型进行编码,后续将非数值型变量形成的编码与数值型特征进行concatenate操作形成完整的单一原始交易数据的向量化表示,之后采用采用lstm模型对向量化表示的交易流水数据进行特征提取。提取过程中提取出了用户行为随时间变化的相关趋势类信息,同时对各类低阶特征进行交叉、组合,形成了用户行为的高阶特征表现形式,对最终模型的拟合提供了更高的拟合上限。
[0033]
2、在对原始非结构化用户交易流水数据进行设计加工成可用于计算机直接处理的数值型特征中,与rfm不同,并不需要很深的信贷领域类知识,由算法自动学习得到用户行为表现的特征化表示,降低了相关业务转移难度;
[0034]
3、使用时间序列处理技术对原始用户交易流水数据进行特征提取,与rfm设计的特征相比,rfm提取出来的特征属于低阶的统计类特征,并未考虑特征与特征交叉提升,最终采用逻辑回归建立用户信用等级,不能够很好的处理非线性可分的情况。而采用lstm技术,在特征提取阶段即充分考虑了特征的交叉、组合,形成了更高阶有效的组合特征,对最终建立用户信用等级模型具有增益效果且对于原始非线性情况也可通过特征的交叉进行很好的拟合。
[0035]
4、与rfm模型等传统特征提取技术对比,采用lstm模型对用户交易类数据进行特征提取,可提取出用户交易行为数据关于时间维度的趋势变化类特征,该类特征在采用传统特征提取技术时均被忽略,然而该类特征在用户评价过程中具有很好的区分效果,使模型具有更好的预测能力。
附图说明
[0036]
图1为客户交易流水数据抽取高阶特征过程的示意图。
具体实施方式
[0037]
基于前述rfm模型存在的不足,本发明引入在文本、语音处理领域通用的lstm模型,用于用户的交易流水数据的处理。通常情况下,用户交易流水数据如下:
[0038]
交易流水号xxxx
交易金额xxxx交易时间xxxx金额单位xxxx交易币种xxxx交易卡号xxxx卡类型xxxx...商品相关信息xxxx
[0039]
单一的交易数据基本格式如上表所示,单个用户行为序列数据由一系列上述交易流水数据组成。
[0040]
使用lstm模型对上述交易流水数据的过程如下:
[0041]
步骤1、获取用户所有相关的交易流水数据;
[0042]
步骤2、对用户交易流水数据,依据交易时间依据距离当前时间由近及远对交易流水单进行排序,并截取前20笔交易用于用户行为特征提取(该部分截取固定长度的交易数据是为了数据对齐,同时截取笔数可依据自身需要来定),若用户至今为止,交易次数少于20次,则由于用户交易量过少,无法对该用户进行准确的信用评级,用户样本予以剔除;
[0043]
步骤3、对上一步获取到的交易流水数据应用lstm模型进行用户行为特征抽取,得到最终交易流水数据的高阶特征表示,即得到用户行为特征;
[0044]
步骤4、依据上一步抽取的用户行为特征,运用逻辑回归模型进行最后的融合,给出最终的用户信用评级,给出最终的用户信用评级,即用户最终用户行为特征x=[x1,x2,...,x
k
,...],最终用户信用评级分数score=α1×
x1+α2×
x2+...+α
k
×
x
k
+...,其中α
k
为特征权重系数。
[0045]
进一步对步骤3中采用lstm模型对交易流水数据抽取用户行为特征的具体过程包括:
[0046]
步骤3.1、将交易流水数据中每一次交易数据字段划分为类别型字段、数值型字段以及时间类字段。对数值型字段做归一化处理,对时间类字段转换成距今天数差,类别型字段采embedd ing网络进行编码转化;
[0047]
步骤3.2、处理后的字段进行concatenate合并。将步骤3.1中的类别型字段、数值型字段和时间类字段进行链接操作,使得每一次交易流水数据转化成一个向量进行表示;
[0048]
步骤3.3、提取最终交易流水数据特征的高阶特征表示。将上一步得到的用户行为特征表示向量,按照交易距今时间进行从大到小进行排序,组成时间序列数据输入进入lstm模型中,并提取lstm模型的最后一层隐层输出作为最终交易流水数据的高阶特征表示。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1