账户识别方法、装置、存储介质和电子设备与流程

文档序号:30103836发布日期:2022-05-18 13:59阅读:85来源:国知局
账户识别方法、装置、存储介质和电子设备与流程

1.本发明涉及金融技术领域,特别涉及一种账户识别方法、装置、存储介质和电子设备。


背景技术:

2.随着通信技术的发展,越来越多的不法分子借助于手机、固定电话、网络等通信技术进行非法宣传和金融诈骗,给很多用户带来了经济损失,扰乱了正常社会秩序。而在众多诈骗案件中,大部分都是通过银行账户给嫌疑人进行转账汇款。如果可以在受害人转账的时候,能够识别出涉诈银行账户,对其进行冻结并终止交易,能减少受害人的损失。
3.目前还没有可以准确识别出具有诈骗嫌疑的银行账户的技术方案。


技术实现要素:

4.鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的账户识别方法、装置、存储介质和电子设备。
5.第一方面,一种账户识别方法,包括:
6.从数据库中获取第一银行账户的账户数据;
7.对所述账户数据进行特征工程处理,从而提取得到至少一个维度的目标特征;
8.将所述目标特征输入至预先训练好的账户识别模型,从而通过所述账户识别模型识别所述银行账户是否为涉诈账户。
9.结合第一方面,在某些可选的实施方式中,所述账户识别模型的训练过程,包括:
10.从数据库中获取多个银行账户的账户数据;
11.对各所述账户数据进行特征工程处理,从而提取得到相应至少一个维度的目标特征;
12.将各所述目标特征划分为训练集和测试集,并将所述训练集输入至xgboost算法,以对所述xgboost算法进行训练;
13.将所述测试集输入至所述xgboost算法,以对经过所述训练的xgboost算法进行测试,从而训练得到所述账户识别模型。
14.结合上一个实施方式,在某些可选的实施方式中,在所述从数据库中获取多个银行账户的账户数据之后,所述方法还包括:
15.对各所述账户数据中的身份证信息进行加密;
16.对各所述账户数据中的用户位置信息进行偏转处理。
17.结合上一个实施方式,在某些可选的实施方式中,在所述对各所述账户数据中的用户位置信息进行偏转处理之后,所述方法还包括:
18.将各所述账户数据中错误的信息进行删除;
19.将各所述账户数据中缺失的信息补齐为相应的预设信息。
20.结合第二个实施方式,在某些可选的实施方式中,所述对各所述账户数据进行特
征工程处理,从而提取得到相应至少一个维度的目标特征,包括:
21.根据预先建立的业务指标和技术指标,直接从各所述账户数据中分别筛选得到至少一个维度的目标特征。
22.结合第二个实施方式,在某些可选的实施方式中,所述对各所述账户数据进行特征工程处理,从而提取得到相应至少一个维度的目标特征,包括:
23.通过对各所述账户数据在业务和时序层面的统计,从而统计得到至少一个维度的目标特征。
24.第二方面,一种账户识别装置,包括:第一数据获取单元、第一特征工程单元和账户识别单元;
25.所述第一数据获取单元,用于从数据库中获取第一银行账户的账户数据;
26.所述第一特征工程单元,用于对所述账户数据进行特征工程处理,从而提取得到至少一个维度的目标特征;
27.所述账户识别单元,用于将所述目标特征输入至预先训练好的账户识别模型,从而通过所述账户识别模型识别所述银行账户是否为涉诈账户。
28.结合上一个实施方式,在某些可选的实施方式中,所述装置还包括:模型训练单元;
29.所述模型训练单元包括:账户数据获取子单元、特征工程子单元、模型训练子单元和模型测试子单元;
30.所述模型训练单元,用于执行所述账户识别模型的训练过程;
31.所述账户数据获取子单元,用于从数据库中获取多个银行账户的账户数据;
32.所述特征工程子单元,用于对各所述账户数据进行特征工程处理,从而提取得到相应至少一个维度的目标特征;
33.所述模型训练子单元,用于将各所述目标特征划分为训练集和测试集,并将所述训练集输入至xgboost算法,以对所述xgboost算法进行训练;
34.所述模型测试子单元,用于将所述测试集输入至所述xgboost算法,以对经过所述训练的xgboost算法进行测试,从而训练得到所述账户识别模型。
35.第三方面,一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一项所述的账户识别方法。
36.第四方面,一种电子设备,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述任一项所述的账户识别方法。
37.借由上述技术方案,本发明提供的账户识别方法、装置、存储介质和电子设备,可以通过从数据库中获取第一银行账户的账户数据;对所述账户数据进行特征工程处理,从而提取得到至少一个维度的目标特征;将所述目标特征输入至预先训练好的账户识别模型,从而通过所述账户识别模型识别所述银行账户是否为涉诈账户。由此可以看出,本发明可以通过账户识别模型准确识别出各个银行账户是否为涉诈账户,效率高且准确率较高。
38.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够
更明显易懂,以下特举本发明的具体实施方式。
附图说明
39.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
40.图1示出了本发明提供的一种账户识别方法的流程图;
41.图2示出了本发明提供的一种账户识别装置的结构示意图;
42.图3示出了本发明提供的一种电子设备的结构示意图。
具体实施方式
43.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
44.如图1所示,本发明提供了一种账户识别方法,包括:s100、s200和s300;
45.s100、从数据库中获取第一银行账户的账户数据;
46.可选的,银行账户的账户数据可以存储在hbase数据库中,以便于本发明的执行主体实时获取大量的银行账户的账户数据。当然,本发明不限制于hbase数据库,任何可行的方式均属于本发明的保护范围。
47.可选的,由于数据库存储的账户数据中可能存在一些重要的信息。对于重要的信息可以进行适当的保护,例如,对于身份证信息可以进行加密,对于用户位置信息可以进行偏转,本发明对此不做限制。
48.可选的,数据库存储的账户数据中还可能存在一些异常的数据,例如信息缺失的数据和信息错误的数据等。对于信息缺失的数据,本发明可以采取用预设信息进行补齐的方式进行处理;对于信息错误的数据,本发明可以采取用预设信息进行替换或者直接删除的方式进行处理,本发明对此不做限制。
49.s200、对所述账户数据进行特征工程处理,从而提取得到至少一个维度的目标特征;
50.可选的,本发明可以在经过对获取的账户数据进行上述加密、偏转和补齐,以及替换或者删除等数据清洗处理之后,对账户数据进行特征工程处理。
51.可选的,特征工程处理就是把原始数据转化为机器识别的特征过程。即把经过数据清洗处理之后的账户数据转化为后续账户识别模型可以识别的特征,而通过这些特征又能很好的承载原始的账户数据。特征工程处理具体可以包括:特征筛选、特征衍生和特征选择等过程。
52.其中,本发明进行特征筛选是因为数据库中读取的账户数据的数据表多和数据字段复杂(200多个字段),所以需要对数据字段进行数据分析,筛选出有用的数据字段。本发明可以从业务指标和技术指标两大类对账户数据进行特征筛选,本发明对此不做限制。
53.本发明进行特征衍生是因为账户数据中的很多数据字段不能直接使用,所以可以
从业务和时序等层面对账户进行统计分析之后,生成新的衍生字段进行使用。例如,日转账次数、日转账总金额、大额对私交易次数和大额交易金额等数据字段。
54.由于特征筛选以及特征衍生构建了一系列基础特征、时序特征、业务特征、组合特征和离散特征等,所有特征加起来高达数百维。高维的特征一方面可能会导致维数灾难,另一方面很容易导致模型过拟合。所以本发明可以通过特征选择来降低特征的维度。例如,本发明通过过滤法和集成法相结合,最终选择了12个账户特征和多个交易特征共同作为目标特征,其中,账户特征可以包括:账户id、开户人性别、开户人年龄、账户的银行卡数、银行账户绑定的手机号、客户的性质、账户状态、最近30天的交易总金额、最近30天交易次数、单笔大额交易次数(2万以上)、单笔小额交易次数(小于2000)和是否有外汇交易等;交易特征可以包括:日转账次数、日转账总金额、大额对私交易次数、大额交易金额和外币结汇金额等,本发明对此不做限制。
55.s300、将所述目标特征输入至预先训练好的账户识别模型,从而通过所述账户识别模型识别所述银行账户是否为涉诈账户。
56.可选的,本发明所说的账户识别模型可以是预先经过训练并评估通过的机器学习模型。通过账户识别模型可以快速准确地识别出第一银行账户是否为涉诈账户,效率较高且准确率较高。
57.可选的,本发明可以从精准率、召回率和f1-score指标分别对账户识别模型进行评估。
58.其中,precision(精准率)=tp
÷
(tp+fp),recall(召回率)=tp
÷
(tp+fn),f1-score=2*precision*recall/(precision+recall)。其中,tp代表样本为正,预测结果为正的个数,fp代表样本为负,预测结果为正的个数,fn代表样本为正,预测结果为负的个数。score为精确率和召回率的调和平均数,最大为1,最小为0。
59.可选的,本发明对于账户识别模型的训练过程不做具体限制,训练过程与账户识别模型所使用的算法有关。例如,结合图1所示的实施方式,在某些可选的实施方式中,所述账户识别模型的训练过程,包括:步骤1.1、步骤1.2、步骤1.3和步骤1.4;
60.步骤1.1、从数据库中获取多个银行账户的账户数据;
61.可选的,前述s100至s300描述的是在训练好账户识别模型之后,从数据库中获取银行账户的账户数据,并使用账户识别模型识别银行账户是否为涉诈账户的过程。而步骤1.1至步骤1.4描述的是在账户识别模型训练好之前,获取多个银行账户的账户数据,并对账户识别模型进行训练的过程,本发明对此不做限制。
62.所以,步骤1.1中所描述的数据库可以是与s100所描述的数据库一致,也可以是不同的数据库,本发明对此不做限制。
63.一般而言,用于训练的数据量越大,对于账户识别模型的训练结果越好,所以本发明不限制步骤1.1中的银行账户的数量。
64.步骤1.2、对各所述账户数据进行特征工程处理,从而提取得到相应至少一个维度的目标特征;
65.可选的,对于步骤1.2中所描述的特征工程处理,可以参见前述s200对于特征工程处理的解释,本发明对此不做赘述。需要说明的是,对于任何一个账户数据而言,均可以提取多个不同维度的目标特征,具体需要提取哪些目标特征,本发明可以根据实际需要进行
设定。
66.步骤1.3、将各所述目标特征划分为训练集和测试集,并将所述训练集输入至xgboost算法,以对所述xgboost算法进行训练;
67.可选的,本发明可以采用十则交叉验证的方式,将目标特征分成10份,其中,9份作为训练集,1份作为测试集,本发明发明对此不做限制。
68.可选的,boosting是一族可将弱学习器提升为强学习器的算法。这族算法的工作机制类似:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器。如此重复进行,直至基学习器数目达到事先指定的值m,最终将这m个基学习器进行加权结合。具体可以通过公式:进行表示,本发明对此不做限制,其中,基分类器f常采用回归树和逻辑回归。
69.而xgboost算法属于集成学习中的boosting分支,是以cart树中的回归树作为基分类器,在给定训练数据后,其单个树的结构(叶子节点个数、树深度等等)基本可以确定了。但xgboost并不是简单重复的将几个cart树进行组合。它是一种加法模型,将模型上次预测(由t-1棵树组合而成的模型)产生的误差作为参考进行下一棵树(第t棵树)的建立。以此,每加入一棵树,将其损失函数不断降低。
70.cart回归树是假设树为二叉树,通过不断将特征进行分裂。比如当前树结点是基于第j个特征值进行分裂的,设该特征值小于s的样本划分为左子树,大于s的样本划分为右子树。
71.xgboost算法的思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值。xgboost目标函数定义为:其中,ω(fk)=γt+0.5||w||2,代表损失函数,∑ω(fk)代表正则化项。损失函数是预测值和真实值的差异,损失函数越小,代表预测越准确。正则项表示树的复杂度值越小复杂度越低,泛化能力越强,可避免模型过拟合。
72.目标函数共分两大项,前一项是每个样本的损失和,xgboost的损失函数是可以自定义的,并且其自带的损失函数也有很多种。第二项是正则项,包含两个部分,一个是对树进行制约,一个是对叶子节点进行制约,都能够避免过拟合。公式中为预测输出,yi为label值(真实值),fk为第k个树模型,t为第k棵树的叶子结点数,w为第k棵树的叶子节点权重值,γ为叶子树惩罚正则项,具有前剪枝的作用,抑制节点向下的分裂,λ为叶子权重惩罚正则项,在计算分割点的过程中计算增益时可以起到平滑的作用,这两个惩罚项都能防止过拟合。
73.误差函数可以是square loss和logloss等,正则项可以是l1正则和l2正则等。
74.本发明的xgboost算法所采用的损失函数可以为:
本发明对此不做限制。
75.步骤1.4、将所述测试集输入至所述xgboost算法,以对经过所述训练的xgboost算法进行测试,从而训练得到所述账户识别模型。
76.可选的,测试的过程主要是模拟实际使用过程,将测试集输入至账户识别模型,并获得识别结果,然后根据识别结果对账户识别模型的模型参数进行调整。
77.可选的,如前所述,在实际使用过程中,需要对获得的账户数据进行数据清洗处理,同理,在进行模型训练之前,也可以对账户数据进行数据清洗处理。例如,结合上一个实施方式,在某些可选的实施方式中,在所述从数据库中获取多个银行账户的账户数据之后,所述方法还包括:步骤2.1和步骤2.2;
78.步骤2.1、对各所述账户数据中的身份证信息进行加密;
79.可选的,本发明对于加密的过程不做具体限制,任何可行的方案均属于本发明的保护范围。例如,本发明可以通过截取身份证号的部分数据的方式进行加密。
80.步骤2.2、对各所述账户数据中的用户位置信息进行偏转处理。
81.可选的,本发明对于偏转处理的过程不做具体限制,任何可行的方案均属于本发明的保护范围。例如,本发明可以采用将用户所在位置的经纬度偏转一定度数的方式对用户位置信息进行偏转处理。
82.可选的,除了进行上述数据清洗处理,本发明还可以进行其它数据清洗处理。例如,结合上一个实施方式,在某些可选的实施方式中,在所述对各所述账户数据中的用户位置信息进行偏转处理之后,所述方法还包括:步骤3.1和步骤3.2;
83.步骤3.1、将各所述账户数据中错误的信息进行删除;
84.步骤3.2、将各所述账户数据中缺失的信息补齐为相应的预设信息。
85.可选的,针对不同字段的信息,本发明均可以预设相应的预设信息,以便于在确定账户数据中缺失某个字段的信息时,及时补齐为相应的预设信息,本发明对此不做限制。
86.结合第二个实施方式,在某些可选的实施方式中,所述对各所述账户数据进行特征工程处理,从而提取得到相应至少一个维度的目标特征,包括:
87.根据预先建立的业务指标和技术指标,直接从各所述账户数据中分别筛选得到至少一个维度的目标特征。
88.可选的,如前所述,本发明需要提前确定提取哪些目标特征,即可以预先建立相应的业务指标和技术指标,提取相应指标对应的目标特征,本发明对此不做限制。
89.结合上一个实施方式,在某些可选的实施方式中,所述对各所述账户数据进行特征工程处理,从而提取得到相应至少一个维度的目标特征,还包括:
90.通过对各所述账户数据在业务和时序层面的统计,从而统计得到至少一个维度的目标特征。
91.可选的,如前所述,有些目标特征可以直接从账户数据中提取得到,而有些目标特征需要进行统计后才能得到。针对这些需要统计后才能得到的目标特征,可以从业务层面和时序层面进行统计,本发明对此不做限制。
92.如图2所示,本发明提供了一种账户识别装置,包括:第一数据获取单元100、第一特征工程单元200和账户识别单元300;
93.所述第一数据获取单元100,用于从数据库中获取第一银行账户的账户数据;
94.所述第一特征工程单元200,用于对所述账户数据进行特征工程处理,从而提取得到至少一个维度的目标特征;
95.所述账户识别单元300,用于将所述目标特征输入至预先训练好的账户识别模型,从而通过所述账户识别模型识别所述银行账户是否为涉诈账户。
96.结合上一个实施方式,在某些可选的实施方式中,所述装置还包括:模型训练单元;
97.所述模型训练单元包括:账户数据获取子单元、特征工程子单元、模型训练子单元和模型测试子单元;
98.所述模型训练单元,用于执行所述账户识别模型的训练过程;
99.所述账户数据获取子单元,用于从数据库中获取多个银行账户的账户数据;
100.所述特征工程子单元,用于对各所述账户数据进行特征工程处理,从而提取得到相应至少一个维度的目标特征;
101.所述模型训练子单元,用于将各所述目标特征划分为训练集和测试集,并将所述训练集输入至xgboost算法,以对所述xgboost算法进行训练;
102.所述模型测试子单元,用于将所述测试集输入至所述xgboost算法,以对经过所述训练的xgboost算法进行测试,从而训练得到所述账户识别模型。
103.结合上一个实施方式,在某些可选的实施方式中,所述装置还包括:加密单元和偏转单元;
104.所述加密单元,用于在所述从数据库中获取多个银行账户的账户数据之后,对各所述账户数据中的身份证信息进行加密;
105.所述偏转单元,用于在所述从数据库中获取多个银行账户的账户数据之后,对各所述账户数据中的用户位置信息进行偏转处理。
106.结合上一个实施方式,在某些可选的实施方式中,所述装置还包括:删除单元和补齐单元;
107.所述删除单元,用于在所述对各所述账户数据中的用户位置信息进行偏转处理之后,将各所述账户数据中错误的信息进行删除;
108.所述补齐单元,用于在所述对各所述账户数据中的用户位置信息进行偏转处理之后,将各所述账户数据中缺失的信息补齐为相应的预设信息。
109.结合第二个实施方式,在某些可选的实施方式中,所述特征工程子单元,包括:直接提取子单元;
110.所述直接提取子单元,用于根据预先建立的业务指标和技术指标,直接从各所述账户数据中分别筛选得到至少一个维度的目标特征。
111.结合第二个实施方式,在某些可选的实施方式中,所述特征工程子单元,包括:特征工程子单元;
112.所述特征工程子单元,用于通过对各所述账户数据在业务和时序层面的统计,从而统计得到至少一个维度的目标特征。
113.本发明提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一项所述的账户识别方法。
114.如图3所示,本发明提供了一种电子设备70,所述电子设备70包括至少一个处理器
701、以及与所述处理器701连接的至少一个存储器702、总线703;其中,所述处理器701、所述存储器702通过所述总线703完成相互间的通信;所述处理器701用于调用所述存储器702中的程序指令,以执行上述任一项所述的账户识别方法。
115.在本技术中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
116.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
117.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
118.以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1