基于智能合约数据湖的金融交易监管模型、系统、设备

文档序号:25590038发布日期:2021-06-22 17:06阅读:103来源:国知局
基于智能合约数据湖的金融交易监管模型、系统、设备

本发明属于区块链领域,具体涉及一种基于智能合约数据湖的金融交易监管模型、系统、设备。



背景技术:

在刚刚结束的第二届外滩金融峰会上,“数字经济”,“云和链”,“金融科技”,“监管框架”等概念被反复提及。作为现代金融监管体系的重要内容,反洗钱是维护经济社会稳定的重要保障,是切实防范金融风险、优化行业监管效果的重要抓手,也是参与全球治理、扩大金融业双向开放的重要手段。目前,金融行业形成了以《反洗钱法》为基本法律,以人民银行以及银保监会、证监会制定的反洗钱相关部门规章为具体指导,以及行业协会发布的自律规则为具体落实的相对系统完备的金融业反洗钱制度。但反洗钱监管仍存在短板,体制机制有待进一步完善,监管有效性有待进一步增强,监管手段有待进一步改进。

常见的金融监管平台由两部分组成:客户身份识别模块和反洗钱模块。其中客户身份识别通过客户尽职调查、增强尽职调查、swift过滤、指纹人脸等生物信息识别的方法对客户进行身份识别认证。该步骤需要大量使用文本、电子表格等工具对客户信息进行记录比对,会耗费人力成本和时间成本,同时会降低客户粘性及交易效率,在某些国家和地区还会造成隐私问题。而反洗钱模块则包含传统的基于规则引擎的检测方法和使用机器学习技术的检测方案。传统的基于规则引擎的检测方法无法对低频转账交易中的可疑行为进及海量交易中的复杂交易洗钱行为进行识别。而机器学习算法则对复杂关联交易、偶发低频交易的诊断准确率较低。

我国在2019年将区块链作为核心技术自主创新重要突破口,快推动区块链技术和产业创新发展。传统金融行业监管机构在反洗钱工作上付出了巨大的监管成本,并在反洗钱工作上取得了一定的成果,但从目前各金融机构反洗钱机制来看,仍然存在着客户身份识别效率低、反洗钱工作信息化程度低、反洗钱监管成本高以及金融机构间相关数据不同步不共享等问题。因此引入区块链实现部门内监管的创新,将区块链技术引入到金融机构日常客户身份识别、反洗钱检测、交易审计等环节中,利用智能合约实现对交易前、交易中、交易后监管规则的数字化、自动化、智能化实时监管势在必行。



技术实现要素:

为解决现有技术中的上述问题,本发明提出了一种基于智能合约数据湖的金融交易监管模型、系统、设备,提升了监管的准确率和效率,降低了人力资源与时间成本。

本发明一面提出了一种基于智能合约数据湖的金融交易监管模型,包括以下步骤:

步骤s10,从uci数据库中整理出具备金融特征属性的机器学习数据集,经过数据预处理后获得实验所需训练数据集和测试数据集;

步骤s20,将实验数据集作为数据源向oraclize预言机发送合约调用,经由oraclize预言机查询检验合规后将实验数据集导入智能合约数据湖,若不合规则返回,即终止此次交易;

步骤s30,实验数据根据属性、特征、类别以及所在处理阶段等因素被分别存放在mysql数据库、cache数据库以及smartcontract数据库中。其中mysql数据库存放实验数据执行监管操作前的全部数据类型,cache数据库存放短间隔高频次细粒度调用的数据类型,如:关系数据、账户数据、税务数据、历史数据、评分数据及黑名单\白名单数据等。smartcontract数据库则存放交易特征属性的数据类型;

步骤s40,在智能控制器的指挥下,智能合约数据上不同区位的特征数据被依次传入机器学习引擎执行监管前期、监管中期和监管后期操作,分别对应:kyc(客户身份识别),aml(反洗钱检测),creditgranting(信用风险评分)。智能控制器首先调取cache数据库中缓存的账户数据、评分数据及黑名单\白名单等数据,并对其执行kyc操作。若执行结果通过,则进入步骤s50,否则返回,即终止此次交易;

步骤s50,在智能控制器的指挥下,smartcontract数据库中的特征属性数据被执行aml操作,交易数据在行为建模、链路分析、异常检测三重方法仲裁判决后确定执行结果。若执行结果通过,则进入步骤s60,否则返回,即终止此次交易;

步骤s60,在智能控制器的指挥下,步骤s50中执行通过的数据及其映射在smartcontract数据库中的特征属性数据被执行creditgranting操作,交易数据在评分卡模型的评判中得到相应分数,作为此次交易的信用得分。智能控制器将评分结果存放在cache数据库中;

步骤s70,智能控制器将机器学习引擎的最终判别结果返回smartcontract数据库,以确定最终交易结果并展示交易状况及预测准确率。

在一些优选实施方式中,步骤s10中的数据预处理方法为:

采用head()方法检查数据,并处理缺失数据,对应添加默认值,之后删除不完整的行和列,规范化数据类型后保存结果。

在一些优选实施方式中,步骤s20中oraclize预言机自下而上依次调用不同层执行查验操作,逻辑结构为:

网络协议是中心化预言机的网络拓扑结构中,由单一的中心化服务商控制一个中介节点;

操作层中智能合约的运行和数据调用均在可信执行环境(tees)上进行。由aws充当审查角色,通过tlsnotaryproof验证诚实性。依赖多重签名机制让满足超过最小诚实节点数的预言者(oracles)同时为相应节点签名;

合约层包括订单匹配合约、服务请求合约、数据调用接口和服务标准协议。

在一些优选实施方式中,步骤s40“智能控制器首先调取cache数据库中缓存的账户数据、评分数据及黑名单\白名单等数据,并对其执行kyc操作”,其方法为:

步骤s401,对传入数据做digitalonboarding(数字入职)和swift过滤操作,若结果为正进入步骤s402,若为负则返回、即终止此次交易;

步骤s402,对传入数据做cdd(客户尽职调查)和edd(增强尽职调查)操作,若结果为正进入步骤s403,若为负则返回、即终止此次交易;

步骤s403,对传入数据做whitelist\blacklistfilter(白名单\黑名单过滤)操作,若结果通过则进入步骤s50,否则返回、即终止此次交易。

在一些优选实施方式中,步骤s50“交易数据在行为建模、链路分析、异常检测三重方法仲裁判决后确定执行结果”,其方法为:

步骤s501,采用svm算法(supportvectormachine,支持向量机)对交易数据做行为建模三分类运算,结果分别为:安全交易、可疑交易、待定交易。若结果为安全交易,则进入步骤s503;若结果为可疑交易,则返回、即终止此次交易;若结果为待定交易则进入步骤s502;svm算法选用sigmoid核函数,其计算方法为:

其中x1,x2是对应两个类别的数据,κ(x1,x2)是正定核的充要条件,a用来设置核函数中的gamma参数设置,默认值是1/k(k是类别数),-b用来设置核函数中的coef0,默认值是0;

步骤s502,采用maxent算法(maxentropy,最大熵)对待定交易做链路分析操作,分类结果若为安全交易,则进入步骤s503;若结果为可疑交易,则返回、即终止此次交易;

步骤s503,采用bayesian算法对安全交易做异常检测,若结果为正,则进入步骤s60,若结果为负则返回、即终止此次交易。

在一些优选实施方式中,步骤s60“交易数据在评分卡模型的评判中得到相应分数”,其方法为:

步骤s601,采用分桶法,对每一个处理值赋予相应的一个属性,将数值特征便被转化为分类特征;

步骤s602,计算每个属性的证据权重(woe)及每个特征点信息价值(iv),证据权重的计算公式为:

[ln(distrg/distrb)]×100

其中,g代表客户交易通过目标变量=0,b代表客户交易驳回目标变量=1;

信息价值计算公式为:

其中,g代表客户交易通过目标变量=0,b代表客户交易驳回目标变量=1;

步骤s603,用woe替换原有变量的值进行建模,模型选取lr(logisticregression,逻辑回归),其表达式为:

其中,y为标签为a的概率,x为所预测的标签,w为训练参数,wt为权值;

步骤s604,采用交叉验证和网格搜索调整参数,将其转化为二分类问题,其损失函数为:

其中,f(w)为损失函数,n为样本序号,yn为样本标签,p为对应的概率;

步骤s605,为每个属性计算评分卡得分系数进而得到最终的评分卡。得分公式为:

其中,β为给定属性的lr系数,α为lr截距,woe为给定属性的证据权重,n为模型特征数量,factor,offset为缩放参数。

在一些优选实施方式中,步骤s70的智能合约处理方法为:

步骤s701,检查建立用户时提交的信息及交易金额是否真实合法;

步骤s702,检查转账的发起方和受益方是否为合法用户;

步骤s703,根据机器学习引擎返回的结果来判断合约操作是否继续执行。

在一些优选实施方式中,金融交易监管模型预测准确率信息可以采用条形图展示。

本发明另一方面提出了一种基于智能合约数据湖的金融交易监管系统,所述系统包括:数据深加工模块、特征标记模块、预言机模块、智能合约数据湖模块、机器学习引擎模块、智能控制器模块、准确率展示模块;

所述数据深加工模块,配置为将uci数据库中整理出的机器学习数据集进行数据清洗数据预处理操作,并将结果保存为交易数据集;

所述数据特征标记模块,配置为将交易数据集构建六维特征数据集;

所述预言机模块,配置为将交易数据经由oraclize预言机查询检验,判定其是否合规后,进而执行下一步操作;

所述智能合约数据湖模块,配置为根据交易数据属性、特征、类别以及所在处理阶段的不同,将其分别存放在mysql数据库、cache数据库以及smartcontract数据库中;

所述机器学习引擎模块,配置为将不同区位的特征数据依次传入机器学习引擎执行监管前期、监管中期和监管后期操作;

所述智能控制器模块,配置为将智能控制器具备统一指挥数据、算法、区块、数据库的联合运算操作职能;

所述准确率展示模块,配置为展示最终交易结构、交易状况及预测准确率。

本发明的第三方面,提出一种存储设备,其中存储有程序,所述程序适于由处理器加载并执行,以实现上面所述的一种基于智能合约数据湖的金融交易监管模型。

本发明的第四方面,提出一种处理设备,包括:处理器和存储器;

所述处理器适于执行程序,所述存储器适于存储该程序;

所述程序适于由所述处理器加载并执行,以实现上面所述的一种基于智能合约数据湖的金融交易监管模型。

本发明的有益效果:

通过本发明一种基于智能合约数据湖的金融交易监管模型。可以解决现有模型算法对小额高频交易、复杂关联交易、偶发低频交易识别精度低,历史交易难溯源的问题;对海量交易和复杂交易手段的洗钱行为能进行有效识别;改善了算法单一性及不可解释性等局限;提升了预测的准确率和效率,降低了人工成本,缓解服务器压力。

附图说明

图1是本发明基于智能合约数据湖的金融交易监管模型的流程示意图;

图2是本发明基于智能合约数据湖的金融交易监管模型的系统结构图;

图3是本发明基于智能合约数据湖的金融交易监管模型的组织架构图;

图4是本发明基于智能合约数据湖的金融交易监管模型实施例的智能合约数据湖原理图;

图5是本发明基于智能合约数据湖的金融交易监管模型实施例的机器学习系统逻辑图;

图6是本发明基于智能合约数据湖的金融交易监管模型实施例的预测结果精度图。

具体实施案例

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

本发明一种基于智能合约数据湖的金融交易监管模型。可以解决现有模型算法对小额高频交易、复杂关联交易、偶发低频交易识别精度低,历史交易难溯源的问题;对海量交易和复杂交易手段的洗钱行为能进行有效识别;改善了算法单一性及不可解释性等局限;提升了预测的准确率和效率,降低了人工成本,缓解服务器压力。

本发明的一种基于智能合约数据湖的金融交易监管模型,为了更清晰地对其进行说明,下面结合图1对本发明方法实施方式中各步骤展开详述。

步骤s10,从uci数据库中整理出具备金融特征属性的机器学习数据集,经过数据预处理后获得实验所需训练数据集和测试数据集;

使用数据库存储由uci数据库中整理出具备金融特征属性的机器学习数据集,数据集需包含六大类特征,分别为:基本信息、客户肖像、账户维度、交易金额、交易笔数维度、对手维度。

本发明优选的实施方式中,使用python实现数据的清洗预处理工作,采用head()方法检查数据,并处理缺失数据,对应添加默认值,之后删除不完整的行和列,规范化数据类型并补全缺失项获得交易数据。

步骤s20,将实验数据集作为数据源向oraclize预言机发送合约调用,经由oraclize预言机查询检验合规后将实验数据集导入智能合约数据湖,若不合规则返回,即终止此次交易;

本发明优选的实施方式中,oraclize预言机自下而上依次调用不同层对交易数据执行查验操作,逻辑结构为:

网络协议设置为由单一的中心化服务商控制一个中介节点;操作层中智能合约的运行和数据调用均在可信执行环境(tees)上进行。由aws充当审查角色,通过tlsnotaryproof验证诚实性。依赖多重签名机制让满足超过最小诚实节点数的预言者(oracles)同时为交易数据签名;合约层确定服务请求合约是否通过。

步骤s30,实验数据根据属性、特征、类别以及所在处理阶段等因素被分别存放在mysql数据库、cache数据库以及smartcontract数据库中。其中mysql数据库存放实验数据执行监管操作前的全部数据类型,cache数据库存放短间隔高频次细粒度调用的数据类型,如:关系数据、账户数据、税务数据、历史数据、评分数据及黑名单\白名单数据等。smartcontract数据库则存放交易特征属性的数据类型;

交易数据中的六大维度特征数据均存在mysql数据库中;将其中的客户类型、归属地、离岸账户、高风险地区、开户时长等信息存放在cache数据库中;将交易特征相关的多币种交易、提现激增、大额消费激增、贷款比例、小额转账统计特征等信息存入smartcontract数据库,以便于智能控制器的获取调用。系统结构图如图2所示,详细架构图如图3所示。

步骤s40,在智能控制器的指挥下,智能合约数据上不同区位的特征数据被依次传入机器学习引擎执行监管前期、监管中期和监管后期操作,分别对应:kyc(客户身份识别),aml(反洗钱检测),creditgranting(信用风险评分)。智能控制器首先调取cache数据库中缓存的账户数据、评分数据及黑名单\白名单等数据,并对其执行kyc操作。若执行结果通过,则进入步骤s50,否则返回,即终止此次交易;

该步骤中,交易数据在智能控制器的指挥下,依次在机器学习引擎中执行kyc(对应监管前期),aml(对应监管中期),creditgranting(对应监管后期)的操作,并根据结果确定下一步的走向。具体操作原理可参考图4.

本发明优选的实施方式中,步骤s40“智能控制器首先调取cache数据库中缓存的账户数据、评分数据及黑名单\白名单等数据,并对其执行kyc操作”,其方法为:

步骤s401,对传入数据做digitalonboarding(数字入职)和swift过滤操作,若结果为正进入步骤s402,若为负则返回、即终止此次交易;

该步骤中,传入数据首先通过模型中的基本信息,如:姓名、年龄,出生地、交易地区、受益人账户等信息执行初步的数字入职操作,之后可利用人脸识别等生物信息识别的方式进一步验证客户身份是否合规。

步骤s402,对传入数据做cdd(客户尽职调查)和edd(增强尽职调查)操作,若结果为正进入步骤s403,若为负则返回、即终止此次交易;

该步骤中,传入数据中的归属地、年龄偏大、银行职员、洗钱风险、多币种交易等属性在模型中执行cdd和edd操作。

步骤s403,对传入数据做whitelist\blacklistfilter(白名单\黑名单过滤)操作,若结果通过则进入步骤s50,否则返回、即终止此次交易。

系统对过往历史交易中的不同客户进行打分,依据客户得分获得白名单,黑名单。此步骤通过查询的方式快速确定交易客户是否合规。

步骤s50,在智能控制器的指挥下,smartcontract数据库中的特征属性数据被执行aml操作,交易数据在行为建模、链路分析、异常检测三重方法仲裁判决后确定执行结果。若执行结果通过,则进入步骤s60,否则返回,即终止此次交易;

该步骤中,设计了一种结合行为建模、链路分析、异常检测三重检测方法的仲裁模型,由3种方法共同投票确定交易是否最终通过,该模型中任一方法投反对票,则交易终止。结合监管前期的kyc模型及监管后期的打分模型,共同构成了机器学习引擎,引擎逻辑图如图5所示。

本发明优选的实施方式中,步骤s50“交易数据在行为建模、链路分析、异常检测三重方法仲裁判决后确定执行结果”,其方法为:

步骤s501,采用svm算法(supportvectormachine,支持向量机)对交易数据做行为建模三分类运算,结果分别为:安全交易、可疑交易、待定交易。若结果为安全交易,则进入步骤s503;若结果为可疑交易,则返回、即终止此次交易;若结果为待定交易则进入步骤s502;svm算法选用sigmoid核函数,其计算方法为:

其中x1,x2是对应两个类别的数据,κ(x1,x2)是正定核的充要条件,a用来设置核函数中的gamma参数设置,默认值是1/k(k是类别数),-b用来设置核函数中的coef0,默认值是0;

步骤s502,采用maxent算法(maxentropy,最大熵)对待定交易做链路分析操作,分类结果若为安全交易,则进入步骤s503;若结果为可疑交易,则返回、即终止此次交易;

步骤s503,采用bayesian算法对安全交易做异常检测,若结果为正,则进入步骤s60,若结果为负则返回、即终止此次交易。

以测试数据集中的某几次交易为例,编号为0007,0005,0524的交易均被判定为安全交易,直接进入监管后期的打分模块。编号为0217,0479的交易由于跨地区、跨币种、开户时间段、客户年龄偏大的缘故被判定为可疑交易,交易被驳回,结果直接返回smartcontract数据湖。

步骤s60,在智能控制器的指挥下,步骤s50中执行通过的数据及其映射在smartcontract数据库中的特征属性数据被执行creditgranting操作,交易数据在评分卡模型的评判中得到相应分数,作为此次交易的信用得分。智能控制器将评分结果存放在cache数据库中;

本发明优选的实施方式中,步骤s60“交易数据在评分卡模型的评判中得到相应分数”,其方法为:

步骤s601,采用分桶法,对每一个处理值赋予相应的一个属性,将数值特征便被转化为分类特征;

步骤s602,计算每个属性的证据权重(woe)及每个特征点信息价值(iv),证据权重的计算公式为:

[ln(distrg/distrb)]×100公式(2)

其中,g代表客户交易通过目标变量=0,b代表客户交易驳回目标变量=1;

信息价值计算公式为:

其中,g代表客户交易通过目标变量=0,b代表客户交易驳回目标变量=1;

步骤s603,用woe替换原有变量的值进行建模,模型选取lr(logisticregression,逻辑回归),其表达式为:

其中,y为标签为a的概率,x为所预测的标签,w为训练参数,wt为权值;

步骤s604,采用交叉验证和网格搜索调整参数,将其转化为二分类问题,其损失函数为:

其中,f(w)为损失函数,n为样本序号,yn为样本标签,p为对应的概率;

步骤s605,为每个属性计算评分卡得分系数进而得到最终的评分卡。得分公式为:

其中,β为给定属性的lr系数,α为lr截距,woe为给定属性的证据权重,n为模型特征数量,factor,offset为缩放参数。

以判定结果为安全交易的某几次交易为例,设定三原变量,第一变量为目标变量,二元分类变量,其余变量是特征。在特征预测的环节中,根据iv值选用其中8个特征进行模型训练,经计算后得到factor=28.85,offset=487.14。进行确定最终评分,例如:某位交易人年龄45岁,负债率0.5,月收入50000人民币。其评分为53+55+57=165,可列入白名单。3年内存在2次可疑交易的交易人被列入黑名单。

步骤s70,智能控制器将机器学习引擎的最终判别结果返回smartcontract数据库,以确定最终交易结果并展示交易状况及预测准确率。

本发明优选的实施方式中,步骤s70的智能合约处理方法为:

步骤s701,检查建立用户时提交的信息及交易金额是否真实合法;

步骤s702,检查转账的发起方和受益方是否为合法用户;

步骤s703,根据机器学习引擎返回的结果来判断合约操作是否继续执行。

该步骤中,若交易类别为安全交易则免人工执行上述操作,若交易类别为可疑交易,则需要人工验证判定智能合约上的交易是否通过。编号为0007,0005,0524的交易均被通过。编号为0217,0479的交易均需要人工二次判定。

本发明优选的实施方式中,金融交易监管模型预测准确率信息可以采用条形图展示。

如图6所示,展示了此次实验中根据时间的变化,交易被监管模型判断正确的准确率条形图。可知预测准确率不随时间产生变化,而仅和对应参数相关,对应不同类别交易采用不同参数可有效增加算法的预测准确率。

本发明第二实施方式的一种基于智能合约数据湖的金融交易监管系统,包括数据深加工模块、特征标记模块、预言机模块、智能合约数据湖模块、机器学习引擎模块、智能控制器模块、准确率展示模块;

所述数据深加工模块,配置为将uci数据库中整理出的机器学习数据集进行数据清洗数据预处理操作,并将结果保存为交易数据集;

所述数据特征标记模块,配置为将交易数据集构建六维特征数据集;

所述预言机模块,配置为将交易数据经由oraclize预言机查询检验,判定其是否合规后,进而执行下一步操作;

所述智能合约数据湖模块,配置为根据交易数据属性、特征、类别以及所在处理阶段的不同,将其分别存放在mysql数据库、cache数据库以及smartcontract数据库中;

所述机器学习引擎模块,配置为将不同区位的特征数据依次传入机器学习引擎执行监管前期、监管中期和监管后期操作;

所述智能控制器模块,配置为将智能控制器具备统一指挥数据、算法、区块、数据库的联合运算操作职能;

所述准确率展示模块,配置为展示最终交易结构、交易状况及预测准确率。

本发明第三实施方式的一种存储设备,其中存储有程序,所述程序适于由处理器加载并执行,以实现上面所述的一种基于智能合约数据湖的金融交易监管模型。

本发明第四实施方式的一种处理设备,包括:处理器和存储器;所述处理器适于执行程序,所述存储器适于存储该程序;所述程序适于由所述处理器加载并执行,以实现上面所述的一种基于智能合约数据湖的金融交易监管模型。

本领域技术人员应该能够意识到,结合本文中所公开的实施方案描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1