一种基于大数据的风控系统的制作方法

文档序号：16790952发布日期：2019-02-01 19:37阅读：384来源：国知局

本发明涉及金融风险控制领域，具体涉及一种基于大数据的风控系统。

背景技术：

互联网金融的发展可以很好地满足中小微企业、创新型企业及中低收入阶层个人的投融资需求，为“大众创新，万众创业”营造良好的资本环境；但另一方面，互联网金融在创新发展过程中也暴露出大量的问题及隐患。其不仅严重危害了人民的财产安全，也有碍互联网金融的健康发展。因此，实现有效地监测到潜在的具有高风险的平台就显得极为重要，需要一种可以面向用户具有银行级风控保障的互联网金融风险控制系统，从而有效的降低互联网金融平台的投资风险。

技术实现要素：

本发明的目的就在于为了解决上述问题而提供一种基于大数据的风控系统，旨在实现对互联网金融企业的实时监测预警，并构建出一个准确、有效的互联网金融平台风险预警模型，从而从多种角度展现互联网金融企业的风险状况。

本发明通过以下技术方案来实现上述目的：

一种基于大数据的风控系统，最终的目标是搭建出可以面向用户的互联网金融风险控制系统，包括由数据库服务器和应用程序服务器组成的物理层、由结构化数据和非结构化数据组成的数据源、由mongodb数据管理平台和etl数据调度平台组成的数据储存层、由数据挖掘和数据重排组成的数据分析层、由大数据风控模型和大数据风控平台组成的应用层，

所述基于大数据的风控系统包括以下流程：

首先，挖掘数据：包括所述文本挖掘和所述数据重排；在基于大数据建模时，原始数据中包含了大量的新闻报道、社交文本等所述非结构化数据，运用所述文本挖掘和所述数据排重对数据进行结构化处理，整理为所述结构化数据；

然后，机器学习：利用所述机器学习对数据预处理后的大量特征字段进行反复的训练，以从各式各样的海量数据中找出真正与平台高风险相关的指标及精准的预警模型；

第三，研究假设：分析当前互联网金融平台出现风险的原因，提出以下4条假设：

(1)运营数据异常程度与平台风险呈正相关；

(2)网络负面舆情数量与平台风险呈正相关；

(3)平台及相关法人信用状况与平台风险呈负相关；

(4)平台背景实力与平台风险呈负相关；

第四，建立所述大数据风控模型，包括以下步骤：

(1)数据采集；

(2)数据预处理；

(3)模型构建与优化；

(4)预警平台功能展示；

第五，完成面向用户的互联网金融平台风险监测预警平台的搭建。

优选的，文本挖掘是运用相应的文本挖掘技术对数据进行排重、分词、分类等一系列的结构化处理。

优选的，数据排重，指根据词语的抗篡改能力及语义信息等特征生成词语指纹，然后根据词语指纹对不同文本进行检测以排除相似性文档。

优选的，模型构建与优化基于spark分布式计算平台，利用所述机器学习方法选取多种模型来对训练样本集进行训练，并通过测试样本集对其准确性进行检验，最终通过对原始数据字段及数据预处理的反复调整以期得出一个最优的互联网金融平台风险预警模型。

优选的，所述物理层选用符合云计算restservice标准的硬件平台。

优选的，大数据风控平台在获取大量的有效数据后储存于所述mongodb数据库中，所述mongodb数据库仅用来储存需要经常访问的基础用户数据，根据不同业务对数据的需求差异这就需要使用etl定期加工相应的数控库表。

优选的，所述spark分布式计算平台是基于mapreduce的新一代大数据分析框架，吸收了mapreduce框架的所有优点，spark将计算的中间结果数据存储在内存中，通过减少磁盘i/0，使后续的数据运算效率更高。

优选的，所述数据储存层采用标准json接口，json是一种轻量级的数据交换格式，具有良好的可读和便于快速编写的特性，可在不同平台之间进行数据交换；json采用兼容性很高的文本格式，同时也具备类似于c语言体系的行为。

有益效果在于：通过将模型的建立与大数据相结合，并借助于自动文本采集技术，使得以上模型搭建的预警平台通过数据每日自动更新，实现对互联网金融企业的实时监测预警；通过spark分布式计算、文本挖掘等技术来建立更加全面的指标体，并利用机器学习的方法对采集到的多维度历史数据进行反复的训练与改进，以构建出一个准确、有效的互联网金融平台风险预警模型，从而从多种角度展现互联网金融企业的风险状况。

附图说明

图1是本发明所述一种基于大数据的风控系统的结构示意图；

图2是本发明所述一种基于大数据的风控系统的流程示意图；

图3是本发明所述一种基于大数据的风控系统的建模流程示意图。

附图标记说明如下：

1、物理层；11、数据库服务器；12、应用程序服务器；2、数据源；21、结构化数据；22、非结构化数据；3、数据储存层；31、mongodb数据管理平台；32、etl数据调度平台；4、数据分析层；41、文本挖掘；42、数据重排；43、机器学习；44、研究假设；5、应用层；51、大数据风控模型；511、数据采集；512、数据预处理；513、训练样本模型；514、模型改进；515、优化模型；516、测试样本；517、预警平台功能展示；52、大数据风控平台。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

如图1-图3所示，一种基于大数据的风控系统，最终的目标是搭建出可以面向用户的互联网金融风险控制系统，包括由数据库服务器11和应用程序服务器12组成的物理层1、由结构化数据21和非结构化数据22组成的数据源2、由mongodb数据管理平台31和etl数据调度平台32组成的数据储存层3、由数据挖掘41和数据重排42组成的数据分析层4、由大数据风控模型51和大数据风控平台52组成的应用层5，

本发明的较佳实施例，基于大数据的风控系统包括以下流程：

首先，挖掘数据：包括文本挖掘41和数据重排42；在基于大数据建模时，原始数据中包含了大量的新闻报道、社交文本等非结构化数据22，运用文本挖掘41和数据排重42对数据进行结构化处理，整理为结构化数据21；

然后，机器学习43：利用机器学习43对数据预处理512后的大量特征字段进行反复的训练，以从各式各样的海量数据中找出真正与平台高风险相关的指标及精准的预警模型；

第五，研究假设44：分析当前互联网金融平台出现风险的原因，提出以下4条假设：

(1)运营数据异常程度与平台风险呈正相关；

(2)网络负面舆情数量与平台风险呈正相关；

(3)平台及相关法人信用状况与平台风险呈负相关；

(4)平台背景实力与平台风险呈负相关；

第六，建立大数据风控模型，包括以下步骤：

(1)数据采集511；

(2)数据预处理512；

(3)模型构建与优化；

(4)预警平台功能展示517；

第五，完成面向用户的互联网金融平台风险监测预警平台的搭建。

具体的，本实施例中，文本挖掘41是运用相应的文本挖掘技术对数据进行排重、分词、分类等一系列的结构化处理。

具体的，本实施例中，数据排重42，指根据词语的抗篡改能力及语义信息等特征生成词语指纹，然后根据词语指纹对不同文本进行检测以排除相似性文档。

具体的，本实施例中，模型构建与优化基于spark分布式计算平台，利用机器学习方法选取多种模型来对训练样本集进行训练，并通过测试样本集对其准确性进行检验，最终通过对原始数据字段及数据预处理的反复调整以期得出一个最优的互联网金融平台风险预警模型。

具体的，本实施例中，物理层1选用符合云计算restservice标准的硬件平台。

具体的，本实施例中，大数据风控平台52在获取大量的有效数据后储存于mongodb数据库中，mongodb数据库仅用来储存需要经常访问的基础用户数据，根据不同业务对数据的需求差异这就需要使用etl定期加工相应的数控库表。

具体的，本实施例中，spark分布式计算平台是基于mapreduce的新一代大数据分析框架，吸收了mapreduce框架的所有优点，spark将计算的中间结果数据存储在内存中，通过减少磁盘i/0，使后续的数据运算效率更高。

具体的，本实施例中，数据储存层3采用标准json接口，json是一种轻量级的数据交换格式，具有良好的可读和便于快速编写的特性，可在不同平台之间进行数据交换；json采用兼容性很高的文本格式，同时也具备类似于c语言体系的行为。

本发明的较佳实施例中，建模过程：首先是运用不同的方法对大量原始数据进行采集，然后需要对其进行缺失值修补、异常值检测等一系列的数据预处理，使原始数据格式规范统一，以满足训练模型的要求；接着将处理后的数据分成训练样本和测试样本两部分，将训练样本带入多种模型进行机器学习，同时利用测试样本来验证不同模型的准确性，并通过增减原始字段及进一步的数据预处理来不断优化改进模型的准确性；最后则是平台功能实现的展示。

本发明的较佳实施例中，大数据风控平台可以实现两方面的功能:(1)对互联网金融平台平台所面临的风险进行实时全面的评分，并针对其风险状况生成详细的风险分析报告，以为其风险的后续应对工作提供必要的建议措施；(2)多维度地展现行业整体风险情况，如将平台按地区、时间、类型等不同内容进行风险分类统计，以清晰直观的方式满足不同用户的多样化需求。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其效物界定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张彤
技术所有人：广州财略金融信息科技有限公司
我是此专利的发明人

上一篇：一种具有清洗功能的油烟机及其清洗方法与流程
上一篇：去毛刺刀的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。