一种担保圈的大数据分析系统和方法_2

文档序号:9217759阅读:来源:国知局
储模块、函数计算和分析模块和工作调度模块。数据加载和存储模块用来存 储从银行系统采集来的担保关系数据和一些客户资料数据;函数计算和分析模块主要由分 析函数构成,包括了客户重要性评估函数、层次结构函数、群体划分函数。业务分析模块主 要是报表功能和图形化展示功能。工作调度模块能够调度其他模块的工作。其中,函数计 算和分析模块是本系统的核心部分,包括统计分析单元和三类应用分析函数来实现担保圈 分析:第一类是评估担保网络中节点重要性和中心性的函数,包括Degree函数(计算担保 网络节点的度中心性)、EigenvectorCentrality函数(计算担保网络节点的特征向量中 心度)、Pagerank函数(计算担保网络节点的pagerank);第二类是总结整个担保网络客户 之间的担保路径的函数,利用Ntree函数来实现;第三类是通过统计分析和分群算法划分 成各种担保群体的函数,能够对担保用户做到群体化管理。
[0037] 以下结合【具体实施方式】说明本发明的担保圈大数据分析系统。
[0038]图1为本发明实施方式涉及的担保圈大数据分析系统结构图。该系统包括:业务 分析模块1、数据加载和存储模块2、函数计算和分析模块3和工作调度模块4。
[0039] 其中,业务分析模块1包括查询单元11、报表单元12和可视化单元13。其中,查 询单元11与数据加载和存储模块2直接相连接,当给定一个客户时,可以查询与其相关的 所有担保关系及担保指标;当给定一个群体,可以查询群体内所有担保关系和涉及的担保 金额等。报表单元12与数据加载和存储模块2直接相连接,不仅可以给出每个客户不同级 次关联到的担保用户数、担保金额等的客户级报表;也可以给出每个群体的担保性质、客户 数、担保金额等的群体级报表;还能给出不同时期担保关系网络的变化(包括用户数、群体 数、金额等的变化)的时间报表。可视化单元13与数据加载和存储模块2直接相连接,实现 对整个担保网络和担保群体局部网络的可视化,可以展现担保群体的担保和被担保关系。
[0040] 数据加载和存储模块2存储有所需加载的数据的数据模型,即该模块规定有加载 或存储数据的要求的表格形式(如数据模型表格中的加载项为数据格式或类型、数据内容、 加载字段、加载记录数、数据来源等),使系统的其他单元或模块能更方便的调取所需的数 据资料;该模块能够加载和存储系统所需的应用数据,同时该模块能存储各单元计算的参 数及数据,该模块还能提供数据存储平台的SQL计算。
[0041] 函数计算和分析模块3包括统计分析单元31和功能函数单元32。其中,统计分 析单元31能够对功能函数单元32各函数计算的结果进行统计归纳,将担保关系分成一对 一的单向担保关系、一对一的互保关系、三个客户以上群体互保关系、担保链关系四种不同 的基础形态;还能对这几种基本形态的包括人数、担保金额、合同数等项目进行统计分析。 功能函数单元 32 包括Degree函数 321、EigenvectorCentrality函数 322、Pagerank函 数323、Ntree函数324、Modularity函数325。其中,Degree函数321用来计算担保网络 每个节点的担保客户数和被担保客户数;Degree由出度Outdegree和入度Indegree两个 中心度指标构成,出度Outdegree是指担保圈中的客户担保他人的人数;入度Indegree是 指担保圈中客户为其提供担保的人数,Outdegree和Indegree只要经过简单的人数统计即 可得到。EigenvectorCentrality函数322用来计算担保网络每个节点特征向量中心度, 这是标准的图论分析算法,可以用来衡量担保节点用户在整个网络中的中心程度,其中心 度评价是整个网络全局性的评价,算法可参考汪小帆、李翔、陈关荣编著的网络科学导论》 (北京:高等教育出版社,2012年:P165)。Pagerank函数323用来计算担保网络每个节点 的pagerank,用来衡量担保节点用户在整个网络中的重要性,其重要性评价是局部性的,即 主要受邻近节点的影响,pagerank是google专门算法,由LarryPage和SergeyBrin发 明,算法可参照其论文《ThePageRankCitationRanking:BringingOrdertotheWeb》。 Ntree函数324对担保圈网络进行层次计算,用来列举担保网络中,从一个节点到另外一个 节点所有可能的担保路径,函数中可以设置路径的最大级次;基于此担保路径的层次,可以 勾画任意两个客户之间所有的担保关联关系。Modularity函数325可以将担保网络进行分 成独立的具有担保关联关系的群体,该函数计算方法采用M.E.J.Newman于2006年在PNAS 上发表的ModularityMaximization算法。以上Degree函数321、EigenvectorCentrality 函数322、Pagerank函数323、Ntree函数324、Modularity函数325均由统计分析单元31 触发,这些函数从数据加载和存储模块2中读取数据,进行计算分析,计算后的结果再返回 并存储于数据加载和存储模块2中。
[0042] 工作调度模块4包含系统的输入、输出部分,能够进行指令的输入和业务分析模 块中报表等结果的输出,通过该模块操作人员可手动的对系统其他各模块或单元进行调 度,系统还能自动的对系统其他模块或单元进行工作调度。
[0043]Degree函数 321、EigenvectorCentrality函数 322、Pagerank函数 323、Ntree 函数324、Modularity函数325等分析函数采用Java分析函数包和MapReducec方式开发, 这些函数可以被SQL语句调用。统计分析单元31通过SQL脚本实现。查询单元11、报表单 元12两项用JSP开发报表程序来实现灵活查询和报表功能。工作调度模块4采用Java开 发。整个系统采用BS架构,数据加载和存储模块2采用SQL,应用程序采用Java,网络及可 视化单元13采用JSP编程语言来实现开发。
[0044]图2为本发明实施方式所涉及的担保圈大数据分析系统处理流程图。
[0045] 首先,启动担保圈大数据分析系统,根据业务上的需要,确定需要哪些数据,此时 整个系统进入工作状态,操作人员可以通过工作调度模块4进行工作的调度(步骤S1)。通 过工作调度模块4调度数据加载和存储模块2加载并存储业务需要的数据,加载的数据包 括担保网络需要分析的数据,以及业务上的合同、违约、还款等所有信息(步骤S2)。具体的, 数据加载和存储模块2中存在分析所需要的数据的数据模型,只要按照数据模型的要求放 入数据到相应的表中,即可启动相应的分析。
[0046] 在数据加载和存储模块2加载相应的数据后,便可对每个客户进行中心度 的评分,评分过程通过工作调度模块4进行启动,统计分析单元31触发Degree函数 321、EigenvectorCentrality函数322、Pagerank函数323,分别计算整个加载的担 保网络数据,生成担保圈中每个客户的中心度评价指标,分别为indegree、outdegree、 eigenvectorcentrality和pagerank四个评价指标,其中EigenvectorCentrality和 PageRank需要设置2个模型参数:最大迭代次数妨P最小误差〃,确定参数的原则需要 根据系统部署的硬件配置、网络规模、计算精度要求来确定,优选好E1〇~1〇〇之间,〃在 0. 1~0. 001之间,更优选地,知30,〃=0. 01,视数据情况可以修改;同时计算的指标结果均 存储于数据加载和存储模块2中(步骤S3)。得到这些指标后,根据业务的需要,利用统计分 析单元31提供的筛选功能,依据以上四个指标的全部或者部分,系统可自动设定中心客户 的关注标准,得到需要重点关注的客户名单(步骤S4 )。
[0047] 当计算完步骤S3中的评分指标后,操作人员
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1