一种担保圈的大数据分析系统和方法_2

文档序号：9217759阅读：来源：国知局

储模块、函数计算和分析模块和工作调度模块。数据加载和存储模块用来存储从银行系统采集来的担保关系数据和一些客户资料数据；函数计算和分析模块主要由分析函数构成，包括了客户重要性评估函数、层次结构函数、群体划分函数。业务分析模块主要是报表功能和图形化展示功能。工作调度模块能够调度其他模块的工作。其中，函数计算和分析模块是本系统的核心部分，包括统计分析单元和三类应用分析函数来实现担保圈分析：第一类是评估担保网络中节点重要性和中心性的函数，包括Degree函数(计算担保网络节点的度中心性)、EigenvectorCentrality函数（计算担保网络节点的特征向量中心度）、Pagerank函数（计算担保网络节点的pagerank);第二类是总结整个担保网络客户之间的担保路径的函数，利用Ntree函数来实现；第三类是通过统计分析和分群算法划分成各种担保群体的函数，能够对担保用户做到群体化管理。
[0037] 以下结合【具体实施方式】说明本发明的担保圈大数据分析系统。
[0038]图1为本发明实施方式涉及的担保圈大数据分析系统结构图。该系统包括：业务分析模块1、数据加载和存储模块2、函数计算和分析模块3和工作调度模块4。
[0039] 其中，业务分析模块1包括查询单元11、报表单元12和可视化单元13。其中，查询单元11与数据加载和存储模块2直接相连接，当给定一个客户时，可以查询与其相关的所有担保关系及担保指标；当给定一个群体，可以查询群体内所有担保关系和涉及的担保金额等。报表单元12与数据加载和存储模块2直接相连接，不仅可以给出每个客户不同级次关联到的担保用户数、担保金额等的客户级报表；也可以给出每个群体的担保性质、客户数、担保金额等的群体级报表；还能给出不同时期担保关系网络的变化(包括用户数、群体数、金额等的变化)的时间报表。可视化单元13与数据加载和存储模块2直接相连接，实现对整个担保网络和担保群体局部网络的可视化，可以展现担保群体的担保和被担保关系。
[0040] 数据加载和存储模块2存储有所需加载的数据的数据模型，即该模块规定有加载或存储数据的要求的表格形式(如数据模型表格中的加载项为数据格式或类型、数据内容、加载字段、加载记录数、数据来源等)，使系统的其他单元或模块能更方便的调取所需的数据资料；该模块能够加载和存储系统所需的应用数据，同时该模块能存储各单元计算的参数及数据，该模块还能提供数据存储平台的SQL计算。
[0041] 函数计算和分析模块3包括统计分析单元31和功能函数单元32。其中，统计分析单元31能够对功能函数单元32各函数计算的结果进行统计归纳，将担保关系分成一对一的单向担保关系、一对一的互保关系、三个客户以上群体互保关系、担保链关系四种不同的基础形态；还能对这几种基本形态的包括人数、担保金额、合同数等项目进行统计分析。功能函数单元 32 包括Degree函数 321、EigenvectorCentrality函数 322、Pagerank函数323、Ntree函数324、Modularity函数325。其中，Degree函数321用来计算担保网络每个节点的担保客户数和被担保客户数；Degree由出度Outdegree和入度Indegree两个中心度指标构成，出度Outdegree是指担保圈中的客户担保他人的人数；入度Indegree是指担保圈中客户为其提供担保的人数，Outdegree和Indegree只要经过简单的人数统计即可得到。EigenvectorCentrality函数322用来计算担保网络每个节点特征向量中心度，这是标准的图论分析算法，可以用来衡量担保节点用户在整个网络中的中心程度，其中心度评价是整个网络全局性的评价，算法可参考汪小帆、李翔、陈关荣编著的网络科学导论》 (北京：高等教育出版社，2012年：P165)。Pagerank函数323用来计算担保网络每个节点的pagerank，用来衡量担保节点用户在整个网络中的重要性，其重要性评价是局部性的，即主要受邻近节点的影响，pagerank是google专门算法，由LarryPage和SergeyBrin发明，算法可参照其论文《ThePageRankCitationRanking:BringingOrdertotheWeb》。 Ntree函数324对担保圈网络进行层次计算，用来列举担保网络中，从一个节点到另外一个节点所有可能的担保路径，函数中可以设置路径的最大级次；基于此担保路径的层次，可以勾画任意两个客户之间所有的担保关联关系。Modularity函数325可以将担保网络进行分成独立的具有担保关联关系的群体，该函数计算方法采用M.E.J.Newman于2006年在PNAS 上发表的ModularityMaximization算法。以上Degree函数321、EigenvectorCentrality 函数322、Pagerank函数323、Ntree函数324、Modularity函数325均由统计分析单元31 触发，这些函数从数据加载和存储模块2中读取数据，进行计算分析，计算后的结果再返回并存储于数据加载和存储模块2中。
[0042] 工作调度模块4包含系统的输入、输出部分，能够进行指令的输入和业务分析模块中报表等结果的输出，通过该模块操作人员可手动的对系统其他各模块或单元进行调度，系统还能自动的对系统其他模块或单元进行工作调度。
[0043]Degree函数 321、EigenvectorCentrality函数 322、Pagerank函数 323、Ntree 函数324、Modularity函数325等分析函数采用Java分析函数包和MapReducec方式开发，这些函数可以被SQL语句调用。统计分析单元31通过SQL脚本实现。查询单元11、报表单元12两项用JSP开发报表程序来实现灵活查询和报表功能。工作调度模块4采用Java开发。整个系统采用BS架构，数据加载和存储模块2采用SQL，应用程序采用Java，网络及可视化单元13采用JSP编程语言来实现开发。
[0044]图2为本发明实施方式所涉及的担保圈大数据分析系统处理流程图。
[0045] 首先，启动担保圈大数据分析系统，根据业务上的需要，确定需要哪些数据，此时整个系统进入工作状态，操作人员可以通过工作调度模块4进行工作的调度(步骤S1)。通过工作调度模块4调度数据加载和存储模块2加载并存储业务需要的数据，加载的数据包括担保网络需要分析的数据，以及业务上的合同、违约、还款等所有信息(步骤S2)。具体的，数据加载和存储模块2中存在分析所需要的数据的数据模型，只要按照数据模型的要求放入数据到相应的表中，即可启动相应的分析。
[0046] 在数据加载和存储模块2加载相应的数据后，便可对每个客户进行中心度的评分，评分过程通过工作调度模块4进行启动，统计分析单元31触发Degree函数 321、EigenvectorCentrality函数322、Pagerank函数323,分别计算整个加载的担保网络数据，生成担保圈中每个客户的中心度评价指标，分别为indegree、outdegree、 eigenvectorcentrality和pagerank四个评价指标，其中EigenvectorCentrality和 PageRank需要设置2个模型参数：最大迭代次数妨P最小误差〃，确定参数的原则需要根据系统部署的硬件配置、网络规模、计算精度要求来确定，优选好E1〇~1〇〇之间，〃在 0. 1~0. 001之间，更优选地，知30，〃=0. 01，视数据情况可以修改；同时计算的指标结果均存储于数据加载和存储模块2中（步骤S3)。得到这些指标后，根据业务的需要，利用统计分析单元31提供的筛选功能，依据以上四个指标的全部或者部分，系统可自动设定中心客户的关注标准，得到需要重点关注的客户名单(步骤S4 )。
[0047] 当计算完步骤S3中的评分指标后，操作人员

完整全部详细技术资料下载

当前第2页1 2 3 4