一种反欺诈数据分析方法与系统与流程

文档序号:14445380阅读:469来源:国知局
一种反欺诈数据分析方法与系统与流程

本发明涉及数据分析领域,特别是涉及一种反欺诈数据分析方法与系统。



背景技术:

现有的反欺诈数据分析中,数据分析模型通常较为单一,不能形成一个较为完备的反欺诈体系,且欺诈风险的识别不准确,识别率较低。且传统的具有反欺诈数据的数据库处理用户关联数据的效率低下,不能满足现有的要求。



技术实现要素:

鉴于以上所述现有技术的缺点,本发明的目的在于提供一种反欺诈数据分析方法与系统,用于解决现有技术中反欺诈数据分析模型单一,分析结果不准确,效率低下等的问题。

为实现上述目的及其他相关目的,本发明提供一种反欺诈数据分析方法,包括:从一后端数据库中获取数据集市以及图数据库发送至一分析模型,所述数据集市以及所述图数据库为根据预先搜集的关于欺诈的基础数据生成的;所述分析模型对所述数据集市以及所述图数据库进行分析,以获得一分析结果;将所述分析结果输出至一前端并展示。

于本发明一具体实施例中,所述分析模型包括个体欺诈风险识别模型和群体欺诈风险识别模型,所述分析结果包括群体分析结果以及个体分析结果;其中,根据所述个体欺诈风险识别模型对所述数据集市进行分析以获得所述个体分析结果,且根据所述群体欺诈风险识别模型对所述图数据库进行分析以获得所述群体分析结果。

于本发明一具体实施例中,其特征在于:还用以将所述群体分析结果作为所述个体欺诈风险识别模型的输入,以对所述个体分析结果进行补充。

于本发明一具体实施例中,所述个体欺诈风险识别模型包括监督学习模型、半监督学习模型以及无监督学习模型,其中所述监督学习模型至少包括以下模型的一种:逻辑回归模型、树网模型、神经网络模型,所述半监督学习模型包括随机森林模型;所述无监督学习模型包括孤立森林算法,所述孤立森林算法用以对输入所述分析模型的所述数据集市的异常数据进行检测。

于本发明一具体实施例中,所述群体欺诈风险识别模型包括一关系图谱复杂网络分析模型。

于本发明一具体实施例中,从所述后端数据库中获取所述数据集市后,将所述数据集市发送至一建模分析工具,以获得关联所述数据集市的建模数据,且将所述建模数据发送至所述分析模型,以供所述分析模型对所述建模数据进行分析。

于本发明一具体实施例中,将所述分析结果输出至一前端并展示包括:将根据所述分析结果获得的用户欺诈评分、风险标签预警以及用户关系图谱中的一种或多种进行展示。

于本发明一具体实施例中,所述图数据库可根据所述数据集市而进行更新,同时所述数据集市可根据所述图数据库而进行更新。

于本发明一具体实施例中,还用以将所述数据集市、所述图数据库以及所述分析结果进行存储,以供查询或导出。

为实现上述目的及其他相关目的,本发明还提供一种反欺诈数据分析系统,包括:数据生成模块,用以根据预先搜集的关于欺诈的基础数据生成数据集市以及图数据库;其中,所述基础数据、所述数据集市以及所述图数据库存储于一后端数据库中;数据获取模块,用以从一后端数据库中获取所述数据集市以及所述图数据库;数据发送模块,用以将所述数据集市以及所述图数据库发送至一分析模型;分析模块,用以根据所述分析模型对数据集市以及所述图数据库进行分析,以获得一分析结果,且将所述分析结果输出至一前端;分析结果展示模块,运行于所述前端,用以在所述前端对所述分析结果进行展示。

如上所述,本发明的反欺诈数据分析方法与系统,用以从一后端数据库中获取数据集市以及图数据库发送至一分析模型,所述数据集市以及所述图数据库为根据预先搜集的关于欺诈的基础数据生成的;所述分析模型对所述数据集市以及所述图数据库进行分析,以获得一分析结果;将所述分析结果输出至一前端并展示。本发明将个体欺诈风险识别模型与群体欺诈风险识别模型相结合,反欺诈体系更完备。且集成监督式学习、半监督式学习以及无监督式学习,对数据进行处理,提高识别准确率,且令模型更新速度更快,适应性更强。同时,建立反欺诈实时评分系统,且评分计算更准确,反欺诈分析结果观察更直观。可视化用户关系图谱还可直观展示分析结果,用户体验好。

附图说明

图1显示为本发明的反欺诈数据分析方法在一具体实施例中的流程示意图。

图2显示为本发明的反欺诈数据分析方法在一具体实施例中的应用示意图。

图3显示为本发明的反欺诈数据分析系统在一具体实施例中的模块示意图。

元件标号说明

10反欺诈数据分析系统

11数据生成模块

12数据获取模块

13数据发送模块

14分析模块

15分析结果展示模块

s1~s3步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。

请参阅图1,显示为本发明的反欺诈数据分析方法在一具体实施例中的流程示意图。结合图2,显示为本发明的反欺诈数据分析方法在一具体实施例中的应用示意图。所述反欺诈数据分析方法,包括以下步骤:

步骤s1:从一后端数据库中获取数据集市以及图数据库发送至一分析模型;其中,所述数据集市以及所述图数据库为根据预先搜集的关于欺诈的基础数据生成的;如图2,搜集到所述基础数据后,将所述基础数据存储于一生产库中。可通过多个通道获取所述基础数据,例如根据用户上网记录、用户通过某app填写的资料、用户的在某app或网站的消费记录等获取所述基础数据。所述图数据库可根据所述数据集市而进行更新,同时所述数据集市可根据所述图数据库而进行更新,两者的数据可以相互补充。

步骤s2:所述分析模型对所述数据集市以及所述图数据库进行分析,以获得一分析结果。

步骤s3:将所述分析结果输出至一前端并进行展示。

具体的,所述分析模型包括个体欺诈风险识别模型和群体欺诈风险识别模型(关联欺诈风险识别模型),所述分析结果包括群体分析结果以及个体分析结果;其中,根据所述个体欺诈风险识别模型对所述数据集市进行分析以获得所述个体分析结果,且根据所述群体欺诈风险识别模型对所述图数据库进行分析以获得所述群体分析结果。个体欺诈风险识别模型结合群体欺诈风险识别模型,令反欺诈体系更完备。

如图2所示,所述个体欺诈风险识别模型包括监督学习模型、半监督学习模型以及无监督学习模型,其中所述监督学习模型至少包括以下模型的一种:逻辑回归模型、树网模型(或称为gbdt,梯度提升决策树)、神经网络模型。监督学习是指:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练。监督学习是从标记的训练数据来推断一个功能的机器学习任务。以上罗列的几种监督学习的模型各有优缺点,其中,逻辑回归具有简单、稳定、易理解、易实施等特点,但对高维度数据的分类效果一般,模型特征工程花销较大;gbdt具有高精度、无需特征筛选等特点,但对异常数据比较敏感,模型复杂度较高、不易实施。神经网络具有准确度高、分布存储及学习能力强、具备联想记忆功能等特点,但神经网络需要大量的参数,输出结果难以解释。优选的,本发明中的监督学习融合了逻辑回归、gbdt、神经网络等机器学习模型,相互取长补短,增加方法运行的有效性。

所述半监督学习模型包括随机森林模型;半监督学习是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性。

所述无监督学习模型包括孤立森林算法,所述孤立森林算法用以对输入所述分析模型的所述数据集市的异常数据进行检测。所述无监督学习模型还包括单类svm模型。通过对异常数据的检测,增加新欺诈类型抓取,丰富反欺诈模型风险识别能力。无监督学习是根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题。主要解决以下问题:1、缺乏足够的先验知识,因此难以人工标注类别;2、进行人工类别标注的成本太高。

本发明的个体欺诈风险识别模型集成所述监督学习模型、所述半监督学习模型以及所述无监督学习模型,基于用户的人口属性、设备信息、地理位置信息、人际关系、行为数据、外部征信数据建立反欺诈评分模型。监督学习融合了逻辑回归、gbdt、神经网络等机器学习模型,半监督学习采用基于随机森林的自学习模型,非监督学习采用基于孤立森林算法的异常行为检测。集成学习使得模型准确率更高,随时间稳定性更强。集成学习也加强了模型的反攻击、反试探能力,单个模型用到的风险特征一般较少,很容易被不法分子恶意攻击、暴力试探从而失效,集成学习可以提高模型的复杂程度,风险特征个数可以提高到上百上千,并随机选取若干风险特征进行风险评估,从而很好地弥补单个模型过于简单的缺点。

通过所述群体欺诈风险识别模型(关联欺诈风险识别模型)对所述图数据库进行分析以获得所述群体分析结果。所述群体欺诈风险识别模型包括一关系图谱复杂网络分析模型。本发明通过图数据库及关系图谱复杂网络分析模型,构建用户关系图谱提升群体欺诈风险识别能力。图数据库是完全不同于关系型数据库的面向图的新型数据库,它的数据模型主要是以节点和关系(边)来体现,也可处理键值对。它的优点是快速解决复杂的关系问题。图将实体表现为节点,实体与其他实体连接的方式表现为联系。用这个通用的、富有表现力的结构来建模各种场景,从人员关系网络到道路系统,从食物的供应链及原产地追踪到人们的病历,甚至更多其他的场景。关系图谱复杂网络分析模型利用复杂网络分析技术,其复杂网络研究的内容主要包括:网络的几何性质、网络的形成机制、网络演化的统计规律、网络上的模型性质、网络的结构稳定性以及网络的演化动力学机制等问题。其中在自然科学领域,网络研究的基本测度包括:度(degree)及其分布特征、度的相关性、集聚程度及其分布特征、最短距离及其分布特征、介数(betweenness)及其分布特征以及连通集团的规模分布等。

群体欺诈风险方面,应用图数据库(graphdatabase)、复杂网络分析(或者为sna)挖掘用户之间的关系图谱,实现关联欺诈风险的智能快速识别。其中,sna(socialnetworkanalysis,社交网络分析)是大数据分析的一个分支,就是对信息化的社会网络下产生的大量数据进行分析,得出网络中人际关系及相关的信息。这些分析包括:用户行为分析、关键用户分析、话题分析、用户情绪分析等。群体欺诈风险识别模型主要解决的问题包括:

1)数据底层:建立满足生产时效的用户关系图数据库,例如neo4j数据库或arango数据库,解决传统数据库处理用户关联数据效率低下的问题,并支持图数据库与传统数据库的高效数据交互。

2)用户关联指标输出:支持高效查询用户关联指标,包括节点指标及社群识别指标,为个体欺诈风险识别提供数据输入。

3)用户关系图谱可视化展示:前端进行用户图谱可视化展示,为风控信审人员提供直观的用户关联信息,提高风控工作效率。所述前端例如基于vis.js进行用户图谱可视化展示的开发。

优选的,如图2所示,还用以将所述群体分析结果作为所述个体欺诈风险识别模型的输入,以对所述个体分析结果进行补充。即所述个体欺诈风险识别模型和所述群体欺诈风险识别模型之间可以进行数据交互:用户关系图谱分析得到的关联风险指标可以作为个体欺诈风险识别模型的输入,提高个体欺诈风险识别模型欺诈识别率;由随机森林和孤立森林模型发现的新型欺诈特征可以加入到逻辑回归、gbdt、神经网络等监督学习模型进行补充。

优选的,从所述后端数据库中获取所述数据集市后,将所述数据集市发送至一建模分析工具,以获得关联所述数据集市的建模数据,且将所述建模数据发送至所述分析模型,以供所述分析模型对所述建模数据进行分析。所述建模工具例如包括sas或python等,可以根据具体需要选择合适的建模工具。

具体的,将所述分析结果输出至一前端并展示包括:将根据所述分析结果获得的用户欺诈评分、风险标签预警以及用户关系图谱中的一种或多种进行展示。例如,基于用户的人口属性、设备信息、地理位置信息、人际关系、行为数据以及外部征信数据等建立用户欺诈评分模型,以进行用户欺诈评分。为风控信审人员提供直观的用户关联信息,提高风控工作效率。

优选的,本发明还用以将所述数据集市、所述图数据库以及所述分析结果进行存储,以供查询或导出,方便用户对数据的获取。

本发明将个体欺诈风险识别模型与群体欺诈风险识别模型相结合,反欺诈体系更完备。且集成监督式学习、半监督式学习以及无监督式学习,对数据进行处理,提高识别准确率,且令模型更新速度更快,适应性更强,所述模型更新速度,例如可以从传统的季更新升级为每周更新。同时,建立反欺诈实时评分系统,评分计算速度达到1000个评分任务/每秒,且评分计算更准确,反欺诈分析结果观察更直观。可视化用户关系图谱还可直观展示团伙欺诈案情。

进一步参阅图3,显示为本发明的反欺诈分析系统在一具体实施例中的模块示意图。所述反欺诈分析系统10包括数据生成模块11、数据获取模块12、数据发送模块13、分析模块14以及分析结果展示模块15。

所述数据生成模块11用以根据预先搜集的关于欺诈的基础数据生成数据集市以及图数据库;其中,所述基础数据、所述数据集市以及所述图数据库存储于一后端数据库中。

所述数据获取模块12用以从一后端数据库中获取所述数据集市以及所述图数据库。

所述数据发送模块13用以将所述数据集市以及所述图数据库发送至一分析模型。

所述分析模块14用以根据所述分析模型对数据集市以及所述图数据库进行分析,以获得一分析结果,且将所述分析结果输出至一前端。

所述分析结果展示模块15运行于所述前端,用以在所述前端对所述分析结果进行展示。

所述反欺诈分析系统10与所述反欺诈分析方法的技术方案相对应,所有关于所述反欺诈分析方法的描述,均可应用于本实施例中,在此不加赘述。

综上所述,本发明的反欺诈分析方法和系统,用以从一后端数据库中获取数据集市以及图数据库发送至一分析模型,所述数据集市以及所述图数据库为根据预先搜集的关于欺诈的基础数据生成的;所述分析模型对所述数据集市以及所述图数据库进行分析,以获得一分析结果;将所述分析结果输出至一前端并展示。本发明将个体欺诈风险识别模型与群体欺诈风险识别模型相结合,反欺诈体系更完备。且集成监督式学习、半监督式学习以及无监督式学习,对数据进行处理,提高识别准确率,且令模型更新速度更快,适应性更强。同时,建立反欺诈实时评分系统,且评分计算更准确,反欺诈分析结果观察更直观。可视化用户关系图谱还可直观展示分析结果,用户体验好。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1