一种基于去隐私数据的金融贷款大数据风险评估方法与系统与流程

文档序号:15799663发布日期:2018-11-02 21:20阅读:262来源:国知局
一种基于去隐私数据的金融贷款大数据风险评估方法与系统与流程

本申请涉及大数据技术领域,尤其涉及一种基于去隐私数据的金融贷款大数据风险评估方法与系统。

背景技术

大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

现有技术中,金融机构在对客户的借贷偿还能力进行评估时,通常会借助大数据技术,即对目标客户在一定时间段内的收入和支出的大数据进行分析,生成评估结果,以此来综合判断该目标客户是否具有偿还能力。有时候,金融机构需要将上述评估工作外包给专业的大数据分析团队执行。但是,在分析过程中,会涉及到目标客户的隐私信息,例如姓名、住址、电话、健康状况、身份证号码、各类卡号和账号等等。而目标客户的隐私信息处于泄露的风险之中,为客户的财产造成安全隐患,也容易使金融机构承担不必要的法律责任。



技术实现要素:

有鉴于此,本申请的目的在于提出一种基于去隐私数据的金融贷款大数据风险评估方法与系统,来解决现有技术中,在对客户的偿还能力进行评估过程中造成的客户隐私信息的泄露的技术问题。

基于上述目的,本申请提出了一种基于去隐私数据的金融贷款大数据风险评估方法,包括:

获取目标客户的历史交易信息数据;

对所述历史交易信息数据进行分类处理,将所述历史交易信息数据划分为账户信息数据和交易信息数据;

生成所述账户信息数据的替代信息数据,并建立所述账户信息数据和所述替代信息数据的对应关系;

用所述替代信息数据替换所述账户信息数据,并根据所述交易信息数据和所述替代信息数据对所述目标客户的收支情况进行分析处理,生成处理结果,所述处理结果包括所述替代信息数据和收支能力分析结果;

基于所述对应关系,将所述处理结果中的替代信息数据替换为所述账户信息数据,并生成最终的收支能力评估结果。

在一些实施例中,所述获取目标客户的历史交易信息包括:

基于关键字段从数据库中筛选关于所述目标客户的交易记录,生成所述目标客户的历史交易信息数据。

在一些实施例中,所述对所述历史交易信息数据进行分类处理,将所述历史交易信息数据划分为账户信息数据和交易信息数据,具体包括:

基于所述历史交易信息数据中的关键词,对所述历史交易信息数据进行分类处理,将所述历史交易信息数据划分为账户信息数据和交易信息数据。

在一些实施例中,所述基于所述历史交易信息数据中的关键词,对所述历史交易信息数据进行分类处理具体包括:第一步,从历史已经成功提取的数据积累当中,提取一定数量已知的账户信息数据和交易信息数据,分别汇合为账户信息数据和交易信息数据的分类参考集合;第二步,对账户信息数据和交易信息数据的集合当中的原始信息进行语法分词,并参照停用词表去除停用词;对于账户信息数据和交易信息数据的分类参考集合当中的关键词,根据预设的语料库扩展其同义词,扩充形成由每个关键词及其同义词组成的分类参考集合;第三步,对于待提取的原始交易信息数据,执行分词、去除停用词和同义词扩展处理,获得待分类的关键词集合,然后查询该关键词集合与各个分类参考集合相对应的匹配度,取匹配度最大的分类参考集合,根据该分类参考集合是属于账户信息数据还是属于交易信息数据,将当期待分类的关键词判定为属于账户信息数据还是属于交易信息数据。

在一些实施例中,更进一步来说,在上述第三步中,计算匹配度如下:

其中,m表示待分类关键词集合与某一个分类参考集合的匹配度,tk表示待分类关键词集合,tc表示分类参考集合;f(tk),f(tc)分别表示待分类关键词集合、分类参考集合中的词数量,f(tk,tc)表示待分类关键词集合、分类参考集合二者当中相同的词数量。

在一些实施例中,所述历史交易信息数据包括账户信息、账户类型和交易记录,所述将所述历史交易信息数据划分为账户信息数据和交易信息数据,包括:

将所述账户信息和所述账户类型划分为账户信息数据,将所述交易记录划分为交易信息数据。

在一些实施例中,所述生成所述账户信息数据的替代信息数据,并建立所述账户信息数据和所述替代信息数据的对应关系,具体包括:

将随机生成的字符串作为所述替代信息数据,并建立所述替代信息数据和所述账户信息数据的索引,对所述索引进行存储。

在一些实施例中,所述基于所述对应关系,将所述处理结果中的替代信息数据替换为所述账户信息数据,并生成最终的收支能力评估结果,具体包括:

基于所述索引,根据所述替代信息数据查找对应的账户信息数据,并将所述处理结果中的替代信息数据替换为所述账户信息数据,将所述账户信息数据和对应的收支能力分析结果作为最终的收支能力评估结果。

基于上述目的,本申请提出了一种基于去隐私数据的金融贷款大数据风险评估系统,包括:

信息获取模块,用于获取目标客户的历史交易信息数据;

信息分类模块,用于对所述历史交易信息数据进行分类处理,将所述历史交易信息数据划分为账户信息数据和交易信息数据;

信息替代模块,用于生成所述账户信息数据的替代信息数据,并建立所述账户信息数据和所述替代信息数据的对应关系;

分析处理模块,用于用所述替代信息数据替换所述账户信息数据,并根据所述交易信息数据和所述替代信息数据对所述目标客户的收支情况进行分析处理,生成处理结果,所述处理结果包括所述替代信息数据和收支能力分析结果;

信息还原模块,用于基于所述对应关系,将所述处理结果中的替代信息数据替换为所述账户信息数据,并生成最终的收支能力评估结果。

在一些实施例中,所述信息获取模块包括关键字段识别单元,所述关键字段识别单元用于基于关键字段从数据库中筛选关于所述目标客户的交易记录,生成所述目标客户的历史交易信息数据。

在一些实施例中,所述信息分类模块包括关键词识别单元,所述关键词识别单元用于基于所述历史交易信息数据中的关键词,对所述历史交易信息数据进行分类处理,将所述历史交易信息数据划分为账户信息数据和交易信息数据。

在一些实施例中,所述关键词识别单元采用如下方式基于所述历史交易信息数据中的关键词,对所述历史交易信息数据进行分类处理:从历史已经成功提取的数据积累当中,提取一定数量已知的账户信息数据和交易信息数据,分别汇合为账户信息数据和交易信息数据的分类参考集合;对账户信息数据和交易信息数据的集合当中的原始信息进行语法分词,并参照停用词表去除停用词;对于账户信息数据和交易信息数据的分类参考集合当中的关键词,根据预设的语料库扩展其同义词,扩充形成由每个关键词及其同义词组成的分类参考集合;对于待提取的原始交易信息数据,执行分词、去除停用词和同义词扩展处理,获得待分类的关键词集合,然后查询该关键词集合与各个分类参考集合相对应的匹配度,取匹配度最大的分类参考集合,根据该分类参考集合是属于账户信息数据还是属于交易信息数据,将当期待分类的关键词判定为属于账户信息数据还是属于交易信息数据。

在一些实施例中,更进一步来说,所述关键词识别单元计算匹配度如下:

其中,m表示待分类关键词集合与某一个分类参考集合的匹配度,tk表示待分类关键词集合,tc表示分类参考集合;f(tk),f(tc)分别表示待分类关键词集合、分类参考集合中的词数量,f(tk,tc)表示待分类关键词集合、分类参考集合二者当中相同的词数量。

在一些实施例中,所述历史交易信息数据包括账户信息、账户类型和交易记录,所述将所述历史交易信息数据划分为账户信息数据和交易信息数据,包括:

将所述账户信息和所述账户类型划分为账户信息数据,将所述交易记录划分为交易信息数据。

本申请实施例提供一种基于去隐私数据的金融贷款大数据风险评估方法与系统,包括:获取目标客户的历史交易信息数据,对历史交易信息数据进行分类处理,将历史交易信息数据划分为账户信息数据和交易信息数据,生成账户信息数据的替代信息数据,建立账户信息数据和替代信息数据的对应关系;用替代信息数据替换账户信息数据,并根据交易信息数据和替代信息数据对目标客户的收支情况进行分析处理,生成处理结果,处理结果包括替代信息数据和收支能力分析结果;基于对应关系,将处理结果中的替代信息数据替换为账户信息数据,并生成最终的收支能力评估结果。通过本申请实施例的方法,在评估收支能力的过程中,避免了用户隐私信息的泄露,实现了对用户隐私信息的保护。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是本申请实施例一的基于去隐私数据的金融贷款大数据风险评估方法的流程图;

图2是本申请实施例二的基于去隐私数据的金融贷款大数据风险评估方法的流程图;

图3是本申请实施例三的基于去隐私数据的金融贷款大数据风险评估系统的结构示意图;

图4是本申请实施例四的基于去隐私数据的金融贷款大数据风险评估系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。基于大数据处理技术,可以对针对于目标客户在预设时间段内的收支情况进行综合分析处理,金融机构可以依此来判断该目标客户是否具有偿还能力,进而决策是否向该目标客户发放资金。

作为本申请的一个实施例,如图1所示,是本申请实施例一的基于去隐私数据的金融贷款大数据风险评估方法的流程图。从图1中可以看出,本实施例中的基于大数据的数据分类处理方法,包括:

s101:获取目标客户的历史交易信息数据。

在本实施例中,当金融机构确定进行偿还能力评估的目标客户时,可以基于从网络中获取该目标客户的历史交易信息的大数据,所述历史交易信息数可以包括该目标客户的账户信息、账户类型、收支项目、收支明细和收支时间,例如,可以是张三的建设银行账号为00000000(这里只是示例性地进行说明)于xx年xx月xx日收入工资xx元(或者购买xx物品支出xx元)。这些历史交易信息数据会存储在大数据库中,通过在大数据库中基于关键词查找可以搜索出来,以作为金融机构对目标客户进行偿还能力评估的参考信息。当然,大数据库中可以有多条对应于同一客户的类似的交易信息数据,将所述的多条交易信息数据收集起来,便可以对所述目标客户进行偿还能力分析。

s102:对所述历史交易信息数据进行分类处理,将所述历史交易信息数据划分为账户信息数据和交易信息数据。

在本实施例中,在将对应于同一客户的多条交易信息数据收集后,可以对获取到的每条交易信息数据中的信息进行分类处理,对于每条交易信息数据,可以将该条交易信息数据中的信息划分为账户信息数据和交易信息数据。例如,对于“张三的建设银行账号为00000000于xx年xx月xx日收入工资xx元”该条交易信息数据,可以将“张三的建设银行账号为0000xxxx”划分为账户信息数据,将“于xx年xx月xx日收入工资xx元”划分为交易信息数据。在对所述历史交易信息数据进行分类处理的过程中,可以基于关键词搜索出对应的信息片段,仍以“张三的建设银行账号为0000xxxx于xx年xx月xx日收入工资xx元”该条交易信息数据为例,关键词可以是“张三”、“银行账号”、“0000”、“年、月、日”和“收入”,根据上述关键词,可以搜索出对应的信息片段,进而将所述历史交易信息数据中的信息划分为账户信息数据和交易信息数据。在对目标客户的偿还能力进行分析的过中,由于存在由第三方对所述历史交易信息数据进行分类处理的情形,这样容易造成目标客户的隐私信息的泄露,从而给该目标客户的财产安全带来隐患,因此,可以将所述目标客户的历史交易信息数据划分为账户信息数据和交易信息数据,将所述账户信息数据进行保密处理后和所述交易信息数据一起交由第三方进行分析,对所述账户信息数据进行保密处理的方法可以参考步骤s103。

更进一步来说,作为大数据级别的分析,由于信息来源的多样化,各条交易信息数据中的账户信息数据和交易信息数据可能存在不同的表述字词。为了实现上述过程中对账户信息数据和交易信息数据实现准确划分,在本步骤s102中,可以进一步包括如下子步骤:首先,建立账户信息数据和交易信息数据的分类参考集合,从历史已经成功提取的数据积累当中,提取一定数量已知的账户信息数据和交易信息数据,分别汇合为账户信息数据和交易信息数据的分类参考集合;对账户信息数据和交易信息数据的集合当中的原始信息进行语法分词,并参照停用词表去除停用词。第二步,对于账户信息数据和交易信息数据的分类参考集合当中的关键词,根据预设的语料库扩展其同义词,扩充形成由每个关键词及其同义词组成的分类参考集合。第三步,对于待提取的原始交易信息数据,执行分词、去除停用词和同义词扩展处理,获得待分类的关键词集合,然后查询该关键词集合与各个分类参考集合相对应的匹配度,取匹配度最大的分类参考集合,根据该分类参考集合是属于账户信息数据还是属于交易信息数据,将当期待分类的关键词判定为属于账户信息数据还是属于交易信息数据。更进一步来说,在上述第三步中,计算匹配度如下:

其中,m表示待分类关键词集合与某一个分类参考集合的匹配度,tk表示待分类关键词集合,tc表示分类参考集合;f(tk),f(tc)分别表示待分类关键词集合、分类参考集合中的词数量,f(tk,tc)表示待分类关键词集合、分类参考集合二者当中相同的词数量。

s103:生成所述账户信息数据的替代信息数据,并建立所述账户信息数据和所述替代信息数据的对应关系。

在本实施例中,当将所述目标客户的历史交易信息数据划分为账户信息数据和交易信息数据后,可以根据所述所述账户信息数据生成对应的替代信息数据,例如可以用字符串代替所述账户信息数据,并建立所述字符串与所代替的账户信息数据的对应关系,这样,基于该对应关系,即可将分析处理后的结构与所述账户信息数据对应起来,同时,避免了目标客户账户信息数据的泄露。

s104:用所述替代信息数据替换所述账户信息数据,并根据所述交易信息数据和所述替代信息数据对所述目标客户的收支情况进行分析处理,生成处理结果,所述处理结果包括所述替代信息数据和收支能力分析结果。

在用所述替代信息数据替换所述账户信息数据后,对所述目标客户的历史交易信息数据中包含的多条历史交易信息进行综合分析处理,生成处理结果,例如,所述处理结果可以是“字符串a最近预设时间段内的综合收入为xx元”,或者“字符串a最近预设时间段内的交易总额为xx元”。

s105:基于所述对应关系,将所述处理结果中的替代信息数据替换为所述账户信息数据,并生成最终的收支能力评估结果。

在生成处理结果后,可以基于所述账户信息数据和所述替代信息数据的对应关系,将所述替代信息数据还原为账户信息数据,从而将收支能力分析结果与真实的账户信息数据对应,并以此作为最终的评估结果。

本实施例的基于大数据的数据分类处理方法,在评估收支能力的过程中,通过将目标客户的历史交易信息数据中的账户信息数据替换为替代信息数据,并根据替代信息数据和交易信息数据生成处理结果,再将所述处理结果中的替代信息数据还原为账户信息数据,并生成最终的收支能力评估结果,从而避免了用户隐私信息的泄露,实现了对用户隐私信息的保护。

作为本申请的一个可选实施例,所述获取目标客户的历史交易信息包括:

基于关键字段从数据库中筛选关于所述目标客户的交易记录,生成所述目标客户的历史交易信息数据。

作为本申请的一个可选实施例,所述对所述历史交易信息数据进行分类处理,将所述历史交易信息数据划分为账户信息数据和交易信息数据,具体包括:

基于所述历史交易信息数据中的关键词,对所述历史交易信息数据进行分类处理,将所述历史交易信息数据划分为账户信息数据和交易信息数据。

作为本申请的一个可选实施例,所述历史交易信息数据包括账户信息、账户类型和交易记录,所述将所述历史交易信息数据划分为账户信息数据和交易信息数据,包括:

将所述账户信息和所述账户类型划分为账户信息数据,将所述交易记录划分为交易信息数据。

作为本申请的一个可选实施例,所述生成所述账户信息数据的替代信息数据,并建立所述账户信息数据和所述替代信息数据的对应关系,具体包括:

将随机生成的字符串作为所述替代信息数据,并建立所述替代信息数据和所述账户信息数据的索引,对所述索引进行存储。

作为本申请的一个可选实施例,所述基于所述对应关系,将所述处理结果中的替代信息数据替换为所述账户信息数据,并生成最终的收支能力评估结果,具体包括:

基于所述索引,根据所述替代信息数据查找对应的账户信息数据,并将所述处理结果中的替代信息数据替换为所述账户信息数据,将所述账户信息数据和对应的收支能力分析结果作为最终的收支能力评估结果。

作为本申请的一个具体实施例,如图2所示,是本申请实施例二的基于去隐私数据的金融贷款大数据风险评估方法的流程图。作为实施例一的一个具体实现方式,所述基于大数据的数据分类处理方法包括:

s201:获取目标客户的历史交易信息数据。

s202:对所述历史交易信息数据进行分类处理,对所述历史交易信息数据进行分类处理,将所述历史交易信息数据中的账户信息和账户类型划分为账户信息数据,将交易记录划分为交易信息数据。

在本实施例中,所述历史交易信息数据可以包括账户信息、账户类型和交易记录,在对所述历史交易信息数据进行分类处理中,可以将所述账户信息和所述账户类型划分为账户信息数据,将所述交易记录划分为交易信息数据。

s203:生成所述账户信息数据的替代信息数据,并建立所述账户信息数据和所述替代信息数据的对应关系。

s204:用所述替代信息数据替换所述账户信息数据,并根据所述交易信息数据和所述替代信息数据对所述目标客户的收支情况进行分析处理,生成处理结果,所述处理结果包括所述替代信息数据和收支能力分析结果。

s205:基于所述对应关系,将所述处理结果中的替代信息数据替换为所述账户信息数据,并生成最终的收支能力评估结果。

本实施例的基于大数据的基于去隐私数据的金融贷款大数据风险评估方法,在评估收支能力的过程中,通过将目标客户的历史交易信息数据中的账户信息数据替换为替代信息数据,并根据替代信息数据和交易信息数据生成处理结果,再将所述处理结果中的替代信息数据还原为账户信息数据,并生成最终的收支能力评估结果,从而避免了用户隐私信息的泄露,实现了对用户隐私信息的保护。

作为本申请的基于大数据的数据分类处理装置的一个实施例,如图3所示,是本申请实施例三的基于去隐私数据的金融贷款大数据风险评估系统的结构示意图,所述系统包括:

信息获取模块301,用于获取目标客户的历史交易信息数据;

信息分类模块302,用于对所述历史交易信息数据进行分类处理,将所述历史交易信息数据划分为账户信息数据和交易信息数据;

信息替代模块303,用于生成所述账户信息数据的替代信息数据,并建立所述账户信息数据和所述替代信息数据的对应关系;

分析处理模块304,用于用所述替代信息数据替换所述账户信息数据,并根据所述交易信息数据和所述替代信息数据对所述目标客户的收支情况进行分析处理,生成处理结果,所述处理结果包括所述替代信息数据和收支能力分析结果;

信息还原模块305,用于基于所述对应关系,将所述处理结果中的替代信息数据替换为所述账户信息数据,并生成最终的收支能力评估结果。

本实施例的基于大数据的数据分类处理装置能够取得与上述方法实施例相同的技术效果,这里不再赘述。

如图4所示,本申请实施例四的基于去隐私数据的金融贷款大数据风险评估系统的结构示意图。作为本申请基于大数据的数据分类处理装置的一个可选实施例,所述信息获取模块401可以包括关键字段识别单元4011,所述关键字段识别单元4011用于基于关键字段从数据库中筛选关于所述目标客户的交易记录,生成所述目标客户的历史交易信息数据。

继续参考图4,作为本申请基于去隐私数据的金融贷款大数据风险评估系统的一个可选实施例,所述信息分类模块402包括关键词识别单元4021,所述关键词识别单元4021用于基于所述历史交易信息数据中的关键词,对所述历史交易信息数据进行分类处理,将所述历史交易信息数据划分为账户信息数据和交易信息数据。

作为本申请基于大数据的数据分类处理装置的一个可选实施例,所述历史交易信息数据包括账户信息、账户类型和交易记录,所述将所述历史交易信息数据划分为账户信息数据和交易信息数据,包括:

将所述账户信息和所述账户类型划分为账户信息数据,将所述交易记录划分为交易信息数据。

本实施例的基于大数据的数据分类处理装置能够取得与上述方法实施例相同的技术效果,这里不再赘述。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1