用户账户数据的处理方法及装置与流程

文档序号:20757644发布日期:2020-05-15 17:35阅读:364来源:国知局
用户账户数据的处理方法及装置与流程

本发明涉及数据处理领域,具体涉及一种用户账户数据的处理方法及装置。



背景技术:

随着国家打击电信网络违法犯罪工作力度的加大,个人开户及账户交易得到严格管控,主要存在以下技术问题:通过excel(电子表格)导出大量的涉案对公账户资金交易明细,通过编写宏来统计分析对公账户的关系,耗时又费力。

目前银行系统已经通过知识图谱技术建立了“账户-资金往来-企业关系”,银行协助有权机关办理案件,主要通过统计分析工具来对账户资金来往、账户信息进行分析,但是耗时较长且差错率较高。



技术实现要素:

有鉴于此,本发明提供一种用户账户数据的处理方法及装置,以解决上述提及的至少一个问题。

根据本发明的第一方面,提供一种用户账户数据的处理方法,所述方法包括:获取用户账户数据,所述用户账户数据包括:用户工商信息、账户基本信息、账户资金信息、司法信息;将所述用户账户数据输入至预先训练的风险识别模型,以输出账户风险信息;根据所述账户风险信息执行预警操作。

根据本发明的第二方面,提供一种用户账户数据的处理装置,所述装置包括:数据获取单元,用于获取用户账户数据,所述用户账户数据包括:用户工商信息、账户基本信息、账户资金信息、司法信息;风险信息输出单元,用于将所述用户账户数据输入至预先训练的风险识别模型,以输出账户风险信息;预警单元,用于根据所述账户风险信息执行预警操作。

根据本发明的第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述用户账户数据的处理方法的步骤。

根据本发明的第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述用户账户数据的处理方法的步骤。

由上述技术方案可知,通过将获取的用户账户数据输入到预先训练的风险识别模型,以预测该账户的风险,并根据该风险信息执行相应的预警操作,由于用户账户数据包括了用户工商信息、账户基本信息、账户资金信息和司法信息,因而可以快速地预测该账户是否存在风险,从而可以高效地协助有权机关办案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的用户账户数据的处理方法的流程图;

图2是根据本发明实施例的风险识别模型构建示意图;

图3是根据本发明实施例的账户涉案预测概率的详细流程示意图;

图4是根据本发明实施例的用户账户数据的处理装置的结构框图;

图5是根据本发明实施例的用户账户数据的处理装置的详细结构框图;

图6是根据本发明实施例的模型训练单元46的结构框图;

图7是根据本发明实施例的电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

目前,对于虚假对公账户的追踪,银行系统已经建立了“账户-资金往来-企业关系”的关联信息,然而该关联信息中还缺乏案件与有权机关的相关信息,不足以全面表达虚假对公账户的上下关系,导致在协助有权机关办案的过程中,耗时较长且差错率较高。并且,由于对公企业关系数据在工商机关,账户资金交易以及协查案件信息在银行系统,因此,有权机关方也无法对案件关联实体进行整体关系的分析,这里的有权机关包括:省、市、县的公安、高院、监察委、证监会、银保监会等。基于此,本发明实施例提供一种用户账户数据的处理方法,以克服上述问题。

本发明实施例提供了一种用户账户数据的处理方法,图1是该方法的流程图,如图1所示,该方法包括:

步骤101,获取用户账户数据,所述用户账户数据包括:用户工商信息、账户基本信息、账户资金信息、司法信息。

这里的用户工商信息可以是企业的工商信息。

账户基本信息包括:企业名称、企业编号、统一信用代码、单位地址、注册时间、注册地等。

账户资金信息包括:该账户的资金变化信息、及与该资金变化相关的账户信息。

司法信息包括:该账户的被有权机关查询次数、冻结次数、扣划次数,风险等级、风险状态等。

步骤102,将所述用户账户数据输入至预先训练的风险识别模型,以输出账户风险信息。

步骤103,根据所述账户风险信息执行预警操作。

通过将获取的用户账户数据输入到预先训练的风险识别模型,以预测该账户的风险,并根据该风险信息执行相应的预警操作,由于用户账户数据包括了用户工商信息、账户基本信息、账户资金信息和司法信息,因而可以快速地预测该账户是否存在风险,即,是否为虚假对公账户,从而可以高效地协助有权机关办案。

在实际操作中,可以基于图数据结构构建所述用户账户数据的知识图谱。根据用户账户数据中的用户工商信息、账户基本信息、账户资金信息、司法信息构建“企业-账户-有权机关-资金”的知识图谱,使得案件的上下关系更加全面,便于有权机关的分析。

在步骤103之后,可以根据所述预警操作对用户账户数据的知识图谱进行更新。具体而言,当风险识别模型识别出虚假账户、进行司法查冻扣信息反查关联账户时,更新知识图谱。

例如,当某个有权机关对某个账号做一笔查询(或冻结、扣划)业务时,银行协查系统会发送分布式消息,系统通知更新知识图谱,知识图谱系统在收到消息后将该账号的属性“被有权机关查询次数”加1。

在一个实施例中,当银行业务系统维护用户(或称为客户)与账户信息、产生资金流水时,业务系统会发布分布式消息。后台定时任务异步订阅消息,同时更新上述知识图谱。

例如,银行账务系统发生从一个账号转账到另一个账号的业务时,银行账务系统会发送一笔分布式消息,通知更新知识图谱,知识图谱系统在收到消息后将增加该账号到另一账号的借关系,同时赋值借关系属性“金额、笔数、时间段、金额占比、笔数占比”等。

上述的风险识别模型可以通过如下方式训练:获取多个历史用户账户数据,并提取各历史用户账户数据的特征信息;根据所述特征信息生成训练集、验证集和测试集;根据所述训练集对所述风险识别模型进行训练。

在实际操作中,可以预先选择多个识别模型,根据上述生成的训练集分别对多个识别模型进行训练,并根据测试集和验证集对训练的多个识别模型进行预测和验证,从预测和验证结果中选择效果最优的识别模型为风险识别模型。

在一个实施例中,还可以根据预定规则对所述风险识别模型进行调优操作。这里的预定规则可以是专家法或者专家经验。

以下基于银行对公账户为例,结合图2所示的风险识别模型构建示意图来详细描述本发明实施例。

如图2所示,风险识别模型构建包括如下几个步骤:

步骤21:构建企业账户资金有权机关知识图谱。

(1)使用图数据库存储企业(即,银行对公客户)、银行账号、有权机关等实体以及实体之间的关系。具体而言,存储企业工商信息、企业账户信息、资金往来信息以及有权机关司法查询冻结扣划信息等信息。

上述银行对公客户信息包括:客户名称、客户编号、统一信用代码、单位地址、注册时间、注册地、被有权机关查询、风险等级、风险状态等。

银行账号信息包括:被有权机关查询次数、冻结次数、扣划次数,风险等级、风险状态等。

上述的实体之间的关系如下所示:

实体关系实体

对公客户→名下账号→账号

对公客户→法人→对公客户

对公客户→投资→对公客户

对公客户→担保→对公客户

对公客户→分支机构→对公客户

账号→借→账号

账号→贷→账号

账号→共用终端→账号

账号→共用ip→账号

账号→共用mac→账号

图数据库存储以上实体及实体属性、实体与实体间的关系、关系及关系属性,其中:

(1)实体及实体的属性如下所示:

实体-银行对公客户的属性包括:客户名称、客户编号、统一信用代码、单位地址、注册时间、注册地、被有权机关查询、风险等级、风险状态等。

实体-账号的属性包括:被有权机关查询次数、冻结次数、扣划次数,风险等级、风险状态等。

实体-有权机关的属性包括:有权机关类型(公安、高院、监察委、证监会、银保监会)、地区(省、市、县)等。

(2)实体与实体间的关系如下所示:

实体关系实体

对公客户→名下账号→账号

对公客户→法人→对公客户

对公客户→投资→对公客户

对公客户→担保→对公客户

对公客户→分支机构→对公客户

账号→借→账号

账号→贷→账号

账号→共用终端→账号

账号→共用ip→账号

账号→共用mac→账号

(3)关系及关系属性如下所示:

关系-名下账号

关系-法人

关系-投资,属性:投资比例、投资金额、投资日期、币种

关系-担保,属性:担保金额、币种

分支机构

关系-借,属性:金额、笔数、时间段、金额占比、笔数占比

关系-贷,属性:金额、笔数、时间段、金额占比、笔数占比

关系-共用终端,属性:次数

关系-共用ip,属性:次数

关系-共用mac,属性:次数

基于上述信息完成知识图谱之后,当账户信息或资金发生变化、有权机关对于该账户存在查扣等操作时,更新知识图谱。

步骤22:构建特征工程。

建立对公账户的特征库,为每个对公账户抽取特征,根据抽取的特征,对对公账户进行特征表示。

具体而言,根据已知的涉案账户,查询其相关交易信息、ip(internetprotocol,互联网协议)信息、mac(mediaaccesscontroladdress,局域网地址)信息等账户信息和法定代表人等企业相关人员信息。

根据上述查询到的信息,继续查询与其存在实控、高管、法人、投资、担保关系的个人和企业,及其在线上渠道登陆使用的ip段、注册登记等来源获得的地址等,并拓展探查多度关系及相关信息,包括相关人年龄、籍贯,企业注册时间等。

步骤23:模型构建。

(1)抽取样本特征,进行样本特征标记,生成训练样本。

(2)进行模型训练。具体而言,可以采用多种机器学习模型进行训练,得出每种模型的评估指标,并根据模型效果进行模型调优,选择较优的虚假对公开户模型(即,上述风险识别模型)。

在本发明实施例中,上述机器学习模型可以是:

xgboost(extremegradientboosting,极端梯度提升)模型,xgboost是gbdt(gradientboostingdecisiontree,梯度提升迭代决策树)的改进,既可以用于分类也可以用于回归问题。

lr(logisticregression,逻辑回归)模型,是从特征学习出一个0/1分类模型,这个模型是将特性的线性组合作为自变量。

rf(randomforest,随机森林)模型,是利用多棵树对样本进行训练并预测的一种分类器。

对上述模型的评估指标包括如下三种:precision(精确率)、recall(召回率)、f1score(f1值),其中:

precision:用于预测正确的正例数据占预测为正例数据的比例;

recall:用于预测为正例的数据占实际为正例数据的比例;

f1-score:用于综合考虑precision值和recall值的指标。多类别分类时,有宏平均(macro-average)和微平均(micro-average)两种。

对于训练集样本训练出的模型,通过验证集进行模型预测,根据预测结果计算模型的评估指标,对于评估指标达不到预期的数值,则重新调整模型的变量,经过训练与验证后计算模型的评估指标值。这样循环往复,直到模型的评估指标值达到预期的数据为止。

(3)通过实际涉案对公账户信息,根据涉案账户关联的账户信息,预处理这些账户的特征工程,通过模型预测输出账户涉案概率,通过专家审核分析结果反馈账户涉案情况,调整模型参数,以得到最优的模型。

在实际操作中,对公虚假开户涉案账户是由公安机关提供的已经明确为涉案的账户,但对公虚假开户一般是团伙做案。公安机关给定一个涉案账户后,需要金融机构提供关联的涉案嫌疑账户。在上述构建的“企业-账户-在权机关-资金”的关系图中,通过名下账号、法人、联系方式、实际控制人、疑似股权实际控制人、高管、投资、担保、分支机构、借、贷、共用终端、共用ip、共用mac、配偶、亲属等关系,设定筛选的关系层级值,若在关系层级范围内,与涉案账户存在以上任何一种关系,则认为该账户是涉案账户关联账户。

根据特征工程建立的帐户特征信息,主要包括:过渡账户、虚假对公开户同区域、虚构注册地址、被司法查控、高频资金汇集账户、涉案账户干系人、开户时间、开户机构、客户年龄、联系方式、交易笔数、交易金额、借贷比例、对手账户数量、摘要种类数量、交易时间分布、交易ip分布、交易余额、对手账户对公对私、对手账户行内行外等,将涉案账户关联账户的特征信息按照模型预测要求的待预测集格式(例如,账户id,特征1值,特征2值....)进行处理。

利用调优后的模型,将待预测集作为模型输入,模型运行输出待预测账户的涉案概率。案件侦办专家根据案件实际发生结果,对预测的结果反馈账户是否涉案,计算模型评估指标,根据指标数据结果按照一定步长调整模型的变量,同时将实际的涉案账户纳入到样本数据,重新训练与验证模型。

图3是根据本发明实施例的账户涉案预测概率的详细流程示意图,如图3所示,首先需要获取公安历史涉案对公账户信息和行内核心风险数据库数据,以用于如下流程:

步骤1,根据账户原始样本选取本年周期的数据,该数据包括:账户id、原始特征、标签等。

步骤2,进行数据探索和预处理,主要是统计分析字段、标签数量分布。

步骤3,进行特征工程操作,对数据的特征进行加工和特征选择,具体包括:

步骤3.1,根据账户历史交易进行特征提取;

步骤3.2,对账户基本静态特征进行提取;

步骤3.3,对核心风险库风险特征进行提取,这里的风险特征包括:查冻扣信息和风险等级;

根据步骤3的特征工程操作生成特征表。

步骤4,根据特征表中的数据生成最终训练样本数据。

步骤5,切分训练集、测试集和验证集数据。

步骤6,采用多种模型进行模型训练操作,并进行比对,这里采用的多种模型包括:lr模型、rf模型和xgboost模型。

步骤7,根据测试集基于评估指标评估各模型效果,并根据效果对步骤6中采用的模型进行调优操作;

步骤8,根据步骤7的模型调优操作,得到最优模型,生成模型文件;

在得到最优模型后,就可以使用该最优模型,对新的公安涉案对公账户信息和行内账户信息进行账户涉案预测操作,具体包括如下步骤:

步骤9,查询过滤涉案账户的关联账户信息;

步骤10,对查询到的数据进行预处理和特征工程操作,之后将预处理和特征工程操作后的数据发送至步骤8中的模型文件,进行预测。

步骤11,预测账户涉案概率。

步骤12,进行人工复核操作。

由以上描述可知,通过建立上述模型,并通过专家法对模型进行调优处理,使得最优模型能够快速预测不法分子创造多种多样的案件场景,实现对多种案件类型的分析。

基于相似的发明构思,本发明实施例还提供一种用户账户数据的处理装置,优选地,该装置用于实现上述方法实施例的步骤。

图4是根据本发明实施例的用户账户数据的处理装置的结构框图,如图4所示,该装置包括:数据获取单元41、风险信息输出单元42和预警单元43,其中:

数据获取单元41,用于获取用户账户数据,所述用户账户数据包括:用户工商信息、账户基本信息、账户资金信息、司法信息;

风险信息输出单元42,用于将所述用户账户数据输入至预先训练的风险识别模型,以输出账户风险信息;

预警单元43,用于根据所述账户风险信息执行预警操作。

通过风险信息输出单元42将数据获取单元41获取的用户账户数据输入到预先训练的风险识别模型,以预测该账户的风险,预警单元43根据该风险信息执行相应的预警操作,由于用户账户数据包括了用户工商信息、账户基本信息、账户资金信息和司法信息,因而可以快速地预测该账户是否存在风险,即,是否为虚假对公账户,从而可以高效地协助有权机关办案。

在实际操作中,如图5所示,上述装置还包括:知识图谱构建单元44和知识图谱更新单元45,其中:

知识图谱构建单元44,用于基于图数据结构构建所述用户账户数据的知识图谱。

具体而言,知识图谱构建单元44根据用户账户数据中的用户工商信息、账户基本信息、账户资金信息、司法信息构建“企业-账户-有权机关-资金”的知识图谱,使得案件的上下关系更加全面,便于有权机关的分析。

知识图谱更新单元45,用于根据所述预警操作对所述用户账户数据的知识图谱进行更新。也就是说,当风险识别模型识别出虚假账户、进行司法查冻扣信息反查关联账户时,知识图谱更新单元45更新知识图谱。

在一个实施例中,当银行业务系统维护用户(或称为客户)与账户信息、产生资金流水、司法有权机关发起查冻扣业务时,业务系统会发布分布式消息。后台定时任务异步订阅消息,同时知识图谱更新单元45更新上述知识图谱。

继续参见图5,上述装置还包括:模型训练单元46,用于训练所述风险识别模型。

图6是模型训练单元46的结构框图,如图6所示,该模型训练单元46包括:历史数据获取模块461、特征提取模块462、训练集生成模块463和模型训练模块464,其中:

历史数据获取模块461,用于获取多个历史用户账户数据;

特征提取模块462,用于提取各历史用户账户数据的特征信息;

训练集生成模块463,用于根据所述特征信息生成训练集;

模型训练模块464,用于根据所述训练集对所述风险识别模型进行训练。

具体地,模型训练模块464包括:验证测试集生成子模块4641、模型训练子模块4642和风险识别模型确定子模块4643,其中:

验证测试集生成子模块4641,用于根据所述特征信息生成验证集和测试集;

模型训练子模块4642,用于根据所述训练集分别对预先选择的多个识别模型进行训练;

风险识别模型确定子模块4643,用于根据所述验证集和测试集从训练的多个识别模型中确定所述风险识别模型。具体地,风险识别模型确定子模块4643根据测试集和验证集对训练的多个识别模型进行预测和验证,从预测和验证结果中选择效果最优的识别模型为风险识别模型。

继续参见图5,上述装置还包括:调优单元47,用于根据预定规则对所述风险识别模型进行调优操作。这里的预定规则可以是专家经验,通过调优单元47可以对风险识别模型进一步进行调优操作,以得到更准确地预测效果。

上述各单元、各模块、各子模块的具体执行过程,可以参见上述方法实施例中的描述,此处不再赘述。

在实际操作中,上述各单元、各模块、各子模块可以组合设置、也可以单一设置,本发明不限于此。

图7是根据本发明实施例的电子设备的示意图。图7所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器701和存储器702。处理器701和存储器702通过总线703连接。存储器702适于存储处理器701可执行的一条或多条指令或程序。该一条或多条指令或程序被处理器701执行以实现上述用户账户数据的处理方法中的步骤。

上述处理器701可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器701通过执行存储器702所存储的命令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线703将上述多个组件连接在一起,同时将上述组件连接到显示控制器704和显示装置以及输入/输出(i/o)装置705。输入/输出(i/o)装置705可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出(i/o)装置705通过输入/输出(i/o)控制器706与系统相连。

其中,存储器702可以存储软件组件,例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现上述用户账户数据的处理方法的步骤。

综上所述,本发明实施例提供了一种用户账户数据的处理方案,通过司法查冻扣信息、企业账户关系信息、账户资金来往信息为基础建立了“企业-账户-有权机关-资金”的知识图谱,使得案件的上下文关系更加全面;并且,通过建立虚假对公账户识别模型,基于专家法对模型进行调整,使得虚假对公账户能快速响应不法分子创造多种多样的案件场景;以及,建立了基于专家法与机器学习算法的特征工程,抽取并表示了“企业-账户-有权机关-资金”实体的特征,从而可以满足多种案件类型的分析。相比于现有技术,本发明实施例可以协助有权机关方有效地对案件关联实体进行整体关系的分析,较为准确地预测虚假对公账户。

以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的,因此权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外,由于本领域的技术人员容易想到很多修改和改变,因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作,而是可以涵盖落入其范围内的所有合适修改和等同物。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1