一种数据实时分析方法及装置制造方法

文档序号:6630261阅读:398来源:国知局
一种数据实时分析方法及装置制造方法
【专利摘要】本发明公开了一种数据实时分析方法及装置,该方法包括:通过将生成的数据转换为预设格式,获得标准化数据,所述数据在第一业务的执行过程中生成;调用预先生成的模型,所述模型中包括使用类决策树进行分类的规则;通过所述标准化数据的已知属性值,从所述模型中选择属性值与所述已知属性值相同的规则路径为第一路径;获取位于所述第一路径的终点的第一案例模型;将所述标准化数据中的要素与所述第一案例模型中的要素进行比对,生成预警分析结果。本发明提供的分析方法不需要将所述数据与多个案例模型一一进行比对,可以加快规则的调用,缩短系统分析的流程,保证分析规则内部逻辑判断的效率,提高了系统在线分析的能力。
【专利说明】一种数据实时分析方法及装置

【技术领域】
[0001]本发明涉及数据分析领域,特别是涉及一种数据实时分析方法及装置。

【背景技术】
[0002]为提高预警管理精细化水平,全面监控银行核心交易系统,突出柜面业务操作风险,完善客户维度资金风险监控,与“大运营、大后台””的职能定位相匹配,以“在线反映、实时监控、辅助管理、确保安全”为目标,以交易信息及操作流程的监控为重点,以柜员交易数据的分析判断为基础,建立一个实时的风险预警平台是非常有必要的。
[0003]在海量数据分析领域,目前各行业大部分都是基于数据库中的静态数据进行数据挖掘分析,其在线分析能力不强。


【发明内容】

[0004]本发明的目的是提供一种数据实时分析方法及装置,目的在于解决对实时数据在线分析能力不强的问题。
[0005]为解决上述技术问题,本发明提供一种数据实时分析方法,包括:
[0006]通过将生成的数据转换为预设格式,获得标准化数据,所述标准化数据包括用来表征所述数据的特征的要素以及已知属性值,所述数据在第一业务的执行过程中生成,所述第一业务的生存期为七1 ;
[0007]调用预先生成的模型,所述模型中包括使用类决策树进行分类的规则,其中,所述类决策树中的分支表示不同的属性值所对应的规则路径;
[0008]通过所述标准化数据的已知属性值,从所述模型中选择属性值与所述已知属性值相同的规则路径为第一路径;
[0009]获取位于所述第一路径的终点的第一案例模型;
[0010]将所述标准化数据中的要素与所述第一案例模型中的要素进行比对,生成预警分析结果,其中,从获得所述生成的数据到使用所述规则路径获得所述预警分析结果的时间七2与所述生存期0的差值在预设范围之内。
[0011]可选地,所述将生成的数据转换为预设格式,获得标准化数据包括:
[0012]将生成的数据转换为统一的可扩展标记语言的数据,获得所述标准化数据。
[0013]可选地,在所述将生成的数据转换为预设格式,获得标准化数据之后,还包括:
[0014]使用负载均衡策略进行资源的平衡及横向扩展,将工作任务进行平衡、分摊到多个操作单元上执行。
[0015]可选地,所述调用预先生成的模型包括:
[0016]调用预先存储在内存中的模型。
[0017]可选地,所述将所述标准化数据中的要素与所述第一案例模型中的要素进行比对,生成预警分析结果包括:
[0018]将所述标准化数据中的要素与所述第一模型中的要素进行比对,当所述标准化数据中的要素有符合规则本身的风险特征时,生成所述预警分析结果,并将所述结果写入预警信息表中。
[0019]本发明还提供了一种数据实时分析装置,包括:
[0020]标准化数据生成模块,用于将生成的数据转换为预设格式,获得标准化数据,所述标准化数据包括用来表征所述数据的特征的要素以及已知属性值,所述数据在第一业务的执行过程中生成,所述第一业务的生存期为tl ;
[0021]模型调用模块,用于调用预先生成的模型,所述模型中包括使用类决策树进行分类的规则,其中,所述类决策树中的分支表示不同的属性值所对应的规则路径;
[0022]第一路径生成模块,用于通过所述标准化数据的已知属性值,从所述模型中选择属性值与所述已知属性值相同的规则路径为第一路径;
[0023]第一案例模型生成模块,用于获取位于所述第一路径的终点的第一案例模型;
[0024]分析结果生成模块,用于将所述标准化数据中的要素与所述第一案例模型中的要素进行比对,生成预警分析结果,其中,从获得所述生成的数据到使用所述规则路径获得所述预警分析结果的时间t2与所述生存期tl的差值在预设范围之内。
[0025]可选地,所述标准化数据生成模块用于将生成的数据转换为预设格式,获得标准化数据包括:
[0026]所述标准化数据生成模块具体用于,将生成的数据转换为统一的可扩展标记语言的数据,获得所述标准化数据。
[0027]可选地,还包括:
[0028]负载均衡策略模块,用于在所述标准化数据生成模块将生成的数据转换为预设格式,获得标准化数据之后,使用负载均衡策略进行资源的平衡及横向扩展,将工作任务进行平衡、分摊到多个操作单元上执行。
[0029]可选地,所述模型调用模块用于调用预先生成的模型包括:
[0030]所述模型调用模块具体用于,调用预先存储在内存中的模型。
[0031]可选地,所述分析结果生成模块用于将所述标准化数据中的要素与所述第一案例模型中的要素进行比对,生成预警分析结果包括:
[0032]所述分析结果生成模块具体用于,将所述标准化数据中的要素与所述第一模型中的要素进行比对,当所述标准化数据中的要素有符合规则本身的风险特征时,生成所述预警分析结果,并将所述结果写入预警信息表中。
[0033]本发明所提供的一种数据实时分析方法及装置,该方法通过调用预先生成的模型,所述模型中包括使用类决策树进行分类的规则,其中,所述类决策树中的分支表示不同的属性值所对应的规则路径。通过所述标准化数据的已知属性值,从所述模型中选择属性值与所述已知属性值相同的规则路径为第一路径。这样就可以获取得到位于所述第一路径的终点的第一案例模型,通过将所述标准化数据中的要素与所述第一案例模型中的要素进行比对,最终生成预警分析结果。与现有的对静态数据的分析相比,本发明提供的分析方法因为模型中的类决策树中的分支表示不同的属性值所对应的规则路径,所以,只需要通过所述标准化数据的已知属性值,从所述模型中选择属性值与所述已知属性值相同的规则路径为第一路径,来获取位于所述第一路径的终点的第一案例模型,并将所述标准化模型中的要素与所述第一案例模型的要素比对即可,因此不需要将所述数据与多个案例模型一一进行比对,可以加快规则的调用,缩短系统分析的流程,保证分析规则内部逻辑判断的效率,提闻了系统在线分析的能力。

【专利附图】

【附图说明】
[0034]图1为本发明提供的数据实时分析方法的一种【具体实施方式】的流程图;
[0035]图2为本发明提供的数据实时分析方法的另一种【具体实施方式】的流程图;
[0036]图3为本发明提供的数据实时分析方法的另一种【具体实施方式】中类决策树的分支示意图;
[0037]图4为本发明提供的数据实时分析装置的一种【具体实施方式】的结构框图;
[0038]图5为本发明提供的数据实时分析装置的一种【具体实施方式】中标准化数据生成模块的结构框图;
[0039]图6为本发明提供的数据实时分析装置的一种【具体实施方式】中模型调用模块的结构框图;
[0040]图7为本发明提供的数据实时分析装置的另一种【具体实施方式】的结构框图。

【具体实施方式】
[0041]本申请实施例所述方法可以应用于用户通过金融系统办理业务的过程中,通常,在金融系统受理业务时,会产生数据,为了避免风险,金融系统需要对数据进行风险预警分析,并给出预警分析的结果。
[0042]为了使本【技术领域】的人员更好地理解本发明方案,下面结合附图和【具体实施方式】对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0043]本发明提供的数据实时分析方法的一种【具体实施方式】流程图如图1所示,所述方法包括:
[0044]步骤101:通过将生成的数据转换为预设格式,获得标准化数据,所述标准化数据包括用来表征所述数据的特征的要素以及已知属性值,所述数据在第一业务的执行过程中生成,所述第一业务的生存期为七1 ;
[0045]步骤102:调用预先生成的模型,所述模型中包括使用类决策树进行分类的规则,其中,所述类决策树中的分支表示不同的属性值所对应的规则路径;
[0046]步骤103:通过所述标准化数据的已知属性值,从所述模型中选择属性值与所述已知属性值相同的规则路径为第一路径;
[0047]步骤104:获取位于所述第一路径的终点的第一案例模型;
[0048]步骤105:将所述标准化数据中的要素与所述第一案例模型中的要素进行比对,生成预警分析结果,其中,从获得所述生成的数据到使用所述规则路径获得所述预警分析结果的时间12与所述生存期0的差值在预设范围之内。
[0049]现有的数据库产品对数据的分析大多基于对静态数据的分析,数据不需要经常进行变更。这主要是由于数据库产品的插入、更新效率低以及对数据分析的并发度不够造成的。而在金融系统办理业务过程中,金融系统受理业务后会生成实时的数据。为避免风险,需要对所述实时生成的数据进行在线分析,对该金融交易数据对应的生成环节可能存在的操作风险以及资金风险做出实时预警。
[0050]本实施例中,所述实时数据与静态数据相比,区别在于,实时数据具有生存期,需要在一定的期限内得到预警分析结果,而现有的针对于静态数据的分析方法不能够满足这一需求。
[0051]本发明提供的数据实时分析方法中因为模型中的类决策树的分支表示不同的属性值所对应的规则路径,所以,只需要通过所述标准化数据的已知属性值,从所述模型中选择属性值与所述已知属性值相同的规则路径为第一路径,来获取位于所述第一路径的终点的第一案例模型,并将所述标准化模型中的要素与所述第一案例模型的要素比对即可,因此不需要将所述数据与多个案例模型一一进行比对,可以加快规则的调用,缩短系统分析的流程,保证分析规则内部逻辑判断的效率,提高了系统在线分析的能力。
[0052]以银行系统中的随机交易为例,下面结合具体场景对本发明的另一种【具体实施方式】进行阐述,图2为本发明提供的数据实时分析方法的另一种【具体实施方式】的流程图。
[0053]步骤201:将生成的数据转换为统一的可扩展标记语言的数据,获得所述标准化数据;
[0054]步骤202:使用负载均衡策略进行资源的平衡和横向扩展,将工作任务进行平衡、分摊到多个操作单元上执行;
[0055]步骤203:调用预先存储在内存中的模型,所述模型中包括使用类决策树进行分类的规则;
[0056]图3所示为本发明提供的数据实时分析方法的另一种【具体实施方式】中的类决策树的分支示意图,所述类决策树中的分支表示不同的属性值所对应的规则路径。所述类决策树将银行随机交易过程中产生的数据所对应的属性值按照一定的逻辑进行分类,根据数据的不同的属性值对应不同的规则路径,最终获得位于所述规则路径终点的案例模型。
[0057]步骤204:通过所述标准化数据的已知属性值,从所述模型中选择属性值与所述已知属性值相同的规则路径为第一路径;
[0058]例如,所述标准化数据的已知属性值中渠道属性为“柜面”,则选择图3中位于“渠道”判定框下最左边的分支“柜面”矩形框作为所述第一路径的起始端。然后再根据所述标准化数据的已知属性值的卡种属性来选择路径,以此类推。
[0059]步骤205:获取位于所述第一路径的终点的第一案例模型;
[0060]例如根据所述标准化数据的已知属性值,选择图3中最右边的分支作为第一路径,所述第一路径的终点为大额风险规则,则获取位于该分支终点的第一案例模型,所述案例模型为从真实案例中抽象出来的规则。
[0061]步骤206:将所述标准化数据中的要素与所述第一模型中的要素进行比对,当所述标准化数据中的要素有符合规则本身的风险特征时,生成所述预警分析结果,并将所述结果写入预警信息表中;
[0062]根据类决策树的分类,在所述标准化数据中选择需要的要素与所述第一模型中的要素进行比对,不同的规则所需要的要素不同,当规则内部的判断条件中有符合规则本身实现的风险特征时,就会写入预警信息结构中。当所有需要分析的规则调用完成后,所述预警信息结构中存储有各种风险分析结果,可以根据事先定义的风险程度存入不同的表中,以提示给相关的风险处置人员。
[0063]步骤207:将所述预警分析结果提供给用户。
[0064]现有技术中,一笔交易发生时,可能最多需要经过100多个规则,整个规则库经常在维护,每个规则均是一个业务模型,这样对100多个规则的调用是很消耗时间的。本发明实施方式通过类决策树的使用,根据所述标准化数据的不同属性值进行分类,在规则调用时,只需要选择与所述标准化数据的已知属性值所对应的规则路径为第一路径,获取得到位于所述第一路径终点的第一案例模型,将其中的要素进行比对即可。因此,不需要与多个案例模型一一进行比对,从而加快了规则的调用,缩短了系统分析的流程,保证分析规则内部逻辑判断的效率,提高了系统在线分析的能力。
[0065]同时,本发明【具体实施方式】还可以通过使用负载均衡策略进行资源的平衡和横向扩展,将工作任务进行平衡、分摊到多个操作单元上执行,可以增加整个系统的并发度,提高系统分析数据的效率。
[0066]本发明还提供了一种数据实时分析装置,图4为本发明提供的数据实时分析装置的一种【具体实施方式】的结构框图。该装置包括:
[0067]标准化数据生成模块100,用于将生成的数据转换为预设格式,获得标准化数据,所述标准化数据包括用来表征所述数据的特征的要素以及已知属性值,所述数据在第一业务的执行过程中生成,所述第一业务的生存期为tl ;
[0068]在本实施例中,所述标准化数据生成模块具体用于将生成的数据转换为预设格式,获得所述标准化数据,把不同渠道、不同时间特征的数据进行实时的数据抽取,转存为统一的xml数据输出总线结构。如图5所示,所述标准化数据生成模块可以包括交易总控组件10、UDP服务器11、交易解析转发平台层12以及消息队列缓存13。
[0069]其中,交易总控组件10,用于对文件形式的数据来源的整合;
[0070]UDP服务器11,用于对实时报文形式的数据来源的整合;
[0071]交易解析转发平台层12,用于将生成的数据转换为预设格式,获得所述标准化数据;
[0072]消息队列缓存13,用于保证获得所述标准化数据的效率与所述数据来源整合的效率相匹配。
[0073]模型调用模块200,用于调用预先生成的模型,所述模型中包括使用类决策树进行分类的规则,其中,所述类决策树中的分支表示不同的属性值所对应的规则路径;
[0074]如图6所示,所述模型调用模块具体可以包括:
[0075]操作风险分析组件20,用于存储操作风险分析规则的规则群,由近十个组件近200个规则组成;
[0076]客户服务监控组件21,用于存储资金风险分析规则群,由两个组件的近20多个规则组成。
[0077]第一路径生成模块300,用于通过所述标准化数据的已知属性值,从所述模型中选择属性值与所述已知属性值相同的规则路径为第一路径;
[0078]第一案例模型生成模块400,用于获取位于所述第一路径的终点的第一案例模型;
[0079]分析结果生成模块500,用于将所述标准化数据中的要素与所述第一案例模型中的要素进行比对,生成预警分析结果,其中,从获得所述生成的数据到使用所述规则路径获得所述预警分析结果的时间t2与所述生存期tl的差值在预设范围之内。
[0080]本发明提供的数据实时分析装置的另一种【具体实施方式】的结构框图如图7所示,所述数据实时分析装置包括:
[0081]标准化数据生成模块100,用于将生成的数据转换为预设格式,获得标准化数据,所述标准化数据包括用来表征所述数据的特征的要素以及已知属性值,所述数据在第一业务的执行过程中生成,所述第一业务的生存期为tl ;
[0082]所述标准化数据生成模块可以具体设置在应用服务器上,在本【具体实施方式】中选择了可扩展的高性能服务器,也可以使用PCserver集群。
[0083]负载均衡策略模块600,用于在所述标准化数据生成模块将生成的数据转换为预设格式,获得标准化数据之后,使用负载均衡策略进行资源的平衡及横向扩展,将工作任务进行平衡、分摊到多个操作单元上执行;
[0084]所述负载均衡策略模块600可采用硬件负载均衡设备把所述标准化数据分发输入到多个规则分析操作设备中。需要注意的是,所述负载均衡策略模块也可以采用系统自带的软负载均衡。
[0085]模型调用模块200,用于调用预先生成的模型,所述模型中包括使用类决策树进行分类的规则,其中,所述类决策树中的分支表示不同的属性值所对应的规则路径;
[0086]第一路径生成模块300,用于通过所述标准化数据的已知属性值,从所述模型中选择属性值与所述已知属性值相同的规则路径为第一路径;
[0087]第一案例模型生成模块400,用于获取位于所述第一路径的终点的第一案例模型;
[0088]分析结果生成模块500,用于将所述标准化数据中的要素与所述第一案例模型中的要素进行比对,生成预警分析结果,其中,从获得所述生成的数据到使用所述规则路径获得所述预警分析结果的时间t2与所述生存期tl的差值在预设范围之内。
[0089]其中,所述模型调用模块200、第一路径生成模块300、第一案例模型生成模块400以及分析结果生成模块500均可以设置在高性能服务器集群上。
[0090]在该【具体实施方式】中,所述数据实时分析装置的标准化数据生成模块100、模型调用模块200、第一路径生成模块300、第一案例模型生成模块400以及分析结果生成模块500都可灵活设置在服务器集群上,由于主要运算在内存中完成,随着机器的扩展能够增加系统的并发度。并且,由于大量的数据放入内存,通过类决策树加快规则的调用,一笔交易通过所有规则分析到最后预警能在2分钟之内完成,满足了银行风险控制人员对分析结果接收时间的预期。
[0091]本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(ROM, Read-Only Memory) >随机存取存储器(RAM, Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0092]本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
[0093]对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【权利要求】
1.一种数据实时分析方法,其特征在于,包括: 通过将生成的数据转换为预设格式,获得标准化数据,所述标准化数据包括用来表征所述数据的特征的要素以及已知属性值,所述数据在第一业务的执行过程中生成,所述第一业务的生存期为tl ; 调用预先生成的模型,所述模型中包括使用类决策树进行分类的规则,其中,所述类决策树中的分支表示不同的属性值所对应的规则路径; 通过所述标准化数据的已知属性值,从所述模型中选择属性值与所述已知属性值相同的规则路径为第一路径; 获取位于所述第一路径的终点的第一案例模型; 将所述标准化数据中的要素与所述第一案例模型中的要素进行比对,生成预警分析结果,其中,从获得所述生成的数据到使用所述规则路径获得所述预警分析结果的时间t2与所述生存期tl的差值在预设范围之内。
2.如权利要求1所述的数据实时分析方法,其特征在于,所述将生成的数据转换为预设格式,获得标准化数据包括: 将生成的数据转换为统一的可扩展标记语言的数据,获得所述标准化数据。
3.如权利要求1所述的数据实时分析方法,其特征在于,在所述将生成的数据转换为预设格式,获得标准化数据之后,还包括: 使用负载均衡策略进行资源的平衡及横向扩展,将工作任务进行平衡、分摊到多个操作单元上执行。
4.如权利要求1所述的数据实时分析方法,其特征在于,所述调用预先生成的模型包括: 调用预先存储在内存中的模型。
5.如权利要求1所述的数据实时分析方法,其特征在于,所述将所述标准化数据中的要素与所述第一案例模型中的要素进行比对,生成预警分析结果包括: 将所述标准化数据中的要素与所述第一模型中的要素进行比对,当所述标准化数据中的要素有符合规则本身的风险特征时,生成所述预警分析结果,并将所述结果写入预警信息表中。
6.一种数据实时分析装置,其特征在于,包括: 标准化数据生成模块,用于将生成的数据转换为预设格式,获得标准化数据,所述标准化数据包括用来表征所述数据的特征的要素以及已知属性值,所述数据在第一业务的执行过程中生成,所述第一业务的生存期为tl ; 模型调用模块,用于调用预先生成的模型,所述模型中包括使用类决策树进行分类的规则,其中,所述类决策树中的分支表示不同的属性值所对应的规则路径; 第一路径生成模块,用于通过所述标准化数据的已知属性值,从所述模型中选择属性值与所述已知属性值相同的规则路径为第一路径; 第一案例模型生成模块,用于获取位于所述第一路径的终点的第一案例模型; 分析结果生成模块,用于将所述标准化数据中的要素与所述第一案例模型中的要素进行比对,生成预警分析结果,其中,从获得所述生成的数据到使用所述规则路径获得所述预警分析结果的时间t2与所述生存期tl的差值在预设范围之内。
7.如权利要求6所述的数据实时分析装置,其特征在于,所述标准化数据生成模块用于将生成的数据转换为预设格式,获得标准化数据包括: 所述标准化数据生成模块具体用于,将生成的数据转换为统一的可扩展标记语言的数据,获得所述标准化数据。
8.如权利要求6所述的数据实时分析装置,其特征在于,还包括: 负载均衡策略模块,用于在所述标准化数据生成模块将生成的数据转换为预设格式,获得标准化数据之后,使用负载均衡策略进行资源的平衡及横向扩展,将工作任务进行平衡、分摊到多个操作单元上执行。
9.如权利要求6所述的数据实时分析装置,其特征在于,所述模型调用模块用于调用预先生成的模型包括: 所述模型调用模块具体用于,调用预先存储在内存中的模型。
10.如权利要求6所述的数据实时分析装置,其特征在于,所述分析结果生成模块用于将所述标准化数据中的要素与所述第一案例模型中的要素进行比对,生成预警分析结果包括: 所述分析结果生成模块具体用于,将所述标准化数据中的要素与所述第一模型中的要素进行比对,当所述标准化数据中的要素有符合规则本身的风险特征时,生成所述预警分析结果,并将所述结果写入预警信息表中。
【文档编号】G06Q10/06GK104376397SQ201410545325
【公开日】2015年2月25日 申请日期:2014年10月15日 优先权日:2014年10月15日
【发明者】郭清琦, 张楠, 吴元勋, 邵亚雷 申请人:中国农业银行股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1