一种处理批量任务的方法、装置、计算设备及存储介质与流程

文档序号：19155058发布日期：2019-11-16 00:38阅读：194来源：国知局

本申请涉及金融(fintech)科技的计算机技术领域，尤其涉及一种处理批量任务的方法、装置、计算设备及存储介质。

背景技术：

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(finteh)转变，批量处理技术也不例外，但由于金融行业的安全性、实时性要求，也对批量处理技术提出的更高的要求。随着金融行业批量任务的数量越来越多，批量系统处理的数据量越来越大，影响面也越来越广。如果批量系统出现异常，将出现大范围的数据错误，并且这些错误数据大多都是不可逆转的。

所以，针对批量任务的异常进行有效监控是目前需要解决的问题。

技术实现要素：

本申请实施例提供一种处理批量任务的方法、装置、计算设备及存储介质，用于对批量任务的异常进行有效监控。

第一方面，提供一种处理批量任务的方法，所述方法包括：

确定批量任务是否满足预设的批量处理触发条件；

在满足所述批量处理触发条件时，确定所述批量任务的实际数据量；

根据所述批量任务对应的历史批量处理数据，确定对所述批量任务进行批量处理的数据量参考范围；

若所述实际数据量未在所述数据量参考范围之内，则阻断对于所述批量任务的本次批量处理；

若所述实际数据量在所述数据量参考范围之内，则根据所述实际数据量对所述目标批量任务进行批量处理。

在一种可能的设计中，根据所述批量任务对应的历史批量数据，确定对所述批量任务进行批量处理的数据量参考范围，包括：

解析出所述批量任务中的待处理数据类型；

在所述历史批量数据中，确定所述待处理数据类型对应的参考特征对象，并调取各个所述参考特征对象对应的目标数据值，所述目标数据值用于表征所述参考特征对象在预设时长内对应的数据值；

根据所述批量任务对应的预先训练的批量任务预测模型和各个所述参考特征对象对应的目标数据值，确定各个所述参考特征对象对应的参考数据量，并根据各个所述参考特征对象对应的参考数据量，确定所述批量任务的数据量参考阈值；其中，所述批量任务预测模型是根据所述历史批量数据中的所述参考特征对象对应的数据值训练得到的；

根据所述批量任务的数据量参考阈值，确定所述数据量参考范围。

在一种可能的设计中，所述批量任务预测模型按照以下方式训练得到：

从所述历史批量数据包括的所有特征对象中，按照预设选择策略确定所述参考特征对象；其中，每个特征对象与所述待处理数据类型进行批量处理对应的数据量具有关联关系；

从所述历史批量数据中确定多个历史时间段，并分别提取每个历史时间段内的各个所述参考特征对象对应的数据值；

根据每个历史时间段内的各个所述参考特征对象对应的数据值，对初始的批量任务预测模型进行训练，以得到训练后的批量任务预测模型。

在一种可能的设计中，从所述历史批量数据包括的所有特征对象中，按照预设选择策略确定所述参考特征对象，包括：

确定各个特征对象与所述待处理数据类型进行批量处理对应的数据量之间的相关度；

将相关度满足预设筛选条件的特征对象确定为所述参考特征对象。

在一种可能的设计中，将相关度满足预设筛选条件的特征对象确定为所述参考特征对象，包括：

将相关度大于预定相关度阈值的特征对象均确定为所述参考特征对象；或者，

按照相关度由大到小的顺序，将位于前面的预定数量的特征对象确定为所述参考特征对象。

在一种可能的设计中，从所述历史批量数据包括的所有特征对象中，按照预设选择策略确定所述参考特征对象，包括：

从所述所有特征对象中，选择预定特征对象作为所述参考特征对象。

在一种可能的设计中，根据各个所述参考特征对象对应的参考数据量，包括：

确定各个所述参考特征对象在第一预定时长内的对象增量；

根据所述批量任务预测模型和各个所述参考特征对象在所述第一预定时长内的对象增量，确定各个所述参考特征对象对应的数据增量；

根据各个所述参考特征对象在第二预定时长内的数据量和在所述第一预定时长内的数据增量，确定各个所述参考特征对象对应的参考数据量。

在一种可能的设计中，根据各个所述参考特征对象对应的参考数据量，确定所述批量任务的数据量参考阈值，包括：

确定所述批量任务的数据量在第三预定时长内的平均增长幅度；

根据所述平均增长幅度和各个所述参考特征对象对应的参考数据量，确定所述批量任务的数据量参考阈值。

在一种可能的设计中，所述实际数据量和所述数据量参考范围均包括所述批量任务的批处理的数量以及所有数量的任务对应的总金额。

第二方面，提供一种处理批量任务的装置，所述装置包括：

第一确定模块，用于确定批量任务是否满足预设的批量处理触发条件；

第二确定模块，用于在满足所述批量处理触发条件时，确定所述批量任务的实际数据量；

第三确定模块，用于根据所述批量任务的历史批量处理数据，确定所述批量任务进行批量处理的数据量参考范围；

批量阻断模块，用于若所述实际数据量未在所述数据量参考范围之内，则阻断对于所述批量任务的本次批量处理；

批量执行模块，用于若所述实际数据量在所述数据量参考范围之内，则根据所述实际数据量对所述目标批量任务进行批量处理。

在一种可能的设计中，所述第三确定模块用于：

解析出所述批量任务中的待处理数据类型；

根据所述批量任务的数据量参考阈值，确定所述数据量参考范围。

在一种可能的设计中，所述装置还包括模型训练模块，用于：

从所述历史批量数据中确定多个历史时间段，并分别提取每个历史时间段内的各个所述参考特征对象对应的数据值；

根据每个历史时间段内的各个所述参考特征对象对应的数据值，对初始的批量任务预测模型进行训练，以得到训练后的批量任务预测模型。

在一种可能的设计中，所述模型训练模块用于：

确定各个特征对象与所述待处理数据类型进行批量处理对应的数据量之间的相关度；

将相关度满足预设筛选条件的特征对象确定为所述参考特征对象。

在一种可能的设计中，所述模型训练模块用于：

将相关度大于预定相关度阈值的特征对象均确定为所述参考特征对象；或者，

按照相关度由大到小的顺序，将位于前面的预定数量的特征对象确定为所述参考特征对象。

在一种可能的设计中，所述模型训练模块用于：

从所述所有特征对象中，选择预定特征对象作为所述参考特征对象。

在一种可能的设计中，所述模型训练模块用于：

确定各个所述参考特征对象在第一预定时长内的对象增量；

根据所述批量任务预测模型和各个所述参考特征对象在所述第一预定时长内的对象增量，确定各个所述参考特征对象对应的数据增量；

根据各个所述参考特征对象在第二预定时长内的数据量和在所述第一预定时长内的数据增量，确定各个所述参考特征对象对应的参考数据量。

在一种可能的设计中，所述模型训练模块用于：

确定所述批量任务的数据量在第三预定时长内的平均增长幅度；

根据所述平均增长服务幅度和各个所述参考特征对象对应的参考数据量，确定所述批量任务的数据量参考阈值。

在一种可能的设计中，所述实际数据量和所述数据量参考范围均包括所述批量任务的批处理的数量以及所有数量的任务对应的总金额。

第三方面，提供一种处理批量任务的装置，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行上述第一方面中任一所述的处理批量任务的方法的步骤。

第四方面，提供一种存储介质，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行上述第一方面中任一所述的处理批量任务的方法的步骤。

本申请实施例中，在满足需要对批量任务进行批量处理的批量处理触发条件时，可以确定该批量任务的实际数据量，以及可以根据该批量任务的历史批量处理数据，确定本次批量处理的数据量参考范围，进而通过实际数据量与数据量参考范围的比较来进行批量决策，具体来说，在实际数据量在数据量参考范围之内时，则认为本次批量任务与往常的批量任务处理相近似，可以认为并未发生异常，所以此时可以直接根据实际数据量进行批量处理，以确保批量任务处理的及时性，而在实际数据量未在数据量参考范围之内时，则可以认为本次批量任务与历史处理情况不相符，此时则可以认为批量处理过程可能出现异常，那么此时则可以阻断批量任务的处理。这样，结合批量任务的历史批量处理数据，可以提升批量决策的准确性，实时监控批量运行，如果发现异常及时阻断批量，保证数据的正确性，从而避免了批量异常带来的损失，增强用户的使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例中的处理批量任务的方法的过程示意图；

图2为本申请实施例中的处理批量任务的方法的流程图；

图3为本申请实施例中的利用批量任务预测模型确定数据量参考范围的流程图；

图4本申请实施例中的处理批量任务的装置的结构框图；

图5为本申请实施例中的计算设备的结构示意图；

图6为本申请实施例中的计算设备的另一结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例中，“多个”可以表示至少两个，例如可以是两个、三个或者更多个，本发明实施例不做限制。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

以下介绍本申请的设计思想。

如前所述的，针对金融行业的各种批量任务的异常进行有效监控是目前亟待解决的技术问题。为了能够捕获批量处理中出现的异常，批量监控系统是必不可少的。以银行机构为例，传统的银行跑批系统异常监控大多都是滞后的，即一般是在出现批量异常导致的不良结果后才能发现批量异常的问题，为了解决监控滞后的问题，很多银行批量系统也采取了简单的批量阻断机制。例如采用设置阈值的方式，数据处理前通过程序跑出当天预处理的数据量，如果发现预处理数据量超过提前设置的阈值则阻断批量。这种设置阈值的方式虽然也能够通过提前预测来保证批量正确运行，但是如何准确地设置阈值是个难点，而目前一般是工作人员按照经验粗略地设置一个阈值，由于不同的工作人员的经验有限，并且不同的工作人员还可能存在一些个人主观上的认知偏差，如果阈值设置太高，可能兜不住异常而导致数据错误，如果设置太低，又会导致异常误报，批量阻断下来后才发现并非异常，影响批量运行效率。

鉴于此，本申请实施提供一种处理批量任务的方法，通过该方法可以利用批量系统对批量任务的异常处理进行有效监测。如图1所示的，可以先基于bdp(beagledataplatform，一款基于hadoop生态体系的企业级大数据中间件平台)对批量任务的历史数据进行加工处理，可以作为当日批量处理的预测数据。进一步地，业务系统生成批扣交易结果，即进行本次批量处理的实际数据量，并将得到的实际数据量与预测数据进行比对判断，以得出最终的批量处理决策。也就是说，在进行本次批量处理时，本申请实施例可以将历史批量处理的情况充分考虑在内，即以历史数据作为基础，从历史的海量数据中挖掘出数据特征，通过对这些数据特征进行分析从而输出批量决策。通过结合历史批量处理数据进行本次批量预测的方式，尽量地将历史的批量处理情况作为参照依据，这样能够尽量地提升批量预测的准确性，实时监控批量运行，如果发现异常及时阻断批量，保证数据批量处理的正确性和及时性，从而避免了批量异常带来的损失。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时，可按照实施例或者附图所示的方法顺序执行或者并行执行。

基于上述内容，本申请实施例提供一种处理批量任务的方法，该方法可以部署在例如银行、信贷平台等需要进行批量任务处理的系统中。请参见图2所示，本申请实施例中的处理批量任务的方法的流程描述如下。

步骤201：判断是否满足批量任务的批量处理触发条件。

如前所述的，在金融行业中包括多种类型的批量任务，例如工资批量转账、贷款批量扣除等业务，本申请实施例中的批量任务可以是任一种可能类型的批量任务。针对不同类型的批量任务，银行可以在不同时间节点进行批量处理，例如联机交易业务处理通常要求银行业务处理系统能够快速响应并实时返回，所以为了避免对联机业务造成影响，批量任务可以在联机业务发生概率较低的时间段进行，例如在夜间或者凌晨批量执行，所以在一种可能的实施方式中，批量处理触发条件可以是到达预先设定的批量任务的处理时间节点，在其它的实施方式中，例如还可以由银行工作人员手动触发进行批量任务的批量处理，所以批量处理触发条件还可以是批量处理系统接收到针对批量任务的处理请求，等等。

在确定批量任务满足批量处理触发条件时，即表明需要对该批量任务进行批量处理，此时进一步地可以执行步骤202，若确定不满足批量处理触发条件，则表明暂时还不需要对该批量任务进行批量处理，进一步地可以继续进行是否满足批量处理触发条件的判断。

步骤202：确定批量任务的实际数据量。

以信贷业务中的批量扣款业务为例，在需要进行批量扣款时，金融机构的批量处理系统可以根据各个用户的借款金额、还款期数、计息规则等要素计算出每笔还款业务的本次还款金额，进而根据本次需要批量扣款的所有用户，计算出本次批量扣款的总扣款笔数和扣款总金额，而计算出的本次批量扣款的总扣款笔数和扣款总金额例如可以理解为是本申请实施例中针对批量扣款业务这种批量任务的实际数据量，也就是说，在确定需要对批量任务进行批量处理时，可以先计算出本地对该批量任务进行批量处理实际需要处理的数据量，本申请实施例中的实际数据量为批量处理系统按照现有系统规则计算出的实际批量处理依据。

步骤203：根据批量任务的历史批量处理数据，确定对批量任务进行批量处理的数据量参考范围。

批量处理系统在进行批量任务处理的过程中，涉及到的计算量较大且耗时一般也较长，若在期间出现异常的话则可能导致计算出的批量扣款的相关数据出现错误，例如计算出的扣款金额多于用户本次应还金额，这样的话将可能导致用户投诉，或者计算出的扣款金额少于用户本次应还金额，这样的话则可能导致银行出现损失，等等。并且，由于是批量处理，若针对一个用户的计算出现错误的话，那么针对本次批量处理中的其他每个用户一般也可能出现相同的问题，当批量处理的扣款笔数较多时，那么出现的误差也就越大。

鉴于此，为了对批量处理系统可能出现的异常进行监测，也尽量确保批量任务处理的正确性和有效性，在本申请实施例中，采用了将历史批量处理数据作为参考依据来对本次批量任务处理进行对照处理的方式，这样，通过历史的大数据作为参考，可以在一定程度上表明近期一段时间的批量任务的整体处理情况和变化趋势，从而可以较为准确地对本次批量任务的处理进行预测，以便于批量处理系统最终做出准确的批量处理决策，即是阻断批量处理还是执行批量处理，以提高批量处理的有效性。

为此，本申请实施例中可以针对同一类型的批量任务，以该批量任务的历史批量处理数据，确定对于该批量任务进行批量处理的数据量参考范围，进而以该数据量参考范围作为比对依据，以判断本次批量处理是否异常。例如，以批量扣款业务为例，可以获得最近一个月的所有贷款用户的历史批量处理数据，或者可以获得最近100次扣款时间点包括的所有贷款用户的历史批量处理数据，进而根据这些数据来预测本次进行批量处理的数据量参考范围，因为之前已经成功正确执行的批量任务一般来说就是在批量处理系统正常的情况下执行的，所以通过大量的已经成功正确执行的批量任务的处理数据来对下一次的批量处理进行预测是具有一定指导意义的，换言之，本申请实施例中的数据量参考范围可以看作是批量处理系统正常进行批处理时的大致数据量范围。

在具体实施过程中，步骤202和步骤203的执行顺序可以是任意的，例如可以先执行步骤202再执行步骤203，或者可以先执行步骤203再执行步骤202，或者两个步骤可以同时执行，本申请实施例不做限制。

步骤204：将实际数据量与数据量参考范围进行比较，以判断实际数据量是否在数据量参考范围之内。

在获得了数据量参考范围之后，则可以将该数据量参考范围作为比对依据，来判断实际数据量是否在正常范围之内，从而通过批量处理历史数据对后期的批量处理进行预测和指导。

在本申请实施例中，实际数据量和数据量参考范围均可以包括批量任务的业务批处理的数量以及所有数量的业务对应的总金额，继续以批量扣款业务为例，那么实际数据量和数据量参考范围均可以包括扣款业务需要执行的扣款笔数，以及所有笔数的扣款业务对应的总扣款金额，这样，可以通过总量的方式总体上反映每笔扣款业务是否出现差错。因为一般来说，批量处理系统对于每笔扣款业务的计算处理方式是一样的，若其中一笔扣款业务计算错误的话，那么本次批量扣款的其它笔的扣款业务也就会出现类似的误差，而一个用户的扣款出错可能不太明显，例如将某个用户的利息多计算了5元，而如果本次批量处理的扣款笔数有1000笔，那么这1000笔扣款业务的总的误差则可能是几千甚至上万，所以通过总金额的方式能够更加明显有效的监测出计算误差，进而确定系统异常，以提升异常监测的有效性。

步骤205：在实际数据量在数据量参考范围之内时，则根据实际数据量，对批量任务进行批量处理。

若批量任务的实际数据量在数据量参考范围之内，则说明按照现有的批量处理系统计算出的批量处理数据是在正常范围之内，以此可以表明批量处理系统是正常的，即未发生异常，所以此时可以以确定出的实际数据量对批量任务进行批量处理，例如同时扣掉300个贷款用户的本期还款金额的总和。

步骤206：在实际数据量未在数据量参考范围之内时，则阻断对于批量任务的本次批量处理。

若实际数据量未在数据量参考范围之内，那么则表明本次批量处理与以往的历史处理过程相比存在较大差异，这有可能是扣款业务自身发生了大量的较大业务的突变，这一般与正常的平滑的业务特性可能不太相符，说明批量处理系统在较大程度上可能已经出现了异常，那么此时为了确保批量任务执行的准确性，则可以及时地阻断本次批量任务的批量执行。在阻断批量任务之后，可以进一步地输出阻断告警信息，以向工作人员进行业务阻断的有效告警，便于工作人员可以及时确认批量系统是否确实出现异常，以及在出现异常时可以及时地进行系统维护和修复，以便尽快消除异常，以恢复批量系统的正常业务能力，同时，也可以再次进行计算，即进行二次批量处理计算，以对批量任务进行及时处理。

本申请实施例中，以历史批量处理数据作为参考，可以在一定程度上反映本次批量任务出现异常的可能，进而可以对批量处理系统发生的异常进行有效预测，以确保批量任务能够准确、有效执行。

在具体实施过程中，针对上述步骤203中的，根据批量任务的历史批量处理数据确定数据量参考范围的方式，本申请实施例提供以下两种实施方式。

第一种确定方式

在第一种确定方式中，是通过机器学习技术对批量任务对应的历史批量处理数据进行分析，通过海量数据的量化分析来训练批量任务预测模型，进而通过训练好的批量任务预测模型来对批量任务的每次批量处理过程的数据量参考范围进行预测。以下对基于批量任务预测模型进行预测的过程进行说明。

以下先介绍基于历史批量处理数据来训练批量任务预测模型的训练过程。

在模型训练过程中，可以包括特征选取、模型选取、以选取的特征训练模型几部分，以下具体说明。

1)特征选取。特征选择对于机器学习模型的搭建是至关重要的。好的特征能够提升模型的性能，更能帮助我们理解数据的特点和底层结构，这对进一步改善模型、算法都有着重要作用。然而使用太多的变量作为模型训练特征可能会导致模型变得不精确，尤其是存在对输出结果没有影响或者对其它变量有较大影响的模型训练特征时。以批量扣款业务为例，对自扣数据有关联影响的自变量特征例如包括账户数(所有贷款账户的数量)、借据数(所有贷款的笔数)、逾期借据数(存在逾期还款的贷款笔数)、贷款类型、分期还款方式、用户信用等级、分期还款期数、贷款余额，等等，在如此多的自变量特征中，如何选取一些特定的特征作为模型训练特征用呢，为了尽量避免变量数量太多对模型训练的精确性的影响，本申请实施例中以相关度作为筛选依据来选择用于模型训练的特征，例如可以按照预设选择策略来选择参考对象特征，而该预设选择策略是以相关度为依据的。

在一种可能的实施方式中，可以先解析出批量任务中的待处理数据类型，以批量扣款业务为例，待处理数据类型例如可以理解为自扣数据，而对待处理数据类型进行批量处理对应的数据量即可以理解为是自动批量扣款的总金额，再确定与待处理数据类型具有关联关系(例如正面影响或者负面影响)的所有特征对象，该特征对象即为上述提到的例如账户数、借据数等自变量特征。进而再针对每个特征对象，计算每个特征对象(例如可以看作是自变量)与待处理数据类型进行批量处理的数据量(例如可以看作是因变量)之间的相关度，例如可以采用皮尔森相关系数来计算各个自变量与因变量之间的相关度，或者也可以采用其它计算相关度的方法来确定各个自变量与因变量之间的相关度。在得到各个特征对象对应的相关度之后，可以选取与相关度较大的特征对象作为最终用于模型训练的输入特征，例如可以将最终用作模型训练的特征对象称作参考特征对象。在得到各个特征对象(即自变量特征)与因变量之间的相关度之后，可以从所有特征对象中选择相关度满足预设筛选条件的特征对象作为用于进行模型训练的参考特征对象。例如，可以将相关度大于或等于预定相关度阈值的特征对象作为参考特征对象，为确保选择出的参考特征对象与因变量之间具有强相关性，该预定相关度阈值可以设置的稍大一些，例如设置为80％；又例如，可以按照相关度由大到小的顺序，将排列在前面的预定数量的特征对象确定为参考特征对象，即可以先设定参考特征对象的数量，例如4个，进而可以选择相关度最大的4个特征对象作为最终的参考特征对象。

在另一种可能的实施方式中，用户可以根据经验，预先将预定特征对象设置为参考特征对象，例如，根据经验可知账户数、借据数、逾期借据数这三种预定特征对象对自扣数据的影响是强相关的，所以可以直接从所有特征对象中选择这三种预定特征对象作为最终的参考特征对象。

因为相关度越高，说明对应的自变量特征与因变量之间的正相关性越强，那么则说明该自变量特征对因变量的影响也较大，所以利用相关度高的一些参考特征对象来进行模型训练，在保证模型精确的前提下，还可以尽量减少训练特征的数量，以进一步地提高模型训练的精确性。

2)模型选取。在模型选择上，本申请实施例采用回归拟合的思想，通过观察因变量和自变量的数据分布来选择恰当的回归函数。通过分析，自扣数据与选择出的具有强相关性的参考特征对象之间呈明显的线性关系，即自扣数据量的增长随参考特征对象的增长而增长，并且是呈现线性增长的，所以，例如批量扣款业务这种类型的业务，其应该是基于业务的稳定而线性增长发展的。也就是说，自扣数据与各个参考特征对象的增长呈明显的显性关系，因此可以采用多元线性回归(multiplelinearregression，mlr)模型来进行数据预测，即可以选择多元线性回归模型作为初始模型来进行模型训练。多元线性回归通过已知数据找到一个线性方程来描述两个及以上的特征(自变量)与输出(因变量)之间的关系，并用这个线性方程来预测结果。

多元线性回归的数学形式如下：

y＝b0+b1x1+b2x2+b3x3+……+bnxn。

上述公式中，y表示因变量；x1、x2、x3表示自变量；b1、b2、b3为对应于x1、x2、x3的自变量系数，也可以将b1、b2、b3理解为对应于x1、x2、x3这些自变量的自变量权重，而权重可以反映自变量对因变量的影响大小，例如相关度越高的自变量的权重值越大，表明其对因变量的影响越大；b0可以理解为是一个自定义常数，根据因变量的类型不用，b0可以设置为不同的值，在具体实施过程中，b0也可以设置为0。

3)训练模型。在选取初始的训练模型之后，可以根据前述选择出的参考特征对象对初始的训练模型进行模型训练，以得到训练好的批量任务预测模型。

首先，可以从历史批量数据中确定多个历史时间段，例如历史批量数据为1个月的数据，那么则可以将1个月按照同一时间间隔(例如5天)划分为6个等长的历史时间段，即第1天-第5天为第一个历史时间段，第6天-第10天为第二个历史时间段，第11天-第15天为第三个历史时间段，第6天-第10天为第二个历史时间段，第11天-第15天为第三个历史时间段，第16天-第20天为第四个历史时间段，第21天-第25天为第五个历史时间段，第26天-第30天为第六个历史时间段。

然后，再分别提取每个历史时间段内的各个参考对象对应的数据值，例如可以提取每个历史时间段内的账户数、借据数、逾期借据数，则可以得到6组账户数、借据数、逾期借据数。

进一步地，可以根据每个历史时间段内的各个参考特征对象对应的数据值，对初始的批量任务预测模型(即前述的多元线性回归模型)进行训练，以得到训练后的批量任务预测模型。具体来说，可以将这上述6组数据分别代入上述多元线性回归方程中，即分别将上述多元线性回归方程中的自变量x1、x2、x3以上述6组数据代入，从而可以计算出b1、b2、b3，即可以得到这些自变量相应的自变量权重，例如计算出的b1、b2、b3分别是0.4、0.6、0.5，那么训练得到的批量任务预测模型为：y＝b0+0.4x1+0.6x2+0.5x3。

需要说明的是，上述只是以较为简单的理解方式对模型训练过程进行说明，在具体的模型训练过程中，一般可能包括多轮迭代训练，例如可以通过最小二乘法来计算b1、b2、b3，此处就不详细说明了。

另外，对于训练得到的批量任务预测模型(即y＝b0+0.4x1+0.6x2+0.5x3)，其中的x1、x2、x3可以表示各个参考特征对象的实际数量，也可以表示各个参考对象的对象增量，在具体实施过程中，可以根据实际业务需求对x1、x2、x3进行自定义理解。

通过上述说明得到针对批量任务的批量任务预测模型之后，则可以基于该批量任务预测模型对批量任务的本次批量处理进行数据量参考范围的预测，以下结合图3所示的流程对该预测过程进行说明。

步骤301：解析出批量任务中的待处理数据类型。

如前所述的，根据批量任务的类型的不同，与其对应的待处理数据类型也可能不同，以自动批量扣款业务为例，待处理数据类型例如为自扣数据。

步骤302：在历史批量数据中，确定待处理数据类型对应的参考特征对象。

继续上述批量扣款业务为例，与自扣数据对应的参考特征对象例如为前述实施例中提到的账户数、借据数、逾期借据数、贷款余额，等等。

步骤303：调取各个参考特征对象对应的目标数据值。

其中，参考特征对象对应的目标数据值用于表征该参考特征对象在预设时长内对应的数据值，例如取1个月内的历史批量处理数据，各个参考特征对象对应的目标数据值即为该1个月内的各个参考特征对象对应的数据值。

步骤304：根据预先训练好的批量任务预测模型和各个参考特征对象对应的目标数据值，确定各个参考特征对象对应的参考数据量。

基于上述训练得到的批量任务预测模型，即y＝b0+0.4x1+0.6x2+0.5x3，可以将各个参考特征对象对应的参考数据量分别替代该公式中的x1、x2、x3，即可以得到0.4x1、0.6x2、0.5x3对应的值，0.4x1、0.6x2、0.5x3对应的值即为各个参考特征对象对应的参考数据量。

步骤305：根据各个参考特征对象对应的参考数据量，确定批量任务的数据量参考阈值，以得到进行本次批量任务处理的数据量参考范围。

又由于b0为自定义的常数，根据上述计算得到的各个参考特征对象对应的参考数据量，所以可以相应的计算出y的值，即得到批量任务的数据量参考阈值，进而根据一些阈值范围设置条件，可以相应地确定出批量任务对应的数据量参考范围。

如前所述的，训练好的批量任务预测模型中的x1、x2、x3等自变量可以表示相应的参考特征对象的对象增量，即可以确定各个参考特征对象在第一预定时长内的对象增量，例如在1个月之内的对象增量，再根据批量任务预测模型和各个参考特征对象在第一预定时长内的对象增量，确定各个参考特征对象对应的数据增量，最后根据各个参考特征对象在第二预定时长内的数据量(例如在本次批量任务处理前的上一次的数据量或者上几次的平均数据量)和在第一预定时长内的数据增量，确定各个参考特征对象对应的参考数据量。进一步地，再确定批量任务的数据量在第三预定时长(例如6月)内的平均增长幅度，并根据该平均增长幅度和各个参考特征对象对应的参考数据量，确定批量任务最终对应的数据量参考阈值。

根据上述增量计算的思想，例如得到的预测公式为：当日批扣数据增量＝6个月的平均增长增幅+上个月新增账户数*账户权重+上个月新增借据数*借据权重+上个月新增贷款余额*贷款余额权重。对应到上述的批量任务预测模型，即对应的y＝b0+0.4x1+0.6x2+0.5x3，b0即为6个月的平均增长增幅，是一个已知常数，x1、x2、x3分别表示上个月新增账户数、上个月新增借据数、上个月新增贷款余额，而账户权重、借据权重、贷款余额权重即对应为0.4、0.6、0.5。通过该公式，即可以预测出当日批扣数据增量(即本次批量任务的数据增量)，进而再将其与上一次批量任务的实际扣款数据量(或上几次批量任务的实际扣款数据量的平均值)相加，则可以得到本次批量任务的数据量参考阈值，从而实现对批量自动扣款业务的自扣总金额的准确预测。

在第一种确定方式中，利用机器学习的方式来实现对历史数据的分析、归纳和应用，进而可以使用机器学习训练好的机器模型进行有效预测，提高了整个批量处理系统的智能性，通过机器模型进行预测的效率也较高，从而可以提高预测的效率，进而提高批量任务的处理效率和及时性。

第二种确定方式

可以获得在预定时长内(例如1个月或10天或者15天)进行了多次批量任务处理的历史批量处理统计数据，进而再利用预定处理方式对批量任务统计数据进行处理，例如采用前述机器学习的计算思想动态地计算出针对本次批量任务的数据量参考范围。

也就是说，在第二种确定方式中，可以通过算法临时地对数据量参考范围进行动态地实时预测，这样，在进行本次预测的时候，可以灵活地设置相应的预定时长，例如可以按照批量扣款时间倒序的方式，将最近的500次批量扣款的历史业务处理数据作为本次进行预测的计算依据，这样可以使得每次的历史业务处理数据都是最新的历史数据，从而可以将时间临近的批量任务处理完全充分的考虑在内，根据越临近的相关性越大的原则，所以通过该方式可以在一定程度上确保预测的准确性。

本申请实施例中，可以将历史批量处理的情况充分考虑在内，即以历史数据作为基础，从历史的海量数据中挖掘出数据特征，通过对这些数据特征进行分析从而输出批量决策。通过该方式能够提升批量预测的准确性，实时监控批量运行，如果发现异常及时阻断批量，保证数据批量处理的正确性，从而避免了批量异常带来的损失。

基于同一发明构思，本申请实施例提供一种处理批量任务的装置。该处理批量任务的装置可以实现前述实施例中的处理批量任务的方法。请参见图4所示，本申请实施例中的处理批量任务的装置包括第一确定模块401、第二确定模块402、第三确定模块403、批量阻断模块404和批量执行模块405，其中：

第一确定模块401，用于确定批量任务是否满足预设的批量处理触发条件；

第二确定模块402，用于在满足批量处理触发条件时，确定批量任务的实际数据量；

第三确定模块403，用于根据批量任务的历史批量处理数据，确定批量任务进行批量处理的数据量参考范围；

批量阻断模块404，用于若实际数据量未在数据量参考范围之内，则阻断对于批量任务的本次批量处理；

批量执行模块405，用于若实际数据量在数据量参考范围之内，则根据实际数据量对批量任务进行批量处理。

在一种可能的实施方式中，第三确定模块403用于：

解析出批量任务中的待处理数据类型；

在历史批量数据中，确定待处理数据类型对应的参考特征对象，并调取各个参考特征对象对应的目标数据值，目标数据值用于表征参考特征对象在预设时长内对应的数据值；

根据批量任务对应的预先训练的批量任务预测模型核各个参考特征对象对应的目标数据值，确定各个参考特征对象对应的参考数据量，并根据各个参考特征对象对应的参考数据量，确定批量任务的数据量参考阈值；其中，批量任务预测模型是根据历史批量数据中的参考特征对象对应的数据值训练得到的；

根据批量任务的数据量参考阈值，确定数据量参考范围。

在一种可能的设计中，本申请实施例中的处理批量任务的装置还包括模型训练模块406，用于：

从历史批量数据包括的所有特征对象中，按照预设选择策略确定参考特征对象；其中，每个特征对象与待处理数据类型进行批量处理对应的数据量具有关联关系；

从历史批量数据中确定多个历史时间段，并分别提取每个历史时间段内的各个参考特征对象对应的数据值；

根据每个历史时间段内的各个参考特征对象对应的数据值，对初始的批量任务预测模型进行训练，以得到训练后的批量任务预测模型。

在一种可能的设计中，模型训练模块406用于：

确定各个特征对象与待处理数据类型进行批量处理对应的数据量之间的相关度；

将相关度满足预设筛选条件的特征对象确定为参考特征对象。

在一种可能的设计中，模型训练模块406用于：

将相关度大于预定相关度阈值的特征对象均确定为参考特征对象；或者，

按照相关度由大到小的顺序，将位于前面的预定数量的特征对象确定为参考特征对象。

在一种可能的设计中，模型训练模块406用于：

从所有特征对象中，选择预定特征对象作为参考特征对象。

在一种可能的设计中，模型训练模块406用于：

确定各个参考特征对象在第一预定时长内的对象增量；

根据批量任务预测模型和各个参考特征对象在第一预定时长内的对象增量，确定各个参考特征对象对应的数据增量；

根据各个参考特征对象在第二预定时长内的数据量和在第一预定时长内的数据增量，确定各个参考特征对象对应的参考数据量。

在一种可能的设计中，模型训练模块406用于：

确定批量任务的数据量在第三预定时长内的平均增长幅度；

根据平均增长服务幅度和各个参考特征对象对应的参考数据量，确定批量任务的数据量参考阈值。

在一种可能的设计中，实际数据量和数据量参考范围均包括批量任务的批处理的数量以及所有数量的任务对应的总金额。

前述的处理批量任务的方法的实施例涉及的各步骤的所有相关内容均可援引到本申请施例中的处理批量任务的装置所对应的功能模块的功能描述，在此不再赘述。

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

基于同一发明构思，本申请实施例还提供一种计算设备，如图5所示，本申请实施例中的计算设备包括至少一个处理器501，以及与至少一个处理器501连接的存储器502和通信接口503，本申请实施例中不限定处理器501与存储器502之间的具体连接介质，图5中是以处理器501和存储器502之间通过总线500连接为例，总线500在图5中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线500可以分为地址总线、数据总线、控制总线等，为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在本申请实施例中，存储器502存储有可被至少一个处理器501执行的指令，至少一个处理器501通过执行存储器502存储的指令，可以执行前述的全链路性能测试方法中所包括的步骤。

其中，处理器501是计算设备的控制中心，可以利用各种接口和线路连接整个计算设备的各个部分，通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据，计算设备的各种功能和处理数据，从而对计算设备进行整体监控。可选的，处理器501可包括一个或多个处理模块，处理器501可集成应用处理器和调制解调处理器，其中，处理器501主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。在一些实施例中，处理器501和存储器502可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器501可以是通用处理器，例如中央处理器(cpu)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(randomaccessmemory，ram)、静态随机访问存储器(staticrandomaccessmemory，sram)、可编程只读存储器(programmablereadonlymemory，prom)、只读存储器(readonlymemory，rom)、带电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory，eeprom)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

通信接口503是能够用于进行通信的传输接口，可以通过通信接口503接收数据或者发送数据，进而于其它设备进行通信。

参见图6所示的计算设备的进一步地的结构示意图，该计算设备还包括帮助计算设备内的各个器件之间传输信息的基本输入/输出系统(i/o系统)601、用于存储操作系统602、应用程序603和其他程序模块604的大容量存储设备605。

基本输入/输出系统601包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备607。其中显示器608和输入设备607都通过连接到系统总线500的基本输入/输出系统601连接到处理器501。所述基本输入/输出系统601还可以包括输入输出控制器以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备605通过连接到系统总线500的大容量存储控制器(未示出)连接到处理器501。所述大容量存储设备605及其相关联的计算机可读介质为该服务器包提供非易失性存储。也就是说，大容量存储设备605可以包括诸如硬盘或者cd-rom驱动器之类的计算机可读介质(未示出)。

根据本发明的各种实施例，该计算设备包还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即该计算设备可以通过连接在所述系统总线500上的通信接口503连接到网络606，或者说，也可以使用通信接口503来连接到其他类型的网络或远程计算机系统(未示出)。

基于同一发明构思，本申请实施例还提供一种存储介质，该存储介质例如是计算机可读存储介质，该计算机可读存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行如前述的处理批量任务的方法的步骤。

在一些可能的实施方式中，本申请实施例提供的处理批量任务的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机上运行时，所述程序代码用于使所述计算机执行前文述描述的根据本发明各种示例性实施方式的处理批量任务的方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王磊;江旻;李斌;黄俏龙;席俊杰
技术所有人：深圳前海微众银行股份有限公司
我是此专利的发明人

上一篇：一种纠错方法及装置与流程
上一篇：采用模块化关节单元的蛇形带式输送机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。