一种业务参数获取方法及装置与流程

文档序号:11589814阅读:186来源:国知局
一种业务参数获取方法及装置与流程

本发明涉及互联网技术领域,特别涉及一种业务参数获取方法及装置。



背景技术:

当前很多业务与业务参数都是直接相关的,业务参数直接影响到业务申请是否能够成功。业务提供方在为用户分配业务时会根据已有的业务参数来评估是否为该用户分配业务。

但目前,在业务提供方有可以获得大量的用户业务参数记录,需要从中获取到所需要的目标用户的业务参数,目前业务提供方无法准确对所需要的目标用户的业务参数进行准确的评估,导致业务提供方目标用户提供业务存在一定风险。



技术实现要素:

有鉴于此,本发明实施例提供了一种业务参数获取方法及装置。

本发明的一个目的是提供一种业务参数获取方法,所述方法包括:

确定满足预置规则的样本用户为目标样本用户;

利用大量所述目标样本用户的特征数据确定logistic回归分析模型;

获取待预测业务参数的样本用户的特征数据;

将所述特征数据输入到所述logistic回归分析模型得到所述特征数据的特征参数,所述特征参数用于确定所述业务参数;

当所述特征参数位于预设的第一阈值区间时,确定所述样本用户具有所述第一业务参数;

当所述特征参数位于预设的第二阈值区间时,确定所述样本用户具有所述第二业务参数;

其中,所述logistic回归分析模型是采用大量样本用户的特征数据进行logistic回归分析并反复迭代训练得到。

可选地,所述利用大量所述目标样本用户的特征数据确定所述logistic回 归分析模型具体包括:

对所述目标样本用户的特征数据进行衍生并提取具有趋势性的第一参数;

对所述第一参数进行降维得到具有解释性的第二参数;

对所述第二参数依次进行聚类分析、判别分析以及去重以得到第三参数;

对所述第三参数进行logistic回归分析以得到第四参数;

对所述第四参数进行重复迭代运算以得到模型参数,所述模型参数用于确定所述特征数据对应的所述特征参数。

可选地,所述预置规则至少包括:所述目标样本用的所处位置位于目标位置、与所述目标样本用户的关联程度达到预设关联阈值的用户、所述目标样本用户的身份信息符合预置条件。

可选地,所述第一阈值区间位于0和0.5之间,所述第二阈值区间位于0.5和1之间。

本发明的另一个目的是提供一种业务参数获取装置,所述装置包括:

获取单元,用于获取待预测业务参数的样本用户的特征数据;

处理单元,用于确定满足预置规则的样本用户为目标样本用户;

利用大量所述目标样本用户的特征数据确定所述logistic回归分析模型;

将所述特征数据输入到logistic回归分析模型得到所述特征数据的特征参数,所述特征参数用于确定所述业务参数;

当所述特征参数位于预设的第一阈值区间时,确定所述样本用户具有所述第一业务参数;

当所述特征参数位于预设的第二阈值区间时,确定所述样本用户具有所述第二业务参数,其中,所述logistic回归分析模型是采用大量样本用户的特征数据进行logistic回归分析并反复迭代训练得到。

可选地,所述处理单元还用于:

对所述目标样本用户的特征数据进行衍生并提取具有趋势性的第一参数;

对所述第一参数进行降维得到具有解释性的第二参数;

对所述第二参数依次进行聚类分析、判别分析以及去重以得到第三参数;

对所述第三参数进行logistic回归分析以得到第四参数;

对所述第四参数进行重复迭代运算以得到模型参数,所述模型参数用于确定所述特征数据对应的所述特征参数。

可选地,所述预置规则至少包括:所述目标样本用的所处位置位于目标位置、与所述目标样本用户的关联程度达到预设关联阈值的用户、所述目标样本用户的身份信息符合预置条件。

本发明的再一个目的是提供一种业务参数获取设备,所述设备的结构中包括处理器和存储器,所述存储器用于存储支持数据处理的设备执行上述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述数据库处理设备还可以包括通信接口,用于数据库处理设备与其他设备或通信网络通信。

本发明实施例提供了一种计算机存储介质,用于储存为上述业务参数获取装置所用的计算机软件指令,其包含用于执行上述方面为业务参数获取装置所设计的程序。

本发明实施例公开了一种业务参数获取方法及装置,首先获取待预测业务参数的样本用户的特征数据,将所述特征数据输入到logistic回归分析模型得到所述特征数据的特征参数,所述特征参数用于确定所述业务参数,当所述特征参数位于预设的第一阈值区间时,确定所述样本用户具有所述第一业务参数,当所述特征参数位于预设的第二阈值区间时,确定所述样本用户具有所述第二业务参数,其中所述logistic回归分析模型是采用大量样本用户的特征数据进行logistic回归分析并反复迭代训练得到,因为logistic回归分析模型预先对大量的样本用户进行分析后确定的特征参数对应的数值,这样对一个待测试业务参数的用户进行业务参数获取时候结果比较准确,能够较为客观对样本用户的违约进行预估。

附图说明

图1是本发明实施例业务参数获取方法的一种实施例的流程图;

图2是本发明实施例业务参数获取方法的另一种实施例的流程图;

图3是本发明实施例业务参数获取装置的一种实施例的结构图;

图4是本发明实施例业务参数获取装置的另一种实施例的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在描述本发明实施例之前,先对本发明实施例中涉及到的名词做初步的介绍:

logistic回归分析模型是基于有监督训练的机器学习模型。

有监督学习:一种训练方法,有训练样本和训练标签。

在大学中经常会提到国家助学贷款,用于帮助家庭经济条件不好的学生完成学习,跟通常的贷款相类似的也是需要对在校生的违约进行预判,通过多种方式管控风险,例如延迟颁发毕业证或学位证等等,这些措施是在贷款之后对贷款人的风险管控措施,在进行贷款之前对于在校生的贷款违约的预测并没有做到很全面很准确。需要说明的是,本发明实施例的方案不限于社交应用,所有可以公开的用户特征数据都可以用作本发明实施例。

随着科技的发展,越来越多的社交应用走入我们生活,在用户授权的情况下,很多社交应用都可以将用户的所在位置和设备信息公布在社交圈,例如在朋友圈显示当前所在位置、在微博信息中标注发送微博设备的品牌型号,这些信息都可以体现出用户的特征数据,可以通过这些特征数据进行一些预 判。

本发明通过对用户的特征数据确定对应的业务参数,实际上这些业务参数可以反映用户在未来一段时间内的诚信情况,即是否会出现违约情况,本发明能反映用户是否能违约的业务参数可以是违约的概率,即在0到1之间,如果业务参数得到的违约概率更趋向于0则表明违约的可能性较小,例如违约概率为0.1,相反,若违约概率更趋向于1则表明违约的可能性较大,例如违约概率为0.9。本发明实施例中的违约预测和用户违约概率只是表达方式不同,实际上原理是相同的。

结合图1所示,针对以上传统方法及其缺点,本发明实施例提供了一种业务参数获取方法,所述方法包括:

s101、获取待预测业务参数的样本用户的特征数据。

s102、将所述特征数据输入到logistic回归分析模型得到所述特征数据的特征参数,所述特征参数用于确定所述业务参数,其中所述logistic回归分析模型是采用大量样本用户的特征数据进行logistic回归分析并反复迭代训练得到。

logistic回归分析模型中预先对大量的样本用户进行分析后可以得出样本用户的比较常用的特征参数,再对一个样本用户的业务参数继续获取时可以用logistic回归分析模型中已存在每种特征参数所对应的数值进行确定,因为对应样本用户可以有多种特征参数,每一种特征参数对于样本用户所对应的数值也不相同,例如,样本用户分别具有a特征参数、b特征参数及c特征参数,对应的数值可以分别为0.2、0.5及0.3,在确定该样本用户时候可以利用特征参数进行确定业务参数,这里的业务参数可以代表的样本用户的信用程度,特征参数在0、1之间,如果特征参数趋向于1则表明违约的可能性较大,即信用度较低,反之,当特征参数趋向于0则表明违约的可能性较小,即信用度很高,通常可以选择中间值进行划分,例如将0到0.5之间作为第一阈值区间,0.5到1之间确定为第二阈值区间,当样本用户的特征参数处于第一阈值区间内则可以确定样本用户具有第一业务参数,当样本用户的特征参数位于第二阈值区间内则可以确定样本用户具有第二业务参数,因为logistic回归分析模型预先对大量的样本用户进行分析后确定的特征参数对应的数 值,这样对一个待测试业务参数的用户进行业务参数获取时候结果比较准确,能够较为客观对样本用户的违约进行预估。

结合图2所示,本发明实施例提供了一种业务参数获取方法,所述方法包括:

s201、确定满足预置规则的样本用户为目标样本用户。

预置规则至少包括:所述目标样本用的所处位置位于目标位置、与所述目标样本用户的关联程度达到预设关联阈值的用户、所述目标样本用户的身份信息符合预置条件,例如在进行在校生的违约预测时,可以利用在校生的所处位置和全国各大高校的地理位置进行匹配,对于在校生的所处位置可以使用设备的定位功能,对于在校生的所处位置应该在用户授权下获得,还可以进一步地利用年龄和/或网龄数据去除一部分不符合年龄的人群,因为在校生接触新事物比较多,对于上网时间会更多,通过对其社交媒体的账户等级也可以判断,对于确定为样本用户的在校生可以根据其关联的朋友圈进行衍生扩展出更多符合在校生条件的样本用户,这样在确定在校生的样本时可以有大量的样本供使用,提高logistic回归分析模型的准确性。。

s202、利用大量所述目标样本用户的特征数据确定所述logistic回归分析模型。

对于特征参数可以包括对样本用户位置迁移频率、联系方式更新频率、社交应用信息的推送频率等进行统计分析,这些可以通过统计得到,再通过不断的重复迭代运算确定准确的特征参数以及这些参数对应的数值,即权重值,例如对一个人的位置迁移频率进行统计,出现的位置很多且不固定,可以认为该用户的工作或学习状态不稳定,向其分配业务时候,后期进展可能不会顺利,这样的特征参数再分配权重时可以提高该特征参数的权重值,体现出重要性。例如,对该用户进行贷款时,由于工作或学习不稳定,会产生不能按期还款的情况,这样的用户违约风险会提高,那么在进行贷款时进行更多的审查。

s203、获取待预测业务参数的样本用户的特征数据。

s204、将所述特征数据输入到logistic回归分析模型得到所述特征数据的特征参数,所述特征参数用于确定所述业务参数,其中,所述logistic回归分 析模型是采用大量样本用户的特征数据进行logistic回归分析并反复迭代训练得到。

s205、当所述特征参数位于预设的第一阈值区间时,确定所述样本用户具有所述第一业务参数,当所述特征参数位于预设的第二阈值区间时,确定所述样本用户具有所述第二业务参数。

logistic回归分析模型根据特征数据输出的特征参数可以是一个概率值,特征参数的范围在0、1之间,将业务参数划分为两种类型包括第一业务参数和第二业务参数,第一业务参数还可以设定为诚信用户,第二业务参数可以设定为违约用户,当进行信用预测时候,业务参数可以对应用户的违约可能性,这样对应下来可以为诚信用户和违约用户,例如特征参数在0到0.5之间,此时样本用户具有诚信用户的特征更多,也可以说该样本用户违约的可能性较小,当特征参数在0.5到1之间时候,此时该样本用户具有违约用户的特征更多,可以说该样本用户违约的可能性较高,设置阈值区间时候可灵活选择,当需要判断诚信用户更严格,则可以将中间值的取值更靠近0,例如,第一阈值区间可以设定为0到0.2之间,而第二阈值区间对应设定在0.2到1之间,对应地,对诚信用户的条件宽松,则可以将中间值的取值更靠近1,例如,0.7,第一阈值区间可以设定为0到0.7,第二阈值区间可以设定为0.7到1,总之,通过特征参数的值可以确定样本用户的业务参数,可以对样本用户的违约情况进行预判。

本发明实施例中建立logistic回归分析模型的方法的一实施例包括

对所述目标样本用户的特征数据进行衍生并提取具有趋势性的第一参数;

对所述第一参数进行降维得到具有解释性的第二参数;

对所述第二参数依次进行聚类分析、判别分析以及去重以得到第三参数;

对所述第三参数进行logistic回归分析以得到第四参数;

对所述第四参数进行重复迭代运算以得到模型参数,确定所述样本用户具有所述第二业务参数。

具体地说:根据logistic函数的定义

logit(p)=α+β·x=α+β1x1+β2x2+...+βnxn

y值为1时表示为违约客户,0时为诚信客户,p事件发生的概率,β=(β1,β2,...,βn)为参数方程的估计值,x=(x1,x2,...,xn)t为logistic回归分析模型变量。

违约用户的概率:

θ表示模型估计的参数,即:α,β1,β2,...,βn

诚信用户的概率:

因为y为二值分类,0或1,根据p1,p0这两个概率得出诚信用户和违约用户的概率分布情况。

p(y|x,θ)=(1-hθ(x))y·hθ(x)1-y

根据最大似然估计原理

通过对log(l(θ))求导,求出极值,得出θ的迭代函数,就是logistic回归分析模型估计参数,这里说的模型变量实际对应估计参数可以作为每个特征参数的权重值,在对一个用户进行预测时候,将该用户的特征数据进行分类得到多个特征参数,对多个特征参数配置权重值进行计算可以得到该用户的业务参数,即预估的违约概率,根据违约概率的数值可以对该用户的违约进行预估,以便决定是否对其执行相关业务,例如发放贷款等。

需要说明的是,logistic回归分析模型变量的选取的前提是衍生变量,通常作为分析的对象可以是用户或者帐户,所获得的数据可以有用户基本属性数据、社交属性数据、交易属性数据、稳定安全属性变量等等,可以根据这些数据进行衍生得到新的变量供使用,创建衍生变量的过程本领与普通技术人员应当了解,这里不进行赘述。

本发明实施例公开了一种业务参数获取方法,首先获取待预测业务参数 的样本用户的特征数据,将所述特征数据输入到logistic回归分析模型得到所述特征数据的特征参数,所述特征参数用于确定所述业务参数,其中,所述logistic回归分析模型是采用大量样本用户的特征数据进行logistic回归分析并反复迭代训练得到,因为logistic回归分析模型预先对大量的样本用户进行分析后确定的特征参数对应的数值,这样对一个待测试业务参数的用户进行业务参数获取时候结果比较准确,能够较为客观对样本用户的违约进行预估。

结合图3所示,前文中介绍了一种业务参数获取方法,对应地,本发明实施例中还提供一种业务参数获取装置,所述装置包括:

获取单元301,用于获取待预测业务参数的样本用户的特征数据;

分析单元302,用于利用logistic回归分析模型对所述特征数据进行归类分析,得到所述特征数据的多个特征参数;

获取单元301,用于获取待预测业务参数的样本用户的特征数据;

处理单元302,用于将所述特征数据输入到logistic回归分析模型得到所述特征数据的特征参数,所述特征参数用于确定所述业务参数,其中所述logistic回归分析模型是采用大量样本用户的特征数据进行logistic回归分析并反复迭代训练得到。

可选地,所述处理单元302还用于:

确定满足预置规则的样本用户为目标样本用户;

用于利用大量所述目标样本用户的特征数据确定所述logistic回归分析模型。

可选地,所述业务参数包括第一业务参数和第二业务参数,所述处理单元302还用于:

当所述特征参数位于预设的第一阈值区间时,确定所述样本用户具有所述第一业务参数;

当所述特征参数位于预设的第二阈值区间时,确定所述样本用户具有所述第二业务参数。

可选地,所述处理单元302还用于:

对所述目标样本用户的特征数据进行衍生并提取具有趋势性的第一参数;

对所述第一参数进行降维得到具有解释性的第二参数;

对所述第二参数依次进行聚类分析、判别分析以及去重以得到第三参数;

对所述第三参数进行logistic回归分析以得到第四参数;

对所述第四参数进行重复迭代运算以得到模型参数,确定所述样本用户具有所述第二业务参数。

可选地,所述预置规则至少包括:所述目标样本用的所处位置位于目标位置、与所述目标样本用户的关联程度达到预设关联阈值的用户、所述目标样本用户的身份信息符合预置条件。

本发明实施例公开了一种业务参数获取装置,首先获取待预测业务参数的样本用户的特征数据,利用logistic回归分析模型对所述特征数据进行归类分析,得到所述特征数据的多个特征参数,确定所述多个特征参数中的每一个特征参数的数值,所述数值用于确定所述业务参数,其中所述logistic回归分析模型是采用大量样本用户的特征数据进行logistic回归分析并反复迭代训练得到,因为logistic回归分析模型预先对大量的样本用户进行分析后确定的特征参数对应的数值,这样对一个待测试业务参数的用户进行业务参数获取时候结果比较准确,能够较为客观对样本用户的违约进行预估。

结合图4所示,图4是本发明实施例提供的业务参数获取装置40的结构示意图。所述业务参数获取装置40包括处理器410、存储器450和输入/输出i/o设备430,存储器450可以包括只读存储器和随机存取存储器,并向处理器410提供操作指令和数据。存储器450的一部分还可以包括非易失性随机存取存储器(nvram)。

在一些实施方式中,存储器450存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:

在本发明实施例中,通过调用存储器450存储的操作指令(该操作指令可存储在操作系统中),

获取待预测业务参数的样本用户的特征数据。

将所述特征数据输入到logistic回归分析模型得到所述特征数据的特征参数,所述特征参数用于确定所述业务参数,其中,所述logistic回归分析模型是采用大量样本用户的特征数据进行logistic回归分析并反复迭代训练得到。

处理器410控制业务参数获取装置40的操作,处理器410还可以称为cpu(centralprocessingunit,中央处理单元)。存储器450可以包括只读存储器和随机存取存储器,并向处理器410提供指令和数据。存储器450的一部分还可以包括非易失性随机存取存储器(nvram)。的应用中业务参数获取装置40的各个组件通过总线系统420耦合在一起,其中总线系统420除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统420。

上述本发明实施例揭示的方法可以应用于处理器410中,或者由处理器410实现。处理器410可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器410中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器410可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器450,处理器410读取存储器450中的信息,结合其硬件完成上述方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合 或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取存储器(ram,randomaccessmemory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上对本发明所提供的一种业务参数获取方法及装置进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1