模型分析方法及装置与流程

文档序号:13877374阅读:173来源:国知局
模型分析方法及装置与流程
本发明涉及计算机
技术领域
,尤其涉及一种模型分析方法及装置。
背景技术
:目前,在金融、保险等领域的数据挖掘预测项目中,业界通常采用单一模型来进行特定目标事件(例如,保险理赔事件)的预测,而众所周知,不同类型的模型对于目标事件的解释角度和侧重点会有所不同,因此,采用单一模型带来的预测结果的精准度有很大的局限性,预测错误率较高。技术实现要素:本发明的主要目的在于提供一种模型分析方法及装置,旨在提高预测结果的精准度。为实现上述目的,本发明提供的一种模型分析方法,所述方法包括以下步骤:a、基于预设数量的客户信息样本,训练多种预先确定的模型;b、将训练的多种模型按照预先确定的组合规则组合成复合模型,并在收到待分析的客户信息后,将该待分析的客户信息输入所述复合模型以输出分析结果。优选地,所述预先确定的模型的数量为n,n为大于2的自然数,第i个预先确定的模型记为fi,i为小于或者等于n的正整数,所述将训练的多种模型按照预先确定的组合规则组合成复合模型为:所述复合模型=(1/n)*f1+(1/n)*f2+……+(1/n)*fn。优选地,所述预先确定的模型的数量为n,n为大于2的自然数,第i个预先确定的模型记为fi,i为小于或者等于n的正整数,所述将训练的多种模型按照预先确定的组合规则组合成复合模型为:所述复合模型=power(f1,1/n)*power(f2,1/n)*……*power(fn,1/n),其中,power(fi,1/n)是对fi模型分析出的结果求n次方根。优选地,所述预先确定的模型的数量为n,n为大于2的自然数,第i个预先确定的模型记为fi,i为小于或者等于n的正整数,所述将训练的多种模型按照预先确定的组合规则组合成复合模型为:所述复合模型=n/(1/f1+1/f2+……+1/fn)。优选地,所述基于预设数量的客户信息样本,训练多种预先确定的模型的步骤包括:c、在训练一种预先确定的模型过程中,每训练一次后,将各个客户信息样本分别输入当前训练的模型中以确定出模型分析错误的客户信息样本;d、计算出模型分析错误的客户信息样本数量占所有客户信息样本数量的比例是否小于预设阈值;e、若模型分析错误的客户信息样本数量占所有客户信息样本数量的比例小于预设阈值,则该预先确定的模型训练结束;f、若模型分析错误的客户信息样本数量占所有客户信息样本数量的比例大于或者等于预设阈值,则按照预设的比例增加幅度在总客户信息样本中增加与模型分析错误的客户信息样本属于同一类型的客户信息样本的比重,并按照预设的比例减少幅度在总客户信息样本中减少模型分析正确的客户信息样本的比重,并重新执行上述步骤c、d、e、f。此外,为实现上述目的,本发明还提供一种模型分析装置,所述装置包括:训练模块,用于基于预设数量的客户信息样本,训练多种预先确定的模型;组合模块,用于将训练的多种模型按照预先确定的组合规则组合成复合模型,并在收到待分析的客户信息后,将该待分析的客户信息输入所述复合模型以输出分析结果。优选地,所述预先确定的模型的数量为n,n为大于2的自然数,第i个预先确定的模型记为fi,i为小于或者等于n的正整数,所述将训练的多种模型按照预先确定的组合规则组合成复合模型为:所述复合模型=(1/n)*f1+(1/n)*f2+……+(1/n)*fn。优选地,所述预先确定的模型的数量为n,n为大于2的自然数,第i个预先确定的模型记为fi,i为小于或者等于n的正整数,所述将训练的多种模型按照预先确定的组合规则组合成复合模型为:所述复合模型=power(f1,1/n)*power(f2,1/n)*……*power(fn,1/n),其中,power(fi,1/n)是对fi模型分析出的结果求n次方根。优选地,所述预先确定的模型的数量为n,n为大于2的自然数,第i个预先确定的模型记为fi,i为小于或者等于n的正整数,所述将训练的多种模型按照预先确定的组合规则组合成复合模型为:所述复合模型=n/(1/f1+1/f2+……+1/fn)。优选地,所述训练模块包括:确定单元,用于在训练一种预先确定的模型过程中,每训练一次后,将各个客户信息样本分别输入当前训练的模型中以确定出模型分析错误的客户信息样本;计算单元,用于计算出模型分析错误的客户信息样本数量占所有客户信息样本数量的比例是否小于预设阈值;结束单元,用于若模型分析错误的客户信息样本数量占所有客户信息样本数量的比例小于预设阈值,则结束该预先确定的模型训练;调整单元,用于若模型分析错误的客户信息样本数量占所有客户信息样本数量的比例大于或者等于预设阈值,则按照预设的比例增加幅度在总客户信息样本中增加与模型分析错误的客户信息样本属于同一类型的客户信息样本的比重,并按照预设的比例减少幅度在总客户信息样本中减少模型分析正确的客户信息样本的比重,并返回调用所述确定单元、计算单元、结束单元。本发明提出的模型分析方法及装置,通过预设数量的客户信息样本训练出多种预先确定的模型,并将训练的多种模型组合成复合模型,在收到待分析的客户信息后,利用组合的复合模型对该待分析的客户信息进行分析。由于是对多种模型进行组合来利用组合的复合模型进行分析、预测,能结合不同模型的优点,相比于单一模型预测,有效提高了预测结果的精准度。附图说明图1为本发明模型分析方法一实施例的流程示意图;图2为图1中步骤s10的细化流程示意图;图3为本发明模型分析装置一实施例的功能模块示意图;图4为图3中训练模块01的细化功能模块示意图。本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明提供一种模型分析方法。参照图1,图1为本发明模型分析方法一实施例的流程示意图。在一实施例中,该模型分析方法包括:步骤s10,基于预设数量的客户信息样本,训练多种预先确定的模型;本实施例中,基于预设数量(例如,10万)的客户信息样本,训练多种预先确定的模型。例如,所述客户信息样本中的客户信息包括但不限于性别、年龄、联系方式、家庭住址、工作单位、征信记录、持有的保险产品信息、投保行为习惯、历史理赔信息等等,持有的保险产品信息包括但不限于保障型保险产品、收益型保险产品、短期型保险产品、终身型保险产品等等,投保行为习惯为一个客户在一段时间(如最近1年或3年)内持有的保险产品中持有时间最长的产品,或持有占比最大的产品,则代表该客户的投保行为习惯是该产品。例如,若一个客户持有的保险产品中超过预设比例(例如,60%)的产品是保障型产品,则代表该客户的投保行为习惯是偏好保障型保险产品。预先确定需进行训练的模型包括但不限于决策树(decisiontree)模型、线性回归模型、逻辑回归(logisticregression)模型、神经网络(neuralnetworks,nn)模型等。其中,决策树模型是一种简单但是广泛使用的分类器,通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策树模型可读性好,具有描述性,有助于人工分析;且效率高。线性回归模型可以为一元线性回归或多元线性回归模型,一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,而在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。逻辑回归模型是当前业界比较常用的机器学习模型,用于估计某种事物的可能性,如本实施例中预测客户投保或投保类型的可能性。神经网络模型是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。例如,对神经网络模型进行训练后,可利用训练好的神经网络模型预测客户投保的概率或投保类型的概率等等。步骤s20,将训练的多种模型按照预先确定的组合规则组合成复合模型,并在收到待分析的客户信息后,将该待分析的客户信息输入所述复合模型以输出分析结果。将基于预设数量的客户信息样本训练出的多种预先确定的模型如决策树模型、线性回归模型、逻辑回归模型、神经网络模型等按照预先确定的组合规则组合成复合模型。例如,可根据不同模型的特点及优势,并综合待分析的客户信息的特点,为不同模型设置相应的权重,如若因变量与目标变量的关系只是简单的线性关系,则可在组合复合模型时提高线性回归模型的权重,以提高预测的速度及效率;若因变量较多,且需要进行复杂的分析,则可在组合复合模型时提高神经网络模型的权重,以提高预测的准确度。在将训练的多种模型按照预先确定的组合规则组合成复合模型之后,即可在收到待分析的客户信息后,将该待分析的客户信息输入所述复合模型,以综合多种模型如决策树模型、线性回归模型、逻辑回归模型、神经网络模型等的优势及不同判断角度来对该待分析的客户信息进行分析、预测,从而输出更加精准的分析、预测结果。本实施例通过预设数量的客户信息样本训练出多种预先确定的模型,并将训练的多种模型组合成复合模型,在收到待分析的客户信息后,利用组合的复合模型对该待分析的客户信息进行分析。由于是对多种模型进行组合来利用组合的复合模型进行分析、预测,能结合不同模型的优点,相比于单一模型预测,有效提高了预测结果的精准度。进一步地,在其他实施例中,所述预先确定的模型的数量为n,n为大于2的自然数,第i个预先确定的模型记为fi,i为小于或者等于n的正整数,所述将训练的多种模型按照预先确定的组合规则组合成复合模型为:所述复合模型=(1/n)*f1+(1/n)*f2+……+(1/n)*fn。本实施例中,在对训练的多种模型进行组合时,将多种模型进行平均以组合形成复合模型,能均衡地考虑各个模型的影响,以平衡各个模型的预测结果,在各个模型的预测结果相差不大的情况下,得到最合理的预测结果。进一步地,在其他实施例中,所述预先确定的模型的数量为n,n为大于2的自然数,第i个预先确定的模型记为fi,i为小于或者等于n的正整数,所述将训练的多种模型按照预先确定的组合规则组合成复合模型为:所述复合模型=power(f1,1/n)*power(f2,1/n)*……*power(fn,1/n),其中,power(fi,1/n)是对fi模型分析出的结果求n次方根。本实施例中,在对训练的多种模型进行组合时,对各个模型分析出的结果求n次方根,并进行组合,以形成复合模型。由于每一模型的预测结果对最终组合模型的预测结果影响很大,能突出每一模型在组合模型中的作用,能最大化的发挥出每一模型在组合模型中的分析、预测作用,基于各个方面的分析结果来决定最终组合模型的预测结果,提高预测的精准度。进一步地,在其他实施例中,所述预先确定的模型的数量为n,n为大于2的自然数,第i个预先确定的模型记为fi,i为小于或者等于n的正整数,所述将训练的多种模型按照预先确定的组合规则组合成复合模型为:所述复合模型=n/(1/f1+1/f2+……+1/fn)。本实施例中,在对训练的多种模型进行组合时,所述复合模型=n/(1/f1+1/f2+……+1/fn),即所述复合模型=nf1f2*…fn/(f2f3*…fn+f1f3*…fn+……f1f2*…f(n-1)),在考虑每一模型的预测结果对最终组合模型的预测结果的影响作用基础上,还综合考虑对多个模型进行不同组合后的预测结果对最终组合模型的预测结果的影响,以得到最合理的预测结果,进一步提高预测的精准度。进一步地,在一种具体实施方式中,可对逻辑回归、决策树、神经网络三种模型进行组合形成组合模型,并分析该组合模型在验证集上预测精准度的表现。针对逻辑回归、决策树、神经网络三种模型的组合,提供如下六种组合方式:组合一:等权平均法(如上述实施例中的所述复合模型=(1/n)*f1+(1/n)*f2+……+(1/n)*fn);组合二:三个模型概率加权平均法;组合三:加权几何组合平均模型;组合四:加权调和几何平均组合模型(如上述实施例中的所述复合模型=power(f1,1/n)*power(f2,1/n)*……*power(fn,1/n));组合五:预测误差平方和倒数法;组合六:简单加权平均方法。如下表1所示,表1中列出了逻辑回归、组合1~组合6模型在验证集上预测的提升度。表1中的深度1-99分别代表对应逻辑回归、组合1~组合6模型在验证集上预测结果中评分处于1%-99%的样本,通过表1中的实验数据显示,在深度为1时,组合模型的平均表现要比逻辑回归提升4.5%;在深度为5时,组合模型的平均表现要比逻辑回归提升5.3%;在深度为10时,组合模型的平均表现要比逻辑回归提升1.9%。综上所述,通过对逻辑回归、决策树、神经网络三个模型进行组合,其模型的预测效果要优于单一逻辑回归模型的表现。即组合模型相比于单一模型预测,有效提高了预测结果的精准度。表1进一步地,如图2所示,上述步骤s10可以包括:步骤s101,在训练一种预先确定的模型过程中,每训练一次后,将各个客户信息样本分别输入当前训练的模型中以确定出模型分析错误的客户信息样本;步骤s102,计算出模型分析错误的客户信息样本数量占所有客户信息样本数量的比例是否小于预设阈值;步骤s103,若模型分析错误的客户信息样本数量占所有客户信息样本数量的比例小于预设阈值,则该预先确定的模型训练结束;步骤s104,若模型分析错误的客户信息样本数量占所有客户信息样本数量的比例大于或者等于预设阈值,则按照预设的比例增加幅度在总客户信息样本中增加与模型分析错误的客户信息样本属于同一类型的客户信息样本的比重,并按照预设的比例减少幅度在总客户信息样本中减少模型分析正确的客户信息样本的比重,并返回执行上述步骤s101。本实施例中,在基于预设数量的客户信息样本训练多种预先确定的模型的过程中,对一种预先确定的模型进行训练时,每训练一次后均对当前该模型的准确率进行分析判断,如可将各个客户信息样本分别输入当前训练的该模型中进行分析、预测,若该模型分析错误的客户信息样本数量占所有客户信息样本数量的比例小于预设阈值(例如,5%),则说明当前该模型的准确率较高,则结束训练,以当前该模型作为训练好的模型。若该模型分析错误的客户信息样本数量占所有客户信息样本数量的比例大于或者等于预设阈值(例如,5%),则说明当前该模型的准确率较低,则按照预设的比例增加幅度(例如,1%)在总客户信息样本中增加与模型分析错误的客户信息样本属于同一类型的客户信息样本的比重,并按照预设的比例减少幅度(例如,1%)在总客户信息样本中减少模型分析正确的客户信息样本的比重(例如,若总客户信息样本中,模型分析正确的客户信息样本占比为80%,减少后,则为79%),并在调整后的客户信息样本基础上继续对该模型进行学习、训练,直至该模型的准确率达到要求。由于能在训练一种预先确定的模型过程中每训练一次后均对当前该模型的准确率进行分析判断,只有该模型的准确率达到要求才结束训练,保证了用于组合的每一种预先确定的模型的高准确率。而且,在判断当前该模型的准确率达不到要求时,增加总客户信息样本中与该模型分析错误的客户信息样本属于同一类型的客户信息样本的比重,以针对该模型容易分析错误的客户信息样本类型来对该模型进行重点学习、训练,针对性更强,提高了模型训练效率及速度。例如,在一种实施方式中,以客户是否发生理赔为例进行具体说明:通常的预测模型是这样的,有一个业务目标,如预测客户是否在未来六个月内发生理赔,理赔的概率有多大。定义目标变量为y:即客户是否发生理赔,y是二值变量,y=1为理赔,y=0表示不发生理赔。预测变量是影响目标标量的数据指标的选取,包括:性别、年龄信息、持有的保险产品信息(如保障型保险产品、收益型保险产品、短期型保险产品、终身型保险产品等)、投保行为习惯(例如,若一个客户持有的保险产品中超过预设比例的产品是保障型产品,代表该客户的投保行为习惯是偏好保障型保险产品)、历史理赔信息等。可以根据客户的预测变量和目标变量建立决策树模型,一旦建立决策树模型,给定某个客户信息,该决策树模型会给出每个客户理赔的概率,假如设置阈值为0.5,当该决策树模型预测出客户理赔的概率大于0.5时,则认为客户在接下来六个月内会发生理赔,当该决策树模型预测出客户理赔的概率小于0.5时,则认为客户在接下来六个月内不发生理赔。将该决策树模型预测出客户是否理赔的变量设为hat(y),并将hat(y)与客户真实的理赔情况y进行对比。如果hat(y)=y,则认为这个样本被正确学习,如果hat(y)不等于y,则认为这个样本被错误学习,这样就可以确定出所有错误学习的客户信息样本,也即该决策树模型分析错误的客户信息样本。本发明进一步提供一种模型分析装置。参照图3,图3为本发明模型分析装置一实施例的功能模块示意图。在一实施例中,该模型分析装置包括:训练模块01,用于基于预设数量的客户信息样本,训练多种预先确定的模型;本实施例中,基于预设数量(例如,10万)的客户信息样本,训练多种预先确定的模型。例如,所述客户信息样本中的客户信息包括但不限于性别、年龄、联系方式、家庭住址、工作单位、征信记录、持有的保险产品信息、投保行为习惯、历史理赔信息等等,持有的保险产品信息包括但不限于保障型保险产品、收益型保险产品、短期型保险产品、终身型保险产品等等,投保行为习惯为一个客户在一段时间(如最近1年或3年)内持有的保险产品中持有时间最长的产品,或持有占比最大的产品,则代表该客户的投保行为习惯是该产品。例如,若一个客户持有的保险产品中超过预设比例(例如,60%)的产品是保障型产品,则代表该客户的投保行为习惯是偏好保障型保险产品。预先确定需进行训练的模型包括但不限于决策树模型(decisiontree)、线性回归模型、逻辑回归(logisticregression)模型、神经网络(neuralnetworks,nn)模型等。其中,决策树模型是一种简单但是广泛使用的分类器,通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策树模型可读性好,具有描述性,有助于人工分析;且效率高。线性回归模型可以为一元线性回归或多元线性回归模型,一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,而在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。逻辑回归模型是当前业界比较常用的机器学习模型,用于估计某种事物的可能性,如本实施例中预测客户投保或投保类型的可能性。神经网络模型是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。例如,对神经网络模型进行训练后,可利用训练好的神经网络模型预测客户投保的概率或投保类型的概率等等。组合模块02,用于将训练的多种模型按照预先确定的组合规则组合成复合模型,并在收到待分析的客户信息后,将该待分析的客户信息输入所述复合模型以输出分析结果。将基于预设数量的客户信息样本训练出的多种预先确定的模型如决策树模型、线性回归模型、逻辑回归模型、神经网络模型等按照预先确定的组合规则组合成复合模型。例如,可根据不同模型的特点及优势,并综合待分析的客户信息的特点,为不同模型设置相应的权重,如若因变量与目标变量的关系只是简单的线性关系,则可在组合复合模型时提高线性回归模型的权重,以提高预测的速度及效率;若因变量较多,且需要进行复杂的分析,则可在组合复合模型时提高神经网络模型的权重,以提高预测的准确度。在将训练的多种模型按照预先确定的组合规则组合成复合模型之后,即可在收到待分析的客户信息后,将该待分析的客户信息输入所述复合模型,以综合多种模型如决策树模型、线性回归模型、逻辑回归模型、神经网络模型等的优势及不同判断角度来对该待分析的客户信息进行分析、预测,从而输出更加精准的分析、预测结果。本实施例通过预设数量的客户信息样本训练出多种预先确定的模型,并将训练的多种模型组合成复合模型,在收到待分析的客户信息后,利用组合的复合模型对该待分析的客户信息进行分析。由于是对多种模型进行组合来利用组合的复合模型进行分析、预测,能结合不同模型的优点,相比于单一模型预测,有效提高了预测结果的精准度。进一步地,在其他实施例中,所述预先确定的模型的数量为n,n为大于2的自然数,第i个预先确定的模型记为fi,i为小于或者等于n的正整数,所述将训练的多种模型按照预先确定的组合规则组合成复合模型为:所述复合模型=(1/n)*f1+(1/n)*f2+……+(1/n)*fn。本实施例中,在对训练的多种模型进行组合时,将多种模型进行平均以组合形成复合模型,能均衡地考虑各个模型的影响,以平衡各个模型的预测结果,在各个模型的预测结果相差不大的情况下,得到最合理的预测结果。进一步地,在其他实施例中,所述预先确定的模型的数量为n,n为大于2的自然数,第i个预先确定的模型记为fi,i为小于或者等于n的正整数,所述将训练的多种模型按照预先确定的组合规则组合成复合模型为:所述复合模型=power(f1,1/n)*power(f2,1/n)*……*power(fn,1/n),其中,power(fi,1/n)是对fi模型分析出的结果求n次方根。本实施例中,在对训练的多种模型进行组合时,对各个模型分析出的结果求n次方根,并进行组合,以形成复合模型。由于每一模型的预测结果对最终组合模型的预测结果影响很大,能突出每一模型在组合模型中的作用,能最大化的发挥出每一模型在组合模型中的分析、预测作用,基于各个方面的分析结果来决定最终组合模型的预测结果,提高预测的精准度。进一步地,在其他实施例中,所述预先确定的模型的数量为n,n为大于2的自然数,第i个预先确定的模型记为fi,i为小于或者等于n的正整数,所述将训练的多种模型按照预先确定的组合规则组合成复合模型为:所述复合模型=n/(1/f1+1/f2+……+1/fn)。本实施例中,在对训练的多种模型进行组合时,所述复合模型=n/(1/f1+1/f2+……+1/fn),即所述复合模型=nf1f2*…fn/(f2f3*…fn+f1f3*…fn+……f1f2*…f(n-1)),在考虑每一模型的预测结果对最终组合模型的预测结果的影响作用基础上,还综合考虑对多个模型进行不同组合后的预测结果对最终组合模型的预测结果的影响,以得到最合理的预测结果,进一步提高预测的精准度。进一步地,在一种具体实施方式中,可对逻辑回归、决策树、神经网络三种模型进行组合形成组合模型,并分析该组合模型在验证集上预测精准度的表现。针对逻辑回归、决策树、神经网络三种模型的组合,提供如下六种组合方式:组合一:等权平均法(如上述实施例中的所述复合模型=(1/n)*f1+(1/n)*f2+……+(1/n)*fn);组合二:三个模型概率加权平均法;组合三:加权几何组合平均模型;组合四:加权调和几何平均组合模型(如上述实施例中的所述复合模型=power(f1,1/n)*power(f2,1/n)*……*power(fn,1/n));组合五:预测误差平方和倒数法;组合六:简单加权平均方法。如下表1所示,表1中列出了逻辑回归、组合1~组合6模型在验证集上预测的提升度。表1中的深度1-99分别代表对应逻辑回归、组合1~组合6模型在验证集上预测结果中评分处于1%-99%的样本,通过表1中的实验数据显示,在深度为1时,组合模型的平均表现要比逻辑回归提升4.5%;在深度为5时,组合模型的平均表现要比逻辑回归提升5.3%;在深度为10时,组合模型的平均表现要比逻辑回归提升1.9%。综上所述,通过对逻辑回归、决策树、神经网络三个模型进行组合,其模型的预测效果要优于单一逻辑回归模型的表现。即组合模型相比于单一模型预测,有效提高了预测结果的精准度。深度组合1组合2组合3组合4组合5组合6逻辑回归15.625.615.655.635.625.555.3754.1484.1424.1264.0784.1484.1043.916103.413.4093.4143.4113.4093.433.349153.0033.0022.9972.9873.0022.9972.953202.6972.72.7022.6862.6972.692.642252.4662.4622.4602.4582.4662.4502.403302.262.2572.2632.2582.2602.2582.217352.1092.1082.1062.0982.1092.1032.060401.9691.9711.9701.9621.9691.9601.928451.8421.8431.8391.8301.8421.8321.807501.7251.7251.7271.721.7251.7221.701551.6271.6251.6291.6271.6271.6241.606601.5401.5381.5411.5441.5401.5361.523651.4591.4571.4591.4611.4591.4541.449701.3841.3821.3851.3841.3841.3811.374751.3101.3091.3111.3121.3101.3081.306801.241.2401.2411.2411.241.2381.238851.1731.1731.1731.1721.1731.1721.172901.1101.1101.1091.1081.1101.1101.110951.0521.0521.0511.0501.0521.0521.052991.0101.0101.0091.0081.0101.0101.010表1进一步地,如图4所示,上述训练模块01可以包括:确定单元011,用于在训练一种预先确定的模型过程中,每训练一次后,将各个客户信息样本分别输入当前训练的模型中以确定出模型分析错误的客户信息样本;计算单元012,用于计算出模型分析错误的客户信息样本数量占所有客户信息样本数量的比例是否小于预设阈值;结束单元013,用于若模型分析错误的客户信息样本数量占所有客户信息样本数量的比例小于预设阈值,则结束该预先确定的模型训练;调整单元014,用于若模型分析错误的客户信息样本数量占所有客户信息样本数量的比例大于或者等于预设阈值,则按照预设的比例增加幅度在总客户信息样本中增加与模型分析错误的客户信息样本属于同一类型的客户信息样本的比重,并按照预设的比例减少幅度在总客户信息样本中减少模型分析正确的客户信息样本的比重,并返回调用所述确定单元011、计算单元012、结束单元013。本实施例中,在基于预设数量的客户信息样本训练多种预先确定的模型的过程中,对一种预先确定的模型进行训练时,每训练一次后均对当前该模型的准确率进行分析判断,如可将各个客户信息样本分别输入当前训练的该模型中进行分析、预测,若该模型分析错误的客户信息样本数量占所有客户信息样本数量的比例小于预设阈值(例如,5%),则说明当前该模型的准确率较高,则结束训练,以当前该模型作为训练好的模型。若该模型分析错误的客户信息样本数量占所有客户信息样本数量的比例大于或者等于预设阈值(例如,5%),则说明当前该模型的准确率较低,则按照预设的比例增加幅度(例如,1%)在总客户信息样本中增加与模型分析错误的客户信息样本属于同一类型的客户信息样本的比重,并按照预设的比例减少幅度(例如,1%)在总客户信息样本中减少模型分析正确的客户信息样本的比重(例如,若总客户信息样本中,模型分析正确的客户信息样本占比为80%,减少后,则为79%),并在调整后的客户信息样本基础上继续对该模型进行学习、训练,直至该模型的准确率达到要求。由于能在训练一种预先确定的模型过程中每训练一次后均对当前该模型的准确率进行分析判断,只有该模型的准确率达到要求才结束训练,保证了用于组合的每一种预先确定的模型的高准确率。而且,在判断当前该模型的准确率达不到要求时,增加总客户信息样本中与该模型分析错误的客户信息样本属于同一类型的客户信息样本的比重,以针对该模型容易分析错误的客户信息样本类型来对该模型进行重点学习、训练,针对性更强,提高了模型训练效率及速度。例如,在一种实施方式中,以客户是否发生理赔为例进行具体说明:通常的预测模型是这样的,有一个业务目标,如预测客户是否在未来六个月内发生理赔,理赔的概率有多大。定义目标变量为y:即客户是否发生理赔,y是二值变量,y=1为理赔,y=0表示不发生理赔。预测变量是影响目标标量的数据指标的选取,包括:性别、年龄信息、持有的保险产品信息(如保障型保险产品、收益型保险产品、短期型保险产品、终身型保险产品等)、投保行为习惯(例如,若一个客户持有的保险产品中超过预设比例的产品是保障型产品,代表该客户的投保行为习惯是偏好保障型保险产品)、历史理赔信息等。可以根据客户的预测变量和目标变量建立决策树模型,一旦建立决策树模型,给定某个客户信息,该决策树模型会给出每个客户理赔的概率,假如设置阈值为0.5,当该决策树模型预测出客户理赔的概率大于0.5时,则认为客户在接下来六个月内会发生理赔,当该决策树模型预测出客户理赔的概率小于0.5时,则认为客户在接下来六个月内不发生理赔。将该决策树模型预测出客户是否理赔的变量设为hat(y),并将hat(y)与客户真实的理赔情况y进行对比。如果hat(y)=y,则认为这个样本被正确学习,如果hat(y)不等于y,则认为这个样本被错误学习,这样就可以确定出所有错误学习的客户信息样本,也即该决策树模型分析错误的客户信息样本。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1