含有离散变量和连续变量的线性模型拟合方法和装置与流程

文档序号:13760656阅读:651来源:国知局
含有离散变量和连续变量的线性模型拟合方法和装置与流程
本发明属于数据处理领域,尤其涉及含有离散变更和连续变量的方法和装置。
背景技术
:线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。通过利用线性回归方程的最小平方函数,对一个或多个自变量和因变量之间关系进行建模。相较于其他回归模型,线性模型模型相对更为简单,使用线性模型进行预测的相应速度会明显快于其他回归模型。在一个含有离散变量和连续变量的数据集中,例如:有一个数据集,特征空间(x1,x2,x3,x4),其中x1,x2,x3是连续变量,x4是离散变量,x4={0,1},可以将数据集按照x4的取值分成两个数据集S0={(x1,x2,x3)|x4=0},S1={(x1,x2,x3)|x4=1},再在S0、S1两个数据集上分别拟合两个线性模型l0、l1。这种按照离散变量取值,切分数据集后分别进行拟合的方法,解决了离散和连续变量混合线性模型的拟合问题。但是,这种形式拟合出来的若干个模型之间是相互独立的,因为数据集相互独立,一个模型没有拟合另一个数据集的任何数据。而在实际应用中,模型之间是相互关联的,因此,这种切分数据集的处理方法不能有效的反应实际应用中的模型之间的关联性。技术实现要素:本发明的目的在于提供一种含有离散变量和连续变量的线性模型拟合方法,以解决现有技术通过切分数据集的拟合方法不能有效的反应实际应用中的模型之间的关联性的问题。第一方面,本发明实施例提供了一种含有离散变量和连续变量的线性模型拟合方法,所述方法包括:根据所述离散变量,构建连续变量特征空间x’;根据所述离散变量,构建常量特征空间a’;根据所述连续变量特征空间x’和所述常量特征空间a’构建新的样本空间s'=(x',a',y)进行线性拟合。结合第一方面,在第一方面的第一种可能实现方式中,所述根据所述离散变量,构建连续变量特征空间x’步骤包括:根据原始的特征空间x=(x1,x2,x3...xn,xn+1...xn+m)构建连续变量特征空间:x′={(x1,x2,x3...xn,x1xn+1=0,x1xn+2=0...x1xn+m=0,x1xn+1=1,x1xn+2=1...x1xn+m=1...xnxn+1=0,xnxn+2=0...xnxn+m=0...xnxn+1=1,xnxn+2=1...xnxn+m=1)},]]>其中,x1,x2,x3...xn为连续变量,xn,xn+1...xn+m为离散变量,i=1,2,3…n,j=n+1,n+2…n+m。结合第一方面,在第一方面的第二种可能实现方式中,所述根据所述离散变量,构建常量特征空间a’步骤包括:根据原始的特征空间x=(x1,x2,x3...xn,xn+1...xn+m)构建常量特征空间:其中:j=n+1,n+2…n+m。结合第一方面,在第一方面的第三种可能实现方式中,所述根据所述连续变量特征空间x'和所述常量特征空间a'构建新的样本空间s'=(x',a',y)进行线性拟合步骤包括:用x’k表示连续变量特征空间x'的特征和常量特征空间a'的特征,k=n+m*2+n*m*2,通过最小二乘法拟合线性函数进行拟合。结合第一方面,在第一方面的第四种可能实现方式中,在所述根据所述连续变量特征空间x'和所述常量特征空间a'构建新的样本空间s'=(x',a',y)进行线性拟合步骤之后,所述方法还包括:对拟合函数的每个参数进行显著性检测,删除显著性检验结果为不显著的特征后重新拟合。第二方面,本发明实施例提供了一种含有离散变量和连续变量的线性模型拟合装置,所述装置包括:连续变量特征空间构建单元,用于根据所述离散变量,构建连续变量特征空间x’;常量特征空间构造单元,用于根据所述离散变量,构建常量特征空间a’;拟合单元,用于根据所述连续变量特征空间x’和所述常量特征空间a’构建新的样本空间s'=(x',a',y)进行线性拟合。结合第二方面,在第二方面的第一种可能实现方式中,所述连续变量特征空间构建单元具体用于:根据原始的特征空间x=(x1,x2,x3...xn,xn+1...xn+m)构建连续变量特征空间:x′={(x1,x2,x3...xn,x1xn+1=0,x1xn+2=0...x1xn+m=0,x1xn+1=1,x1xn+2=1...x1xn+m=1...xnxn+1=0,xnxn+2=0...xnxn+m=0...xnxn+1=1,xnxn+2=1...xnxn+m=1)},]]>其中,x1,x2,x3...xn为连续变量,xn,xn+1...xn+m为离散变量,i=1,2,3…n,j=n+1,n+2…n+m。结合第二方面,在第二方面的第二种可能实现方式中,所述常量特征空间构建单元具体用于:根据原始的特征空间x=(x1,x2,x3...xn,xn+1...xn+m)构建常量特征空间:其中:j=n+1,n+2…n+m。结合第二方面,在第二方面的第三种可能实现方式中,所述拟合单元具体用于:用x’k表示连续变量特征空间x'的特征和常量特征空间a'的特征,k=n+m*2+n*m*2,通过最小二乘法拟合线性函数进行拟合。结合第二方面,在第二方面的第四种可能实现方式中,所述装置还包括:检测删除单元,用于对拟合函数的每个参数进行显著性检测,删除显著性检验结果为不显著的特征后重新拟合。在本发明中,根据离散变量构建连续变量特征空间x’,以及常量特征空间a’,根据所述连续变量特征空间x’和所述常量特征空间a’构建新的样本空间s'=(x',a',y),从而使得拟合后的函数,不仅能够表示离散变量的不同取值对拟合结果的影响,而且能够表示离散变量内部和离散变量之间相对性对拟合结果的影响,实际通用性更强。附图说明图1是本发明实施例提供的含有离散变量和连续变量的线性模型拟合方法的实现流程图;图2是本发明实施例提供的含有离散变量和连续变量的线性模型拟合装置的结构示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明实施例所述含有离散变量和连续变量的线性模型拟合方法,旨在解决现有技术中对于含有离散变量和连续变量的线性拟合时,需要对数据集进行切分,从而使得拟合后的线性方程不能有效的反应实际应用中的模型之间的关联性,使得实际使用过程中不具有通用性。比如,假设原始的特征空间为x=(x1,x2,x3,x4,x5),其中x1,x2,x3是连续变量,x4,x5∈(0,1)是离散变量,预测连续变量y。样本集可以写作S=(x,y)。如果采用切分数据集的形式,可以将样本数据按照x4,x5的形式,切分成如下4份:1)S(0,0)={(x1,x2,x3,y)|x4=0,x5=0},表示将S中x4=0,x5=0的这部分样本组成S(0,0)。2)S(0,1)={(x1,x2,x3,y)|x4=0,x5=1},表示将S中x4=0,x5=1的这部分样本组成S(0,1)。3)S(1,0)={(x1,x2,x3,y)|x4=1,x5=0},表示将S中x4=1,x5=0的这部分样本组成S(1,0)。4)S(1,1)={(x1,x2,x3,y)|x4=1,x5=1},表示将S中x4=0,x5=0的这部分样本组成S(1,1)。然后在4个切分出来的数据集上,分别使用最小二乘法拟合4个线性函数j=1,2,3,4,有需要预测的数据的时候,将需要预测的数据按照数据x4,x5的取值,分别使用4个拟合函数进行预测。由于x4,x5取不同值时拟合出来的若干个模型之间是相互独立的,一个模型没有拟合另一个数据集的任何数据,因而不利于在实际应用中表示离散变量的不同取值对拟合结果的影响图1示出了本发明第一实施例提供的含有离散变量和连续变量的线性模型拟合方法的实现流程,详述如下:在步骤S101中,根据所述离散变量,构建连续变量特征空间x’。具体的,在本发明实施例中,包括离散变量和连续变量的原始的特征空间可以为x=(x1,x2,x3...xn,xn+1...xn+m),其中x1,x2,x3...xn为连续变量,xn,xn+1...xn+m∈(0,1)为离散变量。为构造连续特征空间,本发明实施例可采用连续变量特征空间构建公式:x′={(x1,x2,x3...xn,x1xn+1=0,x1xn+2=0...x1xn+m=0,x1xn+1=1,x1xn+2=1...x1xn+m=1...xnxn+1=0,xnxn+2=0...xnxn+m=0...xnxn+1=1,xnxn+2=1...xnxn+m=1)}]]>进行连续特征空间的构造。在该公式中,i=1,2,3…n,j=n+1,n+2…n+m。至此连续变量特征空间构造完毕。在步骤S102中,根据所述离散变量,构建常量特征空间a’。具体的,本发明实施例对于常量特征空间的构造,可以根据原始的特征空间x=(x1,x2,x3...xn,xn+1...xn+m),采用常量空间构造公式:进行构造。其中,j=n+1,n+2…n+m。至此常量特征空间构造完毕。在步骤S103中,根据所述连续变量特征空间x’和所述常量特征空间a’构建新的样本空间s'=(x',a',y)进行线性拟合。在本发明实施例中,根据所述连续变量特征空间x’和所述常量特征空间a’构建新的样本空间s'=(x',a',y)进行线性拟合,可以采用最小二乘法拟合线性函数进行拟合,其中,x’k表示连续变量特征空间x'的特征和常量特征空间a’的特征。本发明实施例拟合得到的拟合函数y,与切分样本集拟合出来的m*2个拟合函数相比,不仅能够表示离散变量x4,x5的不同取值,分别对预测结果独立的影响,也能表示离散变量内部和离散变量之间相关性对预测结果的影响,并且,本发明相较切分样本集进行预测更具有通用性,丰富的特征也给拟合结果带来更多的优化空间。作为本发明进一步优化的实施方式中,所述根据所述连续变量特征空间x’和所述常量特征空间a'构建新的样本空间s'=(x',a',y)进行线性拟合步骤之后,所述方法还包括:对拟合函数的每个参数进行显著性检测,删除显著性检验结果为不显著的特征后重新拟合。将不显著的特征删除后,重新拟合,直到拟合结果的所有特征都满足显著性检验时,停止删除特征。使剩下特征拟合的线性模型即为离散变量和连续变量混合的线性显著模型。图2为本发明实施例提供的含有离散变量和连续变量的线性模型拟合装置的结构示意图,详述如下。本发明实施例所述含有离散变量和连续变量的线性模型拟合装置,包括:连续变量特征空间构建单元201,用于根据所述离散变量,构建连续变量特征空间x’;常量特征空间构造单元202,用于根据所述离散变量,构建常量特征空间a’;拟合单元203,用于根据所述连续变量特征空间x’和所述常量特征空间a’构建新的样本空间s'=(x',a',y)进行线性拟合。优选的,所述连续变量特征空间构建单元具体用于:根据原始的特征空间x=(x1,x2,x3...xn,xn+1...xn+m)构建连续变量特征空间:x′={(x1,x2,x3...xn,x1xn+1=0,x1xn+2=0...x1xn+m=0,x1xn+1=1,x1xn+2=1...x1xn+m=1...xnxn+1=0,xnxn+2=0...xnxn+m=0...xnxn+1=1,xnxn+2=1...xnxn+m=1)},]]>其中,x1,x2,x3...xn为连续变量,xn,xn+1...xn+m为离散变量,i=1,2,3…n,j=n+1,n+2…n+m。优选的,所述常量特征空间构建单元具体用于:根据原始的特征空间x=(x1,x2,x3...xn,xn+1...xn+m)构建常量特征空间:其中:j=n+1,n+2…n+m。优选的,所述拟合单元具体用于:用x’k表示连续变量特征空间x'的特征和常量特征空间a'的特征,k=n+m*2+n*m*2,通过最小二乘法拟合线性函数进行拟合。优选的,所述装置还包括:检测删除单元,用于对拟合函数的每个参数进行显著性检测,删除显著性检验结果为不显著的特征后重新拟合。本发明实施例所述含有离散变量和连续变量的线性模型拟合装置,与图1所述含有离散变量和连续变量的线性模型拟合方法对应,在此不作重复赘述。在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1