1.一种基于异质性混杂数据的不变学习方法,其特征在于,包括以下步骤:
s1,获取异质性混杂数据,所述异质性混杂数据包括协变量集合和目标变量集合;
s2,根据从协变量的空间到目标变量的映射建立模型;
s3,将所述协变量集合中协变量的每一维权重构成的权重向量初始化为全1的向量,并将权重向量作为协变量当前权重向量;
s4,利用协变量当前权重向量,以及预先定义好的划分环境数目,使用与所述划分环境数目相同的模型对全体数据进行聚类,得到所述划分环境数目个划分好的环境;
s5,对于所述划分好的环境,使用不变学习方法来学习步骤s2建立的模型的当前参数以及协变量的相对稳定性权重;
s6,利用当前学习得到的相对稳定性权重,重新返回步骤s4;
s7,重复步骤s4至s6,采用梯度下降训练模型,直到模型收敛训练结束,将当前模型的当前参数作为最终的模型参数,当前协变量作为最终的协变量权重向量;
s8,获取测试样本,将所述测试样本中协变量赋予步骤s7得到的最终的协变量权重向量,得到所述测试样本修正后的协变量,将所述修正后的协变量输入步骤s7训练完毕的模型,模型输出为所述测试样本的目标变量预测结果。
2.根据权利要求1所述的方法,其特征在于,所述获取异质性混杂数据,包括:
选取来自于不同数据源e∈ε的异质性训练数据d={de}e∈ε,其中ε为环境的集合,de=(xe,ye),xe为来自环境e的所有训练样本的协变量组成的该环境协变量矩阵,ye为来自环境e的所有训练样本的目标变量组成的该环境的目标变量数组;
将所有环境的协变量数组组成协变量集合,将所有环境的目标变量数组组成目标变量集合。
3.根据权利要求1所述的方法,其特征在于,所述s4进一步包括:
s41,初始时将全部数据随机划分为k个环境,k为所述环境数目;
s42,对于划分好的k个环境,分别训练k个模型来对数据进行拟合,得到k个模型参数;
s43,对于每个数据点,为其分配新的类别标签,之后重复步骤s42。
4.一种基于异质性混杂数据的不变学习装置,其特征在于,包括:
获取模块,用于获取异质性混杂数据,所述异质性混杂数据包括协变量集合和目标变量集合;
建立模块,用于根据从协变量的空间到目标变量的映射建立模型;
初始化模块,用于将所述协变量集合中协变量的每一维权重构成的权重向量初始化为全1的向量,并将权重向量作为协变量当前权重向量;
划分模块,用于利用协变量当前权重向量,以及预先定义好的划分环境数目,使用与所述划分环境数目相同的模型对全体数据进行聚类,得到所述划分环境数目个划分好的环境;
学习模块,用于对于所述划分好的环境,使用不变学习方法来学习建立的模型的当前参数以及协变量的相对稳定性权重;
迭代模块,用于利用当前学习得到的相对稳定性权重,重新返回所述划分模块;
训练模块,用于采用梯度下降训练模型,直到模型收敛训练结束,将当前模型的当前参数作为最终的模型参数,当前协变量作为最终的协变量权重向量;
输出模块,用于获取测试样本,将所述测试样本中协变量赋予步骤s7得到的最终的协变量权重向量,得到所述测试样本修正后的协变量,将所述修正后的协变量输入步骤s7训练完毕的模型,模型输出为所述测试样本的目标变量预测结果。
5.根据权利要求4所述的装置,其特征在于,所述获取模块,进一步用于,
选取来自于不同数据源e∈ε的异质性训练数据d={de}e∈ε,其中ε为环境的集合,de=(xe,ye),xe为来自环境e的所有训练样本的协变量组成的该环境协变量矩阵,ye为来自环境e的所有训练样本的目标变量组成的该环境的目标变量数组;
将所有环境的协变量数组组成协变量集合,将所有环境的目标变量数组组成目标变量集合。
6.根据权利要求4所述的装置,其特征在于,所述划分模块进一步用于:
初始时将全部数据随机划分为k个环境,k为所述环境数目;
对于划分好的k个环境,分别训练k个模型来对数据进行拟合,得到k个模型参数;
对于每个数据点,为其分配新的类别标签,之后返回上一步。