基于异质性混杂数据的不变学习方法及装置

文档序号：26141584发布日期：2021-08-03 14:26阅读：来源：国知局

技术特征：

1.一种基于异质性混杂数据的不变学习方法，其特征在于，包括以下步骤：

s1，获取异质性混杂数据，所述异质性混杂数据包括协变量集合和目标变量集合；

s2，根据从协变量的空间到目标变量的映射建立模型；

s3，将所述协变量集合中协变量的每一维权重构成的权重向量初始化为全1的向量，并将权重向量作为协变量当前权重向量；

s4，利用协变量当前权重向量，以及预先定义好的划分环境数目，使用与所述划分环境数目相同的模型对全体数据进行聚类，得到所述划分环境数目个划分好的环境；

s5，对于所述划分好的环境，使用不变学习方法来学习步骤s2建立的模型的当前参数以及协变量的相对稳定性权重；

s6，利用当前学习得到的相对稳定性权重，重新返回步骤s4；

s7，重复步骤s4至s6，采用梯度下降训练模型，直到模型收敛训练结束，将当前模型的当前参数作为最终的模型参数，当前协变量作为最终的协变量权重向量；

s8，获取测试样本，将所述测试样本中协变量赋予步骤s7得到的最终的协变量权重向量，得到所述测试样本修正后的协变量，将所述修正后的协变量输入步骤s7训练完毕的模型，模型输出为所述测试样本的目标变量预测结果。

2.根据权利要求1所述的方法，其特征在于，所述获取异质性混杂数据，包括：

选取来自于不同数据源e∈ε的异质性训练数据d＝{d^e}e∈ε，其中ε为环境的集合，d^e＝(x^e，y^e)，x^e为来自环境e的所有训练样本的协变量组成的该环境协变量矩阵，y^e为来自环境e的所有训练样本的目标变量组成的该环境的目标变量数组；

将所有环境的协变量数组组成协变量集合，将所有环境的目标变量数组组成目标变量集合。

3.根据权利要求1所述的方法，其特征在于，所述s4进一步包括：

s41，初始时将全部数据随机划分为k个环境，k为所述环境数目；

s42，对于划分好的k个环境，分别训练k个模型来对数据进行拟合，得到k个模型参数；

s43，对于每个数据点，为其分配新的类别标签，之后重复步骤s42。

4.一种基于异质性混杂数据的不变学习装置，其特征在于，包括：

获取模块，用于获取异质性混杂数据，所述异质性混杂数据包括协变量集合和目标变量集合；

建立模块，用于根据从协变量的空间到目标变量的映射建立模型；

初始化模块，用于将所述协变量集合中协变量的每一维权重构成的权重向量初始化为全1的向量，并将权重向量作为协变量当前权重向量；

划分模块，用于利用协变量当前权重向量，以及预先定义好的划分环境数目，使用与所述划分环境数目相同的模型对全体数据进行聚类，得到所述划分环境数目个划分好的环境；

学习模块，用于对于所述划分好的环境，使用不变学习方法来学习建立的模型的当前参数以及协变量的相对稳定性权重；

迭代模块，用于利用当前学习得到的相对稳定性权重，重新返回所述划分模块；

训练模块，用于采用梯度下降训练模型，直到模型收敛训练结束，将当前模型的当前参数作为最终的模型参数，当前协变量作为最终的协变量权重向量；

输出模块，用于获取测试样本，将所述测试样本中协变量赋予步骤s7得到的最终的协变量权重向量，得到所述测试样本修正后的协变量，将所述修正后的协变量输入步骤s7训练完毕的模型，模型输出为所述测试样本的目标变量预测结果。

5.根据权利要求4所述的装置，其特征在于，所述获取模块，进一步用于，

将所有环境的协变量数组组成协变量集合，将所有环境的目标变量数组组成目标变量集合。

6.根据权利要求4所述的装置，其特征在于，所述划分模块进一步用于：

初始时将全部数据随机划分为k个环境，k为所述环境数目；

对于划分好的k个环境，分别训练k个模型来对数据进行拟合，得到k个模型参数；

对于每个数据点，为其分配新的类别标签，之后返回上一步。

技术总结
本发明公开了一种基于异质性混杂数据的不变学习方法及装置，首先利用异质性的混杂训练数据，使用不稳定协变量与目标变量之间的关系进行异质性识别，将混杂的异质性数据划分为多环境，再利用学习到的多环境训练数据在模型优化的过程中加入不变性正则项进行不变学习，并得到稳定协变量，进一步获得估计更加准确的不稳定协变量，更好地进行异质性识别来得到更好的环境划分，最终算法会给出最优的异质性环境划分、不同协变量的稳定性指数以及模型参数。通过协变量的稳定性指数来区分不同协变量的相对鲁棒性，对于模型输入可以得到更为准确的预测结果，在图像分类等多种领域有很高的应用价值。

技术研发人员：崔鹏;刘家硕
受保护的技术使用者：清华大学
技术研发日：2021.04.28
技术公布日：2021.08.03

完整全部详细技术资料下载

当前第2页1 2