迁移学习方法及装置的制造方法

文档序号：8299455阅读：341来源：国知局

迁移学习方法及装置的制造方法
【技术领域】
[0001] 本发明设及机器学习领域，具体设及一种迁移学习方法及装置。
【背景技术】
[0002] 在传统分类学习中，为了保证训练得到的分类模型具有准确性和高可靠性，都有两个基本的假设；（1)用于学习的训练样本与新的测试样本满足独立同分布的条件；（2)必须有足够可利用的训练样本才能学习得到一个好的分类模型。但是，在实际应用中人们发现该两个条件往往无法满足。然而，作为机器学习中的一个重要分支的迁移学习则放宽了传统机器学习中的两个基本假设。迁移学习主要针对从资源较丰富的源领域和目标领域获取知识训练相关模型，进而解决资源相对缺乏的目标领域的问题，即迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。该一方法在目前的自然语言处理等领域有着广泛的应用，例如跨语言迁移问题、跨领域迁移问题W及其他的训练数据和测试数据来自不同分布的实际问题。因此，研究迁移学习变得非常重要。
[000引目前迁移学习的方法及其在NLP0Ja化ral Language Process,自然语言处理）领域的应用，其侧重点在于如何利用源领域数据训练相关模型，给予目标领域未标注数据W 正确的标签，并且将其中置信度高的样本按照一定比例添加到训练数据中，进而达到扩充训练集的目的。关于迁移学习的具有代表性的方法有自学习（self-training)、联合学习 (co-training)等。
[0004] 然而，无论是自学习的迁移学习方法或是联合学习的迁移学习方法，在添加的样本选择和添加过程中，迁移到训练集的目标领域样本由于其标签来自于机器学习算法，可能有一定的错误率；特别是在其训练样本来自于源领域样本的前提下，错误率可能会更高。而随着样本迭代的进行，由于错误样本数量的不断累加，迁移学习算法的性能往往会下降，该种情况被称作"负迁移（negative transfer)"，该和迁移样本引入的带有错误标签的迁移样本的累积是有着密切关系的。因为传统的迁移学习对无标注样本进行自动标注，其误差会在迭代过程中累积。在整个学习过程的初期，由于自动标注样本对训练集的扩充，算法的性能指标会出现上升，但是随着误分类样本的累积，样本质量变差，算法性能会在学习过程的中后期出现下降。对于答案未知的实际任务，该一问题使得实验人员很难确定算法停止迭代的时间点，影响了系统所能达到的性能。
[0005] 目前的针对迁移学习的机器学习方法，其着眼点往往在于基线方法的准确率，对于在迁移过程中的错误标签样本的问题并未解决。因此，寻找一种面向迁移学习过程中所产生的错误标签样本的检测方法，具有很强的现实意义。

【发明内容】

[0006] 根据本发明的一个方面，提供一种迁移学习方法，包括：
[0007] 初始步骤：设置迁移学习的相关参数并初始化；
[000引样本获取步骤：开始迁移学习迭代，获得自动化标注数据；
[0009] 周期计算步骤：当迭代次数满足迭代周期，对该迭代周期内作为样本的自动化标注数据进行误差检测，确定该迭代周期的样本相对质量；
[0010] 结果处理步骤；根据样本相对质量确定样本的删除或保留，并确定是否继续迁移学习迭代，当终止迁移学习迭代，输出保留的样本和迁移分类器。
[0011] 根据本发明的另一个方面，提供一种迁移学习装置，包括：
[0012] 初始模块，用于设置迁移学习的相关参数并初始化；
[0013] 样本获取模块，用于开始迁移学习迭代，获得自动化标注数据；
[0014] 周期计算模块，用于当迭代次数满足迭代周期，对该迭代周期内作为样本的自动化标注数据进行误差检测，确定该迭代周期的样本相对质量；
[0015] 结果处理模块，用于根据样本相对质量确定样本的删除或保留，并确定是否继续迁移学习迭代，当终止迁移学习迭代，输出保留的样本和迁移分类器。
[0016] 本发明的有益效果是；在迁移学习过程中，将学习过程按迁移周期划分，每满一个迁移周期则进行误差检测，根据误差检测确定的样本相对质量筛选样本，由此来剔除低质量样本W达到提高迁移学习中自动标注数据的样本质量的目的，进而提升应用迁移学习方法的系统的准确性。
【附图说明】
[0017] 图1是本发明实施例1的迁移学习方法的基本流程图。
【具体实施方式】
[0018] 为了使本发明的目的、技术方案及优点更加清楚明白，W下通过具体实施例并结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用W解释本发明，并不用于限制本发明。
[0019] 本发明的基本思想是在迁移学习的过程中，将学习过程细分为周期，判断每个最近周期中的自动标注样本的质量是否高于之前周期自动标注样本的质量。之后利用高质量的周期对之前周期的自动标注样本进行筛选，删除其中的低质量样本W达到提高迁移学习中自动标注样本质量的目的，进而提升系统的准确性。
[0020] 实施例1 ;
[0021] 如图1所示，本实施例的迁移学习方法包括步骤S10?S40。
[0022] 步骤S10为初始步骤，在该步骤中设置迁移学习的相关参数并初始化。例如，设置和初始化迁移学习的输入参数，包括有标注的源分布数据L、无标注的目标分布数据U、过往周期的自动标注数据集合TSt= 4、当前周期下的自动标注数据集合TSi= 4、进行误差检测的迭代周期T、迁移学习迭代的总次数（简称迭代总数）K、每轮迭代中自动标注的正负样本数目P和q、当前迭代的次数I、过往周期估计的误差界Ept。、当前周期估计的误差界 E next、寺寺。
[0023] 步骤S20为样本获取步骤，即开始迁移学习迭代，获得自动化标注数据。在该步骤中，利用已有的有标注的源分布数据训练分类器，对无标注的目标分布数据进行分类，选取置信度高的分类结果进行自动化标注，从而扩大有标注数据规模。该步骤具体可包括步骤 S201 ?S203。
[0024] 步骤S201 ;判断当前迭代次数是否小于迭代总数，如果是，执行步骤S202,如果否，则结束迁移学习。
[0025] 步骤S202 ;训练基分类器，即在有标注的源分布数据上训练基分类器，具体训练方式可参考已有的迁移学习方法中的相关技术实现，例如自学习的迁移学习方法、联合学习的迁移方法等。
[0026] 步骤S203 :自动化标注数据，即利用训练的基分类器进行分类，向过往周期的自动标注数据集合TS。添加置信度最高的P个正例和q个反例，并自动化标注为C的分类结果。
[0027] 步骤S30为周期计算步骤，在该步骤中，当迭代次数满足迭代周期，对该迭代周期内作为样本的自动化标注数据进行误差检测，确定该迭代周

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：桂林;徐睿峰;陆勤;周俞;
技术所有人：哈尔滨工业大学深圳研究生院;
我是此专利的发明人

上一篇：基于深度卷积神经网络的多摄像机系统目标匹配方法
上一篇：一种基于极限学习机算法的识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。