迁移学习方法及装置的制造方法

文档序号:8299455阅读:341来源:国知局
迁移学习方法及装置的制造方法
【技术领域】
[0001] 本发明设及机器学习领域,具体设及一种迁移学习方法及装置。
【背景技术】
[0002] 在传统分类学习中,为了保证训练得到的分类模型具有准确性和高可靠性,都有 两个基本的假设;(1)用于学习的训练样本与新的测试样本满足独立同分布的条件;(2)必 须有足够可利用的训练样本才能学习得到一个好的分类模型。但是,在实际应用中人们发 现该两个条件往往无法满足。然而,作为机器学习中的一个重要分支的迁移学习则放宽了 传统机器学习中的两个基本假设。迁移学习主要针对从资源较丰富的源领域和目标领域获 取知识训练相关模型,进而解决资源相对缺乏的目标领域的问题,即迁移已有的知识来解 决目标领域中仅有少量有标签样本数据甚至没有的学习问题。该一方法在目前的自然语言 处理等领域有着广泛的应用,例如跨语言迁移问题、跨领域迁移问题W及其他的训练数据 和测试数据来自不同分布的实际问题。因此,研究迁移学习变得非常重要。
[000引 目前迁移学习的方法及其在NLP0Ja化ral Language Process,自然语言处理)领 域的应用,其侧重点在于如何利用源领域数据训练相关模型,给予目标领域未标注数据W 正确的标签,并且将其中置信度高的样本按照一定比例添加到训练数据中,进而达到扩充 训练集的目的。关于迁移学习的具有代表性的方法有自学习(self-training)、联合学习 (co-training)等。
[0004] 然而,无论是自学习的迁移学习方法或是联合学习的迁移学习方法,在添加的样 本选择和添加过程中,迁移到训练集的目标领域样本由于其标签来自于机器学习算法,可 能有一定的错误率;特别是在其训练样本来自于源领域样本的前提下,错误率可能会更高。 而随着样本迭代的进行,由于错误样本数量的不断累加,迁移学习算法的性能往往会下降, 该种情况被称作"负迁移(negative transfer)",该和迁移样本引入的带有错误标签的迁 移样本的累积是有着密切关系的。因为传统的迁移学习对无标注样本进行自动标注,其误 差会在迭代过程中累积。在整个学习过程的初期,由于自动标注样本对训练集的扩充,算法 的性能指标会出现上升,但是随着误分类样本的累积,样本质量变差,算法性能会在学习过 程的中后期出现下降。对于答案未知的实际任务,该一问题使得实验人员很难确定算法停 止迭代的时间点,影响了系统所能达到的性能。
[0005] 目前的针对迁移学习的机器学习方法,其着眼点往往在于基线方法的准确率,对 于在迁移过程中的错误标签样本的问题并未解决。因此,寻找一种面向迁移学习过程中所 产生的错误标签样本的检测方法,具有很强的现实意义。

【发明内容】

[0006] 根据本发明的一个方面,提供一种迁移学习方法,包括:
[0007] 初始步骤:设置迁移学习的相关参数并初始化;
[000引样本获取步骤:开始迁移学习迭代,获得自动化标注数据;
[0009] 周期计算步骤:当迭代次数满足迭代周期,对该迭代周期内作为样本的自动化标 注数据进行误差检测,确定该迭代周期的样本相对质量;
[0010] 结果处理步骤;根据样本相对质量确定样本的删除或保留,并确定是否继续迁移 学习迭代,当终止迁移学习迭代,输出保留的样本和迁移分类器。
[0011] 根据本发明的另一个方面,提供一种迁移学习装置,包括:
[0012] 初始模块,用于设置迁移学习的相关参数并初始化;
[0013] 样本获取模块,用于开始迁移学习迭代,获得自动化标注数据;
[0014] 周期计算模块,用于当迭代次数满足迭代周期,对该迭代周期内作为样本的自动 化标注数据进行误差检测,确定该迭代周期的样本相对质量;
[0015] 结果处理模块,用于根据样本相对质量确定样本的删除或保留,并确定是否继续 迁移学习迭代,当终止迁移学习迭代,输出保留的样本和迁移分类器。
[0016] 本发明的有益效果是;在迁移学习过程中,将学习过程按迁移周期划分,每满一个 迁移周期则进行误差检测,根据误差检测确定的样本相对质量筛选样本,由此来剔除低质 量样本W达到提高迁移学习中自动标注数据的样本质量的目的,进而提升应用迁移学习方 法的系统的准确性。
【附图说明】
[0017] 图1是本发明实施例1的迁移学习方法的基本流程图。
【具体实施方式】
[0018] 为了使本发明的目的、技术方案及优点更加清楚明白,W下通过具体实施例并结 合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用W解释本 发明,并不用于限制本发明。
[0019] 本发明的基本思想是在迁移学习的过程中,将学习过程细分为周期,判断每个最 近周期中的自动标注样本的质量是否高于之前周期自动标注样本的质量。之后利用高质量 的周期对之前周期的自动标注样本进行筛选,删除其中的低质量样本W达到提高迁移学习 中自动标注样本质量的目的,进而提升系统的准确性。
[0020] 实施例1 ;
[0021] 如图1所示,本实施例的迁移学习方法包括步骤S10?S40。
[0022] 步骤S10为初始步骤,在该步骤中设置迁移学习的相关参数并初始化。例如,设置 和初始化迁移学习的输入参数,包括有标注的源分布数据L、无标注的目标分布数据U、过 往周期的自动标注数据集合TSt= 4、当前周期下的自动标注数据集合TSi= 4、进行误差 检测的迭代周期T、迁移学习迭代的总次数(简称迭代总数)K、每轮迭代中自动标注的正负 样本数目P和q、当前迭代的次数I、过往周期估计的误差界Ept。、当前周期估计的误差界 E next、寺寺。
[0023] 步骤S20为样本获取步骤,即开始迁移学习迭代,获得自动化标注数据。在该步骤 中,利用已有的有标注的源分布数据训练分类器,对无标注的目标分布数据进行分类,选取 置信度高的分类结果进行自动化标注,从而扩大有标注数据规模。该步骤具体可包括步骤 S201 ?S203。
[0024] 步骤S201 ;判断当前迭代次数是否小于迭代总数,如果是,执行步骤S202,如果 否,则结束迁移学习。
[0025] 步骤S202 ;训练基分类器,即在有标注的源分布数据上训练基分类器,具体训练 方式可参考已有的迁移学习方法中的相关技术实现,例如自学习的迁移学习方法、联合学 习的迁移方法等。
[0026] 步骤S203 :自动化标注数据,即利用训练的基分类器进行分类,向过往周期的自 动标注数据集合TS。添加置信度最高的P个正例和q个反例,并自动化标注为C的分类结 果。
[0027] 步骤S30为周期计算步骤,在该步骤中,当迭代次数满足迭代周期,对该迭代周期 内作为样本的自动化标注数据进行误差检测,确定该迭代周
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1