众包标注整合方法

文档序号:9844261阅读:5470来源:国知局
众包标注整合方法
【技术领域】
[0001] 本发明属于数据挖掘与机器学习技术领域,更具体涉及一种众包标注整合方法。
【背景技术】
[0002] 随着互联网数据的爆炸性增长以及统计机器学习算法的广泛应用,大规模有标注 数据集在机器学习中的作用开始突显,与此同时使用众包模式获取数据标注的方法也越来 越重要。众包是指将工作量分为大量简单子任务,然后通过网络平台分配给大量普通网民 完成。这种模式目前被广泛应用在为ImageNet等大规模数据集搜集标注的场景中。与传统 的标注方式比,通过众包方式获取数据标注由于是通过大量普通网民同时完成,具有搜集 总时间周期短、单标注便宜等优点。但是由于普通网络标注者可能缺乏专业领域知识,他们 提供的标注一般存在可靠性差,噪音高等缺点。此种背景下,如何通过众包方法获取可靠数 据标注成为了一个重要研究问题。其中的主要难点包括:1.标注者的复杂组成,2.标注的稀 疏性,3.标注本身的复杂性等等。
[0003] 整合众包标注问题实际上可以分为两部分,第一部分是对标注行为的假设,第二 部分是根据假设给出整合结果。关于这一问题已经有的研究主要包括多数投票模型和混淆 矩阵模型两类以及其变种:
[0004]多数投票模型是指当已经获得了每张图片的多个标注以后,简单地计算它所获得 的哪种标注更多,从而决定给出的预测值。这一模型的实质是把每一张图片的标注当作独 立的问题,并且在每一个问题中,假设每个标注者都具有相同的出错概率。在基础的多数投 票法上,还有许多改进算法。例如加权多数投票法,通过引入每个标注者的可靠程度多次迭 代得出预测结果;以及随机多数投票法,在预测过程中引入了随机性等等,这些方法本质上 都是基于相同的假设建立的。
[0005] 多数投票法在数据稠密的应用场景中有比较好的结果,然而当"众包"问题变得复 杂之后,这一算法就显得适用性不强。多数投票法假设所有标注者都是同样优秀的,然而当 专家较少,其他人都随机给出结果,这时正确的标注很容易就会被噪音所掩盖。通过加权多 数投票模型虽然也为每位标注者引入了权值,但是这一权值的定义却过于生硬,导致多个 标注中蕴含的信息得不到运用,最终也无法给出较为理想的结果。
[0006] 混淆矩阵模型。Dawid和Skene在1979年提出了一个多值混淆矩阵估计模型,他们 假定每一个标注者出现特定种类错误的概率是确定的,这样就可以用一个统一的混淆矩阵 来描述所有情况出现的概率,最终通过最大似然估计就可以得到所有参数值,包括每张图 片的真实标注。这一算法相对于多数投票模型增加了许多细节,它对标注者出错的来源有 了一个初步的假设,并且通过概率的方法给出了一个较为严谨的问题表述,最终还提出了 通过期望最大化算法求解问题的方法,然而这种处理方法同样存在着许多牵强的假设:第 一,在该模型下标注者把一个类别的图片标注为另一类别的概率为确定值,然而随着图片 的变化,每张图片可能倾向于不同的类型,因此它们被分到同一类别的概率可能有很大不 同。第二,这一模型没有考虑标注者本身的倾向性。在同一类型的标注问题中,每一个数据 可能都有不同的要素来组成,因此标注者在给出标注时,对其产生影响的内容可能来自于 多个方面,因此模型中仅仅把它用混淆矩阵来描述,事实上忽视了许多分类信息。
[0007] 上述领域的最新成果为后续模型的建立提供了很好的范本,然而其本身还是一个 比较初步的算法,有很大进一步完善的空间。

【发明内容】

[0008] 本发明的目的是是提供一种众包标注整合方法,以取可靠的数据标注。
[0009] 为了解决上述技术问题,本发明提供了一种众包标注整合方法,所述方法包括以 下步骤:
[0010] S1、设置混淆矩阵超参数、间隔距离超参数以及正则化超参数;
[0011] S2、初始化标注者投票权重,并利用多数投票法对所有预测项目的待估计标注设 置初始值;
[0012] S3、根据所述步骤S2得到的所有预测项目的初始值,统计每一位标注者将各个预 测项目标注为各个预定类别的次数,所述预定类别为当前标注任务中所有标注者标注过的 所有的类别;
[0013] S4、根据所述混淆矩阵超参数以及所述每一位标注者将各个预测项目标注为各个 预定类别的次数,利用狄利克雷分布采样的方法更新对应的混淆矩阵,其中每一位标注者 对应一个混淆矩阵,混淆矩阵的第K列的各项分别表示当前标注者将属于第K类的预测项目 标注为各个预定类别的次数的统计值;所述第K类与对应的预测项目的所述估计值相对应;
[0014] S5、根据所述正则化超参数、所述间隔距离超参数、所述标注者投票权重以及标注 者将当前预测项目标注为对应的所述初始值的次数与标注者将当前预测项目标注为次类 别的次数的差值定义一个广义反高斯分布,并通过采样得到辅助参量;其中所述次类别为 当前预测项目除其对应的所述初始值外最可能属于的类别;
[0015] S6、根据所述辅助参量、所述间隔距离超参数、所述正则化超参数以及所述差值更 新所述标注者投票权重;
[0016] S7、对于每一个所述预测项目,根据对应的所述混淆矩阵以及所述辅助参量计算 其对应的各个标注类别出现的概率,并从所述概率的多项分布中通过采样得到所述预测项 目的更新值。
[0017]优选地,所述方法在步骤S7之后还包括以下步骤:
[0018] S8、所述步骤S3-S7执行一次形成一轮迭代,若前后两轮迭代得到的各个所述预测 项目对应的更新值分别相同,则整合结束,最后一轮迭代得到的各个所述预测项目对应的 更新值为最终值;
[0019] 同时,所述迭代次数大于1时,所述步骤S3和S5中的所述初始值用所述步骤S7中得 到的所述更新值替换来执行相应的操作。
[0020] 优选地,所述步骤S3之前还包括如下步骤:
[0021] 各个标注者对各个所述预测项目分别进行标注。
[0022] 优选地,所述各个标注者对各个所述预测项目分别进行标注之后,并且在所述步 骤S3之前所述方法还包括如下步骤:
[0023]对于每一个所预测项目,利用所有标注者对其的标注形成N个Μ维的二值向量,其 中Μ表示所有标注者的数量,N表示所述预定类别的个数。
[0024] 优选地,所述初始化标注者投票权重为将标注者投票权重初始化为一个全部为1 的Μ维向量,其中Μ表示所有标注者的数量。
[0025] 优选地,所述利用狄利克雷分布采样的方法更新对应的混淆矩阵为利用如下公式 进行更新:
[0026]
[0027] 式中,α为所述混淆矩阵超参数,nmk为当前标注者m将属于第Κ类的预测项目标注为 各个预定类别的次数的统计值,识mfc为当前标注者m对应的混淆矩阵义^的第K列,所述K列 的各项分别表示当前标注者m将属于第K类的预测项目标注为各个预定类别的概率。
[0028] 优选地,所述次类别利用如下公式确定:
[0029]
[0030] 式中,Sl为所述次类别,yi为当前预测项目标注的初始值或更新值,η为初始化的所 述标注者投票权重,gf(d)为标注者将当前预测项目标注为对应的所述初始值或更新值的 次数与标注者将当前预测项目标注为类别d的次数的差值,i为当前预测项目的编号。
[0031] 优选地,所述广义反高斯分布具体为:
[0032]
[0033]式中,Μ为所述辅助参量,C为所述正则化超参数,1为所述间隔距离超参数中的第 一参数,为所述标注者将当前预测项目标注为对应的所述初始值或更新值的次数与 标注者将当前预测项目标注为次类别的次数的差值。
[0034] 优选地,所述步骤S6中标注者投票权重服从多维高斯分布,所述多维高斯分布的 协方差矩阵为:
[0035]
[0036] 式中,v为所述间隔距离超参数中的第二参数;
[0037] 所述协方差矩阵的均值为:
[0038]
[0039] 则更新所述标注者投票权重的采样公式为:
[0040] η ~Ν(μ,Σ)〇
[0041]
[0042] 优选地,所述计算其对应的各个标注类别出现的概率具体为利用如下公式进行计 算:
[0043]
[0044]式中,q ( y i = d )表示第i个预测项目的真实标注是d类的概率,
良示将当前预测项目标注于次类别对应的间隔值,Φ表示所述混淆 矩阵,II(xij = k)为一个逻辑判断式,当且仅当xij等于k时其值为1,J表示第J类标注者,k表 示第k类标注类别,η为更新后的所述标注者投票权重。
[0045]本发明提供了一种众包标注整合方法,本发明利用正则化超参数、间隔距离超参 数、标注者投票权重以及标注者将当前预测项目标注为对应的估计值的次数与标注者将当 前预测项目标注为次类别的次数的差值定义一个广义反高斯分布,并采样得到了辅助参 量,可以显著增强了模型的判别能力。其次根据所述辅助参量、所述间隔距离超参数、所述 正则化超参数以及所述差值更新了标注者投票权重,然后整合了传统的标注整合多数投票 模型和混淆矩阵模型,进而实现了更全面描述数据生成过程的目的。另外通过使用采样得 到了精确的预测项目更新值,同时运行的效率也得到了提高。
【附图说明】
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1