一种基于任务难度与标注者能力的众包标注数据整合方法

文档序号:8259230阅读:1263来源:国知局
一种基于任务难度与标注者能力的众包标注数据整合方法
【技术领域】
[0001] 本发明属于数据标注技术领域,具体涉及一种基于任务难度与标注者能力的众包 标注数据整合方法。
【背景技术】
[0002] 高质量的标注数据集是计算机研宄和应用领域中非常重要的资源。在计算机视 觉、人工智能、机器学习等领域的算法大都是基于相应的标注数据集进行训练和优化的。快 速有效地获得高质量大规模的标注数据集一直以来都是各研宄者关注的问题。传统的获得 标注数据集的方法是雇佣专家以手工的方式对数据集进行标注。这种方式下获得的标注数 据质量高,但是标注的耗时长,且雇佣专家所需的财务开销也非常大。
[0003] 近年来,随着众包技术的发展,利用众包技术进行数据标注引起了研宄者的关注。 众包技术是一种分布式的问题求解方式。该技术利用众人的智慧和力量来解决计算机难以 解决的任务,尤其是数据标注、对象识别等这类对人类来说非常简单,但是对计算机来讲非 常困难的任务。利用众包技术进行数据标注的过程中,需要将标注任务分配给众多的标注 者进行标注,然后收集这些工作者对各个任务的标注数据。但是由于参与标注的标注者的 能力各不相同,所收集到的标注结果中存在很多的噪声,因此需要对所收集到的众包标注 数据进行过滤和整合,得到每个任务最终的标注结果。
[0004] 目前对众包标注数据的整合方法中,最常用的方法是大数投票,即通过统计标注 任务的各个标注结果的得票数,将得票最多的标注结果作为该任务的最终标注结果。这种 方式的特点是简单,将所有的标注者统一对待,却忽略了在标注的过程中各个标注者的能 力是不同的,因此不同的标注者所给出的标注结果的可信度也是不同的。后来Qiang Liu 等人构建了基于标注者的能力的标注数据整合模型,利用变分推理的方法在该模型上同时 对标注者的能力和各任务的最终标注结果进行估计。但是这种方式下将每个标注者的能力 看作一个常量,忽略了同一个标注者在不同的任务上的专业度不同导致的可信度也不同的 事实。Dengyong Zhou等人通过构建标注者与任务的混淆矩阵来表达工作者对不同任务的 不同标注能力,并利用最小熵原则进行推理求解出各个任务的最终标注结果。上述方式虽 然在一定程度上提高了对标注数据的整合精度,但是在此过程中,对标注者的能力的定义 仅仅是根据标注者所标注的所有数据与最终确定的各个任务的标注结果一致性来确定的。 然而通过整合获得的任务的标注结果并不一定的是正确的,这就导致了对标注者的能力的 评定是存在偏差的,因此在上述基于工作者能力的整合模型中所获得的最终的标注结果的 准确度也存在较大偏差。同时当前的标注数据整合模型中缺乏任务的难度这一重要的影响 因素的评定方法,进而忽略了任务难度在整个标注数据的整合过程中的重要作用,导致最 后获得的标注结果依然具有较大偏差。

【发明内容】

[0005] 针对现有技术所存在的上述技术问题,本发明提供了一种基于任务难度与标注者 能力的众包标注数据整合方法,通过从收集的标注数据中,自动化地对每一个标注任务的 难度及每一个参与标注任务的标注者的能力进行评估的同时,对每一个标注任务生成一个 更加准确的标注结果。
[0006] -种基于任务难度与标注者能力的众包标注数据整合方法,包括如下步骤:
[0007] (1)对于任一个任务,根据其返回的所有标注结果计算出该任务的难度;
[0008] (2)初始化每个标注者对该任务的标注能力值;
[0009] (3)根据标注能力值计算任务每一类标注结果从所有标注者处所获得的得分,并 取最大得分对应的标注结果作为任务的暂时标注结果;
[0010] (4)根据所述的暂时标注结果计算每个标注者的标注准确度;
[0011] (5)对于任务计算每个标注者与其他标注者之间的一致度;
[0012] (6)根据所述的一致度、标注准确度以及任务难度更新所述的标注能力值;
[0013] (7)返回步骤(3)循环迭代,直至任务前后两次的暂时标注结果一致,并取该暂时 标注结果作为任务的最终标注结果。
[0014] 所述的步骤(1)中计算任务难度的具体步骤如下:
[0015] 1. 1统计任务的标注结果种类以及每类标注结果所占的比率;
[0016] 1. 2计算各类标注结果所占比率之间平均方差的倒数作为任务的平衡度;
[0017] 1. 3根据所述的平衡度通过以下公式计算任务的难度:
[0018]
【主权项】
1. 一种基于任务难度与标注者能力的众包标注数据整合方法,包括如下步骤: (1) 对于任一个任务,根据其返回的所有标注结果计算出该任务的难度; (2) 初始化每个标注者对该任务的标注能力值; (3) 根据标注能力值计算任务每一类标注结果从所有标注者处所获得的得分,并取最 大得分对应的标注结果作为任务的暂时标注结果; (4) 根据所述的暂时标注结果计算每个标注者的标注准确度; (5) 对于任务计算每个标注者与其他标注者之间的一致度; (6) 根据所述的一致度、标注准确度以及任务难度更新所述的标注能力值; (7) 返回步骤(3)循环迭代,直至任务前后两次的暂时标注结果一致,并取该暂时标注 结果作为任务的最终标注结果。
2. 根据权利要求1所述的众包标注数据整合方法,其特征在于:所述的步骤(1)中计 算任务难度的具体步骤如下: 1. 1统计任务的标注结果种类以及每类标注结果所占的比率; 1. 2计算各类标注结果所占比率之间平均方差的倒数作为任务的平衡度; 1. 3根据所述的平衡度通过以下公式计算任务的难度:
其中:Di为第i个任务的难度,Ki为第i个任务的标注结果种类数,0i为第i个任务 的平衡度,i为自然数且1 <i<a,a为任务总数。
3. 根据权利要求1所述的众包标注数据整合方法,其特征在于:所述的步骤(3)中通 过以下公式计算任务每一类标注结果从所有标注者处所获得的得分:
其中:为第i个任务的第k类标注结果从所有标注者处所获得的得分,'为第w个 标注者对第i个任务的标注能力值,I为第i个任务的标注结果种类数,i;7为第w个标注 者对第i个任务的标注结果,为第i个任务的第k类标注结果,i为自然数且1 <i<a, a为任务总数,w为自然数且1彡w彡W,W为标注者总数,k为自然数且1彡k彡I。
4. 根据权利要求1所述的众包标注数据整合方法,其特征在于:所述的步骤(4)中通 过以下公式计算每个标注者的标注准确度:
其中:Aw为第w个标注者的标注准确度,fi为第i个任务的暂时标注结果,f为第w 个标注者对第i个任务的标注结果,i为自然数且1 <i<a,a为任务总数,w为自然数且 1彡w彡W,W为标注者总数。
5. 根据权利要求1所述的众包标注数据整合方法,其特征在于:所述的步骤(5)中通 过以下公式计算每个标注者与其他标注者之间的一致度;
其中:为对于第i个任务第w个标注者与其他标注者之间的一致度,Cf为第p个 标注者对第i个任务的标注能力值,尽为第P个标注者对第i个任务的标注结果,#为第 w个标注者对第i个任务的标注结果,i为自然数且1 <i<a,a为任务总数,p和w均为 自然数且1彡w彡W,1彡p彡W,W为标注者总数。
6. 根据权利要求1所述的众包标注数据整合方法,其特征在于:所述的步骤(6)中通 过以下公式更新标注能力值:
其中:C;#为第W个标注者对第i个任务更新后的标注能力值,为对于第i个任务 第W个标注者与其他标注者之间的一致度,Aw为第W个标注者的标注准确度,Di为第i个 任务的难度,t为预设的场景调节参数,i为自然数且l<i<a,a为任务总数,w为自然 数且1 <w<W,W为标注者总数。
【专利摘要】本发明公开了一种基于任务难度与标注者能力的众包标注数据整合方法,其根据以下两种现象:(1)能力较高的标注者对大多数任务的标注结果与其他的标注者相同;(2)难度越低的任务,标注者们对它的标注结果的一致度越高;提出了新的任务难度的评估方法以及标注者能力的评估方法,并构建了基于二者的众包标注数据的整合方法,利用迭代的方式进行快速求解,使得标注者的能力评估更加客观准确,可以非常方便地对各种众包标注任务进行有效地难度评定;同时本发明对各种类型的众包标注数据均适用,包括但不限于:图像、文本、视频等任务的二值标注、多值标注等。
【IPC分类】G06F19-00
【公开号】CN104573359
【申请号】CN201410850691
【发明人】王东辉, 孙欢, 李亚南, 蔺越檀, 熊逵, 黄鹏程, 洪高峰, 徐灿, 梁建增, 庄越挺
【申请人】浙江大学
【公开日】2015年4月29日
【申请日】2014年12月31日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1