一种面向众包市场的基于适应度的任务分配方法

文档序号:24825678发布日期:2021-04-27 15:49阅读:59来源:国知局
一种面向众包市场的基于适应度的任务分配方法

1.本发明涉及一种面向众包市场的基于适应度的任务分配方法,尤其是一种针对图片分类任务基于适应度的任务分配方法,涉及一种任务分配方案的最优选择问题,属于群智背景下的资源优化统筹领域。


背景技术:

2.随着众包的火热发展,国内外纷纷涌现不少众包平台,比如有道众包、amazon mechanical turk(mturk)、microworkers等。通过众包平台,用户可以轻松地发布和接受各种任务,包括输入、修改、对给定信息的进行验证等工作。因此,在在线平台的支持下,众包模式在图像标注、音频识别、段落翻译等领域得到了极其广泛的应用,而众包知识获取领域下的图片分类任务是其中的一个比较重要的应用。对于给定的图片,任务参与者需要排除若干候选标签的干扰,并从中挑选出最能准确描述图片内容的选项。
3.然而在不同的知识领域下,人们所具备的专业知识深度也不相同。一般情况下,对于入门级的通识性的概念,大多数人可以很容易的基于常识迅速做出判断,相反,对于那些远超出自己认知范围的具体的选项就很难给出正确的答案。因此很明显,直接对上述的图片分类任务进行随机分配不是有效的策略,这会导致那些具有特定具体候选项的困难任务被分配给不具备相关知识背景的一般用户执行,从而严重降低任务完成的效果并且浪费有限的人力资源。直观来看,将具有不同难度的众包任务分配给具有相匹配能力的员工是一个合理的方案,然而如何衡量任务的难度和员工的能力是问题的关键。考虑到人类行为具有极大的不确定性,对工人的能力进行评估是一项极具挑战的工作。对此,我们提出了一种面向众包市场的基于适应度的任务分配方法,尝试从任务分配阶段出发基于任务和工人之间的适应度将任务分配给具有相匹配能力的最适宜的工人以提高任务完成的效果。


技术实现要素:

4.本发明的目的是:实现将不同难度的图片分类任务交付给能力相匹配的工人进行执行。
5.为了达到上述目的,本发明的技术方案是提供了一种面向众包市场的基于适应度的任务分配方法,其特征在于,包括以下步骤:
6.步骤1、问题背景定义,具体包括:
7.步骤1.1、定义众包任务集合t和众包工人集合w,并将其作为后续匹配过程中的顶点集合;众包任务集合t={t
i
|i∈i
t
},其中每一个任务t
i
由任务id、任务描述d
i
、候选标签集合l
i
构成;表示任务t
i
的候选标签集合,2≤len(l
i
)≤10;
8.众包工人集合w={w
j
|j∈i
w
},每位工人w
j
都关联一组属性<id
j
,h
j
,p
j
,>,id
j
是工人的唯一标识符,起到区分和标记工人的作用,h
j
是历史任务集合,其保存了工人的历史回答情况以便于后续工人能力的计算,p
j
记录了工人的行为偏好或专业领域;
9.步骤1.2、定义众包知识获取问题背景下的命中率指标;
10.步骤1.3、定义任务和工人之间进行二分图匹配的问题模型:将任务集合t与工人集合w抽象成二分图匹配问题中的两个不相交的集合,任务和工人之间的分配关系等价于二分图匹配问题中的有效边,每位工人只能处理同一批次下的一个任务;
11.步骤2、众包任务难度确定:借助wordnet获取候选标签的深度信息以及实时统计候选标签的数量,利用多项式函数和sigmoid函数分别计算各部分对任务难度的影响;
12.步骤3、工人能力评估:借鉴于电子竞技中的排位/晋级赛机制,通过临时提升、实时动态评估、快速回落机制和策略,获悉工人真实等级,再结合工人在各个等级下利用max

min归一化处理后的准确率表现对工人能力进行进一步的细化;
13.步骤3、最优分配方案生成:进一步完善工人和任务之间的二分图匹配模型,使用一种基于带惩罚因子的加权欧式距离作为权重来度量任务与工人之间的适应度,并在此基础上利用kuhn

munkres(km)算法对模型进行求解,并最终得到任务和工人的分配关系矩阵。
14.优选地,所述步骤1.2中,定义众包知识获取问题背景下图片分类任务的命中率指标变量代表工人提交的答案集合,而l代表对应的正确选项集合,用于在给定的标准数据集上测试工人完成任务的表现;
[0015][0016][0017]
其中hypernym(l
h
)函数将递归地返回标签l
g
的父级标签集合,通过命中率指标来适当放宽准确率的约束条件并将其作为后续的度量标准。
[0018]
优选地,所述步骤2中借助wordnet获取候选标签的深度信息以及实时统计候选标签的数量具体为,
[0019][0020]
其中函数p(l
g
)将返回标签l
g
的父节点,因此在遍历标签时可以通过递归调用的方式计算各个标签的深度并实时统计标签数量;
[0021]
多项式函数f(x)=(x

1)
λ
+x,其中λ为影响因子,被用来控制标签深度对任务难度影响的速度;
[0022]
sigmoid函数将标签数量的影响效果映射到适当的范围。
[0023]
优选地,所述步骤3以n
circle
为周期记录工人完成任务的实际表现,并根据判断准确率表现acc是否达到了晋升门限a
promotion
来决定工人是否晋级;如果acc≥a
promotion
则将工人的等级临时提升,并在接下来的n
test
个特定任务中进行检验,若这些特定任务的准确率达到了a
test
标准,则完成当前工人的晋升步骤,否则将工人的等级回落,并重复上述步骤;
[0024]
结合工人在各个等级下利用h(x)归一化处理后的准确率表现进行进一步的细化,
[0025]
优选地,所述步骤4使用一种基于带有惩罚因子的加权欧式距离来度量任务与工人之间的适应度并以此作为边的权重关系,适应度值越低,任务t
i
和工人w
i
的关系越近;
[0026][0027][0028]
变量p
i,j
称为惩罚因子,通过调节γ参数可以适当放松工人的选择条件,在惩罚因子的作用下,当目标等级的工人数量不足时,可以在γ的区间内选择具有更高等级的工人来执行任务,在此基础上利用kuhn

munkres(km)算法对模型进行求解,并最终得到任务和工人的分配关系矩阵。
[0029]
与现有技术相比,本发明的有益效果是:
[0030]
本发明通过引入wordnet外部知识库实现了对图片分类任务难度的合理量化,同时利用动态更新策略(即电子竞技中的排位/晋级赛机制)对工人的能力进行真实的评估。区别于传统众包平台利用冗余策略对多位候选工人提出的答案进行汇总和推断以提高任务准确性的方法,本发明提出了一种从初始化阶段即任务分配的环节入手提升任务准确率的方法,通过使用带权欧氏距离保证了对有限的人力资源下任务完成的效果,并且避免了对专家级工人的浪费。能够在任务的初始分发阶段帮助众包平台提高任务的完成效果,通过提供一组有效的任务任务分配方案确保了众包任务完成的准确率,以减少对人力资源的浪费。
[0031]
本发明具有快速高效等优点,能够帮助众包平台对图片分类、标注等任务进行有效的分配,并且对于解决类似的众包知识获取任务具有一定的启发性,具有较强的社会及商业价值,可在企业中进行推广和应用。
附图说明
[0032]
图1是本发明一种面向众包市场的基于适应度的任务分配方法整体流程图;
[0033]
图2是本发明中工人等级动态更新策略的算法流程图。
具体实施方式
[0034]
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
[0035]
如图1所示,本发明一种面向众包市场的基于适应度的任务分配方法,包括以下步骤:问题背景定义、众包任务难度确定、工人能力评估、最优分配方案生成。
[0036]
步骤1、问题背景定义,具体包括:
[0037]
步骤1.1、定义众包任务集合t和众包工人集合w,并将其作为后续匹配过程中的顶点集合。
[0038]
众包任务集合t={t
i
|i∈i
t
},其中每一个任务t
i
由任务id、任务描述d
i
、候选标签集合l
i
构成,表示任务t
i
的候选标签集合,一般情况下2≤len(l
i
)≤10。
[0039]
众包工人集合w={w
j
|j∈i
w
},每位工人w
j
都关联一组属性<id
j
,h
j
,p
j
,>,id
j
是工
人的唯一标识符,起到区分和标记工人的作用,h
j
是历史任务集合,其保存了工人的历史回答情况以便于后续工人能力的计算,p
j
记录了工人的行为偏好或专业领域。
[0040]
步骤1.2、定义众包知识获取问题背景下图片分类任务的命中率指标这将用于在给定的标准数据集上测试工人完成任务的表现;考虑到标签之间具有层级关系,若工人选择了与正确选项具有上下级关系的相关候选标签,很难直接认定这些选项是错误的,而需要将这些选择看作是不够具体的答案。因此如公式(1)和公式(2)所示,本发明引入了命中率的概念,
[0041][0042][0043]
其中hypernym(l
h
)函数将递归地返回标签l
g
的父级标签集合,变量代表工人提交的答案集合,而l代表对应的正确选项集合,通过命中率指标来适当放宽准确率的约束条件并将其作为后续的度量标准。
[0044]
步骤1.3、定义任务和工人之间进行二分图匹配的问题模型:根据二分图匹配的概念,对于任意无向图顶点集,如果可以将其拆分成两个独立不相交的集合,且边集中的每一条边都有一个与其关联的权重,则可将该图看作带权二分图。
[0045]
将任务集合t与工人集合w抽象成二分图匹配问题中的两个不相交的集合,任务和工人之间的分配关系等价于二分图匹配问题中的有效边。为了保证任务的完成的效果和有效性,每位工人只能处理同一批次下的一个任务,这符合二分图匹配问题的一般性定义。
[0046]
步骤2、众包任务难度确定:
[0047]
一般情况下,图片分类任务的难度主要取决于候选标签的具体程度和标签数量。因此本发明借助wordnet获取候选标签的深度信息以及实时统计候选标签的数量,利用多项式函数和sigmoid函数分别计算各部分对任务难度的影响。
[0048]
借助wordnet获取候选标签的参数信息,具体步骤见公式(3),
[0049][0050]
其中函数p(l
g
)将返回标签l
g
的父节点,因此在遍历标签时可以通过递归调用的方式计算各个标签的深度并实时统计标签数量。
[0051]
然而标签深度对任务难度的影响并非是线性的,对于那些超出或接近工人知识边界的候选标签,随着标签深度的继续增加将极大影响工人的判断,如果采用线性的模型,任务难度的增加应当是平缓且具有过渡性的,这意味着工人仍然可以根据自身的专业知识进行合理的推理及判断从而得到正确的答案,与上述事实不符。因此本发明借助公式(4)所述的多项式函数f(x)计算标签深度对任务难度的影响,其中λ为影响因子,该参数被用来控制标签深度对任务难度影响的速度,根据实际的调参分析一般将其取值为2。
[0052]
f(x)=(x

1)
λ
+x
ꢀꢀꢀ
(4)
[0053]
另一方面,任务的候选标签数量通常保持在(2~10)之间,这决定了该部分对任务难度的影响是有上限的。当标签数量相对较少时,候选标签的数量所造成的干扰效果并不太明显,反之当任务标签的数量比较大时,这部分的影响又接近了上限,所以其增长逐渐变缓。基于此原因,本发明借助了公式(5)所示的sigmoid函数,并对其进行了一定的平移和缩放变换,以便将标签数量的影响效果映射到适当的范围。
[0054][0055]
步骤3、工人能力评估:
[0056]
工人能力评估主要借鉴于电子竞技中的排位/晋级赛机制,在特定的领域内,工人的等级越高其分辨特定标签的能力就越强。以n
circle
为周期记录工人完成这些任务的实际表现,并根据判断准确率表现acc是否达到了晋升门限a
promotion
来决定工人是否晋级。如果acc≥a
promotion
则将工人的等级临时提升,并在接下来的n
test
个特定任务中进行检验,若这些特定任务的准确率达到了a
test
标准,则完成当前工人的晋升步骤,否则将工人的等级回落,并重复上述步骤。通过上述临时提升、实时动态评估、快速回落等机制和策略,本发明最终能够获悉工人真实的能力水平,并结合工人在各个等级下利用公式(6)的max

min归一化处理后的准确率表现进行进一步的细化。
[0057][0058]
步骤4、最优分配方案生成:
[0059]
进一步完善工人和任务之间的匹配模型,将其抽象为众包背景下的带权二分图匹配问题。本发明使用一种基于带有惩罚因子的加权欧式距离来度量任务与工人之间的适应度如公式(7)所示,并以此作为边的权重关系,适应度值越低,任务t
i
和工人w
i
的关系越近,从全局视角来看,将任务t
i
分配给w
i
的趋势更为明显。
[0060][0061]
如公式(8)所示,不同权重参数的设置可以体现两组属性的重要性差异。
[0062][0063]
变量p
i,j
称为惩罚因子,通过调节γ参数可以适当放松工人的选择条件。在惩罚因子的作用下,当目标等级的工人数量不足时,可以在γ的区间内选择具有更高等级的工人来执行任务。
[0064]
在此基础上本发明利用kuhn

munkres(km)算法对模型进行求解,并最终得到任务和工人的分配关系矩阵。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1