一种基于滑动任务窗的众包质量评估方法与流程

文档序号:14072875阅读:356来源:国知局

本发明涉及一种基于滑动任务窗的众包质量评估方法,属于众包与互联网应用领域。



背景技术:

众包是一种公开面向互联网大众的分布式问题解决机制,它通过整合计算机和互联网上未知的大众来完成计算机单独难以完成的任务。目前众包已经在商业领域大放异彩,例如,法国的网络媒体爱可网采用用户制作内容的理念为品牌创新注入强劲的动力,amazon的mturk平台则是基于经济奖励的方式让大众解决实际难题,百度百科、维基百科、搜狗拼音输入法等都是优秀的免费协作案例。同时,众包通过汇聚大众的头脑智慧,能够解决很多计算机难以处理的问题,因此在信息可信、表情识别、图像标记、搜索排序、情感认知、机器翻译等领域得到广泛应用。

在众包任务执行过程中,工作者采用自由松散的组织形式,其工作态度和能力有所差异,有些工作者态度散漫,随机甚至恶意回答问题,对于某些专业类别的任务需求,很多工作者没有足够的专业知识和能力,导致工作质量参差不齐,执行结果存在较大的不确定性。随着众包在各个领域的广泛应用,众包的质量评估问题变得越来越重要。



技术实现要素:

本发明目的在于设计了一种基于滑动任务窗的众包质量评估方法。针对众包平台的质量评估问题,通过引入专业准确率的概念对工作者进行评估,并结合滑动窗口原理、多数投票法、黄金标准数据法、和em算法的思想,按照测试、划分、投票、评估、整合5个步骤对工作者和任务结果进行估计,从而实现对众包任务结果的高效、准确、实时、动态评估。

本发明采用的技术方案如下:

本发明提供一种基于滑动任务窗的众包质量评估方法,包括以下步骤:

1.测试,结合黄金标准数据法的思想,根据众包的任务类型,均匀选择各类型的黄金标准数据组成测试任务,通过设计一些具有标准答案的问题作为测试题目,在任务开始前,所有工作者都需要独立地完成测试任务。根据测试结果来识别欺诈者,同时对工作者的准确率进行评估,计算各个工作者的初始专业准确率;

2.划分,借鉴滑动窗口的原理,根据众包任务规模设定任务窗口大小和滑动间隔,将众包任务划分为滑动任务窗的形式;

3.投票,所有工作者对所有工作者进行独立投票;

4.评估,在任一任务窗内,根据投票结果对工作者和任务进行em评估,每次评估需要两个步骤进行迭代计算,直到算法收敛。第1步利用已有的工作者的专业准确率的估计值,对所有的问题分别进行计算,得到每个问题结果的估计值。第2步是利用第1步得到的结果来计算每个工作者的专业准确率;

5.整合,对所有任务窗估计的最优结果进行整合,最终得到所有任务的评估结果。因为工作者在完成任务过程中,其专业准确率在不断变化,而且随着对任务了解的增多,其专业准确率一般会越来越高,所以在对估计结果进行整合的过程中,对于前后任务窗重叠的任务部分以后一任务窗的评估结果为准。

有益效果:

1.在工作者的准确率的基础上,引入了专业准确率的概念,来反映工作者正确完成某专业类别任务的概率,这样就能够对工作者的工作能力和完成质量进行更加准确的评估。

2.对方法的初始值设定更合理,结合黄金标准数据法的思想,在任务进行前,对工作者进行测试,得到工作者初始专业正确率。同时将任务进行滑动分窗,并考虑到工作者的专业正确率变化的连续性,把前一任务窗估计的工作者的专业正确率作为后一任务窗的初始专业正确率。

3.提高运行效率,通过对任务进行分窗估计,在每个任务窗内,评估的任务量大大降低,方法也更容易达到收敛。同时本方法是一种增量式算法,能够根据工作者在最近的任务窗的估计结果,及时对新任务进行评估。

附图说明

图1本发明基本流程图。

图2滑动任务窗的示意图。

图3参数设定实验结果图。

具体实施方式

下面结合附图和具体实施方式,对本发明作进一步说明。

如图1所示,本发明实施例的基于滑动任务窗的众包质量评估方法包括以下步骤:

1.任务设置:实验的数据来源于“trec-7adhocandtrec-8filteringtopics”,其中4个专业类别分别是:falklandpetroleumexploration、territorialwaterdispute、blood-alcoholfatalities、druglegalizationbenefits。根据trec会议已知的文档相关性结果,本文从每个专业类别选取330个文档(共1320个文档)作为任务候选文档集合。

2.工作者设置:根据众包平台上工作者的行为特点和提交结果,可将工作者分为3类:(1)勤奋的工作者,态度良好,能力突出,能够严格按照任务要求,很好地完成任务;(2)草率的工作者,可能也具有良好的意图,但是由于没有认真阅读题目或者能力不足,给出低质量的结果;(3)恶意的工作者(也称为欺诈者),经常采用欺骗的手段,随机甚至恶意提交任务结果。本发明使用众包中常用的工作池模型——hammer-spammer模型,招募500名志愿者作为第1、2类工作者参与实验,同时利用电脑模拟出一定数量的欺诈者,等概率随机提交任务结果。

3.测试:从上述实验数据的4个专业类别中分别随机选取30个文档(共120个文档)作为黄金标准数据以便测试使用,剩下的1200条文档作为众包任务进行发布。在任务开始前,所有工作者都需要独立地完成测试任务。根据测试结果来识别欺诈者,同时对工作者的准确率进行评估,计算各个工作者的初始专业准确率。

4.划分:如图2所示,假定众包任务集t中共有n项众包任务,对这些任务按照先后顺序进行排列,可表示为t={t1,t2,…,tn},任意从t中连续选取多个任务即构成一个任务窗。任务窗在时间轴上自左向右不断滑动,形成滑动任务窗。其中,m为任务窗的窗口大小,q为滑动间隔。任务窗口m和滑动间隔q的大小直接影响迭代的规模和次数,最终影响结果评估的准确性。根据实验任务的规模,分别设定m=100、200、400、600,q=m/4、m/2、3m/4,进行实验,并采用查准率来反映结果评估的准确性,实验结果如图3所示。根据图3的实验结果,本方法设定m=200,q=m/4。在参数设定完成后,众包任务的滑动任务窗已划分完成。

5.投票:所有工作者对所有众包任务进行独立投票,每个工作者对每个任务只能选择唯一的候选答案作为投票结果。

6.评估:在任一任务窗内,根据投票结果对工作者和任务进行em评估,每次评估需要两个步骤进行迭代计算,直到算法收敛。第1步利用已有的工作者的专业准确率的估计值,对所有的问题分别进行计算,得到每个问题结果的估计值;第2步是利用第1步得到的结果来计算每个工作者的专业准确率。其中,第1个任务窗的工作者的初始专业正确率由测试结果得到,其余任务窗的工作者的初始专业正确率由其前一任务窗的估计结果得到。

7.整合:对所有任务窗估计的最优结果进行整合,最终得到所有任务的评估结果。因为工作者在完成任务过程中,其专业准确率在不断变化,而且随着对任务了解的增多,其专业准确率一般会越来越高,所以在对估计结果进行整合的过程中,对于前后任务窗重叠的任务部分以后一任务窗的评估结果为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1