基于心理学行为分析的众包欺诈检测方法

文档序号:6622232阅读:171来源:国知局
基于心理学行为分析的众包欺诈检测方法
【专利摘要】基于心理学行为分析的众包欺诈检测方法。?目前众包质量控制技术不能有效应对众包被检测者的欺诈行为,导致众包质量低下。本发明的方法包括如下步骤:被检测者对原始数据文档进行工作;通过时钟控制单元(1)对整个系统的全局进行时间控制,根据时钟控制单元记录的工作的时间以及次数,将文档传递至数据分组单元(2)进行动态地分组;通过数据分组单元将文档阶段性地分组,并且将达到标准的文档传送到其他单元进行处理;被检测者标签质量控制单元(3)会对所得的文档子集上的反映进行筛选,最后被检测者质量控制单元(4)检测到被检测者的欺诈行为,发送电信号驱动标记机(8)进行标记。本发明用于检测众包欺诈行为。
【专利说明】基于心理学行为分析的众包欺诈检测方法
[0001]【技术领域】:
本发明涉及一种基于心理学行为分析的众包欺诈检测方法。
[0002]【背景技术】:
目前,在软件测试、人工智能的内容筛选及机器学习的训练数据标记等领域都有众包的应用。然而众包技术还处于发展阶段,仍有众多因素严重影响了众包结果质量,使得众包不能够有效地为任务需求者服务。最终收集来的众包结果含有大量的垃圾数据,需求者不得不浪费众多人力和物力,以解决众包被检测者的欺诈行为带来的后果。现有的一些众包质量控制技术虽然得到了应用但却收效甚微,为了提高众包质量,使得众包得到有效地应用。一种具有检测欺诈行为众包被检测者,并且过滤掉质量较差的垃圾数据的众包欺诈检测方法亟待被提出。
[0003]
【发明内容】
:
本发明采用一种基于心理学的行为分析方法,引入艾宾浩斯遗忘曲线对众包被检测者的行为规律进行判断,通过比较欺诈行为与可靠行为之间的差异,完成众包的欺诈检测。
[0004]上述的目的通过以下的技术方案实现:
一种基于心理学行为分析的众包欺诈检测方法,该方法包括如下步骤:被检测者对原始数据文档进行工作;
通过时钟控制单元对整个系统的全局进行时间控制,从被检测者着手工作开始计时,当达到预定的时间点时,触发各个单元执行特定功能;根据时钟控制单元记录的工作的时间以及次数,将文档传递至数据分组单元进行动态地分组;
通过数据分组单元根据被检测者对各个文档打分后保持当前状态不变的时间长度以及文档被重复打分的次数,将文档阶段性地分组,并且将达到标准的文档传送到其他单元进行处理;
随着任务的推进,被检测者标签质量控制单元会对所得的文档子集上的反映进行筛选,最后被检测者质量控制单元根据以上结果比对进而检测到被检测者的欺诈行为,发送电信号驱动标记机进行标记。
[0005]所述的基于心理学行为分析的众包欺诈检测方法,所述的数据分组单元中包含三个子数据集0、w和T,用于阶段性地存储分组数据,并且不断地把文档定时重新呈献给用户再次工作。
[0006]所述的基于心理学行为分析的众包欺诈检测方法,所述的被检测者标签质量控制单元会对所得的文档子集上的反映进行筛选,是依据被检测者记忆会随着时间的推移而减退,并且针对认真程度不同的工作,记忆的清晰程度也同样不同情况,根据被检测者的记忆在工作时间以及多次工作一致程度上的反映,此单元阶段性地对各被检测者所完成任务的标签质量进行评估,并将其与阈值相比较筛选出质量合格的标签。
[0007]所述的基于心理学行为分析的众包欺诈检测方法,被检测者标签质量控制单元会对所得的文档子集上的反映进行筛选,是根据所述的时钟控制单元、所述的数据分组单元、所述的被检测者标签质量控制单元的输出数据,综合根据被检测者在各时间段的表现以及完成任务的质量,检测被检测者的欺诈行为,识别并过滤那些不可信的被检测者。
[0008]有益效果:
1.本发明通过对被检测者重复性工作进行比较,得出质量评判结果,改变以往众包检测的单纯筛选机制,增大了众包检测的适应范围,促进了众包技术在多领域的应用和发展。
[0009]2.本发明能够通过采用一种基于心理学的行为分析方法,引入艾宾浩斯遗忘曲线对众包被检测者的行为规律进行判断,通过比较欺诈行为与可靠行为之间的差异,完成众包的欺诈检测,提高了众包质量筛选的准确度,大幅度的节省任务发起者的人力、物力以及时间。本发明技术是一种应用于众包中的质量控制方法,其创新地将心理学中的艾宾浩斯记忆规律与计算机技术结合,解决在众包工作中的工人存在欺诈行为的问题。
[0010]3.我们参加了国际文本检索会议的众包评测,以评测我们的技术。会议为各个检测参赛单位提供了属于10个主题的2758个网页文件作为测试数据。首先,我们建立了众包平台,令用户依据6个关联性等级对会议提供给我们的测试数据进行打分贴标签。然后,我们将系统检测过滤后的具有标签的数据结果提交给评委。最后,会议利用他们的黄金标准(会议给出的具有标签的数据)对各参赛队伍提交的结果进行评估。
[0011]在评估的过程中,TREC利用网页评测任务参赛者提交的34个信息检索系统对众包评测任务的数据进行检索得到排名列表。再根据我们提交的带有标签的数据以及黄金标准,分别计算各个检索系统的ERR020值以便对这34个系统进行排名。得出这两个系统排名列表后,会议利用APCorr (平均准确度相关性)来度量二者的相关性。它侧重降序排名的错误率,并且有很好的概率解释,其取值范围是从-1到+1,并且值越大也能说明众包结果的质量高。最终,本发明技术的APCorr值达到了 0.480,高于进入决赛的其他队伍的成绩。这说明我们的众包欺诈检测方法能有效地改善众包结果质量,并且性能优于一般的国际高水平众包结果质量控制方法。
[0012]【专利附图】

【附图说明】:
附图1是本发明的工作原理图。
[0013]附图2是本发明的检测流程图。
[0014]附图3是本发明的记机的接口驱动电路原理图。
[0015]【具体实施方式】:
实施例1:
基于心理学行为分析的众包欺诈检测方法,该方法包括如下步骤:被检测者对原始数据文档进行工作;
通过时钟控制单元I对整个系统的全局进行时间控制,从被检测者着手工作开始计时,当达到预定的时间点时,触发各个单元执行特定功能;根据时钟控制单元记录的工作的时间以及次数,将文档传递至数据分组单元进行动态地分组;
通过数据分组单元2根据被检测者对各个文档打分后保持当前状态不变的时间长度以及文档被重复打分的次数,将文档阶段性地分组,并且将达到标准的文档传送到其他单元进行处理;
随着任务的推进,被检测者标签质量控制单元3会对所得的文档子集上的反映进行筛选,最后被检测者质量控制单元4根据以上结果比对进而检测到被检测者的欺诈行为,发送电信号驱动标记机进行标记8。
[0016]实施例2:
根据实施例1所述的基于心理学行为分析的众包欺诈检测方法,所述的数据分组单元中包含三个子数据件号:5、W,件号:6和T,件号:7,用于阶段性地存储分组数据,并且不断地把文档定时重新呈献给用户再次工作。
[0017]实施例3:
根据实施例1或2所述的基于心理学行为分析的众包欺诈检测方法,所述的被检测者标签质量控制单元会对所得的文档子集上的反映进行筛选,是依据被检测者记忆会随着时间的推移而减退,并且针对认真程度不同的工作,记忆的清晰程度也同样不同情况,根据被检测者的记忆在工作时间以及多次工作一致程度上的反映,此单元阶段性地对各被检测者所完成任务的标签质量进行评估,并将其与阈值相比较筛选出质量合格的标签。
[0018]实施例4:
根据实施例1或2或3所述的基于心理学行为分析的众包欺诈检测方法,被检测者标签质量控制单元会对所得的文档子集上的反映进行筛选,是根据所述的时钟控制单元、所述的数据分组单元、所述的被检测者标签质量控制单元的输出数据,综合根据被检测者在各时间段的表现以及完成任务的质量,检测被检测者的欺诈行为,识别并过滤那些不可信的被检测者。
[0019]实施例5:
根据实施例1或2或3或4所述的基于心理学行为分析的众包欺诈检测方法,所述的被检测者标签质量控制单元依据被检测者记忆会随着时间的推移而减退,并且针对认真程度不同的工作,记忆的清晰程度也同样不同的原理,根据被检测者的记忆在工作时间以及多次工作一致程度上的反映,此单元阶段性地对各被检测者所完成任务的标签质量进行评估,并将其与阈值相比较筛选出质量合格的标签。
[0020]实施例6:
根据实施例1或2或3或4或5所述的基于心理学行为分析的众包欺诈检测方法,被检测者标签质量控制单元会对所得的文档子集上的反映进行筛选,是根据所述的时钟控制单元、所述的数据分组单元、所述的被检测者标签质量控制单元的输出数据,综合根据被检测者在各时间段的表现以及完成任务的质量,检测被检测者的欺诈行为,识别并过滤那些不可信的被检测者。
[0021]实施例7:
根据实施例1或2或3或4或5或6所述的基于心理学行为分析的众包欺诈检测方法,如附图2所述四个数据集A、O、W和T,它们存储着不同状态下的众包任务数据。其中,A集存储着全部没有被贴关联标签的原始数据;当某网页被判断过一次后,系统将其转放至O集;W集中的网页等待着众包被检测者的第二次判断;若文档被判断了两次会被系统放置在T集中。在众包任务进行中,系统随机选择网页并且优先将被判断次数少的网页推荐给被检测者。首先,将预被判断的网页放到O集中并且将此网页从A集中删除。然后,若O集中有网页已经在此集中停留时间达到20分钟,它会被转放到到W集中。此时W集不为空,系统会从其中选择一个网页提供给被检测者,即此网页已经被判断了一次,被检测者需要在特定的时间内再对其判断一次,以便于被检测者只能依靠他们的记忆而不是思考来判断。最后,被判断两次的网页被放到T集中并且将其从W集中移除。众包中,如果被检测者完成了至少100网页重复判断任务时(W集中的网页量达到100),系统会计算公认的SavingScore。当被检测者工作时间达到40分钟却不及80分钟并且他的SavingScore>=58时,系统认为此被检测者没有在这阶段产生欺诈行为;若被检测者工作时间超过80分钟时,只有其SaVingSCOre>=40系统才会认为被检测者没有欺诈。系统会收集满足要求的被检测者所提交的众包结果,发送到相应的标记机,然后清空O、W和T集,进行新一轮的欺诈检测。
【权利要求】
1.一种基于心理学行为分析的众包欺诈检测方法,其特征是:该方法包括如下步骤:被检测者对原始数据文档进行工作; 通过时钟控制单元对整个系统的全局进行时间控制,从被检测者着手工作开始计时,当达到预定的时间点时,触发各个单元执行特定功能;根据时钟控制单元记录的工作的时间以及次数,将文档传递至数据分组单元进行动态地分组; 通过数据分组单元根据被检测者对各个文档打分后保持当前状态不变的时间长度以及文档被重复打分的次数,将文档阶段性地分组,并且将达到标准的文档传送到其他单元进行处理; 随着任务的推进,被检测者标签质量控制单元会对所得的文档子集上的反映进行筛选,最后被检测者质量控制单元根据以上结果比对进而检测到被检测者的欺诈行为,发送电信号驱动标记机进行标记。
2.根据权利要求1所述的基于心理学行为分析的众包欺诈检测方法,其特征是:所述的数据分组单元中包含三个子数据集0、W和T,用于阶段性地存储分组数据,并且不断地把文档定时重新呈献给用户再次工作。
3.根据权利要求1或2所述的基于心理学行为分析的众包欺诈检测方法,其特征是::所述的被检测者标签质量控制单元会对所得的文档子集上的反映进行筛选,是依据被检测者记忆会随着时间的推移而减退,并且针对认真程度不同的工作,记忆的清晰程度也同样不同情况,根据被检测者的记忆在工作时间以及多次工作一致程度上的反映,此单元阶段性地对各被检测者所完成任务的标签质量进行评估,并将其与阈值相比较筛选出质量合格的标签。
4.根据权利要求1或2或3所述的基于心理学行为分析的众包欺诈检测方法,其特征是:所述的被检测者标签质量控制单元会对所得的文档子集上的反映进行筛选,是根据所述的时钟控制单元、所述的数据分组单元、所述的被检测者标签质量控制单元的输出数据,综合根据被检测者在各时间段的表现以及完成任务的质量,检测被检测者的欺诈行为,识别并过滤那些不可信的被检测者。
【文档编号】G06F11/36GK104133769SQ201410376503
【公开日】2014年11月5日 申请日期:2014年8月2日 优先权日:2014年8月2日
【发明者】李鹏, 张楷卉, 刘洋 申请人:哈尔滨理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1