本发明属于生物信息学、众智科学领域,尤其涉及一种基于生物医学众包平台的数据收集标注方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、在大数据和人工智能与生物信息学结合的背景下,众多项目、模型的训练与测试需要海量高质量的生物医学数据,传统的专家标注模式耗时长、费用高,难以应付当今日益增长的生物医学数据需求;如何更快、更准确地收集并标注数据,为数据多样化的生物信息学研究提供优质、廉价的数据集,是当前该领域的主要难点。
3、目前众包中主要有以下几种任务形式:1)选择题式的将待标注样本映射至有限集的离散型分类问题,如手写数字识别、新闻内容分类等;2)数值填充式的将待标注样本映射至空间的连续型标注问题,如命名实体标注、骨骼框架标注等;3)填空式的将标注样本映射至无穷维空间的收集型标注问题,如蛋白质转录组特征标注、自然语言语义标注等。传统的众包领域标注较多局限于对第一种有限离散可选标注集的数据标定,对于其他任务的研究较少;目前市面上一些应用,如百度众测、医学文本标注工具等,在新兴领域的质量控制仍依赖于工人自觉而非科学有效的真值推理。最近,一些研究人员提出基于层次认知理论面向新兴任务的推理方式,通过挖掘工人之间的认知差异一定程度上提高了众包质量。但由于生物医学数据的模态多样性,以传统的众包工作方式难以直接应对任务多样、属性繁杂的现实问题。
技术实现思路
1、为克服上述现有技术的不足,本发明提供了一种基于生物医学众包平台的数据收集标注方法及系统,针对模态多样的生物医学数据,设计统一的众包任务处理管线,配备众包任务处理接口,并为不同类型任务提供不同的任务处理框架,能够更加全面化、系统化、高效化处理生物医学数据采集工程提出的挑战与需求。
2、为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
3、本发明第一方面提供了一种基于生物医学众包平台的数据收集标注方法。
4、一种基于生物医学众包平台的数据收集标注方法,在生物医学众包平台上执行以下步骤:
5、接受任务发布者的项目创建需求,创建数据收集标注的众包项目,并设定项目的众包任务类型和众包质量控制算法;
6、根据任务发布者设置的众包任务类型分拣项目,展示给可参与项目的工人;
7、接受工人加入项目的请求,根据任务发布者设置的众包质量控制算法进行任务分配、工人作答、真值推理和激励分配的众包质量控制,保存众包项目质量控制的结果,包括工人所提交的任务结果和真值推理结果;
8、当项目达到既定的结束条件,将任务结果和真值推理结果返还给任务发布者,完成该项目的众包;
9、其中,所述生物医学众包平台采用三层架构:
10、众包任务处理管线,其被配置为:接受并处理工人参与项目的请求,聚合并返回众包项目质量控制的结果;
11、众包任务处理接口,其被配置为:整合并规范众包质量控制算法,向众包任务处理管线分配项目设定的众包质量控制算法的方法函数;
12、不同任务的处理框架,其被配置为:具备多种不同众包任务类型的处理框架,支持所述众包任务处理管线及众包任务处理接口的运行。
13、进一步的,所述任务分配,具体为:
14、通过允入检验判断是否允许工人参与项目,允入检验包含但不限于是否满足工人质量条件、是否允许参与项目多个阶段;
15、检查尚未完成任务队列是否为空,构建尚未完成任务列表和任务分配列表,通过两个列表取交集的方式,构建任务队列;
16、发布任务队列的第一个任务给工人;
17、其中,任务分配列表,是根据众包质量控制算法中的任务分配算法,选取最不确定的任务组成列表,最不确定的任务使用包含但不限于信息熵、kl散度指标进行衡量。
18、进一步的,所述工人作答,具体为:
19、工人在收集标注页面,完成指定的任务作答;
20、服务器获取工人提交的收集或标注信息并数据持久化。
21、进一步的,所述真值推理,具体为:
22、利用众包质量控制算法中的真知推理算法,对项目当前的信息进行挖掘和推理,分析出包括标签边缘概率、工人混淆矩阵、工人质量、任务真值的真值推理结果。
23、进一步的,所述激励分配,具体为:
24、根据众包质量控制算法中的激励分配算法,对每个工人计算对项目做出的贡献,并根据结果发放奖励。
25、进一步的,所述结束条件,具体为:
26、根据众包各任务完成度信息,判断项目是否满足以下条件:达到收集要求、任务分配为空、达到修订要求。
27、进一步的,所述众包任务处理管线,包括:
28、任务分配接口模块,其被配置为:基于众包质量控制算法中的任务分配算法接口方法,针对不同的众包任务,读取当前项目数据信息,为任务分配算法提供项目推理信息;
29、工人作答接口模块,其被配置为:基于任务分配模块分配的任务,收集并处理工人针对该任务修订的数据信息;将工人回答数据持久化存储,便于后续众包质量控制;
30、真值推理接口模块,其被配置为:基于众包质量控制算法中的真值推理算法接口方法,针对不同的众包任务,读取当前项目数据信息,为真值推理算法提供项目推理信息;
31、激励分配接口模块,其被配置为:在项目结束时,基于众包质量控制算法中的激励分配算法接口方法,汇总工人回答的真值推理结果,根据激励分配算法基于工人的质量和回答情况提供激励回馈。
32、进一步的,所说众包任务处理接口,包括:
33、众包质量控制算法模块:基于统一范式实现传统众包质量算法,囊括多种真值推理算法、任务分配策略、激励分配策略具体算法,提供众包任务处理接口的算法支持;
34、众包质量控制算法路由模块:针对不同的众包任务类型以及任务发布者设置的众包质量控制算法,为众包质量控制算法模块提供指定的算法方法函数;为不同的众包任务类型,提供相应的众包任务处理页面及数据收集与持久化方法。
35、进一步的,所述不同任务的处理框架,包括:
36、收集型处理框架:基于众包任务处理接口,向工人收集数据文件、文件所包含的可选标签类别、文件的评论;
37、标注型处理框架:基于众包任务处理接口,收集工人选定的标签、标注实体、评论,聚合收集的数据并返回真值推理结果。
38、文本修订型处理框架:基于众包任务处理接口,采用一种改进的ff-v文本修订框架进行包含find-fix与verify两个阶段的众包质量控制,聚合并返回推理得到的文本修订信息。
39、本发明第二方面提供了一种基于生物医学众包平台的数据收集标注系统。
40、一种基于生物医学众包平台的数据收集标注系统,基于生物医学众包平台构建,包括项目创建模块、项目分拣模块、众包控制模块和结果返回模块:
41、项目创建模块,被配置为:接受任务发布者的项目创建需求,创建数据收集标注的众包项目,并设定项目的众包任务类型和众包质量控制算法;
42、项目分拣模块,被配置为:根据任务发布者设置的众包任务类型分拣项目,展示给可参与项目的工人;
43、众包控制模块,被配置为:接受工人加入项目的请求,根据任务发布者设置的众包质量控制算法进行任务分配、工人作答、真值推理和激励分配的众包质量控制,保存众包项目质量控制的结果,包括工人所提交的任务结果和真值推理结果;
44、结果返回模块,被配置为:当项目达到既定的结束条件,将任务结果和真值推理结果返还给任务发布者,完成该项目的众包;
45、其中,所述生物医学众包平台采用三层架构:
46、众包任务处理管线,其被配置为:接受并处理工人参与项目的请求,聚合并返回众包项目质量控制的结果;
47、众包任务处理接口,其被配置为:整合并规范众包质量控制算法,向众包任务处理管线分配项目设定的众包质量控制算法的方法函数;
48、不同任务的处理框架,其被配置为:具备多种不同众包任务的处理框架,支持所述众包任务处理管线及众包任务处理接口的正确运行。
49、以上一个或多个技术方案存在以下有益效果:
50、本发明为生物医学数据众包提供了统一的众包任务处理管线,为不同众包任务基于统一的众包任务处理管线设计了众包任务处理接口,并为不同类型任务提供了不同的任务处理框架,能够更加全面化、系统化、高效化处理生物医学数据采集工程提出的挑战与需求;
51、本发明创新性地将所有类型的质量控制方案化归至传统已经长时间迭代的众包质量控制体系中去,调用已有先进的推理方式解决新型问题,保证了生物医学数据众包平台的可靠性;本发明针对连续型问题以及文本修订任务,提出了不同于市面上传统基于工人自觉的解决方案,使得众包平台在更多新型任务上能够保证推理质量;
52、此外,针对众包的任务类型分类,本发明提出并实践了该分类准则,能够覆盖几乎所有的众包问题领域。
53、本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。