一种众包模式下的标签数据统计推断方法与流程

文档序号:16754426发布日期:2019-01-29 17:12阅读:745来源:国知局

本发明涉及数据挖掘与机器学习技术领域,更具体地,涉及一种众包模式下的标签数据统计推断方法。



背景技术:

随着internet技术的快速发展,众包服务作为一种灵活、有效的解决方式,开始受到人们越来越多的关注。随着internet技术的不断发展,众包服务(crowdsourcing)应运而生,众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式包给非特定的(而且通常是大型的)大众网络的做法。众包的任务通常是由个人来承担,但如果涉及到需要多人协作完成的任务,也有可能以依靠开源的个体生产的形式出现。

最近几年,众包领域的各方面研究都取得了很大的进展,提出了许多采用众包手段的新型应用,出现了不少具体的处理方法,得到了不错的工作效果。由于众包应用产生在复杂的在线网络交易平台的背景中,开始出现了众包应用的质量控制问题,因此研究如何有效地提高任务完成的质量,并将恶意工作者识别出来,成为了目前众包研究工作中一个急需解决的问题,而且众包平台中工作者的匿名性质,导致它和传统外包任务的处理方式有很大的不同,准确并高效解决众包质量问题具有重要意义。

现有众包模式中,在获得数据标定任务的标记数据后,主要通过投票法的方式来推断最终结果,这种方案能够在大多数人掌握正确结果的条件下得到客观描述,但是没有考虑到少数人可能掌握正确结果的情况,而且这种情况是会时常出现的。



技术实现要素:

本发明的目的在于克服现有技术存在的上述缺陷,提供一种众包模式下的标签数据统计推断方法,通过使用拉格朗日对偶变换,将标注员水平以及标定任务的复杂程度纳入约束条件。

为实现上述目的,本发明的技术方案如下:

一种众包模式下的标签数据统计推断方法,其特征在于,包括以下步骤:

step1:建立众包数据的统一形式,记标注员数量为m个,客观对象的数量为n个,类别的数量为c个,并记样本中标注员i将客观对象j划分至类别k的频率为zijk,zijk所遵循的分布记为πij,分布πij的概率记为πijk,πijk的含义为实际数据中标注员i将客观对象j划分至第k类的概率,i=1~m,j=1~n,k=1~c;

step2:构建标注员对客观对象产生类别标签的模型,以yjl表示对象j在类别l中的概率,l=1~c,以下步骤的目的就是求解yjl:

step2.1:极大熵模型,首先极大化目标函数以确定用户打标签的概率分布:

step2.2:对极大化熵再进行极小化,推断yjl的优化模型为:

step3:运用拉格朗日变换方法,引入拉格朗日乘子λij,τjk,σikl,构造拉格朗日函数为

其中τjk度量一个标定任务的复杂程度,σikl度量一个标定员的标注水准;

step4:将step2中的优化转化为其对偶问题,转换后的拉格朗日函数为:

step5:迭代求解求解yjl,令:

则step4中l的第一项改写为,

由此可确定yjl的迭代表达式:

其中t=1~n是迭代次数,总迭代步数为n。

优选地,当任务的标注数据较少时,将步骤step2.2的优化模型替换为

其中为松弛变量,αj,βi为正则化参数。

从上述技术方案可以看出,本发明通过满足一系列约束条件的最优化目标函数,以数学推理的方式实现对客观结果的推断,不依赖于个人水平,也不受任务复杂度的影响。因此,本发明具有遵循客观性原理,不依赖标注员个人水平的显著特点。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

一种众包模式下的标签数据统计推断方法,包括以下步骤:

step1:建立众包数据的统一形式,记标注员数量为m个,客观对象的数量为n个,类别的数量为c个,并记样本中标注员i将客观对象j划分至类别k的频率为zijk,zijk所遵循的分布记为πij,分布πij的概率记为πijk,πijk的含义为实际数据中标注员i将客观对象j划分至第k类的概率,i=1~m,j=1~n,k=1~c。

针对标注员标注行为的建模是方案实现的基础。标注员的标注行为即为对标注对象的打标签过程,这里建立的是概率模型。整个操作过程为标注员根据已有经验和知识对客观对象的属性值进行标记。假设标注员为i,客观对象为j,i对j的标记行为即是对j的分类操作。在j的分类很明确的情况下,i将j标识为k类的概率为0或者1。但是实际过程中人的思维具有一定的随机性和模糊性,分类过程会有以概率值p将j分类为k,以概率值(1-p)不将j分类为k。对于对象j,它的类别所属情况是客观存在的,是不受人的思维所干扰的,用yjk表示对象j在类别k中的概率,这个值就是需要我们通过已知数据推断出的结果。step2:,以yjk表示对象j在类别k中的概率,以πijk表示实际数据中数据中标注员i将客观对象j划分至第k类的频率。

step2:构建标注员对客观对象产生类别标签的模型,以yjl表示对象j在类别l中的概率,l=1~c,以下步骤的目的就是求解yjl。

最终数据的形成过程实则为一个优化过程,它分为设计目标函数和选取约束条件两大部分。

step2.1:极大熵模型,首先极大化目标函数以确定用户打标签的概率分布:

目标函数和约束条件的构建是方案的核心。我们的目的在于从观测到的zijk的值中运用统计推断方法估计yjl的值。我们已经建立了标注行为的概率模型,要实现对象真实标签推断的目的,首先需要明确πijk的形式,这里运用极大熵的方式。

此模型不同于投票法中的仅从行的方向上进行约束,它同时也从列的方向上进行了约束,极大化熵即试图寻求一个分布尽可能广的πijk,这一点是与群体智能的背景环境相吻合的。

step2.2:对极大化熵再进行极小化,推断yjl的优化模型为:

极小化是因为我们不希望得到的对象j的分类情况是模糊的,这与我们希望得到真实可靠的yjl的值的目标是一致的。

当任务的标注数据较少时,这一优化模型还可以替换为

其中为松弛变量,αj,βi为正则化参数。

step3:运用拉格朗日变换方法,引入拉格朗日乘子λij,τjk,σikl,构造拉格朗日函数为

其中τjk度量一个标定任务的复杂程度,σikl度量一个标定员的标注水准。

step4:将step2中的优化转化为其对偶问题,转换后的拉格朗日函数为:

step5:迭代求解求解yjl,令:

则step4中l的第一项改写为,

由此可确定yjl的迭代表达式:

其中t=1~n是迭代次数,总迭代步数为n。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1