众包标注整合方法_2

文档序号:9844261阅读:来源:国知局

[0046]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0047] 图1为本发明的众包标注整合方法流程图;
[0048] 图2为本发明中的众包分界面示意图。
【具体实施方式】
[0049]下面结合附图和实施例对本发明作进一步详细描述。以下实施例用于说明本发 明,但不能用来限制本发明的范围。
[0050] -种众包标注整合方法,如图1所示,所述方法包括以下步骤:
[0051] S1、设置混淆矩阵超参数、间隔距离超参数以及正则化超参数;
[0052] S2、初始化标注者投票权重,并利用多数投票法对所有预测项目的待估计标注设 置初始值;
[0053] S3、根据所述步骤S2得到的所有预测项目的初始值或上一轮迭代获得的估计值, 即更新值,统计每一位标注者将各个预测项目标注为各个预定类别的次数,其中所述预定 类别为当前标注任务中所有标注者标注过的所有的类别;
[0054] S4、根据所述混淆矩阵超参数以及所述每一位标注者将各个预测项目标注为各个 预定类别的次数,利用狄利克雷分布采样的方法更新对应的混淆矩阵,其中每一位标注者 对应一个混淆矩阵,混淆矩阵的第Κ列的各项分别表示当前标注者将属于第Κ类的预测项目 标注为各个预定类别的次数的统计值;所述第Κ类与对应的预测项目的所述估计值相对应; 这Κ类是由问题本身产生的,不是因为这个方法才用到的。例如所指的标注问题时要判断图 片中花朵是桃花还是杏花时,就只有桃花、杏花两类。Κ = 2;
[0055] S5、根据所述正则化超参数、所述间隔距离超参数、所述标注者投票权重以及标注 者将当前预测项目标注为对应的所述估计值的次数与标注者将当前预测项目标注为次类 别的次数的差值定义一个广义反高斯分布,并通过采样得到辅助参量;其中所述次类别为 当前预测项目除其对应的所述估计值外最可能属于的类别;
[0056] S6、根据所述辅助参量、所述间隔距离超参数、所述正则化超参数以及所述差值更 新所述标注者投票权重;
[0057] S7、对于每一个所述预测项目,根据对应的所述混淆矩阵以及所述辅助参量计算 其对应的各个标注类别出现的概率,并从所述概率的多项分布中通过采样得到所述预测项 目的更新值。
[0058]上述方法利用正则化超参数、间隔距离超参数、标注者投票权重以及标注者将当 前预测项目标注为对应的估计值的次数与标注者将当前预测项目标注为次类别的次数的 差值定义一个广义反高斯分布,并采样得到了辅助参量,可以显著增强了模型的判别能力。 其次根据所述辅助参量、所述间隔距离超参数、所述正则化超参数以及所述差值更新了标 注者投票权重,然后整合了传统的标注整合多数投票模型和混淆矩阵模型,进而实现了更 全面描述数据生成过程的目的。另外通过使用采样得到了精确的预测项目更新值,同时运 行的效率也得到了提高。
[0059] 进一步地,所述方法在步骤S7之后还包括以下步骤:
[0060] S8、所述步骤S3-S7执行一次形成一轮迭代,若前后两轮迭代得到的各个所述预测 项目对应的更新值分别相同,则整合结束,最后一轮迭代得到的各个所述预测项目对应的 更新值为最终值。同时,所述迭代次数大于1时,所述步骤S3和S5中的所述初始值用所述步 骤S7中得到的所述更新值替换来执行相应的操作。
[0061 ] 步骤S8可以进一步地算法得提高准确率。
[0062] 所述步骤S3之前还包括如下步骤:
[0063] 进一步地,各个标注者对各个所述预测项目分别进行标注。所述各个标注者对各 个所述预测项目分别进行标注之后,并且在所述步骤S3之前所述方法还包括如下步骤:对 于每一个所预测项目,利用所有标注者对其的标注形成N个Μ维的二值向量,其中Μ表示所有 标注者的数量,Ν表示所述预定类别的个数。即将所有标注者对同一项目的标注表示为一个 多维(对应标注者的数量)空间中的点,从而为引入最大间隔准则做准备。
[0064] 优选地,所述初始化标注者投票权重为将标注者投票权重初始化为一个全部为1 的Μ维向量,其中Μ表示所有标注者的数量。
[0065] 进一步地,步骤S4中首先统计每位标注者把属于特定类别(即步骤S2中通过多数 投票法得到的预测项目的类别)的项目标为另一类别的次数,之后所述利用狄利克雷分布 采样的方法更新对应的混淆矩阵为利用如下公式进行更新:
[0066]
[0067]式中,α为所述混淆矩阵超参数,nmk为当前标注者m将属于第Κ类的预测项目标注为 各个预定类别的次数的统计值,紙威为当前标注者m对应的混淆矩阵的第K列,所述K列 的各项分别表示当前标注者m将属于第K类的预测项目标注为各个预定类别的概率。
[0068]进一步地,步骤5中所述次类别利用如下公式确定:
[0069]
[0070] 式中,Sl为所述次类别,yi为当前预测项目标注的初始值或估计值,η为初始化的所 述标注者投票权重,gf(d)为一个Μ维向量,其每一维表示一个标注者将当前预测项目标注 为对应的所述初始值或估计值的次数与标注者将当前预测项目标注为类别d的次数的差 值,i为当前预测项目的编号。
[0071] 进一步地,步骤S5中所述广义反高斯分布具体为:
[0072]
[0073]式中,Μ为所述辅助参量,C为所述正则化超参数,1为所述间隔距离超参数中的第 一参数,gf〇,·)为一个Μ维向量,其每一维表示一个所述标注者将当前预测项目标注为对应 的所述初始值或估计值的次数与标注者将当前预测项目标注为次类别的次数的差值。辅助 参量使标注者的权重与其分布共辄。
[0074] 步骤S5将原最大间隔准则中用到的max(X)函数表示为关于一个附加变量在无穷 范围内的积分形式,从而将辅助参量考虑到概率空间内。这样算法中涉及到的标注者投票 权重变量与辅助参量的共同似然概率就会与之高斯先验(即是指S6中所说的多位高斯分 布)共辄,从而可以通过吉布斯采样的方法来获取标注者投票权重样本。
[0075] 所述步骤S6中标注者投票权重服从多维高斯分布,所述多维高斯分布的协方差矩 阵为:
[0076]
[0077] 式中,v为所述间隔距离超参数中的第二参数;
[0078] 所述协方差矩阵的均值为:
[0079]
[0080] 则更新所述标注者投票权重的采样公式为:
[0081] η ~Ν(μ,Σ)
[0082] 上述公式为吉布斯采样公式,可以提高运算效率。
[0083] 图2为本发明中的众包分界面示意图,Ρ1和Ρ2表示真实标注于其他标注之间的两 个分界面。Xu表示第1个标注者给出的标注,1表示给出了对应标注,0表示没有。同理乂 12表 示第2个标注者给出的标注,Margin表示边缘。
[0084] 上述方法通过为每个标注者引入一个权重变量,并引入最大间隔判别规则,使得 每个项目被分到正确类别的加权次数大于被分到其它错误类别的加权次数,并且标注者的 权重变量使正确类别的加权次数与其他类别的加权次数之间间隔最大。
[0085] 标注取每个值得概率,均为此预测项目标注关于混淆矩阵和辅助参量的共同条件 似然概率,即q(yi = d) p(yi = d I λ?,φ i),进一步地,所述计算其对应的各个标注类别出现 的概率具体为利用如下公式进行计算:
[0086]
[0087] 式中,q(yi = d)表示第i个项目的真实标注是d的概率^
良示 当前项目对应的预测项目标注于次类别对应的间隔值,φ表示混淆矩阵,II(Xlj = k)为一个 逻辑判断式,其值为1当且仅当等于k。
[0088] 利用上面的公式利用了正则化贝叶斯学习框架,实现了计算真实标注的不同取值 在混淆矩阵和辅助参量情况下的条件概率。
[0089]上述在步骤S3-S7中,均涉及到了最大间隔多数投票法的判别规则。即使得每个项 目被分到正确类别的加权次数大于被分到其它错误类别的加权次数,并且标注者的权重变 量应当使正确类别的加权次数与其他类别的加权次数之间间隔最大。上述步骤中将所有标 注者对同一项目的标注表示为一个多维空间中的点,那么最大间隔准则所定义的正是要最 大化属于正确类别和错误类别的点之间的分界面间隔。
[0090] 上述方法首先在多数投票模型中引入了最大间隔准则,显著增强了模型的判别能 力。其次通过数据增广的方法使得原本非共辄的投票权重变量与其高斯先验概率共辄。然 后通过正则化贝叶斯学习框架整合了传统的标注整合多数投票模型和混淆矩阵模型,进而 达到更全面描述数据生成过程的目的。另外通过使用优化的吉布斯采样法,本发明中的算 法运行效率也得到了提高。
[0091] 下面通过一个具体的实施例对本发明的方法进行详细的介绍。
[0092] 此实施例的方法包括以下步骤:
[0093] 1、将数据(即所有标注者对哥哥预测项目的标注)整理成如下格式:数据集D = (^^},1 = 1,2,~小,#!'1
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1