一种弱监督环境下的交互式数据标记方法与流程

文档序号:24128463发布日期:2021-03-02 16:20阅读:61来源:国知局
一种弱监督环境下的交互式数据标记方法与流程

[0001]
本发明涉及数据交互技术领域,尤其涉及一种弱监督环境下的交互式数据标记方法。


背景技术:

[0002]
交互学习作为人机交互的典型应用,为解决标记问题提供了一种新的思路。即利用人机交互的手段,将待标记数据可视化展示给用户,通过视觉交互的方式大大提升标记的效率和准确率。交互式标记是视觉交互学习的一个典型应用,其通过交互学习解决图像和视频领域的分类、检索等缺乏标记的问题。交互式标记极大的降低了人工标记工作的时间成本,提升了数据集标记的工作效率,为大规模自动化数据集标记提供了可能。
[0003]
标记是计算机视觉中一个一直以来都难以解决的问题。一方面,对于计算机来说,海量的信息和素材(比如图片、文本、视频、音乐等等形式)有待标记才能成为有价值的样本信息,可以说没有标记的数据对计算机来说难以产生有效价值;另一方面,对于用户来说,从事数据标记是一项巨大、复杂且辛苦的工作。对于海量的样本数据来说,完整的标记需要巨大的人工代价。何况标记领域还有一个重要的难题,即有些数据需要具备相关领域的知识才能被正确标记,这需要相关领域的专家,这进一步加大了标记数据的难度。如何高效准确的进行标记是一项亟待解决的问题。


技术实现要素:

[0004]
本发明主要解决现有技术的标记数据的难度较大,且数据标记工作量巨大、复杂的技术问题,提出一种弱监督环境下的交互式数据标记方法,以更好的实现数据标记和分类,并提升模型性能。
[0005]
本发明提供了一种弱监督环境下的交互式数据标记方法,包括以下过程:
[0006]
步骤100:将事先整理好的样本数据导入数据模块,其中,样本数据由待标记样本与含标记样本组成;
[0007]
步骤200:将数据模块中的样本数据导入降维模块,并进行降维;
[0008]
步骤300:人机接口接收到降维数据,由交互式展示界面进行展示;
[0009]
步骤400:人机接口进行交互行为,最终产生标记与交互指令结果;
[0010]
步骤500:人机接口对用户的指令进行判断,如果指令的内容为标记成功,则生成确认指令,并将确认指令与本次标记过程中的数据传至计算模块;如果指令的内容为再次降维,则将样本数据与用户的指令传入数据模块;
[0011]
步骤600:计算模块接收到人机接口传递过来的用户指令与标记结果,计算出数据的筛选结果,并更新降维模块的样本数据,进行重新降维;
[0012]
步骤700:重复步骤200至步骤600,当计算模块接受到的用户指令中带有确认指令时,将数据保存更新至存储模块;当计算模块接收到用户的交互指令中带有终止指令,循环终止;
[0013]
步骤800:计算模块接收到终止指令后,将最后一次标记完成的数据更新至存储模块,标记过程结束。
[0014]
进一步的,所述步骤200:将数据模块中的样本数据导入降维模块,并进行降维,包括以下过程:
[0015]
给定x={x
(1)
,x
(2)
,

,x
(m)
}m个样本,主成分分析降维方法的优化方程由公式(1)表示:
[0016][0017]
公式(1)中,x={x
(1)
,x
(2)


,x
(m)
}表示m个样本,x
project
表示样本降维的投影矩阵,var(x
project
)表示样本某个投影方向上的元素方差,w表示投影矩阵;
[0018]
利用主成分分析降维方法的优化方程,确定元素方差var(x
project
)最大的投影矩阵w。
[0019]
进一步的,步骤300:人机接口接收到降维数据,由交互式展示界面进行展示,包括以下步骤301至303:
[0020]
步骤301:样本中的带标记样本与无标记样本以相同的形状、大小进行展示;
[0021]
步骤302:无标记样本不着色,而有标记样本依据其样本类别被着色,同类样本着相同的颜色,不同类样本着不同的颜色;
[0022]
步骤303:调整待标记样本的大小,其中调整的范围为其原始大小的1倍至4倍。
[0023]
进一步的,步骤400:人机接口进行交互行为,最终产生标记与交互指令结果,包括步骤401至402:
[0024]
步骤401:相同条件下距离较近的样本容易被认为是同一个类别;一组排列出闭合形状的样本更容易被视为是同一个类别;一组排列在一阶至高阶曲率连续的样本容易被认为是同一个类别;
[0025]
步骤402:从最远离数据样本中心的点开始进行标记;并通过以下公式(2)判断已标记样本与未标记样本是否存在数据交叠的情况,如果存在则产生再次可视化的交互指令,否则不产生;
[0026]
dist(w
k
,w
k+r
)>ζ
d
ordist(w
r
,w
k+r
)>ζ
d
ꢀꢀ
(2)
[0027]
其中,dist(w
m
,w
n
)表示已标记样本与未标记样本的子空间距离,w
k
表示k个未标记样本的降维子空间,w
r
表示r个已标记样本的降维子空间,ζ
d
是一个阈值参数,0<ζ
d
<1,ζ
d
=0.8作为默认值;已标记样本与未标记样本的子空间距离dist(w
m
,w
n
)通过如下如公式(3)进行计算:
[0028][0029]
进一步的,步骤600:计算模块接收到人机接口传递过来的用户指令与标记结果,计算出数据的筛选结果,并更新降维模块的样本数据,进行重新降维,包括步骤601至603:
[0030]
步骤601:计算模块接收到用户指令与标记结果,计算出数据的筛选结果,对样本进行二次的降维运算,如果样本数量大于样本维度,则执行步骤602进行计算;如果样本数
量小于样本维度,执行步骤603进行计算;
[0031]
步骤602:通过如下公式(4)分别计算已标记样本与未标记样本的离散度矩阵:
[0032][0033]
随后根据已标记样本的离散度矩阵c
r
和未标记样本的离散度矩阵c
k
,计算r个已标记样本的降维子空间w
r
和k个未标记样本的降维子空间w
k

[0034]
假设s
k+r
=s
k
∪s
r
并且s
k
包含了k个未标记样本(s
k
={x1,

,x
k
}),而s
r
包含了r个已标记样本(s
r
={x
k+1


,x
k+r
});另外,c
k
,c
k+r
分别被定义为s
k
,s
k+r
的离散度矩阵;这样已标记样本的离散度矩阵c
k
就可以通过公式(4)计算;
[0035]
步骤603:假设最大的d个特征值η1≥η2≥

≥η
d
对应的特征向量被定义为u1,u2,

,u
d
,那么最大的d个特征值对应的特征向量采用如下公式(5)进行计算:
[0036][0037]
进一步的,步骤700:重复步骤200至步骤600,当计算模块接受到的用户指令中带有确认指令时,将数据保存更新至存储模块;当计算模块接收到用户的交互指令中带有终止指令,循环终止,包括步骤701至702:
[0038]
步骤701:储存模块中的样本数据以一种样本数据对应一个样本标记的形式存储;
[0039]
步骤702:储存模块中的样本数据最后一次接收到数据后及更新后,数据被持久化在磁盘当中,作为本次交互标记的结果。
[0040]
本发明提供的一种弱监督环境下的交互式数据标记方法,基于人类对于弯曲和闭合数据流行的强感知能力,可以在降维过程中选择出合适的子空间;通过多次人机交互寻找到合适的降维子空间,可以更好的实现标记和分类作用;通过寻找分类边界,可以避免非线性降维方法产生的巨大计算开销,有效的保证了模型的性能。适用于人工辅助标记、半自动化标记、无标记模型训练等领域。
附图说明
[0041]
图1是本发明提供的弱监督环境下的交互式数据标记方法的应用环境框图;
[0042]
图2是本发明提供的弱监督环境下的交互式数据标记方法的实现流程图;
[0043]
图3为人机接口选择策略过程;
[0044]
图4为人机接口中图案的设计原则;
[0045]
图5为人类感知影响标注的示意图;
[0046]
图6为单次交互过程的示意图;
[0047]
图7为多重交互降维过程的示意图;
[0048]
图8为人机接口选择策略的示意图。
具体实施方式
[0049]
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图
中仅示出了与本发明相关的部分而非全部内容。
[0050]
图1是本发明提供的弱监督环境下的交互式数据标记方法的应用环境框图;如图1所示,本发明的应用环境,包括数据模块q1、降维模块q2、人机接口q3、交互模块q4、计算模块q5和存储模块q6。
[0051]
其中数据模块q1包括了提取数据特征及其预处理过程,此处样本包括散点、图片、音乐、视频等等并且数据由大量待标记样本与少量含标记样本组成;提取数据特征指从样本中计算出一个抽象程度更高的集合,例如图片的sift特征、hog特征及深度卷积特征;预处理部分针对不同的样本类型进行合适的尺度变换,例如进行归一化,使其样本呈标准正太分布。
[0052]
降维模块q2从数据模块q1中读取数据,在尽可能保持样本判别性信息的前提下减少数据维度例如主成分分析pca及t-sne等。为实现人机交互,需要将高维的数据降低至人类可以感知的维度,一般为二维或三维。
[0053]
人机接口q3和交互模块从降维模块q2中导入可视化数据与用户进行交互,此交互过程包括用户读取数据、交互返回结果。
[0054]
计算模块q5从交互模块q4中读取用户交互后的决策进行判断此次降维是否满足人类感知的分离需求,即是否成功完成标记动作;若成功标记则开始新一轮交互动作,未成功标记则重新选择子空间降维,如此往复直至得到可标记结果。
[0055]
如图2所示,本发明实施例提供的弱监督环境下的交互式数据标记方法,包括以下过程:
[0056]
步骤100:将事先整理好的样本数据导入数据模块(q1),其中,样本数据由大量待标记样本与少量含标记样本组成。
[0057]
步骤200:将数据模块中的样本数据导入降维模块(q2),并进行降维。
[0058]
本步骤中的降维方法可以采用主成分分析或者t-sne(t-distributed stochastic neighbor embedding,t-分布领域嵌入算法)。具体的,所述步骤200采用如下方法对样本数据进行降维:
[0059]
给定x={x
(1)
,x
(2)


,x
(m)
}m个样本,主成分分析降维方法的优化方程由公式(1)表示:
[0060][0061]
公式(1)中,x={x
(1)
,x
(2)


,x
(m)
}表示m个样本,x
project
表示样本降维的投影矩阵,var(x
project
)表示样本某个投影方向上的元素方差,w表示投影矩阵。
[0062]
利用主成分分析降维方法的优化方程,确定元素方差var(x
project
)最大的投影矩阵w。
[0063]
步骤300:人机接口(q3)接收到降维数据,由交互式展示界面进行展示。
[0064]
所述步骤300可视化后的样本通过人机接口(q3)进行展示,参照图3人机接口标记策略,包含如下子步骤:
[0065]
步骤301:样本中的带标记样本与无标记样本以相同的形状、大小进行展示。
[0066]
步骤302:无标记样本不着色,而有标记样本依据其样本类别被着色,同类样本着相同的颜色,不同类样本着不同的颜色。
[0067]
步骤303:调整待标记样本的大小,其中调整的范围为其原始大小的1倍至4倍。
[0068]
步骤400:人机接口(q3)进行交互行为,最终产生标记与交互指令结果。
[0069]
此步骤基于格式塔原理,进行人机交互的图案设计;该交互行为基于受人类感知与交互标记策略进行,所述步骤400交互行为受人类感知影响,影响的方式有如下步骤:
[0070]
参照图5人机交互界面的图案实例,步骤401:相同条件下距离较近的样本容易被用户认为是同一个类别;一组排列出闭合形状的样本更容易被用户视为是同一个类别;一组排列在一阶至高阶曲率连续的样本容易被认为是同一个类别。
[0071]
所述步骤400交互行为受交互标记策略的影响,该标记策略有如下步骤:
[0072]
步骤402:从最远离数据样本中心的点开始进行标记;并通过以下公式(2)判断已标记样本与未标记样本是否存在数据交叠的情况,如果存在则产生再次可视化的交互指令,否则不产生;
[0073]
dist(w
k
,w
k+r
)>ζ
d
ordist(w
r
,w
k+r
)>ζ
d
ꢀꢀ
(2)
[0074]
其中,dist(w
m
,w
n
)表示已标记样本与未标记样本的子空间距离,w
k
表示k个未标记样本的降维子空间,w
r
表示r个已标记样本的降维子空间,ζ
d
是一个阈值参数,0<ζ
d
<1,ζ
d
=0.8作为默认值;已标记样本与未标记样本的子空间距离dist(w
m
,w
n
)通过如下如公式(3)进行计算:
[0075][0076]
步骤500:人机接口(q3)对用户的指令进行判断,如果指令的内容为标记成功,则生成确认指令,并将确认指令与本次标记过程中的数据传至计算模块(q5);如果指令的内容为再次降维,则将样本数据与用户的指令传入数据模块(q1)。
[0077]
步骤600:计算模块(q4)接收到人机接口(q3)传递过来的用户指令与标记结果后,计算出数据的筛选结果,并更新降维模块(q2)的样本数据,进行重新降维。具体包括步骤601至603:
[0078]
步骤601:计算模块(q4)接收到用户指令与标记结果后,计算出数据的筛选结果,对样本进行二次的降维运算,如果样本数量大于样本维度,则执行步骤602进行计算;如果样本数量小于样本维度,执行步骤603进行计算。
[0079]
其中,用户指令是用户在交互界面确认框选的指令。计算数据的筛选结果的过程:通过公式(1)和公式(2),判断子空间选择是否存在交叠,存在则重新降维,不存在则开始下一个交互周期。
[0080]
步骤602:通过如下公式(4)分别计算已标记样本与未标记样本的离散度矩阵:
[0081][0082]
随后根据已标记样本的离散度矩阵c
r
和未标记样本的离散度矩阵c
k
,计算r个已标记样本的降维子空间w
r
和k个未标记样本的降维子空间w
k

[0083]
公式(4)有如下定义。假设s
k+r
=s
k
∪s
r
并且s
k
包含了k个未标记样本(s
k
={x1,

,x
k
}),而s
r
包含了r个已标记样本(s
r
={x
k+1


,x
k+r
})。另外,c
k
,c
k+r
分别被定
义为s
k
,s
k+r
的离散度矩阵。这样已标记样本的离散度矩阵c
k
就可以通过公式(4)计算。
[0084]
步骤603:假设最大的d个特征值η1≥η2≥

≥η
d
对应的特征向量被定义为u1,u2,

,u
d
,那么最大的d个特征值对应的特征向量采用如下公式(5)进行计算:
[0085][0086]
步骤700:重复步骤200至步骤600。当计算模块(q5)接受到的用户指令中带有确认指令时,将数据保存更新至存储模块(q6);当计算模块(q5)接收到用户的交互指令中带有终止指令,循环终止。
[0087]
步骤701:储存模块(q6)中的样本数据以一种样本数据对应一个样本标记的形式存储。
[0088]
这种存储可以被部分更新。当计算模块传过部分数据以及标签时,存储模块将这部分数据以及标签更新,而保持其他数据不更新。
[0089]
步骤702:储存模块中的样本数据最后一次接收到数据后及更新后,数据被持久化在磁盘当中,作为本次交互标记的结果。
[0090]
步骤800:计算模块(q5)接收到终止指令后,将最后一次标记完成的数据更新至存储模块(q6),标记过程结束。
[0091]
下面距离对本实施例进行说明:
[0092]
参照图3,为图1中人机接口q3的决策过程。
[0093]
从最远离数据样本中心的点开始进行标记。标记的过程在用户的指导下进行。
[0094]
通过公式(2)判断已标记样本与未标记样本是否存在数据交叠的情况,如果存在则产生再次可视化的交互指令,否则不产生。
[0095]
0<ζ
d
<1,ζ
d
=0.8作为默认值。dist(w
m
,w
n
)的计算方式如公式(3)所示。
[0096]
参照图4为针对步骤301、302和303中所述的人机接口中图案的设计原则:
[0097]
原则1(对应a):所有的样本以一个相同的形状展示(圆)。
[0098]
原则2(对应a):已标记样本被随机着色成完全不相同的颜色,并且未标记样本保持未着色。
[0099]
原则3(对应b、c、d):未标记样本的大小根据数据流行的量初始化。另外已标记样本的大小可以在交互的任何时候被重新缩放大小,其缩放范围在未标记样本大小的1-4倍之间。
[0100]
参照图5为针对步骤401、402和403人类感知原则的具体说明。
[0101]
首先,a2由一系列连续的点组成。根据403人类感知遵循连续性原则,连续的部分倾向于被看成一个整体(a2)。接下来,根据401人类感知遵循接近性原则,数据流行a1被并入了a2。在前面的两步之后,组a(a1,a2)在良好连续性原则与接近性原则的规则下被确定,并且组a中未标记点可以被标记为已经存在的标记。另一部分,b1、b2和b3可以被归入b组,原因如下。根据401人类感知遵循接近性原则,b1、b2和b3非常接近。此外,根据402人类感知遵循闭合性原则,b1、b2和b3组成的数据流行接近于一个闭合的椭圆。
[0102]
图6为人机接口q3的单次降维交互具体说明:用户打开该交互系统,机器经过数据模块q1和降维模块q2将结果以可视化散点的方式展现在用户面前。用户观察数据流行的可视化分布结果(a)做出自己的决策并使用圈选工具(b)去选择正确的近邻点。然后在原始的
特征空间中(c)观察选择到的点。最后确认这一轮次的选择(d),将结果传递至计算模块105。
[0103]
图7为多重交互降维过程具体说明。是图6所展示的单次交互降维迭代而成,具体过程如下:
[0104]
a和b:用户打开此交互系统,机器经过计算和降维,将该结果以可视化散点的方式展现在用户面前。
[0105]
c:用户将自己的决策反馈给系统。但是当系统注意到本次用户选择的样本超过了两种,通过判据条件dist(w
k
,w
k+r
)>ξ
d or dist(w
r
,w
k+r
)>ξ
d
判断出此为多重降维的步骤。
[0106]
d:系统进行了二次降维计算,并将二次降维的结果返回给用户。注意此时样本是两类的降维结果,而并没有带有用户标记。
[0107]
e:用户针对二次降维的结果进行标记。此时两类的降维结果已经满足人类感知的分离需求,可以进行标记工作。
[0108]
f:系统将二次标记的结果反馈给用户。
[0109]
图8为人机接口选择策略的具体说明如下:
[0110]
已选择部分,(组c、d)的降维子空间被表示为wr,未选择部分(组a、b)的降维子空间被表示为wk。首先我们判断出dist(w
r
,w
k+r
)<ξ
d
,其表示了已选择部分来说子空间wk+r与子空间wr是相容的。接下来,我们判断dist(w
r
,w
k+r
)>ξ
d
,不幸的是,未选择部分的子空间wk+r与子空间wr是不相容的。这种情况下,未选择部分需要进一步进行交互降维。由于样本的数量明显的远远大于当前的维度数量,子空间依托公式(3)进行计算。
[0111]
并通过公式(4)分别计算已标记样本与未标记样本的离散度矩阵。
[0112]
最终,组a和组b在二次降维的计算下会被映射在新的子空间中,方便下一步的选择过程。
[0113]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1