一种基于数据挖掘和众包的数据标注方法及系统与流程

文档序号:12185351阅读:973来源:国知局
一种基于数据挖掘和众包的数据标注方法及系统与流程

本发明涉及数据标注技术领域,尤其涉及一种基于数据挖掘和众包的数据标注方法及系统。



背景技术:

近年来,随着众包技术的发展,利用众包技术进行数据标注引起了研究者的关注。众包技术是一种分布式的问题求解方式。该技术利用众人的智慧和力量来解决计算机难以解决的任务,尤其是数据标注、对象识别等这类对人类来说非常简单,但是对计算机来讲非常困难的任务。很多标注任务,例如文本标注、图像分类等,均可以通过众包平台发布到互联网上,由来自互联网的普通用户进行标注。普通用户完成数据标注任务并获得发布者提供的经济报酬。

众包平台的优点是处理精细,且规模足够大时可以得到全面、深入的数据处理结果。缺点是投入大、效率低、数据处理量小。而且标注者均为来自互联网的普通用户,与传统的专家标注相比,其标注质量的不到保证。

因此,如何降低标注数据的标注成本,提高标注的效率和质量,是本技术领域亟需解决的技术问题。



技术实现要素:

本发明的目的是提供一种基于数据挖掘和众包的数据标注方法及系统,以降低标注数据的标注成本,提高标注的效率和质量。

本发明的目的是通过以下技术方案来实现的:

一种基于数据挖掘和众包的数据标注方法,包括:

获取待标注的原始数据;

使用整合的算法,对所述原始数据进行分类与众包分发;

获取众包标注结果,使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;

输出经过自动化审核的众包标注结果,所述众包标注结果中包括问题标注结果。

优选地,所述问题标注结果包括低质量标注结果,所述使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记的步骤具体包括:

根据历史标注数据库和对比规则,对众包标注结果进行分析,获取低质量标注结果并标记,其中所述对比规则包括相似度对比、聚类分析和有效性检验中的至少一种。

优选地,所述根据历史标注数据库和对比规则,所述根根据历史标注数据库和对比规则,对众包标注结果进行分析,获取低质量标注结果并标记的步骤具体包括:

根据全局历史标注数据库,对众包标注结果进行相似度对比,若该众包标注结果与在历史标注数据库中的标注结果的相似度达到阈值,则将其余与该众包标注结果相冲突的标注结果标记为低质量标注结果。

优选地,所述根据历史标注数据库和对比规则,对众包标注结果进行分析,获取低质量标注结果并标记的步骤具体包括:

根据标注者的历史标注数据库,对众包标注结果进行聚类分析,若该众包标注结果属于该聚类类别中,则将其余与该众包标注结果的偏离度超过阈值的标注结果标记为低质量标注结果。

优选地,所述问题标注结果包括错误标注结果,所述对众包标注结果进行自动化审核,获取问题标注结果,并对问题标注结果进行标记的步骤具体包括:

根据意图识别规则对数据意图与众包标注结果进行比对,筛选机器分类与众包标注结果冲突的为错误标注结果并标记。

优选地,所述根据意图识别规则对数据意图与众包标注结果进行比对,筛选机器分类与众包标注结果冲突的为错误标注结果并标记的步骤具体包括:

判断该众包标注结果是否符合其人工标注意图所对应的意图句式匹配模板,若不匹配,则标记为错误标注结果。

优选地,所述根据意图识别规则对数据意图与众包标注结果进行比对,筛选机器分类与众包标注结果冲突的为错误标注结果并标记的步骤具体包括:

判断该众包标注结果是否包含其人工标注意图所对应的意图词袋内的任意词汇,若不包含,则标记为错误标注结果。

优选地,所述整合的算法至少包括聚类算法和标注规则模板,所述使用整合的算法,对所述原始数据进行分类与众包分发的步骤具体包括:根据聚类算法和标注规则模板将所述原始数据进行分类和分发。

优选地,所述输出经过自动化审核的众包标注结果的步骤具体包括:

输出每个标注者标注任务完成情况的统计结果和每个标注者标注任务中的问题标注结果。

一种基于数据挖掘和众包的数据标注系统,包括:

抓取模块,用于获取待标注的原始数据;

分发模块,用于使用整合的算法,对所述原始数据进行分类与众包分发;

处理模块,用于获取众包标注结果,使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;

输出模块,用于输出经过自动化审核的众包标注结果,所述众包标注结果中包括问题标注结果。

相比现有技术,本发明具有以下优点:现有的众包技术中,标注者为来自互联网的普通用户,其标注质量的不到保证,而本发明中采取的标注方法包括:获取标注所需的原始数据;根据预设规则将所述原始数据进行分发;获取众包标注结果,并对众包标注结果进行自动化审核,获取问题标注结果,并对问题标注结果进行标记;输出众包标注结果和问题标注结果。这样就可以对众包标注结果进行审核,这样就从所有的众包标注结果中找出可能存在问题的问题标注结果,并且将这些问题标注结果标记起来,这样就可以方便对问题标注结果进行审核和修改,极大的方便了找出有问题的标注结果,提高了输出的结果的标注质量。本发明将数据挖掘技术与众包平台进行有机结合,使拥有海量精确标注数据的同时,有效的降低标注成本。

附图说明

图1是本发明实施例一的基于数据挖掘和众包的数据标注方法的流程图;

图2是本发明实施例二的基于数据挖掘和众包的数据标注系统的示意图。

具体实施方式

虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

计算机设备包括用户设备与网络设备。其中,用户设备或客户端包括但不限于电脑、智能手机、PDA等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云。计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制,使用这些术语仅仅是为了将一个单元与另一个单元进行区分。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

下面结合附图和较佳的实施例对本发明作进一步说明。

实施例一

如图1所示,本实施例中公开一种基于数据挖掘和众包的数据标注方法,包括:

S101、获取待标注的原始数据;

S102、使用整合的算法,对所述原始数据进行分类与众包分发;

S103、获取众包标注结果,使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;

S104、输出经过自动化审核的众包标注结果,所述众包标注结果中包括问题标注结果。

其中,标注的数据范围包括但不限于文字,图像,音频,统计数据以及其他的数据。

现有的众包技术中,标注者为来自互联网的普通用户,其标注质量的不到保证,而本发明中采取的标注方法包括:S101、获取待标注的原始数据;S102、使用整合的算法,对所述原始数据进行分类与众包分发;S103、获取众包标注结果,使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;S104、输出经过自动化审核的众包标注结果,所述众包标注结果中包括问题标注结果。这样就可以对众包标注结果进行审核,这样就从所有的众包标注结果中找出可能存在问题的问题标注结果,并且将这些问题标注结果标记起来,这样就可以方便对问题标注结果进行审核和修改,极大的方便了找出有问题的标注结果,提高了输出的结果的标注质量。本发明将数据挖掘技术与众包平台进行有机结合,使拥有海量精确标注数据的同时,有效的降低标注成本。本发明可以适用于机器人交互的技术领域,方便机器人采集经过标注的数据,这样可以方便机器人收集到需要的高质量数据,更好的与人交互。

根据其中一个示例,所述问题标注结果包括低质量标注结果,所述对众包标注结果进行自动化审核,获取问题标注结果,并对问题标注结果进行标记的步骤具体包括:

根据历史标注数据库和对比规则,对众包标注结果进行分析,获取低质量标注结果并标记,其中所述对比规则包括相似度对比、聚类分析和有效性检验中的至少一种。低质量标注结果具体为可能的低质量标注,具体的讲是疑似低质量的标注结果,作为怀疑对象,需要进一步具体的检查。

根据其中另一个示例,所述根据历史标注数据库和对比规则,所述根根据历史标注数据库和对比规则,对众包标注结果进行分析,获取低质量标注结果并标记的步骤具体包括:

根据全局历史标注数据库,对众包标注结果进行相似度对比,若该众包标注结果与在历史标注数据库中的标注结果的相似度达到阈值,则将其余与该众包标注结果相冲突的标注结果标记为低质量标注结果。这样就可以筛选出低质量标注结果,进行进一步筛查。

根据其中另一个示例,所述根据历史标注数据库和对比规则,对众包标注结果进行分析,获取低质量标注结果并标记的步骤具体包括:

根据标注者的历史标注数据库,对众包标注结果进行聚类分析,若该众包标注结果属于该聚类类别中,则将其余与该众包标注结果的偏离度超过阈值的标注结果标记为低质量标注结果。这样就可以筛选出低质量标注结果,进行进一步筛查。

根据其中另一个示例,所述问题标注结果包括错误标注结果,所述对众包标注结果进行自动化审核,获取问题标注结果,并对问题标注结果进行标记的步骤具体包括:

根据意图识别规则对数据意图与众包标注结果进行比对,筛选机器分类与众包标注结果冲突的为错误标注结果并标记。这样就可以筛选出错误标注结果,进行进一步筛查。

根据其中另一个示例,所述根据意图识别规则对数据意图与众包标注结果进行比对,筛选机器分类与众包标注结果冲突的为错误标注结果并标记的步骤具体包括:

判断该众包标注结果是否符合其人工标注意图所对应的意图句式匹配模板,若不匹配,则标记为错误标注结果。这样就可以筛选出错误标注结果,进行进一步筛查。

根据其中另一个示例,所述根据意图识别规则对数据意图与众包标注结果进行比对,筛选机器分类与众包标注结果冲突的为错误标注结果并标记的步骤具体包括:

判断该众包标注结果是否包含其人工标注意图所对应的意图词袋内的任意词汇,若不包含,则标记为错误标注结果。这样就可以筛选出错误标注结果,进行进一步筛查。

根据其中另一个示例,所述整合的算法至少包括聚类算法和标注规则模板,所述使用整合的算法,对所述原始数据数据进行分类与众包分发的步骤具体包括:根据聚类算法和标注规则模板将所述原始数据进行分类和分发。

根据其中另一个示例,所述输出经过自动化审核的众包标注结果的步骤具体包括:

输出每个标注者标注任务完成情况的统计结果和每个标注者标注任务中的问题标注结果。这样就可以完成标注的统计结果和存在问题的问题标注结果,不仅可以了解到标注的具体情况,而且还可以据此了解标注者的标注准确率等数据,以便筛选出更好的标注者。

在更近贴近实际应用的案例中,例如,当标注的数据为语料时,S103对众包标注结果进行自动化审核的具体过程中具体包括:

在自动化审核之前,需要将众包标注结果汇总(即输入);

然后统计标注数量,获得该标注人本次任务的实际完成情况;

通过相似度对比、聚类、有效性检验等,引用历史标注数据库,分析是否有“低质量标注”,作为与上述的低质量标注结果相对应的示例,可以自动标注为“可能低质量”。如,不同类型语料拥有同样的标注;或,明显相似的语料拥有不同标注。例如,对于影响相似的语料,如“我要去吃饭”,“我准备去吃饭”这种,大部分都标注的是“去吃饭”,其中有一个将“我要去吃饭”标注的是“去唱歌”,这就需要将这个标注结果标记为低质量标注结果,例如上述的“可能低质量”;

使用意图识别规则,与人工标注的结果进行比对,筛选出及机器分类与人工标注冲突的标注条目,如上述的错误标注结果,可以自动标注为“可能错误”;

这样经过这一轮自动标注的数据,为接下来的人工抽查标明审查重点,极大降低工作量。

审核中,还需要统计标注数量,具体的,对于总标注条目数进行统计,以及对必须标注的标注项进行统计。

对于标注为“可能低质量”的标注结果,具体的,

引用全局历史标注数据库,进行相似度对比。若两条标注语料本身相似度到达特定阈值,则对比其“众包标注结果”。若“众包标注结果”有冲突,则标记为“可能低质量”;

作为另一种示例方式,引用该作者历史标注数据库,进行聚类。若本条标注语料位于某一聚类类别内(即自然语言内容类似),则对比其“众包标注结果”。若历史“众包标注结果”偏离较小,而当前标注结果明显偏离历史标注集范围,则标记为“可能低质量”。

对于标注为“可能错误”的标注结果,具体的,

判定该标注语料是否符合其人工标注意图所对应的意图句式匹配模板,若不匹配,则标注为“可能错误”;

作为另一种示例方式,判断该标注语料是否包含其人工标注意图所对应的意图词袋内的任意词汇,若不包含,则标注为“可能错误”。

审核中,运用统计类工具,对众包标注结果进行统计,包括,运用自然语言处理工具,对众包标注结果进行“初审”,对“有很大概率错误的标注”进行自动标记,并归类。

输出结果中,包括输出每个标注者标注任务完成情况的统计结果,以及每个标注者标注任务中可能有问题的标注条目。

实施例二

如图2所示,本实施例中公开一种基于数据挖掘和众包的数据标注系统,包括:

抓取模块201,用于获取待标注的原始数据;

分发模块202,用于使用整合的算法,对所述原始数据进行分类与众包分发;

处理模块203,用于获取众包标注结果,使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;

输出模块204,用于输出经过自动化审核的众包标注结果,所述众包标注结果中包括问题标注结果。

本实施例公开的数据标注系统由于包括:抓取模块201,用于获取待标注的原始数据;分发模块202,用于使用整合的算法,对所述原始数据进行分类与众包分发;处理模块203,用于获取众包标注结果,使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记;输出模块204,用于输出经过自动化审核的众包标注结果,所述众包标注结果中包括问题标注结果。这样就可以对众包标注结果进行审核,这样就从所有的众包标注结果中找出可能存在问题的问题标注结果,并且将这些问题标注结果标记起来,这样就可以方便对问题标注结果进行审核和修改,极大的方便了找出有问题的标注结果,提高了输出的结果的标注质量。本发明将数据挖掘技术与众包平台进行有机结合,使拥有海量精确标注数据的同时,有效的降低标注成本。

根据其中一个示例,所述问题标注结果包括低质量标注结果,所述处理模块具体用于:根据历史标注数据库和对比规则,对众包标注结果进行分析,获取低质量标注结果并标记,其中所述对比规则包括相似度对比、聚类分析和有效性检验中的至少一种。

根据其中另一个示例,所述处理模块具体用于:根据全局历史标注数据库,对众包标注结果进行相似度对比,若该众包标注结果与在历史标注数据库中的标注结果的相似度达到阈值,则将其余与该众包标注结果相冲突的标注结果标记为低质量标注结果。

根据其中另一个示例,根据标注者的历史标注数据库,对众包标注结果进行聚类分析,若该众包标注结果属于该聚类类别中,则将其余与该众包标注结果的偏离度超过阈值的标注结果标记为低质量标注结果。

根据其中另一个示例,所述问题标注结果包括错误标注结果,所述处理模块具体用于:

根据意图识别规则对数据意图与众包标注结果进行比对,筛选机器分类与众包标注结果冲突的为错误标注结果并标记。

根据其中另一个示例,所述处理模块具体用于:判断该众包标注结果是否符合其人工标注意图所对应的意图句式匹配模板,若不匹配,则标记为错误标注结果。

根据其中另一个示例,所述处理模块具体用于:判断该众包标注结果是否包含其人工标注意图所对应的意图词袋内的任意词汇,若不包含,则标记为错误标注结果。

根据其中另一个示例,所述整合的算法至少包括聚类算法和标注规则模板,所述分发模块具体用于:根据聚类算法和标注规则模板将所述原始数据进行分类和分发。

根据其中另一个示例,所述输出模块具体用于:输出每个标注者标注任务完成情况的统计结果和每个标注者标注任务中的问题标注结果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1