一种基于数据标注的质检方法和装置与流程

文档序号:20781709发布日期:2020-05-19 21:18阅读:415来源:国知局
一种基于数据标注的质检方法和装置与流程

本发明实施例涉及自动驾驶技术领域,尤其涉及一种基于数据标注的质检方法和装置。



背景技术:

目前以数据标注技术为基础的算法深度学习在人工智能方面发挥着愈来愈大的作用,尤其是诸如手机、平板、电脑等设备以基于人工智能为核心的自动识别系统在自动驾驶,生物识别等业务领域发挥了奠定基础的作用。

数据标注技术为深度算法训练学习提供了大量有效的真值。至此便衍生出数据标注的质检技术,以保证人工制作真值得准确率。

现有技术中,一般采用质检方式主要是通过人工以制作的视角去检查判断对错,存在较大主观性,效率较低下等问题。导致数据标注修改不准确,因而导致了算法学习训练因样本集真值误差,给人工智能发展应用带来局限性。



技术实现要素:

本发明实施例提供一种基于数据标注的质检方法和装置,用以解决现有技术中质检方式主要是通过人工以制作的视角去检查判断对错,存在较大主观性,效率较低下等问题。

第一方面,本发明实施例提供一种基于数据标注的质检方法,包括:

基于预设的排查规则,通过排查脚本排查数据标注中的常规问题;若判断获知无常规问题,则将两份相同的数据标注内容进行对比,若相似度低于预设第一相似度阈值,则进行三方交叉对比,若判断获知存在相似度高于预设第二相似度阈值,则筛选出相似度最高的两组对比数据中重复出现的数据标注作为最优值输出。

作为优选的,基于预设的质检条件,通过脚本排查数据标注中的常规问题,具体包括:

统计数据标注中出现的常规问题,并制定各常规问题的排查规则,基于所述排查规则设定每个常规问题的排查脚本,以对数据标注中的常规问题进行排查。

作为优选的,还包括:

若判断获知有常规问题,则将输出错误点以供对应的处理端口进行修改。

作为优选的,还包括:

若相似度不低于预设第一相似度阈值,则任选其一作为最优值输出。

作为优选的,进行三方交叉对比,具体包括:

对同一数据标注样本进行三方数据对比,通过将第一数据标注样本与标注同一物体的第二数据标注样本和第三数据标注样本进行两两对比,对比得到第一相似度、第二相似度和第三相似度;

若判断获知所述第一相似度和/或所述第二相似度和/或所述第三相似度大于第二相似度阈值,则取所述第一相似度、第二相似度和第三相似度中较大两个值,并筛选出其中重复出现的数据样本作为最优值输出。

作为优选的,还包括:

若判断获知所述第一相似度、所述第二相似度和所述第三相似度均不大于第二相似度阈值,则输出错误点以供对应的处理端口进行修改。

第二方面,本发明实施例提供一种基于数据标注的质检装置,包括:

常规排查模块,基于预设的排查规则,通过排查脚本排查数据标注中的常规问题;

两方对比排查模块,若判断获知无常规问题,则将两份相同的数据标注内容进行对比,获取相似度;

三方对比排查模块,用于若相似度低于预设第一相似度阈值,则进行三方交叉对比,若判断获知存在相似度高于预设第二相似度阈值,则筛选出相似度最高的两组对比数据中重复出现的数据标注作为最优值输出。

第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第一方面实施例所述基于数据标注的质检方法的步骤。

第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例所述基于数据标注的质检方法的步骤。

本发明实施例提供的一种基于数据标注的质检方法和装置,将数据脚本筛查,交叉对比,提高其数据的精度与准确度,从而生产出在此类人工智能算法深度学的大量真值及样本集;一方面大量的脚本设定排除特殊情况,常规错误影响;另一方面在通过两相同样本对比之后,进行第三方相同样本二次交叉对比,通过一二两个步骤的共同作用,能使得整个质检工作在整个项目实施范围内,差错率达到较高的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的基于数据标注的质检方法流程框图;

图2为根据本发明实施例的基于数据标注的质检方法具体流程示意图;

图3为根据本发明实施例的一种电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列部件或单元的系统、产品或设备没有限定于已列出的部件或单元,而是可选地还包括没有列出的部件或单元,或可选地还包括对于这些产品或设备固有的其它部件或单元。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

数据标注技术为深度算法训练学习提供了大量有效的真值。至此便衍生出数据标注的质检技术,以保证人工制作真值得准确率。

现有技术中,一般采用质检方式主要是通过人工以制作的视角去检查判断对错,存在较大主观性,效率较低下等问题。导致数据标注修改不准确,因而导致了算法学习训练因样本集真值误差,给人工智能发展应用带来局限性。

因此,本发明实施例提供一种基于数据标注的质检方法和装置,将数据脚本筛查,交叉对比,提高其数据的精度与准确度,从而生产出在此类人工智能算法深度学的大量真值及样本集。以下将通过多个实施例进行展开说明和介绍。

图1和图2为本发明实施例提供一种基于数据标注的质检方法,包括:

基于预设的排查规则,通过排查脚本排查数据标注中的常规问题;若判断获知无常规问题,则将两份相同的数据标注内容进行对比,若相似度低于预设第一相似度阈值,则进行三方交叉对比,若判断获知存在相似度高于预设第二相似度阈值,则筛选出相似度最高的两组对比数据中重复出现的数据标注作为最优值输出。

在本实施例中,作为一种优选的实施方式,一方面大量的脚本设定排除特殊情况,常规错误影响;另一方面在通过两相同样本对比之后,进行第三方相同样本二次交叉对比,通过一二两个步骤的共同作用,能使得整个质检工作在整个项目实施范围内,差错率达到较高的精度。

在大量减少人工判定的情况下,解决了数据标注作业尤其是机器图像识别作业的质检问题。将数据脚本筛查,交叉对比,提高其数据的精度与准确度,从而生产出在此类人工智能算法深度学的大量真值及样本集。将人工检阅的工作交由工具查找,对样本比出最优答案,将人工判定的集合缩减至最小,大大减少了因人工误判漏判产生的误差,提高了数据的精度和准度。

在上述各实施例的基础上,基于预设的质检条件,通过脚本排查数据标注中的常规问题,具体包括:

统计数据标注中出现的常规问题,并制定各常规问题的排查规则,基于所述排查规则设定每个常规问题的排查脚本,以对数据标注中的常规问题进行排查。

在本实施例中,作为一种优选的实施方式,通过大量代码脚本设定限制条件,排查大量非常规问题。通过大量代码脚本设定限制条件,限定标注属性,根据相关联选项排除出非正常设定属性,工具判断50%左右的常规错误点;例如:当标注路沿属性为墙壁,则路沿高度一定为高或较高选项,当出现低陷,平坦选项,则报出对应错误提示。

在上述各实施例的基础上,还包括:

若判断获知有常规问题,则将输出错误点以供对应的处理端口进行修改。

在上述各实施例的基础上,还包括:

若相似度不低于预设第一相似度阈值,则任选其一作为最优值输出。具体的,本实施例中的预设第一相似度阈值为95%~100%,优选的取99.5%。

在本实施例中,作为一种优选的实施方式,将两份相同内容进行对比,比较出不同点,筛选出35%左右需判定的问题点,取两方相同的优质部分;例如:当两对照样本标注同一物体,标注框位置大小属性全部相同时,则判定两样本全对,任取其一。当两样本标注同一物体,样本a已标注,样本b未标注,则报出提示,流入下一质检环节。

根据问题点筛选人工容易判断部分,以供进行人工判定。取优质部分,剩余部分进入二次对比;例如:当两样本标注同一物体,样本a已标注,样本b未标注,获取人工判定是否需要标的信息。如果不标,则取b;需标注流入三方对比。

在上述各实施例的基础上,进行三方交叉对比,具体包括:

对同一数据标注样本进行三方数据对比,通过将第一数据标注样本与标注同一物体的第二数据标注样本和第三数据标注样本进行两两对比,对比得到第一相似度、第二相似度和第三相似度;

若判断获知所述第一相似度和/或所述第二相似度和/或所述第三相似度大于第二相似度阈值,则取所述第一相似度、第二相似度和第三相似度中较大两个值,并筛选出其中重复出现的数据样本作为最优值输出。

在本实施例中,如图2中所示,作为一种优选的实施方式,进行三方进行交叉对比,最后通过三方交叉对比结果筛选出约15%的重大问题,取两两相同的优质部分。例如:当两样本标注同一物体,样本a,b标注位置属性完全不同,自动流入三方对比。加入c标注同一物体,进行两两对比,取对比相同比例更高的一组结果。

本实施例中的预设第一相似度阈值为95%~100%,优选的取99.5%。

在上述各实施例的基础上,还包括:

若判断获知所述第一相似度、所述第二相似度和所述第三相似度均不大于第二相似度阈值,则输出错误点以供对应的处理端口进行修改。

在本实施例中,作为一种优选的实施方式,如果三方两两对比结果值均非常低,则划为重大问题进行下一节判断。即以供人工判定三方均不相同的重大问题,取最优质部分。

本发明实施例还提供一种基于数据标注的质检装置,基于上述各实施例中的基于数据标注的质检方法,包括:

常规排查模块,基于预设的排查规则,通过排查脚本排查数据标注中的常规问题;

两方对比排查模块,若判断获知无常规问题,则将两份相同的数据标注内容进行对比,获取相似度;

三方对比排查模块,用于若相似度低于预设第一相似度阈值,则进行三方交叉对比,若判断获知存在相似度高于预设第二相似度阈值,则筛选出相似度最高的两组对比数据中重复出现的数据标注作为最优值输出。

本发明实施例提供了本发明实施例提供了一种电子设备,如图3所示,该服务器可以包括:处理器(processor)810、通信接口(communicationsinterface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行上述各实施例提供的基于数据标注的质检方法,例如包括:

基于预设的排查规则,通过排查脚本排查数据标注中的常规问题;若判断获知无常规问题,则将两份相同的数据标注内容进行对比,若相似度低于预设第一相似度阈值,则进行三方交叉对比,若判断获知存在相似度高于预设第二相似度阈值,则筛选出相似度最高的两组对比数据中重复出现的数据标注作为最优值输出。

此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于数据标注的质检方法,例如包括:

基于预设的排查规则,通过排查脚本排查数据标注中的常规问题;若判断获知无常规问题,则将两份相同的数据标注内容进行对比,若相似度低于预设第一相似度阈值,则进行三方交叉对比,若判断获知存在相似度高于预设第二相似度阈值,则筛选出相似度最高的两组对比数据中重复出现的数据标注作为最优值输出。

综上所述,本发明实施例提供的一种基于数据标注的质检方法和装置,将数据脚本筛查,交叉对比,提高其数据的精度与准确度,从而生产出在此类人工智能算法深度学的大量真值及样本集;一方面大量的脚本设定排除特殊情况,常规错误影响;另一方面在通过两相同样本对比之后,进行第三方相同样本二次交叉对比,通过一二两个步骤的共同作用,能使得整个质检工作在整个项目实施范围内,差错率达到较高的精度。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1