一种训练样本标注方法、装置、设备及介质与流程

文档序号：18269995发布日期：2019-07-27 09:34阅读：211来源：国知局

本发明涉及深度学习领域，特别是涉及一种训练样本标注方法、装置、设备及介质。

背景技术：

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本，识别模型是深度学习的阶段性成果，识别模型能够类型于人脑，具有辨别所学内容的能力。

当前对深度学习网络进行数据样本训练，以生成识别模型的过程，首先需要技术人员对训练样本进行标注，以此明确训练样本中的实际内容，进而将训练样本输入深度学习网络进行识别，并通过不断修改深度学习网络中的参数，逐渐增加深度学习网络对训练样本的识别准确性，当识别准确率达到一定的范围时，则可认为深度学习网络转化为识别模型。但是在真实的应用场景中，由于用户对于识别模型的识别准确性要求较高，因此在识别模型的训练过程中需要输入海量的数据样本，并且在训练海量的数据样本之前，需要技术人员逐一对数据样本进行内容的标注，因此大大增加了标注训练样本的人工成本并且难以确保对训练样本的标注效率。

由此可见，提供一种训练样本标注方法，以相对降低标注训练样本的整体人工成本，并相对保证训练样本的标注效率，是本领域技术人员需要解决的问题。

技术实现要素：

本发明的目的是提供一种训练样本标注方法、装置、设备及介质，以相对降低标注训练样本的整体人工成本，并相对保证训练样本的标注效率。

为解决上述技术问题，本发明提供一种训练样本标注方法，包括：

通过多种结构类型的识别模型分别对目标训练样本进行内容识别，获取相应的识别结果；

当各识别结果的内容一致时，以识别结果标注目标训练样本。

优选的，在当各识别结果的内容一致时，以识别结果标注目标训练样本之后，方法还包括：

利用目标训练样本对多种结构类型的识别模型进行训练，生成多种结构类型的新识别模型；

通过多种结构类型的新识别模型对新目标训练样本进行标注。

优选的，在通过多种结构类型的识别模型分别对目标训练样本进行内容识别，获取相应的识别结果之后，方法还包括：

当各识别结果的内容存在差异时，将目标训练样本标记为新目标训练样本。

优选的，当存在多个目标训练样本时，利用目标训练样本对多种结构类型的识别模型进行训练，生成多种结构类型的新识别模型，包括：

通过将各目标训练样本平均分配至多种结构类型的识别模型的方式，利用目标训练样本对多种结构类型的识别模型进行训练，生成多种结构类型的新识别模型。

优选的，通过多种结构类型的识别模型分别对目标训练样本进行内容识别，获取相应的识别结果，包括：

通过多种结构类型的识别模型分别对目标证件图片样本进行内容识别，获取相应的识别结果；

当各识别结果的内容一致时，以识别结果标注目标训练样本，包括：

当各识别结果的内容一致时，以识别结果标注目标证件图片样本。

优选的，通过多种结构类型的识别模型分别对目标证件图片样本进行内容识别，获取相应的识别结果，包括：

通过多种结构类型的识别模型分别对目标证件图片样本的训练区域进行内容识别，获取相应的识别结果；

当各识别结果的内容一致时，以识别结果标注目标证件图片样本，包括：

当各识别结果的内容一致时，以识别结果标注目标证件图片样本的训练区域。

此外，本发明还提供一种训练样本标注装置，包括：

多模型识别模块，用于通过多种结构类型的识别模型分别对目标训练样本进行内容识别，获取相应的识别结果；

结果标注模块，用于当各识别结果的内容一致时，以识别结果标注目标训练样本。

此外，本发明还提供一种训练样本标注设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述的训练样本标注方法的步骤。

此外，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述的训练样本标注方法的步骤。

本发明所提供的训练样本标注方法，首先通过多种结构类型的识别模型分别对目标训练样本进行内容识别，以此获取相应的识别结果，进而当多种结构类型的识别模型对应的识别结果的内容一致时，则以该识别结果标注该目标训练样本。本方法通过具有不同结构类型的识别模型共同对目标训练样本进行内容识别，以此达到多种结构类型识别模型的识别效果相互迭代的效果，因此各结构类型的识别模型之间能够相互补充对目标训练样本的识别全面性以及准确性，进而当各结构类型的识别模型在识别结果方面达成共识时，才将识别结果标注至目标训练样本，由于标注的过程均由识别模型内部计算实现，无需人工参与，因此相对降低了标注训练样本的整体人工成本，并相对保证了对训练样本的标注效率。此外，本发明还提供一种训练样本标注装置、设备及介质，有益效果同上所述。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种训练样本标注方法的流程图；

图2为本发明实施例提供的另一种训练样本标注方法的流程图；

图3为本发明实施例提供的另一种训练样本标注方法的流程图；

图4为本发明实施例提供的另一种训练样本标注方法的流程图；

图5为本发明实施例提供的一种训练样本标注装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

本发明的核心是提供一种训练样本标注方法，以相对降低标注训练样本的整体人工成本，并相对保证训练样本的标注效率。此外，本发明还提供一种训练样本标注装置、设备及介质，有益效果同上所述。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明实施例提供的一种训练样本标注方法的流程图。请参考图1，训练样本标注方法的具体步骤包括：

步骤s10：通过多种结构类型的识别模型分别对目标训练样本进行内容识别，获取相应的识别结果。

需要说明的是，本步骤中的识别模型是指经过深度学习网络训练，且具有一定识别能力的网络模型，此外，本步骤中的多种结构类型的识别模型是指各识别模型基于不同网络结构的深度学习网络训练产生，因此各个识别模型在对目标训练样本进行内容识别时所采用的运算函数各不相同，即对于目标训练样本的识别方向不同。

另外，需要说明的是，本步骤中的目标训练样本是对于众多训练样本中的某一个训练样本的特指，对于训练样本中的每一个目标训练样本而言，均通过多种结构类型的识别模型分别对其进行内容识别，以此获取多种结构类型的识别模型对目标训练样本相应的识别结果。

步骤s11：当各识别结果的内容一致时，以识别结果标注目标训练样本。

当通过不同结构类型的识别模型对同一目标训练样本的识别结果一致时，则认为识别结果是可用的，进而以识别结果标注目标训练样本。

在上述实施例的基础上，本发明还提供以下一系列优选的实施方式。

图2为本发明实施例提供的另一种训练样本标注方法的流程图。请参考图2，训练样本标注方法的具体步骤包括：

步骤s20：通过多种结构类型的识别模型分别对目标训练样本进行内容识别，获取相应的识别结果。

步骤s21：当各识别结果的内容一致时，以识别结果标注目标训练样本。

步骤s22：利用目标训练样本对多种结构类型的识别模型进行训练，生成多种结构类型的新识别模型。

需要说明的是，本步骤的重点在于将多种结构类型的识别模型的识别结果一致并且完成标注的目标训练样本输入至多种结构类型的识别模型中，以作为训练样本对识别模型进一步训练，生成相应的新识别模型。

步骤s23：通过多种结构类型的新识别模型对新目标训练样本进行标注。

可以理解的是，基于识别模型对目标训练样本进一步训练得到的新识别模型相较于识别模型而言，对于训练样本的识别准确性有所提升，因此本步骤中，进一步将基于识别模型训练得到的新识别模型应用到对新目标训练样本的标注，能够进一步提高标注的准确性。

本实施例通过将完成标注的目标训练样本迭代应用于对多种结构类型的识别模型中，以此提高了识别模型的识别准确性，进而提高了多种结构类型的识别模型对新目标训练样本进行识别的结果共识概率，从而进一步提高了对于训练样本的标注效率。

在上述实施例的基础上，作为一种优选的实施方式，当存在多个目标训练样本时，利用目标训练样本对多种结构类型的识别模型进行训练，生成多种结构类型的新识别模型，包括：

需要说明的是，当存在多个目标训练样本时，为了进一步确保基于多种结构类型的识别模型训练生成的多种结构类型的新识别模型之间具有更大的识别差异性，本实施方式将各目标训练样本平均分配至多种结构类型的识别模型的方式，以此达到训练每一类识别模型时所使用的训练样本均不相同的目的，进而相对确保不同训练样本之间较低的关联性，进而提高通过多种结构类型对训练样本进行标注时，各训练模型识别训练样本时的独立性，进一步确保了标注的整体准确性。

图3为本发明实施例提供的另一种训练样本标注方法的流程图。请参考图3，训练样本标注方法的具体步骤包括：

步骤s30：通过多种结构类型的识别模型分别对目标训练样本进行内容识别，获取相应的识别结果。

步骤s31：当各识别结果的内容一致时，以识别结果标注目标训练样本。

步骤s32：当各识别结果的内容存在差异时，将目标训练样本标记为新目标训练样本。

可以理解的是，当各识别结果的内容存在差异时，说明多种结构类型的识别模型对于目标训练样本的识别结果出现分歧，原因往往在于识别模型本身的识别准确性有限，而未能被标注的目标训练样本仍然能够用于对识别模型的训练，因此本步骤在各识别结果的内容存在差异时，将目标训练样本标记为新目标训练样本，进而在后续基于已标注的目标训练样本训练识别模型生成新识别模型后，通过新识别模型再次对新目标训练样本进行标注。

步骤s33：利用目标训练样本对多种结构类型的识别模型进行训练，生成多种结构类型的新识别模型。

步骤s34：通过多种结构类型的新识别模型对新目标训练样本进行标注。

本实施例避免了因目标训练样本尚无法被标注而导致目标训练样本不可用的情况，相对确保了对于训练样本标注的全面性。

图4为本发明实施例提供的另一种训练样本标注方法的流程图。请参考图4，训练样本标注方法的具体步骤包括：

步骤s40：通过多种结构类型的识别模型分别对目标证件图片样本进行内容识别，获取相应的识别结果。

步骤s41：当各识别结果的内容一致时，以识别结果标注目标证件图片样本。

由于考虑到，当前对于银行、金融贷款等领域中涉及到录入用户证件信息以进行业务办理的场景，在向系统中录入客户证件中的信息时，需要基于扫描证件所得到的图片准确识别其上的信息，进而转变为文本信息，返回给业务人员使用，为了实现上述目的，需要通过深度学习网络对证件图片样本进行训练，因此本实施通过多种结构类型的识别模型分别对目标证件图片样本进行内容识别以及标注，能够高效的对证件样本图片进行标注，提高了深度学习网络对于样本图片的学习效率以及学习效果，进而更加高效的实现业务场景中对于证件图片内容的准确识别。

在上述实施例的基础上，作为一种优选的实施方式，通过多种结构类型的识别模型分别对目标证件图片样本进行内容识别，获取相应的识别结果，包括：

通过多种结构类型的识别模型分别对目标证件图片样本的训练区域进行内容识别，获取相应的识别结果；

当各识别结果的内容一致时，以识别结果标注目标证件图片样本，包括：

当各识别结果的内容一致时，以识别结果标注目标证件图片样本的训练区域。

本实施方式具体将目标证件图片样本限定为身份证图片样本，考虑到身份证具有较大的应用范畴，并且身份证中包含的证件信息相对丰富，因此本实施方式对真实场景中的待识别身份证图片中的证件信息进行识别，能够相对确保对于待识别身份证图片中的证件信息的识别准确性。

此外，本发明还提供一种具体应用场景中的场景实施例，具体的训练样本标注过程如下：

首先将现有目标训练样本分别输入三种不同结构类型的识别模型对相应的目标训练样本，获取相应的识别结果，当三种识别模型的识别结果一致时，将目标训练样本标注有该识别结果。其中，三种不同结构类型的识别模型分别为：

1、采用传统的文字分割以及识别方式，先将文字分割成一个个独立的字体，然后通用深度学习网络训练生成的识别模型；

2、采用resnet50以及ctc构成的深度学习网络所训练生成的识别模型；

3、采用densenet以及attention构成的深度学习网络所训练生成的识别模型。

图5为本发明实施例提供的一种训练样本标注装置的结构图。本发明实施例提供的训练样本标注装置，包括：

多模型识别模块10，用于通过多种结构类型的识别模型分别对目标训练样本进行内容识别，获取相应的识别结果。

结果标注模块11，用于当各识别结果的内容一致时，以识别结果标注目标训练样本。

本发明所提供的训练样本标注装置，首先通过多种结构类型的识别模型分别对目标训练样本进行内容识别，以此获取相应的识别结果，进而当多种结构类型的识别模型对应的识别结果的内容一致时，则以该识别结果标注该目标训练样本。本装置通过具有不同结构类型的识别模型共同对目标训练样本进行内容识别，以此达到多种结构类型识别模型的识别效果相互迭代的效果，因此各结构类型的识别模型之间能够相互补充对目标训练样本的识别全面性以及准确性，进而当各结构类型的识别模型在识别结果方面达成共识时，才将识别结果标注至目标训练样本，由于标注的过程均由识别模型内部计算实现，无需人工参与，因此相对降低了标注训练样本的整体人工成本，并相对保证了对训练样本的标注效率。

本发明还提供一种训练样本标注设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述的训练样本标注方法的步骤。

本发明所提供的训练样本标注设备，首先通过多种结构类型的识别模型分别对目标训练样本进行内容识别，以此获取相应的识别结果，进而当多种结构类型的识别模型对应的识别结果的内容一致时，则以该识别结果标注该目标训练样本。本设备通过具有不同结构类型的识别模型共同对目标训练样本进行内容识别，以此达到多种结构类型识别模型的识别效果相互迭代的效果，因此各结构类型的识别模型之间能够相互补充对目标训练样本的识别全面性以及准确性，进而当各结构类型的识别模型在识别结果方面达成共识时，才将识别结果标注至目标训练样本，由于标注的过程均由识别模型内部计算实现，无需人工参与，因此相对降低了标注训练样本的整体人工成本，并相对保证了对训练样本的标注效率。

本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述的训练样本标注方法的步骤。

本发明所提供的计算机可读存储介质，首先通过多种结构类型的识别模型分别对目标训练样本进行内容识别，以此获取相应的识别结果，进而当多种结构类型的识别模型对应的识别结果的内容一致时，则以该识别结果标注该目标训练样本。本计算机可读存储介质通过具有不同结构类型的识别模型共同对目标训练样本进行内容识别，以此达到多种结构类型识别模型的识别效果相互迭代的效果，因此各结构类型的识别模型之间能够相互补充对目标训练样本的识别全面性以及准确性，进而当各结构类型的识别模型在识别结果方面达成共识时，才将识别结果标注至目标训练样本，由于标注的过程均由识别模型内部计算实现，无需人工参与，因此相对降低了标注训练样本的整体人工成本，并相对保证了对训练样本的标注效率。

以上对本发明所提供的一种训练样本标注方法、装置、设备及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈鑫;赵明
技术所有人：杭州智趣智能信息技术有限公司
我是此专利的发明人

上一篇：一种煤气化细渣浮选分离脱水系统及方法与流程
上一篇：一种煤层冲孔形状的测定装置及其使用方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。