一种评价尺度稳定的数据标记分配、统计的方法及系统与流程

文档序号:17929128发布日期:2019-06-15 00:40阅读:265来源:国知局
一种评价尺度稳定的数据标记分配、统计的方法及系统与流程

本发明属于数据处理技术领域,具体涉及一种评价尺度稳定的数据标记分配、统计的方法及系统。



背景技术:

当前随着信息化的发展,伴随着人类社会活动产生了大量的数据,人们越来越重视通过数据来分析和挖掘各种行为、提取特征,用来支撑决策、优化规则甚至是模拟人类行为。因此人工智能领域藉由同样快速发展计算能力得以迎来新一次的热潮。

人工智能中常用的人工神经网络等算法模型通常需要大量已标记数据作为训练样本,以训练出在后续预测或分类等工作中使用的数学模型,而此类带有标记的训练样本数据目前十分匮乏。标记数据工作通常分为可由计算机程序标注、智能标记的情况或者由人工标记的情况。在由人工标记的情况下,如果按照传统的人工标记方式,不仅数据量巨大导致的时间成本与人工成本投入量巨大,还有多人标记的评价尺度不一致、专家或标记人员自身评价大量样本时标准不稳定的情况,亟需一个样本分配方案来解决工作量与标记尺度一致的问题。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的第一个目的在于提出了一种评价尺度稳定的数据标记分配、统计的方法。解决了在有限的人工成本与有限的时间成本下,获得大量评价尺度一致的评价标记的训练样本数据的问题。

本发明的第二个目的在于提出一种评价尺度稳定的数据标记分配、统计的系统。

为达到上述目的,本发明第一方面实施例提出了一种评价尺度稳定的数据标记分配及统计的方法,假设样本数据总量为n份,记为第一样本数据,标记人员数量为m名,所述方法包括:

s1:将所述第一样本数据进行编号,得到第一样本数据编号。

s2:将所述第一样本数据总量扩展为有限倍数的第二样本数据,将所述第二样本数据进行编号得到第二样本数据编号。

s3:将所述第二样本数据按照所述第二样本数据编号循环平均分配为有限份数;所述每份数的样本数据为第三样本数据;将所述第三样本数据进行编号得到所述第三样本数据编号;从所述第三样本数据中随机抽取有限份数的样本数据,记为第四样本数据。

s4:所述第四样本数据与所述第三样本数据构成第五样本数据,将所述第五样本数据进行编号,得到所述第五样本数据编号。

s5:按照所述第五样本数据编号将所述第五样本数据进行数据标记评价,构成所述样本数据的自评评价结果。

根据本发明的一个实施例,所述s4中所述第四样本数据与所述第三样本数据构成第五样本数据,包括:

将所述第四样本数据在所述第三样本数据中的编号与一数据常数的计算求和,得到所述第四样本数据编号,按照所述第四数据编号与所述第三数据编号的对应关系将所述第四样本数据、所述第三样本数据进行排列构成第五样板数据。

根据本发明的一个实施例,所述方法还包括:每份样本数据由有限个不同的标记评价构成横评评价结果。

根据本发明的一个实施例,所述自评评价结果与所述横评评价结果通过计算构成所述每份样本数据的最终评价结果。

本发明第二方面实施例提供了一种评价尺度稳定的数据标记分配、统计的系统,所述系统包括:

第一获取模块,用于获取所述样本数据的自评评价结果。

第二获取模块,用于获取所述样本数据的横评评价结果。

计算模块,用于根据所述第一获取模块获取的所述样本数据的自评评价结果以及所述第二获取模块获取的所述样本数据的横评评价结果计算得到所述样本数据的最终评价结果。

根据本发明公开的实施例,所述第一获取模块获取数据的方法包括:

s1:将所述第一样本数据进行编号,得到第一样本数据编号。

s2:将所述第一样本数据总量扩展为有限倍数的第二样本数据,将所述第二样本数据进行编号得到第二样本数据编号。

s3:将所述第二样本数据按照所述第二样本数据编号循环平均分配为有限份数;所述每份数的样本数据为第三样本数据;将所述第三样本数据进行编号得到所述第三样本数据编号;从所述第三样本数据中随机抽取有限份数的样本数据,记为第四样本数据。

s4:所述第四样本数据与所述第三样本数据构成第五样本数据,将所述第五样本数据进行编号,得到所述第五样本数据编号。

s5:按照所述第五样本数据编号将所述第五样本数据进行数据标记评价,构成所述样本数据的自评评价结果。

根据本发明公开的实施例,所述s4中所述第四样本数据与所述第三样本数据构成第五样本数据,包括:

将所述第四样本数据在所述第三样本数据中的编号与一数据常数的计算求和,得到所述第四样本数据编号,按照所述第四数据编号与所述第三数据编号的对应关系将所述第四样本数据、所述第三样本数据进行排列构成第五样板数据。

根据本发明公开的实施例,所述第一获取模块的横评评价结果由与每份样本数据相关的有限个不同的标记评价构成。

本发明的有益效果是:保证由不同标记人员分的的样本数据评价尺度公平性、一致性;大大节省了时间成本和人工成本,达到了在有限时间成本和人工成本下依然保证评价尺度一致性。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1是根据本发明公开实施例的所述评价尺度稳定的数据标记分配及统计的方法流程图;

图2是根据本发明公开实施例的所述评价尺度稳定的数据标记分配及统计的系统方框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明提供了一种评价尺度稳定的数据标记分配及统计的方法,通过同一样本分配给不同标记人员来横向对比计算出标记人员的评价尺度一致性权重,通过随机抽取样本重复分配给同一标记人员来计算出自身评价尺度的稳定性权重,再结合两种权重的组合影响计算出标记的加权得分。

图1为根据本发明公开实施例的所述评价尺度稳定的数据标记分配及统计的方法流程图,假设样本数据总量为n份,记为第一样本数据,标记人员数量为m名,方法包括:

s1:将第一样本数据进行编号,得到第一样本数据编号。

s2:将第一样本数据总量扩展为有限倍数的第二样本数据,将第二样本数据进行编号得到第二样本数据编号。

首先进行数据划分,包括将样本数据重复3次,即样本数据总量扩为3n份,此时每名标记人员的标记样本量3n/m份。假设其整除,如果不能整除,从n中随机抽取补足到可以整除(为叙述简便,假定总数还是3n份)。将3n份数据进行编号1~3n,循环分给m个包,每个包内3n/m份数据。每包内的数据会重新分配1~3n/m的序号,原编号与新序号的对应关系将被留存。样本数据重复3份后循环均分,使得只要标记人员在3人以上,都可以降低评价总份数,人员越多时间成本节省越明显。

为了保证标记人员的评价尺度客观一致,引入如下自评机制。

s3:将第二样本数据按照所述第二样本数据编号循环平均分配为有限份数;每份数的样本数据为第三样本数据;将第三样本数据进行编号得到第三样本数据编号;从第三样本数据中随机抽取有限份数的样本数据,记为第四样本数据。

将第四样本数据在第三样本数据中的编号与一数据常数的计算求和,得到第四样本数据编号,按照所述第四数据编号与所述第三数据编号的对应关系将所述第四样本数据、第三样本数据进行排列构成第五样板数据。具体地,将每包内的3n/m份数据中随机选取3n/5m份数据复制一份,并将其在新序号的基础上顺延3n/2m号(即在其新序号基础上加3n/2m,超过3n/m则序号再减去3n/m)。然后将汇总的3n/m+3n/5m份再次重新编序号,成为最终序号,新序号与最终序号的对应关系也将被留存。

s4:第四样本数据与第三样本数据构成第五样本数据,将第五样本数据进行编号,得到第五样本数据编号。

s5:按照第五样本数据编号将第五样本数据进行数据标记评价,构成样本数据的自评评价结果。

标记人员每人分得一包数据集,包内3n/m+3n/5m份数据。标记人员按序将数据逐份标记评价,直至完成。

通过留存的对应关系,识别出复制的样本,对应关系一直保存、单独计算处理,这样可以实现后面程序自动批量分包,不是每次都改样本文件上序号。比如在excel里处理序号相关内容,一个样本对应可能会有几个序号,分别是最开始1~n时的序号,1~3n时的序号,1~3n/m时的和1~3n/m+3n/5m的,还有所分配给的标记人员号1~m。对3n/5m份数据的两次评价进行比对,其一致程度将被用于计算出该位标记人员的自评权重。重复样本取其平均成绩作为专家对3n/5m份出现重复的样本的最终评价。

通过增加少部分重复样本数据,检验对已评价过的样本数据再次评价时尺度是否一致,保证标记人员自身的评价尺度始终一致。如果出现不一致,则降低该标记人员的评价结果权重。

此少部分重复样本数据在序号上的顺延处理,目的是在未有意说明的情况下,一定程度避免初次评价的印象残留影响。尽量使标记人员两次面对同一组样本数据时都是主观评价,而不是第一次是评价,第二次是发现这个是评价过的,然后重复第一次的评价。

具体方法的实现过程如下:邀请20位专家,3天的时间内,面向537台变压器运行状态数据进行打分,评价其运行状态。每台变压器取3个不同时段的各项状态指标集,共计1611份待评价数据。由于时间有限,数据量较大,故使用本专利分配方案进行数据分配及分数统计工作。

将数据编序号1~1611,循环3遍,分成20包,每包内242份数据,并将每包内序号重新统一成1~242。每包内242份数据中随机抽取48份数据,在其原有数据序号基础上增加120,并重新统一成序号1~290。

循环分配的目的是让每位标记人员拿到的数据各不相同。虽然拿到的样本数据序号都是1~3n/m+3n/5m,但1号标记人员的1号样本数据可能与5号标记人员的67号样本数据相同,以及可能与9号标记人员的32号样本数据相同。除非样本数据总数n整除标记人员m,否则每位标记人员分配到的样本数据都是各不相同的,避免标记人员间沟通导致的评价一致。循环分配的另一个效果是同一位标记人员一般会与不止一名其他标记人员做横向比对。也就是假如1号标记人员所拿到的1号样本数据与5号标记人员的67号样本数据相同,但1号标记人员所拿到的2号样本数据与6号标记人员的1号数据相同,而不是依然与5号人员的拿到的其他样本数据相同。这样更加保证了标记人员间的评价尺度一致性,避免私下统一评价结果。

以每包10个数据举例,具体的,1-a,2-b,3-c,4-d,5-e,6-f,7-g,8-h,9-i,10-j,数字表示目前标号顺序,字母表示样本内容。随机抽取2个,抽的是第4个d和第7个g,然后在自身标号基础上增加5,也就是说,两个样本号为4+5=9和7+5-10=2(因为超过包总数10)。然后整个样本序号为:1-a,2-b,2-g,3-c,4-d,5-e,6-f,7-g,8-h,9-i,9-d,10-j。然后按照这个分布重新排序为:1-a,2-b,3-g,4-c,5-d,6-e,7-f,8-g,9-h,10-i,11-d,12-j。这样最后形成1~12的新序号。这3组序号都会留存,思路写出来是1-1-1-a,2-2-2-b,3-2-4-d,4-3-3-c……其中第一位是最新的标号,第二位是抽取时的重复标记,第三位是原始标记,最后字母是内容。保证对映关系一直清楚,后续自评和统计都需要用。

此时每位专家分得一个序号为1~290的数据包,并对每份状态数据给出评价。其中48份是重复的数据,用来检验专家自身评价尺度的一致性;48份是序号增加120(超过290则序号再减290)使得两次相同的数据出现时间预计间隔1天,后一次的评价不易受前一次评价的印象影响。通过重复数据评价一致性计算该专家自评权重。

将48份重复数据每对评分平均后去重,剩余242份数据,其中每份数据会有另外两位专家同时给出了评价结果。如果其中某位专家与另外两位专家的评价出现明显偏差,则记为该专家的评价偏差。通过每位专家的评价偏差情况计算专家的横评权重。

每份状态数据的最终评价结果根据专家的自评权重与横评权重加权平均获得。

样本序号的循环分配且最终每包内统一成1~3n/m+3n/5m,使得标记人员得到的样本数据相互间都不相同,避免私下统一评价。

通过随机抽取数据重复来检验自身评价尺度的一致性,且出现时间滞后来避免首次评价对后一次评价的印象残留影响。并通过自评机制计算出标记人员的自评权重。

对同一样本的横评中将偏差评价作为专家的横评权重计算因素,算出标记人员的横评权重。

通过两种权重同时作用的多位标记人员的平均算法。

根据本发明的一个实施例,所述方法还包括:每份样本数据由有限个不同的标记评价构成横评评价结果。

将所有m名标记人员的打分表汇总成一个1~9n的汇总表,通过留存的对应关系恢复成3组1~3n序号的汇总表。这样,每个样本有3个不同的标记人员评价,即每个样本序号有3组标记。

如果对于同一个样本,3个评价中1个评价与另外2个评价差异明显,则判定此评价为偏差评价,如果3个评价都差异明显,则判定此样本为歧义样本,待重新讨论。

标记人员通过自身评价的偏差率(偏差评价占所有评价的比例)来计算横评部分的评价权重。

同一样本数据将有3位标记人员进行评价,从而保证针对同一样本数据标记人员间的评价尺度的一致。如果出现1位标记人员偏差评价,则降低该评价人员的评价结果权重。

根据本发明的一个实施例,自评评价结果与横评评价结果通过计算构成每份样本数据的最终评价结果。

每个样本的最终评价由3位标记人员评价的加权平均取得,计算公式如下:

即3位标记人员按照自身自评权重与横评权重在3位人员中占的影响比例乘以自身的评价后再求和。

公式(1)对3位标记人员的自评权重、横评权重与评价进行加权平均计算出最终评价结果。标记人员的权重越高,其对样本数据的评价对最终评价结果的影响越大,也就是说自身评价时保持前后评价一致且评价尺度与其他标记人员评价尺度一致,最终权重高,自己对样本数据的评价对最终评价结果的影响也大。

本发明的有益效果是:保证由不同标记人员分的的样本数据评价尺度公平性、一致性;大大节省了时间成本和人工成本,达到了在有限时间成本和人工成本下依然保证评价尺度一致性。

图2为一种评价尺度稳定的数据标记分配及统计的系统方框图,本发明第二方面提出了一种评价尺度稳定的数据标记分配及统计的系统,系统200包括,

第一获取模块201,用于获取样本数据的自评评价结果。

第二获取模块201,用于获取样本数据的横评评价结果。

计算模块203,用于根据第一获取模块获取的样本数据的自评评价结果以及第二获取模块获取的样本数据的横评评价结果计算得到样本数据的最终评价结果。

根据本发明公开的实施例,第一获取模块获取数据的方法包括:

s1:将第一样本数据进行编号,得到第一样本数据编号。

s2:将第一样本数据总量扩展为有限倍数的第二样本数据,将第二样本数据进行编号得到第二样本数据编号。

s3:将第二样本数据按照所述第二样本数据编号循环平均分配为有限份数;所述每份数的样本数据为第三样本数据;将第三样本数据进行编号得到第三样本数据编号;从第三样本数据中随机抽取有限份数的样本数据,记为第四样本数据。

s4:第四样本数据与第三样本数据构成第五样本数据,将第五样本数据进行编号,得到第五样本数据编号。

s5:按照第五样本数据编号将第五样本数据进行数据标记评价,构成样本数据的自评评价结果。

根据本发明公开的实施例,s4中所述第四样本数据与第三样本数据构成第五样本数据,包括:

将第四样本数据在第三样本数据中的编号与一数据常数的计算求和,得到第四样本数据编号,按照第四数据编号与第三数据编号的对应关系将第四样本数据、第三样本数据进行排列构成第五样板数据。

根据本发明公开的实施例,第一获取模块的横评评价结果由与每份样本数据相关的有限个不同的标记评价构成。

具体方法与前述方法相同,这里不再赘述。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元或模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块或单元的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元或模块可以是或者也可以不是物理上分开的,作为单元或模块显示的部件可以是或者也可以不是物理单元或模块,即可以位于一个地方,或者也可以分布到多个网络单元或模块上。可以根据实际的需要选择其中的部分或者全部单元或模块来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元或模块可以集成在一个处理单元或模块中,也可以是各个单元或模块单独物理存在,也可以两个或两个以上单元或模块集成在一个单元或模块中。上述集成的单元或模块既可以采用硬件的形式实现,也可以采用软件功能单元或模块的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1