数据自动打标签方法和装置与流程

文档序号:20685069发布日期:2020-05-08 18:45阅读:914来源:国知局
数据自动打标签方法和装置与流程

本发明涉及数据处理领域,具体涉及一种数据自动打标签方法和装置。



背景技术:

随着计算机技术和通讯技术的飞速发展,人们可以获得越来越多的数据,但同时也需要投入更多的时间对数据进行组织和整理,在对数据进行组织和整理的前提是需要对数据进行打标签,这样针对不同标签的数据才能进行后期的组织、整理和应用。由于数据属性的不同,一部分数据是没有规律可寻的,例如人脸识别、语音、自动驾驶等领域的数据,而一部分数据本身具有一定的规律或趋势性,例如互联网数据中心(idc)机房的数据,其包括温度、湿度、电量、制冷量等数据,这些数据根据季节或者采集周期均有一定的规律和趋势性。

目前对数据打标签主要集中在人脸识别、自动驾驶等这些没有规律性的数据,而针对idc机房数据这样具有一定规律和趋势性的数据并没有很好的解决方案。



技术实现要素:

本发明主要解决的技术问题是提供一种针对具有规律或趋势性的数据打标签的方法和装置。

根据第一方面,一种实施例中提供一种数据自动打标签方法,包括:

数据获取步骤,获取当前数据;

标签标注步骤,分别获取两个以上预设的预测模型所输出的与当前数据为同一时间点的预测值,分别将所述预测值与当前数据进行比较,若比较结果在预设范围内,则将所述当前数据标注为对应预测模型正常标签;否则,将所述当前数据标注为对应预测模型异常标签;

标签分析步骤,若该当前数据的所有预测模型对应的标签均为正常标签,则将该当前数据标注为有效数据;若该当前数据的所有预测模型对应的标签均为异常标签,则将该当前数据标注为无效数据;若该当前数据的预测模型对应的标签同时包括异常标签和正常标签,则对所述当前数据进行人工标注。

进一步地,根据以下公式得到预测值和当前数据的比较结果:

其中,p为预测值,c为当前数据,a为预测值和当前数据的比较结果。

进一步地,所述当前数据为当前温度数据。

进一步地,所述预设的预测模型为季节性预测模型和差分整合移动平均自回归模型。

进一步地,还包括:

计算当前温度数据通过季节性预测模型预测得到异常标签的概率和通过差分整合移动平均自回归模型预测得到异常标签的概率;

若通过季节性预测模型预测得到异常标签的概率大于通过差分整合移动平均自回归模型预测得到异常标签的概率,则将季节性预测模型作为最优预测模型;否则,将差分整合移动平均自回归模型作为最优预测模型。

进一步地,根据以下公式计算当前温度数据通过季节性预测模型/差分整合移动平均自回归模型预测得到异常标签的概率b:

其中,e为当前温度数据通过季节性预测模型/差分整合移动平均自回归模型预测得到异常标签的数量,z为当前温度数据通过季节性预测模型/差分整合移动平均自回归模型预测得到异常标签和正常标签的数量。

进一步地,所述获取当前数据,包括:

判断当前数据是否为噪声数据,若是,则将该当前数据标注为噪声标签;否则,不对当前数据进行标注。

根据第二方面,一种实施例中提供一种数据自动打标签装置,包括:

数据获取模块,用于获取数据;

标注模块,用于分别获取两个以上预设的预测模型所输出的与当前数据为同一时间点的预测值,分别将所述预测值与当前数据进行比较,若比较结果在预设范围内,则将所述当前数据标注为对应预测模型正常标签;否则,将所述当前数据标注为对应预测模型异常标签;

标签分析模块,若该当前数据的所有预测模型对应的标签均为正常标签,则将该当前数据标注为有效数据;若该当前数据的所有预测模型对应的标签均为异常标签,则将该当前数据标注为无效数据;若该当前数据的预测模型对应的标签同时包括异常标签和正常标签,则对所述当前数据进行人工标注。

进一步地,所述以下公式计算预测值和当前数据的比较结果:

其中,p为预测值,c为当前数据,a为预测值和当前数据的比较结果。

进一步地,所述当前数据为当前温度数据,所述预设的预测模型为季节性预测模型和差分整合移动平均自回归模型。

依据上述实施例的数据自动打标签方法/装置,由于采用多种与数据本身所具有的规律性或趋势性相对应的预测模型进行预测,再根据预测值对数据进行标签标注,使得每个数据包含多种标签,对同一时间点的标签进行对比分析,再结合人工对标签的校正,提高了数据标签的准确度;并且通过计算和比较标签的异常率,可得到最优预测模型,能够精准、快速地分析数据的正常、异常和噪声等信息,为后续数据的训练和测试提供了数据基础。

附图说明

图1为一种数据自动打标签方法的流程图;

图2为一种实施例的数据自动打标签装置的结构框图;

图3为一种实施例的数据自动打标签方法的流程图;

图4为另一种实施例的数据自动打标签方法的流程图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。

在本发明实施例中,采用多种预测模型对现有数据进行预测,分别根据其预测值和当前数据之间的比较结果来对实际数据进行标注。相较于现有技术的单一预测模型,不同的预测模型输出不同的标签,通过对比,可提高数据标签的准确度,为后续数据的训练和测试提供更精确的数据基础。请参考图1,本发明提供的数据自动打标签方法,包括如下步骤:

s1,数据获取步骤:获取数据,所述数据为idc机房数据,其包括温度、湿度、用电量、制冷量等数据,并判断当前数据是否为噪声数据,若是,则将该当前数据标注为噪声标签;否则,不对当前数据进行标注。判断当前数据是否为噪声数据可以采用现有的各种去噪算法,如k-近邻法、3δ法等,本实施例根据数据规律预设了噪声范围,例如噪声范围为[a,b],若当前数据不在该范围[a,b]内,则为噪声数据。

s2,标签标注步骤:分别计算两个以上预设的预测模型所对应的预测值和当前数据的比较结果,本实施例提前根据场景定义了一阈值范围,根据该阈值范围来判定所述当前数据是正常还是异常,若其比较结果在预设范围内,则说明所述当前数据为正常,将所述当前数据标注为对应预测模型的正常标签,反之为异常,将当前数据标注为对应预测模型的异常标签。通过该步骤,所述当前数据通过不同预测模型的预测值而标注了多个标签,每个标签对应于一种预测模型。

s3,标签分析步骤:由于当前数据包括有多个标签,故需要统计多个标签的标注类型来对当前数据再次标注,若当前数据的所有预测模型对应的标签均为正常标签,则将当前数据标注为有效数据,标注为有效数据的数据可以直接作为后续构建数据模型时对数据进行训练和测试使用;若当前数据的所有预测模型对应的标签均为异常标签,则将当前数据标注为无效数据,若为无效数据,则应该将当前数据进行舍弃,不作为后续构建数据模型所用;若当前数据的标签同时包括异常标签和正常标签,则说明idc机房数据存在一定的异常,需要人工进行实地考察,根据考察结果,对该实际数据进行人工标注。本发明以温度数据为例,对本发明的具体实施过程进行阐述。

实施例一:

请参考图3,本实施例提供了一种针对温度数据进行打标签的方法,包括如下步骤:

s10,如图2,构建预测模型40,根据idc机房温度数据的特点,由于机房内处于恒温环境,故采用差分整合移动平均自回归模型进行预测,机房外由于温度受季节变换影响则采用季节性预测模型进行预测。

s101,通过温度采集装置(如温度传感器)采集多个周期机房外和机房内的温度数据,由于温度数据多呈现早晚温度较低、中午温度较高的规律,故以天作为温度数据的周期,本实施例中获取的批量温度数据至少为两到三个周期的温度数据。

s102,在采集温度数据时多采用温度传感器进行温度数据的采集,再将所采集温度数据传输至处理器(如单片机或dsp)中,受温度传感器的稳定性和传输过程中噪声干扰的影响,需要对温度数据进行去噪处理和缺失值填补,同样去噪处理可采用现有的多种去噪算法进行,也可以预设一噪声范围,例如噪声范围为[a,b],若存在温度数据不在该范围[a,b]内,则为噪声数据,对噪声数据进行滤除。在对噪声进行滤除后,还需对缺失的温度数据进行填补,常用的缺失值填补方法有均值法、中位数法、众数法和随机数填补法等,由于idc机房环境相对稳定,其各项数据短时间因素决定不显著,故本实施例采用平均值填补法对缺失值进行填补,平均值填补法是对缺失数据位相邻时间的多个数据求平均值,将所求平均值作为缺失值填补在缺失数据位处。

s103,将预处理后的温度数据先存入缓存topic中,然后定时对缓存topic中的数据进行读取,本实施例一般至少两到三个周期对缓存topic中的数据进行读取,以机房内的温度数据和机房外的温度数据进行分开读取。

当采用差分整合移动平均自回归模型作为预测模型时,包括如下步骤:

s1031,构建arima(p,d,q)模型,arima(p,d,q)模型为差分整合移动平均自回归模型,在该模型中,随着时间的推移,预测值形成了一系列的数据序列,将该数据序列视为一个随机序列,这组随机变量所具有的依存关系体现着原始数据在时间上的延续性,其可以定义为:

其中,p为自回归的阶数;d为差分阶数;q为滑动平均阶数,i是时间序列在t时刻的观察值经过d次差分后的平稳序列,εt是模型在t时刻的误差或偏差,为自回归参数,θi为移动平均参数。

s1032,对arima(p,d,q)模型进行训练,获取arima(p,d,q)模型中的参数p、d、q,即得到训练好的差分整合移动平均自回归模型;

将机房内的温度数据划分为训练集和测试集,将训练集中的温度数据输入arima(p,d,q)模型进行训练,每训练一次,再将测试集中的温度数据输入模型中进行测试,直至得到最优参数p、d、q,使得预测值和实际温度数据误差最小为止。

然后利用训练集和测试集中的数据对差分整合移动平均自回归模型进行训练,以得到差分整合移动平均自回归模型的最优参数,其分别为自回归的阶数(p)、差分阶数(d)和滑动平均阶数(q),即得到训练好的差分整合移动平均自回归模型。

当采用季节性预测模型作为预测模型时,包括如下步骤:

s1033,根据温度数据的特点,构建加法或乘法模型;

例如当今天的温度数据比昨天的温度数据在同一时间点高出1℃,则采用加法模型,其定义如下:

si=α(xi-pi-k)+(1-α)(si-1+ti-1)

ti=β(si-si-1)+(1-β)ti-1

pi=γ(xi-si)+(1-γ)pi-k

预测公式为:

xi+h=si+hti+pi-k+h

其中,α是数据平滑因子,0<α<1;β是趋势平滑因子,0<β<1;γ是季节改变平滑因子0<γ<1;si是第i步经过平滑的值,xi是当前时间点的当前温度数据,h为未来预测的温度数据个数,xi+h则为当前温度数据未来第h个数据的预测值,ti代表平滑后的趋势,pi为周期性的分量,代表周期的长度,k指的是这个温度数据周期的长度(如天)。

例如今天的温度数据比昨天在同一时间点高出1%,其季节趋势是“累乘性的”,采用乘法模型,其定义如下:

ti=β(si-si-1)+(1-β)ti-1

预测公式为:

xi+h=(si+hbi)pi-k+h

其中,α是数据平滑因子,0<α<1;β是趋势平滑因子,0<β<1;γ是季节改变平滑因子0<γ<1;si是第i步经过平滑的值;xi是当前时间点的当前温度数据,h为未来预测的温度数据个数;xi+h则为当前温度数据未来第h个数据的预测值ti代表平滑后的趋势;pi为周期性的分量,其代表周期的长度;k指的是这个温度数据周期的长度(如天)。

s1034,对加法或乘法模型进行训练,获取模型中的参数s(水平)、t(趋势)、p(季节),在初始状态下参数取值为:s0=x0,即得到训练好的季节性预测模型;

将机房外的温度数据划分为训练集和测试集,先将训练集中的温度数据输入加法或乘法模型中,每训练一次,再将测试集中的温度数据输入模型中进行检测,调节模型参数,直至得到最优的参数s(水平)、t(趋势)、p(季节),使得预测值和实际温度数据误差最小为止,即可得到训练好的季节性预测模型。

s104,将上述温度数据根据其获取位置再次分别输入训练好的差分整合移动平均自回归模型和季节性预测模型中,可分别得到不同预测模型对应输出的当前时间点的未来1-2个周期的每个时间点的预测值,即可得到每个预测模型在连续时间点的预测温度值。

s20,如图2,数据获取步骤通过数据获取模块10获取当前时间点的当前温度数据;该当前时间点应该为上述所预测的未来时间点。

s30,如图2,标注步骤通过标注模块20根据上述步骤找到与当前温度数据同一时间点的季节性预测模型输出的预测值p1,通过公式(1)计算预测值p1与当前温度数据的比较结果a1:

其中,c为当前数据(当前温度数据),p1为季节性预测模型输出的预测值,a1为预测值p1与当前温度数据的比较结果。

若上述比较结果a1在预设范围内,则将所述当前温度数据标注为季节性预测模型正常标签;否则,将所述当前数据标注为季节性预测模型异常标签。

同样,根据标注模块通过公式(2)计算当前温度数据与同一时间点的差分整合移动平均自回归模型所输出预测值p2的比较结果a2:

其中,c为当前数据(当前温度数据),p2为差分整合移动平均自回归模型输出的预测值,a2为预测值p2与当前温度数据的比较结果。

若上述比较结果a2在预设范围内,则将所述当前温度数据标注为季节性预测模型正常标签;否则,将所述当前数据标注为差分整合移动平均自回归模型异常标签。

本实施例将当前温度数据及其标签信息存储在存储介质es中,当经过一段时间后,存储介质es中存储了每个时间点温度数据的标签信息,本实施例还提供了用户界面用于查询任一时间点的温度数据的标签信息,在用户界面上可以横向对比同一时间点下不同预测模型的标注结果。

s40,由上可知,当前温度数据包括有两种标签,为了更好的为后续数据应用提供数据基础,如图2,标签分析步骤通过标签分析模块30对当前温度数据的两种标签再次进行分析处理。

s41,若该当前数据的季节性预测模型标签和差分整合移动平均自回归模型标签均为正常标签,则认为该数据为有效数据。

s42,若当前数据的季节性预测模型标签为正常、差分整合移动平均自回归模型标签为异常,或者季节性预测模型标签为异常、差分整合移动平均自回归模型标签为正常,则认为机房存在一定概率的温度异常,需要实地考察,根据考察结果人工修改标注,如果机房实地考察后,结合运营工作经验,认为当前温度数据属于正常情况,则把相应的异常标签的人为修改为正常标签,并将该当前温度数据标注为有效数据;反之,认为当前温度数据存在异常,则不予修改。

s43,若该当前数据的季节性预测模型标签和差分整合移动平均自回归模型标签均为异常标签,则将该当前数据标注为无效数据。

本实施例通过在用户界面上横向对比同一时间点不同预测模型的标注结果,再结合人工对标注结果进行校对更正,通过自动+人工的方式保证数据标注结果的准确性。

实施例二:

请参考图4,本实施例在实施例一的基础上,提供了在季节性预测模型标签和差分整合移动平均自回归模型中找到最优预测模型的方法,包括:

s50,异常标签概率统计步骤,统计当前温度数据的季节性预测模型异常标签的数量和标签总数量,以及当前温度数据的差分整合移动平均自回归模型异常标签的数量和标签总数量;

根据上述统计结果,根据公式(3)计算当前温度数据通过季节性预测模型预测得到异常标签的概率和通过差分整合移动平均自回归模型预测得到异常标签的概率;

其中,e为当前温度数据通过季节性预测模型/差分整合移动平均自回归模型预测得到异常标签的数量,z为当前温度数据通过季节性预测模型/差分整合移动平均自回归模型预测得到异常标签和正常标签的数量。

s60,判断最优预测模型步骤,若通过季节性预测模型预测得到异常标签的概率大于通过差分整合移动平均自回归模型预测得到异常标签的概率,其说明当前温度数据符合差分整合移动平均自回归模型的数据特点(非季节性,温度变化平稳),则将季节性预测模型作为最优预测模型;否则,说明当前温度数据符合季节性预测模型的数据特点(季节性和趋势性),将差分整合移动平均自回归模型作为最优预测模型。

根据一段时间对温度数据的标注,即可得到在一段时间内的最优预测模型,可选择该最优预测模型对未来时间点的温度数据进行预测,提高了预测速度和精度。

以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1