时间特征的处理方法、处理装置与流程

文档序号:28740845发布日期:2022-02-07 22:00阅读:134来源:国知局
时间特征的处理方法、处理装置与流程

1.本发明涉及数据处理技术领域,具体涉及一种时间特征的处理方法、一种时间特征的处理装置。


背景技术:

2.目前,在工业领域,具有许多采用机器学习或者深度学习算法根据输入特征数据对相应的参数进行预测的场景,例如,在风光储发电站的场景中,最常采用并且研究最多的为采用机器学习或者深度学习算法根据输入特征数据对于电站的出力进行预测。
3.然而,在设计机器学习和深度学习算法时,许多场景的输入特征为时间特征,例如储能电站的输入特征大部分为气象特征,如风速、辐照度、气温、气压、湿度等,这些特征的值本身就具有较大的波动性并且相互之间存在耦合关系,在这种情况下,唯一绝对准确并且量化的特征为数据的采集时间,其能够反映其他各个特征和所需要的预测值随时间的变化情况。
4.然而,在数据类型中,时间特征是非常特殊的一种类型,虽然其中隐含的信息较多,但是时间特征中日期的构成形式为年、月、日,时间的构成方式为时、分、秒,都不是其他数值型数据采用的十进制方式。在这种情况下,如果直接将时间特征作为特征输入机器学习模型和深度学习模型进行训练,会造成模型无法判断其与其他采用十进制数值特征之间的差异,从而使模型训练失败或者大幅度降低模型的预测准确性。


技术实现要素:

5.为解决上述技术问题,本发明的第一个目的在于提出一种时间特征的处理方法,将时间特征数据转化成十进制数值型数据后再进行学习,可以解决因其形式特殊而造成的问题,且采用机器学习模型的方式从训练数据集和测试数据集双向对于时间特征进行学习,可以挖掘时间特征在面向的各类预测场景中的隐含信息,进而可以提高根据时间特征使用机器学习或深度学习对参数进行预测时的准确程度。
6.本发明的第二个目的在于提出一种时间特征的处理装置。
7.本发明采用的技术方案如下:
8.本发明第一方面的实施例提出了一种时间特征的处理方法,包括以下步骤:获取数据集,所述数据集包括时间特征和与所述时间特征对应的参数预测值,所述时间特征包括日期和时刻;将所述数据集分为训练数据集、交叉验证数据集和测试数据集;将所述训练数据集中的时间特征转化为十进制数值型时间特征后,采用聚类算法对所述训练数据集进行聚类,并输出聚类结果;采用至少一种用于分类的机器学习算法对所述时间特征和所述聚类结果进行机器学习;采用所述交叉验证数据集验证所述机器学习算法输出结果的准确性,并根据所述准确性对所述机器学习算法的参数进行调整,直到机器学习算法训练出符合要求的分类模型;将所述测试数据集中的时间特征转化为十进制数值型时间特征后,输入所述分类模型,以使所述分类模型输出分类结果。
9.本发明上述提出的时间特征的处理方法还可以具有如下附加技术特征:
10.根据本发明的一个实施例,将所述数据集分为训练数据集、交叉验证数据集和测试数据集,具体包括:将所述数据集的60%作为训练数据集、20%作为交叉验证数据集、20%作为测试数据集。
11.根据本发明的一个实施例,所述聚类算法包括k均值聚类算法。
12.根据本发明的一个实施例,所述用于分类的机器学习算法包括三个。
13.根据本发明的一个实施例,所述用于分类的机器学习算法包括:支持向量机、gbdt(gradient boosting decision tree,梯度下降树)分类和逻辑回归。
14.本发明第二方面的实施例提出了一种时间特征的处理装置,包括:获取模块,所述获取模块用于获取数据集,并将所述数据集分为训练数据集、交叉验证数据集和测试数据集,其中,所述数据集包括时间特征和与所述时间特征对应的参数预测值,所述时间特征包括日期和时刻;转化模块,所述转化模块用于将所述训练数据集中的时间特征转化为十进制数值型时间特征后,采用聚类算法对所述训练数据集进行聚类,并输出聚类结果;机器学习模块,所述机器学习模块用于采用至少一种用于分类的机器学习算法对所述时间特征和所述聚类结果进行机器学习;训练模块,所述训练模块用于采用所述交叉验证数据集验证所述机器学习算法输出结果的准确性,并根据所述准确性对所述机器学习算法的参数进行调整,直到机器学习算法训练出符合要求的分类模型;处理模块,所述处理模块用于将所述测试数据集中的时间特征转化为十进制数值型时间特征后,输入所述分类模型,以使所述分类模型输出分类结果。
15.本发明上述提出的时间特征的处理装置还可以具有如下附加技术特征:
16.根据本发明的一个实施例,所述获取模块具体用于:将所述数据集的60%作为训练数据集、20%作为交叉验证数据集、20%作为测试数据集。
17.根据本发明的一个实施例,所述聚类算法包括k均值聚类算法。
18.根据本发明的一个实施例,所述用于分类的机器学习算法包括三个。
19.根据本发明的一个实施例,所述用于分类的机器学习算法包括:支持向量机、gbdt分类和逻辑回归。
20.本发明的有益效果:
21.本发明将时间特征数据转化成十进制数值型数据后再进行学习,可以解决因其形式特殊而造成的问题,且采用机器学习模型的方式从训练数据集和测试数据集双向对于时间特征进行学习,可以挖掘时间特征在面向的各类预测场景中的隐含信息,进而可以提高根据时间特征使用机器学习或深度学习对参数进行预测时的准确程度。
附图说明
22.图1是根据本发明一个实施例的时间特征的处理方法的流程图。
23.图2是根据本发明一个实施例的时间特征的处理方法的原理框图;
24.图3是根据本发明一个实施例的时间特征的处理装置的方框示意图。
具体实施方式
25.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
26.图1是根据本发明一个实施例的时间特征的处理方法的流程图。如图1所示,该方法包括以下步骤:
27.s1,获取数据集,数据集包括时间特征和与时间特征对应的参数预测值,时间特征包括日期和时刻。
28.举例而言,以某储能电站的出力数据表为例,数据集可以如下表1所示:
29.表1
[0030][0031][0032]
可以理解的是,表1仅是示出数据集的部分数据,实际应用场景数据集的数据应包括大量的现场数据。表1中的出力即为参数预测值。
[0033]
s2,将数据集分为训练数据集、交叉验证数据集和测试数据集。
[0034]
在本发明的一个实施例中,将数据集的60%作为训练数据集、20%作为交叉验证数据集、20%作为测试数据集。
[0035]
s3,将训练数据集中的时间特征转化为十进制数值型时间特征后,采用聚类算法
对训练数据集进行聚类,并输出聚类结果。
[0036]
进一步地,在本发明的一个实施例中,聚类算法包括k均值聚类算法。
[0037]
具体地,针对表1的数据集,将时间特征(包括日期和时刻)转为十进制数值型数据后的数据如下表2所示:
[0038]
表2
[0039][0040][0041]
在将时间特征(包括日期和时刻)转为十进制数值型数据的基础上,采用k均值聚类算法(k-means)对于训练数据集进行聚类,测试数据集中增加一列聚类结果栏记录聚类的结果,如下表3所示:
[0042]
表3
[0043][0044][0045]
根据k均值聚类算法对于训练数据集进行聚类,数据被聚成了2类,分别代表的是储能电站的无出力和有出力情况,初步反映了不同的时刻下储能电站是否有出力,聚类结果为0的表示在这些时刻下储能电站无出力,聚类结果为1的表示这些时刻下储能电站有出力。
[0046]
s4,采用至少一种用于分类的机器学习算法对时间特征和聚类结果进行机器学习。
[0047]
进一步地,在本发明的一个实施例中,用于分类的机器学习算法可以包括三个,例如,用于分类的机器学习算法包括:支持向量机(svm,support vector machine)、gbdt分类和逻辑回归(logistic regression)。
[0048]
具体地,采用三种专门用于分类的机器学习算法对于时间特征和聚类结果进行机器学习,三种机器学习算法分别为支持向量机、gbdt分类和逻辑回归。采用三种机器学习算法可以提高根据时间特征与出力结果判断两者的关系并进而进行分类的准确性。
[0049]
s5,采用交叉验证数据集验证机器学习算法输出结果的准确性,并根据准确性对机器学习算法的参数进行调整,直到机器学习算法训练出符合要求的分类模型。
[0050]
具体地,采用交叉验证数据集分别验证训练完成的三个机器学习算法输出结果的
准确性,对于三个机器学习算法的参数进行调整,直到三个算法都能够训练出符合要求的分类模型。
[0051]
s6,将测试数据集中的时间特征转化为十进制数值型时间特征后,输入分类模型,以使分类模型输出分类结果。
[0052]
具体地,将测试数据集的时间特征转化成十进制数值数据可以参照下表4所示:
[0053]
表4
[0054][0055]
将时间特征,即上表4的“时刻(数值)”分别送入三个已经训练完成的分类模型,输出的预测结果为是否有出力,三个分类模型输出的预测结果采用投票机制,投票高的分类为确定的分类,其中分类结果为0表示没有出力,分类结果为1表示有出力。如下表5所示:
[0056]
表5
[0057][0058]
由此,完成了对于时间特征的数值化处理和分类处理,输出的数值化时间数据和分类结果可以供之后的其他场景的参数预测进行进一步使用,分类结果为带时间特征的分类结果。
[0059]
本发明的实施例中有无出力表示为0和1两类,针对其他的场景可以根据k均值聚类算法对于训练数据集进行聚类的结果进行更多的分类,自动判断适合于预测值的时间颗粒度。
[0060]
为使本领域技术人员更清楚地理解本发明,下面结合图2所示的框图进一步对本发明的时间特征的处理方法进行说明。
[0061]
如图2所示,获取数据集后,先将数据集分为训练数据集、交叉验证数据集和测试数据集,其中,将训练数据集中的时间特征转化为十进制数值型时间特征后,采用k均值聚类算法对训练数据集进行聚类,并输出聚类结果。
[0062]
采用支持向量机、gbdt分类和逻辑回归三种专门用于分类的机器学习算法对于时间特征和聚类结果进行机器学习,同时采用交叉验证数据集验证三个机器学习算法输出结果的准确性,对三个机器学习算法的参数进行调整,直到支持向量机、gbdt分类和逻辑回归都能够训练出符合要求的分类模型,即直到训练出符合要求的支持向量机模型、gbdt模型和逻辑回归模型。将测试数据集中的时间特征转化为十进制数值型时间特征后,将十进制数值型时间特征输入训练后的分类模型,分类模型输出的预测结果采用投票机制,投票高的分类为确定的分类,输出分类结果。
[0063]
综上,根据本发明实施例的时间特征的处理方法,将时间特征数据转化成十进制数值型数据后再进行学习,可以解决因其形式特殊而造成的问题,且采用机器学习模型的方式从训练数据集和测试数据集双向对于时间特征进行学习,可以挖掘时间特征在面向的
各类预测场景中的隐含信息,进而可以提高根据时间特征使用机器学习或深度学习对参数进行预测时的准确程度。
[0064]
与上述的时间特征的处理方法相对应,本发明还提出一种时间特征的处理装置。由于本发明的装置实施例与上述的方法实施例相对应,对于装置实施例中未披露的细节,可参照上述的方法实施例,本发明中不再进行赘述。
[0065]
图3是根据本发明一个实施例的时间特征的处理装置的方框示意图。如图3所示,该装置包括:获取模块1、转化模块2、机器学习模块3、训练模块4和处理模块5,其中,
[0066]
获取模块1用于获取数据集,并将数据集分为训练数据集、交叉验证数据集和测试数据集,其中,数据集包括时间特征和与时间特征对应的参数预测值,时间特征包括日期和时刻,转化模块2用于将训练数据集中的时间特征转化为十进制数值型时间特征后,采用聚类算法对训练数据集进行聚类,并输出聚类结果;机器学习模块3用于采用至少一种用于分类的机器学习算法对时间特征和聚类结果进行机器学习;训练模块4用于采用交叉验证数据集验证机器学习算法输出结果的准确性,并根据准确性对机器学习算法的参数进行调整,直到机器学习算法训练出符合要求的分类模型;处理模块5用于将测试数据集中的时间特征转化为十进制数值型时间特征后,输入分类模型,以使分类模型输出分类结果。
[0067]
根据本发明的一个实施例,获取模块1具体用于:将数据集的60%作为训练数据集、20%作为交叉验证数据集、20%作为测试数据集。
[0068]
根据本发明的一个实施例,聚类算法包括k均值聚类算法。
[0069]
根据本发明的一个实施例,用于分类的机器学习算法包括三个。
[0070]
根据本发明的一个实施例,用于分类的机器学习算法包括:支持向量机、gbdt分类和逻辑回归。
[0071]
综上,根据本发明实施例的时间特征的处理装置,将时间特征数据转化成十进制数值型数据后再进行学习,可以解决因其形式特殊而造成的问题,且采用机器学习模型的方式从训练数据集和测试数据集双向对于时间特征进行学习,可以挖掘时间特征在面向的各类预测场景中的隐含信息,进而可以提高根据时间特征使用机器学习或深度学习对参数进行预测时的准确程度。
[0072]
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0073]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针
对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0074]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0075]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0076]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0077]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0078]
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0079]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
[0080]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1