一种数据处理、数据预测方法与流程

文档序号:31759144发布日期:2022-10-12 02:26阅读:56来源:国知局
一种数据处理、数据预测方法与流程

1.本说明书的实施方式涉及计算机技术领域,更具体地,本说明书的实施方式涉及一种数据处理、数据预测方法。


背景技术:

2.本部分旨在为权利要求书中陈述的本说明书的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.数据预测是机器学习的重要应用之一,通常可以根据已知的数据预测与之相关的未知的数据。不同的数据有着不同的变化规律与趋势,通常需要使用不同的方法对不同类型的数据进行数据预测。


技术实现要素:

4.为克服相关技术中存在的问题,本说明书提供了以下方法及装置。
5.在本说明书实施方式的第一方面中,提供了一种数据处理方法;所述方法包括:
6.获取第一样本数据集;所述第一样本数据集包括多组第一样本数据;
7.使用预设的多种预测算法针对所述第一样本数据分别进行数据预测,得到所述第一样本数据对应于所述多种预测算法的多个数据预测结果;
8.基于所述多个数据预测结果,分别计算性能指标,得到与所述多种预测算法对应的多个性能指标;其中,所述性能指标用于描述与其对应的预测算法针对所述第一样本数据进行数据预测的准确程度;
9.基于所述多个性能指标生成样本标签,并将生成的样本标签添加至所述第一样本数据;其中,添加了所述样本标签的第一样本数据,用于作为训练样本训练算法筛选模型;所述算法筛选模型用于在针对第二样本数据集中的第二样本数据进行数据预测的过程中,从所述多种预测算法中筛选出与所述第二样本数据适配的目标预测算法。
10.在本说明书实施方式的第二方面中,提供了一种数据预测方法,所述方法包括:
11.获取第二样本数据集;所述第二样本数据集包括多组第二样本数据;
12.将所述第二样本数据输入算法筛选模型进行筛选计算;其中,所述算法筛选模型用于在预设的多种预测算法中筛选出所述第二样本数据适配的目标预测算法;所述算法筛选模型通过将第一样本数据集中的第一样本数据作为训练样本训练得到;所述第一样本数据集中的第一样本数据被添加了样本标签;所述样本标签为基于所述多种预测算法针对所述第一样本数据分别进行数据预测得到的预测结果的性能指标生成的样本标签;
13.基于所述算法筛选模型的筛选计算结果,从所述多种预测算法中筛选出所述第二样本数据适配的目标预测算法;
14.基于所述目标预测算法,针对所述第二样本数据进行数据预测。
15.在本说明书实施方式的第三方面中,提供了一种存储介质;所述存储介质上存储有计算机程序,该计算机程序执行时实现如下所述方法的步骤:
16.获取第一样本数据集;所述第一样本数据集包括多组第一样本数据;
17.使用预设的多种预测算法针对所述第一样本数据分别进行数据预测,得到所述第一样本数据对应于所述多种预测算法的多个数据预测结果;
18.基于所述多个数据预测结果,分别计算性能指标,得到与所述多种预测算法对应的多个性能指标;其中,所述性能指标用于描述与其对应的预测算法针对所述第一样本数据进行数据预测的准确程度;
19.将所述多个性能指标作为样本标签分别添加至对应的第一样本数据;其中,添加了所述样本标签的第一样本数据,用于作为训练样本训练算法筛选模型;所述算法筛选模型用于在所述多种预测算法中筛选出与输入所述算法筛选模型的样本数据适配的目标预测算法。
20.获取第二样本数据集;所述第二样本数据集包括多组第二样本数据;
21.将所述第二样本数据输入算法筛选模型进行筛选计算;其中,所述算法筛选模型用于在预设的多种预测算法中筛选出所述第二样本数据适配的目标预测算法;所述算法筛选模型通过将第一样本数据集中的第一样本数据作为训练样本训练得到;所述第一样本数据集中的第一样本数据被添加了样本标签;所述样本标签为基于所述多种预测算法针对所述第一样本数据分别进行数据预测得到的预测结果的性能指标样本标签;
22.基于所述算法筛选模型的筛选计算结果,从所述多种预测算法中筛选出所述第二样本数据适配的目标预测算法;
23.基于所述目标预测算法,针对所述第二样本数据进行数据预测。
24.在本说明书实施方式的第四方面中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如下方法:
25.获取第一样本数据集;所述第一样本数据集包括多组第一样本数据;
26.使用预设的多种预测算法针对所述第一样本数据分别进行数据预测,得到所述第一样本数据对应于所述多种预测算法的多个数据预测结果;
27.基于所述多个数据预测结果,分别计算性能指标,得到与所述多种预测算法对应的多个性能指标;其中,所述性能指标用于描述与其对应的预测算法针对所述第一样本数据进行数据预测的准确程度;
28.将所述多个性能指标作为样本标签分别添加至对应的第一样本数据;其中,添加了所述样本标签的第一样本数据,用于作为训练样本训练算法筛选模型;所述算法筛选模型用于在所述多种预测算法中筛选出与输入所述算法筛选模型的样本数据适配的目标预测算法。
29.获取第二样本数据集;所述第二样本数据集包括多组第二样本数据;
30.将所述第二样本数据输入算法筛选模型进行筛选计算;其中,所述算法筛选模型用于在预设的多种预测算法中筛选出所述第二样本数据适配的目标预测算法;所述算法筛选模型通过将第一样本数据集中的第一样本数据作为训练样本训练得到;所述第一样本数据集中的第一样本数据被添加了样本标签;所述样本标签为基于所述多种预测算法针对所述第一样本数据分别进行数据预测得到的预测结果的性能指标样本标签;
31.基于所述算法筛选模型的筛选计算结果,从所述多种预测算法中筛选出所述第二
样本数据适配的目标预测算法;
32.基于所述目标预测算法,针对所述第二样本数据进行数据预测。
33.本说明书以上的实施方式,至少具有如下的有益效果:
34.在以上技术方案中,通过在针对待预测数据进行预测计算的流程中,引入一个预先训练完的算法筛选模型,并基于该算法筛选模型从预设的多种预测算法中筛选出与待预测数据适配的预测性能最佳的预测算法,使得现有的预测框架,能够具备自动从多种预测算法中筛选出最佳性能的算法的能力,从而可以提高现有的预测框架的针对不同的数据样本的适应性,以及在进行数据预测时的通用性和预测准确度。
附图说明
35.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
36.图1示意性地示出了根据本说明书实施方式的一种数据处理、数据预测系统的架构示意图;
37.图2示意性地示出了根据本说明书实施方式的一种数据处理方法的流程图;
38.图3示意性地示出了根据本说明书实施方式的一种数据预测方法的流程图;
39.图4示意性地示出了根据本说明书实施方式的一种数据处理和预测方法的示意图;
40.图5示意性地示出了根据本说明书实施方式的一种数据处理方法的预测计算生成样本标签的示意图;
41.图6示意性地示出了根据本说明书实施方式的一种数据处理装置的框图;
42.图7示意性地示出了根据本说明书实施方式的一种数据预测装置的框图;
43.图8示意性地示出了根据本说明书实施方式的一种数据处理、数据预测方法所在计算机设备的一种硬件结构图。
44.在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
45.下面将参考若干示例性实施方式来描述本说明书的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本说明书,而并非以任何方式限制本说明书的范围。相反,提供这些实施方式是为了使本说明书更加透彻和完整,并且能够将本说明书的范围完整地传达给本领域的技术人员。
46.本领域技术人员知道,本说明书的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本说明书可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
47.在数据预测领域,需要根据已知的数据来预测与其相关的未知数据。例如,在零售、供应链、能源、安防、金融等领域,通常需要对未来的相关销售数据、供需数据、生产数据等进行预测。
48.针对这些数据需求,相关技术中可以采用基于统计类方法或深度学习的多种数据预测算法进行数据预测,例如npts(non-parametric time series,非参数时间序列)算法,ets(exponential smoothing,指数平滑)算法,prophet算法,deepar算法,transformer算法,lstm(long short-term memory,长短期记忆)算法等。
49.但是,由于不同的数据通常有这不同的规律和变化趋势,因此目前并没有一种方法能准确地对所有数据进行数据预测。这些预测方法通常在对某些数据进行数据预测时,具有较高的准确率,而在对另一些数据进行预测时,却不能准确地预测到正确的数据。
50.有鉴于此,本说明书提出一种在现有的针对待预测数据进行预测的框架中,引入一个算法筛选模型来从多种的预测算法中筛选出最佳的目标预测算法的通用预测方法。
51.在实现时,可以获取第一样本数据集;所述第一样本数据集包括多组第一样本数据,并使用预设的多种预测算法针对所述第一样本数据分别进行数据预测,得到所述第一样本数据对应于所述多种预测算法的多个数据预测结果,再基于所述多个数据预测结果,分别计算性能指标,得到与所述多种预测算法对应的多个性能指标;其中,所述性能指标用于描述与其对应的预测算法针对所述第一样本数据进行数据预测的准确程度;然后可以基于所述多个性能指标生成样本标签,并将生成额样本标签添加至所述第一样本数据。
52.当为上述第一样本数据集中的样本数据添加了所述样本标签,可以将该第一样本数据集作为训练样本来训练算法筛选模型;所述算法筛选模型可以用于在所述多种预测算法中筛选出与输入所述算法筛选模型的样本数据适配的目标预测算法。
53.进一步的,在针对第二样本数据集中的样本数据进行预测时,可以获取第二样本数据集;所述第二样本数据集包括多组第二样本数据,并将所述第二样本数据输入算法筛选模型进行筛选计算;其中,所述算法筛选模型用于在预设的多种预测算法中筛选出上述第二样本数据适配的目标预测算法;所述算法筛选模型通过将第一样本数据集中的第一样本数据作为训练样本训练得到;所述第一样本数据集中的第一样本数据被添加了样本标签;所述样本标签为基于所述多种预测算法针对所述第一样本数据分别进行数据预测得到的预测结果的性能指标生成的样本标签;
54.然后,可以基于所述算法筛选模型的筛选计算结果,从所述多种预测算法中筛选出上述第二样本数据适配的目标预测算法,并基于所述目标预测算法,针对所述第二样本数据进行数据预测。
55.在以上技术方案中,通过在针对待预测数据进行预测计算的流程中,引入一个预先训练完的算法筛选模型,从预设的多种预测算法中筛选出与待预测数据适配的预测性能最佳的预测算法,使得现有的预测框架,能够具备自动从多种预测算法中筛选出最佳性能的算法的能力,从而可以提高现有的预测框架的针对不同的数据样本的适应性,以及在进行数据预测时的通用性和预测准确度。
56.例如,以上述待预测数据为单变量的时序样本数据为例,通过这种方式,相当于是在现有的单变量时序数据预测的框架下,嵌入了一层从支持的多种预测算法中筛选出一种最佳的预测算法,来进行单变量时序数据预测,从而让现有的单变量时序数据预测更加具有通用性。
57.下面结合附图对本说明书的方案进行详细说明。
58.请参见图1,图1是一示例性实施例提供的一种数据处理、数据预测系统的架构示
意图。如图1所示,该系统可以包括网络10、服务器11、若干电子设备,如手机12、手机13和手机14等。
59.服务器11可以为包含一独立主机的物理服务器,或者该服务器11可以为主机集群承载的虚拟服务器、云服务器等。手机12-14只是用户可以使用的一种类型的电子设备。实际上,用户显然还可以使用诸如下述类型的电子设备:平板设备、笔记本电脑、掌上电脑(pdas,personal digital assistants)、可穿戴设备(如智能眼镜、智能手表等)等,本说明书一个或多个实施例并不对此进行限制。网络10可以包括多种类型的有线或无线网络。
60.在一实施例中,服务器11可以与手机12-14进行配合;其中,可由手机12-14接受用户操作,并将接受到的命令和文件通过网络10上传至服务器11,然后由服务器11基于本说明书的方案对文件进行处理。在另一实施例中,手机12-14可以独立实现本说明书的方案;其中,由手机22-24接受用户操作,并基于本说明书的方案对接受的命令和文件进行处理,以实现数据处理、数据预测。
61.请参见图2,图2是一示例性实施例提供的一种数据处理方法的流程图,该方法应用于处理设备,该处理设备例如可以为图1所示的服务器11或手机12-14等。
62.该方法包括以下步骤:
63.步骤202,获取第一样本数据集;所述第一样本数据集包括多组第一样本数据;
64.要获得使用不同的预测算法对数据进行数据预测的性能指标,首先需要选择合适的第一样本数据集。合适的样本数据集可以包括多种类型的样本数据,并且包含足够多数量的第一样本数据。在实际应用中,当已有的数据过多时,为加速训练,可以从已有的数据中抽取部分数据作为第一样本数据集。
65.在本说明书示出的一种示意性的实施例中,第一样本数据包括单变量时序数据。
66.时序数据,即时间序列数据,是基于时间变化的一类数据,单变量时序数据是指仅随时间变化的数据。例如门店每天的销售数据,某地每月降雨量数据,某种资源的周产量数据等都可以看做是单序列时序数据。
67.在本说明书示出的一种示意性的实施例中,还可以对所述第一样本数据进行数据处理,以分别提取第一样本数据对应的数据特征;其中,对于第一样本数据进行数据处理的方式和提取其对应的数据特征的具体方式,本技术不进行具体限定。例如,可以采用数据的规范化、离散化、稀疏化等处理方式。
68.步骤204,使用预设的多种预测算法针对所述第一样本数据分别进行数据预测,得到所述第一样本数据对应于所述多种预测算法的多个数据预测结果;
69.获取到上述第一样本数据集后,可以使用预设的多种预测算法针对第一样本数据集中的第一样本数据分别进行数据预测。
70.其中,本说明书不对上述预设的多种预测算法的类型进行具体限定。
71.例如,在在本说明书示出的一种示意性的实施例中,上述预设的多种预测算法可以包括以下示出的一个或者多个组合:npts(non-parametric time series,非参数时间序列)算法;ets(exponential smoothing,指数平滑)算法;prophet(先知)算法;deepar算法;transformer算法;lstm(long short-term memory,长短期记忆)算法。
72.这些数据预测算法都是数据预测领域常用的预测算法,包括统计学方法和深度学习方法,本说明书不对其具体的预测过程进行赘述。
73.这些预测算法针对不同类型的样本数据进行数据预测可以得到的预测结果通常不尽相同,预测时消耗的通常时长也各不相同。
74.在实际应用中,可以使用上述预测算法进行数据预测,后续也可以根据实际需要对预测算法进行灵活的替换和添加。
75.步骤206,基于所述多个数据预测结果,分别计算性能指标,得到与所述多种预测算法分别对应的多个性能指标;其中,所述性能指标用于描述与其对应的预测算法针对所述第一样本数据进行数据预测的准确程度;
76.根据上述多个预测算法针对样本数据得到的预测结果,和样本数据实际对应的真值,可以计算得到这些预测算法针对样本数据的性能指标。上述性能指标可以包括用于描述预测算法针对样本数据进行数据预测的准确程度的性能指标。本说明书不对上述用于描述预测算法针对样本数据进行数据预测的准确程度的性能指标的具体类型进行限定,例如可以使用均方误差、均方根误差、平均绝对误差、平均绝对百分比误差、对称平均绝对百分比误差、准确率、精确率、召回率、f1值等性能指标,本说明书不对此进行具体限定。
77.均方误差、均方根误差、平均绝对误差、平均绝对百分比误差、对称平均绝对百分比误差等性能指标均为统计学中常用的参数,本说明书不对其具体计算方式进行赘述。
78.在实际使用中,准确率可以使用以下公式进行计算:准确率=100%-百分比误差;其中,上述误差可以是平均绝对百分比误差,或者对称绝对百分比误差等,本说明书不对此进行具体限定。
79.精确率可以用预测准确的次数占总预测次数的比例表示;其中,可以认为误差小于某一预设的阈值即为预测准确,例如,可以认为百分比误差小于5%为预测准确,或百分比误差小于3%为预测准确等,本技术不对此进行具体限定。
80.在本说明书示出的一个示例性的实施例中,上述性能指标包括以下示出的一个或者多个组合:准确率;精确率;对称平均绝对百分比误差。
81.此外,性能指标还可以包括用于描述预测算法针对样本数据进行数据预测消耗的时间的性能指标,例如平均预测耗时;以及用于描述预测算法针对样本数据进行数据预测消耗的资源等的性能指标等。
82.步骤208,基于所述多个性能指标生成样本标签,并将生成的样本标签添加至所述第一样本数据;其中,添加了所述样本标签的第一样本数据,用于作为训练样本训练算法筛选模型;所述算法筛选模型用于在针对第二样本数据集中的第二样本数据进行数据预测的过程中,从所述多种预测算法中筛选出与所述第二样本数据适配的目标预测算法。
83.计算出上述多种预测算法分别针对上述第一样本数据的多个性能指标后,可以根据所述多个性能指标,在上述多种预测算法中选择出目标预测算法,使其针对上述第一样本数据进行数据预测的性能指标表现最好。基于上述目标预测算法,生成样本标签,并添加到上述第一样本数据。
84.因此,上述添加了样本标签的第一样本数据,可以作为输入,用于训练算法筛选模型。其中,上述算法筛选模型可以用于针对特定的样本数据,在多种预测算法中选择出一种或多种适应的预测算法,使其性能指标表现最好,以对该特定的样本数据进行数据预测。
85.上述添加样本标签的方式可以采用软标签(soft labeling)或者硬标签(hard labeling)的方式,本说明书不对此进行具体限定。
86.对于上述第一样本数据,使用硬标签时,样本标签中仅携带进行数据预测时性能指标表现最好的目标预测算法的信息;而使用软标签时,样本标签中可以携带多种预测算法针对上述第一样本数据进行数据预测的适合程度的信息。
87.在本说明书示出的一个示意性的实施例中,采用软标签的方式对上述第一样本数据进行样本标签的添加。
88.由于不同的预测算法在对相同的样本数据进行预测时,其性能指标可能相近,因此,对同一类样本数据而言,性能指标表现最好次数最多的预测算法,其平均性能指标可能低于其他预测算法。在这种情况下,使用硬样本标签方式进行可能会导致最终得到的预测算法不是针对输入的样本最为适配的目标预测算法,因此,采用软样本标签方法虽然会耗费更多资源,但是能提高预测的准确率。
89.在本说明书示出的一个示意性的实施例中,计算出上述多种预测算法分别对应的多个性能指标后,可以根据上述多个性能指标,对所述多种预测算法进行分类;其中,针对第一样本数据进行数据预测的性能指标非常接近的,分为同一类;再根据所述分类,生成每类预测算法对应的样本标签,并添加至对应的第一样本数据。
90.由于预设的多种预测算法可能会对同一样本数据的预测准确程度非常接近,因此可以在针对上述样本数据时,将这几种预测算法分为同一类。其中,本说明书不对分类的具体标准进行限定,例如,分类标准可以是每项性能指标的误差均小于3%,或某几项性能指标误差小于1%,另几项性能指标误差小于4%等。
91.在本说明书示出的一个示意性的实施例中,可以根据上述多种预测算法分别对应的多个性能指标,通过聚类分析的方法,对上述多种预测算法进行分类,得到多个性能指标相近的预测算法类别。对于聚类分析使用的具体算法,本说明书不进行具体限定。例如可以使用k-means,gmm,或其他聚类算法进行聚类分析。
92.通过预测算法的分类,算法筛选模型只要筛选出目标预测算法类别。相当于减少了算法筛选模型选择目标预测算法时需要比较的预测算法的数量,可以增加算法筛选模型的准确度和分类速度。
93.由于同一类中各预测算法针对对应类别的数据预测准确程度类似,因此算法筛选模型选出的类别中的预测算法都可以视为目标预测算法。
94.实际应用中,可以在上述类别中随机选择一个预测算法对待预测的数据进行数据预测;也可以通过对比其他性能指标,例如用于描述预测算法针对样本数据进行数据预测消耗的时间的性能指标,比如平均预测耗时,或用于描述预测算法针对样本数据进行数据预测消耗的资源等的性能指标,来选择一个目标预测算法。
95.当上述算法筛选模型训练完成后,可以用于对各种数据进行数据预测。
96.例如,在本说明书示出的一个示意性的实施例中,可以获取待进行预测的第二样本数据集。上述第二样本数据集可以包括多组需要进行预测的第二样本数据。
97.获取到上述第二样本数据后,可以对上述第二样本数据进行数据处理和特征提取,并将其输入上述算法筛选模型;基于所述算法筛选模型,可以得到目标预测算法;使用所述目标预测算法,可以针对所述第二样本数据进行数据预测。
98.如图3所示,图3是一示例性实施例提供的一种数据预测方法的流程图,该方法应用于处理设备,该处理设备例如可以为图1所示的服务器11或手机12-14等。
99.上述方法包括以下步骤:
100.步骤302,获取第二样本数据集;第二样本数据集包括多组第二样本数据;
101.第二样本数据集可以包括待预测的多组第二样本数据。其中,第二样本数据可以包括多种类型的数据。
102.在本说明书示出的一种示意性的实施例中,上述第二样本数据包括单变量时序数据。
103.在本说明书示出的一种示意性的实施例中,还可以对所述第二样本数据进行数据处理,以分别提取第二样本数据对应的数据特征;其中,对于第二样本数据进行数据处理的方式和提取其对应的数据特征的具体方式,本技术不进行具体限定。例如,可以采用数据的规范化、离散化、稀疏化等处理方式。
104.步骤304,将所述第二样本数据输入算法筛选模型进行筛选计算;其中,所述算法筛选模型用于在预设的多种预测算法中选择目标预测算法;所述算法筛选模型通过将第一样本数据集中的第一样本数据作为训练样本训练得到;所述第一样本数据集中的第一样本数据被添加了样本标签;所述样本标签为基于多种预测算法针对所述第一样本数据集中的第一样本数据分别进行数据预测得到的预测结果的性能指标样本标签;
105.在本说明示出的一示意性的实施例中,所述算法筛选模型的训练过程,包括:
106.获取第一样本数据集;所述第一样本数据集包括多组第一样本数据;
107.使用预设的多种预测算法针对所述第一样本数据分别进行数据预测,得到所述第一样本数据对应于所述多种预测算法的多个数据预测结果;
108.基于所述多个数据预测结果,分别计算性能指标,得到与所述多种预测算法对应的多个性能指标;其中,所述性能指标用于描述与其对应的预测算法针对所述第一样本数据进行数据预测的准确程度;
109.将所述多个性能指标作为样本标签分别添加至对应的第一样本数据;其中,添加了所述样本标签的第一样本数据,用于作为训练样本训练算法筛选模型;所述算法筛选模型用于在所述多种预测算法中确定目标预测算法。
110.对于上述算法筛选模型的训练,以及用于训练上述算法筛选模型的第一样本数据的处理方法,本说明中已进行具体描述,此处不再赘述。
111.步骤306,基于所述算法筛选模型的筛选计算结果,从所述多种预测算法中确定目标预测算法;
112.将上述待预测的第二样本数据输入上述算法筛选模型后,算法筛选模型会自动输出针对上述第二样本数据的目标预测算法,以用于对其进行数据预测。
113.应当注意的是,对于输入的多组第二样本数据,根据这些第二样本数据的特征,算法筛选模型可能输出相同的目标预测算法,也可能输出不同的目标预测算法。
114.在本说明书示出的一示例性的实施例中,上述算法筛选模型训练时,计算出多种预测算法分别对应的多个性能指标后,可以根据上述多个性能指标,对上述多种预测算法进行分类;其中,针对第一样本数据进行数据预测的性能指标非常接近的,分为同一类;再根据所述分类,生成每类预测算法对应的样本标签,并添加至对应的第一样本数据。
115.由于预设的多种预测算法可能会对同一样本数据的预测准确程度非常接近,因此可以在针对上述样本数据时,将这几种预测算法分为同一类。其中,本说明书不对分类的具
体标准进行限定,例如,分类标准可以是每项性能指标的误差均小于3%,或某几项性能指标误差小于1%,另几项性能指标误差小于4%等。
116.在算法筛选模型训练时预测算法进行了分类的情况下,算法筛选模型可以选出目标预测算法的类别。由于同一类中各预测算法针对对应类别的数据预测准确程度类似,因此算法筛选模型选出的类别中的预测算法都可以视为目标预测算法。
117.实际应用中,可以在上述类别中随机选择一个预测算法对待预测的数据进行数据预测;也可以通过对比其他性能指标,例如用于描述预测算法针对样本数据进行数据预测消耗的时间的性能指标,比如平均预测耗时,或用于描述预测算法针对样本数据进行数据预测消耗的资源等的性能指标,来选择一个目标预测算法。
118.步骤308,基于所述目标预测算法,针对所述第二样本数据进行数据预测。
119.上述算法筛选模型选出目标预测算法后,基于该目标预测算法,针对上述第二样本数据进行数据预测。
120.在多种预测算法中,选择出的目标预测算法可能是基于机器学习的预测算法,也可能不是基于机器学习的预测算法,例如统计学预测算法。如果上述目标预测算法是基于机器学习的算法,可以使用上述第二样本数据中的部分或全部数据,对上述目标预测算法进行在线训练。在充分训练后,使用上述目标预测算法,对上述第二样本数据进行数据预测。
121.在本说明书示出的一个示意性的实施例中,提供了一种应用了数据处理和预测方法;
122.请参见图4,图4是根据本说明书实施方式的一种数据处理和预测方法的示意图;首先,从预设的大规模时序数据集中通过抽样的方式抽取部分时序数据,作为样本数据集。其中,抽取的时序数据的量根据上述时序数据集的具体大小进行适应性的调整,例如,可以抽取10%或20%的数据。
123.可以对样本数据集中的各个样本时序数据进行数据预处理和特征提取,得到处理后的样本数据集。
124.使用多种预测算法,分别对上述样本数据集中的各样本数据进行数据预测,并根据预测结果计算生成样本标签,添加到样本数据集,形成带标签的样本数据集,以用于训练算法筛选模型。
125.其中,使用上述多种预测算法,分别对上述样本数据集中的各样本数据进行数据预测,并根据预测结果计算生成样本标签的过程,可以参见图5;图5是根据本说明书实施方式的一种数据处理方法的预测计算生成样本标签的示意图。
126.如图5所示,该数据处理和预测方法集成了多种预设的预测算法,预测算法1、预测算法2、
……
预测算法n,其中,可以包括基于统计学的数据预测算法和基于深度学习的预测算法,例如npts算法,ets算法,prophet算法,deepar算法,transformer算法,lstm算法等。
127.上述多种预测算法,分别对上述样本数据集中的各样本数据进行数据预测,可以得到多种算法分别针对该样本数据集中各样本数据的多种预测性能指标。
128.根据得到的多种预测性能指标,通过聚类分析的方法,将上述多种预测算法分为数个预测算法类别,生成用于反映上述各预测算法类别针对样本数据的数据预测性能,或预测准确程度的,描述其与样本数据适配程度的软样本标签;并将上述软样本标签添加到
上述样本数据中。
129.将上述添加了软样本标签的样本数据作为输入,训练用于针对指定待预测数据,在所述多种预测算法中确定目标预测算法类别算法筛选模型的算法筛选模型。
130.上述算法筛选模型训练完成后,可以用于针对输入的样本数据,筛选出目标预测算法类别。
131.针对待预测的数据集,例如待预测的大规模时序预测集,经数据处理和特征提取后,可以用上述训练完成的算法筛选模型,选出待预测数据集中每一条待遇预测数据对应的目标预测算法类别;并从上述目标预测算法类别中选择目标预测算法,进行数据预测计算。
132.在本说明书的示例性实施例中,还提供了一种数据处理装置。请参见图6,图6是本说明书实施方式的一种数据处理装置的框图。
133.该装置包括以下单元:
134.第一数据获取单元610,用于获取第一样本数据集;所述第一样本数据集包括多组第一样本数据;
135.第一数据预测单元620,用于使用预设的多种预测算法针对所述第一样本数据分别进行数据预测,得到所述第一样本数据对应于所述多种预测算法的多个数据预测结果;
136.性能指标计算单元630,用于基于所述多个数据预测结果,分别计算性能指标,得到与所述多种预测算法分别对应的多个性能指标;其中,所述性能指标用于描述与其对应的预测算法针对所述第一样本数据进行数据预测的准确程度;
137.样本标签添加单元640,用于基于所述多个性能指标生成样本标签,并将生成的样本标签添加至所述第一样本数据;其中,添加了所述样本标签的第一样本数据,用于作为训练样本训练算法筛选模型;所述算法筛选模型用于在针对第二样本数据集中的第二样本数据进行数据预测的过程中,从所述多种预测算法中筛选出与所述第二样本数据适配的目标预测算法。
138.可选的,所述装置还包括:
139.筛选预测单元650,获取第二样本数据集;所述第二样本数据集包括多组第二样本数据;将所述第二样本数据输入训练完成的所述算法筛选模型进行筛选计算;基于所述算法筛选模型的筛选计算结果,从所述多种预测算法中确定目标预测算法;基于所述目标预测算法,针对所述第二样本数据进行数据预测。
140.可选的,所述样本数据包括单变量时序样本数据;所述数据预测包括单变量时序数据预测。
141.可选的,所述预设的多种预测算法包括以下示出的一个或者多个组合:npts算法;ets算法;prophet算法;deepar算法;transformer算法;lstm算法。
142.可选的,所述性能指标包括以下示出的一个或者多个组合:准确率;精确率;对称平均绝对百分比误差。
143.可选的,所述第一数据获取单元610,还用于对所述第一样本数据进行数据处理,以分别提取所述第一样本数据对应的数据特征;将所述数据特征添加至所述第一样本数据。
144.可选的,所述样本标签添加单元640,具体用于根据所述多个性能指标,对所述多
种预测算法进行分类;根据所述分类的结果,生成每类预测算法对应的分类样本标签,并将生成的分类样本标签分别添加至对应的所述第一样本数据。
145.在本说明书的示例性实施例中,还提供了一种数据预测装置。请参见图7,图7是本说明书实施方式的一种数据预测装置的框图。
146.该装置包括以下单元:
147.第二数据获取单元710,用于获取第二样本数据集;所述第二样本数据集包括多组第二样本数据;
148.数据输入单元720,用于将所述第二样本数据输入算法筛选模型进行筛选计算;其中,所述算法筛选模型用于在预设的多种预测算法中选择目标预测算法;所述算法筛选模型通过将第一样本数据集中的第一样本数据作为训练样本训练得到;所述第一样本数据集中的第一样本数据被添加了样本标签;所述样本标签为基于多种预测算法针对所述第一样本数据集中的第一样本数据分别进行数据预测得到的预测结果的性能指标生成的样本标签;
149.算法预测单元730,用于基于所述算法筛选模型的筛选计算结果,从所述多种预测算法中确定目标预测算法;
150.第二数据预测单元740,用于基于所述目标预测算法,针对所述第二样本数据进行数据预测。
151.可选的,所述算法筛选模型的训练过程,包括:
152.获取第一样本数据集;所述第一样本数据集包括多组第一样本数据;
153.使用预设的多种预测算法针对所述第一样本数据分别进行数据预测,得到所述第一样本数据对应于所述多种预测算法的多个数据预测结果;
154.基于所述多个数据预测结果,分别计算性能指标,得到与所述多种预测算法分别对应的多个性能指标;其中,所述性能指标用于描述与其对应的预测算法针对所述第一样本数据进行数据预测的准确程度;
155.将所述多个性能指标作为样本标签添加至所述第一样本数据,并基于添加了样本标签的第一样本数据训练所述算法筛选模型。
156.上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
157.对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
158.在本说明书的示例性实施例中,还提供了一种装置及其所应用的终端的实施例。
159.本说明书装置的实施例可以应用在计算机设备上,例如服务器或终端设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图8所示,为本说明书实施方式的一
种装置所在计算机设备80的一种硬件结构图,除了图8所示的处理器810、内存830、网络接口820、以及非易失性存储器840之外,实施例中装置所在的服务器或电子设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。
160.在本说明书的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本说明书的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本说明书各种示例性实施例的步骤。
161.根据本说明书的实施例用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本说明书的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
162.所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
163.计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
164.可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
165.可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码,所述程序设计语言包括面向对象的程序设计语言——诸如java、c++等,还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
166.虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护
的组合可以指向子组合或子组合的变型。
167.类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统单元和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
168.由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
169.以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1