数据处理方法和装置与流程

文档序号:15801796发布日期:2018-11-02 21:29阅读:152来源:国知局
数据处理方法和装置与流程
本发明涉及计算机领域,尤其涉及一种数据处理方法和装置、电子设备及可读存储介质。
背景技术
销量预测是一种根据商品历史销量数量预测商品未来销量数据的方法,机器学习在销量预测中得到了广泛的应用,机器学习预测模型在进行训练之前需要对数据进行大量的数据清洗工作;预测过程中往往会选用多个预测模型,每个预测模型需要单独进行调优,然后将多个预测模型的预测结果进行综合作为商品最后的销量预测值。概括而言,通过机器学习进行销量预测通常包括如下步骤:-在训练预测模型前制定清洗规则。-对每个商品使用多个预测方法进行预测,然后取近期预测效果最好的预测方法的预测结果作为预测值。其中,在进行预测模型训练时,模型最优参数的微调有两种方法,一种是每隔一段时间搜索一次最优训练参数,另一种方法是每次训练之前搜索最优训练参数。训练数据中有一部分数据可能由于系统故障,或由于特殊原因会体现出一些特征,比如明显极高或极小。训练过程中这一部分数据会使预测模型出现偏差,降低预测准确度,因此需要对所有这一部分数据进行过滤处理,即所谓的数据清洗。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:首先,数据清洗是很重要的一个工作,往往需要人为制定大量清洗规则,而且清洗规则需要随时间及业务进行调整,费时费力。而且很多数据不能得到及时清洗,因此会扭曲预测模型。其次,由于要对每个商品使用多个预测方法进行预测,然后取近期预测效果最好的预测方法的预测结果作为预测值,这就需要对所有的预测算法都进行一遍计算,如果数据量比较巨大,计算资源会成为瓶颈。此外,模型训练时模型最优参数的微调往往也需要算法进行多次运行,以找到最优参数,这同样会销耗大量计算资源。技术实现要素:有鉴于此,本发明实施例提供一种数据处理方法和装置、电子设备及可读存储介质,由此能够将以往的预测经验提取出来(这些经验包括如何进行数据筛选,如何进行模型选择,如何对具体模型进行参数调优),在以后的预测中加以利用,从而在提高预测准确率的同时减少计算量。为实现上述目的,根据本发明实施例的一个方面,提供了一种数据处理方法。根据本发明一种优选实施方式,本发明的数据处理方法包括下列步骤:-用机器学习法来训练数据清洗规则以进行数据清洗,并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断;-从预测模型算法库中选择参与预测模型训练运算的预测模型;-在预测模型训练运算过程中对参与预测模型训练运算的具体预测模型进行参数调优。在本发明中,优选的是,为了训练数据清洗判决模型,提供清洗库,所述清洗库中存放异常数据的特征,其中,异常数据的来源包括以下各项中的至少一项:历史异常数据、业务方反馈的新发现的异常数据、由所有数据清洗判决模型一致判断为异常数据的数据、或经一个或多个数据清洗判决模型判断为异常数据并经人工识别后确认为异常数据的可疑数据。进一步优选的是,在利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断时,利用训练出的数据清洗判决模型对预测模型训练数据抽取出的特征进行数据清洗判断,其中,将所有数据清洗判决模型判决得到的异常数据放进可疑数据库,其中:如果所有数据清洗判决模型判决结果均为异常数据,则直接将此数据加进清洗库,作为下次数据清洗判决模型训练的经验数据;如果多个数据清洗判决模型判决结果不一致,则在进行人工识别后选择将相应数据加进清洗库或不做处理。根据本发明一种优选实施方式,能采用的数据清洗判决模型包括以下各项中的至少一项:svm、随机森林、逻辑回归、贝叶斯分类器。当然也能采用其它合适的分类模型。根据本发明一种优选实施方式,在进行预测模型选择时,从预测模型算法库所拥有的n个预测模型算法中选出预测误差率最低的n1个预测算法参与预测模型训练运算,然后将剩下的n2个预测算法按概率参与预测模型训练运算。进一步优选的是,按概率参与预测模型训练运算的预测算法的选择概率pi由如下公式获得:pi=(1/δi)/(sumn2(1/δi)),其中,i代表候选算法的编号,i=1,2,……,n2;δi为第i个候选算法的算法误差率;sumn2()为求和函数,其将n2个候选算法的选择系数1/δi求和。此外,优选借助所选出的预测算法进行预测,得到数量与所选出的预测算法的个数对应的预测值,选择这些所选出的预测算法中在预定时段内平均预测误差最低的算法的预测结果作为预测输出,待真实销量产生后,根据所选用于进行预测输出的算法的预测值与真实销量的比较来更新模型效果。根据本发明一种优选实施方式,针对参与预测模型训练运算的每个具体预测模型,从预测模型训练参数库中取出针对该预测模型已知的最优参数,然后对所取出的已知最优参数进行随机试探。如果参数调试空间比较巨大,而且最优参数随时间发生变化,如果每次训练都对参数空间进行遍历则需要耗费较多的计算资源,所以可以每次只选择性的找一些最有可能成为最优参数的参数进行试运行,看运行效果,以决定是否需要进行参数更新。也就是说采取一定的试探策略。因而,本发明中优选从预测模型训练参数库中所取出的已知最优参数只涉及最有可能成为最优参数的参数。此外,优选在随机试探时,对于每个所取出的已知最优参数,根据调节步长和调节步数生成新的试探参数。进一步优选的是,将试探参数赋予对应的获选预测模型并结合经清洗后的预测模型训练数据进行预测模型训练,得到不同的误差,将最小误差对应的参数值更新到预测模型训练参数库。为实现本发明的上述目的,根据本发明实施例的另一方面,提供了一种数据处理装置。根据本发明一种优选实施方式,本发明的数据处理装置包括下列模块:-数据清洗规则训练模块,所述数据清洗规则训练模块能用机器学习法来训练数据清洗规则以进行数据清洗,并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断;-预测模型选择模块,所述预测模型选择模块能从预测模型算法库中选择参与预测模型训练运算的预测模型;-预测模型参数调优模块,所述预测模型参数调优模块能在预测模型训练运算过程中对参与预测模型训练运算的具体预测模型进行参数调优。在本发明中,优选的是,数据清洗规则训练模块为了训练数据清洗判决模型,提供有清洗库,所述清洗库中存放异常数据的特征,其中,异常数据的来源包括以下各项中的至少一项:历史异常数据、业务方反馈的新发现的异常数据、由所有数据清洗判决模型一致判断为异常数据的数据、或经一个或多个数据清洗判决模型判断为异常数据并经人工识别后确认为异常数据的可疑数据。进一步优选的是,在利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断时,数据清洗规则训练模块能利用训练出的数据清洗判决模型对预测模型训练数据抽取出的特征进行数据清洗判断,并提供有可疑数据库,其中,能将所有数据清洗判决模型判决得到的异常数据放进可疑数据库,其中:如果所有数据清洗判决模型判决结果均为异常数据,则直接将此数据加进清洗库,作为下次数据清洗判决模型训练的经验数据;如果多个数据清洗判决模型判决结果不一致,则在进行人工识别后选择将相应数据加进清洗库或不做处理。根据本发明一种优选实施方式,能采用的数据清洗判决模型包括以下各项中的至少一项:svm、随机森林、逻辑回归、贝叶斯分类器。当然也能采用其它合适的分类模型。根据本发明一种优选实施方式,在进行预测模型选择时,预测模型选择模块能从预测模型算法库所拥有的n个预测模型算法中选出预测误差率最低的n1个预测算法参与预测模型训练运算,然后将剩下的n2个预测算法按概率参与预测模型训练运算。进一步优选的是,按概率参与预测模型训练运算的预测算法的选择概率pi由如下公式获得:pi=(1/δi)/(sumn2(1/δi)),其中,i代表候选算法的编号,i=1,2,……,n2;δi为第i个候选算法的算法误差率;sumn2()为求和函数,其将n2个候选算法的选择系数1/δi求和。此外,预测模型选择模块优选能借助所选出的预测算法进行预测,得到数量与所选出的预测算法的个数对应的预测值,选择这些所选出的预测算法中在预定时段内平均预测误差最低的算法的预测结果作为预测输出,待真实销量产生后,根据所选用于进行预测输出的算法的预测值与真实销量的比较来更新模型效果。根据本发明一种优选实施方式,预测模型参数调优模块能针对参与预测模型训练运算的每个具体预测模型,从预测模型训练参数库中取出针对该预测模型已知的最优参数,然后对所取出的已知最优参数进行随机试探。如果参数调试空间比较巨大,而且最优参数随时间发生变化,如果每次训练都对参数空间进行遍历则需要耗费较多的计算资源,所以可以每次只选择性的找一些最有可能成为最优参数的参数进行试运行,看运行效果,以决定是否需要进行参数更新。也就是说采取一定的试探策略。因而,在本发明实施例中优选从预测模型训练参数库中所取出的已知最优参数只涉及最有可能成为最优参数的参数。此外,优选在随机试探时,对于每个所取出的已知最优参数,根据调节步长和调节步数生成新的试探参数。进一步优选的是,预测模型参数调优模块能将试探参数赋予对应的获选预测模型并结合经清洗后的预测模型训练数据进行预测模型训练,得到不同的误差,将最小误差对应的参数值更新到预测模型训练参数库。为实现本发明的上述目的,根据本发明实施例的再一方面,提供了一种能执行数据处理方法的电子设备。本发明实施例的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的数据处理方法。为实现本发明的上述目的,根据本发明实施例的又一方面,提供了一种计算机可读存储介质。本发明实施例的一种计算机可读存储介质存储有计算机程序,所述程序被处理器执行时实现本发明实施例的数据处理方法。上述发明中的一个实施例具有如下优点或有益效果:因为采用机器学习的方法代替手工制定规则的方法来进行数据清洗,所以克服了需要人为制定大量清洗规则、且清洗规则需要随时间及业务进行调整因而费时费力的技术问题,进而达到自动记录清洗数据作为经验数据并增强清洗效果的技术效果;因为根据试探策略决定使用哪几个算法进行组合,再根据实际预测效果调整试探策略作为下次试探经验,所以克服了遍历预测算法时的计算资源瓶颈问题,节约计算资源;因为在每次训练过程中用一定资源随机查找预测模型的最优训练参数,更新历史最优参数,所以克服了模型训练时模型最优参数的微调会销耗大量计算资源的问题,节约了计算资源并使预测模型大多数时间运行在最优状态。由此可见,本发明使用试探积累的方法提取销量预测中的预测经验,用机器学习的方法代替手工制定规则的方法来进行数据清洗,判断哪些数据对训练模型是异常数据或极值数据,在预测模型训练时进行过滤处理,记录清洗数据作为经验数据增强清洗效果;根据试探策略决定使用哪几个算法进行组合,以节约计算资源,再根据实际预测效果调整试探策略作为下次试探经验;在每次训练过程中用一定资源随机查找预测模型的最优训练参数,更新历史最优参数,使预测模型大多数时间运行在最优状态。本发明的销量预测系统可以通过经验积累的方式越运行越智能,能自动适应环境变化,保证较高的预测准确率。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本发明,不构成对本发明的不当限定。其中:图1是根据本发明的数据处理方法的一种实施例的方法流程图;图2是根据本发明的数据处理装置的一种实施例的主要模块的示意图;图3是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。具体实施方式以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本发明的数据处理方法的一种优选实施例的方法流程图。在该实施例中,本发明的销量预测中的数据处理方法包括如下步骤:1)准备模型训练数据,其主要包括:新发现的异常数据,历史正常数据,训练数据。其中:新发现的异常数据主要来源于业务方的反馈;历史正常数据指前一月正常的销量数据,其中不含异常数据;训练数据主要是前一天至前一月的销量数据,其中可能有需要进行过滤的异常数据。2)对模型训练数据进行特征抽取。特征主要包括:前m周平均销量、前m天销量、当天销量、单价、库存状态、日期、节假日、离节假日天数,促销信息,等。源自业务方的反馈的异常数据在经过特征抽取后存入清洗库中。3)平衡采样,其主要用于训练数据清洗模型、或者说判决模型。为了进行平衡采样,从清洗库中取出有问题数据或者说异常数据的特征作为正样本,从正常历史数据中取出正常历史数据的特征作为负样本,确定正负样本比例(如1:3),其中,可以根据训练出的判决模型对测试数据进行判决后的准确率和召回率来调整平衡采样的正负样本比例,以寻求合理的采样平衡。4)特征选择,用来选择参与判决模型训练的特征。在本实施例中优选采用卡方检验方法,选择有利于进行正负例分类(即正负样本分类)的特征。当然,也可以采用其它替选方法来代替卡方检验法,例如:信息增益法(互信息、dropout)等。5)判决模型训练,根据平衡采样经过特征选择后的数据训练数据清洗判决模型。数据清洗判决模型可采用多个分类模型:如svm、随机森林、逻辑回归、贝叶斯分类器,等。根据数据清洗判决模型运行测试数据后的结果(如准确率和召回率)来训练数据清洗判决模型并调整数据清洗判决模型的参数,以训练出或者说获得合适的数据清洗判决模型。6)异常判决,即进行数据清洗判断。此时,将预测模型训练数据抽取出的特征数据输入经判决模型训练后获得的数据清洗判决模型,得到训练样本是否是异常数据的判决结果。其中,多个数据清洗判决模型会得到多个判决结果。7)过滤处理,其中包括:将所有数据清洗判决模型判决得到的异常数据放进可疑数据库;如果所有判决分类器判决结果均为异常数据,则直接将此数据加进清洗库,作为下次清洗训练的经验数据;如果多个判决分类器判决结果不一致,则可进行人工识别后再加进清洗库或不做处理。本实施例中清洗库数据结构如下:字段名数据类型说明dcidstring预测单位id,如仓库编号skuidstring商品iddatestring日期featurestring数据特征rawdatastring原始训练数据(特征提取前)8)进行预测模型选择。其中,从预测算法集成库中取出预测算法及预测误差率(mapd),这里的预测误差率为针对所有商品的预测误差率均值,用以衡量预测算法的准确度。例如可以根据如下公式计算:mapd=abs(预测值-真实值)/真实值,其中,abs()为取绝对值函数。mapd越大表明预测算法的准确度越低。假定预测算法集成库中共有算法数量为n,根据计算资源的充足情况,从算法库中选出预测误差率最低的n1个算法参与运算,然后将剩下的n2个算法(可称为概率候选算法)按概率参与运算,其中,n1+n2=n。概率候选算法的选择概率pi例如可以由如下公式获得:pi=(1/δi)/(sumn2(1/δi)),其中,i代表候选算法的编号,i=1,2,……,n2;δi为第i个候选算法的算法误差率;sumn2()为求和函数,其将n2个候选算法的选择系数1/δi求和。上述内容是流程图中“模型选择”框的一种具体实施例。选择概率的确定应使得mapd越小的模型获得更多被选择的机会,或者说使其获选概率越大;而mapd越高,则对应模型的获选机会越小,即其获选概率越小。因此理论上例如可以使用mapd来计算算法参与运算的概率。本实施例中预测算法库数据结构如下:字段名数据类型说明algoidstring算法idmapdfloat算法误差率δimodifydatedate最后一次修改算法误差率日期onlinedatedate算法上线日期runningtimesint算法参与计算次数9)选取最优参数,对每个从预测算法集成库中通过模型选择选出的具体预测模型算法从预测模型训练参数库中取出针对该模型已知的最优参数。这些已知的最优参数是经验上的最优参数,而对当前环境可能已经不是最优参数,比如同一预测模型在不同月份会有不同的最优参数。这些参数包括数据的正则系数、分类树\回归树深度、缺失值填充、损失函数类型、惩罚系数、迭代次数等。然后对所选出的已知最优参数进行随机试探。本实施例中预测模型训练参数库数据结构如下:字段名数据类型说明idstring参数idnamestring参数名称catestring参数所对应的商品类别optimalfloat参数当前最优值typeint试探类型(等步长,指数步长,随机步长)stepfloat参数调节步长stepcountint参数调节步数在随机试探时,对于每个参数,根据调节步长和调节步数会生成新的试探参数。举例而言,比如参数最优值为1.5,步长为0.1,步数为1,那么对于等步长会生成1.4(等于参数最优值减去一步步长,即1.5-0.1=1.4)、1.6(等于参数最优值加上一步步长,即1.5+0.1=1.6)两个试探参数;对于指数步长会生成1.5+exp(0.1)、1.5-exp(0.1)两个试探参数,其中,exp()为指数函数;对于随机步长,会生成以1.5为均值,以0.1*1为方差的两个随机数作为试探参数。10)交叉验证,将所选最优参数经随机试探后得到的试探参数赋予对应的获选预测模型并结合经清洗后的预测模型训练数据进行预测模型训练。这样这些不同的试探参数会得到不同的训练误差,将最小训练误差对应的参数值更新到预测模型训练参数库。误差包括训练误差和真实误差。训练误差例如为采用了试探参数的预测模型的历史预测值与历史真实销量的比较结果;真实误差例如为采用了试探参数的预测模型的预测值与未来真实销量的比较结果。理论上,也可以在获得未来真实销量后,将最小真实误差对应的参数值更新到预测模型训练参数库。11)预测输出,对于每个商品会由n1个预测误差率较低的算法及n2’个随机选择的算法进行预测(其中,n2’≤n2),得到n1+n2’个预测值,选择这些预测算法中在预定时段(如近一周)内平均预测误差最低的算法的预测结果作为预测输出。12)模型效果更新,待真实销量产生后,根据所选用于进行预测输出的算法的预测值与真实销量,按(真实销量-预测销量)/真实销量更新模型效果,相当于对mapd进行更新。由此,本发明使用试探积累的方法提取销量预测中的预测经验,用机器学习的方法代替手工制定规则的方法来进行数据清洗,判断哪些数据对训练模型是异常数据或极值数据,在预测模型训练时进行过滤处理,记录清洗数据作为经验数据增强清洗效果;根据试探策略决定使用哪几个算法进行组合,以节约计算资源,再根据实际预测效果调整试探策略作为下次试探经验;在每次训练过程中用一定资源随机查找预测模型的最优训练参数,更新历史最优参数,使预测模型大多数时间运行在最优状态。图2是根据本发明的数据处理装置的一种优选实施例的主要模块的示意图。如图2所示,在本发明的一种优选实施例中,数据处理装置10主要包括:-数据清洗规则训练模块101,数据清洗规则训练模块101能用机器学习法来训练数据清洗规则以进行数据清洗,并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断;-预测模型选择模块102,预测模型选择模块102能从预测模型算法库中选择参与预测模型训练运算的预测模型;-预测模型参数调优模块103,预测模型参数调优模块能103在预测模型训练运算过程中对参与预测模型训练运算的具体预测模型进行参数调优。在本发明其它未示出的实施例中,根据具体的计算资源,数据处理装置10可以具有上述三个模块101~103中的一个或多个。数据清洗规则训练模块101为了训练数据清洗判决模型,提供有清洗库,清洗库中存放异常数据的特征,其中,异常数据的来源包括以下各项中的至少一项:历史异常数据、业务方反馈的新发现的异常数据、由所有数据清洗判决模型一致判断为异常数据的数据、或经一个或多个数据清洗判决模型判断为异常数据并经人工识别后确认为异常数据的可疑数据。为此,在利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断时,数据清洗规则训练模块101还能利用训练出的数据清洗判决模型对预测模型训练数据抽取出的特征进行数据清洗判断,并提供有可疑数据库,其中,能将所有数据清洗判决模型判决得到的异常数据放进可疑数据库,其中:如果所有数据清洗判决模型判决结果均为异常数据,则直接将此数据加进清洗库,作为下次数据清洗判决模型训练的经验数据;如果多个数据清洗判决模型判决结果不一致,则在进行人工识别后选择将相应数据加进清洗库或不做处理。在进行预测模型选择时,预测模型选择模块102能从预测模型算法库所拥有的n个预测模型算法中选出预测误差率最低的n1个预测算法参与预测模型训练运算,然后将剩下的n2个预测算法按概率参与预测模型训练运算。其中,按概率参与预测模型训练运算的预测算法的选择概率pi由如下公式获得:pi=(1/δi)/(sumn2(1/δi)),其中,i代表候选算法的编号,i=1,2,……,n2;δi为第i个候选算法的算法误差率;sumn2()为求和函数,其将n2个候选算法的选择系数1/δi求和。在选择好预测算法后,预测模型选择模块102能借助所选出的预测算法进行预测,得到数量与所选出的预测算法的个数对应的预测值,选择这些所选出的预测算法中在预定时段内平均预测误差最低的算法的预测结果作为预测输出,待真实销量产生后,根据所选用于进行预测输出的算法的预测值与真实销量的比较来更新模型效果。预测模型参数调优模块103能针对参与预测模型训练运算的每个具体预测模型,从预测模型训练参数库中取出针对该预测模型已知的最优参数,然后对所取出的已知最优参数进行随机试探。具体随机试探的步骤可以参见上述方法步骤中对应内容。预测模型参数调优模块103此外还能将试探参数赋予对应的获选预测模型并结合经清洗后的预测模型训练数据进行预测模型训练,得到不同的误差,将最小误差对应的参数值更新到预测模型训练参数库。根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。本发明的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的数据处理方法。本发明的计算机可读存储介质存储有计算机程序,所述程序被处理器执行时实现本发明实施例的数据处理方法。下面参考图3说明适于用来实现本发明实施例的电子设备的计算机系统300的结构示意图。图3示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图3所示,计算机系统300包括中央处理单元(cpu)301,其可以根据存储在只读存储器(rom)302中的程序或者从存储部分308加载到随机访问存储器(ram)303中的程序而执行各种适当的动作和处理。在ram303中,还存储有系统300操作所需的各种程序和数据。cpu301、rom302以及ram303通过总线304彼此相连。输入/输出(i/o)接口305也连接至总线304。以下部件连接至i/o接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至i/o接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(cpu)301执行时,执行本发明的系统中限定的上述功能。需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括数据清洗规则训练模块、预测模型选择模块、预测模型参数调优模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,数据清洗规则训练模块还可以被描述为“用机器学习法来训练数据清洗规则以进行数据清洗的模块”。作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得该设备执行至少包括如下步骤的方法:-用机器学习法来训练数据清洗规则以进行数据清洗,并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断;-从预测模型算法库中选择参与预测模型训练运算的预测模型;-在预测模型训练运算过程中对参与预测模型训练运算的具体预测模型进行参数调优。上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。根据本发明实施例的技术方案,使用试探积累的方法提取销量预测中的预测经验,用机器学习的方法代替手工制定规则的方法来进行数据清洗,判断哪些数据对训练模型是异常数据或极值数据,在预测模型训练时进行过滤处理,记录清洗数据作为经验数据增强清洗效果;根据试探策略决定使用哪几个算法进行组合,以节约计算资源,再根据实际预测效果调整试探策略作为下次试探经验;在每次训练过程中用一定资源随机查找预测模型的最优训练参数,更新历史最优参数,使预测模型大多数时间运行在最优状态。本发明的销量预测系统可以通过经验积累的方式越运行越智能,能自动适应环境变化,保证较高的预测准确率。上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1