一种数据处理方法和系统与流程

文档序号:12064596阅读:354来源:国知局
一种数据处理方法和系统与流程

本发明属于数据分析和预估技术领域,尤其涉及一种数据处理方法和系统。



背景技术:

利用已有的销售数据进行规律分析和数据预估是进行企业管理的关键内容,对销售数据进行分析研究并得出规律性结论和预测结果,可实现为企业管理层面的相关决策提供依据。以餐饮企业的销售数据为例,对餐厅或连锁餐厅的销售数据进行规律分析和数据预估,可以为菜品研发、人员排班、原材料采购、餐厅设计等多个管理层面的相关决策提供参考依据。

然而,在餐饮、销售等企业中,销售数据因受到日期、天气、节日、外部环境等多种因素的叠加影响而具有较为明显的发散性,销售数据的发散性主要体现在数值具有明显的差异性,方差大,稳定性差,这就给销售数据的分析研究带来了巨大的困难,难以得到令人信服的规律性结论和预测结果,从而导致销售数据研究结果的参考价值较低。

基于此,为了使销售数据便于分析研究,使得能够得到令人信服的数据研究结果,提高数据研究结果的参考价值,对具有发散性特点的销售数据进行合理处理,以削弱销售数据的发散性十分必要。



技术实现要素:

有鉴于此,本发明的目的在于提供一种数据处理方法和系统,旨在通过对待处理数据进行处理来削弱其发散性,从而使得数据便于分析研究,便于得到令人信服的数据研究结果,提高数据研究结果的参考价值。

为此,本发明公开如下技术方案:

一种数据处理方法,包括:

获得目标数据的预定影响因素对应的影响信息;

基于所述影响信息对所述目标数据进行处理,使得从所述目标数据中剥离所述影响信息在所述目标数据中对应的影响值,得到所述目标数据对应的稳态数据。

上述方法,优选的,所述预定影响因素包括枚举型影响因素及数值型影响因素,其中,所述枚举型影响因素,包括宏观枚举因素、非离散微观枚举因素及离散微观枚举因素。

上述方法,优选的,所述获得目标数据的预定影响因素对应的影响信息包括:

计算所述宏观枚举因素的各枚举值对应的第一影响因子的数值;

计算所述非离散微观枚举因素的各枚举值对应的第二影响因子的数值;

计算所述离散微观枚举因素的各枚举值对应的第三影响因子的数值;

计算所述数值型影响因素对应的第四影响因子的数值。

上述方法,优选的,所述基于所述影响信息对所述目标数据进行处理包括:

利用所述第一影响因子的数值、所述第二影响因子的数值及所述第三影响因子的数值,计算所述目标数据对应的初始稳态数据,使得从所述目标数据中剥离所述第一影响因子、所述第二影响因子、所述第三影响因子在所述目标数据中对应的影响值;

利用所述第四影响因子的数值对所述初始稳态数据进行修正,得到所述目标数据对应的稳态数据,使得从所述初始稳态数据中剥离所述第四影响因子在所述初始稳态数据中对应的影响值。

上述方法,优选的,还包括:

基于所述稳态数据及所述第一影响因子、所述第二影响因子、所述第三影响因子、所述第四影响因子,对待测时间对应的数据进行预估,得到预估结果数据。

上述方法,优选的,所述基于所述稳态数据及所述第一影响因子、所述第二影响因子、所述第三影响因子、所述第四影响因子,对待测时间对应的数据进行预估包括:

利用预定预测方法,基于所述稳态数据预估待测时间对应的数据,得到所述待测时间的初始预估结果数据;

利用所述第一影响因子的数值、所述第二影响因子的数值、所述第三影响因子的数值及所述第四影响影子的数值,对所述初始预估结果数据进行修正,得到所述待测时间的预估结果数据。

一种数据处理系统,包括:

获取模块,用于获得目标数据的预定影响因素对应的影响信息;

处理模块,用于基于所述影响信息对所述目标数据进行处理,使得从所述目标数据中剥离所述影响信息在所述目标数据中对应的影响值,得到所述目标数据对应的稳态数据。

上述系统,优选的,所述预定影响因素包括枚举型影响因素及数值型影响因素,其中,所述枚举型影响因素,包括宏观枚举因素、非离散微观枚举因素及离散微观枚举因素,则所述获取模块包括:

第一计算单元,用于计算所述宏观枚举因素的各枚举值对应的第一影响因子的数值;

第二计算单元,用于计算所述非离散微观枚举因素的各枚举值对应的第二影响因子的数值;

第三计算单元,用于计算所述离散微观枚举因素的各枚举值对应的第三影响因子的数值;

第四计算单元,用于计算所述数值型影响因素对应的第四影响因子的数值。

上述系统,优选的,所述处理模块包括:

第五计算单元,用于利用所述第一影响因子的数值、所述第二影响因子的数值及所述第三影响因子的数值,计算所述目标数据对应的初始稳态数据,使得从所述目标数据中剥离所述第一影响因子、所述第二影响因子、所述第三影响因子在所述目标数据中对应的影响值;

第一修正单元,用于利用所述第四影响因子的数值对所述初始稳态数据进行修正,得到所述目标数据对应的稳态数据,使得从所述初始稳态数据中剥离所述第四影响因子在所述初始稳态数据中对应的影响值。

上述系统,优选的,还包括:

预估模块,用于基于所述稳态数据及所述第一影响因子、所述第二影响因子、所述第三影响因子、所述第四影响因子,对待测时间对应的数据进行预估,得到预估结果数据。

上述系统,优选的,所述预估模块包括:

预估单元,用于利用预定预测方法,基于所述稳态数据预估待测时间对应的数据,得到所述待测时间的初始预估结果数据;

第二修正单元,用于利用所述第一影响因子的数值、所述第二影响因子的数值、所述第三影响因子的数值及所述第四影响影子的数值,对所述初始预估结果数据进行修正,得到所述待测时间的预估结果数据。

由以上方案可知,本申请提供了一种数据处理方法和系统,所述方法通过获得目标数据的预定影响因素对应的影响信息,并基于所述影响信息对所述目标数据进行处理,使得从所述目标数据中剥离所述影响信息在所述目标数据中对应的影响值,得到所述目标数据对应的稳态数据。本申请通过对目标数据进行处理,剥离预定影响因素的影响信息在该目标数据中对应的影响值,可有效消除所述预定影响因素对目标数据产生的影响,使得处理后得到的数据在稳定性方面得到提升,基于此,应用本申请方案可有效削弱数据的发散性,使得数据便于分析研究,便于得到令人信服的数据研究结果,提高数据研究结果的参考价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的数据处理方法流程图;

图2是本发明实施例二提供的数据处理方法流程图;

图3-图4是本发明实施例三提供的数据处理系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

本申请实施例一提供一种数据处理方法,该方法适用于但不限于对餐饮、零售等企业的销售数据进行处理,参考图1示出的数据处理方法流程图,该方法可以包括以下步骤:

S101:获得目标数据的预定影响因素对应的影响信息。

S102:基于所述影响信息对所述目标数据进行处理,使得从所述目标数据中剥离所述影响信息在所述目标数据中对应的影响值,得到所述目标数据对应的稳态数据。

销售数据受影响的因素较多、影响机制不明确,某些因素本身或其影响结果具有较大的偶发性,使得销售数据本身的规律发现极为困难。以餐饮企业的销售数据为例,申请人经研究发现,餐饮销售数据具有以下特点:

1)数据发散明显。餐饮销售数据按天、周、月进行统计均有明显的发散性,统计周期越短,差异性越大,以最受关注的每日数据为例,极值点的相对平均值的差异性可达100%以上,方差相对平均值的差异性可达40%以上。

2)数据规律性不显著。在多要素综合影响下,在呈现一定规律性的基础上,存在相当数量的偶发反规律点。

申请人通过统计分析,发现餐饮销售数据易于观察到的定性特征为:

1)以年为考察周期,销售数据具有随时间波动的宏观特征。在一年中的不同时段,销售数据在一定程度上具有可重现的周期性规律。该规律为相对的,在其他宏观因素(如宏观经济形势)影响下,该规律可能不显著。

2)以周为考察周期,销售数据具有随时间波动的微观特征。在一周中,工作日、休息日具有可重现的周期性规律:周一至周四工作日销售额接近,休息日销售数据高于工作日、周五销售高于周一至周四。该规律为相对的,在天气、节日等其他因素影响下,该规律可能不显著或违反规律。

3)以节假日为考察点,销售数据具有较为显著的独立性。节假日销售数据高于其他时间,不同节假日销售数据增幅不同,法定节假日的调休日和调班日独立于以周为考察对象的微观特征。

4)以天气为考察点,销售数据在不同天气现象下具有微弱的相关性,其中在一天中的某些时间段的相关性略微显著。

按照数据预估的一般方法如近似拟合法,对具有上述特征的销售数据进行规律分析时,由于数据的发散性和偶发无规律性,导致近似拟合的模型误差大,稳定性差,主要体现为:

1)由于数据本身显著的发散性,直接在其上进行数据拟合必然导致较大的拟合误差,不能很好的回归拟合历史数据;同样的,拟合模型对未来数据预测的误差也大。

2)由于数据影响因素多,对单个情景进行独立分析难度增大。以三年数据1095左右个历史数据为例,研究一月份周五的销售规律可依托的数据点不超过20个。如此少的数据量无法保持数据模型的稳定性,一个偶发反规律点都可能对模型预测结果产生显著影响。模型不稳定导致大误差的预测,甚至错误的预测。

综上所述,直接使用销售数据进行规律分析和数据预估无法获得理想的结果,这一结果是由数据发散、数据规律不显著、情景样本过少造成的。基于此,本申请提供一种数据处理方法来解决上述问题,该方法的主要构思是:通过剥离已知影响因素对销售数据产生的影响来增大一致情景的样本空间,进而提高数据模型的稳定性得到稳态数据,为销售数据的规律分析和数据预估提供便利,需要说明的是,已知影响因素的影响仅在规律分析阶段被剥离,即具体基于被剥离已知影响因素的影响后的销售数据进行规律分析,得出数据规律,而在数据预估阶段,则重新将已知影响因素的影响与基于稳态数据的预估结果进行合成,从而得到与实际影响因素较为吻合的数据预估结果。

本实施例着重对从销售数据中剥离已知影响因素产生的影响,以得到稳态数据的处理过程进行描述。

其中,通过对销售数据所受到的实际影响情况进行研究,可知销售数据的影响因素可以包括枚举型及数值型等多种类型,枚举型影响因素可包括宏观枚举因素、微观枚举因素,而微观枚举因素又可细分为非离散微观枚举因素及离散微观枚举因素。本实施例具体以月份、星期和节假日为例来描述针对枚举型影响因素的销售数据处理过程,以降雨情况为例描述针对数值型影响因素的销售数据处理过程。

为便于规范描述,以下给出销售数据以及各影响因素的数学表示。具体地,记历史销售数据序列即待处理的销售数据为S={s1,s2,…sD},其中,D为以天计的历史数据个数,记月份序列为M={m1,m2,…m12},星期序列为W={w1,w2,…w7},国家法定节假日和其他主要节日(如儿童节、情人节)序列记为V={v1,v2,…vX},国家法定节假日对应的所有调休日(不包括节假日当天)记为对应的所有调班日(同样不包括节假日当天)记为其中,在月份、星期、节假日三种分类方法中,月份为覆盖全数据的宏观枚举因素,星期为覆盖全数据的微观枚举因素即非离散微观枚举因素,节假日为离散分布的微观枚举因素即离散微观枚举因素。将降雨量数据记为R={r1,r2,…rD},其中,R中的每一元素数据均为按天计的当天累加降雨量,降雨量为覆盖全数据的数值因素。

其中,在所述步骤S101中,所述目标数据即为待处理的销售数据,所述预定影响因素即为以上述及的月份、星期和节假日等枚举型影响因素及降雨量等数值型影响因素,所述预定影响因素的影响信息即为上述各枚举型及数值型影响因素对应的影响因子。接下来本实施例介绍获得各影响因素对应的影响因子以及从销售数据中剥离各影响因子在销售数据中所产生影响的过程。

1)计算宏观枚举因素的影响因子

在历史销售数据序列S中,剔除所有节假日、节日调休日、节日调班日对应的数据元素,生成新的待考察销售数据序列并将S′按月份划分为12个子序列,其中,每个子序列Si′对应包含且仅包含第mi个月的销售数据。

在S′i中剔除S′二倍标准方差2σ外的离群点,并计算剔除离群点之后的每个子序列中各元素的均值,得到均值序列则宏观枚举因素M(即月份)的各个枚举值{m1,m2,…m12}的影响因子为:

2)计算非离散微观枚举因素的影响因子

对销售数据序列S′,应用宏观枚举因素的影响因子,生成新的待考察销售数据序列d属于第mi个月,并将S“按星期划分为7个子序列,每个子序列S”i包含且仅包含第wi日的销售数据。

在Si”中剔除二倍标准方差2σ外的离群点,并计算剔除离群点之后的每个子序列中各元素的均值,得到均值序列则非离散微观枚举因素W(即星期)的各个枚举值{w1,w2,…w7}的影响因子为:

3)计算稳态基准序列及稳态基准均值

对销售数据序列S“,应用微观枚举因素的影响因子,生成新的待考察销售数据序列d属于第mi个月且属于第j个工作日。其中,S”’称为稳态基准序列。

计算S”’序列中各元素的均值Avgsmooth,该均值称为稳态基准均值。

4)计算离散微观枚举因素的影响因子

从历史销售数据序列S中,提取所有调休日数据计算的均值则调休日的影响因子为:

类似的,计算调班日的影响因子

从历史销售数据序列S中,提取每个不同节假日当天的数据计算的均值得到各节假日的影响因子:

5)计算稳态序列及数值因素的影响因子

对中的所有数据,根据其所属的节假日类别,或所属的调休日、调班日分别对应使用FV、或得到节日数据的稳态处理结果V”’,并记S”’∪V”’为初始稳态序列,该序列即为销售数据S对应的初始稳态数据。

接下来,使用一元一次线性回归,计算S”’∪V”’与R={r1,r2,…rD}的相关系数,记影响关系为:y=a*x+b,a,b为影响系数,x∈R,y∈S”’∪V”’,x为降雨量,即为所述数值型影响因素的影响因子。

在此基础上,利用降雨量这一影响因子对所述初始稳态序列S”’∪V”’进行修正,具体地,针对S”’∪V”’中每一元素数值y,利用y′=y-a*x得到从y中剥除降雨量所产生影响后的元素值y′,最终通过对S″′∪V″′中各个元素进行降雨量影响剥除,可得到销售数据S对应的稳态序列/稳态数据S″″∪V″″。

从而,本实施例通过以上过程实现了从待处理的销售数据中剥离各影响因素对销售数据产生的影响,增大了一致情景的样本空间,进而提高了数据模型的稳定性,为销售数据的规律分析和数据预估提供了便利。

由以上方案可知,本申请提供的数据处理方法,通过获得目标数据的预定影响因素对应的影响信息,并基于所述影响信息对所述目标数据进行处理,使得从所述目标数据中剥离所述影响信息在所述目标数据中对应的影响值,得到所述目标数据对应的稳态数据。本申请通过对目标数据进行处理,剥离预定影响因素的影响信息在该目标数据中对应的影响值,可有效消除所述预定影响因素对目标数据产生的影响,使得处理后得到的数据在稳定性方面得到提升,基于此,应用本申请方案可有效削弱数据的发散性,使得数据便于分析研究,便于得到令人信服的数据研究结果,提高数据研究结果的参考价值。

实施例二

本实施例继续对实施例一的方法进行补充,参考图2示出的数据处理方法流程图,所述方法还可以包括以下步骤:

S103:基于所述稳态数据及所述第一影响因子、所述第二影响因子、所述第三影响因子、所述第四影响因子,对待测时间对应的数据进行预估,得到预估结果数据。

其中,所述待测时间具体可以是根据实际需求所确定的未来的某一待测日dnew

首先,需基于实施例一得出的稳态数据预估/预测待测日对应的销售数据,本实施例假设使用经典的数据序列预测方法,如移动平均法、指数平滑法等在S’“‘∪V’“‘上预估的待测日dnew的销售数据为且假设根据天气预报等途径所获得的预测日dnew的降水量为r″″。

接下来,需基于各影响因素的影响因子对预估的待测日销售数据进行进一步修正,以实现向预估数据中合成各影响因素所产生的影响,使得最终的预估结果具有较高的准确度。

具体的,如果待测日dnew非节假日,且非调休调班日,则可将修正为:

其中,mi、wj为dnew对应的月份和星期;

如果dnew为节假日,则可将修正为:

其中,vi为dnew对应的节日;

如果dnew为调休日,可将修正为:

如果dnew为调班日,可将修正为:

从而最终可得到合成了各影响因素所产生影响、准确度较高的待测日预测结果。

实施例三

本实施例三公开一种数据处理系统,该系统与以上各实施例公开的数据处理方法相对应。

首先,相应于实施例一,参考图3示出的数据处理系统的结构示意图,所述系统可以包括获取模块100和处理模块200。

获取模块100,用于获得目标数据的预定影响因素对应的影响信息。

其中,所述获取模块100包括第一计算单元、第二计算单元、第三计算单元和第四计算单元。

第一计算单元,用于计算所述宏观枚举因素的各枚举值对应的第一影响因子的数值;第二计算单元,用于计算所述非离散微观枚举因素的各枚举值对应的第二影响因子的数值;第三计算单元,用于计算所述离散微观枚举因素的各枚举值对应的第三影响因子的数值;第四计算单元,用于计算所述数值型影响因素对应的第四影响因子的数值。

处理模块200,用于基于所述影响信息对所述目标数据进行处理,使得从所述目标数据中剥离所述影响信息在所述目标数据中对应的影响值,得到所述目标数据对应的稳态数据。

所述处理模块200包括第五计算单元和第一修正单元。

第五计算单元,用于利用所述第一影响因子的数值、所述第二影响因子的数值及所述第三影响因子的数值,计算所述目标数据对应的初始稳态数据,使得从所述目标数据中剥离所述第一影响因子、所述第二影响因子、所述第三影响因子在所述目标数据中对应的影响值;第一修正单元,用于利用所述第四影响因子的数值对所述初始稳态数据进行修正,得到所述目标数据对应的稳态数据,使得从所述初始稳态数据中剥离所述第四影响因子在所述初始稳态数据中对应的影响值。

相应于实施例二,参考图4,所述数据处理系统还可以包括预估模块300,用于基于所述稳态数据及所述第一影响因子、所述第二影响因子、所述第三影响因子、所述第四影响因子,对待测时间对应的数据进行预估,得到预估结果数据。

所述预估模块300包括预估单元和第二修正单元。

预估单元,用于利用预定预测方法,基于所述稳态数据预估待测时间对应的数据,得到所述待测时间的初始预估结果数据;第二修正单元,用于利用所述第一影响因子的数值、所述第二影响因子的数值、所述第三影响因子的数值及所述第四影响影子的数值,对所述初始预估结果数据进行修正,得到所述待测时间的预估结果数据。

对于本发明实施例三公开的数据处理系统而言,由于其与实施例一至实施例二公开的数据处理方法相对应,所以描述的比较简单,相关相似之处请参见实施例一至实施例二中数据处理方法部分的说明即可,此处不再详述。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1