建立预测模型的装置、方法及计算机可读存储介质与流程

文档序号:13557773阅读:236来源:国知局
建立预测模型的装置、方法及计算机可读存储介质与流程

本发明涉及数据处理技术领域,尤其涉及一种建立预测模型的装置、方法及计算机可读存储介质。



背景技术:

时间序列是一种十分常见的数据类型。几乎所有商业上的数据集,都有一个时间的维度。而很多商业的数据分析,例如股市的波动,某种疾病的发病率等,其数据具有随着时间的流动而发生变化的规律。传统的时间序列数据预测模型,例如自回归滑动平均模型,隐马尔可夫模型等,这些常用的模型的复用性较差,其建模流程往往需要较大量的人工参与样本训练,导致在不同场景下研究同类时间序列数据时,经常需要对模型进行适应性调整。



技术实现要素:

本发明提供一种建立预测模型的装置、方法及计算机可读存储介质,其主要目的在于降低人工训练介入量,提高基于时间序列创建的模型的可复用性。

为实现上述目的,本发明提供一种基于时间序列建立预测模型的装置,该装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的预测模型建立程序,所述预测模型建立程序被所述处理器执行时实现如下步骤:

获取样本组的目标时间序列,以目标时间单元为基准,从所述目标时间序列中提取m个间隔预设周期的时间单元的历史数据,作为同比数据特征,其中,m≥1;

从所述目标时间序列中提取所述目标时间单元前的n个连续的时间单元的历史数据,作为环比数据特征,其中,n≥1;

对所述环比数据特征取均值和方差,作为统计学特征;

将获取的多个样本组的特征输入到预设分类/回归模型中进行训练,其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量;

获取所述分类/回归模型的预测因子,将确定预测因子后的预设分类/回归模型作为预测模型。

可选地,所述处理器还用于执行所述预测模型建立程序,以在所述获取样本组的目标时间序列,以目标时间单元为基准,从所述目标时间序列中提取m个间隔预设周期的时间单元的历史数据,作为同比数据特征的步骤之前,以实现如下步骤:

对获取的原始时间序列作滑动平均处理和标准化处理得到标准时间序列,将所述标准时间序列作为所述目标时间序列。

可选地,所述处理器还用于执行所述预测模型建立程序,以在所述对输入的原始时间序列作滑动平均处理和标准化处理得到标准时间序列,将所述标准时间序列作为所述目标时间序列的步骤之前,还实现以下步骤:

接收输入的所述待测项目的历史数据,基于时间维度整理所述历史数据,以生成所述待测项目的原始时间序列。

可选地,所述将获取的多个样本组的特征输入到预设分类/回归模型中进行训练,其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量的步骤包括:

按照预设的特征选择算法,对因变量进行特征筛选处理获取特征子集;其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量;

将所述特征子集作为训练样本输入到预设分类模型中进行训练。

可选地,所述对获取的原始时间序列作滑动平均处理和标准化处理得到标准时间序列,将所述标准时间序列作为所述目标时间序的步骤包括:

按照预设的窗口长度对所述原始时间序列作滑动平均处理得到滑动平均序列;

按照预设的数据标准化算法对所述滑动平均序列进行标准化处理,以获取所述标准时间序列。

此外,为实现上述目的,本发明还提供一种基于时间序列建立预测模型的方法,该方法包括:

获取样本组的目标时间序列,以目标时间单元为基准,从所述目标时间序列中提取m个间隔预设周期的时间单元的历史数据,作为同比数据特征,其中,m≥1;

从所述目标时间序列中提取所述目标时间单元前的n个连续的时间单元的历史数据,作为环比数据特征,其中,n≥1;

对所述环比数据特征取均值和方差,作为统计学特征;

将获取的多个样本组的特征输入到预设分类/回归模型中进行训练,其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量;

获取所述分类/回归模型的预测因子,将确定预测因子后的预设分类/回归模型作为预测模型。

可选地,所述获取样本组的目标时间序列,以目标时间单元为基准,从所述目标时间序列中提取m个间隔预设周期的时间单元的历史数据,作为同比数据特征的步骤之前,所述方法还包括:

对获取的原始时间序列作滑动平均处理和标准化处理得到标准时间序列,将所述标准时间序列作为所述目标时间序列。

可选地,所述对输入的原始时间序列作滑动平均处理和标准化处理得到标准时间序列,将所述标准时间序列作为所述目标时间序列的步骤之前,所述方法还包括:

接收输入的所述待测项目的历史数据,基于时间维度整理所述历史数据,以生成所述待测项目的原始时间序列。

可选地,所述将获取的多个样本组的特征输入到预设分类/回归模型中进行训练,其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量的步骤包括:

按照预设的特征选择算法,对因变量进行特征筛选处理获取特征子集;其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量;

将所述特征子集作为训练样本输入到预设分类模型中进行训练。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有预测模型建立程序,所述预测模型建立程序被处理器执行时实现如上所述的基于时间序列建立预测模型的方法的步骤。

本发明提出的建立预测模型的装置、方法及计算机可读存储介质,获取样本组的目标时间序列,以目标时间单元为基准从该目标时间序列中提取m个间隔预设周期的时间单元的历史数据作为同比数据特征,从中提取该目标时间单元前的n个连续的时间单元的历史数据,作为环比数据特征,然后对该环比数据特征取均值和方差作为统计学特征,按照上述过程分别获取多个样本组的同比数据特征、环比数据特征和统计学特征,将多个样本组的上述特征输入到预设的分类/回归模型中进行训练,其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量,获取分类/回归模型的预测因子,将确定了预测因子的分类/回归模型作为预测模型,本发明在基于时间序列进行训练建模时,不需要人工参与样本的训练,能够对输入的目标时间序列进行特征提取,进而获取多个样本组的特征,将其输入到分类/回归模型中进行训练并生成预测因子,将确定了预测因子的分类/回归模型作为预测模型,可以用于其他场景的与样本组相同类型的时间序列的预测,提高了预测模型的可复用性。

附图说明

图1为本发明基于时间序列建立预测模型的装置较佳实施例的示意图;

图2为本发明基于时间序列建立预测模型的方法第一实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种基于时间序列建立预测模型的装置。参照图1所示,为本发明基于时间序列建立预测模型的装置较佳实施例的示意图。

在本实施例中,基于时间序列建立预测模型的装置可以是pc(personalcomputer,个人电脑),也可以是智能手机、平板电脑、便携计算机等可移动式终端设备。

该基于时间序列建立预测模型的装置包括存储器11、处理器12,通信总线13,以及网络接口14。

其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于时间序列建立预测模型的装置的内部存储单元,例如该基于时间序列建立预测模型的装置的硬盘或内存。存储器11在另一些实施例中也可以是基于时间序列建立预测模型的装置的外部存储设备,例如基于时间序列建立预测模型的装置上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器11还可以既包括基于时间序列建立预测模型的装置的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于基于时间序列建立预测模型的装置的应用软件及各类数据,例如预测模型建立程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行预测模型建立程序等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如wi-fi接口),通常用于在该装置与其他电子设备之间建立通信连接。例如,可以与服务器建立连接,获取服务器发送的历史数据。

图1仅示出了具有组件11-14以及预测模型建立程序的基于时间序列建立预测模型的装置,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

可选地,该装置还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在基于时间序列建立预测模型的装置中处理的信息以及用于显示可视化的用户界面。

可选地,该装置还可以包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。该装置的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

可选地,该装置还可以包括摄像头、rf(radiofrequency,射频)电路,传感器、音频电路、wifi模块等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,若该装置为移动终端,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中可以包括操作系统、以及预测模型建立程序;处理器12执行存储器11中存储的预测模型建立程序时实现如下步骤:

获取样本组的目标时间序列,以目标时间单元为基准,从所述目标时间序列中提取m个间隔预设周期的时间单元的历史数据,作为同比数据特征,其中,m≥1;

从所述目标时间序列中提取所述目标时间单元前的n个连续的时间单元的历史数据,作为环比数据特征,其中,n≥1;

对所述环比数据特征取均值和方差,作为统计学特征;

将获取的多个样本组的特征输入到预设分类/回归模型中进行训练,其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量;

获取所述分类/回归模型的预测因子,将确定预测因子后的预设分类/回归模型作为预测模型。

该实施例的装置预先获取需要提取特征的各个样本组的目标时间序列,将样本组的目标时间序列作为提取特征的对象。本实施例中涉及的时间序列是指同一统计指标的数值按其发生的时间先后顺序排列而成的数列。

以下为了便于对本发明的方案进行说明,以建立根据某流行性疾病在某城市前a个月的发病率预测第a+1个月的发病率的预测模型为例,假设a=36,则可以预先获取该流行性疾病在多个城市过去连续37个月内,每个月的发病率。例如,可以获取2014年1月至2017年1月期间,每个月的发病率的历史数据,在这个例子中,一个城市的历史数据对应一个样本组,该流行性疾病在每个城市的2014年1月至2017年1月期间,每个月的发病率构成一个样本组,样本组的数量越多,在对分类/回归模型进行训练时的准确性越高。假设当前分别有城市a、城市b……城市o等15个城市的发病率数据,则逐一对这15个城市的历史数据进行特征提取。

例如,对于城市a,获取其历史数据构成的目标时间序列,该目标时间序列为该流行性疾病在2014年1月至2017年1月期间,每个月在城市a的发病率,则一个月即为一个时间单元,在这些时间单元中,可以选择距离当前时间最近的一个时间单元作为目标时间单元,例如2017年1月。

城市a的历史数据中一共有37个发病率数据,也就是说,对于城市a来说,其目标时间序列为上述37个发病率数据按照时间顺序排列而成。按照预设周期从其中提取m个发病率数据作为同比数据特征,其中,预设周期和m的个数均由用户根据需要预先设置,例如,预设周期为半年,m=6,则从上述目标时间序列中提取2014年7月、2015年1月、2015年7月、2016年1月、2016年7月、2017年1月的发病率,作为同比数据特征,在其他实施例中预设周期还可以为3个月等,m的值也可以为更大或者更小的值。

然后,从上述37个发病率数据按照时间顺序排列构成的目标时间序列中获取目标时间单元前的n个连续的时间单元的历史数据,作为目标时间单元的环比数据特征,假设n为15,则需要获取2017年1月前的15个月的发病率,即2015年11月至2017年1月连续15个月的发病率,将这15个数据作为环比数据特征。在获取到环比数据特征后,对其取均值和方差,将其作为统计学特征。按照上述过程获取到的目标时间序列的特征的数量为m+n+2。需要说明的是,上述过程中提取目标时间单元前的n个连续的时间单元的历史数据中,包含有目标时间单元对应的历史数据。

需要说明的是,该实施例中的目标时间单元可以由用户根据需要设置,作为选取数据特征的基准,在后期训练模型时,目标时间单元对应的特征可以作为目标变量,该目标时间单元为整个目标时间序列中在时间上最接近当前时间点的一个时间单元。m和n的值均为大于0的正整数,m与n的值越大,则最终从目标时间序列中得到的数据特征的个数也越多。m与n的值均小于目标时间序列中的数据的总数量。预设周期为时间单元的整数倍。

按照上述过程分别获取其他14个城市的目标时间序列的数据特征。将获取到的15个样本组的特征作为训练样本输入到预设的分类模型或者回归模型中进行模型的训练。需要说明的是,本实施例中涉及到的分类模型或者回归模型可以是现有的用于对数据进行统计分类或者回归处理的模型,其中,回归模型为多元回归模型。在进行模型训练时,将获取到的m+n+2个特征中,与目标时间单元对应的特征作为目标变量,将剩余的m+n+1个特征作为因变量对模型进行训练,即分别以从一个城市在过去36个月的发病率中选择的m+n+1个特征作为因变量,将第37个月的发病率作为目标变量作为一个样本,将上述15个城市的数据构成15个样本,对模型进行训练,获取该模型的预测因子。即目标变量基于预测因子与因变量之间构成函数关系,该函数关系由回归模型或者分类模型所对应的函数所确定,在此不再赘述。

确定预测预测因子后的预设分类/回归模型构成预测模型,用于对某个城市的未来时间单元的发病率进行预测,例如,已知城市z当前时间单元(包括当前时间单元)前的连续36个月的该流行性疾病的发病率,这些数据构成一个时间序列,按照上述提取数据特征的过程提取该时间序列的特征,将这些特征输入到上述预测模型中,则可以预测下一个时间单元该流行性疾病在城市z的发病率或者发病率的高低程度。

需要说明的是,选择分类模型还是选择回归模型,可以根据用户的需要进行选择。例如,用户最终想要得到的是一个具体的发病率数值,则选择回顾模型,若用户最终想要得到的是一个发病率的高低程度,则可以选择分类模型,可以理解的是,如果选择分类模型,则在进行模型训练时,需要对目标变量进行类别的划分。优选地,在本发明的一些实施例中,可以选择不易发生过拟合的随机森林作为分类模型或者回归模型。

在本实施例中,将目标变量的预设周期的同比特征、环比特征以及环比特征的均值和方差作为其因变量,对目标目标变量进行预测,相对于普通的离散特征,上述特征对于目标变量来说具有更好的相关性,因此,建立的预测模型具有更好的精准度。

本实施例提出的建立预测模型的装置,获取样本组的目标时间序列,以目标时间单元为基准从该目标时间序列中提取m个间隔预设周期的时间单元的历史数据作为同比数据特征,从中提取该目标时间单元前的n个连续的时间单元的历史数据,作为环比数据特征,然后对该环比数据特征取均值和方差作为统计学特征,按照上述过程分别获取多个样本组的同比数据特征、环比数据特征和统计学特征,将多个样本组的上述特征输入到预设的分类/回归模型中进行训练,其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量,获取分类/回归模型的预测因子,将确定了预测因子的分类/回归模型作为预测模型,本发明在基于时间序列进行训练建模时,不需要人工参与样本的训练,能够对输入的目标时间序列进行特征提取,进而获取多个样本组的特征,将其输入到分类/回归模型中进行训练并生成预测因子,将确定了预测因子的分类/回归模型作为预测模型,可以用于其他场景的与样本组相同类型的时间序列的预测,提高了预测模型的可复用性。

进一步地,基于上述实施例,在其他实施例中,在对模型进行训练之前,先对因变量进行特征筛选以优化因变量,具体地,所述将获取的多个样本组的特征输入到预设分类/回归模型中进行训练,其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量的步骤包括:

按照预设的特征选择算法,对因变量进行特征筛选处理获取特征子集;其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量;将所述特征子集作为训练样本输入到预设分类模型中进行训练。

上述特征选择算法可以是基于随机森林的特征选择算法,如filter、wrapper等算法,用户可以根据需要选择任意一种算法对作为因变量的特征进行筛选,从中排除一部分非关键性的噪声特征,减少因变量的数量,提高模型训练的精准度,进而提高建立的预测模型的预测正确率。

进一步地,在一些实施例中,处理器还用于执行所述预测模型建立程序,以在所述获取样本组的目标时间序列,以目标时间单元为基准,从所述目标时间序列中提取m个间隔预设周期的时间单元的历史数据,作为同比数据特征的步骤之前,以实现如下步骤:

对获取的原始时间序列作滑动平均处理和标准化处理得到标准时间序列,将所述标准时间序列作为所述目标时间序列。

在该实施例中,接收输入的所述待测项目的历史数据,基于时间维度整理所述历史数据,以生成所述待测项目的原始时间序列。为了便于后期的数据处理,对该原始时间序列进行滑动平均处理,获取其滑动平均序列,具体地,按照预设的窗口长度对所述原始时间序列作滑动平均处理得到滑动平均序列,例如,对于上述由37个月的发病率构成的原始时间序列,其窗口长度可以设置为3-5,例如,其窗口长度设置为5。经过滑动平均处理后的数据有更好的平稳性。然后,为了减小训练时的计算量以及计算的精准度,对滑动平均处理后的数据进行标准化处理,以得到无量纲的时间序列,例如可以采用z-score标准化的方式进行处理。将标准化处理得到的标准时间序列作为目标时间序列,进行特征提取以及后续的模型训练,具体过程请参照上述实施例,不再赘述,标准时间序列中的数据与原始的时间序列中的数据的区别在于,原始的时间序列中的数据为具体的发病率,而标准时间序列中的数据为一个无量纲的值。

可选地,在其他的实施例中,预测模型建立程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

例如,在一实施例中,预测模型建立程序可以被分割为获取模块、提取模块、训练模块以及生成模块,其中:

所述获取模块用于:获取样本组的目标时间序列;

所述提取模块用于:以目标时间单元为基准,从所述目标时间序列中提取m个间隔预设周期的时间单元的历史数据,作为同比数据特征,其中,m≥1;

从所述目标时间序列中提取所述目标时间单元前的n个连续的时间单元的历史数据,作为环比数据特征,其中,n≥1;

以及,对所述环比数据特征取均值和方差,作为统计学特征;

所述训练模块用于:将获取的多个样本组的特征输入到预设分类/回归模型中进行训练,其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量;

所述生成模块用于:获取所述分类/回归模型的预测因子,将确定预测因子后的预设分类/回归模型作为预测模型。

此外,本发明还提供一种基于时间序列建立预测模型的方法。参照图2所示,为本发明基于时间序列建立预测模型的方法第一实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。

在本实施例中,基于时间序列建立预测模型的方法包括:

步骤s10,获取样本组的目标时间序列,以目标时间单元为基准,从所述目标时间序列中提取m个间隔预设周期的时间单元的历史数据,作为同比数据特征,其中,m≥1;

步骤s20,从所述目标时间序列中提取所述目标时间单元前的n个连续的时间单元的历史数据,作为环比数据特征,其中,n≥1;

步骤s30,对所述环比数据特征取均值和方差,作为统计学特征;

步骤s40,将获取的多个样本组的特征输入到预设分类/回归模型中进行训练,其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量;

步骤s50,获取所述分类/回归模型的预测因子,将确定预测因子后的预设分类/回归模型作为预测模型。

该实施例中,预先获取需要提取特征的各个样本组的目标时间序列,将样本组的目标时间序列作为提取特征的对象。本实施例中涉及的时间序列是指同一统计指标的数值按其发生的时间先后顺序排列而成的数列。

以下为了便于对本发明的方案进行说明,以建立根据某流行性疾病在某城市前a个月的发病率预测第a+1个月的发病率的预测模型为例,假设a=36,则可以预先获取该流行性疾病在多个城市过去连续37个月内,每个月的发病率。例如,可以获取2014年1月至2017年1月期间,每个月的发病率的历史数据,在这个例子中,一个城市的历史数据对应一个样本组,该流行性疾病在每个城市的2014年1月至2017年1月期间,每个月的发病率构成一个样本组,样本组的数量越多,在对分类/回归模型进行训练时的准确性越高。假设当前分别有城市a、城市b……城市o等15个城市的发病率数据,则逐一对这15个城市的历史数据进行特征提取。

例如,对于城市a,获取其历史数据构成的目标时间序列,该目标时间序列为该流行性疾病在2014年1月至2017年1月期间,每个月在城市a的发病率,则一个月即为一个时间单元,在这些时间单元中,可以选择距离当前时间最近的一个时间单元作为目标时间单元,例如2017年1月。

城市a的历史数据中一共有37个发病率数据,也就是说,对于城市a来说,其目标时间序列为上述37个发病率数据按照时间顺序排列而成。按照预设周期从其中提取m个发病率数据作为同比数据特征,其中,预设周期和m的个数均由用户根据需要预先设置,例如,预设周期为半年,m=6,则从上述目标时间序列中提取2014年7月、2015年1月、2015年7月、2016年1月、2016年7月、2017年1月的发病率,作为同比数据特征,在其他实施例中预设周期还可以为3个月等,m的值也可以为更大或者更小的值。

然后,从上述37个发病率数据按照时间顺序排列构成的目标时间序列中获取目标时间单元前的n个连续的时间单元的历史数据,作为目标时间单元的环比数据特征,假设n为15,则需要获取2017年1月前的15个月的发病率,即2015年11月至2017年1月连续15个月的发病率,将这15个数据作为环比数据特征。在获取到环比数据特征后,对其取均值和方差,将其作为统计学特征。按照上述过程获取到的目标时间序列的特征的数量为m+n+2。需要说明的是,上述过程中提取目标时间单元前的n个连续的时间单元的历史数据中,包含有目标时间单元对应的历史数据。

需要说明的是,该实施例中的目标时间单元可以由用户根据需要设置,作为选取数据特征的基准,在后期训练模型时,目标时间单元对应的特征可以作为目标变量,该目标时间单元为整个目标时间序列中在时间上最接近当前时间点的一个时间单元。m和n的值均为大于0的正整数,m与n的值越大,则最终从目标时间序列中得到的数据特征的个数也越多。m与n的值均小于目标时间序列中的数据的总数量。预设周期为时间单元的整数倍。

按照上述过程分别获取其他14个城市的目标时间序列的数据特征。将获取到的15个样本组的特征作为训练样本输入到预设的分类模型或者回归模型中进行模型的训练。需要说明的是,本实施例中涉及到的分类模型或者回归模型可以是现有的用于对数据进行统计分类或者回归处理的模型,其中,回归模型为多元回归模型。在进行模型训练时,将获取到的m+n+2个特征中,与目标时间单元对应的特征作为目标变量,将剩余的m+n+1个特征作为因变量对模型进行训练,即分别以从一个城市在过去36个月的发病率中选择的m+n+1个特征作为因变量,将第37个月的发病率作为目标变量作为一个样本,将上述15个城市的数据构成15个样本,对模型进行训练,获取该模型的预测因子。即目标变量基于预测因子与因变量之间构成函数关系,该函数关系由回归模型或者分类模型所对应的函数所确定,在此不再赘述。

确定预测预测因子后的预设分类/回归模型构成预测模型,用于对某个城市的未来时间单元的发病率进行预测,例如,已知城市z当前时间单元(包括当前时间单元)前的连续36个月的该流行性疾病的发病率,这些数据构成一个时间序列,按照上述提取数据特征的过程提取该时间序列的特征,将这些特征输入到上述预测模型中,则可以预测下一个时间单元该流行性疾病在城市z的发病率或者发病率的高低程度。

需要说明的是,选择分类模型还是选择回归模型,可以根据用户的需要进行选择。例如,用户最终想要得到的是一个具体的发病率数值,则选择回顾模型,若用户最终想要得到的是一个发病率的高低程度,则可以选择分类模型,可以理解的是,如果选择分类模型,则在进行模型训练时,需要对目标变量进行类别的划分。优选地,在本发明的一些实施例中,可以选择不易发生过拟合的随机森林作为分类模型或者回归模型。

在本实施例中,将目标变量的预设周期的同比特征、环比特征以及环比特征的均值和方差作为其因变量,对目标目标变量进行预测,相对于普通的离散特征,上述特征对于目标变量来说具有更好的相关性,因此,建立的预测模型具有更好的精准度。

本实施例提出的建立预测模型的方法,获取样本组的目标时间序列,以目标时间单元为基准从该目标时间序列中提取m个间隔预设周期的时间单元的历史数据作为同比数据特征,从中提取该目标时间单元前的n个连续的时间单元的历史数据,作为环比数据特征,然后对该环比数据特征取均值和方差作为统计学特征,按照上述过程分别获取多个样本组的同比数据特征、环比数据特征和统计学特征,将多个样本组的上述特征输入到预设的分类/回归模型中进行训练,其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量,获取分类/回归模型的预测因子,将确定了预测因子的分类/回归模型作为预测模型,本发明在基于时间序列进行训练建模时,不需要人工参与样本的训练,能够对输入的目标时间序列进行特征提取,进而获取多个样本组的特征,将其输入到分类/回归模型中进行训练并生成预测因子,将确定了预测因子的分类/回归模型作为预测模型,可以用于其他场景的与样本组相同类型的时间序列的预测,提高了预测模型的可复用性。

进一步地,基于上述第一实施例提出本发明方法的第二实施例,在该实施例中,在对模型进行训练之前,先对因变量进行特征筛选以优化因变量,具体地,步骤s40包括:

按照预设的特征选择算法,对因变量进行特征筛选处理获取特征子集;其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量;将所述特征子集作为训练样本输入到预设分类模型中进行训练。

上述特征选择算法可以是基于随机森林的特征选择算法,如filter、wrapper等算法,用户可以根据需要选择任意一种算法对作为因变量的特征进行筛选,从中排除一部分非关键性的噪声特征,减少因变量的数量,提高模型训练的精准度,进而提高建立的预测模型的预测正确率。

进一步地,基于上述第一实施例或者第二实施例,提出本发明方法的第三实施例,在该实施例中,步骤s10之前,该方法还包括:

对获取的原始时间序列作滑动平均处理和标准化处理得到标准时间序列,将所述标准时间序列作为所述目标时间序列。

在该实施例中,接收输入的所述待测项目的历史数据,基于时间维度整理所述历史数据,以生成所述待测项目的原始时间序列。为了便于后期的数据处理,对该原始时间序列进行滑动平均处理,获取其滑动平均序列,具体地,按照预设的窗口长度对所述原始时间序列作滑动平均处理得到滑动平均序列,例如,对于上述由37个月的发病率构成的原始时间序列,其窗口长度可以设置为3-5,例如,其窗口长度设置为5。经过滑动平均处理后的数据有更好的平稳性。然后,为了减小训练时的计算量以及计算的精准度,对滑动平均处理后的数据进行标准化处理,以得到无量纲的时间序列,例如可以采用z-score标准化的方式进行处理。将标准化处理得到的标准时间序列作为目标时间序列,进行特征提取以及后续的模型训练,具体过程请参照上述实施例,不再赘述,标准时间序列中的数据与原始的时间序列中的数据的区别在于,原始的时间序列中的数据为具体的发病率,而标准时间序列中的数据为一个无量纲的值。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有预测模型建立程序,所述预测模型建立程序被处理器执行时实现如下操作:

获取样本组的目标时间序列,以目标时间单元为基准,从所述目标时间序列中提取m个间隔预设周期的时间单元的历史数据,作为同比数据特征,其中,m≥1;

从所述目标时间序列中提取所述目标时间单元前的n个连续的时间单元的历史数据,作为环比数据特征,其中,n≥1;

对所述环比数据特征取均值和方差,作为统计学特征;

将获取的多个样本组的特征输入到预设分类/回归模型中进行训练,其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量;

获取所述分类/回归模型的预测因子,将确定预测因子后的预设分类/回归模型作为预测模型。

进一步地,所述预测模型建立程序被处理器执行时还实现如下操作:

对获取的原始时间序列作滑动平均处理和标准化处理得到标准时间序列,将所述标准时间序列作为所述目标时间序列。

进一步地,所述预测模型建立程序被处理器执行时还实现如下操作:

接收输入的所述待测项目的历史数据,基于时间维度整理所述历史数据,以生成所述待测项目的原始时间序列。

进一步地,所述预测模型建立程序被处理器执行时还实现如下操作:

按照预设的特征选择算法,对因变量进行特征筛选处理获取特征子集;其中,将所述目标时间单元对应的特征为目标变量,并将特征中除目标变量外的其他特征作为因变量;

将所述特征子集作为训练样本输入到预设分类模型中进行训练。

进一步地,所述预测模型建立程序被处理器执行时还实现如下操作:

按照预设的窗口长度对所述原始时间序列作滑动平均处理得到滑动平均序列;

按照预设的数据标准化算法对所述滑动平均序列进行标准化处理,以获取所述标准时间序列。

需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1