一种基于时间序列动态预测中短期区域儿科门诊人次的方法与流程

文档序号:11287619阅读:247来源:国知局
一种基于时间序列动态预测中短期区域儿科门诊人次的方法与流程

本发明涉及门诊人次预测方法,尤其是涉及一种基于时间序列的中短期区域儿科门诊人次动态预测方法。



背景技术:

在当今形势下,定量了解区域内居民医疗卫生服务需求,对于合理制定区域卫生规划,优化医疗卫生资源配置,提高医疗卫生服务的质量和效率,有着显著的现实意义。门诊量是反映居民就医的一项重要指标,准确预测区域内下一周期(日、周、月)门诊量,为区域卫生资源规划和优化配置提供重要依据。

儿科门诊量具有明显的周期性和季节性趋势,区域内不同医院间儿科门诊量存在巨大差异,主要影响因素:1)医院的医疗技术、医疗设施、就医便利性、医疗服务和医疗价格等;2)监护人的教育水平、社会经济地位、医疗保障方式、医院地理位置、就医习惯等;3)国家医疗政策、经济环境、自然环境、儿童传染病暴发等。这些影响因素之间存在错综复杂的联系,难以运用结构式的因果模型加以解释。同时随着全面二孩政策的开放,小幅生育潮带来的儿科医疗卫生资源方面的紧缺,迫使我们深入了解儿童患病人次波动的原因,从而为优化儿童医疗资源配置提供理论依据。

时间序列预测模型是20世纪60年代由美国box和英国jenkins提出的以随机理论为基础的时间序列分析预测方法,现已经广泛应用于经济学、工程学、生物学、医药卫生等领域。该模型以时间序列的自相关分析为基础,通过求解时间序列当前期和不同滞后期的自相关系数,建立模型刻画时间序列轨迹,识别模型特征、优化建模,以及完成预测。其中,自回归移动平均模型(autoregressiveintegratedmovingaveragemodel,arima)是适用于中短期预测的最重要的时间序列分析模型之一。

已有学者运用时间序列预测门诊人次,并与实际门诊人次相比较,取得了较好的预测效果,但也存在明显的局限性:1)就诊时更偏向于大医院这样的选择性偏倚,因此这些针对某三甲医院全院所有科室的门诊人次预测,能整体把握短期内医院门诊量波动情况,但具体优化安排医院哪些科室门诊资源的参考价值有限;2)某儿童医院利用arima模型预测短期、中期门诊人次,为医院合理安排门诊医疗资源、提高医院管理水平提供依据,但若样本推断整体区域儿科就医需求是不可行的;3)仅有的区域内就诊人次的预测,是在全国医院所有科室的年汇总就诊人次的尺度上进行,能整体把握我国近几十年医院就诊人次的增长趋势,但对卫生管理部门进行具体区域卫生规划、资源配置提供的依据有限;4)静态预测近期(3个月、4周)门诊人次,没有尝试动态时序预测。



技术实现要素:

本发明的目的在于克服现有技术的不足,利用时间序列方法对区域内中期(月)和短期(周和日)儿科门诊人次进行拟合,提供一种可以反映过去和现在儿科门诊人次的变化规律,并且动态预测未来情况的方法。

本发明是通过以下技术方案来实现的:一种基于时间序列动态预测中短期区域儿科门诊人次的方法,该方法利用前期儿科门诊人次数据预测下一周期的儿科门诊人次,即随着时间的推移,时间序列不断加入最近一期儿科门诊人次的真实数据,反复迭代优化模型,动态预测下期儿科门诊人次。

一种基于时间序列动态预测中短期区域儿科门诊人次的方法包括以下步骤:

s1:序列平稳性检验和处理,用于初步处理和筛选平稳序列;

s2:事件变量识别,通过定义事件变量的影响月份以及当月预测值与实际值之间的残差,来评价事件变量对序列的扰动情况,并据此进一步对时间序列预测值进行调整;

s3:参数估计与检验,通过乘积季节求和自回归移动平均模型建模;

s4:最优序列长度识别,通过拟合效果指标,选择最优模型和最优时间序列长度;

s5:动态预测,反复迭代优化模型,得出预测结果。

所述的序列平稳性检验和处理,包括如下子步骤;

s11:数据收集和预处理,选择准确性高、信息覆盖率高的儿童就诊数据,将无用数据去噪,集约出有用数据;

s12:序列平稳性检验,通过对序列图的分析以及自相关性检验,判断序列的平稳性;

s13:序列平稳性处理,对非平稳时间序列进行平稳化处理,如存在长期趋势则进行差分,如存在季节影响则进行季节性差分,直到处理后的数据为平稳序列,即序列的自相关系数和偏自相关系数很快地衰减到零,出现拖尾或者截尾现象。

所述的事件变量识别,包括如下步骤:

s2:儿科门诊量具有周期性、季节性和节假日效应,将月份、节假日作为事件变量引入时间序列预测模型,来评价事件变量对序列的扰动情况,并据此进一步对时间序列预测值进行调整。

所述的参数估计、参数检验与模型评估,包括如下子步骤:

s31:参数估计,儿科门诊量具有显著的周期性,采用乘积季节求和自回归移动平均模型建模;

s32:参数检验,对各参数进行检验,p<0.05则具有显著性意义,模型可以表达序列信息,采用box-ljung法检验残差序列,p>0.05则认为残差序列是白噪声;

s33:模型评估,采用设定的拟合效果指标评估模型拟合效果。

所述的最优序列长度识别,包括如下子步骤:

s41:选择不同时间长度的序列,加入事件变量,构建预测模型,以此克服时间序列预测的过拟合或预测外推效果不佳,得到不同序列长度的时间序列预测模型;

s42:通过设定的拟合效果指标,选择最优模型和最优时间序列长度。

所述的动态预测,包括如下子步骤:

s51:根据最优序列长度结果,利用时间范围内儿科门诊人次的时间序列拟合最优模型,预测下一时期的门诊人次情况;

s52:反复迭代优化模型,动态预测最近期的儿科门诊人次。

进一步地,所述的数据收集和预处理,包括以下子步骤:

s111:数据收集,选择准确性高、信息覆盖率高的数据进行集成;

s112:数据预处理,首先对收集的数据进行无关数据去噪,再将多个数据源中的数据集合起来存放在数据储存中。

所述的序列平稳性包括强平稳性和弱平稳性。

所述的序列图分析包括序列散点图、acf图及pacf图。

所述的中期预测为月尺度的预测,所述的短期预测为周、日尺度的预测。

所述的拟合效果指标包括stationaryr2、r2、aic、bic和rmse。

本发明的有益效果是:1)预测分别是在区域内所有医院儿科门诊人次的月、周、日尺度上进行,能掌握区域内儿科门诊人次的变化趋势并进行中短期预测;2)基于最优序列长度,利用最近期儿科门诊人次的时间序列,动态预测中期(月)、短期(周、日)儿科门诊人次,能有效解决时间序列预测普遍存在的过拟合和外推效果不佳的问题;3)时间序列动态预测模型极具推广价值,对预测区域内其他科室门诊人次具有重要借鉴意义。

附图说明

图1时间序列动态预测流程

图2事件变量识别流程图

图3最优序列长度识别流程图

图4动态预测模型流程图

具体实施方式

下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。

如图1,一种基于时间序列动态预测中短期区域儿科门诊人次的方法,包括以下步骤:

s1:序列平稳性检验和处理;

s2:事件变量识别;

s3:参数估计与检验;

s4:最优序列长度识别;

s5:动态预测。

进一步的,所述的序列平稳性检验和处理,包括如下子步骤:

s11:数据收集和数据预处理,包括以下子步骤:

s111:数据收集,选择准确性高、信息覆盖率高的数据进行集成。

s112:数据预处理,首先对搜集的数据进行无关数据去噪,再将多个数据源中的数据集合起来存放在数据储存中,将数据变换成适合数据挖掘的形式时,把数据聚集和规约。

s12:序列平稳性检验。时间序列分析的前提不仅是诸多随机因素的影响作用综合后生成确定性的影响,而且这些确定性影响与时间本身具有一定相关性。平稳性是时间序列分析的基本假设,包括两种平稳性:

强平稳(strictstationarity),对于所有可能的n,所有可能的t{1},...,t{n}和所有可能的k,当的联合分布与相同时,称为强平稳。强平稳的条件太强,无论从理论上还是实际上都不具有可操作性。

弱平稳(weakstationarity),均值函数是常数、自相关函数和偏自相关函数只依赖于时间的平移长度而与时间的起止点无关,称为弱平稳,即为:

(a)ex2<∞,

(b)ext=μ,μ为常数,

(c)γ(t,s)=γ(k,k+s-t),s,k且k+s-t∈t

s13:序列平稳性处理。平稳序列始终在一个常数值附近随机波动,无明显趋势及周期特征,即残差达到白噪声,此时的序列无需处理。对非平稳时间序列进行平稳化处理:如存在长期趋势,则进行差分;如存在季节影响,则进行季节性差分;直到处理后的数据为平稳序列,即序列的自相关系数和偏自相关系数很快地衰减到零,出现拖尾或者截尾现象。

如图2,所述的事件变量识别,包括如下步骤:

事件变量(eventvariables)识别,通过定义事件变量的影响月份以及当月预测值与实际值之间的残差,来评价事件变量对序列的扰动情况,并据此进一步对时间序列预测值进行调整。根据影响时间分为中期预测和短期预测。

s2:儿科门诊量具有周期性、季节性和节假日效应,将月份、节假日作为事件变量引入时间序列预测模型,来评价事件变量对序列的扰动情况,并据此进一步对时间序列预测值进行调整。

所述的参数估计与检验,包括以下步骤:

s31:参数估计,儿科门诊量具有显著的周期性,因此可采用乘积季节求和自回归移动平均模型(sarima,乘积季节模型)建模预测。乘积季节模型的表示形式为sarima(p,d,q)(p,d,q)s,其数学表达式为:且规定:

φ(bs)=1-φ1bs-φ2b2s-...-φpbps

θ(b)=1-θ1b-θ2b-θ3b-...-θqb;

即为zt的t阶差分;

μt~n(0,σ2)为随机项;zt为观测值,为季节差分算子,b为后移算子;

通过序列散点图、acf及pacf判断模型参数。t为时间序列,d为平稳时时间序列的差分阶数,根据acf、pacf特征初步定阶p、q,即acf在q阶拖尾,pacf在p阶拖尾。

s32:参数检验与模型评估,对各参数检验,p<0.05则具有显著性意义,认为模型可以表达序列信息。通过box-ljung法检验残差序列,p>0.05,可以认为残差序列是白噪声。stationaryr2、r2、aic信息准则(akaikeinfocriterion,aic)、标准化贝叶斯信息准则(normalizedbayesianinformationcriteria,bic)、平均绝对误差百分比(meanabsolutepercentageerror,mape)等指标可以评估模型的拟合效果。stationaryr2和r2越大,模型拟合效果越好,大于0.75提示模型拟合较好;aic、bic、rmse越小,模型拟合越好;rmse小于5%提示预测效果较好。

如图3,所述的最优序列长度识别,包括如下子步骤:

s411:选取时间序列长度,长度范围为n,...,n+k;

s412:参照s12对所选序列平稳性检验,若序列平稳,则直接进入参数估计和检验阶段;若序列不平稳,则参照s13先对序列进行序列平稳性差分处理,待序列平稳后进入参数估计和检验阶段;

s421:参数估计和检验时,具体参照s3通过乘积季节求和自回归移动平均模型建模,加入s2所述的事件变量,得到不同长度的时间序列的预测模型;

s422:参照s32步骤,通过stationaryr2和r2、aic、bic、rmse等拟合效果指标,选择最优模型和最优时间序列长度。

如图4,所述的动态预测,包括如下子步骤:

s51:根据最优序列长度结果,假设为48(月)。利用2012年1月-2015年12月区域儿科门诊人次的时间序列拟合最优模型,预测2016年1月的门诊人次情况;

s52:再利用2012年2月-2016年1月区域儿科门诊人次的时间序列拟合最优模型,预测2016年2月的门诊人次;依次类推,反复迭代优化模型,动态预测区域儿科门诊人次。

以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1