基于时间序列相似性分析的在院人次异常检测方法及系统与流程

文档序号:11287021阅读:358来源:国知局
基于时间序列相似性分析的在院人次异常检测方法及系统与流程

本发明涉及在院人次异常检测领域,尤其是基于时间序列相似性分析的在院人次异常检测方法及系统。



背景技术:

为促进社会的稳定与发展、保障人民基本权益,我国建立了完善的社会保障体系,其中医疗保险是社会保障体系中的一个重要组成部分。鉴于医疗保险的优惠政策,不少违规者通过虚假就医进行医疗保险欺诈获取高额利润,造成医疗保险基金严重损失,影响医疗保险基金的公平性与公正性。因此,有效检测虚假就医行为,对促进医疗保险体系的健康运作具有重要现实意义。

目前,骗保人运用多种手段进行医疗保险欺诈,比如说贩卖药品、挂床住院、摞床住院、虚报费用,如何有效检测医疗保险欺诈行为成为医疗保险体系的研究重点。一般地,可通过“病人”就医数据,如在院人次来检测医疗保险欺诈行为。而医院每天都会增加大量的原始数据,且医院每天的数据都是动态增加。因此,必须采用一种有效的方式动态检测医院在院人次的异常情况。

时间序列相似性问题最早由agrawal等人于1993年提出,近年来已成为研究热点问题之一。时间序列相似性问题是数据挖掘中的一个重要而基础的问题,为其他挖掘手段提供了必要的技术支持,现已广泛应用于金融、医学、生物、网络等多个领域。时间序列相似性度量方式中,动态时间弯曲(dynamictimewarping,dtw)距离根据最小代价的时间弯曲路径进行对齐匹配,能够支持时间序列的时间轴伸缩;同时,滑动窗口(slidingwindow,sw)技术能很好地处理动态时间序列的相似性问题。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种基于时间序列相似性分析的在院人次异常检测方法及系统,通过精确检测在院人次的异常变化,为医疗保险欺诈提供科学防范手段;同时,可为突发性传染疾病爆发及其在人群中的传播态势感知提供预测依据。

本发明是通过以下技术方案来实现的:基于时间序列相似性分析的在院人次异常检测方法,它具体包括如下步骤:

s1:在院人次时间序列提取:从数据库中提取同级别医院的住院信息,构建在院人次时间序列,并对数据进行预处理;

s2:滑动窗口sw时间序列构建:分别计算被检测医院和同级别医院在滑动窗口sw的在院人次环比增长率,并重复所述内容,进而得到不同长度的滑动窗口时间序列,选择最优的滑动窗口长度;

s3:序列间dtw距离计算:基于被检测医院与同级别的医院的在院人次环比增长率序列,计算序列间dtw距离;

s4:标准化:对序列间dtw值进行极差标准化,并对被检测医院当前时间在院人次的环比增长率进行极差标准化;

s5:异常指数计算:当前时间i、被检测医院k的异常指数α+β=1,α、β分别为当前时间和滑动窗口历史时间的权重;

s6:异常输出:异常阈值为ti,若则输出异常的被检测医院k和时间i。

进一步限定,所述的步骤s1具体包括如下子步骤:

s11:数据收集和预处理,选定一个医院等级,从数据库中提取同级别医院住院信息的以下特征:就诊id、医院id、医院名称、医院等级、入院时间和出院时间;

s12:构建在院人次时间序列dn,具体表示为:

dn=<d1=(v1,t1),...,di=(vi,ti),...,dn=(vn,tn)>

其中di=(vi,ti)表示时间ti的在院人次vi;

被检测医院k的在院人次上午12点以前出院的患者,不计入当天的在院人次;上午12点以后出院的患者,计入当天的在院人次,具体表示如下:

进一步限定,所述的步骤s2具体包括如下子步骤:

s21:医院k∈(1,...,k,...,w)(w表示共w家医院),在长度为s的滑动窗口sw的在院人次环比增长率,构成长度为s-1的序列,记为

s22:医院k同级别医院(共w家医院)在滑动窗口sw(长度为s)的在院人次环比增长率,构成长度为s-1的序列,记为

s23:调整滑动窗口长度,重复步骤s21、s22,得到不同长度的滑动窗口时间序列,根据在院人次异常预测准确率指标,选择最优的滑动窗口长度。

所述的滑动窗口长度的选择具体为:

s231:设定滑动窗口长度初始值;

s232:通过人工打标签方式,判断预测准确率,并据此进一步调整滑动窗口长度;

s233:根据所设定的在院人次异常预测准确率指标,选择滑动窗口长度。

进一步限定,所述的步骤s3具体包括如下子步骤:

医院k和同级别医院在长度为s的滑动窗口sw的在院人次环比增长率序列分别为:

其dtw距离记为

f(0,0)=0,f(i,0)=f(0,j)=∞

所述的可通过不同的距离进行定义。

进一步限定,所述的步骤s4具体包括如下子步骤:

s41:对滑动窗口历史时期的dtw距离标准化,进行极差标准化,记为

s42:将当前时期的环比增长率标准化,医院k∈(1,...,k,...,w)当前时间i的在院人次环比增长率进行极差标准化,记为

基于时间序列相似性分析的在院人次异常检测装置,它包括在院人次时间序列提取模块、滑动窗口时间序列构建模块、序列间dtw距离计算模块、标准化模块、异常指数计算模块、异常输出模块和结果呈现模块;

所述的在院人次时间序列提取模块,提取同级别医院的住院信息,构建在院人次时间序列,并对数据进行预处理;

所述的滑动窗口时间序列构建模块,计算被检测医院和同级别医院在滑动窗口sw的在院人次环比增长率,并重复所述内容,进而得到不同长度的滑动窗口时间序列,选择最优的滑动窗口长度;

所述的序列间dtw距离计算模块,基于被检测医院与同级别医院的在院人次环比增长率序列,计算序列间dtw距离;

所述的标准化模块,对序列间dtw值进行极差标准化,并对被检测医院当前时间在院人次的环比增长率进行极差标准化;

所述的异常指数计算模块,基于当前时间与滑动窗口历史时间,计算当前时间i、被检测医院k的异常指数;

所述的异常输出模块,输出异常指数大于阈值的被检测医院k和时间i;

所述的结果呈现模块,对输出结果进行呈现。

基于时间序列相似性分析的在院人次异常检测系统,它包括:

处理器,用于执行程序;

存储器,用于存储由处理器执行的程序;

进一步限定,所述的处理器,程序在执行时包括以下步骤:

s1:在院人次时间序列提取:从数据库中提取同级别医院的住院信息,构建在院人次时间序列,并对数据进行预处理;

s2:滑动窗口sw时间序列构建:分别计算被检测医院和同级别医院在滑动窗口sw的在院人次环比增长率,并重复所述内容,进而得到不同长度的滑动窗口时间序列,选择最优的滑动窗口长度;

s3:序列间dtw距离计算:基于被检测医院与同级别的医院的在院人次环比增长率序列,计算序列间dtw距离;

s4:标准化:对序列间dtw值进行极差标准化,并对被检测医院当前时间在院人次的环比增长率进行极差标准化;

s5:异常指数计算:当前时间i、被检测医院k的异常指数α+β=1,α、β分别为当前时间和滑动窗口历史时间的权重;

s6:异常输出:异常阈值为ti,若则输出异常的被检测医院k和时间i。

进一步限定,所述的存储器,程序在执行时包括以下步骤:

s1:在院人次时间序列提取:从数据库中提取同级别医院的住院信息,构建在院人次时间序列,并对数据进行预处理;

s2:滑动窗口sw时间序列构建:分别计算被检测医院和同级别医院在滑动窗口sw的在院人次环比增长率,并重复所述内容,进而得到不同长度的滑动窗口时间序列,选择最优的滑动窗口长度;

s3:序列间dtw距离计算:基于被检测医院与同级别的医院的在院人次环比增长率序列,计算序列间dtw距离;

s4:标准化:对序列间dtw值进行极差标准化,对被检测医院当前时间在院人次的环比增长率进行极差标准化;

s5:异常指数计算:当前时间i、被检测医院k的异常指数α+β=1,α、β分别为当前时间和滑动窗口历史时间的权重;

s6:异常输出:异常阈值为ti,若则输出异常的被检测医院k和时间i。

本发明的有益效果是:

(1)基于当前时间和滑动窗口历史时间,构建时间序列相似度识别异常模型,动态检测在院人次异常情况,为医疗保险欺诈提供科学防范手段;

(2)对同级别医院的在院人次进行异常检测,能够掌握同级别医院在院人次的变化趋势,从而为突发性传染疾病爆发及其在人群中的传播态势感知提供预测依据。

附图说明

图1为基于时间序列相似性分析的在院人次异常检测方法流程图;

图2为滑动窗口长度的选择流程图;

图3为异常指数计算流程图;

图4为新住院的异常检测流程流程图;

图5为基于时间序列相似性分析的在院人次异常检测装置框架图。

具体实施方式

下面将详细描述本发明的具体实施例,应当注意,这里描述的实施例只用于举例说明,并不用于限制本发明。在以下描述中,为了提供对本发明的透彻理解,阐述了大量特定细节。

在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此,在整个说明书出现的短语“在一个实施例中”、“在实施例中”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。

如图1所示,在一个实施例中,一种基于时间序列相似性分析的在院人次异常检测方法包括以下步骤:

s1:在院人次时间序列提取,具体为:

s11:数据收集和预处理,四川省信息化建设起步时间早,医保的相关信息库数据准确性高,因此数据准确性有保障,故使用四川省医保局提供的医保数据。选定一个医院等级,从数据库中提取同级别医院住院信息的以下特征:就诊id、医院id、医院名称、医院等级、入院时间、出院时间。

s12:构建在院人次时间序列,在院人次时间序列dn

dn=<d1=(v1,t1),...,di=(vi,ti),...,dn=(vn,tn)>

其中di=(vi,ti)表示时间ti的在院人次vi。医院k的在院人次具体表示为:

根据医保结算要求,上午12点以前出院的患者,不计入当天的在院人次;上午12点以后出院的患者,计入当天的在院人次。

s2:滑动窗口时间序列构建,具体为:

滑动窗口sw的环比增长率时间序列,针对某一天/周的历史增长率数据,采用一种滑动窗口技术,选取该天/周之前的一个滑动窗口范围内的数据作为历史数据,滑动窗口sw的大小会影响最后异常结果的计算。

s21:医院k∈(1,...,k,...,w)在滑动窗口sw(长度为s)的在院人次环比增长率,构成长度为s-1的序列,记为

s22:医院k同级别医院(共w家医院)在滑动窗口sw(长度为s)的在院人次环比增长率,构成长度为s-1的序列,记为

s23:调整滑动窗口长度,重复步骤s21、s22,得到不同长度的滑动窗口时间序列。根据在院人次异常预测准确率指标,选择最优的滑动窗口长度。

如图2所示,所述的滑动窗口长度的选择包括如下子步骤:

s231:根据专家判别法,设定滑动窗口长度初始值;

s232:通过人工打标签方式,判断预测准确率,并据此进一步调整滑动窗口长度;

s233:根据在院人次异常预测准确率指标,选择最优滑动窗口长度。

s3:序列间dtw距离计算,具体为:

动态时间弯曲dtw距离作为衡量不同序列间相似性的度量,是通过弯曲时间轴来获取不同序列间的最小距离,能较好地解决欧式距离难以处理的伸缩、弯曲和线性飘移等问题。

医院k和同级别医院在滑动窗口sw(长度为s)的在院人次环比增长率序列分别为其dtw距离记为

f(0,0)=0,f(i,0)=f(0,j)=∞

其中,可以使用不同的距离定义。

在一个实施例中,令

s4:标准化,具体为:

s41:滑动窗口的dtw距离标准化。进行极差标准化,记为

s42:当前时期的环比增长率标准化。医院k∈(1,...,k,...,w)当前时间i的在院人次环比增长率进行极差标准化,记为

如图3所示,s5:异常指数计算,具体为:

当前时间i、医院k的异常指数α+β=1。α、β分别为当前时间和滑动窗口历史时间的权重。

s51:根据专家判别法,设定当前时间和滑动窗口历史时间权重的初始值。

s52:通过人工打标签方式,判断预测准确率,并据此进一步调整当前时间和滑动窗口历史时间的权重。

s53:根据在院人次异常预测准确率指标,选择最优的当前时间和滑动窗口历史时间的权重。

如图4所示,s6:异常输出,具体为:

异常阈值为ti,若则输出异常的医院k和时间i。

s61:收集新的每天/每周医院在院人次。

s62:基于时间序列相似度识别异常的模型,输出异常医院k及时间i。

如图5所示,基于时间序列相似性分析的在院人次异常检测装置,它包括在院人次时间序列提取模块、滑动窗口时间序列构建模块、序列间dtw距离计算模块、标准化模块、异常指数计算模块、异常输出模块和结果呈现模块;

所述的在院人次时间序列提取模块,提取同级别医院的住院信息,构建在院人次时间序列,并对数据进行预处理提取同级别医院的住院信息,构建在院人次时间序列,并对数据进行预处理;

所述的滑动窗口时间序列构建模块,计算被检测医院和同级别医院在滑动窗口sw的在院人次环比增长率,并重复所述内容,进而得到不同长度的滑动窗口时间序列,选择最优的滑动窗口长度;

所述的序列间dtw距离计算模块,基于被检测医院与同级别的医院的在院人次环比增长率序列,计算序列间dtw距离;

所述的标准化模块,对序列间dtw的值进行极差标准化,并对被检测医院当前时间在院人次的环比增长率进行极差标准化;

所述的异常指数计算模块,基于当前时间和滑动窗口历史时间,计算当前时间i、被检测医院k的异常指数;

所述的异常输出模块,输出异常指数大于阈值的被检测医院k和时间i;

所述的结果呈现模块,对输出结果进行呈现。

基于时间序列相似性分析的在院人次异常检测系统,其特征在于,所述的终端系统包括:

处理器,用于执行程序;

存储器,用于存储由处理器执行的程序;

进一步地,所述的处理器,程序在执行时包括以下步骤:

s1:在院人次时间序列提取:从数据库中提取同级别医院的住院信息,构建在院人次时间序列,并对数据进行预处理;

s2:滑动窗口sw时间序列构建:分别计算被检测医院和同级别医院在滑动窗口sw的在院人次环比增长率,并重复所述内容,进而得到不同长度的滑动窗口时间序列,选择最优的滑动窗口长度;

s3:序列间dtw距离计算:基于被检测医院与同级别的医院的在院人次环比增长率序列,计算序列间dtw距离;

s4:标准化:对序列间dtw值进行极差标准化,并对被检测医院当前时间在院人次的环比增长率进行极差标准化;

s5:异常指数计算:当前时间i、被检测医院k的异常指数α+β=1,α、β分别为当前时间和滑动窗口历史时间的权重;

s6:异常输出:异常阈值为ti,若则输出异常的被检测医院k和时间i。

所述的存储器,程序在执行时包括以下步骤:

s1:在院人次时间序列提取:从数据库中提取同级别医院的住院信息,构建在院人次时间序列,并对数据进行预处理;

s2:滑动窗口sw时间序列构建:分别计算被检测医院和同级别医院在滑动窗口sw的在院人次环比增长率,并重复所述内容,进而得到不同长度的滑动窗口时间序列,选择最优的滑动窗口长度;

s3:序列间dtw距离计算:基于被检测医院与同级别的医院的在院人次环比增长率序列,计算序列间dtw距离;

s4:标准化:对序列间dtw值进行极差标准化,并对被检测医院当前时间在院人次的环比增长率进行极差标准化;

s5:异常指数计算:当前时间i、被检测医院k的异常指数α+β=1,α、β分别为当前时间和滑动窗口历史时间的权重;

s6:异常输出:异常阈值为ti,若则输出异常的被检测医院k和时间i。

本发明所揭露的方法、模块和系统,也可以通过其它方式实现。例如,以上所描述的实施例仅是示意性的;所述模块的划分,可以仅仅是一种逻辑功能划分,实际实现时也可以有另外的划分方式;多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

所述的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例的方案目的。另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。

所述的方法如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、制度存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,比如用于各种其他组合、修改和环境,并能够在本文所述构想范围内,此外通过上述技术启示或相关领域的技术或知识进行的改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1