一种医疗保险异常数据在线智能检测方法

文档序号:9524416阅读:1526来源:国知局
一种医疗保险异常数据在线智能检测方法
【技术领域】
[0001] 本发明设及一种医疗保险异常数据在线智能检测方法。
【背景技术】
[0002] 随着社会经济的发展,国家为了给老百姓提供更好的医保环境,医保政策越来越 好。然而,总有一些人通过各种各样的手段来骗取医保。
[0003] 当前的医疗保险,行业整体业务经营与管理比较粗放,缺乏风险把控;粗放的理赔 服务和条款赔付,缺乏对疾病治疗的深度分析、医疗费用的风险把控、医疗服务的合理性判 断,导致大量欺诈、不合理医疗,严重损害了其他真正需要医保救治人的权益,给危害了国 家医疗保险制度。
[0004] 对于运种问题,一般可W通过分析医保人员的就医数据,从而帮助社保机构检测 出异常数据;然而,面对医院每天产生的原始医保数据,如果仅通过人工手段来进行异常检 测的话,不仅速度慢,浪费人力,且难保证准确度,再加上医院每天的数据都是动态增加,加 大了人工处理的难度;因此,目前采用数据挖掘技术是发现医保异常数据的重要智能化手 段。 阳〇化]数据挖掘技术是发现数据潜在信息、掲示隐藏模型、预测发展趋势的重要技术手 段;在金融、电信、商业和保险等行业广泛应用并取得成功;国内外医疗保险行业,常设及 定向营销策略制定、客户忠诚度分析、保险产品交叉销售等;IBM研究中屯、的Marisa等人 基于澳大利亚医疗机构,采用关联规则和神经分割技术,从GB级的数据中获取未知模式; MohitKumar等使用数据挖掘和机器学习技术,预测和预防保险公司在处理医疗保险申述过 程中的支付错误、异常和欺诈检测;国内研究主要集中在基金风险和控制医疗费用增长上, 采用简单规则的数据筛选方法,缺乏全面而强有力的大数据分析支持。

【发明内容】

[0006] 本发明的目的在于克服现有技术的不足,提供一种医疗保险异常数据在线智能检 测方法,首先对原始医保数据进行筛选,得到可疑特征数据簇,再对可疑特征数据簇中的数 据进行人工审核标注,利用标注后的数据进行模型训练,将训练成熟后的模型用于医保数 据的在线自动检测,大大减少人工检测的劳动成本,同时可有效提高异常医保数据检测的 准确率,从而能够使得医保基金使用更加合理应用到老百姓的就医中,防止了医保欺诈行 为。
[0007] 本发明的目的是通过W下技术方案来实现的:一种医疗保险异常数据在线智能检 测方法,包括W下步骤:
[0008] S1.训练数据集获取:提取原始医保数据并进行聚类和筛选得到可疑特征数据 簇,对筛选出来的可疑特征数据簇中的数据进行人工审核和标注,并将标注后的数据加入 待训练数据集;
[0009] S2.在线学习:训练模型利用标注后的可疑特征数据簇进行在线训练学习,直到 训练模型的成熟度满足要求后,定义训练模型训练成熟,存储训练成熟的模型参数;
[0010] S3.在线检测:读取成熟的模型参数初始化相应模型,来对输入的医保数据进行 在线检测和标记,根据标记结果判断医保数据是异常,将异常数据保存到异常数据库中。
[0011] 所述的一种医疗保险异常数据在线智能检测方法,还包括一个检测修正步骤S4, 包括W下子步骤:
[0012] S41.医保业务系统在使用检测后的医保数据时,发现数据检测结果与具体业务有 差异,则调整检测标记值,并将有差异的数据存储到反馈数据库中;
[0013] S42.从反馈数据库提取数据,跳转至步骤S2,重新利用运部分数据进行训练和学 习,从而调整模型参数,并将调整后的模型参数进行存储。
[0014] 所述的步骤S1包括W下子步骤:
[0015] S11.从医保数据库中提取原始数据;
[0016] S12.构造数据筛选器,对提取的原始数据进行聚类和筛选,得到可疑数据特征簇 C;
[0017] S13.将可疑数据特征簇C交由人工进行进一步判断;
[0018] S14.根据人工判断结果,对可疑数据特征簇C中的每条特征数据均使用标签X进 行标注,并将标注后的数据加入待训练数据集作为待训练数据,标签X为0或者1,标签X为 0是代表对应的特征数据为正常数据,标签X为1时代表对应的特征数据为异常数据。
[0019] 所述的步骤S2包括W下子步骤:
[0020] S21.初始化训练模型的参数;
[0021] S22.从待训练数据集中提取待训练数据,采用训练模型对当前训练数据进行检测 得到其检测值y;
[0022]S23.计算当前数据检测值y与标签X之间的差值,记为损失β= |x-yI,利用损 失0 = |x-y|对训练模型的参数进行调整;
[0023] S24.计算当前训练模型的成熟度,作为在线学习阶段模型成熟的依据;判断训练 模型的成熟度是否满足预设条件:
[0024] (1)训练模型成熟度满足条件时,定义认为模型训练成熟,即可W使用,同时保存 成熟模型的参数,训练结束;
[00巧](2)训练模型成熟度不满足条件时,保存当前的模型并且跳转至步骤S22,再次从 待训练数据集中提取数据,在保存的当前模型的基础上,继续进行步骤S22到步骤S24的 训练。
[00%] 所述的步骤S3包括W下子步骤:
[0027] S31.读取成熟的模型参数初始化相应模型,生成模型实例;
[0028] S32.将当前待检测医保数据输入模型实例;
[0029] S33.模型实例检测当前输入的医保数据,得到当前医保数据的检测值,使用检测 值标记当前输入的医保数据;
[0030] S34.根据当前医保数据的检测值,判断医保数据是否异常:
[0031] (1)医保数据正常,跳转至步骤S35 ;
[0032] (2)医保数据异常,将当前的医保数据存储到异常数据库中,并跳转至步骤S35 ;
[0033] S35.依次输入所有待检测的医保数据,每次输入数据后重复进行步骤S32~步骤 S34,直到没有待检测医保数据输入为止。
[0034] 所述的步骤S21包括W下子步骤:
[0035] S211.在训练模型中,预先存储医保系统中已知的所有数据特征项;
[0036] S212.对每一个数据特征项中所有可能出现的特征值分别赋予一个FT化参数 (FT化参数为特征值参数,用于表征对应数据特征项的特征值),并将所有FT化参数均初始 化为0 ;
[0037] S213.对每一个数据特征项中所有可能出现的特征值分别赋予一个FM参数(FM参 数为特征关系参数,用于表示特征项之间的关系),所述的FM参数为一列4维向量,并将FM 参数初始化为高斯概率分布。
[0038] 所述的步骤S22包括W下子步骤:
[0039] S221.将一条包含多个数据特征项Ml的训练数据Μ输入训练模型;i为大于0的 整数,表示数据特征项Ml为训练数据Μ中的第i个特征项;
[0040] S222.根据每个数据特征项Ml的特征值,找到特征项对应的FT化参数和FM参数;
[0041] S223.将训练数据Μ中所有FT化参数相加,得到参数hi;
[0042] S224.将训练数据Μ中相邻特征项的FM参数相乘,再将所有得到的乘积进行求和, 得到参数h2;
[0043] S225.将参数hi和参数h2相加,得到参数S,利用公式
求得训练 数据Μ的检测值y。
[0044] 所述的步骤S23包括W下子步骤:
[0045] S231.找到当前训练数据Μ的标签X,计算标签X与检测值y的差值,记为损失β =|x-y| ;
[0046] S232.依次调整当前训练数据Μ中每个数据特征项Ml对应的FT化参数,对于每个 数据特征项Mi,调整后的FT化参数等于调整前的FT化参数减去a与β的乘积:
[0047] W;'=Wj-a*β, W48] 公式中,Wi'表
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1