一种医疗保险异常数据在线智能检测方法_2

文档序号:9524416阅读:来源:国知局
示当前训练数据Μ中第i个特征项调整后的FT化参数,w康示当 前训练数据Μ中第i个特征项调整前的FT化参数,i为大于0的整数
η表示模型 当前已经学习的训练数据条数; W例 S233.依次调整当前训练数据Μ中每个数据特征项Ml对应的FM参数,对于每个数 据特征项Mi,调整后的FM参数等于调整前的FM参数乘W(l-a*e):
[00加]Li' =Li_(a*0 )Li=L ),
[00川公式中,Li'表示当前训练数据Μ中第i个特征项调整后的FM参数,L康示当前 训练数据Μ中第i个特征项调整前的FM参数,i为大于0的整数,
η表示模型当前 已经学习的训练数据条数。
[0052] 步骤S24中所述的成熟度的计算公式为ma化re=ε*rate,ma化re表示当前模型 的成熟度,ε表示式中的因子权重,可W通过配置软件进行设定;rate表示模型的准确率, 表示样本检测值与实际值的评估之间的差距。
[0053] 预设条件指的是预先设定的成熟值,当计算得到的成熟度达到或者超过该值时, 认为训练模型成熟度满足条件。
[0054] 进一步地,成熟度的计算可W将准确率与log函数损失的权重组合来进行: ma化re=ε*rate+(l-ε)loss;loss为log函数的损失,其具体获得为本领域的公知常 识。 阳化日]所述的步骤S33包括W下子步骤:
[0056] S331.将一条包含多个数据特征项Ml'的待测医保数据M'输入模型实例;i为大 于0的整数,表示数据特征项Ml'为待测医保数据M'中的第i个特征项;
[0057] S332.根据每个数据特征项Ml'的特征值,找到特征项对应的FT化参数和FM参 数;
[0058] S333.将待测医保数据M'中所有FT化参数相加,得到参数hi';
[0059] S334.将待测医保数据Μ'中相邻特征项的FM参数相乘,再将所有得到的乘积进 行求和,得到参数h2';
[0060] S335.将参数hi'和参数h2'相加,得到参数U,利用公式:
,求得 待测医保数据M'的检测值y';
[0061] S336.判断当前医保数据Μ'的检测值y'的大小: 阳062] (1)如果y' > 0. 5,更新y',更新后的y' = 1 ;
[0063] 似如果y' <0.5,更新y',更新后的y' =0;
[0064] S337.利用更新后的检测值y'标记当前医保数据Μ'; 阳0化]在步骤S34的判断中,若医保数据的标记值为0,代表医保数据正常,如医保数据 标记值为1,代表医保数据异常。
[0066] 步骤S12中所述的数据筛选器采用DBSCAN聚类算法进行构造。
[0067] 本发明的有益效果是:首先对原始医保数据进行筛选,得到可疑特征数据簇,再对 可疑特征数据簇中的数据进行人工审核标注,利用标注后的数据进行模型训练,将训练成 熟后的模型用于医保数据的在线自动检测,大大减少人工检测的劳动成本,同时可有效提 高异常医保数据检测的准确率,从而使得医保基金使用更加合理应用到老百姓的就医中, 防止了医保欺诈行为。
【附图说明】 W側图1为本发明的流程图;
[0069] 图2为训练数据集的获取流程图;
[0070] 图3为训练模型在线学习流程图;
[0071] 图4为成熟模型在线检测流程图。
【具体实施方式】
[0072] 下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于 W下所述。
[007引如图1所示,一种医疗保险异常数据在线智能检测方法,包括W下步骤:
[0074] S1.训练数据集获取:提取原始医保数据并进行聚类和筛选得到可疑特征数据 簇,对筛选出来的可疑特征数据簇中的数据进行人工审核和标注,并将标注后的数据加入 待训练数据集;
[00巧]S2.在线学习:训练模型利用标注后的可疑特征数据簇进行在线训练学习,直到 训练模型的成熟度满足要求后,定义训练模型训练成熟,存储训练成熟的模型参数;
[0076] S3.在线检测:读取成熟的模型参数初始化相应模型,来对输入的医保数据进行 在线检测和标记,根据标记结果判断医保数据是异常,将异常数据保存到异常数据库中。
[0077] 所述的一种医疗保险异常数据在线智能检测方法,还包括一个检测修正步骤S4, 包括W下子步骤:
[0078] S41.医保业务系统在使用检测后的医保数据时,发现数据检测结果与具体业务有 差异,则调整检测标记值,并将有差异的数据存储到反馈数据库中;
[0079] S42.从反馈数据库提取数据,跳转至步骤S2,重新利用运部分数据进行训练和学 习,从而调整模型参数,并将调整后的模型参数进行存储。
[0080] 如图2所示,所述的步骤S1包括W下子步骤:
[0081] S11.从医保数据库中提取原始数据;
[0082] S12.构造数据筛选器,对提取的原始数据进行聚类和筛选,得到可疑数据特征簇 C;
[0083] S13.将可疑数据特征簇C交由人工进行进一步判断;
[0084] S14.根据人工判断结果,对可疑数据特征簇C中的每条特征数据均使用标签X进 行标注,并将标注后的数据加入待训练数据集作为待训练数据,标签X为0或者1,标签X为 0是代表对应的特征数据为正常数据,标签X为1时代表对应的特征数据为异常数据。
[0085] 如图3所示,所述的步骤S2包括W下子步骤:
[0086] S21.初始化训练模型的参数;
[0087] 在训练模型中,存储医保系统中已知的所有数据特征项,(运里说的数据特征项可 W包括是年龄、病症、地区的等)每个数据特征项都对应多个可能出现的特征值(如年龄特 征值指的是对应的年龄如20岁、25岁、30岁等,病症特征值指病型,如肝病、胃病等);
[0088] 对训练模型中的每一个数据特征项中所有可能出现的特征值分别赋予一个FT化 参数(特征值参数),并将所有FTRL参数均初始化为0,具体实现为:
[0089] 利用hash表存储,对于训练模型中每一个数据特征项可能出现的特征值,对其 hash生成索引,作为键,生成FT化参数W比ash(Ml)],并将每一项FT化参数W比ash(Ml)]初 始化为0,所有的FT化参数形成W□数组,在W□数组中,hash(Ml)为数组下标,W比ash(Ml)] 表示该数组下标对应的FT化参数;W□数组长度在222~2 24之间。
[0090] 对每一个数据特征项中所有可能出现的特征值分别赋予一个FM参数(特征关系 参数,用于表示特征项之间的关系),所述的FM参数为一列4维向量,并将FM参数初始化为 高斯概率分布,具体实现为:
[0091] 利用hash表,采用词典存储,对于训练模型中每一个数据特征项可能出现的 特征值,对其hash生成索弓I,作为键,生成FM参数FM比ash(Ml)],并将每一项FM参数 FM比ash(Ml)]初始化为高斯概率分布;所有的FM参数形成FM□数组,在FM□数组中, hash(Ml)为数组下标,FM比ash(Ml)]表示数组下标对应的FM参数,FM□数组长度也在在 222~2 24之间。
[0092] S22.从待训练数据集中提取待训练数据,采用训练模型对训练数据进行检测得到 其检测值y;
[0093] 待训练数据集中的某一条训练数据Μ输入训练模型中时:训练数据一般具有多个 特征项Mi,一条训练数据中特征项的个数是不确定的(可W是5个,10个,100个),Ml的 下标i表示该特征项是训练数据中的第i个特征项α为大于0的整数),在该条训练数据 中,每个特征项对应一个确定的特征值,即每个数据特征项对应一个FT化参数和一个FM参 数;
[0094] 对每个特征项的特征值通过hash索引找
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1