本发明涉及数据处理,具体而言,涉及一种用户drgs分组方法。
背景技术:
1、随着科技的发展,drgs分组逐渐成为关注点,其不同于以往项目付费支付方式,而是主要考虑病例的综合情况进行分类付费。 然而,现有医院信息系统上传的信息繁杂多样,没有进行文本和数据的分类,且多数采用人工分类,导致分组效能低下等一系列问题。
技术实现思路
1、本发明的目的在于提供一种用户drgs分组方法。
2、本发明的实施例通过以下技术方案实现:一种用户drgs分组方法包括以下步骤:
3、获取历史用户就诊数据,并对历史用户就诊数据进行预处理,生成标准用户就诊数据;
4、提取标准用户就诊数据的目标特征,并对目标特征依次进行编码和映射,生成一致性特征;
5、构建drgs分组模型,将标准用户就诊数据以及标准用户就诊数据的一致性特征和drgs类别输入至drgs分组模型中,对drgs分组模型进行训练;
6、获取最新用户就诊数据,将最新用户就诊数据输入至训练后的drgs分组模型中,确定最新用户所属drgs分组。
7、进一步地,获取历史用户就诊数据,并对历史用户就诊数据进行预处理,生成标准用户就诊数据,包括以下子步骤:
8、获取历史用户就诊数据,提取历史用户就诊数据的文本数据和数值数据,生成对应的文本数据序列和数值数据序列;
9、对文本数据序列和数值数据序列分别进行预处理;
10、将预处理后文本数据序列和预处理后数值数据序列的集合作为标准用户就诊数据。
11、进一步地,对文本数据序列进行预处理的具体方法为:利用滑动窗口将文本数据序列划分若干个文本数据子序列,计算各个文本数据子序列的文本权重,将各个文本数据子序列中小于文本权重的词频对应的单词剔除,完成文本数据预处理。
12、进一步地,文本数据子序列的文本权重 σ的计算公式为:
13、
14、式中, c表示文本数据子序列的长度, fck表示第 c个单位长度内第 k个单词的词频, k表示第 c个单位长度内单词个数, fc表示第 c个单位长度内的最大词频, dc表示第 c个单位长度的逆文档频率。
15、进一步地,对数值数据序列进行预处理的具体方法为:利用分箱法对数值数据进行清洗。
16、进一步地,标准用户就诊数据的目标特征 m的计算公式为:
17、
18、式中, sn+1表示第 n+1个就诊数据, sn表示第 n个就诊数据, sn-1表示第 n-1个就诊数据, n表示就诊数据总数。
19、进一步地,drgs分组模型包括依次连接的类别匹配层、数据匹配层和模型训练层;
20、类别匹配层用于根据标准用户就诊数据的一致性特征和drgs类别,构建类别匹配函数;
21、数据匹配层用于根据类别匹配函数确定标准用户就诊数据的类别匹配权重;
22、模型训练层用于将标准用户就诊数据作为drgs分组模型的输入参数,将类别匹配权重作为学习率,对drgs分组模型进行训练。
23、进一步地,类别匹配函数 f的表达式为:
24、
25、式中, m表示目标特征对应的矩阵, i表示单位矩阵, t表示 ρ表示drgs类别的权重。
26、进一步地,标准用户就诊数据的类别匹配权重 θ的计算公式为:
27、
28、式中, f表示类别匹配函数。
29、进一步地,drgs分组模型的损失函数 loss的表达式为:
30、
31、式中, gmax表示drgs分组模型中神经元的最大幅值, gmin表示drgs分组模型中神经元的最小幅值, gave表示drgs分组模型中神经元的平均幅值, g表示drgs分组模型的神经元个数。
32、本发明实施例的技术方案至少具有如下优点和有益效果:
33、(1)该用户drgs分组方法获取不同格式的就诊数据,对就诊数据进行分类,对文本型就诊数据和数值型就诊数据采用不同的预处理方法,一方面可以保证对数据预处理的准确性,另一方面可以减少算法流程;
34、(2)该用户drgs分组方法通过提取就诊数据的特征来进行模型训练,并对特征进行编码和映射,可以丰富特征元素,保证后期进行模型训练时参数的多样性;
35、(3)该用户drgs分组方法构建的分组模型以历史用户就诊数据作为参数输入,充分考虑历史用户就诊数据所属drgs类别和特征对模型训练的影响,构建类别匹配层和数据匹配层来计算类别匹配权重,类别匹配权重可作为模型训练的学习率,这样训练得到的模型更符合实际需求,具有通用性;
36、(4)该用户drgs分组方法通过对数据预处理、提取特征以及构建分类模型,可以准确地得到drgs分组结果。
1.一种用户drgs分组方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的用户drgs分组方法,其特征在于:所述获取历史用户就诊数据,并对历史用户就诊数据进行预处理,生成标准用户就诊数据,包括以下子步骤:
3.根据权利要求2所述的用户drgs分组方法,其特征在于:所述对文本数据序列进行预处理的具体方法为:利用滑动窗口将文本数据序列划分若干个文本数据子序列,计算各个文本数据子序列的文本权重,将各个文本数据子序列中小于文本权重的词频对应的单词剔除,完成文本数据预处理。
4.根据权利要求3所述的用户drgs分组方法,其特征在于:所述文本数据子序列的文本权重σ的计算公式为:
5.根据权利要求2所述的用户drgs分组方法,其特征在于:所述对数值数据序列进行预处理的具体方法为:利用分箱法对数值数据进行清洗。
6.根据权利要求1所述的用户drgs分组方法,其特征在于:所述标准用户就诊数据的目标特征m的计算公式为:
7.根据权利要求1所述的用户drgs分组方法,其特征在于:所述drgs分组模型包括依次连接的类别匹配层、数据匹配层和模型训练层;
8.根据权利要求7所述的用户drgs分组方法,其特征在于:所述类别匹配函数f的表达式为:
9.根据权利要求7所述的用户drgs分组方法,其特征在于:所述标准用户就诊数据的类别匹配权重θ的计算公式为:
10.根据权利要求7所述的用户drgs分组方法,其特征在于:所述drgs分组模型的损失函数loss的表达式为: