一种基于改进LDA的过程路径挖掘方法

文档序号:25986166发布日期:2021-07-23 20:54阅读:128来源:国知局
一种基于改进LDA的过程路径挖掘方法

本发明涉及临床路径挖掘技术领域,尤其涉及一种基于改进lda的过程路径挖掘方法。



背景技术:

随着社会的进步,医疗费用也在不断攀升。为了遏制这一趋势,提高卫生资源的利用率,国家制定一系列临床治疗标准,这种标准在降低医疗费用、减少治疗天数、合理规范医务人员行为等方面有很大的改善,并且它也能达到预期的治疗效果。这种治疗标准化模式被称为临床路径。

临床路径(clinicalpathway)是针对特定疾病或手术,以预期的治疗效果和成本控制为目的制定的有严格工作顺序和准确时间要求的程序化、标准化的诊疗计划,“在正确的时间采用正确的治疗手段是临床路径的核心,其通常将一个疾病的诊疗划分为若干阶段,并规定每个阶段所需的诊疗项目。临床路径是相对于传统路径而实施的,传统路径也就是每位医生的个人路径,不同地区、不同医院、不同的治疗组或者不同医生个人针对某一疾病可能采用的不同治疗方案。采用临床路径后,可以避免传统路径使同一疾病在不同地区、不同医院、不同的治疗组或不同医生个人间出现不同的治疗方案,避免了随意性,提高了费用、预后等等的可评估性。经过大量临床实践检验可以证明,应用临床路径能够实现规范临床诊疗活动、控制费用、加强医疗过程管理,并且提高医疗质量和效率。

目前,国家卫计委正在逐步推行临床路径管理模式,但是这个推广过程并不顺利,实施临床路径的医院较少,且在实际应用过程中常会遇到缺乏可靠性、覆盖病种数量少等问题,具体如下:

(1)缺乏可靠性。现在医院实施的大部分临床路径是以国家颁布的标准为基础,由相关人员根据以往经验讨论制定的。但是根据经验制定的临床路径严重缺少数据支撑和实验模拟,会导致临床路径的变异率升高,从而导致使用率下降,不适合个性化的临床路径发展;

(2)大部分医院重视程度不够,普及范围小,开发病种少。进入临床路径的病种多以手术处置的外科疾病为主,病种数量少、相对单一,慢性疾病中临床路径应用的报道罕见,仅停留在相对单一的病种上;

(3)现有临床路径更新慢,根据病人病情变化信息更新不及时,拓展差。由于人工制定临床路径耗时耗力,因此制定出来的临床路径在很长一段时间历静态不变。大多数医院设计临床路径,一般是根据病人情况,直接设计一套从始至终的治疗方案,并在实施过程中很难根据病人的病情变化实时更新临床路径。此外,当前已知疾病数万种,再考虑上并发症等,如果希望通过临床路径来进行管理,将需要大量的投入;

(4)实践难。通常临床路径表单规定的诊疗项目类别,在不同地方和医院会有不同的实施部署方案,这一方面要求当地花费大量精力来做好本地化映射工作;同时,由于不同病人的个性化特点对临床路径有不同的需求,导致这种人工制定的临床路径在实践中变异率(所需诊疗项目不满足既定路径的要求)极高,难以给出合适的诊疗规划指导。

对于更新慢、拓展差、缺乏可靠性等问题,可以引入自动化的临床路径制定方法来辅助解决,而对于实践难的问题,可以更多的从历史数据中发现实践性强更符合当前病人的诊疗方案作为参考和指导。基于这两个出发点,加上近年来医疗信息化发展所带来的医疗数据快速积累,使得数据驱动的临床路径挖掘得到越来越多的关注。

临床路径来源于临床诊疗活动的实践过程,是隐藏在医院信息系统海量数据中的病种普遍治疗模式。随着医疗信息化水平的不断提高,各类医疗信息系统中记录了大量的历史病患诊疗数据。由这些医疗数据出发,结合数据挖掘技术对医院信息系统的海量数据进行分析,可以制定出一种符合诊疗规范的、科学的、合理的临床路径,进而为医生制定临床路径提供科学合理的决策支持和推荐,这对于临床路径的科学制定也具有重要意义。

临床路径挖掘的目标是从诊疗数据中发现具有概括性和时序性的多数人的诊疗过程模型,侧重于从历史的诊疗数据中发现实际执行过的诊疗路径,利用这些更加客观和具体的执行路径,可以有效的辅助临床路径的设计/再设计,为临床路径的制定者提供参考,此外,通过这种方法还可以对已经实施了临床路径管理的地区和医院进行具体实施情况的真实考核,帮助临床路径管理者识别差异。

lda模型建立了文档-主题-词语三层贝叶斯网络,是一种文档主题生成模型。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。

在目前的临床路径挖掘研究中,有人采用经典的过程挖掘算法直接对医疗数据进行挖掘,由于事件粒度过细,由此得到的医疗过程呈意大利面状,不易被理解和使用。为了得到更易理解和简洁的医疗过程模型,需要对医疗数据进行降维,要将医疗过程进行抽象和归纳。由此有人对医疗数据进行主题模型建模,但最后得到的结果失去了临床路径个阶段之间的时序性。



技术实现要素:

针对现有技术的不足,本发明提供一种基于改进lda的过程路径挖掘方法。

本发明的技术方案为:

一种基于改进lda的过程路径挖掘方法,包括以下步骤:

步骤1:对数据集中异常病历样本进行过滤,并构建停用词表与医学词典,利用停用词表对无意义医嘱项目进行过滤,利用医学词典对相同意义的诊疗项目进行统一映射;

所述数据集中数据为医嘱数据,具体包括患者id,医嘱活动名称,医嘱类型,发生时间;

所述无意义医嘱项目为与治疗无关的医嘱项目;

步骤1.1:对医嘱数据进行去噪;设置噪声阈值,过滤异常的数据样本,并将无意义诊疗项目加入停用词表,将其过滤;

步骤1.2:对文本数据进行诊疗项目统一映射;构建医学词典,将相同意义的诊疗项目进行统一映射,把所有书写情况在处理时将其统一化;

采用相似度计算与正则化匹配结合的方式来进行诊疗项目统一映射;在进行相似度计算之前,先进行正则化匹配,将医嘱数据中的后缀干扰项移除,经过正则化匹配之后再进行余弦相似度计算;

将文本转化为相应的词频向量a、b,计算这两个向量之间的余弦值,余弦相似度计算的公式为s(a,b)==a·b/|a|*|b|,其中s(a,b)表示a、b之间的余弦相似度,若计算的结果为1,则符合实际;

步骤2:利用改进的lda主题模型对医疗数据进行建模;

所述lda主题模型中包括两个核心模型参数:每个文档的主题分布和每个主题的词汇分布;lda主题模型中假设一篇文档是由不同主题以不同概率组成的,而每个主题都对应于词语的概率分布,因此文档中每个词语都是通过其相应的概率选定其对应主题,再根据概率选定该词语的过程生成的;将诊疗项目作为词汇,将诊疗日作为文档,分别计算诊疗日—诊疗主题分布和诊疗主题—诊疗项目分布,从狄利克雷分布α中取样生成诊疗日i的诊疗日-主题分布θi,从狄利克雷分布β中取样生成诊疗主题z对应的诊疗主题-诊疗项目分布

词语在文档集合中的分布使用逆向文件频率(inversedocumentfrequency,idf)进行量化,词语的idf计算如下式所示:

其中idfi为词语ti的idf值,|d|为语料库中的文件总数,|{j:ti∈dj}|为包含词语ti的文件数目,如果该词语不在语料库中,就会导致被除数为零,此时使用1+|{j:ti∈dj}|,包含词语ti的文档越少,|{j:ti∈dj}|越小,idf越大,则说明词语ti类别区分能力越好;

将诊疗项目作为主题模型中的词汇,将诊疗日作为主题模型中的文档进行lda主题建模,由此得到输出中的主题-词分布变量值(即为关键词属于某个主题的概率、权值),主题-词分布由参数为β的dirichlet分布生成,每个主题下的词分布φ值从小到大排序,取每个主题下排名前二十的词进行权值重计算,计算公式如下

其中,表示词w出现在主题z中的概率值,idfw表示关键词w在数据集中的idf值,为主题z中词w的最终权值;

步骤3:经过主题建模之后,每个诊疗日表示为一个主题分布,该分布代表该诊疗日隶属于各个主题的概率,进而一个病人的诊疗日志即一次住院记录转化成了一个主题向量序列;对这个主题向量序列进行处理,进行主题序列构建;

步骤3.1:生成诊疗日主题标签;

对于一个诊疗日d,根据其对应的主题向量θd,根据选取的主题标签概率阈值提取出相关主题作为主题标签来代表该诊疗日;一个主题k作为主题标签之一,需要满足以下的约束:

其中r(k,d)表示主题向量θd中的主题k按公式计算所得的值,δtl是选取主题标签的概率阈值,k为选取的最佳主题数;将诊疗日中满足上式的主题按概率值降序排列,最终形成诊疗日d的主题标签记作tld=(k(1),k(2),...,k(p)),其中k(j)表示概率第j高的主题,将tl定义为不同的主题标签集。

将一个病人的一次住院中各个诊疗日以主题标签来代替,得到这次住院对应的主题序列σ={tl1,tl2,...,tl|σ|},其中tli∈tl,|σ|是这次住院的诊疗日数量。

步骤3.2:对低频的主题标签进行剪枝;

以主题标签来代替各诊疗日,得到每次住院对应的主题序列,对低频的主题标签进行剪枝,主题标签中排在后面的主题比前面的主题概率更低,逐步对低频主题中的后序主题进行删除,然后判断剪枝后的主题标签是否还是低频;对tl中的主题标签构建前缀树,设定低频标签的阈值,将低频标签节点合并至它的父节点,更改父节点的频次,直至整棵树中不存在低频标签节点。

步骤3.3:对主题序列进行聚类;

采用kmeans算法进行主题序列的聚类,以编辑距离(ed)来度量主题序列之间的距离,编辑距离是指将一个字符串转化为另一个字符串所需的最少操作数,允许的编辑操作包含插入、删除、替换。

步骤3.3.1:选择初始化的k个样本作为初始聚类中心a1,a2,...,ak;

步骤3.3.2:针对数据集中每个样本xi计算它到k个聚类中心的编辑距离(ed)并将其分到距离最小的聚类中心所对应的类中;

步骤3.3.3:针对每个类别aj,重新计算它的聚类中心;

步骤3.3.4:重复上面步骤3.3.2、步骤3.3.3两步操作,直到达到设定中止条件;

步骤4:对构建的主题序列集合,采用基于活动间依赖图的挖掘算法进行过程挖掘,主题标签作为图模型中的节点,主题标签之间的时序关系作为图模型的有向边,最终得到各个主题序列集合的诊疗过程模型。

采用上述技术方法所产生的有益效果在于:

本发明提供一种基于改进lda的过程路径挖掘方法,实现从高维稀疏的医疗数据中挖掘出临床路径,将lda主题模型与过程挖掘进行结合,这种框架不仅能够从医疗数据中抽取出粗粒度的主题特征,而且能够挖掘出主题特征之间的时许关系。

附图说明

图1为本发明实施例中整体流程图;

图2为本发明实施例中lda与医疗领域的映射关系图;

图3为本发明实施例中主题标签剪枝示意图;

图4为本发明实施例中乳腺癌手术数据曲线图;

图5为本发明实施例中第一组主题序列示意图;

图6为本发明实施例中第二组主题序列示意图;

图7为本发明实施例中第三组主题序列示意图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

一种基于改进lda的过程路径挖掘方法,如图1所示,包括以下步骤:

步骤1:对数据集中异常病历样本进行过滤,并构建停用词表与医学词典,利用停用词表对无意义医嘱项目进行过滤,利用医学词典对相同意义的诊疗项目进行统一映射;

所述数据集中数据为医嘱数据,具体包括患者id,医嘱活动名称,医嘱类型,发生时间;

所述无意义医嘱项目为与治疗无关的医嘱项目;

步骤1.1:对医嘱数据进行去噪;

医疗数据存在高噪声的问题,如诊疗日为2天的样本数据,对临床路径挖掘的贡献不大,且数据中存在一些无用诊疗项目,会对实验产生干扰。本专利将设置噪声阈值,过滤异常的数据样本,并将无意义诊疗项目加入停用词表,将其过滤;

步骤1.2:对文本数据进行诊疗项目统一映射

医嘱由医生进行填写,不同人有不同的填写习惯,导致文本类数据填写内容不统一,多词一义现象普遍存在。专业名词采用英文缩写、简写或同义词(如“0.9%氯化钠注射液”可能会写成“0.9%nacl”、“氯化钠”、“0.9%氯化钠”等),对于一些注射液,有的医生也会在医嘱中详细记录注射的剂量与注射方式。在数据预处理时可构建医学词典,将相同意义的诊疗项目进行统一映射,把所有书写情况在处理时将其统一化;

针对医嘱数据中存在的上述问题,本专利采用相似度计算与正则化匹配结合的方式来进行诊疗项目统一映射。由于本发明使用的主要是医嘱数据,多为短语和名词,所以本发明选取余弦相似性作为相似度算法。如只采用相似度计算,会由于医嘱项中存在的一些干扰后缀(如注射剂量)导致最终得到的医学词典不完整。如计算“0.9%氯化钠”与“0.9%氯化钠1000ml”间的余弦相似度为0.7559,若将相似度的阈值设定为0.8,这两项则不能加入词典进行统一映射,但这是不符合实际的。所以本发明在进行相似度计算之前,先进行正则化匹配,将医嘱数据中的后缀干扰项移除,针对“0.9%氯化钠”与“0.9%氯化钠1000ml”,将正则化匹配规则定为“\d+ml”,经过正则化匹配之后再进行余弦相似度计算;

将文本转化为相应的词频向量a、b,计算这两个向量之间的余弦值,余弦相似度计算的公式为s(a,b)==a·b/|a|*|b|,其中s(a,b)表示a、b之间的余弦相似度,若计算的结果为1,则符合实际;

步骤2:利用改进的lda主题模型对医疗数据进行建模;

lda是最流行的统计主题建模技术之一。它对文本数据集中每个文档中的每个单词的生成过程建模。所述lda主题模型中包括两个核心模型参数:每个文档的主题分布和每个主题的词汇分布;lda主题模型中假设一篇文档是由不同主题以不同概率组成的,而每个主题都对应于词语的概率分布,因此文档中每个词语都是通过其相应的概率选定其对应主题,再根据概率选定该词语的过程生成的;将诊疗项目作为词汇,将诊疗日作为文档,分别计算诊疗日—诊疗主题分布和诊疗主题—诊疗项目分布,从狄利克雷分布α中取样生成诊疗日i的诊疗日-主题分布θi,从狄利克雷分布β中取样生成诊疗主题z对应的诊疗主题-诊疗项目分布lda与医疗领域的映射关系如图2所示。

在传统lda模型中,对文本建模的方式采用的是词袋模型,而词袋模型存在一个严重的问题,常用词的词频往往很高,专有名词的词频很低,会使主题受到高频词的影响,如表1所示,表1为使用传统lda模型对乳腺癌手术的临床数据进行建模后得到的结果(只截取各主题下排序前4的关键词进行显示,从表中可以看出,由于普食属于常规医嘱,在整个语料库中是高频词,导致其在乳腺癌手术的各个主题-词分布下都排在前列,与每个主题都强关联,这不符合实际。

表1.lda对手术数据进行建模

词语在文档集合中的分布使用逆向文件频率(inversedocumentfrequency,idf)进行量化,是一个词语普遍重要性的度量。词语的idf计算如下式所示:

其中idfi为词语ti的idf值,|d|为语料库中的文件总数,|{j:ti∈dj}|为包含词语ti的文件数目,如果该词语不在语料库中,就会导致被除数为零,此时使用1+|{j:ti∈dj}|,包含词语ti的文档越少,|{j:ti∈dj}|越小,idf越大,则说明词语ti类别区分能力越好;

将诊疗项目作为主题模型中的词汇,将诊疗日作为主题模型中的文档进行lda主题建模,由此得到输出中的主题-词分布变量值(即为关键词属于某个主题的概率、权值),主题-词分布由参数为β的dirichlet分布生成,每个主题下的词分布φ值从小到大排序,取每个主题下排名前二十的词进行权值重计算,计算公式如下

其中,表示词w出现在主题z中的概率值,idfw表示关键词w在数据集中的idf值,为主题z中词w的最终权值;

步骤3:经过主题建模之后,每个诊疗日表示为一个主题分布,该分布代表该诊疗日隶属于各个主题的概率,进而一个病人的诊疗日志即一次住院记录转化成了一个主题向量序列;对这个主题向量序列进行处理,进行主题序列构建;

利用改进的lda算法,可将复杂多样的医嘱聚合成若干主题,每个诊疗日可表示为一个主题分布,该分布代表该诊疗日属于于各个主题的概率,进而一个病人的诊疗日志(一次住院记录)也相应的转化成了一个主题向量序列。为了得到更加清晰、易理解的临床路径模型,本专利还将进行主题序列构建,用以代替各诊疗日,主要分为以下几个部分:

步骤3.1:生成诊疗日主题标签;

对于一个诊疗日d,根据其对应的主题向量θd,根据选取的主题标签概率阈值提取出相关主题作为主题标签来代表该诊疗日;一个主题k作为主题标签之一,需要满足以下的约束:

其中r(k,d)表示主题向量θd中的主题k按公式计算所得的值,δtl是选取主题标签的概率阈值,k为选取的最佳主题数;将诊疗日中满足上式的主题按概率值降序排列,最终形成诊疗日d的主题标签记作tld=(k(1),k(2),...,k(p)),其中k(j)表示概率第j高的主题,将tl定义为不同的主题标签集。

将一个病人的一次住院中各个诊疗日以主题标签来代替,得到这次住院对应的主题序列σ={tl1,tl2,...,tl|σ|},其中tli∈tl,|σ|是这次住院的诊疗日数量。

步骤3.2:对低频的主题标签进行剪枝;

以主题标签来代替各诊疗日,得到每次住院对应的主题序列,在后面的工作中可用过程挖掘对主题序列进行挖掘,得到最终的临床路径模型。但所形成的主题标签中,有一些低频的标签,仅代表了少数诊疗日的特征,如不对它们进行处理会让最后得出的临床路径模型变得复杂。本专利临床路径挖掘的目标是发掘大多数病例所遵循的治疗过程,所以需要对低频的主题标签进行剪枝,避免对最终的挖掘结果造成影响。由上主题标签的生成我们可知,主题标签中排在后面的主题比前面的主题概率更低,相比而言,排在后面的主题对该诊疗日不那么重要,我们可以逐步对低频主题中的后序主题进行删除,然后判断剪枝后的主题标签是否还是低频;因此,本专利借用前缀树的概念,对tl中的主题标签构建前缀树,设定低频标签的阈值,将低频标签节点合并至它的父节点,更改父节点的频次,直至整棵树中不存在低频标签节点。对主题标签{“0”:3,:“0,1”:2,“0,1,2,3”:1,“0,1,2,4”:1}进行剪枝的示例如图3所示。

步骤3.3:对主题序列进行聚类;

在上述的工作完成了每个来访病例主题序列的构建。为了更清晰的展示不同诊疗模式的特点,这里对主题序列进行聚类,然后再用过程挖掘方法对每个序列类进行临床路径挖掘。本专利采用kmeans算法进行主题序列的聚类,以编辑距离(ed)来度量主题序列之间的距离,编辑距离是指将一个字符串转化为另一个字符串所需的最少操作数,允许的编辑操作包含插入、删除、替换。

步骤3.3.1:选择初始化的k个样本作为初始聚类中心a1,a2,...,ak;

步骤3.3.2:针对数据集中每个样本xi计算它到k个聚类中心的编辑距离(ed)并将其分到距离最小的聚类中心所对应的类中;

步骤3.3.3:针对每个类别aj,重新计算它的聚类中心;

步骤3.3.4:重复上面步骤3.3.2、步骤3.3.3两步操作,直到达到设定中止条件(迭代次数、最小误差变化等);

步骤4:对构建的主题序列集合,采用基于活动间依赖图的挖掘算法进行过程挖掘,主题标签作为图模型中的节点,主题标签之间的时序关系作为图模型的有向边,最终得到各个主题序列集合的诊疗过程模型。

当前医院信息化系统日益完善,积累了各式各样类型的医疗数据,其中包括收费项数据、医嘱数据等,这里我们选择医嘱数据,因为它更详细,包含更多信息,并且能与ncp的医嘱信息进行对比析。

由于医院信息系统中的数据繁多且复杂,我们选择乳腺癌病历作为实验数据,没有考虑乳腺癌的并发症和继发症病历,经过筛选和清洗和预处理,最终得到实验数据。

经过预处理之后的乳腺癌住院数据中都包括4个主要属性:患者id,医嘱活动名称,医嘱类型,发生时间,如表2所示。其中具有相同患者id和发生时间的医嘱活动构成了该患者的诊疗日,具有相同患者id的多个诊疗日构成了患者的一次住院来访。

表2.临床数据样例

本专利以乳腺癌的医疗数据作为实验数据,挖掘出其中手术的临床路径,为医生在制定治疗计划时提供参考。对乳腺癌手术部分数据进行困惑度计算,选取最佳主题数。困惑度指的是在文本分析中,训练出来的模型识别某些文档包含哪些主题具有的不确定性。因此数值越低,不确定性就越小,则最后的聚类结果就越好。困惑度随主题数变化的曲线图如图4所示,随着主题数k的增加,困惑度逐渐降低,在k=5时,困惑度的变化趋于平缓,所以对于手术数据,选取的最佳主题数为5。

对乳腺癌手术数据进行改进后的lda主题模型建模,结果如表3所示。每个主题的主题名由人工根据每个主题下的关键词进行定义。如主题0下的关键词包含“术前禁食水”、“术前备皮”、“术前备胸带”等,所以可将主题0定义为“术前准备”,主题1包含“拆线(特大)”、“中换药(6块以下)”等关键词,因此可将主题1标注为“术后护理”。

表3.改进后的lda在乳腺癌手术数据上建模

针对乳腺癌手术数据集,可以得到3组主题序列组,对应的病历数分别为379、136和172,他们对应的临床路径模型图分别如图5、图6、图7所示,-1表示入院节点,-2表示出院节点,其他节点上的数字表示相应的主题。

第一组主题序列按照入院检查、术前准备、术后护理、日常护理和药物治疗的过程进行,与国家标准临床路径大致相同。第二组相比而言没有术前准备、药物治疗主题的相关主题,第三组与第一组的大致过程相同,缺少最后的药物治疗。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1