数据挖掘方法和装置与流程

文档序号:21280090发布日期:2020-06-26 23:32阅读:192来源:国知局
数据挖掘方法和装置与流程
本公开涉及大数据分析
技术领域
,特别是一种数据挖掘方法和装置。
背景技术
:目前医疗领域已经普遍采用电子病历,或将普通病历数据录入电子系统。电子病历多用于跟踪单个用户的病史、用药史,为医生了解病人状况带来了方便。技术实现要素:发明人发现,相关技术中只是将病历数据归档存储,缺乏深层应用。由于生活习惯、气候习惯或年龄特点等因素的影响,病症可能会产生一些区域化、年龄相关化的特点,利用病历数据能够获取人群病症特点,从而有针对性的调度医疗资源和诊断。本公开的一个目的在于增加对病历数据的有效应用,以便于有针对性的诊断和调度医疗资源。根据本公开的一个方面,提出一种数据挖掘方法,包括:获取病历数据,病历数据中包括每条病历的用药参数和病症参数;根据病历数据,确定病历数据的相同参数内部和不同参数之间的相关度,确定相关度大于预定相关度门限的参数关联关系。可选地,病历数据中还包括患者画像信息,患者画像信息包括地域参数、性别参数、年龄参数、职业参数中的一项或多项。可选地,数据挖掘方法还包括:根据参数关联关系指导病症诊断或用药。可选地,确定相关度大于预定相关度门限的参数关联关系包括:将出现在同一份病历或同一患者的病历中的病历数据中的参数作为一同出现的项;获取支持度大于等于预定支持度门限的频繁项集,其中,支持度与预定相关度门限正相关。可选地,获取支持度大于等于预定支持度门限的频繁项集包括:获取支持度大于等于预定支持度门限的2元频繁项集;在n-1元频繁项集的基础上获取n元频繁项集,直至n+1元频繁项集为空,其中,n为大于1的正整数。可选地,获取病历数据包括:根据预定格式筛选、归一化初始病历数据,获取病历数据,其中,筛选初始病历数据包括:按照预定格式删除不完整的初始病历数据;归一化初始病历数据包括:将初始病历数据的格式归一化,相同病症的标识归一化,以及将相同药物的标识归一化。可选地,确定相关度大于预定相关度门限的参数关联关系包括:将出现在同一患者的病历中的病历数据的每个参数分别作为项,生成病历向量;根据余弦相似度算法将患者分群,获取患者病历向量集合;根据同一患者病历向量集合,获取支持度大于等于预定支持度门限的频繁项集。可选地,在病历数据中包括地域参数的情况下:根据地域参数与病症参数的相关度确定地域病症防疫策略;和/或,根据地域参数与药物参数的相关度确定地区药物供给策略。通过这样的方法,能够通过对病历数据的分析得到病历参数的关联关系,从而实现对病历数据的有效应用,以便于有针对性的调度医疗资源和诊断。根据本公开的另一个方面,提出一种数据挖掘装置,包括:病历数据获取单元,被配置为获取病历数据,病历数据中包括每条病历的用药参数和病症参数;关联关系确定单元,被配置为根据病历数据,确定病历数据的相同参数内部和不同参数之间的相关度,确定相关度大于预定相关度门限的参数关联关系。可选地,病历数据中还包括患者画像信息,患者画像信息包括地域参数、性别参数、年龄参数、职业参数中的一项或多项。可选地,数据挖掘装置还包括:指导单元,被配置为根据参数关联关系指导病症诊断或用药。可选地,关联关系确定单元被配置为:将出现在同一份病历或同一患者的病历中的病历数据中的参数作为一同出现的项;获取支持度大于等于预定支持度门限的频繁项集,其中,支持度与预定相关度门限正相关。可选地,病历数据获取单元还被配置为:根据预定格式筛选、归一化初始病历数据,获取病历数据,其中,筛选初始病历数据包括:按照预定格式删除不完整的初始病历数据,归一化初始病历数据包括:将初始病历数据的格式归一化,相同病症的标识归一化,以及将相同药物的标识归一化。可选地,关联关系确定单元还被配置为:将出现在同一患者的病历中的病历数据的每个参数分别作为项,生成病历向量;根据余弦相似度算法将患者分群,获取患者病历向量集合;根据同一患者病历向量集合,获取支持度大于等于预定支持度门限的频繁项集。可选地,指导单元还被配置为:在病历数据中包括地域参数的情况下:根据地域参数与病症参数的相关度确定地域病症防疫策略;和/或,根据地域参数与药物参数的相关度确定地区药物供给策略。根据本公开的又一个方面,提出一种数据挖掘装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上文中任意一种数据挖掘方法。这样的装置能够通过对病历数据的分析得到病历参数的关联关系,从而实现对病历数据的有效应用,以便于有针对性的调度医疗资源和诊断。根据本公开的再一个方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中任意一种数据挖掘方法的步骤。通过执行这样的计算机可读存储介质上的指令,能够通过对病历数据的分析得到病历参数的关联关系,从而实现对病历数据的有效应用,以便于有针对性的调度医疗资源和诊断。附图说明此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:图1为本公开的数据挖掘方法的一个实施例的流程图。图2为本公开的数据挖掘方法的另一个实施例的流程图。图3为本公开的数据挖掘方法中确定参数关联关系的一个实施例的流程图。图4为本公开的数据挖掘方法中确定参数关联关系的一个实施例的示意图。图5为本公开的数据挖掘装置的一个实施例的示意图。图6为本公开的数据挖掘装置的另一个实施例的示意图。图7为本公开的数据挖掘装置的又一个实施例的示意图。具体实施方式下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。本公开的数据挖掘方法的一个实施例的流程图如图1所示。在步骤101中,获取病历数据,病历数据中包括每条病历的用药参数和病症参数。在一个实施例中,病历数据的来源可以包括疾病诊断、处方明细、化验检查等。在一个实施例中,病历数据可以以一次就诊为单位,每条病历即一次就诊或化验等中产生的病历;病历数据还可以以人为单位,汇总一位患者的历史就诊数据作为一条病历数据。在步骤102中,根据病历数据,确定病历数据的相同参数内部和不同参数之间的相关度,确定相关度大于预定相关度门限的参数关联关系。在一个实施例中,参数关联关系可以包括用药与用药之间的关联关系,便于医生获取用药预期;可以包括病症与病症之间的关联关系,便于医生获取病症诊断预期;还可以包括用药与病症之间的关联关系,供医生针对病症参考用药。在一个实施例中,可以生成知识图谱方便查看。通过这样的方法,能够通过对病历数据的分析得到病历参数的关联关系,从而实现对病历数据的有效应用,以便于有针对性的诊断和调度医疗资源。在一个实施例中,病历数据中还可以包括患者画像信息,患者画像信息包括地域参数、性别参数、年龄参数、职业参数中的一项或多项。通过这样的方法,不仅能够获得病症与病症、病症与用药、用药与用药之间的关联关系,还可以得到地域病症和用药特点、性别病症和用药特点、病症的年龄分布、职业病症特点等,进一步为医生的诊断、用药提出参考建议,从而进一步增强对病历数据的有效应用;另外,这样的关联关系还能够提供不同地域、年龄、参数、职业人群的健康状况、健康缺陷,进而及早预防,提高民众的健康水平。在一个实施例中,根据地域参数与病症参数的相关度确定地域病症防疫策略,或者可以根据地域参数与药物参数的相关度确定地区药物供给策略,从而优化药物配置、疾病防治效果。本公开的数据挖掘方法的另一个实施例的流程图如图2所示。在步骤201中,根据预定格式筛选、归一化初始病历数据,获取病历数据。筛选初始病历数据可以包括:按照预定格式删除不完整的初始病历数据;归一化初始病历数据可以包括:将初始病历数据的格式归一化,相同病症的标识归一化,和相同药物的标识归一化。如表1所示:表1病历数据名称数据类型字段名称备注abc表1为完成筛选和归一化处理后的病历数据,每条病历数据均可以处理为如表1所示的形式,其中a、b、c为参数的类型,如a为患者的画像参数标识,b为病症参数标识,c为用药参数标识。对于书写不规范,或同义词表述的情况,采用数据字典将表述归一化,数据字典如表2所示。表2数据字典名称数据类型包含备注axxa1/a2/a3xxbxxb1/b2/b3xxcxxc1/c2/c3xx在步骤202中,将出现在同一份病历或同一患者的病历中的病历数据中的参数作为一同出现的项。在步骤203中,获取支持度大于等于预定支持度门限的频繁项集。在一个实施例中,可以通过调节支持度来控制所需的参数之间的关联强度。如,若需要提高获取的参数关联关系的关联强度,则提高支持度门限;若需要获得更多的参数关联关系,放低对关联强度的要求,则可以降低支持度门限。在步骤204中,根据参数关联关系指导病症诊断或用药。通过这样的方法,能够克服电子病历机构不统一,格式多样化,不便于处理的问题,便于后期数据挖掘,还能够通过设置支持度门限能够控制目标关联程度,从而控制数据量,有助于有针对性的应用数据。本公开的数据挖掘方法中确定参数关联关系的一个实施例的流程图如图3所示。在步骤301中,将出现在同一份病历或同一患者的病历中的病历数据中的参数作为一同出现的项,并设i=1。在步骤302中,令i=i+1,获取支持度大于等于预定支持度门限的i元频繁项集。在步骤303中,判断i元频繁项集中是否存在项。若存在,则继续执行步骤302;若不存在,则执行步骤304。在步骤304中,获取2~i元频繁项集,i为大于等于2的整数。如图4所示,其中tid代表患者,itemsbought代表病历参数,如病症或用药。in为参数标识,sup为项集的出现次数,预定支持度门限为min_sup,假设min_sup=2。以图4中上方的病历数据为基础,逐渐获取二元频繁项集和三元频繁项集,从而得到两项参数间的关联关系、三项参数间的关联关系。通过这样的方法,能够获取多元频繁项集,即获得多个参数之间的关联关系,充分发现病历的参数之间可能的关系,有助于医生发现隐藏病症,提高诊断的准确度,另外,对医学研究发现病症、药物间隐藏的关联关系也能产生有益效果。在一个实施例中,可以将出现在同一患者的病历中的病历数据的每个参数分别作为项,生成病历向量,进而根据余弦相似度算法将患者分群,获取患者病历向量集合,根据同一集合获取支持度大于等于预定支持度门限的频繁项集,从而能够针对相似人群进行数据挖掘,实现有针对性的分析,提高生成多元频繁项集的概率,有助于为特定人群的医疗诊断提供参考意见,进一步便于有针对性的调度医疗资源。本公开的数据挖掘装置的一个实施例的示意图如图5所示。病历数据获取单元501能够获取病历数据,病历数据中包括每条病历的用药参数和病症参数。在一个实施例中,病历数据可以以一次就诊为单位,每条病历即一次就诊中产生的病历;病历数据还可以以人为单位,汇总一位患者的历史就诊数据作为一条病历数据。关联关系确定单元502能够根据病历数据,确定病历数据的相同参数内部和不同参数之间的相关度,确定相关度大于预定相关度门限的参数关联关系。在一个实施例中,参数关联关系可以包括用药与用药之间的关联关系,便于医生获取用药预期;可以包括病症与病症之间的关联关系,便于医生获取病症诊断预期;还可以包括用药与病症之间的关联关系,供医生针对病症参考用药。在一个实施例中,关联关系确定单元502可以采用如图2、3所示实施例中的方式确定参数关联关系。这样的装置能够通过对病历数据的分析得到病历参数的关联关系,从而实现对病历数据的有效应用,以便于有针对性的诊断和调度医疗资源。在一个实施例中,病历数据中还可以包括患者画像信息,患者画像信息包括地域参数、性别参数、年龄参数、职业参数中的一项或多项。这样的装置不仅能够获得病症与病症、病症与用药、用药与用药之间的关联关系,还可以得到地域病症和用药特点、性别病症和用药特点、病症的年龄分布、职业病症特点等,进一步为医生的诊断、用药提出参考建议,从而进一步增强对病历数据的有效应用;另外,这样的关联关系还能够提供不同地域、年龄、参数、职业人群的健康状况、健康缺陷,进而及早预防,提高民众的健康水平。在一个实施例中,如图5所示,数据挖掘装置还可以包括指导单元503,能够根据参数关联关系指导病症诊断或用药。另外,还可以根据地域参数与病症参数的相关度确定地域病症防疫策略,或者可以根据地域参数与药物参数的相关度确定地区药物供给策略,从而优化药物配置、疾病防治效果。在一个实施例中,关联关系确定单元502还可以先将出现在同一患者的病历中的病历数据的每个参数分别作为项,生成病历向量,进而根据余弦相似度算法将患者分群,获取患者病历向量集合,再根据同一患者病历向量集合,获取支持度大于等于预定支持度门限的频繁项集,从而能够针对相似人群进行数据挖掘,实现有针对性的分析,提高生成多元频繁项集的概率,有助于为特定人群的医疗诊断提供参考意见,进一步便于有针对性的调度医疗资源。本公开数据挖掘装置的一个实施例的结构示意图如图6所示。数据挖掘装置包括存储器601和处理器602。其中:存储器601可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上文中数据挖掘方法的对应实施例中的指令。处理器602耦接至存储器601,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器602用于执行存储器中存储的指令,能够实现对病历数据的有效应用,以便于有针对性的调度医疗资源和诊断。在一个实施例中,还可以如图7所示,数据挖掘装置700包括存储器701和处理器702。处理器702通过bus总线703耦合至存储器701。该数据挖掘装置700还可以通过存储接口704连接至外部存储装置705以便调用外部数据,还可以通过网络接口706连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够实现对病历数据的有效应用,以便于有针对性的调度医疗资源和诊断。在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现数据挖掘方法对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。可能以许多方式来实现本公开的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。最后应当说明的是:以上实施例仅用以说明本公开的技术方案而非对其限制;尽管参照较佳实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本公开的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本公开技术方案的精神,其均应涵盖在本公开请求保护的技术方案范围当中。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1