医学病历数据处理方法、医学数据推荐系统、设备及介质与流程

文档序号:16475590发布日期:2019-01-02 23:33阅读:180来源:国知局
医学病历数据处理方法、医学数据推荐系统、设备及介质与流程
本发明涉及智能医学
技术领域
,特别是涉及医学病历数据处理方法、医学数据推荐系统、设备及介质。
背景技术
:中医问诊是医患之间直接进行语言交流的临床信息采集方法,在疾病诊察过程中具有十分重要的作用,是中医望、闻、问、切四诊的重要内容之一。通过问诊,医生才可以获取全面的患者病情资料,如疾病的发生、发展、变化过程、诊治经过以及患者的自觉症状、既往病史、个人生活史、家族史等。问诊的过程,同时也是一名医生辨证思维的过程。在问诊过程中,医生必须善于对已经获取的患者病情信息进行思考分析,并根据中医理论和个人临床经验,追踪新的线索,以便进一步深入了解病情,做到边问边辩,边辩边问,问辩结合,减少问诊的盲目性,提高诊断的准确性。但是,目前对中医病历资料的管理仍然是基于纸质、或无数据分类地输入电脑等电子设备中,并没有办法进行有效管理,从而进行大数据分析。另外,进一步的,由于通过问诊获取的患者病情资料对于中医辨证和疾病诊断具有重要的作用,因此“有效”的问诊过程需要能达到“获取实现准确中医辨证和疾病诊断所需患者病情资料”的要求。为了能够全面获取所需的患者病情信息,且由于病情信息涉及范围广泛,历代中医名家总结出各种问诊框架以保障获取问诊信息的全面性,例如《十问歌》等。这些问诊框架具有一定的指导意义,但在临床实际运用时,也要根据患者的具体病情,灵活而又有主次的进行询问,不能千篇一律的机械套问。同时,由于在临床实践中医生能分配给每个患者的门诊时间通常很有限,完全按照问诊框架进行机械套问也存在现实中运用的困难。在中医临床实践中,实现“高效”问诊过程,暨“在有限时间内获取实现准确中医辨证和疾病诊断所需患者病情资料”,对医生的理论水平、思维能力和临床经验要求都很高。而现实中中医医生的水平能力仍有所不同,如何能帮助普通水平中医医生实现高效的问诊过程,则是有待解决的问题并具有高度的现实意义。技术实现要素:鉴于以上所述现有技术的缺点,本发明的目的在于提供医学病历数据处理方法、医学数据推荐系统、设备及介质,用于实现对医学病历数据的科学分类管理而利于分析,且还能配合大数据分析手段辅助改良问诊效率,解决现有技术中的问题。为实现上述目的及其他相关目的,本发明提供一种医学病历数据处理方法,包括:将一医学病历集中的每个病历及其所包含各个项目的内容通过数学表征方式表示为一条结构化病历数据及其所包含的各种项目分类下的项目信息,以形成包含一或多个所述结构化病历数据的医学结构化病历数据集。于本发明的一实施例中,所述项目分类包括:包含一或多个症状信息的症状分类、及与其相关的包含一或多个症状相关信息的症状相关分类;所述方法包括:从所述医学构化数据集中提取各种不重复的症状信息,存储形成症状信息库;从所述医学构化数据集中对应各个症状相关分类分别提取各种不重复的症状相关信息,存储形成与各个症状相关分类对应的相关信息库。于本发明的一实施例中,所述医学属于中医领域,所述症状相关分类包括:患者基本信息、体征、既往病史、证型、及处方中的任意一种或多种组合。于本发明的一实施例中,所述的医学病历数据处理方法,包括:提取症状信息库中的各症状信息间、和/或各症状信息与相关信息库中各症状相关信息间的关联度数据,并加以存储。于本发明的一实施例中,所述提取症状信息库中的各种症状信息间的关联度数据,包括:对应症状信息库中的每种所述症状信息,建立症状出现向量;其中,所述症状出现向量表示为每种症状信息是否出现在各个结构化病历数据中的表征值的集合;计算各种症状信息所对应症状出现向量间的相似度信息,作为所述关联度数据。于本发明的一实施例中,所述相似度信息的计算方法包括:余弦距离、欧氏距离、标准化欧氏距离、马氏距离、汉明距离、及曼哈顿距离中的任意一种。于本发明的一实施例中,所述提取症状信息库中的各症状信息与相关信息库中各症状相关信息间的关联度数据,包括:分别统计在相关信息库中每个症状相关信息出现的情形下且症状信息库中各种症状信息出现的结构化病历数据的数量分别占结构化病历数据集的比率,以近似表示为每种症状相关信息出现情况下出现每种症状信息的条件概率,作为所述关联度数据。于本发明的一实施例中,所述医学属于中医领域,所述相关信息库包括:包含一或多个证型信息的证型信息库、和/或包含一或多个处方信息的处方信息库。于本发明的一实施例中,所述处方信息中包含主方剂信息;所述主方剂信息用于替代所述处方信息。为实现上述目的及其他相关目的,本发明提供一种医学数据推荐系统,应用于一存储有结构化病历数据集的处理装置;其中,所述结构化病历数据集包含至少一个结构化病历数据,每个所述结构化病历数据及其所包含的各种项目分类下的项目信息是对一医学病历集中的一个病历及其所包含各个项目的内容的数学表征;所述项目分类包括:包含一或多个症状信息的症状分类、及与其相关的包含一或多个症状相关信息的症状相关分类;所述处理装置还存储有:集合所述结构化病历数据集中各种不重复的预设症状信息形成的预设症状信息库、以及分别各种所述项目分类所集合的所述医学构化数据集中各种不重复的预设症状相关信息形成的各个相关信息库;所述处理装置还存储有:所述预设症状信息库中的各预设症状信息间、和/或各预设症状信息与相关信息库中各预设症状相关信息间的关联度数据;所系统包括:接收单元,用于获取包含一组待诊断症状信息的待诊断症状信息序列;处理单元,用于在症状信息库中各所述预设症状信息间的关联度数据中,匹配并计算所述一组待诊断症状信息分别与所述各预设症状信息间的关联度数据,集合形成关联症状序列,以供选取其中关联度数据的量值最大的一或多个数据所对应的预设症状信息作为推荐症状信息;以及/或者,所述处理单元,用于以所述结构化病历数据集作为数据输入,计算基于各所述待诊断症状信息出现的相关信息库中的每个预设症状相关信息出现的后验概率;在各该预设症状相关信息中选择后验概率值最大的一个作为推荐症状相关信息;或者,将后验概率值最大的多个所述预设症状相关信息作为备选症状相关信息,判断各备选症状相关信息间的接近度数据的量值是否低于预设值;若否,则选择后验概率值最大的备选症状相关信息作为推荐症状相关信息;若是,则在所述症状信息库中各预设症状信息与相关信息库中各预设症状相关信息间的关联度数据中,匹配各备选症状相关信息分别与各预设症状信息间的目标关联度数据,并根据匹配到的目标关联度数据计算:相关于与各个待诊断症状信息都不同的每个预设症状信息的备选症状相关信息之间的差异度数据,集合形成项目辨别症状序列,以供选取其中差异度数据的量值最大的一或多个数据所对应的预设症状信息作为推荐症状信息作为推荐症状信息。于本发明的一实施例中,所述预设症状信息间的关联度数据包括:预设症状信息库中各预设症状信息所对应的症状出现向量间的相似度信息;所述症状出现向量是根据对应各所述预设症状信息所建立的,用于表示每个预设症状信息是否出现在各个所述结构化病历数据中的表征值的集合;所述在症状信息库中各所述预设症状信息间的关联度数据中,匹配并计算所述一组待诊断症状信息分别与所述各预设症状信息间的关联度数据,集合形成关联症状序列,包括:在预设症状信息间的关联度数据中,匹配每个所述待诊断症状与每个所述预设症状信息间的当前关联度数据;对与每个预设症状信息相关的各当前关联度数据分别得到求和结果,以各个求和结果的集合构建所述关联症状序列;其中,在所述关联症状序列中,所述求和结果的量值越大,其所对应的预设症状信息作为推荐症状信息的优先级越高。于本发明的一实施例中,所述相似度信息是通过余弦距离、欧氏距离、标准化欧氏距离、马氏距离、汉明距离、及曼哈顿距离中的任意一种计算方式获得的。于本发明的一实施例中,所述症状信息库中的各预设症状信息与相关信息库中各预设症状相关信息间的关联度数据,是在相关信息库中每个症状相关信息出现的情形下且症状信息库中每种症状信息出现的结构化病历数据的数量分别占结构化病历数据集的比率,以近似表示为每种症状相关信息出现情况下出现每种症状信息的条件概率,作为所述关联度数据。于本发明的一实施例中,所述多个备选症状相关信息包括:后验概率值最大及次之的预设症状相关信息;所述相关于与各个待诊断症状信息都不同的每个预设症状信息的备选症状相关信息之间的差异度数据,包括:所述后验概率值最大及次之的预设症状相关信息对应于每个预设症状信息的一组目标关联度数据间不小于零的差值。于本发明的一实施例中,所述医学属于中医领域,所述相关信息库包括:包含一或多个证型信息的证型信息库、和/或包含一或多个处方信息的处方信息库。于本发明的一实施例中,所述处方信息中包含主方剂信息;所述主方剂信息用于替代所述处方信息。于本发明的一实施例中,所述处理单元,还用于按所分配权重从所述关联症状序列及一或多个所述项目辨识症状序列中分别选取对应各自权重的数量个量值最大的数据,并将该些数据对应的预设症状信息加以集合以形成综合辨识症状序列。于本发明的一实施例中,所述处理单元,还用于根据问诊阶段不同调整所述权重。为实现上述目的及其他相关目的,本发明提供一种医学数据推荐方法,应用于一存储有结构化病历数据集的处理装置;其中,所述结构化病历数据集包含至少一个结构化病历数据,每个所述结构化病历数据及其所包含的各种项目分类下的项目信息是对一医学病历集中的一个病历及其所包含各个项目的内容的数学表征;所述项目分类包括:包含一或多个症状信息的症状分类、及与其相关的包含一或多个症状相关信息的症状相关分类;所述处理装置还存储有:集合所述结构化病历数据集中各种不重复的预设症状信息形成的预设症状信息库、以及分别各种所述项目分类所集合的所述医学构化数据集中各种不重复的预设症状相关信息形成的各个相关信息库;所述处理装置还存储有:所述预设症状信息库中的各预设症状信息间、和/或各预设症状信息与相关信息库中各预设症状相关信息间的关联度数据;所方法包括:获取包含一组待诊断症状信息的待诊断症状信息序列;在症状信息库中各所述预设症状信息间的关联度数据中,匹配并计算所述一组待诊断症状信息分别与所述各预设症状信息间的关联度数据,集合形成关联症状序列,以供选取其中关联度数据的量值最大的一或多个数据所对应的预设症状信息作为推荐症状信息;以及/或者,以所述结构化病历数据集作为数据输入,计算基于各所述待诊断症状信息出现的相关信息库中的每个预设症状相关信息出现的后验概率;在各该预设症状相关信息中选择后验概率值最大的一个作为推荐症状相关信息;或者,将后验概率值最大的多个所述预设症状相关信息作为备选症状相关信息,判断各备选症状相关信息间的接近度数据的量值是否低于预设值;若否,则选择后验概率值最大的备选症状相关信息作为推荐症状相关信息;若是,则在所述症状信息库中各预设症状信息与相关信息库中各预设症状相关信息间的关联度数据中,匹配各备选症状相关信息分别与各预设症状信息间的目标关联度数据,并根据匹配到的目标关联度数据计算:相关于与各个待诊断症状信息都不同的每个预设症状信息的备选症状相关信息之间的差异度数据,集合形成项目辨别症状序列,以供选取其中差异度数据的量值最大的一或多个数据所对应的预设症状信息作为推荐症状信息作为推荐症状信息。为实现上述目的及其他相关目的,本发明提供一种处理装置,包括处理器及存储器;所述存储器,用于存储第一计算机程序,所述处理器,用于运行所述第一计算机程序以实现所述的医学病历数据处理方法;或者,所述存储器,用于存储由所述的医学病历数据处理方法生成的医学结构化病历数据集;或者,所述存储器,用于存储第二计算机程序;所述处理器,用于运行所述第二计算机程序以实现所述的医学数据推荐系统。为实现上述目的及其他相关目的,本发明提供一种计算机存储介质,存储第一计算机程序,所述第一计算机程序用于被处理器运行以实现所述的医学病历数据处理方法;或者,存储由所述的医学病历数据处理方法生成的医学结构化病历数据集;或者,存储第二计算机程序,所述第二计算机程序用于被处理器运行以实现所述的医学数据推荐系统。如上所述,本发明的医学病历数据处理方法、医学数据推荐系统、设备及介质,所述医学病历数据处理方法包括:将一医学病历集中的每个病历及其所包含各个项目的内容通过数学表征方式表示为一条结构化病历数据及其所包含的各种项目分类下的项目信息,以形成包含一或多个所述结构化病历数据的医学结构化病历数据集;进而,医学数据推荐系统可以基于该医学结构化病历数据集进行对关于症状等信息的数据分析,以预测并推荐符合高效问诊方向的问诊依据,辅助中医医生实现高效的问诊过程,具有高度的现实意义。附图说明图1显示为本发明实施例中医学病历数据处理方法的流程示意图。图2显示为本发明实施例中提取症状信息库中各种症状信息间的关联度数据的步骤流程图。图3显示为本发明实施例中提取症状信息库中各种症状信息和相关信息库中症状相关信息间的关联度数据的步骤流程图图4显示为本发明实施例中医学数据推荐系统的模块示意图。图5显示为本发明实施例中获得关联症状序列及推荐症状信息的步骤流程图。图6a显示为本发明一实施例中获取对应待诊断症状信息序列的推荐症状相关信息的步骤流程示意图。图6b显示为本发明又一实施例中获取对应待诊断症状信息序列的推荐症状相关信息的步骤流程示意图。具体实施方式以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。首先,基于现有技术中的医学病历数据存在杂乱而不科学的问题,本发明对其加以改进。需特别说明的是,上述医学的表述可以是属于中医领域,在后续实施例中主要是关于中医领域的技术方案的举例,但这并不是限定本发明只能应用于中医领域;根据后续内容可知,本发明也可以应用在西医领域中。如图1所示,展示本发明实施例中医学病历数据处理方法的流程示意图。所述方法包括:步骤s101:将一医学病历集中的每个病历及其所包含各个项目的内容通过数学表征方式表示为一条结构化病历数据及其所包含的各种项目分类下的项目信息。具体来讲,中医病历数据通常包括以下内容:患者基本信息、体征、症状、既往病史、证型及处方等各项目。举例而言,所述基本信息包括如性别、年龄、身高、体重等;所述体征包括体温、脉搏、呼吸、血压等,症状又称为自觉症状,是指在疾病状态下机体生理功能异常时病人的主观感受,比如气短、胸痛、呕吐等;当然,有些症状也是体征,比如喘息,病人自己描述为一阵一阵的喘息,这是一个症状;医生在查体时也能听到喘息声,因此也是体征,所以部分症状与体征是相同的,可以将该部分体征与症状合一。所述既往病史即患者以往的病患记录。所述证型是中医所特有的一种名称。证,既证候,是指疾病过程中一定阶段的病位、病因、病性、病势及机体抗病能力的强弱等本质有机联系的反应状态,表现为临床可被观察到的症状等。例如,夏季因受热出现皮肤红肿疔疖,就是由病因(热)引起血的变化(血热)导致人体的疾病状态(疔疖,血热证);又如以感冒为例,有风寒和风热及暑湿型等,其中风寒和风热就是对这个病的属性的概括,也就是“证型”。也就是说,证型和症状是息息相关的。处方是在中医根据症状确定证型后所开出的对症下药的中药药方,其也是与症状息息相关的。由于传统的中医病历通常为以自然语言书写的非结构化病历,不利于进行数据统计分析;因而,本申请的改进之一是将非结构化病历处理为结构化病历。举例来说,一种将非结构化病历处理为结构化病历的方法为:提取原始病历中的信息要素,在结构化病历数据中的相应项目分类中以单独字段进行数学方式(例如编码方式)表征为项目信息,之后加以存储,即形成结构化病历数据。所述项目分类包括:包含一或多个症状信息的症状分类、及与其相关的包含一或多个症状相关信息的症状相关分类,例如,证型分类,处方分类等;在结构化病例数据中每个项目分类以划分出的独立数据部分存在,其中存储归于此分类的一或多个的项目信息。例如,原始病历中的以自然语言描述的患者症状中出现头痛信息,则将头痛信息提取出来并存储于结构化病历数据中症状分类下作为一个症状信息。进一步举例来说明结构化病例数据的结构,在原始病历经过上述结构化处理后,可以形成具有如下特征的结构化病历数据,其结构包括:基本信息分类下的一组患者的基本信息g={g1,g2,…,gn},症状分类下的一待诊断症状信息序列ps={ps1,ps2,…,psn},证型分类下的证型信息d,处方分类下的处方信息p。需注意的是,上述项目分类并非限于传统意义上的字面含义,甚至可以将多个项目分类综合为一,或加以切分,又或以项目分类中的子项目分类对其进行替代等。举例来说,在一或多个实施例中,“症状”分类也可以具有更为广义的含义,其也可以包括患者的体征信息,也就是说,可以将症状分类和体征分类合一为症状分类;另外,上述处方又可进一步表示为一组主方剂信息f与一组加减中药成分信息m,在进行实际的统计分析时,可以通过主方剂信息f来替代处方信息进行计算。根据上述举例,每条结构化病历数据的结构可表示为(g,ps,d,p(f,m))。步骤s102:形成包含一或多个所述结构化病历数据的医学结构化病历数据集。由于每条结构化病历数据可以是对应一个病历所形成,则证型信息和处方信息可以只有一个;由一个或多个非结构化病历数据组成的医学病历集可以转化成对应的结构化病历数据集。举例来说,结构化病历数据集r={r1,r2,…,rn}共包含n份结构化病历数据,其中第i份病历ri可表示为(gi,psi,di,pi(fi,mi))。在获取到结构化病历数据集后,可以对各种项目信息间的医学关联度分析,以利于从中高效获取所需医学数据,尤其是关于症状信息间、症状信息与处方信息间、及症状信息与证型信息间的关联度数据的分析。为此,可以先从所述医学构化数据集中提取各种不重复的症状信息,存储形成症状信息库,举例来说,假设该组病历数据中总共出现了m个互不相同的症状{s1,s2,…,sm},称之为该组病历数据的症状库;另外,也可以针对较为关注的症状相关分类进行建库;具体来讲,可以从所述结构化病历数据集中对应各个症状相关分类分别提取各种不重复的症状相关信息,存储形成与各个症状相关分类对应的相关信息库。举例来说,所述症状相关分类例如证型分类和处方分类等,可以从结构化病历数据集中提取不重复的各证型信息对应建立证型信息库,例如假设结构化病历数据集r={r1,r2,…,rn}中总共出现了m个互不相同的症状信息{s1,s2,…,sm},则{s1,s2,…,sm}称之为该组病历数据的症状信息库;从结构化病历数据集中提取不重复的各处方信息对应建立处方信息库,例如假设该组结构化病历数据r={r1,r2,…,rn}中总共出现了m个互不相同的处方信息{p1,p2,…,pm},则{p1,p2,…,pm}称之为该组病历数据的处方信息库。进一步可选的,所述医疗数据处理方法还可包括:根据结构病历数据集进行数据分析来提取上述各种项目信息库中项目信息间的关联度数据。举例来说,可以提取症状信息库中的各症状信息间、和/或各症状信息与相关信息库中各症状相关信息间的关联度数据,并加以存储。如图2所示,展示提取症状信息库中各种症状信息间的关联度数据的步骤流程图。所述流程包括:步骤s201:对应症状信息库中的每种所述症状信息,建立症状出现向量;其中,所述症状出现向量表示为每种症状信息是否出现在各个结构化病历数据中的表征值的集合。举例来说,基于该组病历数据,可以为症状库中每个症状sj建立一个m维的症状出现向量(r1,r2,…,rn),其中ri代表症状sj是否出现在病历ri的患者症状信息psi中。如果症状sj出现在病历ri的患者症状信息psi中。则ri=1,否则ri=0。步骤s202:计算各种症状信息所对应症状出现向量间的相似度信息,作为所述关联度数据。于本发明的一实施例中,所述相似度信息的计算方法包括:余弦距离、欧氏距离、标准化欧氏距离、马氏距离、汉明距离、及曼哈顿距离中的任意一种。以余弦距离计算方式为例加以说明,计算该组病历数据的症状库中所有症状两两之间的症状出现向量的余弦距离。以y(si,sj)代表症状si与症状sj的症状出现向量的余弦距离,并以该余弦距离值代表症状之间的相似度,称为症状的相似度信息。两个症状的相似度信息高可一定程度代表两个症状出现在同一个病历的概率较高,亦代表两个症状可能具有一定的医学关联性。该组病历数据的症状库中所有症状两两之间的余弦相似度的集合则构成了基于该组病历数据的症状关联度表如下表1所示,并加以存储。表1症状s1症状s2。。。症状si。。。症状sm症状s1nully(s2,s1)。。。y(si,s1)。。。y(sm,s1)症状s2y(s1,s2)null。。。y(si,s2)。。。y(sm,s2)。。。。。。。。。。。。。。。。。。。。。症状sjy(s1,sj)y(s2,sj)。。。y(si,sj)。。。y(sm,sj)。。。。。。。。。。。。。。。。。。。。症状smy(s1,sm)y(s2,sm)。。。y(si,sm)。。。null于本发明的一或多个实施例中,进一步还可以对症状信息库中的症状信息与相关信息库中的症状相关信息间的关联度数据加以提取,例如提取症状信息和证型信息的关联度数据,症状信息和处方信息间的关联度数据等,都可以通过表的方式呈现。如图3所示,展示本发明实施例中提取症状信息库中各种症状信息和相关信息库中症状相关信息间的关联度数据的步骤流程图。步骤s301:分别统计在相关信息库中每个症状相关信息出现的情形下且症状信息库中各种症状信息出现的结构化病历数据的数量分别占结构化病历数据集的比率;步骤s302:将所述比率近似表示为每种症状相关信息出现情况下出现每种症状信息的条件概率,作为所述关联度数据。也就是说,所述关联度数据可以是通过条件概率分析的方式所形成的条件概率值。以证型信息和症状信息间的关联度数据来进行举例,如结构化病历数据集r={r1,r2,…,rn}共包含n份结构化病例数据,其中第i份结构化病例数据ri可表示为(gi,psi,di,pi(fi,mi))。其中psi为该结构化病例数据包含的症状分类,其包含症状信息的集合,di为该结构化病例数据包含的症状分类包含的证型分类,其包含证型信息。假设r中总共出现了k个互不相同的证型信息1,d2,…,dk},称为r的证型信息库;以及m个互不相同的症状信息{s1,s2,…,sm},称为r的症状库。基于该结构化病历数据集r,可以统计在某证型信息dj出现的病例中某症状信息si同时出现的结构化病例数据的数量和占r中结构化病例数据数量总数量(n)的比率。当该r的数据量足够大时(如n足够大),在某证型dj出现的病历中某症状si同时出现的比率,可近似代表证型信息dj出现下的症状si信息出现的条件概率:p(si|dj)。当该条件概率值较高,根据中医常识可知症状信息si与证型信息dj的关联度亦较高。据此,可以计算得到该结构化病历数据集r的症状信息库中所有症状信息基于证型信息库中所有证型信息的各个条件概率p(si|dj)的集合,形成了r的基于证型信息的症状信息的条件概率表,如下表2所示。表2症状s1症状s2。。。症状sj。。。症状sm证型d1p(s1|d1)p(s2|d1)。。。p(sj|d1)。。。p(sm|d1)证型d2p(s1|d2)p(s2|d2)。。。p(sj|d2)。。。p(sm|d2)。。。。。。。。。。。。。。。。。。。。。证型djp(s1|dj)p(s2|dj)。。。p(sj|dj)。。。p(sm|dj)。。。。。。。。。。。。。。。。。。。。证型dkp(s1|dk)p(s2|dk)。。。p(sj|dk)。。。p(sm|dk)再以处方信息和症状信息间的关联度数据来进行举例,如结构化病历数据集r={r1,r2,…,rn}共包含n份结构化病例数据,其中第i份结构化病例数据ri可表示为(gi,psi,di,pi(fi,mi))。其中psi为该结构化病例数据包含的症状分类,其包含症状信息的集合,需说明的是,在本实施例中,采用优选的方式,通过主方剂信息f替代处方信息p来进行关联度数据的计算。当然,并非限定不能直接用处方信息p来进行计算。fi为该病历包含的主方剂信息。假设r中总共出现了k个互不相同的主方剂{f1,f2,…,fk},称为r的主方剂信息库;以及m个互不相同的症状{s1,s2,…,sm},称为r的症状库。基于r,可以统计在某主方剂信息fj出现的病历中某症状信si同时出现的结构化病例数据的数量和占r中结构化病例数据数量总数量(n)的比率。当该r的数据量足够大时(如n足够大),在某主方剂信息fj出现的病历中某症状信息si同时出现的比率,可近似代表主方剂信息fj出现下的症状信息si出现的条件概率:p(si|fj)。当该条件概率值较高,根据中医常识可知症状信息si与主方剂信息fj的关联度亦较高。r的症状信息库中所有症状信息基于主方剂信息库中所有主方剂信息的条件概率p(si|fj)的集合,形成了r的基于主方剂信息的症状信息的条件概率表,如下表3所示。表3症状s1症状s2。。。症状sj。。。症状sm主方剂f1p(s1|f1)p(s2|f1)。。。p(sj|f1)。。。p(sm|f1)主方剂f2p(s1f2)p(s2|f2)。。。p(sj|f2)。。。p(sm|f2)。。。。。。。。。。。。。。。。。。。。。主方剂fjp(s1|fj)p(s2|fj)。。。p(sj|fj)。。。p(sm|fj)。。。。。。。。。。。。。。。。。。。。主方剂fkp(s1|fk)p(s2|fk)。。。p(sj|fk)。。。p(sm|fk)在获取上述表示关联度数据的关联表之后,可以进行进一步的统计分析以预测能高效率获得诊断结果的下一个问诊目标。比如,对医生而言,在问诊过程中,在确定一个症状信息之后,医生如何选取下一个症状信息进行问询以能高效地快速确定证型、处方等信息,可以通过对上述结构化病历数据集及表1、表2、表3等进行统计分析来得到。为实现这一目的,如图4所示,展示本发明提供的医学数据推荐系统的模块示意图。所述系统应用于一处理装置。所述处理装置可以是一个具有数据处理能力的电子设备,如电脑、智能手机、平板电脑等;所述处理装置也可以是多个具有数据处理能力的电子设备经网络连接并协同工作所形成的网络处理设备,所述网络包括物联网、互联网、内联网、广域网(wan)、局域网(lan)、无线网络、数字用户线(dsl)网络、帧中继网络、异步传输模式(atm)网络、虚拟专用网络(vpn)和/或任何其它合适的通信网络中的任何一个或多个;所述处理装置也可以是一个具有数据处理能力的电子部件而集成在电子设备中,所述电子部件包括处理器和存储器,处理器运行存储器中的计算机程序而实现功能。所述预先获取的结构化病历数据集、项目信息间的关联度数据、项目信息库等均可以存储在所述处理装置的存储器中以供使用,在以下实施例中,将已预先存储的数据、信息前增加“预设”的表述,例如“预设症状信息”等。所系统包括:接收单元401及处理单元402。在本发明的一实施例中,该系统可以统计分析根据症状信息间关联度数据得推荐症状信息所述接收单元401,用于获取包含一组待诊断症状信息的待诊断症状信息序列。举例来说,在临床问诊过程中,当使用者已经输入一组待诊断症状信息,包括k个互不相同的待诊断症状信息,即形成待诊断症状信息序列ps={ps1,ps2,…,psk}。所述处理单元402,用于在症状信息库中各所述预设症状信息间的关联度数据中,匹配并计算所述一组待诊断症状信息分别与所述各预设症状信息间的关联度数据,集合形成关联症状序列,以供选取其中关联度数据的量值最大的一或多个数据所对应的预设症状信息作为推荐症状信息。具体来讲,在一实施例中,如图5所示,展示获得关联症状序列及推荐症状信息的步骤流程图。如图所示,该流程具体包括:步骤s501:在预设症状信息间的关联度数据中,匹配每个所述待诊断症状与每个所述预设症状信息间的当前关联度数据。举例来说,对ps={ps1,ps2,…,psk}中的每一个症状psj,通过查询以上过程形成的症状关联度表(即表1),匹配症状信息psj与症状信息库中其他症状信息间的相似度信息,并将将该ps={ps1,ps2,…,psk}中所有症状信息与症状信息库中预设症状信息的相似度信息填入以下的当前症状关联度表,如下表4所示。于本发明的一实施例中,所述相似度信息的计算方法包括:余弦距离、欧氏距离、标准化欧氏距离、马氏距离、汉明距离、及曼哈顿距离中的任意一种。步骤s502:对与每个预设症状信息相关的各当前关联度数据分别得到求和结果,以各个求和结果的集合构建所述关联症状序列;其中,在所述关联症状序列中,所述求和结果的量值越大,其所对应的预设症状信息作为推荐症状信息的优先级越高。举例来说,在表4中,可以进而对应每一个预设症状信息将其与当前症状关联度表的每一列的待诊断症状信息间的关联度数据求和,以此代表该组待诊断症状信息与症状信息库中其他预设症状间的关联度。表4集合上表中最后一行的求和结果即形成关联症状序列。由于关联度数据的量值越大,表示关联度越高,因此,在该关联度症状序列中,优选可以将各个求和结果的量值从大到小进行排序,按序列顺序进行关联度大的优先输出。在实际运用中,可通过一定方式在关联症状序列中选取一定数量的症状信息,例如,选取最大的前n个症状,或量值大于某特定值的关联度数据所对应的症状信息等,作为中医问诊过程中下一步问诊依据的推荐症状信息。在本发明的一实施例中,所述处理单元402也可以用于选择推荐症状相关信息作为下一步问诊依据。如图6a及6b所示,展示两个实施例中获取对应待诊断症状信息序列的推荐症状相关信息的步骤流程示意图。如前所述症状相关信息包括如证型信息、处方信息等。该流程具体包括:步骤s601:以所述结构化病历数据集作为数据输入,计算基于各所述待诊断症状信息出现的相关信息库中的每个预设症状相关信息出现的后验概率。于本发明的一实施例中,所述后验概率的计算方式可以是基于贝叶斯公式的算法,例如朴素贝叶斯算法及其变种算法。步骤s602:在各该预设症状相关信息中选择后验概率值最大的一个作为推荐症状相关信息。于本发明的一实施例中,比较简单的方式可以直接以所述后验概率值最大的一个作为推荐症状相关信息,例如,选取后验概率值最大的证型信息作为目标证型信息,选取后验概率值最大的处方信息作为目标处方信息等。但是,在一类症状相关信息中,后验概率值最大的多个症状相关信息间的差异度(可以通过各自对应的后验概率值的差值的绝对值来表示)越小,则选取后验概率值最大的症状相关信息作为推荐症状相关信息的做法越不可靠。因此,可以对此加以改进,如图6b所示,通过以下步骤来替代步骤s602。步骤s603:将后验概率值最大的多个所述预设症状相关信息作为备选症状相关信息,判断各备选症状相关信息间的接近度数据的量值是否低于预设值。步骤s604:若否,则选择后验概率值最大的备选症状相关信息作为推荐症状相关信息。具体来讲,当后验概率值最大的多个备选症状相关信息中,相互间的后验概率值的差值越大,则差异度越大,相应的,最大的备选症状相关信息作为推荐症状相关信息的可靠度越高。步骤s605:若是,则在所述症状信息库中各预设症状信息与相关信息库中各预设症状相关信息间的关联度数据中,匹配各备选症状相关信息分别与各预设症状信息间的目标关联度数据;步骤s606:根据匹配到的目标关联度数据计算:相关于与各个待诊断症状信息都不同的每个预设症状信息的备选症状相关信息之间的差异度数据,集合形成项目辨别症状序列,以供选取其中差异度数据的量值最大的一或多个数据所对应的预设症状信息作为推荐症状信息作为推荐症状信息。于本发明的一实施例中,所述多个备选症状相关信息包括:后验概率值最大及次之的预设症状相关信息,也就是选取最大的两个预设症状相关信息;所述相关于与各个待诊断症状信息都不同的每个预设症状信息的备选症状相关信息之间的差异度数据,包括:所述后验概率值最大及次之的预设症状相关信息对应于每个预设症状信息的一组目标关联度数据间不小于零的差值(即绝对值)。以证型信息进行举例,对证型信息库{d1,d2,…,dk}中某个预设证型信息dj,该证型信息基于该待诊断症状信息序列ps={ps1,ps2,…,psk}的后验概率可表示为p(dj|ps1,ps2,…,psk)。应用朴素贝叶斯模型:p(dj|ps1,ps2,…,psk)∝p(ps1,ps2,…,psk|dj)*p(dj)∝p(ps1|dj)*p(ps2|dj)*…*p(psk|dj)*p(dj);计算证型信息库中所有预设证型信息{d1,d2,…,dk}基于该组待诊断症状信息的后验概率,并将所有证型信息按照后验概率值从大到小进行排序;若后验概率值最高的两个备选证型信息之间的概率值差值大于一定预设值,则可将后验概率值最高的一个备选证型信息作为基于待诊断症状信息序列的目标证型信息,以供作为下一步问诊依据。而若排序最高的两个备选证型信息之间的概率值差距小于一定预设值,则需要对该两个备选证型信息进行进一步的辨识。假设需要进一步辨识的两个备选证型信息为d1和d2,则从表2中获取症状信息库中所有预设症状信息分别基于备选证型信息d1,d2的条件概率值,并计算其差值(如差值为负则取绝对值),填入以下证型辨识症状表,即如表5所示。将症状信息库中排除各所述待诊断症状信息以外的所有预设症状信息按照以上计算的条件概率差值的大小进行排序,形成证型辨识症状序列。条件概率差值越大,则代表该症状信息与其中一个证型信息的关联度越大,而与另外一个证型信息的关联度越小;在后续的问诊过程中获得患者该症状的信息,则有助于在两个备选证型信息中分辨证型信息。表5症状s1。。。症状si。。。症状sm证型d1p(s1|d1)。。。p(si|d1)。。。p(sm|d1)证型d2p(s1|d2)。。。p(si|d2)。。。p(sm|d2)概率差值|p(s1|d1)-p(s1|d2)|。。。|p(si|d1)-p(si|d2)|。。。|p(sm|d1)-p(sm|d2)|在中医问诊过程中,当医生获取一定数量症状信息后,通过对已有信息的分析和思考,医生通常会做出初步的诊断,形成备选的诊断结果,此时需要获取额外的症状信息以对诊断做进一步的确认。本系统证型辨识症状序列的形成方式符合中医医生的正常思维过程,即通过对一组待诊断症状信息进行分析,形成有助于进一步辨识证型的依据推荐症状信息进行问诊的问诊引导提示。同理,再以处方信息为例进行目标处方信息形成的说明,本实施例中采用主方剂信息来替代处方信息。对主方剂信息库{f1,f2,…,fk}中某个主方剂信息fj,该主方剂信息基于该待诊断症状信息序列ps={ps1,ps2,…,psk}的后验概率可表示为p(fj|ps1,ps2,…,psk)。应用朴素贝叶斯模型:p(fj|ps1,ps2,…,psk)∝p(ps1,ps2,…,psk|fj)*p(fj)∝p(ps1|fj)*p(ps2|fj)*…*p(psk|fj)*p(fj)计算主方剂信息库中所有主方剂信息{f1,f2,…,fk}基于该待诊断症状信息序列的后验概率,并将所有主方剂信息按照概率值进行排序;若排序最高的两个备选主方剂信息之间的概率值差值大于一定预设值,则可将后验概率值最高的一个备选主方剂信息作为基于该待诊断症状信息序列的目标主方剂信息。而若排序最高的两个备选主方剂信息之间的概率值差距小于一定预设值,则需要对两个备选主方剂进行进一步的辨识。假设需要进一步辨识的两个备选主方剂信息为f1和f2,则从表3中获取症状信息库中所有预设症状信息基于备选主方剂信息f1,f2的条件概率值,并计算其差值(如差值为负则取绝对值),填入以下主方剂辨识症状表,即如表6所示。将症状信息库中排除各所述待诊断症状信息以外的所有预设症状信息按照以上计算的条件概率差值的大小进行排序,形成主方剂辨识症状序列。条件概率差值越大,则代表该症状与其中一个主方剂的关联度越大,而与另外一个主方剂的关联度越小;在后续的问诊过程中获得患者该症状的信息,则有助于在两个备选主方剂信息中分辨目标主方剂信息。表6症状s1。。。症状si。。。症状sm主方剂f1p(s1|f1)。。。p(si|f1)。。。p(sm|f1)主方剂f2p(s1|f2)。。。p(si|f2)。。。p(sm|f2)概率差值|p(s1|f1)-p(s1|f2)|。。。|p(si|f1)-p(si|f2)|。。。|p(sm|f1)-p(sm|f2)|在中医问诊过程中,当医生获取一定数量症状信息后,通过对已有信息的分析和思考,医生通常会做出初步的诊断,形成备选的诊断结果,此时需要获取额外的症状信息以对诊断做进一步的确认。本系统主方剂辨识症状序列的形成方式符合中医医生的正常思维过程,即通过对一组待诊断症状信息进行分析,形成有助于进一步辨识主方剂的依据推荐症状信息进行问诊的问诊引导提示。于本发明的一实施例中,从所述关联症状序列及一或多个所述项目辨识症状序列可单独使用,以提供下一步问诊依据。举例来说,可以在关联症状序列、证型辨识序列、或主方剂辨识症状序列中选出的量值最大的一或多个数据所对应的推荐症状信息直接输出给医生,以作为进行下一步问诊的依据。然而,优选的,可以将该些序列整合后再输出,以作为进行下一步问诊的依据。在本发明的一实施例中,所述处理单元402,还可用于按所分配权重从所述关联症状序列及一或多个所述项目辨识症状序列中分别选取对应各自权重的数量个量值最大的数据,并将该些数据对应的预设症状信息加以集合以形成综合辨识症状序列。举例来说,当通过以上方法获得了基于该待诊断症状信息序列的关联症状序列、证型辨识症状序列、及主方剂(或处方)辨识症状序列后,可应用一定的方法对三个序列进行整合,形成最终的问诊引导提示症状序列。一种可行的整合的方法是给予每个序列一定的权重,并按照权重的比例从每个序列各取一定数量的症状信息。例如,关联症状序列中有10个值,对应10个预设症状信息,且其权重为0.2;设待诊断症状信息有10个预设症状信息中的4个,则证型辨识症状序列和主方剂辨识症状序列中均有6个值,对应剩余的6个预设症状信息,且设证型辨识序列的权重为0.3,主方剂辨识症状序列的权重为0.4。从关联症状序列中选取量值最大的10*0.2=2个值所对应的2个预设症状信息,从证型辨识症状序列中选取量值最大的6*0.3=1.8≈2个值所对应的2个预设症状信息,从主方剂辨识症状序列中选取量值最大的6*0.2=1.2≈1个值所对应的1个预设症状信息,则该5个选取出来的预设症状信息集合作为综合辨识症状序列,进而输出,可以提供给医生作为进一步问诊的依据。然而,一种更为优化的方式则是,可以依据问诊过程的不同阶段可动态调整各个序列的权重;例如,在问诊过程的初期,医生主要需要获取患者尽量完整的症状信息,此阶段根据症状信息间的关联度进行引导提示更为重要,则关联症状序列可分配较高的权重;在问诊过程的后期,对于备选证型信息和主方剂信息的辨别则更为重要,此时证型辨识症状序列和主方剂辨识症状序列应分配较高的权重。整合后的问诊引导提示症状序列将作为该系统的输出提供给医生,医生参考该信息进行下一步的问诊,将有助于医生实现高效的问诊过程。需说明的是,虽然上述实施例中,提及将每个序列进行从大到小的排序,这是为了在计算机设备中便于直接按序列顺序进行从大到小的输出;当然,这只是一种优选方式,实际上也可以不必排序,每次进行最大值计算亦可,并非以此为限。需要说明的是,应理解以上系统中的各个单元的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;还可以部分单元通过处理元件调用软件的形式实现,部分单元通过硬件的形式实现。例如,处理单元402可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上处理单元402的功能。其它单元的实现与之类似。此外这些单元全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,包含信号的处理能力。在实现过程中,上述各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。例如,以上这些单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(applicationspecificintegratedcircuit,简称asic),或,一个或多个微处理器(digitalsingnalprocessor,简称dsp),或,一个或者多个现场可编程门阵列(fieldprogrammablegatearray,简称fpga)等。再如,当以上某个单元通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessingunit,简称cpu)或其它可以调用程序代码的处理器。再如,这些单元可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。于本发明的一个实施例中,对应上述系统的实现,本发明还能提供医学数据推荐方法,所方法包括:获取包含一组待诊断症状信息的待诊断症状信息序列;在症状信息库中各所述预设症状信息间的关联度数据中,匹配并计算所述一组待诊断症状信息分别与所述各预设症状信息间的关联度数据,集合形成关联症状序列,以供选取其中关联度数据的量值最大的一或多个数据所对应的预设症状信息作为推荐症状信息;以及/或者,以所述结构化病历数据集作为数据输入,计算基于各所述待诊断症状信息出现的相关信息库中的每个预设症状相关信息出现的后验概率;在各该预设症状相关信息中选择后验概率值最大的一个作为推荐症状相关信息;或者,将后验概率值最大的多个所述预设症状相关信息作为备选症状相关信息,判断各备选症状相关信息间的接近度数据的量值是否低于预设值;若否,则选择后验概率值最大的备选症状相关信息作为推荐症状相关信息;若是,则在所述症状信息库中各预设症状信息与相关信息库中各预设症状相关信息间的关联度数据中,匹配各备选症状相关信息分别与各预设症状信息间的目标关联度数据,并根据匹配到的目标关联度数据计算:相关于与各个待诊断症状信息都不同的每个预设症状信息的备选症状相关信息之间的差异度数据,集合形成项目辨别症状序列,以供选取其中差异度数据的量值最大的一或多个数据所对应的预设症状信息作为推荐症状信息作为推荐症状信息。由于所述方法的原理与上述系统大致相同,一实施例中的技术特征皆可通用于另一实施例,因此对于已描述过的技术细节不再作重复赘述。于本发明的一实施例中,本发明还可以提供一种处理装置,包括:处理器及存储器,所述存储器存储有计算机程序,所述处理器运行所述计算机程序以实现前述方法实施例或系统实施例中的功能。举例来说,所述存储器,用于存储第一计算机程序,所述处理器,用于运行所述第一计算机程序以实现例如图1实施例所展示的医学病历数据处理方法。举例来说,所述存储器,也可用于存储由所述的医学病历数据处理方法生成的医学结构化病历数据集,举例来说,所述存储器,也可用于存储第二计算机程序;所述处理器,用于运行所述第二计算机程序以实现如图4实施例所展示的医学数据推荐系统的功能;例如,通过运行第二计算机程序中的部分程序实现图5、图6a(或6b)实施例、或上述其它各种功能的流程步骤。所述存储器可能包含随机存取存储器(randomaccessmemory,简称ram),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。所述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。于本发明的一实施例中,还可提供计算机存储介质,存储第一计算机程序,所述第一计算机程序用于被处理器运行以实现如图1实施例所展示的医学病历数据处理方法。于本发明的一实施例中,还可提供计算机存储介质,存储由所述的医学病历数据处理方法生成的医学结构化病历数据集。于本发明的一实施例中,还可提供计算机存储介质,存储第二计算机程序,所述第二计算机程序用于被处理器运行以实现如图4实施例所展示的医学数据推荐系统。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solidstatedisk,ssd))等。本发明的从两个方面保证了医生可相对于传统问诊方式提升问诊的有效性。首先,基于当前的计算机信息化水平和计算能力,可以将大量的病历数据转换为结构化病历数据集,计算机所能处理的病历数据量远超人类医生的能力,其通过数据分析和发现的症状信息间、及症状信息与症状相关信息间的关联度也更加真实和客观。其次,本发明的医学数据推荐系统可以基于上述结构化病历数据集进行症状信息、症状相关信息等信息间的关联度分析,以预测并推荐符合高效问诊方向的问诊依据,高效辅助中医问诊过程,具有高度的现实意义。上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属
技术领域
中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1