基于医学信息本体数据库的疾病自我分析方法

文档序号：6640805阅读：176来源：国知局

基于医学信息本体数据库的疾病自我分析方法
【专利摘要】本发明提供一种基于医学信息数据库的疾病自我分析方法，包括如下步骤：建立医学信息本体(Medical Ontology)数据库，即MO数据库；根据病情描述，提取特征词汇；根据特征词汇在MO数据库中搜索并进行匹配；根据匹配得到的terms标号集合，计算病友对应的MO terms集合所患疾病的概率。通过本发明的方法，建立起基于疾病特征的医学信息本体数据库，并建立起一种基于医学信息数据库的疾病自我分析方法，使有效的数据与人体的实际状况相结合，使病患初期的病征得到更有效的甄别，最大可能的为帮助病患自诊提供准确有效的数据依据。
【专利说明】基于医学信息本体数据库的疾病自我分析方法

【技术领域】
[0001] 本发明属于计算机信息领域，特别是涉及到一种基于医学信息本体数据库的疾病自我分析方法。

【背景技术】
[0002] 现阶段人们的生活节奏很快，生活压力也很大，这就为人们的身体健康带来了很多隐忧。人们一旦身体健康出现问题，首选是去医院，但是医院里看病的人又似乎永远是非常多，哪怕是一些小病征，整个看病的流程走下来会花费很多时间；而如果人们觉得耽误时间，不愿意去医院，只是依据自己的经验买些药服用，这样又有可能错过最佳治疗时间，耽误病情。
[0003] 基于这种现象，如果能够有一个帮助人们进行疾病自诊的信息平台，将会对人们产生巨大的帮助，人们可以通过信息平台的内容，结合自身的状况，先对自己的病患进行初期的判断，病征轻微的，可以根据信息平台的内容进行自我简单的治疗，病征有危险的发展趋势时，再去医院治疗。
[0004] 要建立一个这样的帮助人们进行疾病自诊的信息平台，需要有一个完善的医学信息数据库，才能保证自诊的准确性，既能帮助人们节省时间，又不会耽误疾病的最佳治疗时间。
[0005] 在有了完善的医学信息数据库之后，还要有基于医学信息数据库的疾病自我分析方法，才能准确的完成自诊。

【发明内容】

[0006] 本发明要解决的问题是设计一种基于医学信息数据库的疾病自我分析方法，为疾病自诊信息平台提供完备的信息分析方法，为病患初期的自诊提供科学的依据。
[0007] 需要说明的是，本发明基于医学信息数据库的疾病自我分析方法，是信息学的一种应用，并非属于疾病的诊断和治疗方法，因此不违反专利法第二十五条的相关规定。
[0008] 为了达到上述目的，本发明采取的技术方案为：一种基于医学信息数据库的疾病自我分析方法，其特征在于，包括如下步骤：
[0009] (1)建立医学信息本体（MedicalOntology)数据库，即MO数据库；
[0010] ⑵根据病情描述，提取特征词汇；
[0011] (3)根据特征词汇在MO数据库中搜索并进行匹配；
[0012] (4)根据匹配得到的terms标号集合，计算病友对应的MOterms集合所患疾病的概率。
[0013] 优选的，所述步骤（1)中，创建MO数据库的方法为：
[0014] a.将疾病及其特征用MOterms进行编号，每个MOterms代表一个顶点，两个 terms之间的关系用有向边表示，这样将疾病和病征表示在一个有向无环图中；
[0015] b.顶点之间的关联分成两种类型：is_a关系和part_of关系；is_a关系是一种简单的包含关系；part_of关系表示一部分的包含关系，一种疾病往往有多种病征表现，病征和疾病之间是part_of的关系，疾病和疾病之间是is_a的关系，病征和病征之间是is_a的关系；
[0016] c.对于任两个terms之间的有向边，若是part_of的关系，则赋予权重；权重用关联概率d表示；将父term与之关联的子terms之间进行关联度d分配（0〈d〈 = 1);其中关联度d(terml,term2)表示父病征terml出现term2子病征的概率；
[0017] d.对于任两个terms之间的有向边，若是is_a的关系，则赋予权重；权重用关联百分比表示；父term与子terms之间的关联百分比用该子term在父term所关联的所有子 terms中出现比率，所述子terms的关联百分比之和为1。
[0018] 优选的，所述步骤（2)中特征词汇的提取方法为：
[0019] (2. 1)将表示程度和是否的词汇一起提取。将频率词汇去除；
[0020] (2. 2)根据标点符号将病情描述的长字符串拆分成很多短字符串，对每个短字符串按照2?4的长度依次进行遍历截取；
[0021] 优选的，所述步骤（3)中采用分治算法技术，对每个疾病下的症状进行并行计算处理；
[0022] 优选的，所述步骤（3)中所述的匹配，需要特征词汇与MO数据库中的terms词汇进行精确匹配；
[0023] 优选的，所述步骤（4)中所述的计算概率，运用广度优先搜索方法，得到对应病情描述病症term集合It1,t2,..V··}和边权重集合Wj={wWw2j，…，Wij,…}，然后计算得该疾病的概率。
[0024] 进一步的，所述步骤（4)中根据概率大小排序，可以判断所患疾病的概率。然后按照概率大小，推荐相应的科室和医生。
[0025] 本发明的有益效果为：通过本发明的方法，建立起基于疾病特征的医学信息本体数据库，并建立起一种基于医学信息数据库的疾病自我分析方法，使有效的数据与人体的实际状况相结合，使病患初期的病征得到更有效的甄别，最大可能的为帮助病患自诊提供准确有效的数据依据，既为人们节省不必要的时间消耗，又不会耽误疾病的最佳治疗时间。

【专利附图】

【附图说明】
[0026] 图1是本发明的步骤示意图；
[0027] 图2是本发明中提取词汇方法示意图。

【具体实施方式】
[0028] 下面结合具体实施例对本发明做进一步说明。
[0029] 按照图1所示的步骤，
[0030] 首先，建立医学信息本体（MedicalOntology)数据库，即MO数据库；
[0031] (1)将疾病及其特征用MOterms进行编号，每个MOterms代表一个顶点，两个 terms之间的关系用有向边表示，这样将疾病和病征表示在一个有向无环图中；
[0032] (2)顶点之间的关联分成两种类型：is_a关系和part_of关系；is_a关系是一种简单的包含关系；part_of关系表示一部分的包含关系，一种疾病往往有多种病征表现，病征和疾病之间是part_of的关系，疾病和疾病之间是is_a的关系，病征和病征之间是is_a的关系；
[0033] (3)对于任两个terms之间的有向边，若是part_of的关系，则赋予权重；权重用关联概率d表示；将父term与之关联的子terms之间进行关联度d分配（0〈d〈 = 1);其中关联度d(terml,term2)表示父病征terml出现term2子病征的概率；
[0034] (4)对于任两个terms之间的有向边，若是is_a的关系，则赋予权重；权重用关联百分比表示；父term与子terms之间的关联百分比用该子term在父term所关联的所有子 terms中出现比率，所述子terms的关联百分比之和为1。
[0035] 然后，基于MO数据库，进行疾病的自我分析方法为：
[0036] 第一步：根据病情描述，提取特征词汇，提取方法：
[0037] 注1 :将{:不，没，无，非常，有，存在，高于，低于，严重等表示程度和是否的词汇一起提取。将{:可，可以，呈，呈现，常，经常，···..}等频率词汇去除。
[0038] 注2 :提取词汇方法：根据标点符号将病情描述的长字符串拆分成很多短字符串，对每个短字符串按照2?4的长度依次进行遍历截取（汉字词汇一般为2到4长的文字组成）。如图2所示。
[0039] 这样得到病情的特征词汇提取集合S= (S1,S2,…，Si,….sn}。
[0040] 注3 :搜索技术：因为在MO数据库对应关系（即有向无圈图中）中is_a关系与 part_of关系的分界点恰好是疾病名称与症状的分界点，根据有向无圈图的性质，可以采用分治算法（divideandconqueralgorithm)技术，对每个疾病下的症状进行"分而治之"，分治算法能够减少搜索时间，并且分治下的每个疾病分支可以并行计算处理（parallel computing)〇
[0041] 注4 :进行匹配：医学信息本体（MedicalOntology)数据库中每个term都有对应的定义和所有可能的同义词与相近意思或相关词（这些词组成一个词汇组T=Itpt2，… tn})。因为对病情描述的词汇进行了全部可能提取，所以的匹配需要与MO数据库中的terms 词汇进行精确匹配（一个特征词汇Si的一部分或全部完全匹配数据库中的某个term对应的词汇组T中的一个完整词汇）。
[0042] 第二步：对于该病情描述得到的terms标号集合，计算病友对应的MOterms集合所患疾病的概率。每个症状的MOterm&都可以通过一条有向路回溯到上层的疾病对应的 terms集合（运用广度优先搜索方法），并且记下离对应疾病term最近的有向边的权重w。这样每个症状&就对应疾病term集合{dud2，…，dt}和对应的权重{wn,wi2,….，wit}。
[0043] 这样，每个疾病Wpd2，…，dt}也都得到了对应病情描述病症term集合 {?" 七2，· ·ti···}
[0044] 和边权重集合Wj={w$w2j,…，Wij,…}，然后计算得该疾病的概率
[0045]

【权利要求】
1. 一种基于医学信息数据库的疾病自我分析方法，其特征在于，包括如下步骤： (1) 建立医学信息本体（Medical Ontology)数据库，即M0数据库； (2) 根据病情描述，提取特征词汇； (3) 根据特征词汇在M0数据库中搜索并进行匹配； (4) 根据匹配得到的terms标号集合，计算病友对应的MO terms集合所患疾病的概率。
2. 根据权利要求1所述的一种基于医学信息数据库的疾病自我分析方法，其特征在于，所述步骤（1)中，创建M0数据库的方法为： a. 将疾病及其特征用MO terms进行编号，每个MO terms代表一个顶点，两个terms之间的关系用有向边表示，这样将疾病和病征表示在一个有向无环图中； b. 顶点之间的关联分成两种类型：is_a关系和part_of关系；is_a*系是一种简单的包含关系；part_of关系表示一部分的包含关系，一种疾病往往有多种病征表现，病征和疾病之间是part_of的关系，疾病和疾病之间是is_a的关系，病征和病征之间是is_a的关系； c. 对于任两个terms之间的有向边，若是part_of的关系，则赋予权重；权重用关联概率d表示；将父term与之关联的子terms之间进行关联度d分配（0〈d〈 = 1);其中关联度 d(terml, term2)表示父病征terml出现term2子病征的概率； d. 对于任两个terms之间的有向边，若是is_a的关系，则赋予权重；权重用关联百分比表示；父term与子terms之间的关联百分比用该子term在父term所关联的所有子 terms中出现比率，所述子terms的关联百分比之和为1。
3. 根据权利要求1所述的一种基于医学信息数据库的疾病自我分析方法，其特征在于，所述步骤（2)中特征词汇的提取方法为： (2. 1)将表示程度和是否的词汇一起提取。将频率词汇去除； (2. 2)根据标点符号将病情描述的长字符串拆分成很多短字符串，对每个短字符串按照2?4的长度依次进行遍历截取。
4. 根据权利要求1所述的一种基于医学信息数据库的疾病自我分析方法，其特征在于，所述步骤（3)中采用分治算法技术，对每个疾病下的症状进行并行计算处理。
5. 根据权利要求1所述的一种基于医学信息数据库的疾病自我分析方法，其特征在于，所述步骤（3)中所述的匹配，需要特征词汇与M0数据库中的terms词汇进行精确匹配。
6. 根据权利要求1所述的一种基于医学信息数据库的疾病自我分析方法，其特征在于，所述步骤（4)中所述的计算概率，运用广度优先搜索方法，得到对应病情描述病症term 集合{ti, t2, . . V" }和边权重集合Wj= {w ij, w2j，…，Wij,…}，然后计算得该疾病的概率。
7. 根据权利要求1所述的一种基于医学信息数据库的疾病自我分析方法，其特征在于，所述步骤（4)中根据概率大小排序，可以判断所患疾病的概率。然后按照概率大小，推荐相应的科室和医生。
【文档编号】G06F17/30GK104484845SQ201410848794
【公开日】2015年4月1日申请日期:2014年12月30日优先权日:2014年12月30日
【发明者】赵欣, 张少强申请人:天津迈沃医药技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵欣;张少强;
技术所有人：天津迈沃医药技术有限公司;
我是此专利的发明人

上一篇：一种基于有限元分析的喷丸强化处理工艺参数确定方法
上一篇：基于疾病圈数据信息的自我诊疗方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。