一种医学数据处理方法及系统与流程

文档序号：18167701发布日期：2019-07-13 09:43阅读：147来源：国知局

本发明涉及数据处理技术领域，尤其涉及一种医学数据处理方法。

背景技术：

随着科学的发展以及社会的进步，人们已经越来越依赖于互联网应用搜索相关信息了。目前，在医疗领域的信息化建设中，搜索医疗知识的相关方法主要还是通过建立各类业务的数据中心，直接获取数据中心中的医疗数据。但采用这种方法所获取的医疗知识数据比较片面，并且由于数据量较少，数据中知识点关联性也比较薄弱，因此用户很难通过这种方法获取与搜索问题针对性高的答案。

技术实现要素：

本发明的目的是针对现有技术的缺陷，提供一种医学数据处理方法，通过长短期记忆网络模型和随机场算法模型识别将各个医学文档中的实体，将实体与实体的部分关系可量化，建立识别模型，并构建医学知识图谱，从而实现向应用层提供推理后的、相应的应用服务，使得所提供的数据更为全面，数据中知识点关联性更深，针对性更强。

为实现上述目的，在第一方面，本发明提供了一种医学数据处理方法，所述方法包括：

接口模块接收多个医学知识文档数据；

训练模块通过长短期记忆网络模型和随机场算法模型生成识别模型；所述识别模型用于识别医学知识文档数据中的实体数据和实体关系数据；

所述训练模块获取所述多个医学知识文档数据，将所述多个医学知识文档数据输入所述识别模型，训练所述识别模型，根据所述识别模型识别到的所述实体数据和所述实体关系数据构建医学知识图谱，并输出；所述医学知识图谱包括多个实体融合数据；

应用模块接收用户输入的医学知识获取指令；所述医学知识获取指令包括所述实体数据；

所述应用模块根据所述医学知识获取指令从所述医学知识图谱中获取与所述医学知识获取指令中的实体数据相对应的实体融合数据，并输出。

优选的：

所述接口模块包括多个文档接口；

所述医学知识文档数据包括文档标识；

每个所述文档接口对应一个所述文档标识，用以所述接口模块通过各个文档接口获取各个医学知识文档数据。

进一步优选的，所述文档接口包括：开放医疗与健康联盟接口、临床术语标准接口、医学语言接口、药品说明书接口、医疗机构接口、医学文献接口、科普文章接口和自定义接口中的一个或多个。

优选的，所述训练模块通过长短期记忆网络模型和随机场算法模型具体用于：

确定所述多个医学知识文档数据中的单个词频和多词频共现频率，从而实现弱监督和无监督。

优选的，所述实体融合数据包括：所述实体数据、所述实体数据的实体关系数据和实体数据的数据源。

进一步优选的，在所述构建医学知识图谱之前，所述方法还包括：

所述训练模块根据所述多个医学知识文档数据生成所述实体数据的数据源。

进一步优选的，所述根据识别模型识别到的实体数据和实体关系数据构建医学知识图谱具体为：

根据所述多个医学知识文档数据训练所述识别模型，得到多个医疗数据库；所述医疗数据库中包括所述实体数据的数据源；

根据所述到多个医疗数据库构建医学知识图谱。

优选的，在所述构建医学知识图谱之后，所述方法还包括：

根据新的医学知识文档数据训练所述识别模型，更新所述医学知识图谱。

在第二方面，本发明提供的一种医学数据处理系统，包括如上述第一方面所述的接口模块、训练模块和应用模块。

本发明实施例提供的医学数据处理方法，通过长短期记忆网络模型和随机场算法模型识别将各个医学文档中的实体，将实体与实体的部分关系可量化，建立识别模型，并构建医学知识图谱，从而实现向应用层提供推理后的、相应的应用服务，使得所提供的数据更为全面，数据中知识点关联性更深，针对性更强。

附图说明

图1为本发明实施例提供的医学数据处理方法的流程图；

图2为本发明实施例提供的医学数据处理系统的示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明实施例首先提供了一种医学数据处理方法，实现于医学数据处理系统中，用于将例如疾病、症状、饮食等关于医学领域的知识实体识别出来,并量化实体与实体之间的关系，从而向应用层提供例如疾病自诊、导诊、康养等问题的答案推理。其方法流程图如图1所示，包括如下步骤：

步骤110，接口模块获取多个医学知识文档数据；

具体的，医学数据处理系统中的接口模块可以理解为用于接收相关医疗知识文档的模块。接口模块包括多个文档接口，每个文档接口对应一个文档标识。文档标识可以理解为文档来源入口标识。每个医学知识文档数据均包括一个文档标识，用以接口模块通过各个文档接口获取相应的各个医学知识文档数据。在一些具体的例子中，文档接口包括；开放医疗与健康联盟(omaha联盟)接口、临床术语标准(snomedct)接口、医学语言(unifiedmedicallanguagesystem，umls)接口、药品说明书接口、医疗机构接口、医学文献接口、科普文章接口和自定义接口中的一个或多个。通过这些文档接口，训练模块可以获取到omaha联盟中的医学知识文档数据、snomedct中的医学知识文档数据、umls中的医学知识文档数据、药品说明书、医疗机构数据库中的医学知识文档数据、医学文献、科普文章和自由文本。

在接口模块获取到多个医学知识文档数据后，将医学知识文档数据发送至医学数据处理系统中的训练模块。训练模块可以理解为系统中用于对数据进行识别、训练的模块。步骤120，训练模块通过长短期记忆网络模型和随机场算法模型生成识别模型；

具体的，长短期记忆网络(longshort-termmemory，lstm)模型可以理解为一种特殊的循环神经网络(recurrentneuralnetwork，rnn)模型，rnn模型可以利用模型内部的记忆来处理任意时序的输入序列，从而对不分段的文字、语音等内容进行识别。而lstm模型相对于rnn模型在于它在算法中加入了一个判断信息有用与否的处理过程，一个医学知识文档数据进入lstm模型中，可以根据规则来判断医学知识文档数据中的各个信息是否有用。只有符合算法认证的信息才会留下。

随机场算法(conditionalrandomfieldalgorithm，crf)模型是一种无向图模型，其联合概率可以写成若干势函数联乘的形式，其中最常用的是线性链条件随机场。crf模型的学习过程就是描述一些句子中的特征配置，例如，当前词语是“xx”，上个词“xx”，满足这种配置的，特征函数输出就是1，不然是0。一个句子中每个词都有同样多的特征函数判断，预测的过程就是利用每种特征配置给词性标记打分，然后打分结果加权求和，打分最高的词性标记，就是预测结果。

训练模块通过长短期记忆网络模型和随机场算法模型生成识别模型，也可以理解为，训练模块中的用于识别医学知识文档数据中的实体数据和实体关系数据的识别模型，是由lstm模型和crf模型构成的。通过lstm模型和crf模型确定多个医学知识文档数据中的单个词频和多词频共现频率，从而识别医学知识文档数据中的实体数据和实体关系数据，使得识别模型用于可以用于识别医学知识文档数据中的实体数据和实体关系数据。

这里，实体数据可以理解为指某个领域范畴内的名词或单元的统称，例如疾病领域中的感冒、高血压、糖尿病等，或是症状领域中的发烧、头痛等。实体关系数据可以理解为量化后的两个实体之间的关系。两个实体间的关系可以如:疾病与症状的包含关系(具体例如疾病-包含-症状中的感冒-包含-流鼻涕/头痛的关系)，实体关系数据可以如疾病与症状的几率量化关系(具体例如症状-引起疾病权重关系-疾病中的流鼻涕-0.3332433几率-感冒的量化关系)。

步骤130，训练识别模型；

具体的，lstm模型和crf模型中的算法可以根据单个词频及多词频共现频率做到一定程度的无监督和弱监督的模型补充，而无监督和弱监督归属无监督方向和强化学习方向的补充训练识别模型。

当训练模块将已获取到的多个医学知识文档数据输入识别模型后，识别模型开始被训练，训练过程可以理解为用lstm模型和crf模型中的算法抽取医学知识文档数据中的实体数据和实体关系数据，用抽取出的结果监督训练更新识别模型，并反复进行抽取和训练的过程。在反复进行抽取和训练的过程中，识别模型可以实现挖掘新语料，也就是可以抽取的新的实体数据以及实习关系数据。

步骤140，根据识别模型识别到的实体数据和实体关系数据，构建医学知识图谱，并输出；

具体的，将多个医学知识文档数据输入识别模型，训练识别模型，根据识别模型识别到的实体数据和实体关系数据构建医学知识图谱，并输出。医学知识图谱的落地形式表现为一个具有多个医疗数据库的图数据库。也就是说，训练模块根据多个医学知识文档数据训练识别模型后，可以得到多个医疗数据库。例如，训练模块根据多个医学知识文档数据训练识别模型后，得到的医疗数据库可以包括：疾病知识数据库、检查检验知识数据库、症状知识库、药品知识库、身体部位知识库和手术知识库。每个医疗数据库中包括有相应的实体数据的数据源。最后，训练模块根据所得到多个医疗数据库构建医学知识图谱，并输出。

并且，医学知识图谱包括多个实体融合数据，实体融合数据可以理解为一个特定实体的描述和建模的过程中，融合多种数据源和数据形式来整合为一个相对完善的实体的数据。每个实体融合数据包括：实体数据、实体数据的实体关系数据和实体数据的数据源。实体数据的数据源是训练模块根据多个医学知识文档数据生成的。

可以理解的是，在反复进行抽取和训练的过程中，识别模型可以抽取的新的实体数据以及实习关系数据，此时根据识别模型识别到的实体数据和实体关系数据构建的医学知识图谱也会得到更新。也就是说，当训练模块根据新的医学知识文档数据训练识别模型是，医学知识图谱也会得到更新。

步骤150，应用模块接收用户输入的医学知识获取指令；

具体的，医学数据处理系统中的应用模块可以理解为上层为用户提供应用服务的模块。具体的应用该服务可以包括：基于谱图的知识可视化展示服务、基于图谱的医患关系教育服务、基于图谱的语义化搜索等应用服务。

步骤160，应用模块从医学知识图谱中获取相对应的实体融合数据，并输出；

具体的，医学知识获取指令中包括具体的实体数据，应用模块根据医学知识获取指令从医学知识图谱中获取与医学知识获取指令中的实体数据相对应的实体融合数据，并输出。

在一个具体的例子中，用户输入的医学知识获取指令为“搜索头疼”，该医学知识获取指令中的实体数据为“头疼”，则应用模块从医学知识图谱中获取所有与“头疼”相对应的实体融合数据，包括“头疼在临床上的表现症状”的实体融合数据、“头疼的发明原因”的实体融合数据、“缓解头疼的方法”的实体融合数据等等。

相应的，本发明实施例还提供了一种用以实现上述医学数据处理方法的医学数据处理系统，其示意图如图2所示，医学数据处理系统包括：接口模块1、训练模块2和应用模块3。其中接口模块1与训练模块2相连，训练模块2与应用模块3相连。接口模块1包括开放医疗与健康联盟接口11、临床术语标准接口12、医学语言接口13、药品说明书接口14、医疗机构接口15、医学文献接口16、科普文章接口17和自定义接口18中的一个或多个。训练模块2中包括识别模型21和根据识别模型21得到的医学知识图谱22。应用模块3中包括多个应用子模块31…3n。

当医学数据处理系统工作时，其过程如下：

训练模块2通过接口模块1获取多个医学知识文档数据。训练模块2通过长短期记忆网络模型和随机场算法模型生成识别模型21，通过开放医疗与健康联盟接口11、临床术语标准接口12、医学语言接口13、药品说明书接口14、医疗机构接口15、医学文献接口16、科普文章接口17和自定义接口18中的一个或多个将一个或多个医学知识文档数据输入识别模型21，训练识别模型，根据识别模型识别到的实体数据和实体关系数据构建医学知识图谱22，并输出。每当有新的医疗知识文档数据时，重复训练、识别实体数据和实体关系数据并构建医学知识图谱22。各个应用模块3中的应用子模块31……3n接收用户输入的医学知识获取指令，根据医学知识获取指令从医学知识图谱中获取与医学知识获取指令中的实体数据相对应的实体融合数据，并输出。

本发明实施例提供的医学数据处理系统，通过长短期记忆网络模型和随机场算法模型识别将各个医学文档中的实体，将实体与实体的部分关系可量化，建立识别模型，并构建医学知识图谱，从而实现提供推理后的、相应的应用服务，使得所提供的数据更为全面，数据中知识点关联性更深，针对性更强。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、用户终端执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邵飞虎;郝玲风;高源
技术所有人：北京博瑞彤芸文化传播股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。