一种结构化医疗数据生成方法及装置与流程

文档序号：11134173阅读：385来源：国知局

本公开涉及医疗文本的自然语言处理技术领域，具体而言，涉及一种结构化医疗数据生成方法以及一种结构化医疗数据生成装置。

背景技术：

医疗数据主要包含患者的病历、医嘱、护理文书、检查所见、检查结论等，这些数据反映了患者的基本信息、临床诊断、治疗过程和结果；随着医疗系统信息化建立和完善，越来越多的医疗数据由人工记录的方式转为电子化录入，对于病历、医嘱、护理文书、检查报告等临床信息主要由医疗人员通过自然语言的方式书写而成，信息结构较为复杂，如何对大量这些信息进行处理、分析和挖掘是医疗信息化建设的一个重要问题。

医疗文本结构化是一个文本信息提取和转换(或编码)的过程，具体来说，是自动化地将非结构化的自然语言信息转化为计算机能够“理解”和方便处理的数据结构；所得结构化数据可用于信息检索、相识病历的发现、患者信息管理、医疗数据的深度分析等。

传统的医疗文本结构化处理方法，大都依赖于医疗从业人员凭借经验对病理报告的文本内容进行人工处理，其过程实质上是依靠医疗人员的医疗知识，以人工的方式提取出包含在病理文本数据中的标本及其各指标的值。但是，这种人工处理的方式不仅耗时耗力，而且正确率难以得到保证。此外，也有一些研究人员尝试通过传统自然语言处理等手段进行结构化处理。但医疗文本信息的写作方式与通常的书写文本有很大的不同，常常没有特定的主谓或主谓宾等结构，很难通过句法分析方式处理。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

本公开的目的在于提供一种结构化医疗数据生成方法以及一种结构化医疗数据生成装置，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

根据本公开的一个方面，提供一种结构化医疗数据生成方法，包括：

接收待处理医疗文本，并对所述待处理医疗文本进行分词，得到多个词语；

结合多个第一医疗命名实体从所述多个词语中识别出多个第二医疗命名实体；

基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系；

结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。

在本公开的一种示例性实施例中，根据隐式马尔科夫模型对所述待处理医疗文本进行分词。

在本公开的一种示例性实施例中，从所述多个词语中识别出多个第二医疗命名实体包括：

基于所述多个第一医疗命名实体对所述多个词语进行精确匹配，以从所述多个词语中识别出第一部分所述第二医疗命名实体；以及，

基于预设规则对所述多个词语进行模糊匹配，以从所述多个词语中识别出第二部分所述第二医疗命名实体。

在本公开的一种示例性实施例中，建立所述多个第二医疗命名实体之间的逻辑关系包括：

基于所述多个第一医疗命名实体之间的逻辑关系判断多个所述第二医疗命名实体之间是否可能存在逻辑关系；

在判断多个所述第二医疗命名实体之间可能存在逻辑关系时，结合自然语言实体关系确认所述逻辑关系是否确实存在。

在本公开的一种示例性实施例中，结合自然语言实体关系确认所述逻辑关系是否确实存在包括：

基于人工先验知识、数据统计以及条件随机场CRF算法中的一种或多种确认所述逻辑关系是否确实存在。

根据本公开的另一个方面，提供一种结构化医疗数据生成装置，包括：

文本接收模块：用于接收待处理医疗文本，并对所述待处理医疗文本进行分词，得到多个词语；

实体识别模块：用于结合多个第一医疗命名实体从所述多个词语中识别出多个第二医疗命名实体；

关系识别模块：用于基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系；

数据生成模块：用于结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。

在本公开的一种示例性实施例中，根据隐式马尔科夫模型对所述待处理医疗文本进行分词。

在本公开的一种示例性实施例中，从所述多个词语中识别出多个第二医疗命名实体包括：

基于所述多个第一医疗命名实体对所述多个词语进行精确匹配，以从所述多个词语中识别出第一部分所述第二医疗命名实体；以及，

基于预设规则对所述多个词语进行模糊匹配，以从所述多个词语中识别出第二部分所述第二医疗命名实体。

在本公开的一种示例性实施例中，建立所述多个第二医疗命名实体之间的逻辑关系包括：

基于所述多个第一医疗命名实体之间的逻辑关系判断多个所述第二医疗命名实体之间是否可能存在逻辑关系；

在判断多个所述第二医疗命名实体之间可能存在逻辑关系时，结合自然语言实体关系确认所述逻辑关系是否确实存在。

在本公开的一种示例性实施例中，结合自然语言实体关系确认所述逻辑关系是否确实存在包括：

基于人工先验知识、数据统计以及条件随机场CRF算法中的一种或多种确认所述逻辑关系是否确实存在。

本公开的结构化医疗数据生成方法及装置，通过结合医疗命名实体以及疗命名实体之间的逻辑关系可以基于医疗文本自动生成结构化医疗数据。相比于现有技术而言，实现对海量医疗文本进行数据结构化，提高了处理速度，同时提高了准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种结构化医疗数据生成方法的流程图。

图2示意性示出本公开示例性实施例中实体识别的步骤。

图3示意性示出本公开示例性实施例中关系识别的步骤。

图4示意性示出本公开示例性实施例中另一种结构化医疗数据生成方法的流程图。

图5示意性示出本公开示例性实施例中一种结构化医疗数据生成装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例实施方式中首先提供了一种结构化医疗数据生成方法。参考图1所示，所诉结构化医疗数据生成方法可以包括以下步骤：

步骤S110.接收待处理医疗文本，并对所述待处理医疗文本进行分词，得到多个词语；

步骤S120.结合多个第一医疗命名实体从所述多个词语中识别出多个第二医疗命名实体；

步骤S130.基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系；

步骤S140.结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。

本示例实施方式中的结构化医疗数据生成方法，通过结合医疗命名实体以及疗命名实体之间的逻辑关系可以基于医疗文本自动生成结构化医疗数据。相比于现有技术而言，实现对海量医疗文本进行数据结构化，提高了处理速度，同时提高了准确率。

下面，将对本示例实施方式中结构化医疗数据生成方法的各个步骤进行进一步的详细说明。

在步骤S110中，接收待处理医疗文本，并对所述待处理医疗文本进行分词，得到多个词语。

在本技术领域中，分词是指将连续的字序列根据一定的规范重新组合成词序列的过程。举例而言，本示例实施方式中可以结合已知医疗命名实体和常规文本常规词频，根据隐式马尔科夫模型(Hidden Markov Model，HMM)进行分词。其中，隐式马尔科夫模型(Hidden Markov Model，HMM)是一个统计模型，可以用来描述一个含有隐含未知参数的马尔可夫过程，然后利用这些参数来作进一步分析。但容易理解的是，在本公开的其他示例性实施例中，也可以采用其他方式进行分词，本示例性实施例中对此不做特殊限定。

本示例实施方式中，上述已知医疗命名实体可以来自一医疗知识图谱。医疗知识图谱是一个根据实际结构化需要维护的医疗知识数据库，本示例实施方式中，医疗知识图谱可以包括医疗命名实体词表和医疗命名实体分类间关系逻辑表，可以理解为根据实际医学知识抽象出来的知识集合；医疗命名实体词表由医疗命名实体和所对应分类组成，比如医疗命名实体可以为发热(分类为表现)，其作用在于召回文本中医疗命名实体；医疗命名实体间关系逻辑表通过医疗命名实体间关系构成，其作用在于召回文本中医疗命名实体中潜在的逻辑关系，比如可以为头部(分类为解剖部位)和发热(分类为表现)存在逻辑关系等。本示例实施方式中，医疗知识图谱可以通过医疗人员通过医疗用语词典结合挖掘实际文本产生。

在步骤S120中，结合多个第一医疗命名实体从所述多个词语中识别出多个第二医疗命名实体。参考图2所示，本示例实施方式中步骤S120例如可以包括下述步骤S122～S124。其中：

在步骤S122中，基于所述多个第一医疗命名实体对所述多个词语进行精确匹配，以从所述多个词语中识别出第一部分所述第二医疗命名实体。举例而言，比如分词得出的结果可能包括：老人、儿童、68岁、女性、没有、哮喘、血压、血糖、咳嗽、肺癌、糖尿病等等，可以直接根据医疗知识图谱中的词进行精确匹配。

在步骤S124中，基于预设规则对所述多个词语进行模糊匹配，以从所述多个词语中识别出第二部分所述第二医疗命名实体。举例而言，比如分词得出的结果包括：日期、药物剂量等，则可以通过模糊匹配方式进行匹配。模糊匹配的方式可以包括：通过正则表达式的方式对文本中出现的模式进行识别，比如出现了日期为2010年12月11日的分词结果，则可以通过(\d+年\d+月\d+日)正则表达式进行识别，但本公开不以此为限。此外，在本公开的其他示例性实施例中，也可以根据情况以其他方式进行匹配，本示例性实施例中对此不做特殊限定。

在步骤S130中，基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系。参考图3所示，本示例实施方式中步骤S130例如可以包括下述步骤S132～S134。其中：

在步骤S132中，基于所述多个第一医疗命名实体之间的逻辑关系判断多个所述第二医疗命名实体之间是否可能存在逻辑关系。

上述关系的建立主要通过医学人员根据医学知识建立，比如化疗方案对应药物、化疗方案发生的时间之间是否可能存在逻辑关系，但本公开不以此为限。此外，在本公开的其他示例性实施例中，也可以根据情况以其他方式判断所述逻辑关系是否存在，本示例性实施例中对此不做特殊限定。

在步骤S134中，在判断多个所述第二医疗命名实体之间可能存在逻辑关系时，结合自然语言实体关系确认所述逻辑关系是否确实存在。

比如，在一份医疗文本中，具体的文本内容为：2015-12-11复查PET-CT未见病情进展、2016-01-16行CIK细胞免疫治疗1程；其中，实体2015-12-11、实体2016-01-16和实体CIK细胞免疫治疗都存在潜在关系，但是只有2016-01-16才是真实修饰词。但本领域技术人员容易理解的是，在本公开的其他示例性实施例中，也可以采用其他方式判断所述逻辑关系是否确实存在，本示例实施方式中对此不做特殊限定。

在步骤S140中，结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。

在步骤S130中，产生的结果是一个完全结构化结果，而实际需求可能需要的是更为通用的数据结构，比如可以是：csv格式或者json格式，但是本公开不以此为限，用户可以根据需求自行选择；本公开同时也根据实际不同需要设计了不同的数据抽取模块。

本公开的结构化医疗数据生成方法及装置，通过结合医疗命名实体以及疗命名实体之间的逻辑关系生成结构化医疗数据，实现对海量医疗文本进行数据结构化，提高了处理速度，同时提高了准确率。

在本公开的另一些实施例中，上述结合自然语言实体关系确认所述逻辑关系是否确实存在包括：基于人工先验知识、数据统计以及条件随机场CRF算法中的一种或多种确认所述逻辑关系是否确实存在，但本公开不以此为限。此外，在本公开的其他示例性实施例中，也可以根据情况以其他方式确认所述逻辑关系是否确实存在，本示例性实施例中对此不做特殊限定。

在本公开的一些实施例中，上述条件随机场是一个典型的判别式模型，其联合概率可以写成若干势函数联乘的形式。

在本公开的另一些实施例中，参考图4所示，公开了另一种结构化医疗数据生成方法，包括步骤S410～S440，其中：

在步骤S410中，接收待处理医疗文本，并对所述待处理医疗文本进行分词，得到多个词语。

上述步骤和步骤S110相同，因此不再赘述。

在步骤S420中，通过医疗知识图谱中医学用词语表，对医疗文本中医疗实体进行召回。

分词完成后，根据医疗命名实体词表中分类进行对医疗命名实体词表中出现的词进行召回；对于无法通过词表中精确完整定义的实体，通过模糊匹配的方式进行召回。

在步骤S430中，通过医疗知识图谱中医学用词语表中实体间规则策略，对已召回的实体之间存在的逻辑关系进行召回。

本步骤包括如下两个步骤：首先，通过医疗知识图谱中主体分类间逻辑关系来确定已召回实体间可能存在的逻辑关系；其次，在召回主体间可能存在关系之后，需要根据文本语义关系来判断上述逻辑关系是否确实存在。

在步骤S440中，根据实际需要，通过实体以及实体间召回的关系，进行特征提取，满足实际中检索、对比、分析等需求。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

本示例实施方式中还提供了一种结构化医疗数据生成装置，该结构化医疗数据生成装置是一种基于医疗知识图谱化的装置，实现对海量医疗文本进行数据结构化。参考图5所示，所述结构化医疗数据生成装置可以包括：文本接收模块510、实体识别模块520、关系识别模块530以及数据生成模块540；其中：

文本接收模块510可以用于接收待处理医疗文本，并对所述待处理医疗文本进行分词，得到多个词语；

实体识别模块520可以用于结合多个第一医疗命名实体从所述多个词语中识别出多个第二医疗命名实体；

关系识别模块530可以用于基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系；

数据生成模块540可以用于结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。

在本公开的另一些实施例中，根据隐式马尔科夫模型对所述待处理医疗文本进行分词。

在本公开的另一些实施例中，从所述多个词语中识别出多个第二医疗命名实体包括：

基于所述多个第一医疗命名实体对所述多个词语进行精确匹配，以从所述多个词语中识别出第一部分所述第二医疗命名实体；以及，

基于预设规则对所述多个词语进行模糊匹配，以从所述多个词语中识别出第二部分所述第二医疗命名实体。

在本公开的另一些实施例中，建立所述多个第二医疗命名实体之间的逻辑关系包括：

基于所述多个第一医疗命名实体之间的逻辑关系判断多个所述第二医疗命名实体之间是否可能存在逻辑关系；

在判断多个所述第二医疗命名实体之间可能存在逻辑关系时，结合自然语言实体关系确认所述逻辑关系是否确实存在。

在本公开的另一些实施例中，结合自然语言实体关系确认所述逻辑关系是否确实存在包括：

基于人工先验知识、数据统计以及条件随机场CRF算法中的一种或多种确认所述逻辑关系是否确实存在。

由于本公开实施方式的结构化医疗数据生成装置的各个功能模块与上述方法发明实施方式中相同，因此在此不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈成;康波;稽可睿;
技术所有人：医渡云（北京）技术有限公司;
我是此专利的发明人

上一篇：检索方法以及装置、终端与制造工艺
上一篇：一种海量文本数据处理方法及装置与制造工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。