病历文本数据结构化的文本分词解析方法及系统与流程

文档序号:25423734发布日期:2021-06-11 21:36阅读:118来源:国知局
病历文本数据结构化的文本分词解析方法及系统与流程
本发明涉及病历数据挖掘
技术领域
,具体地说是病历文本数据结构化的文本分词解析方法及系统。
背景技术
:医学领域数据具有其特殊性,主要包括诊断、疾病、药物、治疗等类别,癌症专病数据在这些类别基础上,更加关注于和疾病相关的并发症数据、病理及免疫组化数据,和治疗相关的手术、放疗、化疗、靶向治疗、中医治疗数据,和病人相关的家族史、疾病史数据等,这些数据大多为非结构化或者半结构化的文本数据存储于患者病历数据中。数据挖掘主要是利用算法进行相关信息抽取,将非结构化的文本数据转化为计算机可以识别、处理的结构化数据。传统专病数据挖掘,由于数据源少、数据量小的原因,一般由人为手工识别处理,存在效率低、不满足组大数据情况下专病数据治理挖掘的缺点。基于上述分析,如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷,是需要解决的技术问题。技术实现要素:本发明的技术任务是针对以上不足,提供病历文本数据结构化的文本分词解析方法及系统,来解决如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷的技术问题。第一方面,本发明提供一种病历文本数据结构化的文本分词解析方法,包括如下步骤:基于医疗文本数据构建医学词库,所述医学词库包括医学词语、权重和词性,所述词性包括词语传统词性和词语医学词性;基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型,并通过上述三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组,所述二元映射关系数据组匹配标准医疗词典。作为优选,所述词语传统词性包括名词、动词、副词和标点;所述词语医学词性包括诊断、疾病、药品、化疗方案、放疗方案以及称谓。作为优选,基于医疗文本数据构建医学词库,包括如下步骤:获取医疗文本数据,通过词库对医疗文本数据进行分词,得到分词结果数据集;通过tf-idf算法模型对分词结果数据集进行关键医学词汇抽词,得到抽词结果数据集;添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。作为优选,对抽词结果数据集中连续多个单字进行医学词汇组合拼接后,添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。作为优选,对于医学词库中未登录的医疗文本数据,通过基于汉字成词的hmm模型进行分词。第二方面,本发明提供一种病历文本数据结构化的文本分词解析系统,通过如第一方面任一项所述的病历文本数据结构化的文本分词解析方法对病历文本数据进行结构化的分词和解析,所述系统包括:医学词库构建模块,所述医学词库构建模块用于基于医疗文本数据构建医学词库,所述医学词库包括医学词语、权重和词性,所述词性包括词语传统词性和词语医学词性;分词模型构建模块,所述分词模型构建模块用于基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;分词模块,所述分词模块用于基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;三元解析模块,所述三元解析模块用于基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型,并通过上述三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;标准化模块,所述标准化模块用于对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组,所述二元映射关系数据组匹配标准医疗词典。作为优选,所述词语传统词性包括名词、动词、副词和标点;所述词语医学词性包括诊断、疾病、药品、化疗方案、放疗方案以及称谓。作为优选,医学词库构建模块用于通过如下步骤基于医疗文本数据构建医学词库:获取医疗文本数据,通过词库对医疗文本数据进行分词,得到分词结果数据集;通过tf-idf算法模型对分词结果数据集进行关键医学词汇抽词,得到抽词结果数据集;对抽词结果数据集中连续多个单字进行医学词汇组合拼接;添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。作为优选,对于医学词库中未登录的医疗文本数据,所述分词模块用于通过基于汉字成词的hmm模型进行分词。第三方面,本发明提供一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行第一方面任一所述的方法。本发明的病历文本数据结构化的文本分词解析方法及系统具有以下优点:1、基于构建的医学词库以及有向无环图进行分词得到词语集合,并通过构建的三元关系模型对词语集合进行解析,得到三元映射关系数据组,基于标准医疗词典对三元映射关系数据组进行标准化处理,得到符合标准医疗词典的二元映射关系数据组,实现了病历文本数据的结构化分词以及词汇解析,既满足传了统医学数据需求,也满足了专病挖掘的特殊需求,减少人工识别和手动重复性工作,解决人工挖掘效率低和传统医疗数据挖掘不满足专病实体映射关系需求;2、构建医学词库过程中,对于对抽词结果数据集中连续多个单字进行医学词汇组合拼接,使得得到的医学词汇更加精确;3、进行分词时,对于医学词库中未登录的医疗文本数据,通过基于汉字成词的hmm模型进行分词,提高了分词精确性。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。下面结合附图对本发明进一步说明。图1为实施例1病历文本数据结构化的文本分词解析方法的流程框图。具体实施方式下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。本发明实施例提供病历文本数据结构化的文本分词解析方法及系统,用于解决如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷的技术问题。实施例1:本发明的病历文本数据结构化的文本分词解析方法,包括如下步骤:s100、基于医疗文本数据构建医学词库,上述医学词库包括医学词语、权重和词性,上述词性包括词语传统词性和词语医学词性;基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;s200、基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;s300、基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型,并通过上述三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;s400、对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组,所述二元映射关系数据组匹配标准医疗词典。本实施例中词语传统词性包括名词、动词、副词和标点等,词语医学词性包括诊断、疾病、药品、化疗方案、放疗方案以及称谓等词性。步骤s100医学词库构建过程中,首先,获取医疗文本数据,通过常用词库对医疗文本数据进行分词,得到分词结果数据集;然后,通过tf-idf算法模型对分词结果数据集进行关键医学词汇抽词,得到抽词结果数据集;最后,添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。其中本实施例中选用的常用词库为thuocl,thuocl为清华大学开发的中文词库(thunlp.org)。鉴于抽词结果数据集中可能存在多个连续单字,医学研究人员对抽词结果数据集中连续多个单字进行医学词汇组合拼接后,添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。得到的医学词库样例如表1所示:表1:医学词语权重词性肺癌3名词、疾病姥姥3名词、身份逝世3名词、状态………步骤s200进行分词时,鉴于医学词库中存在未登录部分医疗文本数据的情形,因此作为改进对于医学词库中未登录的医疗文本数据,通过基于汉字成词的hmm模型进行分词。分词前后的词语数据集合如表2所示:表2:步骤s300中,将分词后的病历,从前到后,分别识别词语的原始词性,匹配不同句式和并分析句式中词语标注的医学词性组合在一起,基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型,通过上述三元关系模型对上述词语集合进行解析,得到三元映射关系数据组,从而得到解析结果,解析结果如表3所示:表3:步骤s400中,将三元实体关系数据,组合存储于类字典的数据结构中,再根据标准医疗词典对以结构化的三元实体进行需求拆分匹配,达到最终需要结果数据;最终结构化存储、展示。本实施例中,二元关系映射为病理解析终版数据结构,转换如下:原始三元关系数据:{'父亲':{'疾病名称':'高血压,肺癌','状态':'去世'},'母亲':{'疾病名称':'冠心病','状态':'健在'}}转化为二元关系,如表4所示。表4:家族史结果亲属疾病名称亲属状态癌症家族史有父亲肺癌死亡非癌症家族史有父亲高血压死亡非癌症家族史有母亲冠心病健在转化过程为:根据已有的家族史特征值解析算法,对三元关系数据解析,判断家族史结果、亲属、疾病名称、亲属状态,对数据进行分组整合为目标数据结构。然后对每一个目标特征值数据进行标准化,例如亲属中将父亲、爸爸、父、爸等标准化为父亲;将疾病名称根据国家诊断标准icd10标准,标准化为标准名称。本实施例的病历文本数据结构化的文本分词解析方法,在二元结构数据基础上,扩展为first_key-second_key-value三元结构,一次性识别疾病人员主体、疾病内容和状态信息,将数据结构化为符合癌症特征数据类型的三元结构数据,再根据结构的三元数据标准化为二元的结构化数据。既满足了专病挖掘数据需求,也满足了数据挖掘的准确性,并大大提高了癌症专病病历解析效率。实施例2:本发明的病历文本数据结构化的文本分词解析系统,通过实施例1公开的病历文本数据结构化的文本分词解析方法对病历文本数据进行结构化的分词和解析,该系统包括医学词库构建模块、分词模型构建模块、分词模块、三元解析模块以及标准化模块,医学词库构建模块用于基于医疗文本数据构建医学词库,所述医学词库包括医学词语、权重和词性,所述词性包括词语传统词性和词语医学词性;分词模型构建模块用于基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;分词模块用于基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;三元解析模块用于基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型,并通过上述三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;标准化模块用于对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组,所述二元映射关系数据组匹配标准医疗词典。本实施例中词语传统词性包括名词、动词、副词和标点;词语医学词性包括诊断、疾病、药品、化疗方案、放疗方案以及称谓。医学词库构建模块用于通过如下步骤基于医疗文本数据构建医学词库:(1)获取医疗文本数据,通过词库对医疗文本数据进行分词,得到分词结果数据集;(2)通过tf-idf算法模型对分词结果数据集进行关键医学词汇抽词,得到抽词结果数据集;(3)对抽词结果数据集中连续多个单字进行医学词汇组合拼接;(4)添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。对于医学词库中未登录的医疗文本数据,所述分词模块用于通过基于汉字成词的hmm模型进行分词。实施例3:本发明的一种计算机可读介质,上述计算机可读介质上存储有计算机指令,上述计算机指令在被处理器执行时,使所述处理器执行实施例1公开的方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或cpu或mpu)读出并执行存储在存储介质中的程序代码。在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd+rw)、磁带、非易失性存储卡和rom。可选择地,可以由通信网络从服务器计算机上下载程序代码。此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的cpu等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。需要说明的是,上述各流程和各系统结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。以上各实施例中,硬件单元可以通过机械方式或电气方式实现。例如,一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器,fpga或asic)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1