用于医疗文本数据标注的方法、装置、设备及存储介质与流程

文档序号:20684624发布日期:2020-05-08 18:43阅读:459来源:国知局
用于医疗文本数据标注的方法、装置、设备及存储介质与流程

本发明涉及计算机技术领域,尤其涉及一种用于医疗文本数据标注的方法、装置、电子设备及计算机可读存储介质。



背景技术:

日常生活中,医疗文本通常来源于无规范的临床书写,因此必须将其映射到icd9、icd10、meddra等医学标准表后才能应用于大数据挖掘。然而,上述映射过程需要专业医学人员完成对海量原始文本数据的人工标注,不仅效率低下,而且成本极高。

需要说明的是,在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

有鉴于此,本发明提供一种用于医疗文本数据标注的方法、装置、电子设备及计算机可读存储介质。

本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。

根据本发明的一方面,提供一种用于医疗文本数据标注的方法,包括:获取待标注的医疗文本数据;基于属性词词库,对所述医疗文本数据进行切词;基于所述医疗文本数据的切词结果,对所述医疗文本数据进行结构化处理,生成与所述医疗文本数据对应的第一结构化数据,所述第一结构化数据包含所述属性词词库中的属性词;以及基于所述第一结构化数据中的属性词,在医学标准词索引中查找与所述第一结构化数据匹配的至少一个医学标准词。

根据本发明的一实施方式,所述方法还包括:基于基础医疗词汇,通过所述切词模型,对医学标准表中的医学标准词进行切词;对所述医学标准词的切词结果进行分类,并基于所述医学标准词的切词结果,建立各类别下的属性词;基于各类别下的属性词,建立所述属性词词库;基于所述属性词词库,对所述医学标准词进行结构化处理,生成与所述医学标准词对应的第二结构化数据,所述第二结构化数据包含所述属性词词库中的属性词;以及基于所述第二结构化数据,建立所述医学标准词索引。

根据本发明的一实施方式,所述方法还包括:基于所述属性词词库,通过所述切词模型,对所述医疗文本数据的标注结果进行切词,获得所述标注结果的切词结果;建立所述医疗文本数据的切词结果与所述标注结果的切词结果之间的属性词对;获取对所述属性词对的确认结果;以及将所述标注结果及所述确认结果更新至标注数据库,所述标注数据库用于在所述医学标准词索引中查找与所述第一结构化数据匹配的至少一个医学标准词。

根据本发明的一实施方式,在将所述确认结果更新至所述标注数据库之后,所述方法还包括:对所述标注数据库进行冲突检测;以及根据所述冲突检测结果,优化所述属性词词库。

根据本发明的一实施方式,建立所述医疗文本数据的切词结果与所述标注结果的切词结果之间的属性词对包括:基于相似度算法和/或词向量聚类算法,建立所述医疗文本数据的切词结果与所述标注结果的切词结果之间的属性词对。

根据本发明的一实施方式,基于所述第一结构化数据中的属性词,在医学标准词索引中查找与所述第一结构化数据匹配的至少一个医学标准词包括:基于所述第一结构化数据中的属性词,在所述医学标准词索引中查找与所述第一结构化数据结构相符的多个第二结构化数据;根据所述多个第二结构化数据的属性词权重,对所述多个第二结构化数据进行排序;以及基于优先占位法,根据排序结果选出与所述第一结构化数据匹配的至少一个医学标准词。

根据本发明的一实施方式,对所述医学标准词的切词结果进行分类包括:基于相似度算法和/或词向量聚类算法,对所述医学标准词的切词结果进行分类。

根据本发明的另一方面,提供一种用于医疗文本数据标注的装置,包括:数据获取模块,用于获取待标注的医疗文本数据;数据切词模块,用于基于属性词词库,对所述医疗文本数据进行切词;结构生成模块,用于基于所述医疗文本数据的切词结果,对所述医疗文本数据进行结构化处理,生成与所述医疗文本数据对应的第一结构化数据,所述第一结构化数据包含所述属性词词库中的属性词;以及匹配查找模块,用于基于所述第一结构化数据中的属性词,在医学标准词索引中查找与所述第一结构化数据匹配的至少一个医学标准词。

根据本发明的再一方面,提供一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现如上述任一种用于医疗文本数据标注的方法。

根据本发明的再一方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如上述任一种用于医疗文本数据标注的方法。

根据本发明提供的用于医疗文本数据标注的方法,通过为待标注的医疗文本数据自动化推荐与之匹配的医学标准词,能够提高对原始医疗文本数据的标注效率,有效地减少人力成本投入。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据一示例性实施方式示出的一种用于医疗文本数据标注的方法的流程图。

图2是根据一示例性实施例示出的一种医学标准词索引建立方法的流程图。

图3是根据一示例性实施方式示出的另一种用于医疗文本数据标注的方法的流程图。

图4是根据一示例性实施例示出的一种标注数据库更新方法的流程图。

图5是根据一示例性实施方式示出的一种用于医疗文本数据标注的装置的框图。

图6是根据一示例性实施方式示出的一种电子设备的结构示意图。

图7是根据一示例性实施方式示出的一种计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

本发明提供的方案采用自然语言处理技术以辅助人工。为了便于理解,下面首先对本发明涉及到的“自然语言处理”概念进行解释:

自然语言处理(naturelanguageprocessing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本发明的方案中,主要涉及自然语言处理技术在医疗文本数据标注场景中的应用。

如上所述,为解决人工标注效率低成本高,且现有切词工具的基础词库词量匮乏、切词效果差等问题,本发明提出了一种新的用于医疗文本数据标注的方法。下面通过本发明的各实施方式进行具体说明。

图1是根据一示例性实施方式示出的一种用于医疗文本数据标注的方法的流程图。参考图1,用于医疗文本数据标注的方法10包括:

在步骤s102中,获取待标注的医疗文本数据。

在步骤s104中,基于属性词词库,对医疗文本数据进行切词。

例如,可通过预先建立的切词模型对医疗文本数据进行切词。该切词模型在原始切词模型的基础上添加有属性词词库,以便准确识别医疗文本数据中可能存在的陌生词。

在步骤s106中,基于医疗文本数据的切词结果,对医疗文本数据进行结构化处理,生成与医疗文本数据对应的第一结构化数据。

其中,第一结构化数据包含属性词词库中的属性词。

结构化处理过程例如:将包含检查内容的医疗文本数据区分出解剖部位、检查类型、检查结果等分词或短语,并识别其各自的属性(对应属性词)。也即,结构化处理过程实际上是命名实体的识别过程。

在步骤s108中,基于第一结构化数据中的属性词,在医学标准词索引中查找与第一结构化数据匹配的至少一个医学标准词。

医学标准词来源于医学标准表,例如icd9、icd10、meddra等医学相关的标准术语集。

查找到的医学标准词有可能并不与医疗文本数据相匹配,因此需通过人工审核等方式进行确认。经确认的医学标准词即可用作为医疗文本数据的标注结果。

根据本发明实施方式提供的用于医疗文本数据标注的方法,通过为待标注的医疗文本数据自动化推荐与之匹配的医学标准词,能够提高对原始医疗文本数据的标注效率,有效地减少人力成本投入。

应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施方式。

如上述,步骤s104中用到了属性词词库,步骤s108中用到了医学标准词索引。图2是根据一示例性实施例示出的一种医学标准词索引建立方法的流程图,其进一步提供了上述方法10的一实施例,还同时提供了属性词词库的建立方法。参考图2,方法10还可包括:

在步骤s202中,基于基础医疗词汇,通过切词模型,对医学标准表中的医学标准词进行切词。

承上述,预建立的切词模型在添加属性词词库之前,切词时所使用的是现有词库中的基础医疗词汇。

在步骤s204中,对医学标准词的切词结果进行分类,并基于医学标准词的切词结果,建立各类别下的属性词。

在一些实施例中,可以基于相似度算法和/或词向量聚类算法,对医学标准词的切词结果进行分类。

另外,如果存在积累的历史切词数据,可以将其作为分类的参考。

在步骤s206中,基于各类别下的属性词,建立属性词词库。

至此,属性词词库构建完成,可添加于切词模型中以用于步骤s104的切词过程。根据本发明方法所建立的属性词词库能够显著地丰富基础词量,从而进一步改善对医疗文本数据的切词效果。

在一些实施例中,属性词词库中的各属性词也需通过人工审核等方式进行确认。

在步骤s208中,基于属性词词库,对医学标准词进行结构化处理,生成与医学标准词对应的第二结构化数据。

其中,第二结构化数据包含属性词词库中的属性词。

如上述,医学标准词的结构化处理过程与步骤s106中医疗文本数据的结构化处理过程相同。

在步骤s210中,基于第二结构化数据,建立医学标准词索引。

至此,医学标准词索引构建完成,可用于步骤s108的查找匹配过程。

医学标准词的查询与推荐是本发明方法的关键环节。如图3所示,在一些实施例中,步骤s108可包括:

在步骤s1082中,基于第一结构化数据中的属性词,在医学标准词索引中查找与第一结构化数据结构相符的多个第二结构化数据。

例如,可根据预先设置的过滤规则,滤除所有医学标准词中与待标注医疗文本数据结构不一致的,保留与待标注医疗文本数据结构相符的医学标准词。

在步骤s1084中,根据多个第二结构化数据的属性词权重,对多个第二结构化数据进行排序。

在步骤s1086中,基于优先占位法,根据排序结果选出与第一结构化数据匹配的至少一个医学标准词。

需要说明的是,本发明并不以上述优先占位法为限定,即可以基于任何可能的筛选方法完成对医学标准词的推荐。

承上述,在对医疗文本数据进行标注的同时,方法10还可用于更新标注数据库。标注数据库可用于在医学标准词索引中查找与第一结构化数据匹配的至少一个医学标准词(即步骤s108)。

图4是根据一示例性实施例示出的一种标注数据库更新方法的流程图,其进一步提供了上述方法10的又一实施例。参考图4,方法10还可包括:

在步骤s402中,基于属性词词库,通过切词模型,对医疗文本数据的标注结果进行切词,获得标注结果的切词结果。

如上述,通过添加有属性词词库的切词模型对医疗文本数据及其标注结果进行切词的过程相同。

在步骤s404中,建立医疗文本数据的切词结果与标注结果的切词结果之间的属性词对。

与建立属性词相似地,在一些实施例中,也可以基于相似度算法和/或词向量聚类算法,建立医疗文本数据的切词结果与标注结果的切词结果之间的属性词对。

例如:医疗文本数据(原始临床数据)中的“手”、“小臂”等(解剖部位)分词,均可对应于标注结果(即医学标准词)中的分词“上肢”,即“手”与“上肢”、“小臂”与“上肢”分别为一个属性词对。

在步骤s406中,获取对属性词对的确认结果。

承上述,与医学标准词相似地,属性词对也有可能并不相匹配,例如“小腿”与“上肢”。因此,属性词对也需通过人工审核等方式进行确认。

在步骤s408中,将标注结果及确认结果更新至标注数据库。

标注数据库包括经确认的推荐医学标准词及属性词对两方面的历史数据,不断更新的标注数据库能够越来越精准地为医疗文本数据推荐医学标准词。

在一些实施例中,标注数据库被更新后,方法10还可包括:

在步骤s410中,对标注数据库进行冲突检测。

在步骤s412中,根据冲突检测结果,优化属性词词库。

如上述,对更新属性词对后的标注数据库进行增量分析,并对冲突进行检测反馈以逐渐优化属性词词库,能够进一步提升自动推荐医学标准词的准确率。

本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由cpu执行的计算机程序。在该计算机程序被cpu执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。

此外,需要注意的是,上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。

图5是根据一示例性实施方式示出的一种用于医疗文本数据标注的装置的框图。

参考图5,用于医疗文本数据标注的装置50包括:数据获取模块502、数据切词模块504、结构生成模块506以及匹配查找模块508。

其中,数据获取模块502用于获取待标注的医疗文本数据。

数据切词模块504用于基于属性词词库,对医疗文本数据进行切词。

结构生成模块506用于基于医疗文本数据的切词结果,对医疗文本数据进行结构化处理,生成与医疗文本数据对应的第一结构化数据。

其中,第一结构化数据包含属性词词库中的属性词。

匹配查找模块508用于基于第一结构化数据中的属性词,在医学标准词索引中查找与第一结构化数据匹配的至少一个医学标准词。

根据本发明实施方式提供的用于医疗文本数据标注的装置,通过为待标注的医疗文本数据自动化推荐与之匹配的医学标准词,能够提高对原始医疗文本数据的标注效率,有效地减少人力成本投入。

需要注意的是,上述附图中所示的框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

下面参照图6来描述根据本发明的这种实施方式的电子设备800。图6显示的电子设备800仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。

其中,所述存储单元820存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图1中所示的s102,获取待标注的医疗文本数据;s104,基于属性词词库,对医疗文本数据进行切词;s106,基于医疗文本数据的切词结果,对医疗文本数据进行结构化处理,生成与医疗文本数据对应的第一结构化数据;s108,基于第一结构化数据中的属性词,在医学标准词索引中查找与第一结构化数据匹配的至少一个医学标准词。

存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(rom)8203。

存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备800也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图6所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图6中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施方式的方法。

在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品900,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外,尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1