症状词分类方法、装置以及终端与流程

文档序号:18740161发布日期:2019-09-21 01:40阅读:145来源:国知局
症状词分类方法、装置以及终端与流程

本发明涉及医疗知识图谱技术领域,尤其涉及一种症状词分类方法、装置以及终端。



背景技术:

在医疗领域内,每个医学来源都有其标注,例如,疾病和手术操作分类有国际疾病分类(international Classification of diseases,ICD)编码,是依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统。由于在临床上症状之间存在着多种复杂的逻辑关系,一个症状名称可派生出许多具有逻辑相关的症状名称,同一个症状也会有多种表现,对症状的描述也有一定差异,形成了结构化的症状词。但是,症状词却并没有统一的标准,给实际医学使用增加难度。



技术实现要素:

本发明实施例提供一种症状词分类方法、装置以及终端,以解决现有技术中的一个或多个技术问题。

第一方面,本发明实施例提供了一种症状词分类方法,包括:

将医疗文本输入至症状标签分类模型中,得到医疗文本具有的第一分类标签;

将所述医疗文本与多个症状属性词标签分别进行匹配,得到的医疗文本具有的第二分类标签;

根据所述第一分类标签和所述第二分类标签对所述医疗文本进行分类,得到症状词分类结果。

在一种实施方式中,还包括:

构建症状标签集合,所述集合包括多个症状属性词标签,所述集合还包括多个症状名称标签、多个症状体征词标签以及多个症状状态词标签中的一种或多种标签;

根据多个症状名称标签、多个症状体征词标签以及多个症状状态词标签中的一种或多种标签,训练症状标签分类模型。

在一种实施方式中,构建症状标签集合,包括:

构建症状基础词表,所述词表包括多个症状属性关键词,所述词表还包括多个症状专有名词、多个症状体征关键词、多个症状状态关键词中的一种或多种词;

在所述症状基础词表的准确率大于第一准确率阈值的情况下,将多个症状属性关键词分别与多个症状专有名词、多个症状体征关键词、多个症状状态关键关键词中的一种或多种词进行组合,得到多个症状名称标签、多个症状体征词标签、多个症状状态词标签中的一种或多种标签;

多个症状属性词标签,与多个症状名称标签、多个症状体征词标签、多个症状状态词标签中的一种或多种标签构成所述症状标签集合。

在一种实施方式中,多个症状属性关键词包括:症状部位、症状频率、症状属性描述、症状颜色、症状方位、症状时间点、症状程度修饰中的一个或多个。

在一种实施方式中,根据多个症状名称标签、多个症状体征词标签以及多个症状状态词标签中的一种或多种标签,训练症状标签分类模型,包括:

判断所述症状标签集合的准确率是否大于第二准确率阈值,若是,则利用所述症状标签集合训练标签分类模型。

第二方面,本发明实施例提供了一种症状词分类装置,包括:

第一分类标签获取模块,用于将医疗文本输入至症状标签分类模型中,得到医疗文本具有的第一分类标签;

第二分类标签获取模块,用于将所述医疗文本与多个症状属性词标签分别进行匹配,得到的医疗文本具有的第二分类标签;

症状词分类模块,用于根据所述第一分类标签和所述第二分类标签对所述医疗文本进行分类,得到症状词分类结果。

在一种实施方式中,还包括:

症状标签集合构建模块,用于构建症状标签集合,所述集合包括多个症状属性词标签,所述集合还包括多个症状名称标签、多个症状体征词标签以及多个症状状态词标签中的一种或多种标签;

症状标签分类模型训练模块,用于根据多个症状名称标签、多个症状体征词标签以及多个症状状态词标签中的一种或多种标签,训练症状标签分类模型。

在一种实施方式中,所述症状标签集合构建模块包括:

症状基础词表构建单元,用于构建症状基础词表,所述词表包括多个症状属性关键词,所述词表还包括多个症状专有名词、多个症状体征关键词、多个症状状态关键词中的一种或多种词;

症状基础词表扩充单元,用于在所述症状基础词表的准确率大于第一准确率阈值的情况下,将多个症状属性关键词分别与多个症状专有名词、多个症状体征关键词、多个症状状态关键关键词中的一种或多种词进行组合,得到多个症状名称标签、多个症状体征词标签、多个症状状态词标签中的一种或多种标签;

症状标签集合获取单元,用于多个症状属性词标签,与多个症状名称标签、多个症状体征词标签、多个症状状态词标签中的一种或多种标签构成所述症状标签集合。

在一种实施方式中,所述症状标签分类模型训练模块包括:

症状标签准确率判断单元,用于判断所述症状标签集合的准确率是否大于第二准确率阈值,若是,则利用所述症状标签集合训练标签分类模型。

第三方面,本发明实施例提供了一种症状词分类终端,所述症状词分类终端的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中,所述症状词分类终端的结构中包括处理器和存储器,所述存储器用于存储支持所述症状词分类终端执行上述症状词分类方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述症状词分类终端还可以包括通信接口,用于与其他设备或通信网络通信。

第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储症状词分类终端所用的计算机软件指令,其包括用于执行上述症状词分类方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果:通过对医疗文本进行第一分类标签和第二标签的标注,为后续的实体词之间的关系推理提供了基础。

上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的一种症状词分类方法的流程图。

图2示出根据本发明实施例的另一种症状词分类方法的流程图。

图3示出根据本发明实施例的另一种症状词分类方法的流程图。

图4示出根据本发明实施例的一种症状词分类装置的结构框图。

图5示出根据本发明实施例的另一种症状词分类装置的结构框图。

图6示出根据本发明实施例的另一种症状词分类装置的结构框图。

图7示出根据本发明实施例的一种症状词分类终端的结构示意图。

具体实施方式

在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。

实施例一

在一种具体实施方式中,如图1所示,提供了一种症状词分类方法,包括:

步骤S10:将医疗文本输入至症状标签分类模型中,得到医疗文本具有的第一分类标签。

步骤S20:将医疗文本与多个症状属性词标签分别进行匹配,得到的医疗文本具有的第二分类标签。

步骤S30:根据第一分类标签和第二分类标签对医疗文本进行分类,得到症状词分类结果。

在一种示例中,医疗文本可来自于互联网中的各个网站、电子病历以及医疗书籍等,医疗文本中可以包括多个结构化的症状词、或者其它结构化的医疗词。症状标签分类模型可以提取医疗文本中的多个结构化医疗词,输出用于拆分结构化症状词的一个或者多个分类规则。分类规则可以包括按照不可拆分的医疗专有名词对结构化症状词进行拆分。或者,按照症状体征词对结构化症状词进行拆分。又或者,按照症状状态词对结构化症状词进行拆分。一个或多个分类规则构成第一分类标签。可以利用第一分类标签对医疗文本中的结构化症状词进行标注,得到具有第一分类标签的医疗文本。多个症状属性词标签可以包括症状部位标签、症状频率标签、症状属性描述标签、症状颜色标签、症状方位标签、症状时间点标签、症状程度修饰标签等。利用前述的一个或多个症状属性词标签对医疗文本中结构化症状词进行标注,得到具有第二分类标签的医疗文本。可以对既具有第一分类标签,又具有第二分类标签的医疗文本中的结构化症状词进行拆分,分解为每个结构化症状词具有一个或多个标签形成的集合,即为症状词分类结果。

需要指出的是,步骤S10和步骤S20并不限定先后顺序。可以在对医疗文本进行部位、颜色、方向等症状属性词标签进行标注后,再将其输入至症状标签分类模型中,进行第一分类标签的标注。例如,“肝脏右下叶脓肿”具有部位标签“肝脏”、“下叶”,方位标签“右下”,剩余词“脓肿”则利用症状标签分类模型进行分类,给“脓肿”标注为症状状态词标签。“双下肢皮肤红肿”具有部位标签“双下肢”、“皮肤”,颜色标签“红”,剩余词“肿”则利用症状标签分类模型进行分类,给“肿”标注为症状状态词标签。

利用症状词分类结果可以对疾病进行归一化消歧处理。例如,对“头疼”和“腹疼”进行归一化时,可以检测到“头疼”具有的标签是头部,“腹疼”具有的标签是腹部。部位发生冲突,就无法进行归一化处理。对“腰椎间盘突出症”、“腰椎间盘纤维环破裂症”以及“腰椎间盘脱出症”进行归一化时,可以检测到“腰椎间盘突出症”具有的标签是腰椎间盘、突出。“腰椎间盘纤维环破裂症”具有的标签是腰椎间盘、纤维环、破裂。“腰椎间盘脱出症”具有的标签是腰椎间盘、脱出。由于都有标签腰椎间盘,将三者归一化为“腰椎间盘突出症”即可。利用症状词分类结果还可以辅助医生开药提醒。例如,医生开出了一种药是治疗头部的药,但是在病人症状检测时检测到腹部相关的标签,那么就会提醒医生是否开错了药。

在一种实施方式中,如图2所示,还包括:

步骤S01:构建症状标签集合,所述集合包括多个症状属性词标签,所述集合还包括多个症状名称标签、多个症状体征词标签以及多个症状状态词标签中的一种或多种标签;

步骤S02:根据多个症状名称标签、多个症状体征词标签以及多个症状状态词标签中的一种或多种标签,训练症状标签分类模型。

在一种示例中,多个症状属性词标签可以根据多个症状属性关键词得来。症状属性词标签包括:症状部位标签、症状频率标签、症状属性描述标签、症状颜色标签、症状方位标签、症状时间点标签、症状程度修饰标签中的一个或多个。具体的,症状部位标签表示患者发生异常的器官部位,例如“腹”、“肚子”、“头”、“背部”等的标签。症状频率标签表示患者表述异常感觉或体征的频率状态。例如“偶发”、“间法”、“突发”等标签。症状属性描述标签表示附加对症状和体征的表述。例如“对称”、“清晰”、“转移”、“弥散”等。症状颜色标签表示患者表述异常感觉或体征的物质颜色状态,例如头发“黄色”、唇色“紫色”等标签。症状方位标签表示患者表述异常感觉或体征的部位的方位,一般与部位连用,如右上腹痛中的“右”,以及“上”、“下”、“右”、“左”、“左下”“右上”、“左上”等。症状时间点标签表示患者表述异常感觉或体征的时间起始点,例如,夜间咳嗽中的“夜间”,“晨间”等。症状程度修饰标签表示患者表述异常感觉或体征的状态的严重程度,如剧烈咳嗽中的“剧烈”或者“轻微”等。症状名称标签表示症状的专有名词,能够独立表示某一症状的具体含义,且不可分成更细粒度,例如,“肝掌”、“喘息”、等标签。症状体征词标签表示能够表征患者异常感觉的身体特征的标签,例如,“呼吸”、“体温”、“脉搏”、“血压”、“鼻涕”、“尿液”等标签。症状状态词标签表示患者身体特征所处于的状态的词标签,例如,“坏死”、“肿大”、“异味”、“呕吐”、“发热”、“杂音”“反跳痛”、“强直”、“阻塞”、“疼痛”、“浊音”、“水泡音”等标签。

由于症状名称标签、症状体征词标签以及症状状态词标签不能直接在医疗文本中标出,所以需要通过大量的样本训练症状标签分类模型。将新的医疗文本输入至症状标签分类模型中,输出的医疗文本中标注有症状名称标签、症状体征词标签以及症状状态词标签中的一个或多个构成的第一分类标签。通过匹配,可直接利用症状属性词标签对医疗文本进行标注,所以无需训练模型,就能得到具有第二分类标签的医疗文本。

需要指出的是,为了提高对医疗文本标注多个症状属性词标签的速度和效率,也可以通过训练另一症状标签分类模型实现多个症状属性词标签的标注。以部位标签为例:“眼睛疼”、“瞳孔对光反射变弱”经过另一症状标签分类模型之后,得到“眼睛”部位标签。“腰背疼”经过另一症状标签分类模型之后,得到“腰部”部位标签、“背部”部位标签,“腰背部”部位标签。

在一种实施方式中,如图3所示,步骤S01,包括:

步骤S011:构建症状基础词表,所述词表包括多个症状属性关键词,所述词表还包括多个症状专有名词、多个症状体征关键词、多个症状状态关键词中的一种或多种词;

步骤S012:在症状基础词表的准确率大于第一准确率阈值的情况下,将多个症状属性关键词分别与多个症状专有名词、多个症状体征关键词、多个症状状态关键关键词中的一种或多种词进行组合,得到多个症状名称标签、多个症状体征词标签、多个症状状态词标签中的一种或多种标签;

步骤S013:多个症状属性词标签,与多个症状名称标签、多个症状体征词标签、多个症状状态词标签中的一种或多种标签构成症状标签集合。

在一种示例中,症状基础词表中的词可来自互联网、书籍等,还可以来自人工预定义的词。多个症状属性关键词、多个症状专有名词、多个症状体征关键词、多个症状状态关键词中可以构造成一个小样本的标签集合。可以对小样本的标签集合进行扩充。以症状基础词表中的多个症状专有名词、多个症状体征关键词、多个症状状态关键词为词根,分别与多个症状属性关键词进行组合,来扩充症状基础词表。例如,“腹痛”是“上腹痛”的词根,那么“上”就可能是需要拓展的词。症状基础词表的范围扩充后,构成新的较大的标签集合。

在一种实施方式中,多个症状属性关键词包括:症状部位、症状频率、症状属性描述、症状颜色、症状方位、症状时间点、症状程度修饰中的一个或多个。

在一种实施方式中,如图3所示,步骤S02包括:

步骤S021:判断症状标签集合的准确率是否大于第二准确率阈值,若是,则利用症状标签集合训练标签分类模型。

在一种示例中,将症状基础词表和按照上述方法扩充的词表,可以进行过人工抽样,判断准确率,最终确定症状基础词表和按照上述方法拓展的词表有效。利用扩充后的词表构成的症状标签作为样本训练标签分类模型。

实施例二

在另一种具体实施方式中,如图4所示,提供了一种症状词分类装置,包括:

第一分类标签获取模块10,用于将医疗文本输入至症状标签分类模型中,得到医疗文本具有的第一分类标签;

第二分类标签获取模块20,用于将所述医疗文本与多个症状属性词标签分别进行匹配,得到的医疗文本具有的第二分类标签;

症状词分类模块30,用于根据所述第一分类标签和所述第二分类标签对所述医疗文本进行分类,得到症状词分类结果。

在一种实施方式中,如图5所示,还包括:

症状标签集合构建模块11,用于构建症状标签集合,所述集合包括多个症状属性词标签,所述集合还包括多个症状名称标签、多个症状体征词标签以及多个症状状态词标签中的一种或多种标签;

症状标签分类模型训练模块12,用于根据多个症状名称标签、多个症状体征词标签以及多个症状状态词标签中的一个或多个,训练症状标签分类模型。

在一种实施方式中,如图6所示,所述症状标签集合构建模块11包括:

症状基础词表构建单元110,用于构建症状基础词表,所述词表包括多个症状属性关键词,所述词表还包括多个症状专有名词、多个症状体征关键词、多个症状状态关键词中的一种或多种词;

症状基础词表扩充单元111,用于在所述症状基础词表的准确率大于第一准确率阈值的情况下,将多个症状属性关键词分别与多个症状专有名词、多个症状体征关键词、多个症状状态关键关键词中的一种或多种词进行组合,得到多个症状名称标签、多个症状体征词标签、多个症状状态词标签中的一种或多种标签;

症状标签集合获取单元112,用于多个症状属性词标签,与多个症状名称标签、多个症状体征词标签、多个症状状态词标签中的一种或多种标签构成所述症状标签集合。

在一种实施方式中,如图6所示,症状标签分类模型训练模块12包括:

症状标签准确率判断单元120,用于判断所述症状标签集合的准确率是否大于第二准确率阈值,若是,则利用所述症状标签集合训练标签分类模型。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。

实施例三

图7示出根据本发明实施例的症状词分类终端的结构框图。如图7所示,该终端包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的症状词分类方法。所述存储器910和处理器920的数量可以为一个或多个。

该终端还包括:

通信接口930,用于与外界设备进行通信,进行数据交互传输。

存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component Interconnect)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述方法。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1