医疗词汇处理方法及装置与流程

文档序号:12748010阅读:219来源:国知局
医疗词汇处理方法及装置与流程
本公开涉及医疗大数据领域,具体而言,涉及一种医疗词汇处理方法及医疗处理装置。
背景技术
:随着医疗信息化的推进,各大医院已形成HIS(医院信息系统)、EMR(电子病历)等医疗信息系统,这极大地提高了医院管理以及病人看病的效率。目前很多医疗机构使用的数据库中的数据要靠人工录入。由于医院医生的用语习惯的差异,以及标准未完全推广的原因,造成医疗信息系统中存在对于病人诊断、症状、手术、检查、用药等大量不统一的描述用词。现有技术中,已经出现了使用计算机对诊疗信息进行识别的技术,可以将人工录入的诊疗信息识别为符合医疗标准用语的术语。尽管已经可以使用计算机识别诊疗信息,但是还存在着识别效率低,识别后的词汇难以进一步利用等问题。需要说明的是,在上述
背景技术
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。技术实现要素:本公开的目的在于提供一种医疗词汇处理方法及医疗词汇处理装置,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。根据本公开的一个方面,提供了一种医疗词汇处理方法,包括:根据多个待处理医疗词汇中的医疗词汇之间的文本相似度对所述多个待处理医疗词汇进行聚类运算,生成多个医疗词汇类簇;将每一所述医疗词汇类簇中的医疗词汇两两组合形成候选词对;计算各所述候选词对中的医疗词汇之间的相似度并据以判断所述候选词对中的医疗词汇之间的关系以获取多个关系词对;基于各所述关系词对之间的传递关系构造所有所述医疗词汇之间的关系结构。本公开的一种示例性实施例中,所述医疗处理方法还可以包括:将多个标准医疗词汇中的医疗词汇分别与所述多个待处理医疗词汇中的医疗词汇两两组合形成所述候选词对。本公开的一种示例性实施例中,所述医疗词汇处理方法还可以包括:对所述多个待处理医疗词汇进行垃圾词过滤、特殊符号处理以及全角转半角中的一种或多种预处理。本公开的一种示例性实施例中,所述文本相似度可以包括编辑距离、马氏距离以及切词后单元的余弦距离中的一种或多种。本公开的一种示例性实施例中,所述聚类运算可以包括k-means聚类以及层次聚类中的一种或多种。本公开的一种示例性实施例中,所述候选词对中的医疗词汇之间的关系可以包括同义关系、包含关系、被包含关系以及无关系中的一种或多种。本公开的一种示例性实施例中,所述判断所述候选词对中的医疗词汇之间的关系可以包括:根据医学知识得出所述候选词对中的医疗词汇之间的规律性关系;以及由人工标注所述候选词对中的医疗词汇之间的关系。根据本公开的另一方面,提供一种医疗词汇处理装置,包括:类簇生成单元,用于根据多个待处理医疗词汇中的医疗词汇之间的文本相似度对所述多个待处理医疗词汇进行聚类运算,生成多个医疗词汇类簇;第一候选词对生成单元,用于将每一所述医疗词汇类簇中的医疗词汇两两组合形成候选词对;关系词对生成单元,用于计算各所述候选词对中的医疗词汇之间的相似度并据以判断所述候选词对中的医疗词汇之间的关系以获取多个关系词对;关系结构构造单元,用于基于各所述关系词对之间的传递关系构造所有所述医疗词汇之间的关系结构。本公开的一种示例性实施例中,所述医疗词汇处理装置还可以包括:第二候选词对生成单元,用于将多个标准医疗词汇中的医疗词汇分别与所述多个待处理医疗词汇中的医疗词汇两两组合形成所述候选词对。本公开的一种示例性实施例中,所述医疗词汇处理装置还可以包括:预处理单元,用于对所述多个待处理医疗词汇进行垃圾词过滤、特殊符号处理以及全角转半角中的一种或多种预处理。本公开的一种示例性实施例中,所述文本相似度可以包括编辑距离、马氏距离以及切词后单元的余弦距离中的一种或多种。本公开的一种示例性实施例中,所述聚类运算可以包括k-means聚类以及层次聚类中的一种或多种。本公开的一种示例性实施例中,所述候选词对中的医疗词汇之间的关系可以包括同义关系、包含关系、被包含关系以及无关系中的一种或多种。本公开的一种示例性实施例中,所述判断所述候选词对中的医疗词汇之间的关系可以包括:根据医学知识得出所述候选词对中的医疗词汇之间的规律性关系;以及由人工标注所述候选词对中的医疗词汇之间的关系。本公开的一种示例性实施例中的医疗词汇方法及医疗词汇处理装置,可以将多个待处理的医疗词汇分成多个医疗词汇类簇,将每一类簇中的医疗词汇两两组合形成候选词对;通过判断候选词对中的医疗词汇之间的关系来自动地获取多个关系词对;基于各关系词对之间的传递关系构造所有医疗词汇之间的关系结构。一方面,通过将多个待处理的医疗词汇分成多个医疗词汇类簇,将每一类簇中的医疗词汇两两组合形成候选词对,能够高效地得出医疗词汇之间的关系;另一方面,通过判断候选词对中的医疗词汇之间的关系来自动地获取多个关系词对,可以减少人工标注量;再一方面,基于各关系词对之间的传递关系构造所有医疗词汇之间的关系结构,可以利于进一步的数据分析、数据挖掘等应用。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明通过参照附图来详细描述其示例实施例,本公开的上述和其它特征及优点将变得更加明显。图1示出根据本公开一示例性实施例的第一医疗词汇处理方法的流程图;图2示出根据本公开一示例性实施例的医疗诊断词聚类结果;图3示出根据本公开另一示例性实施例基于词对关系构造的医疗词汇关系结构;图4示出图1中所示的第一医疗词汇处理方法的一部分的更详细的流程图;图5示出根据本公开另一示例性实施例的第二医疗词汇处理方法的流程图;图6示出根据本公开另一示例性实施例的医疗词汇处理装置的框图。具体实施例现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。本示例实施例中,首先提供了一种医疗词汇处理方法。参考图1中所示,该医疗词汇处理方法包括以下步骤:步骤S110.根据多个待处理医疗词汇中的医疗词汇之间的文本相似度对所述多个待处理医疗词汇进行聚类运算,生成多个医疗词汇类簇;步骤S120.将每一所述医疗词汇类簇中的医疗词汇两两组合形成候选词对;步骤S130.计算各所述候选词对中的医疗词汇之间的相似度并据以判断所述候选词对中的医疗词汇之间的关系以获取多个关系词对;步骤S140.基于各所述关系词对之间的传递关系构造所有所述医疗词汇之间的关系结构。根据本示例实施例中的医疗词汇处理方法,一方面,通过将多个待处理的医疗词汇分成多个医疗词汇类簇,将每一类簇中的医疗词汇两两组合形成候选词对,能够高效地得出医疗词汇之间的关系;另一方面,通过判断候选词对中的医疗词汇之间的关系来自动地获取多个关系词对,可以减少人工标注量;再一方面,基于各关系词对之间的传递关系构造所有医疗词汇之间的关系结构,可以利于进一步的数据分析、数据挖掘等应用。下面,将对本示例实施方式中医疗词汇处理方法进行进一步的说明。在步骤S110中,根据多个待处理医疗词汇中的医疗词汇之间的文本相似度对所述多个待处理医疗词汇进行聚类运算,生成多个医疗词汇类簇。聚类运算是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的过程。本示例实施方式中,聚类运算可以包括k-means聚类以及层次聚类等聚类算法,但是本公开的实施例中的聚类运算不限于此。对于医疗词汇之间的文本相似度,本示例实施方式中可以通过编辑距离、马氏距离以及切词后单元的余弦距离等方式表示,但是本公开的实施例中的文本相似度不限于此。图2示出了根据本公开一示例性实施例的医疗诊断词聚类结果。如图2所示,医疗诊断词被根据文本相似度分成多个医疗诊断词类簇,多个医疗诊断词类簇包括“与糖尿病有关的类簇”、“与上呼吸道感染有关的类簇”、“与高血压有关的类簇”等。需要说明的是,在本公开中,虽然以诊断词、手术名称等为例对待处理医疗词汇进行了描述,但是本公开的实际应用不限于诊断词、手术名称等医疗词汇,还可以应用于药品、实验室检查、物理检查等方面的医疗词汇的处理。此外,在本公开的其他示例性实施例中,为了减少噪声词汇的干扰,还可以在进行聚类运算之前对所述多个待处理医疗词汇中的医疗词汇进行预处理。预处理可以包括垃圾词过滤、特殊符号处理以及全角转半角,本示例性实施例中对此不做特殊限定。接下来,在步骤S120中,将所生成的每一医疗词汇类簇中的医疗词汇两两组合形成候选词对。继续参考图2中所示,在所划分的多个医疗诊断词类簇中,可以将医疗诊断词两两组合形成候选词对。例如可以将“糖尿病”与“2型糖尿病”组合形成候选词对,以及可以将“2型糖尿病”与“糖尿病2型”组合形成候选词对。在步骤S130中,计算候选词对中的每一候选词对的医疗词汇之间的相似度,根据所计算的相似度来判断候选词对中的医疗词汇之间的关系。在本示例实施例中,可以采用基于语义词典的词语相似度计算医疗词汇之间的相似度,也可以采用基于统计的词语相似度计算医疗词汇之间的相似度,但是本公开的实施例中的医疗词汇之间的相似度计算不限于此。基于语义词典的词语相似度计算利用语义词典,依据词语之间的上下位关系和同义关系等关系,通过计算两个词语在树状词语层次体系中的距离来得到词语间的相似度。基于统计的词语相似度计算利用大规模语料库,将词语的上下文信息作为参照来计算词语间的相似度。在本示例实施例中,候选词对中的医疗词汇之间的关系可以包括同义关系、包含关系、被包含关系以及无关系等。下面的表1中示例性的示出了候选词对中的医疗词汇之间的关系。词a词b关系糖尿病2型糖尿病包含糖尿病糖尿病肾病包含II型糖尿病2型糖尿病同义关系副鼻窦炎筛窦炎无关系肾移植上呼吸道感染呼吸道感染被包含表1.候选词对中的医疗词汇之间的关系图4示出了图1中所示的第一医疗词汇处理方法中的步骤S130的更详细的流程图。如图4所示,图1中的步骤S130包括步骤S410和步骤S420。在步骤S410中,计算候选词对中的每一候选词对的医疗词汇之间的相似度,根据所计算的相似度来判断候选词对中的医疗词汇之间的关系。候选词对中的医疗词汇之间的关系可以包括同义关系、包含关系、被包含关系以及无关系等。接下来,在步骤S420中,如果在步骤S410中判断候选词对中的医疗词汇之间的关系为高可信关系,则该候选词对被划分到词对关系集S1中。词对关系集S1是高可信关系集。“高可信关系”指的是可以根据医学知识得出的候选词对中的医疗词汇之间的规律性关系,如可以根据医学知识得出“肺癌”包含“右侧肺癌”;“阻塞性肺炎”是“肺炎”的一种,则可以得出“阻塞性肺炎”与“肺炎”是被包含关系;医学领域“病”与“症”通常具有同样的含义,则可以得出“高血压病”与“高血压症”是同义关系。进一步地,在步骤S420中,如果在步骤S410中判断候选词对中的医疗词汇之间的关系不是高可信关系,则通过人工标注该候选词对中的医疗词汇之间的关系,然后将该候选词对划分到词对关系集S2中。词对关系集S2是人工标注关系集。“人工标注关系”指的是文本相似度高但不能根据医学知识自动确定出的词对的关系。如“鼻窦炎”与“副鼻窦炎”、“月经不调”与“月经紊乱”。接下来,在步骤S140中,基于各所述关系词对之间的传递关系构造所有医疗词汇之间的关系结构。以下将参照图3来详细地描述根据本公开的示例性实施例所构造的医疗词汇之间的关系结构。如图3所示,在所构成的医疗词汇关系结构中,上下层级表示包含关系,同一层内(矩形框内)表示同义关系,带“*”号前缀表示标准词汇。如“鼻炎”包含“过敏性鼻炎”、“鼻窦炎”、“筛窦炎”;“慢性鼻窦炎(左侧)”与“左侧慢性鼻窦炎”是同义关系;“*左侧慢性鼻窦炎”表示标准医疗词汇是“左侧慢性鼻窦炎”。图5示出了根据本公开另一示例性实施例的第二医疗词汇处理方法的流程图。图5中示出的第二医疗词汇处理方法与图1中示出的第一医疗词汇处理方法的主要不同之处在于:图5中的第二医疗词汇处理方法还包括步骤S530和步骤S540。下面未描述的图5中的其他步骤与图1中的医疗词汇处理方法的步骤基本相同,在此将不重复描述。在步骤S520中,将每一医疗词汇类簇中的医疗词汇两两组合形成候选词对。在步骤S530中,将标准医疗词汇集B中的医疗词汇分别与待处理医疗词汇集A中的医疗词汇两两组合形成候选词对,其中,ai为待处理医疗词汇集A中的医疗词汇,bi为标准医疗词汇集B中的医疗词汇。在本公开中,标准医疗词汇集B可以是ICD9、ICD10等标准医疗词表。ICD(国际疾病分类)是依据疾病的某些特征,按照规则对疾病进行分类,并用编码的方法来表示的分类系统。接下来,在步骤S540中,合并在步骤S520中生成的候选词对和在步骤S530中生成的候选词对构成候选词对集。在步骤S550中,计算候选词对集中的每一候选词对的医疗词汇之间的相似度,根据所计算的相似度来判断候选词对中的医疗词汇之间的关系。进一步地,如果待处理医疗词汇集中的医疗词汇与标准医疗词汇集中的医疗词汇是一对一映射的关系,或者标准词表本身有层级关系,则在处理中词对关系简化为同义关系。接下来,在步骤S560中,如果在步骤S550中判断候选词对中的医疗词汇之间的关系为高可信关系,则该候选词对被划分到词对关系集S1中。如果在步骤S550中判断候选词对中的医疗词汇之间的关系不是高可信关系,则通过人工标注该候选词对中的医疗词汇之间的关系,然后将该候选词对划分到词对关系集S2中。经过该步骤的处理之后,可以将待处理医疗词汇集中A中的医疗词汇映射到标准医疗词汇集B中的对应的医疗词汇。下面的表2示出了将电子病历中的手术名称映射到ICD9中的手术标准词汇的示例。电子病历中手术名称ICD9手术标准词ICD9标准词编码右乳腺部分切除术乳房腺体区段切除术85.21019宫腔镜下诊刮术宫腔镜下诊断性刮宫术85.21019开腹探查剖腹探查术51.23001表2.手术名称映射到ICD9示例需要说明的是,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。图6示出了根据本公开另一示例性实施例的医疗词汇处理装置600的框图。如图6所述,医疗词汇处理装置600包括:类簇生成单元610、第一候选词对生成单元620、关系词对生成单元630、关系结构构造单元640。其中:类簇生成单元610根据待处理医疗词汇集A中的医疗词汇之间的文本相似度对多个待处理医疗词汇进行聚类运算,生成多个医疗词汇类簇。在本示例实施例中,文本相似度可以包括编辑距离、马氏距离以及切词后单元的余弦距离,但是本公开的实施例中的文本相似度不限于此。此外,在本示例实施例中,聚类运算可以包括k-means聚类以及层次聚类,但是本公开的实施例中的聚类运算不限于此。在本示例实施例中,可选地,医疗词汇处理装置600还可以包括预处理单元。预处理单元可以在进行聚类运算之前对待处理医疗词汇集A中的医疗词汇进行预处理。预处理可以包括垃圾词过滤、特殊符号处理以及全角转半角等处理。第一候选词对生成单元620将所生成的每一医疗词汇类簇中的医疗词汇两两组合形成候选词对。在本示例实施例中,可选地,医疗词汇处理装置600还可以包括第二候选词对生成单元。第二候选词对生成单元可以将标准医疗词汇集中的医疗词汇分别与待处理医疗词汇集A中的医疗词汇两两组合形成候选词对。关系词对生成单元630计算各候选词对中的医疗词汇之间的相似度,根据所计算的相似度来判断候选词对中的医疗词汇之间的关系。在本示例实施例中,可以采用基于语义词典的词语相似度计算医疗词汇之间的相似度,也可以采用基于统计的词语相似度计算医疗词汇之间的相似度。在本示例实施例中,候选词对中的医疗词汇之间的关系可以包括同义关系、包含关系、被包含关系以及无关系等。关系结构构造单元640基于各关系词对之间的传递关系构造所有医疗词汇之间的关系结构。由于本公开的示例实施例的医疗词汇处理装置600的各个功能模块与上述医疗词汇处理方法的示例实施例的步骤对应,因此在此不再赘述。应当注意,尽管在上文详细描述中提及了医疗词汇处理装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施例的方法。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本
技术领域
中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1