用于医疗行业数据标准化的方法及系统与流程

文档序号:20164692发布日期:2020-03-24 21:22阅读:443来源:国知局
用于医疗行业数据标准化的方法及系统与流程

本申请涉及电数字数据处理领域,尤其涉及用于医疗行业数据标准化的方法及系统。



背景技术:

医疗行业的大数据即将成为未来医院发展的必经之路,有助于推动医院的运营管理模式从“粗放式”走向“精细化”,从而提升医疗服务水平和核心竞争力。目前在运用大数据技术时面临诸多困难,其中包括医疗数据的来源多样化、标准不一致的困难。要实现医疗数据的标准化,目前一般存在以下两种方案。一种方案是人工对不同来源、标准不一的医疗数据进行标准化,这种方案准确率高但需要耗费巨大的人力成本与时间成本,并且可能需要依赖专业知识(例如药品、耗材的标准化情形)。另一种方案是将自然语言处理(naturallanguageprocessing,nlp)引入医疗数据标准化,通过分词、命名实体识别计算相似度,这种方案准确率很低,大量数据仍然需要人工比对。



技术实现要素:

为了克服现有技术中存在的不足,本发明要解决的技术问题是提供一种用于医疗行业数据标准化的方法及系统,其使能提高医疗行业数据标准化的准确率,降低人工干预的比例。

为解决上述技术问题,根据本发明的第一方面,提供用于医疗行业数据标准化的方法,该方法包括:

基于医疗行业语料库对待标化数据进行自然语言处理;

确定处理后的待标化数据与标准数据是否存在唯一匹配关系;

响应于处理后的待标化数据与标准数据不存在唯一匹配关系,分别计算一处理后的待标化数据与每一条标准数据的相似值;

响应于确定一个或多个相似值高于第一阈值,将相应的一个或多个标准数据作为与待标化数据匹配的待定标准数据;及

响应于确定一个或多个相似值低于第二阈值,确定没有与待标化数据匹配的标准数据。

作为本发明所述方法的改进,所述方法还包括:响应于所述待定标准数据仅包含一个标准数据,将所述待定标准数据作为与待标化数据对应的标准数据并输出标准化结果;及响应于所述待定标准数据包含两个以上标准数据,接收人工确认,及将人工确认的标准数据作为与待标化数据对应的标准数据并输出标准化结果。

作为本发明所述方法的另一种改进,所述方法还包括:响应于确定一个或多个相似值落在第二阈值与第一阈值形成的区间内,将相应的一个或多个标准数据作为与待标化数据疑似的疑似标准数据;接收基于所述疑似标准数据的人工标准化结果及将其作为与待标化数据对应的标准数据并输出标准化结果。

作为本发明所述方法的又一种改进,所述方法还包括:在进行自然语言处理之前对待标化数据进行预处理,其中所述预处理包括去空处理、日期格式化处理、拼接和/或拆分处理。

作为本发明所述方法的再一种改进,所述计算一处理后的待标化数据与每一条标准数据的相似值包括通过下式计算所述相似值:

其中,s指相似值,f为待标化数据经自然语言处理之后得到的每个词与一条标准数据中的对应标准词之间的相似度,w为每个词所属属性的预设权重,i为属性序号,n为属性数量。

作为本发明所述方法的另一种改进,所述方法还包括:基于人工确认的标准数据与待标化数据的匹配关系丰富所述医疗行业语料库。

为解决上述技术问题,根据本发明的第二方面,提供用于医疗行业数据标准化的系统,该系统包括:

自然语言处理模块,用于基于医疗行业语料库对待标化数据进行自然语言处理;

匹配确定模块,用于确定处理后的待标化数据与标准数据是否存在唯一匹配关系;

计算模块,用于响应于处理后的待标化数据与标准数据不存在唯一匹配关系,分别计算一处理后的待标化数据与每一条标准数据的相似值;

判定模块,用于响应于确定一个或多个相似值高于第一阈值,将相应的一个或多个标准数据作为与待标化数据匹配的待定标准数据;及

确定模块,用于响应于确定一个或多个相似值低于第二阈值,确定没有与待标化数据匹配的标准数据。

为解决上述技术问题,本发明的有形计算机可读介质,包括用于执行本发明的用于医疗行业数据标准化的方法的计算机程序代码。

为解决上述技术问题,本发明提供一种装置,包括至少一个处理器;及至少一个存储器,含有计算机程序代码,所述至少一个存储器和所述计算机程序代码被配置为利用所述至少一个处理器使得所述装置执行本发明的用于医疗行业数据标准化的方法的至少部分步骤。

按照本发明,首先基于医疗行业语料库对待标化数据进行自然语言处理,提高了文本尤其是中文文本数据的识别率。然后,自动运用相似值计算算法计算得出相似度最高的一个或多个标准数据,进而自动或人工将计算出来的标准数据确认为标准化结果。如果存在少量的疑难数据可能需要专家介入。这样可保证大部分数据(例如70%以上)是由系统进行自动标准化的,而且准确率很高,仅一小部分数据是由人工干预的,从而可提高标准化过程的效率。

结合附图阅读本发明实施方式的详细描述后,本发明的其它特点和优点将变得更加清楚。

附图说明

图1为根据本发明方法的一实施例的流程图。

图2为根据本发明系统的一实施例的结构示意图。

为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。

具体实施方式

下面参照附图对本发明的实施方式和实施例进行详细说明。

通过下面给出的详细描述,本发明的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。

在本说明书中,术语“标化”与“标准化”可互换地使用。

图1示出了根据本发明的用于医疗行业数据标准化的方法的一优选实施例的流程图。

在步骤s102,对待标化数据进行去空处理、日期格式化处理、拼接和/或拆分处理等预处理。去空处理是指将待标化数据字符串两边的空格去除。日期格式化处理是指按预设日期格式对日期进行格式化。拼接和/或拆分处理是指对待标化数据进行数据清洗、规范化。

在步骤s104,基于医疗行业语料库对预处理后的待标化数据进行自然语言处理,即对长串文本的分词处理(取词/名词识别)。医疗行业语料库是一个不断完善丰富的语料库,包括但不限于“医院科室”、“收入类型”、“医用耗材”、“生产企业”、“经营企业”、“医疗服务项目”、“药品”、“疾病”、“医院会计科目”等语料库。自然语言处理在本领域已知,在此不再赘述。

在步骤s106,通过查找历史数据已有的匹配关系,确定自然语言处理后的待标化数据与标准数据是否存在唯一匹配关系。如果确定存在唯一匹配关系,则处理进行到步骤s150,将唯一匹配的标准数据作为待标化数据的标准化结果。如果确定自然语言处理后的待标化数据与标准数据不存在唯一匹配关系,则处理进行到步骤s108。例如,待标化数据“血一病房”已经唯一匹配到标准数据“心血管内科病房”(之前可能是通过相似度算法,也可能是人工确认后),如果再出现待标化数据“血一病房”需要标化,则可直接确定存在唯一匹配关系。

在步骤s108,计算自然语言处理后的待标化数据与每一条标准数据的相似值。经自然语言处理之后,每一待标化数据可被分为多个词,每个词根据其属性对应一个预设权重。例如,对于医疗耗材的标准化,其属性例如包括生产厂家、名称、规格型号等,每一属性的预设权重例如为生产厂家10%、名称80%、规格型号10%。对于其它种类如药品的标准化,根据其包含的属性可具有另外一套预设权重。每个词与一条标准数据中的对应标准词之间的相似度f可通过文本相似度算法如余弦算法比较确定两个文本的相似度。待标化数据与一条标准数据的相似值s通过下式计算:

其中,w为每个词所属属性的预设权重,i为属性序号,n为属性数量。

具体地,同样以耗材为例,例如“手术钳,i型,山东医疗器械厂”,自然语言处理分词的结果为“手术钳”、“i型”和“山东医疗器械厂”,分别对应名称、型号和厂家的属性,因而分别具有80%、10%和10%的权重。通过文本相似度算法计算出“手术钳”、“i型”和“山东医疗器械厂”与某一条标准数据的相应标准词的相似度分别为100%、100%和0%。则待标化数据与标准数据之间的相似值s为:100%*80%+100%*10%+0%*10%=0.9。依此类推,分别计算待标化数据与所有标准数据之中的每一标准数据的相似值s。

在步骤s110,确定待标化数据与所有标准数据之间的所有相似值s中是否有大于预设阈值区间[m,n]上限的s值。如果有,则处理进行到步骤s112;否则,处理进行到步骤s140。

在步骤s112,如果确定仅有一个s值大于n,则处理进行到步骤s150,将s值大于n的标准数据作为待标化数据的标准化结果。如果有两个以上s值大于n,则处理进行到步骤s140。如果没有s值大于n但存在落在区间[m,n]的s值,则认为存在疑似标准数据,处理进行到步骤s140。如果所有s值均小于m,则认为没有与待标化数据匹配的标准数据,处理也进行到步骤s140。

在步骤s140,接收对两个以上s值大于n的标准数据的人工确认,将其中之一确认为待标化数据的标准化结果;或者接收人工标化结果,人工标化时可参考疑似标准数据。然后进行到步骤s150,将人工确认或人工标化的标准数据作为待标化数据的标准化结果输出。

在其它实施例中,还可基于人工确认或人工标化的标准数据与待标化数据的匹配关系丰富医疗行业语料库。语料库都是人工添加的。例如,待标化数据“综治办”是“综合治理办公室”的简称、“icu”是“重症监护室”的英文简写。通过不断完善丰富的语料库,可以让计算机知道“综治办”实际上就是“综合治理办公室”,“icu”实际上就是“重症监护室”。

图2示出了根据本发明的用于医疗行业数据标准化的系统的一实施例的框图,该系统包括:

自然语言处理模块202,用于基于医疗行业语料库对待标化数据进行自然语言处理;

匹配确定模块204,用于确定处理后的待标化数据与标准数据是否存在唯一匹配关系;

计算模块206,用于响应于处理后的待标化数据与标准数据不存在唯一匹配关系,计算一处理后的待标化数据与每一条标准数据的相似值;在实施例中,计算模块包括通过下式计算所述相似值:

其中,s指相似值,f为待标化数据经自然语言处理之后得到的每个词与一条标准数据中的对应标准词之间的相似度,w为每个词所属属性的预设权重,i为属性序号,n为属性数量;

判定模块208,用于响应于确定一个或多个相似值高于第一阈值,将相应的一个或多个标准数据作为与待标化数据匹配的待定标准数据;及

确定模块210,用于响应于确定一个或多个相似值低于第二阈值,确定没有与待标化数据匹配的标准数据。

在其它实施例中,本发明系统还可包括:第一输出模块,用于响应于所述待定标准数据仅包含一个标准数据,将所述待定标准数据作为与待标化数据对应的标准数据并输出标准化结果;及第二输出模块,用于响应于所述待定标准数据包含两个以上标准数据,接收人工确认,及将人工确认的标准数据作为与待标化数据对应的标准数据并输出标准化结果。

在此所述的多个不同实施例或者其特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。另外,在某些情形下,只要适当,流程图中和/或流水处理描述的步骤顺序可修改,并不必须精确按照所描述的顺序执行。另外,本发明的多个不同方面可使用软件、硬件、固件或者其组合和/或执行所述功能的其它计算机实施的模块或装置进行实施。本发明的软件实施可包括保存在计算机可读介质中并由一个或多个处理器执行的可执行代码。计算机可读介质可包括计算机硬盘驱动器、rom、ram、闪存、便携计算机存储介质如cd-rom、dvd-rom、闪盘驱动器和/或例如具有通用串行总线(usb)接口的其它装置,和/或任何其它适当的有形或非短暂计算机可读介质或可执行代码可保存于其上并由处理器执行的计算机存储器。本发明可结合任何适当的操作系统使用。

除非明确指出,在此所用的单数形式“一”、“该”均包括复数含义(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个其他特征、步骤、操作、元件、部件和/或其组合。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。

前面说明了本发明的一些优选实施例,但是应当强调的是,本发明不局限于这些实施例,而是可以本发明主题范围内的其它方式实现。本领域技术人员可以在本发明技术构思的启发和不脱离本发明内容的基础上对本发明做出各种变型和修改,这些变型或修改仍落入本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1