一种医疗数据标准化的方法及装置与流程

文档序号:21094253发布日期:2020-06-16 20:09阅读:157来源:国知局
一种医疗数据标准化的方法及装置与流程
本公开属于医疗大数据处理的
技术领域
,尤其涉及一种医疗数据的标准化方法及装置。
背景技术
:目前,在医疗数据处理中,医学名词术语的标准化是其中最重要的环节之一,决定着医疗数据信息共享的质量和利用的程度。在实际的临床诊疗过程中,产生大量的疾病诊断、手术操作、药品和医用耗材等名词术语,同一概念的文字表述方式也经常是多种多样的。标准化的过程就是将诊疗过程中的各种说法,映射为各种已有的医学标准。现有技术中对医学名词术语进行归一,一种是人工方法,这种方法效率低,时间成本高;而现在流行的人工智能深度学习的方法,通常依赖于大量的训练样本,这需要万级以上的病历文本数据,这样的资源获取难度大,且训练样本的成本高,时间周期也较长。在不具备大量样本训练的条件下,如何准确且高效的对医疗数据进行标准化,是本公开所要解决的问题。技术实现要素:为了解决上述技术问题中的至少一个,本公开提供了一种医疗数据的标准化方法。根据本公开的一个方面,一种医疗数据的标准化方法包括:步骤一:采用自然语言处理(nlp,naturelanguageprocessing)方法,对医疗数据进行分词,初步构建分词库;步骤二:在已构建所述分词库的模型基础上,输入医疗过程中产生的业务数据的名称,采用词频算法模型,生成词向量并映射到标准表中,生成映射结果;采用余弦相似度方法,计算所述业务数据与所述映射结果的相似度;步骤三:若相似度小于预设值,则该映射结果不予考虑;若相似度大于等于预设值,进行人工核查,对于不合理的映射结果,进行分词标注,追加分词到所述分词库中;步骤四:对于不合理的映射结果,重复进行所述步骤二及所述步骤三,优化迭代,直至映射结果的相似度大于等于预设值,且符合医疗业务实际情况。根据本公开的至少一个实施方式,所述步骤一中,所述医疗数据包括医学名词术语、药品、医用耗材名称以及剂型规格中的一种或几种。根据本公开的至少一个实施方式,所述步骤二中,所述业务数据包括疾病、手术、药品、费用项目以及医用耗材中的一种或几种。根据本公开的至少一个实施方式,所述步骤三中,所述预设值为90%。根据本公开的至少一个实施方式,所述步骤三中,还包括同时建立无用词表,所述无用词表中的无用词为对映射结果起到干扰作用的词语;在后续步骤中,基于分词结果,程序会依据无用词表,去掉无用词表中有且在分词结果中出现的词,减少分词结果对映射关系相似度的负向影响,以提高映射相似度。本公开还提供了一种医疗数据的标准化处理装置,包括:分词库生成模块,用于采用自然语言处理方法对医疗数据进行分词并构建分词库;映射结果生成模块,用于将医疗过程中产生的业务数据映射到标准表中,并计算业务数据与映射结果的相似度;核查模块:用于对于相似度满足要求但不合理的映射结果,进行分词标注,追加分词到所述分词库中;优化迭代模块:用于将不合理的映射结果重复在映射结果生成模块及核查模块进行执行,直至映射结果的相似度大于等于预设值,且符合医疗业务实际情况。本公开还提供了一种储存介质,其上储存有计算机程序,所述程序被处理器执行时实现根据上述的医疗数据的标准化方法。本公开还提供了一种电子终端,包括:处理器;以及储存器,用于储存所述处理器的可执行指令;其中所述处理器配置为经由所述可执行指令按上述的医疗数据的标准化方法进行操作。附图说明附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。图1是本公开医疗数据的标准化处理装置的逻辑示意图。具体实施方式下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。本公开揭示了一种医疗数据的标准化方法包括:步骤一:采用自然语言处理(nlp,naturelanguageprocessing)方法,对医疗数据进行分词,初步构建分词库;所述医疗数据包括医学名词术语、药品、医用耗材名称、剂型规格、医疗服务项目等等。所述的分词库,是将医学标准或者医疗过程中的名词术语通过算法模型进行分词切割,形成分词结果,建立的分词库。例如构建的分词库可以包括不限于以下几种的分词库:(1)构建诊断疾病目录的分词库,包括疾病名称;(2)构建药品目录的分词库,含西药和中成药两部分,包括药品名称、剂型和规格;(3)构建医疗服务项目目录的分词库,包括编码和名称。步骤二:在已构建所述分词库的模型基础上,输入医疗过程中产生的业务数据的名称,采用词频算法模型,生成词向量并映射到标准表中,生成映射结果;采用余弦相似度方法,计算所述业务数据与所述映射结果的相似度;所述业务数据包括疾病、手术、药品、费用项目以及医用耗材中的一种或几种。所述标准表为依据国家发布的诊断疾病、医疗服务项目、药品及医用耗材等公开标准,结合业务,建立的标准数据表。本实施例中以诊断疾病目录为例,如表1所示,将业务数据来源的疾病名称(nonstandard)输入模型,根据模型规则映射到标准表,生成映射结果(standard),并计算得出业务数据与对应的标准表数据的映射关系相似度(similarity)。表1诊断疾病目录的映射关系nonstandardstandardsimilarity急性丙型病毒性肝炎伴黄疸型急性黄疸型丙型病毒性肝炎0.96亚急性丙型病毒性肝炎,重型亚急性重型丙型病毒性肝炎0.96阵发性夜间血红蛋白尿伴再生障碍性贫血阵发性夜间性血红蛋白尿伴再生障碍性贫血0.972972973先天性单纯红细胞再生障碍性贫血先天性纯红细胞再生障碍性贫血0.965517241亨特氏综合征(hunt's)亨特氏综合征(hunt's)0.965517241其他皮肤和皮下组织的局部感染皮肤和皮下组织其他局部感染0.962962963慢性肾小球肾炎伴硬化性肾慢性肾小球肾炎伴硬化性肾炎0.96具有先天愚型儿史的妊娠监督具有先天愚型儿史妊娠监督0.96新生儿短暂性中性粒细胞减少病短暂性新生儿中性粒细胞减少0.962962963步骤三:设预设值为90%,若相似度小于90%,则该映射结果不予考虑,即不论映射结果对错,只要相似度低于预设的满足业务需要的相似度值90%,这部分映射结果均不予考虑。若相似度大于等于90%,则为满足相似度要求的数据,但要进一步人工核查;对于不合理的映射结果,进行分词标注,追加分词到所述分词库中;如果业务数据和标准数据的含义一致,则为合理的映射结果,反之,则为不合理的映射结果。表2诊断疾病目录的映射关系的核查以表2为例,经过核查,表2中备注标记f的映射关系满足相似度≥90%的要求,但是映射结果并不合理,经过标准化后的数据不能用于业务,需要对分词进行调整。例如,对于表2中倒数第2行的数据,戊型病毒性肝炎和乙型病毒性肝炎,原来分词库为戊、乙、病毒性肝炎等,需要将戊型病毒性肝炎或者乙型病毒性肝炎作为一个分词来进行处理,这样能降低两者的相似度,识别为两个不同的词语,避免映射到错误的的标准数据。步骤四:对于不合理的映射结果,重复进行所述步骤二及所述步骤三,优化迭代,直至映射结果的相似度大于等于预设值,且符合医疗业务实际情况。根据本公开的至少一个实施方式,所述步骤三中,还包括同时建立无用词表,所述无用词表中的无用词为对映射结果起到干扰作用的词语;在后续步骤中,去掉无用词对映射关系相似度的负向影响,以提高映射相似度。以甲状腺全切术及上颌骨全切术为例,在这两个例子中,分词结果是[甲状腺,全切,术];[上颌骨,全切,术];由于“全切术”占整体比重较大,导致映射错误,如果将“术”作为无用词去掉,前面的解剖部位则占比较大,就能得到正确映射结果。本公开在不具备语料库和训练库的情况下,对临床诊疗过程中产生的医疗数据进行标准化。采用标注分词且追加词表的方法,构建分词库和无用词表,通过相似度算法模型来计算相似度,进行自动映射,提高数据标准化的效率和准确率。如图1所示,本公开还提供了一种医疗数据的标准化处理装置10,包括:分词库生成模块101,用于采用自然语言处理方法对医疗数据进行分词并构建分词库;映射结果生成模块102,用于将医疗过程中产生的业务数据映射到标准表中,并计算业务数据与映射结果的相似度;核查模块103:用于对于相似度满足要求但不合理的映射结果,进行分词标注,追加分词到所述分词库中;优化迭代模块104:用于将不合理的映射结果重复在映射结果生成模块及核查模块进行执行,直至映射结果的相似度大于等于预设值,且符合医疗业务实际情况。本公开还提供了一种储存介质,其上储存有计算机程序,所述程序被处理器执行时实现根据上述的医疗数据的标准化方法。本公开还提供了一种电子终端,包括:处理器;以及储存器,用于储存所述处理器的可执行指令;其中所述处理器配置为经由所述可执行指令按上述的医疗数据的标准化方法进行操作。自然语言处理(nlp,naturelanguageprocessing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。文本处理,是自然语言处理技术之一。现有的分词模型,通常是常规领域的分词,比较难识别医学领域的分词。本发明提供一种创建医学领域分词库的方法,来识别医学领域大量复杂专业的词语,进行医疗数据的标准化。在已有分词模型的基础和规则标准上,本公开创建并追加医疗分词,扩大分词表,同时增加无用词表。无用分词,即在映射过程中对数据映射准确性有干扰作用的词,这些词的存在,可大大降低数据映射的准确率和效率。建立无用词表后,使用该方法的后续流程中,均会去掉这些词的干扰作用,只匹配关键词语,从而提高医疗专业词语和标准表相似度,提高映射准确率。本公开提供了临床医学术语构建分词和无用词表的方法;解决通常不具备大量医疗病历资源仍能进行医疗标准化的难题。在本说明书的描述中,参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1