一种医疗数据标准化的方法及装置与流程

文档序号:21094253发布日期:2020-06-16 20:09阅读:来源:国知局

技术特征:

1.一种医疗数据的标准化方法,其特征在于,包括以下步骤:

步骤一:采用nlp方法,对医疗数据进行分词,初步构建分词库;

步骤二:在已构建所述分词库的模型基础上,输入医疗过程中产生的业务数据的名称,采用词频算法模型,生成词向量并映射到标准表中,生成映射结果;采用余弦相似度方法,计算所述业务数据与所述映射结果的相似度;

步骤三:若相似度小于预设值,则该映射结果不予考虑;若相似度大于等于预设值,进行人工核查;对于不合理的映射结果,进行分词标注,追加分词到所述分词库中;

步骤四:对于不合理的映射结果,重复进行所述步骤二及所述步骤三,优化迭代,直至映射结果的相似度大于等于预设值,且符合医疗业务实际情况。

2.如权利要求1所述的标准化方法,其特征在于,所述步骤一中,所述医疗数据包括医学名词术语、药品、医用耗材名称以及剂型规格中的一种或几种。

3.如权利要求1所述的标准化方法,其特征在于,所述步骤二中,所述业务数据包括疾病、手术、药品、费用项目以及医用耗材中的一种或几种。

4.如权利要求1所述的标准化方法,其特征在于,所述步骤三中,所述预设值为90%。

5.如权利要求1所述的标准化方法,其特征在于,所述步骤三中,还包括同时建立无用词表,所述无用词表中的无用词为对映射结果起到干扰作用的词语;在后续步骤中,去掉无用词对映射关系相似度的负向影响,以提高映射相似度。

6.一种医疗数据的标准化处理装置,其特征在于:包括:

分词库生成模块:用于采用自然语言处理方法对医疗数据进行分词并构建分词库;

映射结果生成模块:用于将医疗过程中产生的业务数据映射到标准表中,并计算业务数据与映射结果的相似度;

核查模块:用于对相似度满足要求但不合理的映射结果,进行分词标注,追加分词到所述分词库中;

优化迭代模块:用于将不合理的映射结果重复在映射结果生成模块及核查模块进行执行,直至映射结果的相似度大于等于预设值,且符合医疗业务实际情况。

7.一种储存介质,其特征在于,其上储存有计算机程序,所述程序被处理器执行时实现如权利要求1-5任一项所述的方法。

8.一种电子终端,其特征在于,包括:

处理器;以及储存器,用于储存所述处理器的可执行指令;其中所述处理器配置为经由所述可执行指令按如权利要求1-5任一项所述的方法进行操作。


技术总结
本公开提供了一种医疗数据的标准化方法,包括以下步骤:步骤一:采用NLP方法,对医疗数据进行分词,初步构建分词库;步骤二:在已构建所述分词库的模型基础上,输入医疗过程中产生的业务数据的名称,生成词向量并映射到标准表中,生成映射结果;计算所述业务数据与所述映射结果的相似度;步骤三:进行核查;对于不合理的映射结果,进行分词标注,追加分词到所述分词库中;步骤四:优化迭代,直至映射结果的相似度大于等于预设值,且符合医疗业务实际情况。本公开提供了临床医学术语构建分词和无用词表的方法;解决通常不具备大量医疗病历资源仍能进行医疗数据标准化的难题。

技术研发人员:孟继虹;孙龙超;唐劭;张斌;孙宇浩
受保护的技术使用者:北京亚信数据有限公司
技术研发日:2019.12.26
技术公布日:2020.06.16
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1