基于医疗健康的专业术语标准化方法与流程

文档序号:36034795发布日期:2023-11-17 16:41阅读:35来源:国知局
基于医疗健康的专业术语标准化方法与流程

本发明涉及医疗,具体为基于医疗健康的专业术语标准化方法。


背景技术:

1、目前,在医学健康领域数据的处理中,医学术语的标准化是其中最重要的环节之一,在医疗健康领域对于同一概念的文字表述方式是多种多样的。经检索,中国专利授权号为cn110349639b的专利公开了一种基于通用医疗术语库的多中心医疗术语标准化系统,该系统包括源数据库、数据库连接管理模块、预分析模块、术语映射单元、增量更新模块、异常处理模块和多中心交互模块;实现了自动化映射到模糊匹配映射再到自定义术语映射这样一个螺旋上升的过程;极大地减轻了后续工作的压力,并大大提高了医疗术语映射的标准化程度,但现有方法都是通过构建术语集,但是术语的种类繁多,尤其生僻术语很难有统一的标准进行规范,并无法将医学上的全部术语标准化。


技术实现思路

1、针对现有技术的不足,本发明提供了基于医疗健康的专业术语标准化方法,解决了背景技术中所提出现有方法都是通过构建术语集,但是术语的种类繁多,尤其生僻术语很难有统一的标准进行规范,并无法将医学上的全部术语标准化的问题。

2、为实现以上目的,本发明通过以下技术方案予以实现:基于医疗健康的专业术语标准化方法,其方法包括如下:

3、s1:通过各种数据途径,获取关于医疗健康的专业术语的数据源;

4、s2:根据所述医疗健康的专业术语的相关标准,对所述数据源进行分析,建立所述数据源相应的术语数据库,数据库根据收集的医疗健康名词间的映射关系,将所述医疗健康专业名词和所述标准医疗专业名词组合作为训练样本,根据所述数据源相应的术语数据库,对所述数据源进行匹配映射,生成样本集;

5、s3:通过利用etl数据处理流程筛选数据格式化预处理后的生成样本集,采用word2vec将所述样本集转化为词向量,利用卷积神经网络对拼接的词向量进行父级分类,以缩小子集候选空间,对所述样本集计算的词向量与标准表的词向量的相似度进行分析处理,并选择相似性匹配符合要求的数据得到映射;

6、s4:将得到的映射中的所述数据源的匹配映射进行审核,得到相应的映射标记,将所述映射标记反馈至所述样本集,样本集对映射进行处理,得到数据映射集;

7、s5:通过匹配健康医疗标准术语数据库,统计数据映射集中各医疗术语的出现频次,对术语出现频次小于设定阈值的术语给出舍弃建议,大于等于设定阈值的术语发送至数据映射集进行后续术语映射,通过所述数据映射集对所述数据源进行术语标准化,得到标准化医疗健康专业术语。

8、优选的,所述s1中的匹配映射将各所述医疗健康专业名词和所述标准医疗专业名词作为标准化模型的输入文件,通过nlp生成词向量,并将生成的词向量与医疗健康标准专业术语表中的术语进行比对分析,生成相似度最高的映射结果,相似度计算参照标准为医疗术语字符单元一致性,所述标准化文件输出结果包含数据来源、医疗健康术语分类、原始医疗健康术语名称、预处理后的医疗健康术语名称、优选匹配术语及相似度。

9、优选的,所述步骤s2中未在所述数据映射集中找出最相似术语的剩余数据源指标,将该剩余数据源指标与其上层分类名称下的子级标准术语进行相似度比对,比对过程中参照标准为医疗术语字符单元一致性,比对结果数据源字符单元一致性进行排序,相似度由大到小降序排列,最大相似度值大于设定第一阈值,则输出为医疗健康专业术语匹配的标准术语,若比对结果数据源字符单元未达到设定的第一阈值则该目标指标以及剩余未匹配目标指标与所属上级分类名称下的标准术语对应的历史积累的历史术语进行相似性匹配,得到第二最大相似度值,与次阈值进行对比,大于次阈值则输出为医疗健康专业术语匹配的标准术语。

10、优选的,历史积累的历史术语进行相似性匹配对比结果未大于次阈值的目标指标设为未匹配数据,通过标准化模块生成标准化术语描述文件。

11、优选的,标准化模块包括输入模块、标准化处理模块、分词模块、生词关联模块、关系关联模块、生成模块,所述输入模块用于导入或手动添加未匹配文本数据,基于所述未匹配文本数据创建标准化数据;还用于对所述文本数据进行分段处理。

12、优选的,所述计算机分词模块用于基于医疗健康标准化术语词表,采用计算机分词技术对所述未匹配数据中待分词的文本进行分词处理,获取分词处理结果,所述生词关联模块用于完善所述医疗健康标准化术语词表,并与所述计算机分词处理模块相互迭代;所述关系关联模块用于对医疗健康标准化术语数据表中的术语词进行关系发现及关联;所述语义描述生成模块用于基于关系发现后的文本数据生成标准化术语描述文件。

13、优选的,所述未匹配数据中的同义词定义为在预设医疗健康标准化术语中通过比对获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词;从所述候选同义词中确定出各所述词语的目标同义词。

14、优选的,标准化处理模块还用于制定清洗规则,给每个数据元赋予权重,将缺失严重的数据筛除,包括清洗结构层次和实例层次的脏数据。

15、优选的,所述标准化处理模块用于对所述未匹配数据中的同义词、异名词进行标准化处理,基于多字段近义重组,将多个所述最小长度字段组合为所述标准化词表中组合字段,将多个同类型的最小长度字段进行重组得到组合字段。

16、本发明提供了基于医疗健康的专业术语标准化方法。具备以下有益效果:

17、该基于医疗健康的专业术语标准化方法,将映射标记反馈给术语规则引擎,同时通过生词关联模块完善所述医疗健康标准化术语词表,并与所述计算机分词处理模块相互迭代,对映射数据完成更新,通过不断迭代更新数据源,可以提高完成术语标准化自动精准度,从而解决现有方法都是通过构建术语集,但是术语的种类繁多,尤其生僻术语很难有统一的标准进行规范,并无法将医学上的全部术语标准化的问题。



技术特征:

1.基于医疗健康的专业术语标准化方法,其特征在于:其方法包括如下:

2.根据权利要求1所述基于医疗健康的专业术语标准化方法,其特征在于:所述s1中的匹配映射将各所述医疗健康专业名词和所述标准医疗专业名词作为标准化模型的输入文件,通过nlp生成词向量,并将生成的词向量与医疗健康标准专业术语表中的术语进行比对分析,生成相似度最高的映射结果,相似度计算参照标准为医疗术语字符单元一致性,所述标准化文件输出结果包含数据来源、医疗健康术语分类、原始医疗健康术语名称、预处理后的医疗健康术语名称、优选匹配术语及相似度。

3.根据权利要求1所述基于医疗健康的专业术语标准化方法,其特征在于:所述步骤s2中未在所述数据映射集中找出最相似术语的剩余数据源指标,将该剩余数据源指标与其上层分类名称下的子级标准术语进行相似度比对,比对过程中参照标准为医疗术语字符单元一致性,比对结果数据源字符单元一致性进行排序,相似度由大到小降序排列,最大相似度值大于设定第一阈值,则输出为医疗健康专业术语匹配的标准术语,若比对结果数据源字符单元未达到设定的第一阈值则该目标指标以及剩余未匹配目标指标与所属上级分类名称下的标准术语对应的历史积累的历史术语进行相似性匹配,得到第二最大相似度值,与次阈值进行对比,大于次阈值则输出为医疗健康专业术语匹配的标准术语。

4.根据权利要求3所述基于医疗健康的专业术语标准化方法,其特征在于:历史积累的历史术语进行相似性匹配对比结果未大于次阈值的目标指标设为未匹配数据,通过标准化模块生成标准化术语描述文件。

5.根据权利要求1所述基于医疗健康的专业术语标准化方法,其特征在于:标准化模块包括输入模块、标准化处理模块、分词模块、生词关联模块、关系关联模块、生成模块,所述输入模块用于导入或手动添加未匹配文本数据,基于所述未匹配文本数据创建标准化数据;还用于对所述文本数据进行分段处理。

6.根据权利要求5所述基于医疗健康的专业术语标准化方法,其特征在于:所述计算机分词模块用于基于医疗健康标准化术语词表,采用计算机分词技术对所述未匹配数据中待分词的文本进行分词处理,获取分词处理结果,所述生词关联模块用于完善所述医疗健康标准化术语词表,并与所述计算机分词处理模块相互迭代;所述关系关联模块用于对医疗健康标准化术语数据表中的术语词进行关系发现及关联;所述语义描述生成模块用于基于关系发现后的文本数据生成标准化术语描述文件。

7.根据权利要求5所述基于医疗健康的专业术语标准化方法,其特征在于:所述未匹配数据中的同义词定义为在预设医疗健康标准化术语中通过比对获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词;从所述候选同义词中确定出各所述词语的目标同义词。

8.根据权利要求1所述基于医疗健康的专业术语标准化方法,其特征在于:标准化处理模块还用于制定清洗规则,给每个数据元赋予权重,将缺失严重的数据筛除,包括清洗结构层次和实例层次的脏数据。

9.根据权利要求5所述基于医疗健康的专业术语标准化方法,其特征在于:所述标准化处理模块用于对所述未匹配数据中的同义词、异名词进行标准化处理,基于多字段近义重组,将多个所述最小长度字段组合为所述标准化词表中组合字段,将多个同类型的最小长度字段进行重组得到组合字段。


技术总结
本发明公开了基于医疗健康的专业术语标准化方法,涉及医疗技术领域,其方法包括如下:S1:通过各种数据途径,获取关于医疗健康的专业术语的数据源;S2:根据所述医疗健康的专业术语的相关标准,对所述数据源进行分析,建立所述数据源相应的术语数据库,该基于医疗健康的专业术语标准化方法,将映射标记反馈给术语规则引擎,同时通过生词关联模块完善所述医疗健康标准化术语词表,并与所述计算机分词处理模块相互迭代,对映射数据完成更新,通过不断迭代更新数据源,可以提高完成术语标准化自动精准度,从而解决现有方法都是通过构建术语集,但是术语的种类繁多,尤其生僻术语很难有统一的标准进行规范的问题。

技术研发人员:姚海洋,林勇
受保护的技术使用者:上海派兰数据科技有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1