基于深度学习的医疗器械数据清洗方法及系统与流程

文档序号:37451781发布日期:2024-03-28 18:35阅读:16来源:国知局
基于深度学习的医疗器械数据清洗方法及系统与流程

本发明涉及数据处理,尤其涉及一种基于深度学习的医疗器械数据清洗方法及系统。


背景技术:

1、随着企业信息化系统的广泛应用,信息化系统已经成为企业维持业务运转的关键,企业多样化的业务类型导致数据访问需求日趋复杂化,同时数据量的急剧攀升也导致数据库服务端不堪重负,尤其是在医疗器械的数据库中较为明显。

2、现有医疗器械数据库的数据清洗主要通过规则进行,比如字符串的匹配,正则表达式等。这种方式对于少量的数据,且规则比较清晰的情况下能很好的处理。但对于大数据量,数据规律很难总结的情况无法处理。因此,亟需一种基于深度学习的医疗器械数据清洗方法及系统。


技术实现思路

1、针对现有技术的不足,本发明提供一种基于深度学习的医疗器械数据清洗方法及系统,利用深度学习及机器学习方式,仅需少量人工标注数据即可实现对于数据的清洗,用于解决上述问题。

2、一种基于深度学习的医疗器械数据清洗方法,包括:获取样本数据,根据样本数据训练深度学习神经网络,得到拆分模型;根据拆分模型对待清洗数据和预设标准数据进行拆分,得到若干待清洗实体拆分项和标准实体拆分项;重组若干待清洗实体拆分项和标准实体拆分项,得到重组待清洗数据和重组标准数据;基于机器学习相似度算法,计算重组待清洗数据和重组标准数据的相似度,根据相似度确定匹配项;判断每一匹配项与对应重组待清洗数据的相似度是否大于校验阈值,若大于,根据匹配项修正对应重组待清洗数据,得到清洗结果。

3、作为本发明的一种实施例,一种基于深度学习的医疗器械数据清洗方法还包括:

4、重组若干待清洗实体拆分项前,基于预设python脚本对若干待清洗实体拆分项进行纠错。

5、作为本发明的一种实施例,获取样本数据,根据样本数据训练深度学习神经网络,得到拆分模型,包括:

6、获取样本数据;其中,样本数据包括若干人工标注的待拆分历史数据;人工标注包括命名实体识别标注;

7、根据样本数据训练深度学习神经网络,得到初始拆分模型;

8、随机抽样样本数据对初始拆分模型进行验证,直至验证结果满足预设训练条件结束,得到拆分模型。

9、作为本发明的一种实施例,基于机器学习相似度算法,计算重组待清洗数据和重组标准数据的相似度,根据相似度确定匹配项,包括:

10、基于机器学习相似度算法,分别计算每一重组待清洗数据与所有重组标准数据的相似度,得到若干组相似度数据集;其中,每一相似度数据集中包括与唯一重组待清洗数据对应的所有重组标准数据的相似度;

11、获取每组相似度数据集中相似度最高的重组标准数据作为对应重组待清洗数据的匹配项。

12、作为本发明的一种实施例,判断每一匹配项与对应重组待清洗数据的相似度是否大于校验阈值,若大于,根据匹配项修正对应重组待清洗数据,得到清洗结果,包括:

13、获取校验节点的第一校验请求;其中,第一校验请求包括待校验的匹配项和对应重组待清洗数据;

14、根据匹配项确定当前校验操作的校验执行脚本;其中,校验执行脚本中包括具体执行脚本和校验阈值;每一校验执行脚本包括的校验阈值不同;

15、根据校验执行脚本和重组待清洗数据生成第二校验请求;

16、分发第二校验请求至执行节点,以使执行节点根据第二校验请求判断当前匹配项与对应重组待清洗数据的相似度是否大于校验阈值;

17、若大于,根据当前匹配项修正对应重组待清洗数据,得到修正结果;同时,对当前重组待清洗数据进行已清洗标识;

18、直至所有重组待清洗数据均存在已清洗标识后结束清洗,得到清洗结果。

19、作为本发明的一种实施例,一种基于深度学习的医疗器械数据清洗方法还包括:

20、在获取校验节点的第一校验请求时,优先获取不存在已清洗标识的重组待清洗数据。

21、作为本发明的一种实施例,一种基于深度学习的医疗器械数据清洗方法还包括:

22、第一次进行数据清洗时,获取每一匹配项预先设置的校验阈值;

23、后续进行数据清洗时,获取每一匹配项对应的所有已清洗的历史重组清洗数据,记为已清洗数据;

24、获取已清洗数据与对应匹配项的第二相似度,以及获取已清洗数据对应的修正位置;

25、基于预设调整方法,根据所有第二相似度和已清洗数据对应的修正位置调整校验阈值,得到新的校验阈值;

26、采用新的校验阈值更新校验阈值,直至在预设更新次数内每个新的校验阈值的阈值波动范围小于预设波动范围阈值时停止更新。

27、作为本发明的一种实施例,基于预设调整方法,根据所有第二相似度和已清洗数据对应的修正位置调整校验阈值,得到新的校验阈值,包括:

28、获取每一已清洗数据对应的修正位置,确定每一修正位置对应的修正次数,根据每一修正位置的修正次数确定调整权重值;其中,所有调整权重值的相加值为1;

29、获取每一已清洗数据的第二相似度与对应调整权重值的乘积之和,得到新的校验阈值。

30、一种基于深度学习的医疗器械数据清洗系统,包括:获取模块,用于获取样本数据,根据样本数据训练深度学习神经网络,得到拆分模型;

31、拆分模块,用于根据拆分模型对待清洗数据和预设标准数据进行拆分,得到若干待清洗实体拆分项和标准实体拆分项;

32、重组模块,用于重组若干待清洗实体拆分项和标准实体拆分项,得到重组待清洗数据和重组标准数据;

33、计算模块,用于基于机器学习相似度算法,计算重组待清洗数据和重组标准数据的相似度,根据相似度确定匹配项;

34、修正模块,用于判断每一匹配项与对应重组待清洗数据的相似度是否大于校验阈值,若大于,根据匹配项修正对应重组待清洗数据,得到清洗结果。

35、作为本发明的一种实施例,一种基于深度学习的医疗器械数据清洗系统还包括:

36、纠错模块,用于在重组若干待清洗实体拆分项前,基于预设python脚本对若干待清洗实体拆分项进行纠错。

37、本发明的有益效果为:

38、本发明提供一种基于深度学习的医疗器械数据清洗方法及系统,利用深度学习及机器学习方式,仅需少量人工标注数据即可实现对于数据的清洗,节省了人力成本,同时提高了清洗效率和清洗准确率。

39、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

40、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。



技术特征:

1.一种基于深度学习的医疗器械数据清洗方法,其特征在于,包括:获取样本数据,根据样本数据训练深度学习神经网络,得到拆分模型;根据拆分模型对待清洗数据和预设标准数据进行拆分,得到若干待清洗实体拆分项和标准实体拆分项;重组若干待清洗实体拆分项和标准实体拆分项,得到重组待清洗数据和重组标准数据;基于机器学习相似度算法,计算重组待清洗数据和重组标准数据的相似度,根据相似度确定匹配项;判断每一匹配项与对应重组待清洗数据的相似度是否大于校验阈值,若大于,根据匹配项修正对应重组待清洗数据,得到清洗结果。

2.根据权利要求1所述的一种基于深度学习的医疗器械数据清洗方法,其特征在于,还包括:重组若干待清洗实体拆分项前,基于预设python脚本对若干待清洗实体拆分项进行纠错。

3.根据权利要求1所述的一种基于深度学习的医疗器械数据清洗方法,其特征在于,获取样本数据,根据样本数据训练深度学习神经网络,得到拆分模型,包括:

4.根据权利要求1所述的一种基于深度学习的医疗器械数据清洗方法,其特征在于,基于机器学习相似度算法,计算重组待清洗数据和重组标准数据的相似度,根据相似度确定匹配项,包括:

5.根据权利要求1所述的一种基于深度学习的医疗器械数据清洗方法,其特征在于,判断每一匹配项与对应重组待清洗数据的相似度是否大于校验阈值,若大于,根据匹配项修正对应重组待清洗数据,得到清洗结果,包括:

6.根据权利要求5所述的一种基于深度学习的医疗器械数据清洗方法,其特征在于,还包括:

7.根据权利要求5所述的一种基于深度学习的医疗器械数据清洗方法,其特征在于,还包括:

8.根据权利要求1所述的一种基于深度学习的医疗器械数据清洗方法,其特征在于,基于预设调整方法,根据所有第二相似度和已清洗数据对应的修正位置调整校验阈值,得到新的校验阈值,包括:

9.一种基于深度学习的医疗器械数据清洗系统,其特征在于,包括:

10.根据权利要求9所述的一种基于深度学习的医疗器械数据清洗系统,其特征在于,还包括:


技术总结
本发明提供了一种基于深度学习的医疗器械数据清洗方法及系统,方法包括:获取样本数据,根据样本数据训练深度学习神经网络,得到拆分模型;根据拆分模型对待清洗数据和预设标准数据进行拆分,得到若干待清洗实体拆分项和标准实体拆分项;重组若干待清洗实体拆分项和标准实体拆分项,得到重组待清洗数据和重组标准数据;基于机器学习相似度算法,计算重组待清洗数据和重组标准数据的相似度,根据相似度确定匹配项;判断每一匹配项与对应重组待清洗数据的相似度是否大于校验阈值,若大于,根据匹配项修正对应重组待清洗数据,得到清洗结果。

技术研发人员:金震,张京日,万俊
受保护的技术使用者:北京三维天地科技股份有限公司
技术研发日:
技术公布日:2024/3/27
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1