基于大数据的数据采集方法及系统与流程

文档序号:26590093发布日期:2021-09-10 20:37阅读:来源:国知局

技术特征:
1.一种基于大数据的数据采集方法,其特征在于,包括:通过采集调度中心获取多种医疗数据,其中所述采集调度中心包括多个不同的采集器,所述不同的采集器在对应的采集渠道获取非结构化医疗数据;汇总所述非结构化医疗数据;将所述医疗数据进行处理;对所述处理后的医疗数据进行本地存储和/或云端存储。2.根据权利要求1所述一种基于大数据的数据采集方法,其特征在于,通过多种采集方式获取医疗数据前,还包括:将yml类型文件对应的服务进行基础配置,各个服务之间通过队列方式进行医疗数据的传递。3.根据权利要求1所述一种基于大数据的数据采集方法,其特征在于,将所述医疗数据进行处理,包括:对医疗数据的质量进行校验;将校验后的医疗数据打标签;对打标签后的医疗数据创建索引。4.根据权利要求3所述一种基于大数据的数据采集方法,其特征在于,对医疗数据的质量进行校验,包括:校验医疗数据的准确度;通过神经网络对所述医疗数据进行去重处理;将去重后的医疗数据加密。5.根据权利要求3所述一种基于大数据的数据采集方法,其特征在于,将校验后的医疗数据打标签,包括:将校验后的医疗数据输入到bert神经网络获取文本向量v;随机选择多个文本向量v作为聚类中心点a;获取其他医疗数据与每个聚类中心点a之间距离,将所述其他医疗数据归类为距离最近的文本向量v,分类完成后再得到多类文本向量v的聚类中心点b;获取其他医疗数据与每个聚类中心点b之间距离,将所述其他医疗数据归类为距离最近的文本向量v,分类完成后再得到多类文本向量v的聚类中心点c,重复该步骤,获得多个种类文本;对每个种类所述文本打上中心词的标签;新获取的医疗数据根据与中心词的相似度进行分类。6.根据权利要求3所述一种基于大数据的数据采集方法,其特征在于,将校验后的医疗数据打标签,包括:将现有医疗数据分为多个类型;通过bert+bilstm+cnn+attention+crf神经网络对所述现有医疗数据进行训练,直至准确率大于阈值;用训练后的bert+bilstm+cnn+attention+crf神经网络对新获取的医疗数据进行分类,使其归属到相应的类型下。7.根据权利要求1或3所述一种基于大数据的数据采集方法,其特征在于,对处所述理
后的医疗数据进行本地存储,包括:获取属性表所在的代理服务和端口;所述代理服务扫描属性表中每个属性配置的起始行健,判断当前医疗数据在哪个属性范围内后存储在数据库中;所述数据库中存储有属性与代理服务的对应关系。8.根据权利要求7所述一种基于大数据的数据采集方法,其特征在于,对所述数据库进行管理,包括:读取所述医疗数据翻译成内部统一数据格式;对医疗数据的采集源进行增删改查操作;从所述数据库中获取查询结果后,对其进行数据格式转换。9.一种基于大数据的数据采集系统,其特征在于,包括:采集模块,通过采集调度中心获取多种医疗数据,其中所述采集调度中心包括多个不同的采集器,所述不同的采集器在对应的采集渠道获取非结构化医疗数据;汇总模块,汇总所述非结构化医疗数据;处理模块,用于将所述医疗数据进行处理;存储模块,用于对所述处理后的医疗数据进行本地存储和/或云端存储。10.根据权利要求9所述一种基于大数据的数据采集系统,其特征在于,所述处理模块包括:校验模块,对医疗数据的质量进行校验;打标签模块,将校验后的医疗数据打标签;创建索引模块,对打标签后的医疗数据创建索引。

技术总结
本发明公开了一种基于大数据的数据采集方法及系统,涉及医疗数据采集技术领域;其方法包括:通过采集调度中心获取多种医疗数据,其中所述采集调度中心包括多个不同的采集器,所述不同的采集器在对应的采集渠道获取非结构化医疗数据;汇总所述非结构化医疗数据;将所述医疗数据进行处理;对所述处理后的医疗数据进行本地存储和/或云端存储。本发明对多种多样的相关医疗数据收集后进行整合存储,提供两种的脏数据处理方式,在处理过程中可以实现脏数据精确过滤、识别、采集、展示,其可靠性强,安全性高,还能处理医疗数据中的重复数据。还能处理医疗数据中的重复数据。还能处理医疗数据中的重复数据。


技术研发人员:王兴维 邰从越 陈攀 张迁
受保护的技术使用者:心医国际数字医疗系统(大连)有限公司
技术研发日:2021.05.20
技术公布日:2021/9/9
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1