本发明涉及计算机,尤其涉及一种跨队列治理真实世界数据平台的共性信息处理方法及装置。
背景技术:
1、随着数字化转型的加速和数据量的爆炸式增长,在医学领域,真实世界数据平台已经成为了各个医学中心进行数据分析和决策的重要工具。然而,传统的真实世界数据平台往往存在着多源异构跨队列数据差异,无法更有效进行研究;多种存储介质无法高效存储等问题,导致数据质量和数据可用性受到影响,进而影响数据分析和决策的质量和效率。
技术实现思路
1、本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的跨队列治理真实世界数据平台的共性信息处理方法及装置。
2、为达到上述目的,本发明的技术方案具体是这样实现的:
3、本发明的一个方面提供了一种跨队列治理真实世界数据平台的共性信息处理方法,包括:搭建真实数据平台;采集待处理数据;对所述待处理数据进行跨队列数据治理,对所述待处理数据进行分类,得到跨队列数据;对所述跨队列数据进行共性信息处理,进行数据融合。
4、其中,在采集待处理数据之前,方法还包括:设置待处理数据的规则;所述设置待处理数据的规则包括:对上传至数据库的数据范围、数据类型、数据格式、数据值域进行设置。
5、其中,所述采集待处理数据包括:通过api接口对接传输所述待处理数据;通过日志文件采集所述待处理数据;通过数据平台手动填报采集所述待处理数据;和/或orc识别所述待处理数据。
6、其中,所述对所述待处理数据进行跨队列数据治理,对所述待处理数据进行分类包括:根据所述待处理数据的时间戳、来源、类型特征,将所述待处理数据分为不同的类别,实现数据标签化,其中,标签包括:关键词、短语或元数据,用于描述数据的特征、属性或含义,标签内容包括:科室归类、专病诊断以及随访结局。
7、其中,所述对所述跨队列数据进行共性信息处理包括:根据预设的规则判断所述跨队列数据是否重复,包括:根据时间戳和/或id判断所述跨队列数据是否重复;和根据所述跨队列数据的内容进行去重,包括:对文本数据使用文本相似度算法进行去重;所述进行数据融合包括:采用聚类分析、关联规则挖掘或文本挖掘的方式进行数据融合。
8、其中,所述搭建真实数据平台包括:采用基于python的web框架django,实现用户与数据的交互操作;采用mysql数据库作为后端数据存储库;采用b/s网站框架开发模式,采用如下应用结构层次:表现层、业务逻辑层和数据管理层。
9、本发明的另一个方面提供了一种跨队列治理真实世界数据平台的共性信息处理装置,应用于真实数据平台,包括:采集模块,用于采集待处理数据;治理模块,用于对所述待处理数据进行跨队列数据治理,对所述待处理数据进行分类,得到跨队列数据;处理模块,用于对所述跨队列数据进行共性信息处理,进行数据融合。
10、其中,装置还包括:设置模块,用于设置待处理数据的规则;所述设置模块通过如下方式设置待处理数据的规则:对上传至数据库的数据范围、数据类型、数据格式、数据值域进行设置。
11、其中,所述采集模块通过如下方式采集待处理数据:通过api接口对接传输所述待处理数据;通过日志文件采集所述待处理数据;通过数据平台手动填报采集所述待处理数据;和/或orc识别所述待处理数据。
12、其中,所述治理模块通过如下方式对所述待处理数据进行跨队列数据治理,对所述待处理数据进行分类:根据所述待处理数据的时间戳、来源、类型特征,将所述待处理数据分为不同的类别,实现数据标签化,其中,标签包括:关键词、短语或元数据,用于描述数据的特征、属性或含义,标签内容包括:科室归类、专病诊断以及随访结局。
13、其中,所述处理模块通过如下方式对所述跨队列数据进行共性信息处理:根据预设的规则判断所述跨队列数据是否重复,包括:根据时间戳和/或id判断所述跨队列数据是否重复;和根据所述跨队列数据的内容进行去重,包括:对文本数据使用文本相似度算法进行去重;所述处理模块通过如下方式进行数据融合:采用聚类分析、关联规则挖掘或文本挖掘的方式进行数据融合。
14、其中,所述真实世界平台采用基于python的web框架django,实现用户与数据的交互操作;采用mysql数据库作为后端数据存储库;采用b/s网站框架开发模式,采用如下应用结构层次:表现层、业务逻辑层和数据管理层。
15、由此可见,通过本发明提供的跨队列治理真实世界数据平台的共性信息处理方法及装置,基于真实世界数据平台,可以集成各种类型的数据,包括结构化数据、非结构化数据和多媒体数据等,用户可以方便地共享和交换数据,促进跨部门、跨机构之间的合作与共享。此外,还具备高度的可扩展性和灵活性。后端服务器可以根据实际需求进行水平扩展,以应对大规模数据交换和共享的需求。同时,还支持多种数据格式和接口标准,使其能够与其他系统进行无缝集成和互操作。
1.一种跨队列治理真实世界数据平台的共性信息处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在采集待处理数据之前,还包括:设置待处理数据的规则;所述设置待处理数据的规则包括:对上传至数据库的数据范围、数据类型、数据格式、数据值域进行设置。
3.根据权利要求1所述的方法,其特征在于,所述采集待处理数据包括:
4.根据权利要求1所述的方法,其特征在于,所述对所述待处理数据进行跨队列数据治理,对所述待处理数据进行分类包括:
5.根据权利要求1所述的方法,其特征在于,
6.根据权利要求1所述的方法,其特征在于,所述搭建真实数据平台包括:
7.一种跨队列治理真实世界数据平台的共性信息处理装置,其特征在于,应用于真实数据平台,包括:
8.根据权利要求7所述的装置,其特征在于,还包括:设置模块,用于设置待处理数据的规则;所述设置模块通过如下方式设置待处理数据的规则:对上传至数据库的数据范围、数据类型、数据格式、数据值域进行设置。
9.根据权利要求7所述的装置,其特征在于,所述采集模块通过如下方式采集待处理数据:
10.根据权利要求7所述的装置,其特征在于,所述治理模块通过如下方式对所述待处理数据进行跨队列数据治理,对所述待处理数据进行分类:
11.根据权利要求7所述的装置,其特征在于,
12.根据权利要求7所述的装置,其特征在于,所述真实世界平台采用基于python的web框架django,实现用户与数据的交互操作;采用mysql数据库作为后端数据存储库;采用b/s网站框架开发模式,采用如下应用结构层次:表现层、业务逻辑层和数据管理层。