数据处理平台的制作方法

文档序号:25653288发布日期:2021-06-29 21:13阅读:116来源:国知局
数据处理平台的制作方法

1.本发明涉及数据处理方法,尤其是一种数据处理平台。


背景技术:

2.由于现有的数据处理和存储平台大多只支持媒体文件存储,不支持医疗领域专业的dicom格式,并且都是单点存储,数据安全和存储拓展没有保障。


技术实现要素:

3.本发明的目的在于克服现有技术中存在的不足,提供一种数据处理平台,所述数据处理平台采用分布式存储方法进行数据的存储,从而提高数据的扩展性、容错性以及提高检索速度。本发明实施例采用的技术方案是:所述平台包括:用户模块,用于用户注册和用于用户身份认证;通信模块,至少用于获取数据,所述数据至少包括医疗影像数据,所述医疗影像数据由超声诊断设备获得;第一处理模块,用于根据预设的方法对数据进行处理,获得经过处理后的数据;存储模块,用于采用预设的分布式存储方法存储经过所述第一处理模块处理后的数据。
4.在一些实施例中,所述用户模块包括注册单元,所述注册单元用于获取用户信息,根据所述用户信息进行注册,并将用户根据用户信息划分为对应的用户类型,所述用户类型至少包括医生和/或算法工程师。
5.在一些实施例中,所述第一处理模块包括流处理引擎单元,所述流处理引擎单元用于对由所述通信模块获取到的数据进行预处理操作,获得符合预设的存储标准的数据。
6.在一些实施例中,所述流处理引擎单元的预处理操作至少包括格式统一转换处理和/或冗余信息合并处理和/或根据预设的数据过滤规则对数据进行过滤处理。
7.在一些实施例中,所述存储模块包括存储单元,所述存储单元用于将经过所述流处理引擎单元进行预处理操作后的数据进行分布式存储。
8.在一些实施例中,所述第一处理模块还包括搜索引擎单元,所述搜索引擎单元用于根据预设的搜索方法对存储模块中的数据进行搜索,获得符合预设的搜索规则的数据。
9.在一些实施例中,所述第一处理模块还包括批处理引擎单元,所述批处理引擎单元用于利用预设的工作流对经过所述搜索引擎搜索得到的数据进行处理,所述预设的工作流至少包括对数据的过滤、滤波、旋转和/或拉伸,所述通信模块还用于将由经过所述批处理引擎单元处理后的数据提供给用户。
10.在一些实施例中,所述批处理引擎单元还用于对经过所述搜索引擎单元搜索得到的数据进行脱敏处理,获得脱敏后的数据。
11.在一些实施例中,所述存储模块包括热点数据存储单元,所述搜索引擎单元还用
于利用预设的高频热点搜索方法确定高频热点数据,所述热点数据存储单元将所述搜索引擎单元确定的高频热点数据进行存储。
12.在一些实施例中,所述存储模块还包括元数据存储单元,所述流处理引擎单元还用于利用预设的元数据确定方法确定元数据,所述元数据存储单元将所述流处理引擎单元确定的元数据进行存储。
13.本发明实施例的优点:本发明利用第一处理模块中的搜索引擎单元根据预设的搜索方法快速搜索到需要的数据,从而实现了批量的搜索,并利用批处理引擎单元的脱敏处理对数据进行批量脱敏处理,提高了数据质量,并且可以对检索的数据进行批量的处理,加快了处理速度,利用流处理引擎单元对导入的数据进行预处理操作,实现数据的统一存储,提高了数据处理平台的数据兼容度,同时避免了导出数据时数据格式不一的问题。
附图说明
14.图1为本发明实施例所示的数据处理平台100的模块示意图。
15.图2为本发明实施例所示的第一处理模块120的模块示意图。
16.图3为本发明实施例所示的第二处理模块130的模块示意图。
17.图4为本发明实施例所示的数据处理平台400的组成示意图。
具体实施方式
18.下面结合具体附图和实施例对本发明作进一步说明。
19.如图1所示,所述数据处理平台100可以包括用户模块110、通信模块120、第一处理模块130和存储模块140,所述数据处理平台100可以应用于pacs系统。
20.所述用户模块110,用于用户注册和用于身份认证。
21.在一些实施例中,所述用户模块110可以包括注册单元,所述注册单元可以用于获取用户信息,根据所述用户信息进行注册,并将用户根据用户信息划分为对应的用户类型,所述用户类型至少包括医生和/或算法工程师。
22.在一些实施例中,所述平台100可以根据不同的用户类型来分配不同的用户权限,从而给用户提供不同的服务,例如,当用户类型为算法工程师时,所述用户权限可以是能够使用检索的功能,从而获取到所述平台100中的图像数据进行后续的训练,而不能够使用导入数据的功能。又例如,当用户类型为医生时,所述用户权限可以是能够导入数据,而不能够获取到所述平台100中存储的图像数据。需要说明的是,本发明对所述用户权限的定义可以根据实际应用情况进行相应的设置,本发明在此不做具体的限制。
23.所述通信模块120,可以至少用于获取数据,所述数据至少包括医疗影像数据,所述医疗影像数据可以由超声诊断设备获得。
24.在一些实施例中,所述医疗影像数据可以包括通过超声诊断设备对患者进行实时扫查从而获得的超声图像数据,还可以包括患者的相关信息,所述患者的相关信息至少可以包括该患者的基本信息、临床信息等。基本信息可以包括个人信息,如患者姓名、年龄、性别、体重、身高、孕期等。临床信息可以包括历史超声图像、历史超声图像的标注信息、历史诊断信息等,所述患者信息至少还可以包括:历史检查部位信息、历史检查部位对应的预设参数预设值。
25.在一些实施例中,所述医疗影像数据还可以通过通信模块120,例如,包括通过相关的接口(例如,api接口)将患者的相关信息导入至该数据处理平台100中。
26.所述第一处理模块130,可以用于根据预设的方法对数据进行处理,获得经过处理后的数据。
27.在一些实施例中,可以根据预设的方法对数据进行处理,例如,对数据进行相关数据搜索、图像处理、脱敏处理等,从而获得用户需要的数据。在一些实施例中,所述第一处理模块130可以包括流处理引擎单元131、搜索引擎单元132和批处理引擎单元133。关于第一处理模块130可以参见图2的相关内容,在此不再赘述。
28.所述存储模块140,可以用于采用预设的分布式存储方法存储经过所述第一处理模块处理后的数据。
29.在一些实施例中,所述存储模块140可以包括存储单元141,所述存储模块140根据不同的功能还可以包括高频热点存储单元142、元数据存储单元143等。由通信模块120获取到的数据在经过处理后可以存储到所述存储模块140中。关于存储模块140可以参见图3的相关内容,在此不再赘述。
30.如图2所述,所述第一处理模块130可以包括流处理引擎单元131,所述流处理引擎单元131用于对有所述通信模块120获取到的数据(例如,医疗影像数据)进行预处理操作,获得符合预设的存储标准的数据。
31.在一些实施例中,所述流处理引擎单元131的预处理操作至少包括格式统一转换处理和/或冗余信息合并处理和/或根据预设的数据过滤规则对数据进行过滤处理。
32.在一些实施例中,可以利用流处理引擎单元131将格式可以统一为dicom格式的文件后再进行存储和处理,例如,可以将jpg、png、bmp、mp4、avi、dicom等各种格式的文件统一转换为dicom文件进行存储,从而兼容大多数的影像格式,方便用户进行文件的下载和后续的处理。
33.在一些实施例中,还可以利用流处理引擎单元131进行冗余信息的合并处理,例如,同一个患者可以使用同一个病例,在所述患者中的多个医疗影像数据会有很多的相同的数据,如果将所述患者的所有数据分别都存储,则会冗余很多相同的数据,可以利用流处理引擎131将所述患者相同病例下的相同数据进行合并后再进行存储处理,从而节省存储空间。
34.在一些实施例中,所述流处理引擎单元131还可以用于根据预设的数据过滤规则对数据进行过滤处理,获得符合所述数据过滤规则的数据。用户可以根据实际应用需要来自定义数据过滤规则,从而利用流处理引擎131根据预设的数据选择过滤来对数据进行相应的筛选,得到需要的数据。作为一种可选的示例,用户在使用该数据处理平台100时,可以使用脚本(例如,python)自定义数据过滤规则,例如,根据超声图像的清晰度(例如,图片的分辨率小于800x600)或者根据患者的年龄范围(例如,年龄范围在20-50岁)来筛选需要的数据。
35.通过在数据处理平台100中利用流处理引擎单元131对导入的数据进行预处理操作,使得通信模块120可以兼容各种数据格式、各种数据来源,并利用流处理引擎单元131对导入的数据进行格式统一转换处理后再进行存储,避免了数据通过通信模块120导出时数据格式不一的问题,从而减少了数据导出后的操作。
36.如图3所示,所述存储模块140可以包括存储单元141,所述存储单元141可以用于将经过所述流处理引擎单元进行预处理操作后的数据进行分布式存储。
37.在一些实施例中,所述分布式存储方法g(x) 可以采用的公式(1)为:g(x)=save(distributed(encrypt(x)))
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,x为待存储的数据;encrypt(x)为预设的加密方法,对数据进行加密处理;distributed()为预设的分布式方法,将数据分割成若干个数据块,并生成对应的检查码和纠删码;save()为预设的保存方法,将数据块存储到对应的存储单元141中。
38.具体的,可以利用预设的加密方法(例如,利用sha-256加密算法)对数据进行加密,从而可以保证数据处理平台内的数据安全,存储模块140还可以包括控制器、调度器和存储单元141。所述控制器负责接受存储的请求,所有存储请求都由该组件接收,可以水平部署多个存储单元141以达到负载均衡的目的,从而使得数据处理平台的存储吞吐量有所提高,控制器会将接受到的请求发送给调度器。所述调度器则负责处理来自控制器的数据,调度器将数据进行切块后发给不同的存储单元141,所述调度器主要实现了数据的分割和记录切片表,当有读取请求时,调度器也会根据切片表读取进行读取数据块后进行合并,最后返回完整的数据。所述存储单元141则是最后负责存储的单元,只负责存储接收到的数据块。将存储数据分散在多个独立的实体机器上,并且可以水平拓展,多台机器分担存储负荷,相互备份,实现了存储的一致性、高可用性,防止单点故障导致的存储不可用。
39.在一些实施例中,所述第一处理模块130还包括搜索引擎单元132,所述搜索引擎单元132用于根据预设的搜索方法对所述存储模块140中的数据进行搜索,获得符合预设的搜索规则的数据。例如,用户可以根据符合所述数据处理平台的100的关键字、病种类型、标注类型、数据来源条件等搜索字段或搜索调节,快速检索出需要的数据。
40.在一些实施例中,所述搜索引擎单元132还可以用于利用预设的高频热点搜索方法确定高频热点数据,所述高频热点搜索方法f(x)可以采用的公式(2)为:f(x)=search(x,hotcache(x))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,x为待搜索数据;hotcache(x)为lru页面置换方法;search(x,hotcache(x))为预设的数据命中方法,如果在高频热点存储单元142中命中待搜索数据则搜索完毕,否则利用预设的搜索方法在存储单元141中匹配待搜索数据。
41.进一步地,hotcache(x)可以使用lru页面置换方法,其满足以下3条特点:将待搜索数据插入到链表头部;每当在高频热点存储单元142中命中待搜索数据(即存储的数据被访问),则将所述待搜索数据移到链表头部;当链表满的时候,将链表尾部的数据丢弃。
42.进一步地,search(x,hotcache)为使用bfs广度优先算法配合缓存命中算法,如果存储的数据被访问则直接搜索完毕,否则在进入搜索算法匹配待搜索数据。
43.作为一种可选的示例,用户可以通过使用搜索引擎单元132根据用户输入的查询信息(例如,病种,数据来源,病人年龄等)在元数据存储单元143中进行筛选,再从存储单元141中将数据返回给用户,搜索引擎单元132会将用户经常查询访问的数据(例如,用户经常访问颈动脉斑块疾病图片)作为高频热点数据同步至高频热点存储单元142中,从而加速同类型搜索的速度。
44.所述第一处理模块130可以包括批处理引擎单元133,所述批处理引擎单元133可以用于利用预设的工作流对经过所述搜索引擎单元132搜索得到的医疗影像数据进行处
理,所述预设的工作流至少包括对医疗影像数据的过滤、滤波、旋转和/或拉伸,所述通信模块120还用于将由经过所述批处理引擎单元133处理后的数据提供给用户。
45.在一些实施例中,用户可以根据实际的应用情况构建需要的数据处理工作流,例如,用户可以对数据进行过滤处理,将低质量图片、低分辨率的图像剔除,用户可以对数据进行滤波处理,来去除医疗图像噪点,通常可以使用傅立叶变换来进行滤波处理,用户可以对数据进行旋转处理,数据在录入时有可能是从不同角度采集的,可以后期将所有的数据旋转至同一种角度,用户可以对数据进行拉伸处理,不同数据的大小尺寸不同,可以将数据全部拉伸至同一种尺寸,其中的每一个处理操作都可以是工作流中的一员,用户可以使用以上的处理操作构建出需要的工作流,构建完毕后可以将工作流输入批处理引擎单元133中,批处理引擎单元133会按照用户构建的工作流进行处理,最后将处理后的数据进行存储或者通过所述通信模块120提供给需要的用户。
46.在一些实施例中,所述批处理引擎单元133还可以用于对经过所述搜索引擎单元搜索得到的数据进行脱敏处理,获得脱敏后的数据。
47.在一些实施例中,用户(例如,用户类型为算法工程师)在获取到需要的数据后,可以利用批处理引擎单元133对数据进行脱敏处理,从而将患者的医疗影像数据裁剪到只保留关键的影像数据,将患者的敏感信息和保密信息剔除,从而即可以提高进行训练的数据的质量,从而提高训练的质量。在一些实施例中,用户可以在获取到需要的数据后,利用批处理引擎133对数据进行批量脱敏处理后,就可以直接获取到需要的数据,从而提高数据获取的速度。
48.在一些实施例中,所述存储模块140还包括元数据存储单元143,所述流处理引擎单元131还用于利用预设的元数据确定方法确定元数据,所述元数据存储单元将所述流处理引擎单元131确定的元数据进行存储。
49.进一步的,所述元数据是指中介数据、中继数据,为描述数据的数据,元数据可以用来描述数据属性的信息,用来指示数据的存储位置信息、历史数据信息、资源查找、文件记录等,元数据可以便于用户进行后续的数据搜索。作为一种可选的示例,所述流处理引擎单元131可以将需要搜索的字段和值录入元数据文档(例如,病人的年龄、病种、录入时间等),作为元数据。
50.如图4所示,为本发明实施例所示的数据处理平台400的组成示意图,该数据处理平台400可以分为用户层、业务层以及存储层。在用户层,可以将用户类型分为医生、算法工程师或上传数据设备等。在业务层,可以包括身份认证模块、api模块、搜索引擎、流处理引擎、批处理引擎等。在存储层,可以包括分布式对象存储系统、元数据存储数据库、热点数据缓存库等。然后将搜索、处理完成的数据以挂载的方式通过网络挂载至用户的设备上供用户使用。
51.本发明实施例还提供一种数据处理系统,包括:服务器,所述服务器中搭建有如前文所述的数据处理平台;超声诊断设备,所述超声诊断设备能够与所述服务器进行数据交互。
52.最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖
在本发明的权利要求范围当中。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1