质谱数据处理系统及方法与流程

文档序号:29210257发布日期:2022-03-12 04:39阅读:1570来源:国知局
质谱数据处理系统及方法与流程

1.本技术涉及一种质谱数据处理系统及方法,具体为一种支持质谱数据边缘计算的处理系统及方法,属于边缘计算技术领域。


背景技术:

2.质谱仪是用来进行分离和检测不同同位素的仪器。即根据带电粒子在电磁场中能够偏转的原理,按物质原子、分子或分子碎片的质量差异进行分离和检测物质组成的一类仪器。质谱仪可以单独使用,也可以和分离工具如色谱仪、电泳仪和离子迁移仪联用以获得更为强大的分离与检测能力。
3.质谱仪对样本分析后,可以得到离子的质荷比信息(m/z信息)以及其他辅助信息如保留时间信息等。因为样本复杂,数据采集过程中将产生大量的噪音信号,导致即使是单个数据,所采集的质谱数据也可能很大。常规质谱仪得到的每个数据大小从数个megabyte到数百个gigabyte不等。当样本量大时,即使进行本地化计算,原始数据的传输和处理也均会对数据处理系统产生挑战。
4.与单机本地化计算模式相比,质谱数据的远程云计算具有协同、共享等诸多优点。但是,完整的质谱数据上传到云端服务器,会产生巨大的传输压力,导致传输时间过长。同时在云端产生大的存储与计算压力,导致用户增加计算和时间成本。因为不同实验室匹配的质谱数据处理服务器性能不一,直接利用软件对数据进行预处理上传,或存在部分服务器难以满足硬件配置的问题,或存在软件和硬件之间存在优化才能发挥性能的问题,导致单纯使用软件无法满足大量质谱用户的需求。对数据进行压缩也是一种解决上述问题的方案,但通用的无损压缩技术无法有效降低质谱数据体积,也无法减轻服务器端的数据处理压力,反而增加了本地执行压缩的时间和服务端的解压时间。
5.为克服上述挑战,需要开发创新的数据预处理装置与方法,特别是满足云端规模化数据的快速、准确处理需求的数据预处理装置与方法。


技术实现要素:

6.本技术的目的在于,提供一种质谱数据处理系统及方法,以解决现有技术中质谱数据噪音多、数据量大,增加后续云端或者本地服务器的数据处理压力的技术问题。
7.本发明的第一实施例公开了一种质谱数据处理系统,包括客户端和边缘计算装置;
8.所述客户端安装在数据端上,用于向所述边缘计算装置发送峰提取请求和从所述边缘计算装置获取峰提取结果;所述峰提取请求中包括峰提取计算参数和从所述数据端上提取的质谱数据;
9.所述边缘计算装置,用于利用所述峰提取计算参数对应的峰提取算法从所述质谱数据中提取质谱峰,得到峰提取结果。
10.上述数据端可以是用于产生质谱数据的质谱仪,也可以是存储有质谱数据的其他
装置;其中质谱数据包括记录质谱信号的数据流、原始质谱文件和转化后的标准质谱文件;原始质谱文件包括但不限于.d格式和.raw格式的文件、标准质谱文件包括但不限于.mzxml和.mzml格式的文件。
11.上述边缘计算装置设置在数据端侧,作为专属的数据预处理服务器,由性能适配的软硬件组成,可与不同规格的电脑或服务器搭配使用。因为本发明的边缘计算装置为专属的数据预处理服务器,故其尺寸可以比一般的台式电脑或服务器小,也不必搭配无关的软件或硬件。
12.优选地,上述边缘计算装置包括管理单元、计算单元和存储单元;
13.所述管理单元,用于将接收的所述峰提取请求发送至所述计算单元,并控制所述存储单元存储所述计算单元输出的峰提取结果;
14.所述计算单元,用于利用所述峰提取计算参数对应的峰提取算法从所述质谱数据中提取质谱峰,得到峰提取结果;所述计算单元指具有浮点计算能力的cpu、gpu、fpga或其他人工智能芯片;当使用gpu时,配属专门的制冷设备,保证将温度控制在适当的范围内;
15.所述存储单元,用于存储所述峰提取结果。
16.优选地,所述管理单元包括接收模块和资源池;
17.所述接收模块,用于接收所述峰提取请求;
18.所述资源池,用于从所述接收模块中提取所述峰提取请求,并发送至所述计算单元。
19.优选地,所述系统还包括云端;
20.所述云端,用于向所述客户端或者所述边缘计算装置发送获取峰提取结果的请求以及接收所述客户端或者所述边缘计算装置上传的所述峰提取结果;
21.优选地,所述系统还包括本地服务器;
22.所述本地服务器,用于向所述客户端或者所述边缘计算装置发送获取峰提取结果的请求以及接收所述客户端或者所述边缘计算装置上传的所述峰提取结果。
23.优选地,所述管理单元还用于为接收的所述峰提取请求编号,并将所述编号发送至所述客户端、所述云端和所述本地服务器中任意一个或多个主体;
24.相应地,所述客户端、所述云端和所述本地服务器从所述存储单元内获取所述编号对应的峰提取结果。
25.优选地,所述边缘计算装置还包括通信单元;
26.所述通信单元,用于将所述边缘计算装置与所述客户端、所述云端和所述本地服务器连接。
27.本发明的第二实施例提供了一种质谱数据处理方法,包括:
28.获取客户端发送的峰提取请求,所述峰提取请求中包括质谱数据和峰提取计算参数;所述客户端安装在包含所述质谱数据的数据端上;
29.利用所述峰提取计算参数对应的峰提取算法从所述质谱数据中提取质谱峰,得到峰提取结果。
30.优选地,在所述利用所述峰提取计算参数对应的峰提取算法从所述质谱数据中提取质谱峰,得到峰提取结果之后,还包括:
31.接收客户端、云端和本地服务器中任意一个或多个主体发送的获取峰提取结果的
请求,并将对应的所述峰提取结果发送至发出请求的主体。
32.优选地,在所述获取客户端发送的峰提取请求之后,还包括:
33.为所述峰提取请求编号,并将所述编号发送至所述客户端、所述云端和所述本地服务器中的任意一个或多个主体;
34.相应的,所述接收客户端、云端和本地服务器中任意一个或多个主体发送的获取峰提取结果的请求,并将对应的所述峰提取结果发送至发出请求的主体,具体为:
35.接收客户端、云端和本地服务器中任意一个或多个主体发送的包含有所述编号的获取峰提取结果的请求;
36.将所述编号对应的所述峰提取结果发送至发出请求的主体。
37.优选地,接收客户端、云端和本地服务器中任意一个或多个主体发送的获取峰提取结果的请求,并将对应的所述峰提取结果发送至发出请求的主体,具体为:
38.接收客户端、云端和本地服务器中任意一个或多个主体发送的获取峰提取结果的回传请求,所述回传请求中包括编号、回传地址和回传方式;
39.将所述编号对应的所述峰提取结果,按照所述回传方式,上传至所述回传地址;
40.优选地,所述接收客户端、云端和本地服务器中任意一个或多个主体发送的获取峰提取结果的请求,并将对应的所述峰提取结果发送至发出请求的主体,具体为:
41.接收客户端、云端和本地服务器中任意一个或多个主体发送的自动通知请求,所述自动通知请求中包括编号;
42.当所述编号具有对应的所述峰提取结果时,向发出请求的主体发送通知;
43.接收客户端、云端和本地服务器中任意一个或多个主体发起的获取峰提取结果的请求;
44.将所述编号对应的所述峰提取结果发送至发出请求的主体。
45.本发明的质谱数据处理系统及方法,相较于现有技术,具有如下有益效果:
46.本发明引入了边缘计算装置和安装在数据端的客户端,数据端借助客户端应用调用边缘计算装置完成质谱峰提取、上传到云端或者本地服务器、向云端或者本地服务器发起后续计算的完整流程,既无需用户切换到不同端(数据端、本地服务器、云服务器)进行操作,又能利用云端和边缘计算装置的计算资源;本发明使得数据端的质谱数据能够通过边缘计算装置自动而直接得到计算结果,减轻后续计算的处理压力和上传到云端或者本地服务器的压力。
47.另外,本发明使用专属的质谱数据处理装置及方法,极大降低了所上传数据的大小,降低了数据中的噪音信息,使用方便灵活,适合于从数据端到云端或者本地服务器端的数据快速传输,有效降低云端或者本地服务器的数据处理成本。
附图说明
48.图1为本技术一种质谱数据处理系统的结构示意图;
49.图2为本技术一种质谱数据处理方法的流程图。
50.部件和附图标记列表:
51.1、客户端;2、边缘计算装置;21、管理单元;22、计算单元;23、存储单元;24、通信单元;3、云端。
具体实施方式
52.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
53.下面结合实施例详述本发明,但本发明并不局限于这些实施例。
54.本发明的质谱数据处理系统的结构见图1,包括客户端1和边缘计算装置2;客户端1安装在数据端上用于向边缘计算装置2发送峰提取请求和从边缘计算装置2处获取峰提取结果;本技术中的峰提取请求中包括峰提取计算参数和从数据端上提取的质谱数据;边缘计算装置2用于根据峰提取计算参数,确定峰提取算法,然后利用峰提取算法从质谱数据中提取质谱峰,得到峰提取结果。
55.上述数据端可以是用于产生质谱数据的质谱仪,也可以是存储有质谱数据的其他装置;当数据端为质谱仪时,则客户端是安装在质谱仪上的。质谱仪通过其上的客户端与边缘计算装置的通信单元建立通信通道,经通信通道上传其生成的质谱数据和峰提取计算参数到边缘计算装置。数据端中的质谱数据包括记录质谱信号的数据流、原始质谱文件和转化后的标准质谱文件;原始质谱文件包括但不限于.d格式和.raw格式的文件、标准质谱文件包括但不限于.mzxml和.mzml格式的文件。
56.上述边缘计算装置设置在数据端侧,作为专属的数据预处理服务器,由性能适配的软硬件组成,可与不同规格的电脑或服务器搭配使用。因为本发明的边缘计算装置为专属的数据预处理服务器,故其尺寸可以比一般的台式电脑或服务器小,也不必搭配无关的软件或硬件。
57.本技术中的峰提取算法为现有技术中的算法,如现有技术中的质谱自动处理与鉴定系统中的算法。根据峰提取计算参数即可确定峰提取算法。
58.本技术中的边缘计算装置2包括管理单元21、计算单元22和存储单元23;其中管理单元21用于将接收的峰提取请求发送至计算单元22,并控制存储单元23存储计算单元22输出的峰提取结果;计算单元22用于利用峰提取计算参数对应的峰提取算法从质谱数据中提取质谱峰,得到峰提取结果;存储单元23用于存储峰提取结果。本技术的计算单元指具有浮点计算能力的cpu、gpu、fpga或其他人工智能芯片,当使用gpu时,配属专门的制冷设备,保证将温度控制在适当的范围内。本技术中的管理单元21为边缘计算装置2内部系统的管理系统或者管理软件,主要实现对用户请求、计算资源、存储资源的调配;计算单元22为质谱数据的处理器,对质谱数据进行提取处理,获得分子/样本特征信息,即质谱峰;存储单元23存储服务应用、存储用户上传的质谱数据和处理后的分子/样本特征数据。
59.进一步地,本技术的管理单元21包括接收模块和资源池;接收模块用于接收峰提取请求;资源池用于从接收模块中提取峰提取请求,并发送至计算单元22。其中接收模块可以为任务队列。具体实现过程为:当任务队列不为空时,每间隔一定时间查看资源池是否有资源,有资源则运行任务队列中最早的任务、并将它移出队列发送至计算单元22,从而实现资源的分配。计算单元22接收到任务并开始执行时,利用该任务的峰提取计算参数对应的峰提取算法将该任务中的质谱数据转化为包含分子/样本特征信息的数据或数据文件,运行完毕后归还资源到管理单元的资源池,并标记该任务运行成功。本技术计算单元的硬件
包括但不限于cpu、gpu、内存等,计算单元运行的软件和算法可以是任意的质谱峰提取算法。
60.本技术的质谱数据处理系统还包括云端3,云端服务器用于向客户端或者边缘计算装置发送获取峰提取结果的请求以及接收客户端或者边缘计算装置上传的峰提取结果。云端3可以对边缘计算装置预处理后的峰提取结果进行进一步的分析,得到完成的质谱数据分析结果。
61.本技术的质谱数据处理系统还包括本地服务器,本地服务器用于向客户端或者边缘计算装置发送获取峰提取结果的请求以及接收客户端或者边缘计算装置上传的峰提取结果。本地服务器可以对边缘计算装置预处理后的峰提取结果进行进一步的分析,得到完成的质谱数据分析结果。
62.在本技术中,客户端1或者边缘计算装置2中的峰提取结果,可以自动上传至云端或者本地服务器,也可以在云端或者本地服务器发送获取峰提取结果的请求后将峰提取结果发送至请求发出主体。
63.本技术的管理单元还用于为接收的峰提取请求编号,将编号对应的质谱数据和峰提取计算参数记为一组任务添加到任务队列,并将编号发送至客户端、云端和本地服务器中任意一个或多个主体。然后计算单元22利用编号中的峰提取计算参数对应的峰提取算法从该编号内的质谱数据中提取质谱峰,得到该编号对应的峰提取结果并存储于存储单元23内。之后,客户端、云端和本地服务器从存储单元内获取所述编号对应的峰提取结果进行后续显示或者处理。
64.为实现边缘计算装置与客户端1、云端3和本地服务器的通信,本技术的边缘计算装置2中还设置了通信单元24;通信单元24可以是使用网络通信、usb等标准通信协议的装置和软件,具体地,可以为光纤、路由器、wifi无线网、蓝牙信号、usb等。
65.本发明引入了边缘计算装置和安装在数据端的客户端,数据端借助客户端应用调用边缘计算装置完成质谱峰提取、上传到云端或者本地服务器、向云端或者本地服务器发起后续计算的完整流程,既无需用户切换到不同端(数据端、本地服务器、云服务器)进行操作,又能利用云端和边缘计算装置的计算资源;本发明使得数据端的质谱数据能够通过边缘计算装置自动而直接得到计算结果,减轻后续计算的处理压力和上传到云端或者本地服务器的压力。
66.另外,本发明使用专属的质谱数据处理装置及方法,极大降低了所上传数据的大小,降低了数据中的噪音信息,使用方便灵活,适合于从数据端到云端或者本地服务器端的数据快速传输,有效降低云端或者本地服务器的数据处理成本。
67.本发明的第二实施例提供了一种质谱数据处理方法,见图2,包括:
68.步骤1、获取客户端发送的峰提取请求,峰提取请求中包括质谱数据和峰提取计算参数;客户端安装在包含质谱数据的数据端上;
69.步骤2、边缘计算装置利用峰提取计算参数对应的峰提取算法从质谱数据中提取质谱峰,得到峰提取结果。
70.其中边缘计算装置设置在数据端侧。
71.具体地,安装在数据端的客户端调用边缘计算装置,请求对质谱数据进行峰提取。请求内容(即峰提取请求)包括峰提取计算参数和从数据端获取的质谱数据,调用方式因边
缘计算装置的通信协议而异。在客户端获取峰提取请求之前,要确保数据端和边缘计算装置、数据端和云端、数据端和本地服务器存在兼容的通信通道或者是要确保边缘计算装置和云端、边缘计算装置和客户端、边缘计算装置和本地服务器存在兼容的通信通道。通信信道可以是使用网络通信、usb等标准通信协议的装置和软件,具体地,可以为光纤、路由器、wifi无线网、蓝牙信号、usb等。
72.进一步地,在利用峰提取计算参数对应的峰提取算法从质谱数据中提取质谱峰,得到峰提取结果之后,还包括:
73.步骤3、接收客户端、云端和本地服务器中任意一个或多个主体发送的获取峰提取结果的请求,并将对应的峰提取结果发送至发出请求的主体。
74.为便于区分多个峰提取请求,本技术在获取客户端发送的峰提取请求之后,还包括:
75.为峰提取请求编号,并将编号发送至客户端、云端和本地服务器中的任意一个或多个主体。
76.相应的,接收客户端、云端和本地服务器中任意一个或多个主体发送的获取峰提取结果的请求,并将对应的峰提取结果发送至发出请求的主体,具体为:
77.接收客户端、云端和本地服务器中任意一个或多个主体发送的包含有编号的获取峰提取结果的请求;
78.将编号对应的峰提取结果发送至发出请求的主体。发送过程具体可以采用三种方式,具体为:
79.第一种方式为数据端轮询。
80.客户端、云端、本地服务器中任意一个或多个主体使用编号每隔一段时间向边缘计算装置发起获取峰提取结果的请求,该请求为主动下载峰提取结果请求,直到请求成功。当且仅当编号对应任务标记为成功时才回应成功。然后将编号对应的峰提取结果(分子/样本特征信息)发送至发出请求的主体。
81.第二种方式为边缘装置回传。
82.客户端、云端、本地服务器中任意一个或多个主体使用编号向边缘计算装置发起获取峰提取结果的请求,该请求为自动回传峰提取结果请求,自动回传峰提取结果请求中包括编号、回传方式和回传地址,边缘计算装置将在相应编号的任务完成后使用指定回传方式向该回传地址发起上传,即将编号对应的峰提取结果上传至回传地址。
83.第三种方式为边缘装置通知。
84.客户端、云端、本地服务器中任意一个或多个主体使用编号向边缘计算装置发起获取峰提取结果的请求,该请求中包括自动通知请求和下载请求。边缘计算装置将在相应编号的任务完成后通知发出自动通知请求的主体,发出自动通知请求的主体接到通知后向边缘计算装置主动发起下载请求,边缘计算装置将编号对应的峰提取结果发送至该主体。
85.下面将以更为具体地实施例详述本技术。
86.实施例1
87.本实施例中,所使用的边缘计算装置的硬件包括主板,英特尔cpu,寒武纪mlu270计算芯片,16gb内存,512gb硬盘,网卡,定制机箱。软件为预装ubuntu 18.04系统,基于python flask的峰提取网络服务,使用celery队列管理计算任务,使用redis数据库记录资
源池状态。边缘计算装置能够接受http请求,接口有查询计算设备状态接口(get请求)、上传质谱数据与峰提取计算参数接口(post请求)、请求结果下载地址接口(get请求)。峰提取算法使用python脚本实现。
88.本实施例中,所使用的云端服务的硬件为华为云4核16gb内存节点。软件为预装centos 7系统,基于python flask的峰对齐和差异分析web服务,使用celery队列管理计算任务,使用redis数据库记录资源池状态,提供基于html的网页资源,使用postgres管理用户登录信息,拥有互联网固定ip。云端服务能够接受http请求,接口有登录接口(post请求)、上传峰提取结果数据与后续计算任务参数接口(post请求)、请求任务结果接口(get请求)、查询任务列表接口(get请求)。
89.本实施例中,所使用的数据端装置的硬件为带有网卡的标准计算机。软件为预装windows 7系统,基于c#开发的客户端应用,chrome浏览器。客户端应用可以发送http请求,内置边缘计算装置和云端服务的所有接口调用方法。
90.本实施例中,所使用的客户端涉及硬件与装置:tp-link路由器,联通入网光纤,边缘计算装置,数据端装置,客户端应用,云端服务器。前置操作:入网光线接入路由器wan口,边缘计算装置和数据端装置接入路由器lan口。确保数据端能通过路由器连接到互联网和边缘计算装置1。
91.本实施例的操作过程如下:
92.第一步,打开数据端的客户端应用,登录界面填写云服务用户名和密码,点击确定。如果前置操作正确且云服务用户信息正确,则登录成功,进入主界面。
93.第二步,如果第一步成功,切换到边缘计算装置页面,输入边缘计算装置在路由器局域网的ip地址和服务端口号,输入峰提取计算参数,点击尝试连接。如果第一步和这一步设置正确,连接状态框显示对勾,否则会弹出警告对话框。
94.第三步,第二步成功后,切换到发起任务界面,点击发起任务。任务设置窗口中,点击添加文件,选择需要在后续任务中同批处理的质谱数据文件(.mzxml,raw,.d等),点击确定;任务设置窗口中,选择任务类型下拉选框的“峰对齐+差异分析”,点击提交任务。
95.第四步,可以在任务列表中查看每个数据文件的状态:每个数据文件发布到边缘计算装置后显示正在峰提取,提取成功后显示为提取成功并下载结果文件到本地(csv,txt等),每个下载到本地的结果文件被添加到任务列表并显示正在上传(到云端),上传完毕后显示上传成功。同一批数据文件完成提交边缘计算、下载计算结果、上传到云端后,客户端会自动向云端发起对它们进行“峰对齐+差异分析”的请求。如表1,是10例质谱数据文件(.d)经过边缘计算装置处理后,在数据文件大小的降低、云端处理的时间成本方面的效果。
96.表1
[0097][0098]
可见,本发明的系统,极大降低了所上传数据的大小,降低了数据中的噪音信息,使用方便灵活,适合于从数据端到云端或者本地服务器端的数据快速传输,有效降低云端或者本地服务器的数据处理成本。
[0099]
实施例2
[0100]
本实施例与实施例1所采用的装置相同,区别在于操作过程中的第一步。
[0101]
本实施例的操作过程第一步为:
[0102]
第一步、打开数据端的客户端应用,无需输入用户名和密码,直接登陆云端服务,进入主界面。
[0103]
接下来的步骤与实施例1相同。
[0104]
本技术中,云端服务形式不限,客户端应用形式也不限,在实施例2中,云端可能要求客户端在选择任务类型时填写更多参数或者不用选择任务类型,后续任务可以是上传完毕前发起(如果云端服务支持延迟处理),客户端可以是数据端的浏览器、功能被整合到云端或边缘计算装置提供的web页面。
[0105]
本发明引入了边缘计算装置和安装在数据端的客户端,数据端借助客户端应用调用边缘计算装置完成质谱峰提取、上传到云端或者本地服务器、向云端或者本地服务器发起后续计算的完整流程,既无需用户切换到不同端(数据端、本地服务器、云服务器)进行操作,又能利用云端和边缘计算装置的计算资源;本发明使得数据端的质谱数据能够通过边缘计算装置自动而直接得到计算结果,减轻后续计算的处理压力和上传到云端或者本地服务器的压力。
[0106]
以上所述,仅是本技术的几个实施例,并非对本技术做任何形式的限制,虽然本技术以较佳实施例揭示如上,然而并非用以限制本技术,任何熟悉本专业的技术人员,在不脱离本技术技术方案的范围内,利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例,均属于技术方案范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1