一种全基因组测序数据分析方法

文档序号:9397084阅读:441来源:国知局
一种全基因组测序数据分析方法
【技术领域】
[0001]本发明是一种全基因组数据的分析方法,特点是能够借助庞大的互联网计算机资源进行大数据的分析。
【背景技术】
[0002]目前随着第二代基因测序技术的发展,个人的全基因测序已经可以实现,精准医疗就是在全基因组测序技术的出现,解决了全基因测序的成本和速度的问题条件下得以实现的。二代测序技术能够在几天时间内完成一个人的全基因测序,并且实现数十倍于人全基因组的数据量,一般如30倍人的全基因覆盖度,数据相当于900亿个碱基对,数据相当庞大,目前制约二代测序技术的临床应用的瓶颈是如何快速的完成这些数据的分析任务。
[0003]目前,全基因组数据的分析手段主要采用超级计算机中心的超级计算机完成,低成本的方式采用搭建小型的服务器工作站,这种方式可以提高计算速度,但是这样分析的成本很高,超级计算机的租金很高,同时资源有限,而采用搭建服务器工作站,需要有专门的技术人员维护和管理,投入成本和维护成本也很高。而,目前有基于云计算的网络服务平台,也提供这样的全基因组分析服务,这种方式,事实上也是租用云计算机存储和计算资源,与租用超级计算机或者租用机房是一个模式。如何有更好的方案,可以解决低成本和快速分析的目的的方法是实现临床全基因组基因检测服务的瓶颈问题。

【发明内容】

[0004]本发明是采用通过网络将一台或几台主机和若干在互联网上的客户机组成工作组来拆分分析任务。这样海量的数据分析任务被数千个甚至数万个客户端计算机完成,然后将分析结果再汇总到主机。每台客户机的配置性能只要达到客户端程序的硬件和软件环境的要求,成千上万台这样的客户端计算机就能发挥出超级计算机的能力,甚至更强。
[0005]技术方案流程:
1.测序原始数据文件在本地机上进行重新编码,从而去掉无意义的数据,包括描述测序质量的信息和头文件等,将质量不好的数据进行判断,决策是否去掉等,提高数据密度,减少网络传输总量。
[0006]将数据上传到网络服务器主机中,主机收到文件后,主机广播方式对在线的有客户端程序的客户端发放任务消息。
[0007]客户端收到任务消息后向主机申请任务。
[0008]主机将根据申请的客户端的申请顺序依次发放一定数量的数据。发放的数据量根据每台客户端的网速以及电脑配置等信息进行决策。
[0009]客户端收到数据后,对数据进行分析,分析完毕将生成一个结果文件。
[0010]客户端将结果文件提交给主机。
[0011]主机将客户端上传的结果文件进行合并,完成数据的分析。
[0012]系统组成: 包括:1服务器端主机电脑和主机程序,负责将数据向客户端分发和收集客户端上传的结果文件,并完成结果的合并和输出。2客户端电脑和客户端程序,完成接收主机数据和分析工作,并提交分析结果上传给主机。网络实现主机和客户端对话和数据传输。
[0013]与现有方法的比较:
本发明的优点,不需要建立服务器机群,不用租用超级计算机中心,可以省下大量的硬件投入和租用费用,已及日常的维护费用。运行速度上,只要有较宽的网络数据传输带宽,就可以实现并行运算的速度。如何保证有足够多的客户端,可以通过给予相应数据分析量的报酬方式,这句是运营问题,这里不讨论。计算机的硬件要求大大降低,服务器端主机的硬件条件只要能满足数据分发的任务和结果合并的硬件要求就可以,普通的服务器主机就可以满足要求,而对于客户端计算机的要求更低,客户端程序可以根据客户端计算机的性能,如cpu和内存的硬件条件,选择计算量和计算内容。
[0014]可能存在缺点:由于分发任务和汇总分析结果都需要通过网络进行,因此网络速度是决定分析速度的一个重要因素。目前家用的带宽已经可以提供10Mbps的网速,理论上可以实现lOMB/s以上的下载速度,而在一些发达地区或国家,下载速度能够达到50MB/So未来随着网络建设的完善,我国的普通居民的网速也是会大大提高的。
【主权项】
1.本发明是一种全基因组测序数据分析方法,是以互联网上的数以万计或更多的互联网用户的电脑作为计算资源,服务器主机上的数据通过互联网分发到互联网上的用户电脑,即客户端进行分析的方法。2.根据权利要求1,本发明是利用互联网用户的电脑作为计算资源,这与自建局域网或超级计算中心的方案是不同。3.根据权利要求1,海量数据的分发和结果收集是通过服务器端主机完成。4.客户端程序可以通过网络将未能分析成功的数据,转发给其他客户端,进行分析。5.根据权利要求1所述,需要进行分析的海量数据可以是全基因组测序数据,也可以是其他计算量大和计算复杂的大数据。
【专利摘要】本发明是一种全基因组数据的分析方法,特点是能够借助庞大的互联网计算机资源进行大数据的分析。本发明是采用通过网络将一台或几台主机和若干在互联网上的客户机组成工作组来拆分分析任务。这样海量的数据分析任务被数千个甚至数万个客户端计算机完成,然后将分析结果再汇总到主机。每台客户机的配置性能只要达到客户端程序的硬件和软件环境的要求,成千上万台这样的客户端计算机就能发挥出超级计算机的能力,甚至更强。是一种区别于搭建局域网和超算中心的大数据分析解决方法。
【IPC分类】G06F19/18
【公开号】CN105117619
【申请号】CN201510482857
【发明人】杨福辉
【申请人】杨福辉
【公开日】2015年12月2日
【申请日】2015年8月10日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1