一种基因组序列的指纹图谱的景观分析方法及用途与流程

文档序号:12720792阅读:289来源:国知局
一种基因组序列的指纹图谱的景观分析方法及用途与流程

本发明属于生物信息学技术领域,更确切的是涉及一种基因组序列的指纹图谱的景观分析方法及用途。



背景技术:

如何辨识基因组不同组装版本的序列的差异,如何校验基因组序列的组装质量,如何检测基因组序列中的大尺度重复序列,是亟待解决的技术问题。

建立一种新方法,集中展示待比较的基因组序列的指纹图谱,观察比较指纹图谱的景观差异,是解决上述技术问题的一种技术方案,有广泛应用前景。

我们之前的专利文献公告CN103106353A公开“一种基因组序列的指纹特征曲线的构造方法”,具体包括建立基因组序列中的每个碱基所对应的三维空间坐标值(xn, yn, zn)(n=1, 2, …, N;N为基因组序列的长度)的方法;依据三维空间坐标值,绘制1个三维空间曲线(xn~yn~zn)的方法;依据三维空间坐标值,分别绘制独立存在的6个(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn) 二维平面轨迹曲线的方法。

本发明采用该专利文献公告CN103106353A作为对比文件,以其公开的技术作为现有的对比技术。本发明以此对比技术为基础,进一步建立新方法及新用途。



技术实现要素:

本发明的内容是,公开2个新方法及3个新用途。

首先,本发明的方法是,组合构造2个基因组序列的指纹图谱,包括1个基因组序列的指纹图谱(a map of genome fingerprints)及1组(含2个或2个以上的)基因组序列的指纹图谱云图(a galaxy of genome fingerprints maps)。以下将采用中英文对照,以确切体现2个新概念的内涵。

本发明所称谓的“基因组序列的指纹图谱(a map of genome fingerprints)”,是一幅组合图;包含1个基因组序列的指纹组合。意指采用专利文献公告CN103106353A公开的技术方法,先计算1个基因组序列中的每个碱基所对应的三维空间坐标值(xn, yn, zn)(n=1, 2, …, N;N为基因组序列的长度);再依据三维空间坐标值,在同一幅组合图中绘制1个基因组序列所对应的1个三维空间曲线图(xn~yn~zn);再依据三维空间坐标值,在同一幅组合图中同时绘制1个基因组序列所对应的6个二维平面轨迹曲线图(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn),共同构成1幅组合图,代表1个基因组序列的指纹组合。

本发明所称谓的“基因组序列的指纹图谱云图(a galaxy of genome fingerprints maps)”,是一幅组合图;包含1组(含2个或2个以上的)基因组序列的指纹图谱的组合。意指在同一幅组合图中同时绘制2个或2个以上的基因组序列的所有指纹图谱的组合,共同构成1幅组合图,代表1组(含2个或2个以上的)基因组序列的指纹组合。简言之,1组(含2个或2个以上的)基因组序列的“指纹图谱(a map of genome fingerprints)”共同组合而成“指纹图谱云图(a galaxy of genome fingerprints maps)”。

其次,本发明的用途是,依据比较分析本发明所组合构造的指纹图谱的综合景观差异,实现3个用途:(1)辨识同一个基因组不同组装版本的序列的差异;(2)校验基因组序列的组装质量;(3)检测基因组序列中的大尺度重复序列。

为了解决上述的技术问题,本发明公开的技术方案包括建立2个新方法以及实现 3个新用途。具体描述如下。

首先,建立2个新方法。组合构造1个基因组序列的指纹图谱(a map of genome fingerprints);组合构造1组(含2个或2个以上的)基因组序列的指纹图谱云图(a galaxy of genome fingerprints maps)。目的是全局集中展示待比较的1个基因组序列之内的指纹图谱或者是1组(含2个或2个以上的)基因组序列之间的指纹图谱云图。

方法之1:组合构造1个基因组序列的指纹图谱(a map of genome fingerprints), 针对给定的1个基因组序列,首先采用专利文献公告CN103106353A公开的技术方法,计算每个碱基的三维空间坐标值(xn, yn, zn)(n=1, 2, …, N;N为基因组序列的长度);然后采用绘图软件,依据三维空间坐标值,在同一幅组合图中同时绘制6个二维平面轨迹曲线图(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn);还可以在同一幅组合图中同时绘制1个三维空间曲线图(xn~yn~zn)。这种组合图,全局展示1个基因组序列的指纹图谱,观察和比较的视野开阔。例如,实施例1中提及的图1,注意图1中基因组序列的长度n被表示为Genome Length。又例如,实施例6中提及的图6。

方法之2:组合构造1组(含2个或2个以上的)基因组序列的指纹图谱云图(a galaxy of genome fingerprints maps),针对给定的1组(含2个或2个以上的)基因组序列,首先逐一选择每个基因组序列,并采用专利文献公告CN103106353A公开的技术方法,计算每个碱基的三维空间坐标值(xn, yn, zn)(n=1, 2, …, N;N为基因组序列的长度));然后采用绘图软件,分别依据所获得的每个基因组序列的三维空间坐标值,在同一幅组合图中同时绘制每个基因组序列所对应的6个二维平面轨迹曲线图(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn);还可以在同一幅组合图中同时绘制每个基因组序列所对应的1个三维空间曲线图(xn~yn~zn)。这种组合图,全局展示1组(含2个或2个以上的)基因组中的所有基因组序列的指纹图谱,观察和比较的视野更开阔。例如,实施例3中提及的图3,注意图3中基因组序列的长度n被表示为Genome Length。

其次,实现3个新用途。观察如前述的本发明所组合构造的指纹图谱和指纹图谱云图,比较和分析指纹图谱的综合景观的差异。目的是判定:(1)辨识同一个基因组的不同组装版本之间的序列的差异;(2)校验基因组序列的组装质量;(3)检测基因组序列中的大尺度重复序列。

用途之1:辨识同一个基因组的不同组装版本之间的序列差异,例如,实施实例1中提及图1,辨识同一个基因组的2个组装版本之间的序列差异,结果发现显示完全不同的指纹图谱云图。又例如,实施实例2中提及图2,辨识同一个基因组的3次更新的组装版本之间的序列差异,结果显示完全相同的指纹图谱云图。

用途之2:校验基因组序列的组装质量, 例如,实施实例3中提及图3,辨识同一个物种大猩猩中2个个体GGO3和Susie3之间的第4号染色体的基因组序列的差异,结果显示它们的指纹图谱略有不同,但是相近似;符合个体水平的差异程度。但是,又例如,实施实例4中提及图4,辨识2个近缘的物种的第4号染色体大猩猩GGO3.chr4与黑猩猩PTR2.chr4之间基因组序列的差异,结果发现大猩猩GGO3.chr4在指纹图谱上存在大尺度的异常直线(注意观察(y~x),(x~Genome Length),(z~x),(y~ Genome Length),(z~y)分图)(图4),提示可能存在大尺度的组装错误,达到校验基因组序列的组装质量的目的。又例如,实施例6中提及的图6。

用途之3:检测基因组序列中的大尺度重复序列,检测基因组序列中的大尺度重复序列,推测可能导致大尺度的的组装错误;删除大尺度重复序列,可以校正组装错误;校正后的组装版本与组装正确的近缘的物种基因组显示相似的指纹图谱。确认校验基因组序列的组装质量。例如,实施实例5中提及图5(注意观察(y~x),(x~Genome Length),(z~x),(y~ Genome Length),(z~y)分图)(图5)。又例如,实施例6中提及的图6。

与专利文献公告CN103106353A公开的现有的对比技术相比,本发明以此为基础,建立了新方法及新用途,取得了有益效果。本发明的方法是组合构造2个新型的指纹图谱,即1个基因组序列的指纹图谱和1组(含2个或2个以上的)基因组序列的指纹图谱云图,由此全局集中展示待比较的1个基因组序列之内、或者1组(含2个或2个以上的)基因组序列之间的指纹图谱,观察比较指纹图谱的综合景观的差异,视野更开阔,结论更客观。更进一步地,本发明的用途包括3个方面,依据指纹图谱的综合景观分析,可以判定(1)辨识同一个基因组的不同组装版本的序列的差异;(2)校验基因组序列的组装质量;(3)检测基因组序列中的大尺度重复序列。这些都体现了本发明的新颖性、创造性和实用性。

附图说明

下面结合附图和具体实施方式对本发明做进一步详细的说明。

图1是2个不同版本的人类Y染色体序列的指纹图谱云图。包括2个版本Y染色体序列GRCh37p13.chrY和GRCh38p1.chrY的6个二维平面轨迹曲线图(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn)。辨识同1个基因组的2个不同组装版本之间的序列差异,显示完全不同的指纹图谱云图。

图2是3个不同版本的人类Y染色体序列的指纹图谱云图。包括人类基因组Y染色体的3次更新版本GRCh38p1.chrY、GRCh38p2.chrY和GRCh38p7.chrY。辨识同1个基因组的3个不同组装版本(3次更新)之间的序列差异,显示完全相同的指纹图谱云图。

图3是大猩猩中2个不同个体GGO3和Susie3基因组的第4号染色体序列GGO3.chr4和Susie3.chr4的指纹图谱云图。显示指纹图谱云图不同,但是相近似。

图4是近缘的大猩猩与黑猩猩的第4号染色体GGO3.chr4与PTR2.chr4的指纹图谱云图。GGO3.chr4在指纹图谱云图上存在大尺度的异常直线,提示可能存在大尺度的组装错误。提示校验基因组序列的组装质量。

图5是黑猩猩PTR2.chr4与校正后大猩猩reass.GGO3.chr4的指纹图谱云图。显示校正后的组装版本与组装正确的近缘的物种基因组相似的指纹图谱。

图6是大猩猩GGO3的基因组(共24条染色体)序列的指纹图谱云图(是三维曲线图)。检测到第4号染色体GGO3.chr4存在大尺度直线(上图),提示可能存在大尺度组装错误(上图)。定位删除大尺度直线所对应的序列,可校正组装错误(下图)。校正后第4号染色体reass.GGO3.chr4的组装版本与组装正确的其他染色体显示相匹配的指纹图谱(下图)。

具体实施方式

实施实例1:辨识同一个基因组的不同组装版本之间的序列差异,例如,人类基因组的Y染色体有GRCh37p13.chrY版本(GENBANK NC_000024.9)和GRCh38p1.chrY版本(GENBANK NC_000024.10)。分别选择1个Y染色体版本,采用专利文献公告CN103106353A公开的技术方法,计算每个碱基的三维空间坐标值(xn, yn, zn)(n=1, 2, …, N;N为基因组序列的长度);采用绘图软件,依据2个版本序列的三维空间坐标值,在同一幅组合图中同时绘制2个版本的Y染色体序列GRCh37p13.chrY和GRCh38p1.chrY的6个二维平面轨迹曲线图(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn)。由此构造2个不同版本的Y染色体序列的指纹图谱云图(图1),结果显示完全不同的指纹图谱,说明同一个Y染色体的两个版本之间的发生很大的变化,反映该Y染色体的初始组装质量不稳定。注意图1中基因组序列的长度n被表示为Genome Length。

实施实例2:辨识同一个基因组的不同组装版本之间的序列差异,例如,人类基因组的Y染色体有3次更新版本GRCh38p1.chrY(GENBANK NC_000024.10)、GRCh38p2.chrY(GENBANK NC_000024.10)、GRCh38p7.chrY(GENBANK NC_000024.10)。分别选择1个更新版本的Y染色体序列,采用专利文献公告CN103106353A公开的技术方法,计算每个碱基的三维空间坐标值(xn, yn, zn)(n=1, 2, …, N;N为基因组序列的长度);采用绘图软件,依据3个版本序列的三维空间坐标值,在同一幅组合图中同时绘制3个更新版本序列的6个二维平面轨迹曲线图(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn)。由此构造3个更新版本的Y染色体序列的指纹图谱云图(图2)。结果显示它们之间具有完全相同的指纹图谱(图2),反映所标记的3次更新版本中实际上该Y染色体序列并没有更新变化。注意图2中基因组序列的长度n被表示为Genome Length。

实施实例3:辨识同一个物种内的2个不同个体的基因组序列之间的差异,例如,从大猩猩中2个不同个体GGO3和Susie3基因组序列中分别选择第4号染色体GGO3.chr4序列(GENBANK NC_018428.1)与Susie3.chr4序列(GENBANK FR853097.2),采用专利文献公告CN103106353A公开的技术方法,分别计算每个碱基的三维空间坐标值(xn, yn, zn)(n=1, 2, …, N;N为基因组序列的长度);采用绘图软件,依据这2个染色体序列的三维空间坐标值,在同一幅组合图中同时绘制这2个染色体序列的6个二维平面轨迹曲线图(xn~n),(yn~n),(zn~n),(yn~xn),(zn~xn),(zn~yn)。由此构造2个染色体序列的指纹图谱云图(图3)。结果显示它们具有不同的、却近似的指纹图谱(图3)。注意图3中基因组序列的长度n被表示为Genome Length。

实施实例4:校验基因组序列的组装质量;同时辨识近缘的2个物种内的2个不同个体的基因组序列之间的差异,例如,大猩猩GGO3与黑猩猩PTR2是近亲,它们的基因组序列本来应该很相似。按照本发明如前所述的方法,构造其中的2个染色体序列的指纹图谱云图,预期也应该很相似。但是,实际上,第4号染色体GGO3.chr4(GENBANK NC_018428.1)与PTR2.chr4(GENBANK NC_006471.3)显示完全不同的指纹图谱(图4)。尤其是GGO3.chr4中存在大尺度的直线,提示GGO3.chr4可能存在大尺度的组装错误(图4)。注意图4中基因组序列的长度n被表示为Genome Length。

实施实例5:检测基因组序列中大尺度重复序列;同时提示校正基因组序列的错误组装,例如,本发明实施实例4中比较近缘的大猩猩GGO3与黑猩猩PTR2中第4号染色体,GGO3.chr4(GENBANK NC_018428.1)与PTR2.chr4(GENBANK NC_006471.3),发现它们的指纹图谱完全不同;GGO3.chr4存在大尺度的直线(图4)。依此指引,定位删除从49632030至59639020碱基约10292967个碱基的大尺度序列,可以校正该组装错误(图5)。校正后的组装版本reass.GGO3.chr4恢复了与组装正确的近缘的物种的PTR2.chr4具有相似的指纹图谱(图5)。经过进一步分析确认:被定位删除的序列实际上是大尺度重复序列;正是该大尺度的重复序列导致GGO3.chr4(GENBANK NC_018428.1)染色体序列中存在大尺度组装错误。注意图5中基因组序列的长度n被表示为Genome Length。

实施实例6:检测基因组序列中大尺度重复序列;提示校正基因组序列的错误组装,例如,大猩猩GGO3 全基因组共含有24条染色体。按照本发明所述的方法绘制大猩猩GGO3共24条染色体序列的1个三维空间曲线图(xn~yn~zn),即是全部指纹图谱云图(图6)。发现GGO3.chr4(GENBANK NC_018428.1),GGO3.chr10(GENBANK NC_018434.1),GGO3.chr21(NC_018445.1)等指纹图谱与众完全不同,都存在大尺度的直线(图6),提示可能存在大尺度的组装错误。依此指引,分别定位删除10292967个,120924个,163127个碱基的大尺度序列,可以校正这3个染色体的大尺度组装错误(图6)。校正后的组装版本reass.GGO3.chr4,reass.GGO3.chr10,reass.GGO3.chr21恢复了与组装正确的其余21条染色体序列相匹配的指纹图谱,包括GGO3.chr1,GGO3.chr2A,GGO3.chr2B,GGO3.chr3,GGO3.chr5,GGO3.chr6,GGO3.chr7,GGO3.chr8,GGO3.chr9,GGO3.chr11,GGO3.chr12,GGO3.chr13,GGO3.chr14,GGO3.chr15,GGO3.chr16,GGO3.chr17,GGO3.chr18,GGO3.chr19,GGO3.chr20, GGO3.chr22,GGO3.chrX等(图6)。经过进一步分析确认被定位删除的3个大尺度序列实际上都是大尺度的重复序列;正是这些大尺度的重复序列导致GGO3.chr4,GGO3.chr10,GGO3.chr21等3个染色体的大尺度的组装错误。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1