Sanger测序峰图截取标识方法、系统、计算机设备及存储介质与流程

文档序号:26594445发布日期:2021-09-10 21:59阅读:794来源:国知局
Sanger测序峰图截取标识方法、系统、计算机设备及存储介质与流程
sanger测序峰图截取标识方法、系统、计算机设备及存储介质
技术领域
1.本发明属于基因检测技术领域,具体涉及一种sanger测序峰图截取标识方法、系统及存储介质。


背景技术:

2.pcr

飞行时间质谱法可以利用核苷酸分子量的差异,对设定核酸位点的多态性进行检测,因此可以利用此原理开发基于飞行时间质谱平台的基因检测试剂盒。飞行时间质谱平台和基于该平台的基因检测试剂盒在实际应用于临床前,需要用大量的临床样本来进行检测测试,将检测结果与临床样本的金标准进行对比评价,以此来确认其有效性。
3.由于sanger测序法是临床样本核酸位点多态性检测的金标准方法之一,因此在用飞行时间质谱平台检测核酸位点多态性的临床确认试验过程中,需要用sanger测序法对相同样本的相同核酸检测位点进行确认。由于sanger测序技术原因,在检测核酸位点多态性时,需要对该位点前后一共至少150bp的核酸序列进行测序。测序公司返回的测序结果是一份记录每个碱基峰图的ab1文件,需要用特定的软件来打开该测序文件查看碱基峰图和碱基序列。打开文件后,可以用在软件的搜索框内输入一段包含检测位点(或与检测位点相邻)的序列或用肉眼识别序列的方法从测序峰图序列中查找检测位点并识别检测基因型。在提交的临床试验材料中,需要包含有临床试验中每例样本对应的每个检测位点的sanger测序峰图截图和基因型统计等信息,且在截图中需要有相关的样本名称、检测位点名称、碱基序列中检测位点碱基标识等信息。
4.对sanger测序峰图进行手动截图标识的过程为:
⑴ꢀ
用chromas软件打开sanger测序ab1文件显示碱基序列峰图,调整横向或纵向缩放比例,使屏幕中峰图的宽度和高度处于合适的显示状态;
⑵ꢀ
拉动横向移动条肉眼识别检测位点,或用序列查找检测位点,调整横向移动条使检测位点处于合适的截图区域内;
⑶ꢀ
用快捷键(alt+a)进行屏幕截图,上、下、左、右调整截图区域,用截图工具栏中的工具对检测位点的碱基进行醒目标注(如添加红色垂直箭头或红色方框),按照文件命名格式对截图进行保存;
⑷ꢀ
将以上截图添加至word或ppt文档中,在图片左侧空白区域内添加文本框,文本框中输入位点名称和样本id名等相关信息,将图片与文本框组合保存成图片类型,并按照文件命名格式进行命名。
5.手动截图标识方法只适用于处理少量的sanger测序结果,且在遇到异常测序峰(将正常的杂合双峰测成两个单峰)时可能会将基因型识别错误。当有大量检测样本且每例样本有多个检测位点时,手动截图标识过程会耗时耗力、效率低下,且容易出错。用手动截图标识发现,对180例样本的1个位点进行截图标识处理,平均每个人需要大概8个小时的处理时间,并且还不算基因型统计用时。而一个临床确认试验中的样本量从几百例到几千例不等,且每例样本的检测位点实际会有多个(正常会在10个左右到20个左右之间),因此迫
切希望开发一种自动批量截图标识系统来替代原始的手动截图标识方法。


技术实现要素:

6.为了克服人工截图效率低下,不适宜对大量样本、多位点的sanger测序结果进行截图标识处理,且在遇到异常测序峰时可能会将基因型识别错误的问题,本发明提供了一种能解决上述问题的sanger测序峰图截取标识系统。
7.本发明的目的通过以下技术方案实现:本发明第一方面提供了一种sanger测序峰图截取标识方法,包括如下步骤:s1、读取测序文件和配置文件信息,基于所述测序文件导出碱基峰图和碱基序列;s2、处理所述碱基峰图和碱基序列,识别延伸碱基信息;s3、基于识别得到的延伸碱基信息截取并标识延伸碱基序列峰图。
8.进一步的,步骤s1中,所述测序文件和配置文件包括:单个或大量压缩后的sanger测序ab1文件和json配置文件,所述json配置文件中至少包含测序引物名称、检测位点名称和识别序列信息。
9.进一步的,步骤s1具体包括:s11、对测序文件中的所有ab1文件按照测序引物名称进行分组;s12、根据识别序列对每组ab1文件进行处理,使用sangerseqr包从ab1文件中导出碱基峰图和碱基序列,其中碱基峰图包括测序全长峰图和包含检测位点在内的20nt碱基长度峰图截图,碱基序列包括primary序列和secondary序列两种序列。
10.进一步的,步骤s12中,导出20nt碱基长度峰图截图时,先确定在全长序列5’端剪切掉的碱基数量trim5和在全长序列3’端剪切掉的碱基数量trim3,确定剪切碱基数量的过程如下:s121、用识别序列识别检测位点位置;s122、当primary序列中的检测位点位置识别成功后,获得不包含分割序列在内的首尾两段碱基序列;s123、当识别序列在检测位点5’端时,trim5=首段碱基序列长度+分割序列长度

10,trim3=尾段碱基序列长度

10;当识别序列在检测位点3’端时,trim5=首段碱基序列长度

11,trim3=尾段碱基序列长度+分割序列长度

9。
11.进一步的,步骤s121中,检测位点位置识别过程如下:用识别序列全长作为对测序序列进行分割的分割序列,若分割序列在测序序列中完全存在,则对测序序列进行分割,否则不能进行分割;若分割序列不能进行分割,则从原分割序列末端剪切掉一个碱基后作为新的分割序列继续进行分割尝试,若仍不能分割,则继续重复该过程,其中,从原分割序列末端剪切掉一个碱基时,标注有
‘3’
的识别序列从3’端剪切,反之从5’端剪切;若识别序列末端剪切掉5个碱基后仍不能进行分割,或出现分割结果超过两段时,则停止分割,并判定检测位点识别失败,不进行后续处理。
12.进一步的,步骤s2具体包括:s21、从导出的碱基序列中识别样本检测基因型;s22、根据检测位点索引值过滤掉检测位点识别错误的样本;
s23、识别截图中的碱基序列及每个碱基左右两侧的像素横坐标值;s24、根据纠错序列对识别错误的基因型进行纠错;s25、确定待用红框标识的基因型两个横向像素坐标值,并将上述信息保存至数据库。
13.进一步的,步骤s21具体包括:s211、分别在primary序列和secondary序列两种序列中识别出检测位点位置;s212、当识别序列在检测位点5’端且检测位点位置识别成功时,检测位点索引值=分割后首段序列长度+分割序列长度+1,检测位点碱基即为该位置的碱基,纠错序列为与检测位点3’端相邻的4个碱基序列;当识别序列在检测位点3’端且检测位点位置识别成功时,检测位点索引值=分割后首段序列长度,检测位点碱基即为该位置的碱基,纠错序列为与检测位点5’端相邻的4个碱基序列;s213、当primary序列和secondary序列两种序列的检测位点a、t、c、g四种碱基字符相同时,判定基因型为纯合,反之基因型为杂合;s214、将识别出的检测位点索引值、基因型、纠错序列等三种信息存储至数据库。
14.进一步的,步骤s22具体包括:s221、从数据库中导出该检测位点所有样本的检测位点索引值;s222、将不在区间[q1
ꢀ‑ꢀ
iqr * par, q3 + iqr * par]内的索引值判定为异常值,进而判定该样本检测位点识别错误,不进行后续处理;其中q1为检测位点索引值数据集的下四分位数,q3为检测位点索引值数据集的上四分位数,iqr= q3

q1,par为预设常数。
[0015]
进一步的,步骤s23具体包括:s231、设置截取的峰图图片为576像素高* 2448像素宽,选择距图片上边界垂直向下88像素的一条水平直线作为碱基坐标识别线,该识别线从左向右依次穿过碱基序列,且穿过位置在每个碱基字母垂直高度的上1/3附近,识别线长度为图片宽度2448像素;s232、在所述识别线上依次从左向右识别,即在图片中依次读取点(88,0)、(88,1)、(88,2)
……
(88,2447)对应的rgb颜色码中的r值、g值和b值进行处理;s233、根据从识别线中输出的rgb颜色码与图片中实际字符的对应关系进行图片字符识别,图片字符识别过程如下:
①ꢀ
若出现了rgb颜色码从rgb1:r>100 & g>100 & b>100变化到rgb2:r>100 & g<100 & b<100,再变化到rgb3:r>100 & g>100 & b>100的过程,则在rgb2横向坐标x位置处出现了字母c,字母c左侧边界横坐标l为x+左边界补偿距离l(

2),字母c右侧边界横坐标r为x+右边界补偿距离r(25);
②ꢀ
若出现了rgb颜色码从rgb1:r>100 & g>100 & b>100变化到rgb2:r<100 & g>100 & b<100,再变化到rgb3:r>100 & g>100 & b>100的过程,则在rgb2横向坐标x位置处暂定出现了字母a,字母a左侧边界横坐标l为x+左边界补偿距离l(

8),字母a右侧边界横坐标r为x+右边界补偿距离r(22);
③ꢀ
若出现了rgb颜色码从rgb1:r>100 & g>100 & b>100变化到rgb2:r<100 & g<100 & b>100,再变化到rgb3:r>100 & g>100 & b>100的过程,则在rgb2横向坐标x位置处出现了字母t,字母t左侧边界横坐标l为x+左边界补偿距离l(

12),字母t右侧边界横坐标r
为x+右边界补偿距离r(14);
④ꢀ
若出现了rgb颜色码从rgb1:r>100 & g>100 & b>100变化到rgb2:r<100 & g<100 & b<100,再变化到rgb3:r>100 & g>100 & b>100的过程,则在rgb2横向坐标x位置处出现了字母g,字母g左侧边界横坐标l为x+左边界补偿距离l(

2),字母g右侧边界横坐标r为x+右边界补偿距离r(24);
⑤ꢀ
若出现了rgb颜色码从rgb1:r>100 & g>100 & b>100变化到rgb2:r>100 & g<100 & b>100,再变化到rgb3:r>100 & g>100 & b>100的过程,则在rgb2横向坐标x位置处暂定出现了字母r,字母r左侧边界横坐标l为x+左边界补偿距离l(

2),字母r右侧边界横坐标r为x+右边界补偿距离r(24);

对于识别出a或r的情况,如果识别出的字母是图片中第一个识别出的字母,则直接判为识别出a或r,否则该字母的左边界与前一个字母的右边界之差不小于23时判定为识别出a或r。
[0016]
进一步的,步骤s24具体包括:s241、取数据库中数量最多的纠错序列作为标准序列,其它类型纠错序列为待纠错序列;s242、根据数据库中数量最多的两种基因型所包含的碱基生成可能存在的4种基因型集合;s243、当待纠错序列在检测位点3’端时,待纠错序列5’端第一位碱基作为待定基因型,若待纠错序列碱基与标准序列碱基之间的对应关系满足以下条件之一:
①ꢀ
待纠错序列第2

4位碱基与标准序列第1

3位碱基相同;
②ꢀ
待纠错序列第3、4位碱基与标准序列第2、3位碱基相同,且待纠错序列第2位碱基与标准序列第1位碱基不同;
③ꢀ
待纠错序列第2、4位碱基与标准序列第1、3位碱基相同,且待纠错序列第3位碱基与标准序列第2位碱基不同;
④ꢀ
待纠错序列第2、3位碱基与标准序列第1、2位碱基相同,且待纠错序列第4位碱基与标准序列第3位碱基不同;且待定基因型存在于4种基因型集合中时,将初始识别的基因型与待定基因型合并作为纠错后的基因型;当待纠错序列在检测位点5’端时,待纠错序列3’端第一位碱基作为待定基因型,若待纠错序列碱基与标准序列碱基之间的对应关系满足以下条件之一
①ꢀ
待纠错序列第1

3位碱基与标准序列第2

4位碱基相同;
②ꢀ
待纠错序列第2、3位碱基与标准序列第3、4位碱基相同,且待纠错序列第1位碱基与标准序列第2位碱基不同;
③ꢀ
待纠错序列第1、3位碱基与标准序列第2、4位碱基相同,且待纠错序列第2位碱基与标准序列第3位碱基不同;
④ꢀ
待纠错序列第1、2位碱基与标准序列第2、3位碱基相同,且待纠错序列第3位碱基与标准序列第4位碱基不同;且待定基因型存在于4种基因型集合中时,将初始识别的基因型与待定基因型合并作为纠错后的基因型。
[0017]
进一步的,步骤s25中,确定待用红框标识的基因型两个横向像素坐标值具体包括:不需要纠错的基因型的红框标识的两个横向像素坐标值分别为从截图中识别出的碱基序列中的第11位碱基字符的左侧边界横坐标l和右侧边界横坐标r;经过纠错的基因型,且识别序列在检测位点的5’端,红框标识的两个横向像素坐标值分别为从截图中识别出的碱基序列中的第11位碱基字符的左侧边界横坐标l和第12位碱基字符右侧边界横坐标r;经过纠错的基因型,且识别序列在检测位点的3’端,红框标识的两个横向像素坐标值分别为从截图中识别出的碱基序列中的第10位碱基字符的左侧边界横坐标l和第11位碱基字符右侧边界横坐标r。
[0018]
进一步的,步骤s3具体包括:s31、对截图左侧宽440像素的区域以及secondary序列所在区域进行刷白清理,若secondary序列中存在杂合基因型碱基,则不清理该碱基;s32、对检测位点添加红框标识,红框左上角与右下角横向坐标值分别为数据库中记录的红框标记左边界横坐标值

10与右边界横坐标值+10;若基因型为纯合或纠错后的杂合,则红框左上角与右下角纵向坐标值为5和60;若基因型为初始识别的杂合,则红框左上角与右下角纵向坐标值为5和115;s33、在图片左侧刷白区域的固定位置添加检测位点名称及样本名称信息,并将图片截取保存至指定路径。
[0019]
本发明第二方面提供了一种sanger测序峰图截取标识系统,包括本地终端和服务器;所述本地终端基于配置的文件上传模块将需要处理的sanger测序ab1文件上传至服务器;所述服务器基于配置的ab1文件处理模块、序列图像信息处理模块和截图标识处理模块实现上述权利要求1

12中任一项所述的sanger测序峰图截取标识方法;其中,ab1文件处理模块用于读取测序文件和配置文件信息,并基于所述测序文件导出碱基峰图和碱基序列,序列图像信息处理模块用于处理所述碱基峰图和碱基序列,识别延伸碱基信息,截图标识处理模块用于基于识别得到的延伸碱基信息截取并标识延伸碱基序列峰图;所述本地终端基于配置的数据显示下载模块接收查看标识后的延伸碱基序列峰图,或根据需要修改图片碱基序列中的碱基,或指定下载处理后的图片文件、样本处理统计文件或截图处理中间过程文件。
[0020]
本发明第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述本发明第一方面所述方法的步骤。
[0021]
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述本发明第一方面所述的方法的步骤。
[0022]
本发明的有益效果为:采用本发明的sanger测序峰图截取标识方法和系统,可高效地对大量临床样本的sanger测序峰图进行截图标识处理,同时对峰图中检测位点基因型进行识别统计,不再需
要截图人员在手动截取图片后,再用肉眼识别每例样本每个检测位点的基因型后进行手动汇总,从而极大的减少了截图人员进行截图标识和检测位点基因型统计的工作量,进而提高了工作效率,同时也避免了可能存在的人为疏忽错误的出现。
附图说明
[0023]
构成本技术的一部分附图用来提供对本发明的进一步理解,本发明的示意性实例及其说明用于解释本发明,并不构成对本发明的不当限定。
[0024]
图1为本发明方法的流程示意简图。
[0025]
图2为本发明实施例的数据处理流程图。
[0026]
图3为本发明实施例中基因型纠错示意图。
[0027]
图4为本发明实施例中截图中碱基字符及其横向坐标区域值识别过程示意图。
[0028]
图5为本发明实施例中截图操作界面不同区域标识图。
[0029]
图6为本发明实施例中截图中碱基修改操作界面图。
具体实施方式
[0030]
为了使本发明的技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
[0031]
参考附图1,本发明提供了一种sanger测序峰图截取标识方法,包括如下步骤:s1、读取测序文件和配置文件信息,基于所述测序文件导出碱基峰图和碱基序列;s2、处理所述碱基峰图和碱基序列,识别延伸碱基信息;s3、基于识别得到的延伸碱基信息截取并标识延伸碱基序列峰图。
[0032]
下面结合实施例对上述方法做进一步说明。需要说明的是,本发明的方法可通过在计算机或云服务器上配置的、具备相应功能且能够单独或配合实现本发明某一步骤的若干功能模块执行,进而完整实现本发明的方法。下述实施例中的各个功能模块,仅是为了便于本领域技术人员理解本发明方法的实现过程,而非对本发明所述方法的具体限制或偏离。
[0033]
参考附图2,本示出实施例中,基于配置于计算机或云服务器上的文件上传模块、ab1文件处理模块、序列图像信息处理模块、截图标识处理模块及数据显示下载模块实现本发明的方法。文件上传模块用于从本地电脑向服务器上传文件;ab1文件处理模块用于从测序文件中输出序列峰图信息;序列图像信息处理模块用于识别延伸碱基信息;截图标识处理模块用于截取标识延伸碱基序列峰图;数据显示下载模块用于查看下载处理结果。
[0034]
在其中一个实施例中,文件上传模块一键上传单个或大量压缩后的sanger测序ab1文件和json配置文件,压缩文件上传后会进行解压缩,json配置文件中包含了测序引物名称、检测位点名称、识别序列等信息,用panel名称进行文件命名,对同一个panel的测序结果进行截图只需在首次使用时上传json文件即可。
[0035]
在其中一个实施例中,ab1文件处理模块首先会对上传的所有ab1文件按照测序引物名称进行分组,接下来该模块调用软件内部的sangerseqtopdf.r脚本,根据识别序列对每组ab1文件进行处理。sangerseqtopdf.r脚本主要利用sangerseqr包从ab1文件中导出碱基峰图和碱基序列,其中碱基峰图包含两份pdf文件——测序全长峰图和包含检测位点在
内共20nt长度峰图截图,碱基序列包含有primary和secondary两种序列。当碱基峰图为单峰时,primary和secondary序列中该位置的碱基相同;当碱基峰图为双峰时,primary序列中对应的是高峰的碱基,secondary序列中对应的是低峰的碱基,因此可以结合primary与secondary序列中的碱基来初步识别纯合杂合基因型,但有时候测序会把一个双峰测成两个交叉单峰或两个正常单峰,初步识别结果就会把杂合识别成纯合,这时就需要进行纠错处理。导出20nt碱基长度峰图截图时,需要先确定在全长序列5’端剪切掉的碱基数量trim5和在全长序列3’端剪切掉的碱基数量trim3,确定剪切碱基数量的过程如下:
⑴ꢀ
用识别序列识别检测位点位置。识别序列(来源于json配置文件)是一段与检测位点相邻的碱基序列,序列长度默认设置10nt,可根据实际情况在检测位点的5’端或者3’端取识别序列,当识别序列在3’端时,需要在识别序列的左侧添加字符
‘3’
进行标注。由于个别碱基的偶尔测序错误,导致识别序列的所有碱基并不一定能与导出序列中对应位置的序列完全相同,因此需要用特定的识别方法来对检测位点位置进行识别。检测位点位置识别过程如下:
①ꢀ
首先用识别序列全长(若左侧有字符
‘3’
则先删除
‘3’
)作为对测序序列进行分割的分割序列,若分割序列在测序序列中完全存在,则可以对测序序列进行分割,否则不能进行分割,正常情况下应分割成两段;
②ꢀ
若分割序列不能进行分割,则从原分割序列末端剪切掉一个碱基(标注有
‘3’
的识别序列从3’端剪切,反之从5’端剪切)后作为新的分割序列继续进行分割尝试,若仍不能分割成两段,则继续重复该过程;
③ꢀ
识别序列末端最多剪切掉5个碱基长度,若剪切掉5个碱基后仍不能进行分割,或出现分割结果超过两段时,则停止分割,即检测位点识别失败,则不会进行后续处理。
[0036]
⑵ꢀ
当primary序列中的检测位点位置识别成功后,会得的不包含分割序列在内的首尾两段碱基序列;
⑶ꢀ
当识别序列在检测位点5’端时,trim5=首段碱基序列长度+分割序列长度

10,trim3=尾段碱基序列长度

10;
⑷ꢀ
当识别序列在检测位点3’端时,trim5=首段碱基序列长度

11,trim3=尾段碱基序列长度+分割序列长度

9。
[0037]
在其中一个实施例中,序列图像信息处理模块的功能有:从导出的碱基序列中识别样本检测基因型,过滤掉检测位点识别错误的样本,识别截图中的碱基序列及每个碱基左右两侧的像素横坐标值,对识别错误的基因型进行纠错,确定待用红框标识的基因型两个横向像素坐标值,并将这些信息保存至数据库。
[0038]
序列图像信息处理模块根据检测位点索引值来过滤检测位点识别错误的样本,根据纠错序列来进行基因型纠错,检测位点索引值和纠错序列等信息在基因型识别过程中同步生成。基因型识别过程如下:
⑴ꢀ
分别在primary和secondary两种序列中识别出检测位点位置,检测位点位置识别过程同ab1文件处理模块中的检测位点位置识别过程;
⑵ꢀ
当识别序列在检测位点5’端且检测位点位置识别成功时,检测位点索引值=分割后首段序列长度+分割序列长度+1,检测位点碱基即为该位置的碱基,纠错序列为与检测位点3’端相邻的4个碱基序列;
⑶ꢀ
当识别序列在检测位点3’端且检测位点位置识别成功时,检测位点索引值=分割后首段序列长度,检测位点碱基即为该位置的碱基,纠错序列为与检测位点5’端相邻的4个碱基序列;
⑷ꢀ
当primary和secondary两种序列的检测位点碱基字符(仅限a、t、c、g四种字符)相同时,基因型为纯合,反之基因型为杂合;
⑸ꢀ
将识别出的检测位点索引值、基因型、纠错序列等三种信息存储至数据库,当存在有其中一种信息不能被正确识别时,则将检测位点索引值设置为0、基因型设置为“n”、纠错序列设置为
“‑”

[0039]
由于序列中识别序列区域内碱基的偶发测序错误,导致在检测位点旁没有出现分割序列,而在其他位置出现了分割序列这种小概率事件的发生,进而导致检测位点识别错误。同一个检测位点不同样本的测序序列长度虽然不完全相同,但整体偏差不大,所以检测位点在测序序列中的位置索引值应在一个区间内变动,因此可以根据检测位点索引值的异常来找出识别错误的检测位点。序列图像信息处理模块过滤错误检测位点的方法为:从数据库中导出该检测位点所有样本的检测位点索引值,将不在区间[q1
ꢀ‑ꢀ
iqr * par, q3 + iqr * par]内的索引值判定为异常值,说明该样本检测位点识别错误,则不会进行后续处理。其中q1为检测位点索引值数据集的下四分位数,q3为检测位点索引值数据集的上四分位数,iqr= q3

q1,par为一个常数,根据3000份测序文件的测试结果设定该常数值为4。
[0040]
基因型识别错误究其原因是因测序异常,把杂合基因型(如a/t)正常的双峰(即同一个碱基位置出现重叠嵌套的两个峰)测成相邻的两个峰,从而输出成两个相邻的碱基(如at)。在一批测序数据中,出现这种测序异常情况是小概率事件,因此同一个位点的大部分基因型识别结果是正确的,同理大部分的纠错序列也是相同的,在这些纠错序列中不包含检测位点碱基,而在基因型识别错误的纠错序列中则会存在有一个检测位点碱基,序列图像信息处理模块基于此对初始识别的基因型进行纠错,参考附图3,基因型纠错过程如下:
⑴ꢀ
取数据库中数量最多的纠错序列(这些纠错序列对应的基因型中如果包含有杂合则为最优)作为标准序列,其他类型纠错序列为待纠错序列。根据数据库中数量最多的两种基因型所包含的碱基生成可能存在的4种基因型集合,如a、t、a/t、t/a。
[0041]
⑵ꢀ
当待纠错序列在检测位点3’端时,待纠错序列5’端第一位碱基作为待定基因型,若待纠错序列碱基与标准序列碱基之间的对应关系满足以下条件之一,且待定基因型存在于4种基因型集合中时,将初始识别的基因型与待定基因型合并作为纠错后的基因型,若初始识别基因型为a,待定基因型为t,则合并后的基因型为a/t。
[0042]
①ꢀ
待纠错序列第2

4位碱基与标准序列第1

3位碱基相同;
②ꢀ
待纠错序列第3、4位碱基与标准序列第2、3位碱基相同,且待纠错序列第2位碱基与标准序列第1位碱基不同;
③ꢀ
待纠错序列第2、4位碱基与标准序列第1、3位碱基相同,且待纠错序列第3位碱基与标准序列第2位碱基不同;
④ꢀ
待纠错序列第2、3位碱基与标准序列第1、2位碱基相同,且待纠错序列第4位碱基与标准序列第3位碱基不同。
[0043]
⑶ꢀ
当待纠错序列在检测位点5’端时,待纠错序列3’端第一位碱基作为待定基因型,若待纠错序列碱基与标准序列碱基之间的对应关系满足以下条件之一,且待定基因型
存在于4种基因型集合中时,将初始识别的基因型与待定基因型合并作为纠错后的基因型。
[0044]
①ꢀ
待纠错序列第1

3位碱基与标准序列第2

4位碱基相同;
②ꢀ
待纠错序列第2、3位碱基与标准序列第3、4位碱基相同,且待纠错序列第1位碱基与标准序列第2位碱基不同;
③ꢀ
待纠错序列第1、3位碱基与标准序列第2、4位碱基相同,且待纠错序列第2位碱基与标准序列第3位碱基不同;
④ꢀ
待纠错序列第1、2位碱基与标准序列第2、3位碱基相同,且待纠错序列第3位碱基与标准序列第4位碱基不同。
[0045]
虽然在截图时已经对截取的图片进行了统一化处理,如:截取的图片长度、宽度值固定,图片中的碱基序列长度统一为20nt,峰图基线与碱基序列在图片中的高度固定,无需纠错的检测位点在截图碱基序列中的第11位,但每个碱基对应的测序单峰宽并不固定,造成不同样本检测位点基因型在图片中的横向坐标值并不固定,导致检测位点基因型在图片中的位置会随着样本的不同在一段区域内左右移动,另外初始识别的杂合基因型在图片中是两个纵向位置碱基,而纠错后的杂合基因型在图片中是两个横向位置碱基,因此不能用固定坐标值的方法在图片中添加红框标识,而需要根据不同样本检测位点基因型的实际坐标位置来添加红框标识,这就进一步需要先确定添加红框位置的左上与右下两个点的坐标信息。在序列图像信息处理模块中,发明了一种利用图片中碱基序列位置rgb颜色码的变化来识别碱基序列及碱基横向坐标的方法,参考附图4,具体的识别过程为:
⑴ꢀ
设置截取的峰图图片为576像素(高度)* 2448像素(宽度),选择距图片上边界垂直向下88像素的一条水平直线作为碱基坐标识别线,该识别线从左向右依次穿过碱基序列,且穿过位置在每个碱基字母垂直高度的上1/3附近,识别线长度即为图片宽度2448像素;
⑵ꢀ
在识别线上依次从左向右识别,即在图片中依次读取点(88,0)、(88,1)、(88,2)
……
(88,2447)对应的rgb颜色码中的r值、g值和b值进行处理;
⑶ꢀ
根据从识别线中输出的rgb颜色码与图片中实际字符对应关系的研究结果,设计了一套图片字符识别方法,图片字符识别过程如下:
①ꢀ
若出现了rgb颜色码从rgb1(r>100 & g>100 & b>100)变化到rgb2(r>100 & g<100 & b<100),再变化到rgb3(r>100 & g>100 & b>100)的过程,则在rgb2横向坐标x位置处出现了字母c,字母c左侧边界横坐标l为x+左边界补偿距离l(

2),字母c右侧边界横坐标r为x+右边界补偿距离r(25);
②ꢀ
若出现了rgb颜色码从rgb1(r>100 & g>100 & b>100)变化到rgb2(r<100 & g>100 & b<100),再变化到rgb3(r>100 & g>100 & b>100)的过程,则在rgb2横向坐标x位置处暂定出现了字母a,字母a左侧边界横坐标l为x+左边界补偿距离l(

8),字母a右侧边界横坐标r为x+右边界补偿距离r(22);
③ꢀ
若出现了rgb颜色码从rgb1(r>100 & g>100 & b>100)变化到rgb2(r<100 & g<100 & b>100),再变化到rgb3(r>100 & g>100 & b>100)的过程,则在rgb2横向坐标x位置处出现了字母t,字母t左侧边界横坐标l为x+左边界补偿距离l(

12),字母t右侧边界横坐标r为x+右边界补偿距离r(14);
④ꢀ
若出现了rgb颜色码从rgb1(r>100 & g>100 & b>100)变化到rgb2(r<100 & g
<100 & b<100),再变化到rgb3(r>100 & g>100 & b>100)的过程,则在rgb2横向坐标x位置处出现了字母g,字母g左侧边界横坐标l为x+左边界补偿距离l(

2),字母g右侧边界横坐标r为x+右边界补偿距离r(24);
⑤ꢀ
若出现了rgb颜色码从rgb1(r>100 & g>100 & b>100)变化到rgb2(r>100 & g<100 & b>100),再变化到rgb3(r>100 & g>100 & b>100)的过程,则在rgb2横向坐标x位置处暂定出现了字母r(出现r是因测序原因,导致不能从ab1文件中读取碱基a、t、c、g,实际出现概率很低),字母r左侧边界横坐标l为x+左边界补偿距离l(

2),字母r右侧边界横坐标r为x+右边界补偿距离r(24);
⑥ꢀ
由于字母a和r外观结构存在特别之处,识别线要从同一个字母中穿过两次,如果只用以上规则,则同一个a或r会被识别成两个a或r,因此对于识别出a或r的字母,需要附加条件:如果识别出的字母是图片中第一个识别出的字母,则直接判为识别出a或r,否则该字母的左边界与前一个字母的右边界之差不小于23(图片中两个碱基字母之间空白区域的最小宽度)时才能判为识别出a或r。
[0046]
在20nt碱基长度峰图截图中,初始识别的延伸碱基均统一位于第11位碱基处,但经过纠错后,识别序列在延伸碱基5’端的纠错基因型(杂合)的延伸碱基则位于第11、12位碱基处,识别序列在延伸碱基3’端的纠错基因型(杂合)的延伸碱基则位于第10、11位碱基处。因此,不需要纠错的基因型的红框标识的两个横向像素坐标值分别为从截图中识别出的碱基序列中的第11位碱基字符的左侧边界横坐标l和右侧边界横坐标r;经过纠错的基因型,且识别序列在检测位点的5’端,红框标识的两个横向像素坐标值分别为从截图中识别出的碱基序列中的第11位碱基字符的左侧边界横坐标l和第12位碱基字符右侧边界横坐标r;经过纠错的基因型,且识别序列在检测位点的3’端,红框标识的两个横向像素坐标值分别为从截图中识别出的碱基序列中的第10位碱基字符的左侧边界横坐标l和第11位碱基字符右侧边界横坐标r。
[0047]
在其中一个实施例中,截图标识处理模块根据从数据库中读取的信息对图片进行处理。该模块会首先对截图左侧宽440像素的区域以及secondary序列所在区域进行刷白清理,若secondary序列中存在杂合基因型碱基,则该碱基不会被清理;接下来对检测位点添加红框标识,红框左上角与右下角横向坐标值分别为数据库中记录的红框标记(检测基因型碱基字母所在位置)左侧边界横坐标值

10与右侧边界横坐标值+10。若基因型为纯合或纠错后的杂合,则红框左上角与右下角纵向坐标值为5和60;若基因型为初始识别的杂合,则红框左上角与右下角纵向坐标值为5和115;最后在图片左侧刷白区域的固定位置添加检测位点名称及样本名称信息,并将图片保存至指定路径,至此图片处理过程完成。
[0048]
下面结合进一步的具体实施例对本发明的方法进行详细说明,本实施例基于按照本发明的方法所编写的,在本地电脑及服务器上运行的计算机软件程序实现。
[0049]
实施例:基于人类药物代谢和作用靶点多基因联合检测试剂盒(以下简称c17)临床试验样本sanger测序的方法。
[0050]
c17基于核酸质谱平台一共检测17个位点,在临床确认试验中,c17对临床样本的检测结果需要用sanger测序的方法进行确认,即将质谱平台检测出的基因型与从sanger测序峰图中识别出的检测位点基因型进行比较,统计质谱平台结果与sanger测序结果是否一致,且在确认结果中需要提供检测位点的sanger测序峰图作为支撑。
[0051]
sanger测序前首先需要对这17个位点所在的核酸序列进行扩增,然后对这些扩增序列进行测序,每种扩增序列用一种测序引物进行测序,因c.526c>t和c.388t>c两个位点在同一条扩增产物上,所以17个位点的扩增结果只需16条测序引物。在17个位点中有8个位点的识别序列在检测位点的3’端,这些识别序列的左侧带有字符
‘3’
。c17 项目panel的截图标识配置文件c17.json内容如下:{
ꢀꢀ
"h1

f": {"c.100c>t": "tgcacgctac"},
ꢀꢀ
"h2

r": {"c.526c>t": "3cttctgcagg", "c.388t>c":"3cacgtcctcc"},
ꢀꢀ
"h3

r": {"c.430c>t": "3gtcctcaatg"},
ꢀꢀ
"h4

r": {"c.1166a>c": "3gctcatttgg"},
ꢀꢀ
"h5

r": {"c.1173c>t": "gatcatcgac"},
ꢀꢀ
"h6

f": {"c.1165g>c": "cagagcagtc"},
ꢀꢀ
"h8

f": {"c.1510g>a": "ggcatacact"},
ꢀꢀ
"h9

f": {"c.1075a>c": "ccagagatac"},
ꢀꢀ
"h10

f": {"c.

1639g>a": "ccaccgcacc"},
ꢀꢀ
"h11

f": {"c.681g>a": "attatttccc"},
ꢀꢀ
"h12

r": {"c.636g>a": "ttacctggat"},
ꢀꢀ
"h13

r": {"c.

806c>t": "3ctttgagaac"},
ꢀꢀ
"h14

r": {"c.388a>g": "3gatattagtt"},
ꢀꢀ
"h15

f": {"i/d": "agtcactttt"},
ꢀꢀ
"h16

r": {"c.521t>c": "3catatatcca"},
ꢀꢀ
"h17

r": {"c.665c>t": "3ctcccgcaga"}}基于所述软件程序的具体截图操作步骤如下:步骤一:在登录界面进行用户登录,若未注册,则先切换到注册页面进行用户注册;登录成功后,跳转至截图操作界面,如图5所示。在实际临床试验中,所有样本对应的17个位点扩增测序是分批次执行的,以下过程是对其中某一批次4个位点的测序结果进行截图标识处理。
[0052]
步骤二:在上传文件操作区域内选择需要处理的sanger测序ab1文件(包含h10

f、h11

f、h12

r、h13

r共4条测序引物,每条测序引物分别有207个样本),若是第一次处理的panel项目,则还需选择上传对应的json文件(在该实例中从对应路径中选择c17.json文件上传),否则在配置文件选择框内选择对应panel项目的名称,点击提交按钮后,文件上传模块会根据用户名和panel项目名创建路径用于存放本次处理的数据文件。文件上传成功后,软件会自动对压缩文件进行解压缩处理,处理完成后会在系统提示区域内显示“upload success”等信息。
[0053]
步骤三:在数据处理操作区域内点击“ab1 to pdf”按钮,启动ab1文件处理模块,首先对上传的所有ab1文件按照测序引物名称进行分组,接下来分别按组从每组内的所有ab1文件中输出碱基全长序列峰图和包含检测位点在内的一段20nt碱基序列峰图的pdf文件,同时输出primary及secondary碱基序列文本文件。模块运行处理时,在操控界面左下角
显示区域内显示处理进度条,系统提示区域内显示“running ab1 to pdf, start at 2021

06

08 09:33:37.”。运行完成后进度条消失,系统提示区域内显示“complete run, took 156 seconds, a total of 828 files were processed, success 828, fail 0.”,同时在右侧预览区域内自动以表格的形式详细展示每例样本的ab1文件处理状态(即success或fail)。
[0054]
步骤四:在数据处理操作区域内点击“treat extend base”按钮,启动序列图像信息处理模块识别样本检测基因型,包括延伸碱基识别(内含碱基坐标识别过程)和延伸碱基纠错(内含确定基因型标识红框横向坐标过程)两个过程,在每一个过程运行期间,显示区域内有对应过程的进度显示,系统提示区域内显示“running extend base recognition”或“running extend base correction”,运行结束后进度条消失,系统提示区域内会显示“complete run, identification and error correction of extended base took 82 seconds.”,右侧预览区域在上一步结果信息的基础上添加了基因型、检测位点在测序序列中位置索引等信息,对于经过基因型纠错的样本,则会在备注栏显示“correct_heterozygosity”。
[0055]
步骤五:在数据处理操作区域内点击“screenshot annotate”按钮,启动截图标识处理模块进行截图标识处理,运行期间显示区域内显示处理进度,系统提示区域内显示“running screenshot annotation.”,运行结束后进度条消失,系统提示区域内显示“complete run, a total of 825 screenshots are annotated, took 233 seconds.”。
[0056]
步骤六:点击右侧表格操作栏中的“showjpg”按钮,启动数据显示下载模块进行数据查看,在左下角显示区域内会显示对应样本的最终标识截图。显示区域内默认只显示一个样本的截图,即查看下一个样本的截图会默认覆盖已查看的上一个样本截图,若希望显示多个样本截图,则只需点击数据处理操作区域内的“multiple display”单选框,反之,点击“single display”单选框切换至原始默认状态。若希望查看未经标识处理的原始截图,则点击数据处理操作区域内的“middle picture”单选框,反之,点击“final picture”单选框切换至原始默认状态。若希望修改最终截图中的碱基字母(用于处理小概率出现的峰图颜色与碱基不一致的情况),则只需点击右侧表格操作栏中对应的“modifybase”按钮,此时会弹出修改截图碱基序列操作框(如图6所示),在操作框内选择碱基索引和对应的碱基类型,若修改多个碱基,则碱基索引值与碱基类型的顺序要相互对应,点击“submit”按钮即可完成修改。
[0057]
步骤七:在数据处理操作区域内点击“download file”按钮,启动数据显示下载模块即可进行数据下载,在该按钮下展开隐藏的“download jpg”、“download xlsx”、“download pdf”三个下载按钮。点击“download jpg”按钮对已处理的最终标识截图文件进行打包压缩处理,处理完成后在系统提示区域内显示“download file extended_base_sanger_peak.zip generated successfully.”,并在浏览器弹出下载框进行保存;点击“download xlsx”按钮从数据库中导出样本名、测序引物名称、检测位点名称、ab1topdf状态、检测基因型、检测位点索引、是否存在最终截图、备注等8列信息至excel文件,处理完成后在系统提示区域内显示“download file extended_base_genetype_statistics.xlsx generated successfully.”,并在浏览器弹出下载框进行保存;点击“download pdf”按钮对中间过程文件,包括primary序列文件、secondary序列文件、全长序列峰图pdf文件、20nt
碱基序列峰图pdf文件及其转换的jpg图片文件进行打包压缩处理,处理完成后在系统提示区域内显示“download file intermediate_process_document.zip generated successfully.”,并在浏览器弹出下载框进行保存。
[0058]
步骤八:点击截图操作界面右上方的“退出”链接退出登录。
[0059]
软件处理结果显示,在以上828份测序ab1文件中,有3份ab1文件因为测序原因,软件判断检测位点基因型识别错误且无法纠错,导致无最终截图标识图片产生,需重测序;有96份ab1文件因为测序原因,基因型初始识别错误,但经纠错后变为正确,正常输出最终截图标识图片;其他ab1文件处理均无异常。
[0060]
软件在近8分钟内完成了对828份测序结果的截图标识及基因型统计工作,这些测序结果如果用手动截图标识方法处理,则需要一个人累计花费至少37个小时来完成截图标识工作,还不包括基因型统计。
[0061]
综上所述,基于本发明的方法实现的上述sanger测序峰图截取标识软件,可以替代用chromas软件逐一打开每份ab1测序文件后调整峰图区域,再用快捷键加鼠标辅助截图标识保存后,最后再用文本框添加样本名称、位点名称信息的手动方式,只需简单的几次鼠标点击操作即可高效地对大量临床样本的sanger测序峰图进行截图标识处理,同时对峰图中检测位点基因型进行识别统计,不再需要截图人员在手动截取图片后,再用肉眼识别每例样本每个检测位点的基因型后进行手动汇总,从而极大的减少了截图人员进行截图标识和检测位点基因型统计的工作量,进而提高了工作效率,使截图标识过程的处理效率提升了至少280倍;同时也避免了可能存在的人为疏忽错误的出现。
[0062]
以上描述了本发明的实施方式,然其并非用以限定本发明。本领域技术人员对在此公开的实施方案的基础上可进行并不偏离本发明范畴和精神的改进和变化。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1