碱基检出系统的质量分数校准的制作方法

文档序号:37019370发布日期:2024-02-09 13:12阅读:70来源:国知局
碱基检出系统的质量分数校准的制作方法

本发明所公开的技术涉及人工智能类型计算机和数字数据处理系统以及对应数据处理方法和用于仿真智能的产品(即,基于知识的系统、推断系统和知识采集系统);并且包括用于不确定性推断的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。具体地,所公开的技术涉及将深度神经网络诸如深度卷积神经网络用于分析数据。文献并入以下文献以引用方式并入,即如同在本文完整示出一样:2020年2月20日提交的标题为“artificial intelligence-based base callingof index sequences”的美国临时专利申请号62/979,384(代理人案卷号illm 1015-1/ip-1857-prv);2020年2月20日提交的名称为“artificial intelligence-based many-to-manybase calling”的美国临时专利申请号62/979,414(代理人案卷号illm 1016-1/ip-1858-prv);2020年3月20日提交的名称为“training data generation for artificialintelligence-based sequencing”的美国非临时专利申请号16/825,987(代理人案卷号illm 1008-16/ip-1693-us);2020年3月20日提交的标题为“artificial intelligence-based generation ofsequencing metadata”的美国非临时专利申请号16/825,991(代理人案卷号illm 1008-17/ip-1741-us);2020年3月20日提交的标题为“artificial intelligence-based base calling”的美国非临时专利申请号16/826,126(代理人案卷号illm 1008-18/ip-1744-us);2020年3月20日提交的标题为“artificial intelligence-based qualityscoring”的美国非临时专利申请号16/826,134(代理人案卷号illm 1008-19/ip-1747-us);以及2020年3月21日提交的标题为“artificial intelligence-based sequencing”的美国非临时专利申请号16/826,168(代理人案卷号illm 1008-20/ip-1752-prv-us)。


背景技术:

1、本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。

2、近年来,计算能力的快速提高使得深度卷积神经网络(cnn)在许多准确度显著提高的计算机视觉任务上取得了很大的成功。在推理阶段,许多应用需要以严格的功率消耗要求对一个图像进行低延迟处理,这降低图形处理单元(gpu)和其他通用平台的效率,通过定制专用于深度学习算法推理的数字电路,为特定的加速硬件(例如,现场可编程门阵列(fpga))带来机会。然而,由于大数据量、密集型计算、变化的算法结构和频繁的存储器访问,在便携式和嵌入式系统上部署cnn仍然具有挑战性。

3、由于卷积在cnn中对大部分运算有贡献,因此卷积加速方案显著地影响硬件cnn加速器的效率和性能。卷积涉及具有沿内核和特征图滑动的四个循环级的乘法和累加(mac)运算。第一循环级计算内核窗口内的像素的mac。第二循环级跨不同的输入特征图累加mac的乘积之和。在完成第一循环级和第二循环级之后,通过添加偏置来获得输出特征图中的最终的输出元素。第三循环级在输入特征图内滑动内核窗口。第四循环级生成不同的输出特征图。

4、fpga由于其(1)高度可重构性,(2)与专用集成电路(asic)相比开发时间更快,以跟上cnn的快速发展,(3)良好的性能,以及(4)与gpu相比优越的能量效率,获得了越来越多的关注和普及,特别是在加速推理任务方面。fpga的高性能和高效率可以通过合成针对特定计算定制的电路来实现,以利用定制的存储器系统直接处理数十亿次运算。例如,现代fpga上的数百至数千个数字信号处理(dsp)块以高并行性支持核心卷积运算,例如乘法和加法。外部片上存储器和片上处理引擎(pe)之间的专用数据缓冲器可被设计成通过在fpga芯片上配置数十兆字节的片上块随机存取存储器(bram)来实现优选的数据流。

5、需要高效的数据流和cnn加速的硬件架构来最小化数据通信,同时最大化资源利用来实现高性能。因此有机会设计出在具有高性能、高效率和高度灵活性的加速硬件上加速各种cnn算法的推理过程的方法和框架。

6、深度神经网络由于其广泛的适用性和增强的预测能力而在生物信息学研究方面具有巨大前景。卷积神经网络已被用于解决基因组学中基于序列的问题,诸如基序发现、致病性变体鉴定和基因表达推断。卷积神经网络使用权重共享策略,该策略尤其可用于研究dna,因为其可捕获序列基序,该序列基序是dna中被假定具有显著生物学功能的短且反复出现的局部模式。神经网络可捕获具有不同长度的序列数据(诸如蛋白质或dna序列)中的长程依赖。因此,有机会使用基于深度学习的原则框架来进行碱基检出。

7、存在以下需要:增加可快速且高性价比地获得的核酸测序数据的质量和数量以用于各种各样的用途,包括基因组学(例如,用于任何和所有动物、植物、微生物或其他生物物种或群体的基因组表征)、药物遗传学、转录组学、诊断学、预后、生物医学风险评估、临床和研究遗传学、个体化医学、药物功效及药物相互作用评估、兽医学、农业、进化及生物多样性研究、水产养殖、林业、海洋学、生态及环境管理以及其他目的。例如,深度学习网络模型或其他适当的模型可用来生成用于多种基因组学的测序数据。

8、除了生成碱基检出之外,此类模型还生成对应的质量分数。一般来讲,质量分数以对数尺度提供对以下的指示:碱基被检出为腺嘌呤(a)、胸腺嘧啶(t)、鸟嘌呤(g)或胞嘧啶(c)的概率。例如,碱基的质量分数q(a)提供对碱基为a的概率的指示;碱基的质量分数q(c)提供对碱基为c的概率的指示等等。

9、通常,质量分数用于做出关键决策,诸如关键健康护理决策。例如,在健康护理环境中,与检测人类组织样本的碱基相关联的质量分数可能影响治疗健康病症的方法。因此,期望针对碱基检出而生成的质量分数相对准确和可依赖。例如,期望针对碱基检出而生成的质量分数与根据经验确定的质量分数(其表示真实的质量分数)更加一致。


技术实现思路



技术特征:

1.一种通过碱基检出器来生成碱基检出的计算机实现的方法,所述方法包括:

2.根据权利要求1所述的方法,其中所述第二范围完全涵盖在所述第一范围内。

3.根据权利要求1或2所述的方法,其中所述第一范围内的一个或多个异常传感器数据不存在于传感器数据的所述第二范围中。

4.根据权利要求1至3中任一项所述的方法,其中识别所述第二范围包括:

5.根据权利要求4所述的方法,其中所述较低阈值百分比或所述较高阈值百分比中的至少一者为0.5%或更小。

6.根据权利要求4或5所述的方法,其中所述较低阈值百分比或所述较高阈值百分比中的至少一者为1.0%或更小。

7.根据权利要求4至6中任一项所述的方法,其中所述较低阈值百分比和所述较高阈值百分比中的每一者为0.5%或更小。

8.根据权利要求4至7中任一项所述的方法,其中所述较低阈值百分比和所述较高阈值百分比中的每一者为1%或更小。

9.根据权利要求4至8中任一项所述的方法,所述方法还包括:

10.根据权利要求4至9中任一项所述的方法,所述方法还包括:

11.根据权利要求1至10中任一项所述的方法,其中映射所述多个传感器数据的至少子集包括:

12.根据权利要求1至11中任一项所述的方法,其中所述第二范围的至少部分与所述第三范围不重叠。

13.根据权利要求1至12中任一项所述的方法,其中所述多个传感器数据中的各个传感器数据包括从所述流通池生成的图像的对应区段的对应强度。

14.根据权利要求1至13中任一项所述的方法,所述方法还包括:

15.根据权利要求14所述的方法,所述方法还包括:

16.根据权利要求15所述的方法,所述方法还包括:

17.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质印有计算机程序指令,所述计算机程序指令当在处理器上执行时实现包括以下各项的方法:

18.根据权利要求17所述的非暂态计算机可读存储介质,其中所述第二范围完全涵盖在所述第一范围内。

19.根据权利要求17或18所述的非暂态计算机可读存储介质,其中所述第一范围内的一个或多个异常强度值不存在于所述阈值百分比的所述多个强度值中。

20.根据权利要求17至19中任一项所述的非暂态计算机可读存储介质,其中识别所述第二范围包括:

21.根据权利要求20所述的非暂态计算机可读存储介质,其中所述较低阈值百分比或所述较高阈值百分比中的至少一者为0.5%或更小。

22.根据权利要求20或21所述的非暂态计算机可读存储介质,其中所述较低阈值百分比和所述较高阈值百分比中的每一者为1.0%或更小。

23.根据权利要求20至22中任一项所述的非暂态计算机可读存储介质,所述非暂态计算机可读存储介质还包括:

24.根据权利要求20至23中任一项所述的非暂态计算机可读存储介质,所述非暂态计算机可读存储介质还包括:

25.根据权利要求17至24中任一项所述的非暂态计算机可读存储介质,其中所述映射包括:

26.根据权利要求17至25中任一项所述的非暂态计算机可读存储介质,其中所述第二范围的至少部分与所述第三范围不重叠。

27.一种用于碱基检出的系统,所述系统包括:


技术总结
本发明公开了一种由碱基检出器生成碱基检出的方法。该方法包括:接收来自流通池的多个传感器数据,其中该多个传感器数据在第一范围内;以及识别第二范围,使得至少阈值百分比的该多个传感器数据在第二范围内。将该多个传感器数据的在该第二范围内的至少子集映射到第三范围,从而生成多个归一化的传感器数据。在碱基检出器中处理该多个归一化的传感器数据以针对该多个归一化的传感器数据检出一个或多个对应碱基。

技术研发人员:R·保罗,D·卡什夫哈吉吉,J·S·维切利,A·D·海伯格
受保护的技术使用者:因美纳有限公司
技术研发日:
技术公布日:2024/2/8
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1