用于使用神经网络进行种系和体细胞变体调用的系统和方法与流程

文档序号：26009840发布日期：2021-07-23 21:29阅读：来源：国知局

技术特征：

1.一种用于种系变体调用的方法，所述方法包括：

获得参考序列、多条序列读取和所述序列读取内候选变体的位置；

通过将一个或多个空格插入一条或多条序列读取中而获得经扩充序列读取；

通过将一个或多个空格插入所述参考序列中而获得经扩充参考序列；

将所述候选变体周围的所述经扩充序列读取的片段转换为样本矩阵；

将所述候选变体周围的所述经扩充参考序列的片段转换为参考矩阵；

将所述样本矩阵和所述参考矩阵提供给受训神经网络；以及

在所述受训神经网络的输出端，获得关于所述多条序列读取内的变体的预测数据。

2.根据权利要求1所述的方法，其进一步包括检测所述多条序列读取内的一个或多个插入碱基，其中扩充所述序列读取和所述参考序列包括：

对于在所述序列读取中的任一条中检测到的每个插入碱基，在所述插入碱基的位置处将空格插入所述参考样本中。

3.根据权利要求2所述的方法，其进一步包括：

对于在所述序列读取中的任一条中检测到的每个插入碱基，在所述插入碱基的位置处将空格插入每一条在所述插入碱基的位置处没有检测到插入的序列读取中。

4.根据权利要求1所述的方法，其中所述样本矩阵包含：

至少四个表示四种类型的核苷酸碱基的行，每一行表示在所述经扩充序列读取的片段内不同位置处的相应核苷酸碱基类型的碱基数；和

至少一个表示在所述经扩充序列读取的片段内不同位置处的插入空格数的行。

5.根据权利要求4所述的方法，其中所述参考矩阵具有与样本矩阵相同的维数，并且其中所述参考矩阵提供所述经扩充参考序列内不同核苷酸碱基和空格的定位的完全表示。

6.根据权利要求1所述的方法，其中所述受训神经网络包含受训卷积神经网络。

7.根据权利要求1所述的方法，其进一步包括向所述受训神经网络提供以下项中的至少一项：

变体位置矩阵，其表示所述经扩充序列读取的片段内所述候选变体的位置；

覆盖率矩阵，其表示所述经扩充序列读取的片段的覆盖率或深度；

比对特征矩阵，其表示所述经扩充序列读取的比对特征；

知识性碱基矩阵，其表示关于一个或多个变体的公开已知信息的信息。

8.根据权利要求1所述的方法，其中所述关于变体的预测数据包含以下项中的至少一项：

所述变体的预测类型；

所述变体的预测位置；

所述变体的预测长度；以及

所述变体的预测基因型。

9.根据权利要求1所述的方法，其中所述关于变体的预测数据包含所述变体的预测类型，并且其中所述神经网络构造成产生针对所述变体的预测类型的多个值中的一个，所述多个值包括：

第一值，其指示所述变体为假阳性的概率；

第二值，其指示所述变体为单核苷酸多态性变体的概率；

第三值，其指示所述变体为缺失变体的概率；以及

第四值，其指示所述变体为插入变体的概率。

10.一种用于体细胞变体调用的方法，所述方法包括：

获得多条正常序列读取和多条肿瘤序列读取；

将所述正常序列读取的片段和所述肿瘤序列读取的片段分别转换为正常样本矩阵和肿瘤样本矩阵；

将所述正常样本矩阵和所述肿瘤样本矩阵馈入受训卷积神经网络中；以及

在所述受训卷积神经网络的输出端，获得所述多条肿瘤序列读取内的体细胞变体的预测类型。

11.根据权利要求10所述的方法，其中所述多条肿瘤序列读取表示患者的肿瘤样本的遗传信息，并且所述多条正常序列读取表示所述患者的正常样本的遗传信息。

12.根据权利要求10所述的方法，其中：

将所述正常序列读取的片段转换为所述正常样本矩阵包括通过将一个或多个空格插入一条或多条正常序列读取中而扩充所述正常序列读取的片段；以及

将所述肿瘤序列读取的片段转换为所述肿瘤样本矩阵包括通过将一个或多个空格插入一条或多条肿瘤序列读取中而扩充所述肿瘤序列读取的片段。

13.根据权利要求10所述的方法，其中所述肿瘤样本矩阵包含：

至少一个针对每个核苷酸碱基类型的行，每一行表示相应核苷酸碱基类型在所述肿瘤序列读取的片段内每个位置处出现的次数；和

至少一个表示在所述肿瘤序列读取的片段内每个位置处的插入空格数的行。

14.根据权利要求10所述的方法，其进一步包括：向所述受训卷积神经网络提供一个或多个矩阵，所述一个或多个矩阵表示从一个或多个其他变体调用者获得的一个或多个特征，所述调用者已经分析了所述多个肿瘤序列读取和/或所述多个正常序列读取。

15.根据权利要求10所述的方法，其进一步包括：

获得参考序列；

将所述参考序列转换为参考矩阵；以及

将所述参考矩阵与所述正常样本矩阵和所述肿瘤样本矩阵一起馈入受训卷积矩阵中。

16.一种非暂时性计算机可读介质，其包含指令，所述指令当由计算系统的一个或多个处理器执行时，使所述计算系统实施包括以下各项的操作：

获得多条正常序列读取和多条肿瘤序列读取；

将所述正常序列读取的片段和所述肿瘤序列读取的片段分别转换为正常样本矩阵和肿瘤样本矩阵；

将所述正常样本矩阵和所述肿瘤样本矩阵馈入受训卷积神经网络中；以及

在所述受训卷积神经网络的输出端，获得所述多条正常序列读取内的体细胞变体的预测类型。

17.一种计算系统，其包含一个或多个处理器并且耦接至一个或多个存储有指令的非暂时性计算机可读存储器，所述指令当由所述计算系统执行时，使所述计算系统实施包括以下各项的操作：

获得多条肿瘤序列读取；

通过将一个或多个空格插入一条或多条肿瘤序列读取中而获得经扩充肿瘤序列读取；

将所述肿瘤序列读取的片段转换为肿瘤样本矩阵；

将所述正常样本矩阵和所述肿瘤样本矩阵馈入受训神经网络中；以及

在所述受训神经网络的输出端，获得所述多条肿瘤序列读取内的体细胞变体的预测类型。

18.一种用于变体调用的方法，所述方法包括：

获得参考序列和多条序列读取；

任选地对所述多条序列读取与所述参考序列实施第一比对，除非所获得的多条序列读取和参考序列是以已经比对的配置获得的；

从经比对序列读取和参考序列中鉴别候选变体位置；

在候选变体位置周围扩充所述序列读取和/或所述参考序列，以实现所述多条序列读取与所述参考序列的第二比对；

从所述经扩充参考序列生成针对所述候选变体位置的参考矩阵，并从所述多条经扩充序列读取生成针对所述候选变体位置的样本矩阵；

将所述参考矩阵和所述样本矩阵输入神经网络中；以及

用所述神经网络确定所述候选变体位置处是否存在变体类型。

19.根据权利要求18所述的方法，其中扩充所述序列读取和/或所述参考序列的步骤包括将一个或多个空格引入所述序列读取和/或所述参考序列，以解释所述序列读取中的插入和/或缺失。

20.根据权利要求18所述的方法，其进一步包括：

从训练数据集生成多个训练矩阵，其中所述训练矩阵具有与所述样本矩阵和所述参考矩阵相对应的结构，其中所述训练数据集包含序列数据，所述序列数据包含多个突变，所述多个突变包含单核苷酸变体、插入和缺失；以及

用所述多个训练矩阵训练所述神经网络。

21.根据权利要求20所述的方法，其中所述训练数据集包含多个子集，其中每个子集包含从0%到100%范围内的肿瘤纯度水平，其中所述子集中的至少两个子集各自具有不同的肿瘤纯度水平。

22.根据权利要求20所述的方法，其中所述子集中的至少三个子集各自具有不同的肿瘤纯度水平。

23.根据权利要求21所述的方法，其中所述多个子集包含具有小于约30%的肿瘤纯度水平的第一子集、具有约30%和70%之间的肿瘤纯度水平的第二子集和具有至少约70%的第三肿瘤纯度水平的第三子集。

24.根据权利要求21所述的方法，其中所述多个子集包含具有小于约40%的肿瘤纯度水平的第一子集、具有约40%和60%之间的肿瘤纯度水平的第二子集和具有至少约60%的肿瘤纯度水平的第三子集。

25.根据权利要求21至24中任一项所述的方法，其中所述多个子集包含具有小于约10%的肿瘤纯度水平的子集。

26.根据权利要求21至24中任一项所述的方法，其中所述多个子集包含具有小于约5%的肿瘤纯度水平的子集。

27.根据权利要求20所述的方法，其中所述训练数据集包含合成数据。

28.根据权利要求27所述的方法，其中所述合成数据包含人工生成的突变，其中所述人工生成的突变包含单核苷酸变体、插入和缺失。

29.根据权利要求20所述的方法，其中所述训练数据集包含真实数据，其中所述真实数据包含真实突变，其中所述真实突变包含单核苷酸变体、插入和缺失。

30.根据权利要求20所述的方法，其中所述训练数据集包含多个子集，其中每个子集包含从0%到100%范围内的变体等位基因频率，其中所述子集中的至少两个子集各自具有不同的变体等位基因频率水平。

31.根据权利要求30所述的方法，其中所述子集中的至少三个子集各自具有不同的变体等位基因频率水平。

32.根据权利要求30所述的方法，其中所述子集中的至少一个子集具有至少2.5%的变体等位基因频率。

33.根据权利要求30所述的方法，其中所述子集中的至少一个子集具有至少5%的变体等位基因频率。

34.根据权利要求30所述的方法，其中所述子集中的至少一个子集具有至少10%的变体等位基因频率。

35.根据权利要求18所述的方法，其进一步包括将来自至少一个突变调用算法的至少一个预测输入所述神经网络中。

36.根据权利要求35所述的方法，其中所述至少一个预测包括来自至少三个独立的突变调用算法的至少三个预测。

37.根据权利要求35所述的方法，其中所述至少一个预测包括来自至少五个独立的突变调用算法的至少五个预测。

38.根据权利要求20所述的方法，其中所述训练数据集包含合成数据和真实数据的混合。

39.根据权利要求38所述的方法，其中所述训练数据集包含至少5%的合成数据。

40.根据权利要求38所述的方法，其中所述训练数据集包含至少10%的合成数据。

41.根据权利要求20所述的方法，其中所述训练数据集包含全基因组测序数据。

42.根据权利要求20所述的方法，其中所述训练数据集包含全外显子组测序数据。

43.根据权利要求20所述的方法，其中所述训练数据集包含靶向测序数据。

44.根据权利要求20所述的方法，其中所述训练数据集包含从福尔马林固定石蜡包埋样本获得的数据。

45.根据权利要求20所述的方法，其中所述训练数据集包含全基因组测序数据、全外显子组测序数据、靶向测序数据和从福尔马林固定石蜡包埋样本获得的数据中的至少两者。

46.根据权利要求20所述的方法，其中所述训练数据集包含全基因组测序数据、全外显子组测序数据、靶向测序数据和从福尔马林固定石蜡包埋样本获得的数据中的至少三者。

47.根据权利要求20所述的方法，其中所述训练数据集包含全基因组测序数据、全外显子组测序数据、靶向测序数据和从福尔马林固定石蜡包埋样本获得的数据。

48.一种用于变体调用的方法，所述方法包括：

获得参考序列、多条肿瘤序列读取和多条正常序列读取；

任选地实施所述多条肿瘤序列读取和所述多条正常序列读取与所述参考序列的第一比对，除非所获得的多条肿瘤序列读取和多条正常序列读取及所述参考序列是以已经比对的配置获得的；

从经比对肿瘤序列读取、正常序列读取和参考序列中鉴别候选变体位置；

在所述候选变体位置周围扩充所述肿瘤序列读取和/或所述正常序列读取和/或所述参考序列以实现所述多条肿瘤序列读取和所述多条正常序列读取与所述参考序列的第二比对；

从所述经扩充参考序列生成针对所述候选变体位置的参考矩阵，并且从所述多条经扩充肿瘤序列读取生成针对所述候选变体位置的肿瘤矩阵，并且从所述多条经扩充正常序列读取生成针对所述候选变体位置的正常矩阵；

将所述参考矩阵、所述肿瘤矩阵和所述正常矩阵输入神经网络中；以及

用所述神经网络确定所述候选变体位置处是否存在变体类型。

49.根据权利要求48所述的方法，其进一步包括：

从训练数据集生成多个训练矩阵，其中所述训练矩阵具有与所述肿瘤矩阵、所述正常矩阵和所述参考矩阵相对应的结构，其中所述训练数据集包含肿瘤序列数据和正常序列数据；以及

用所述多个训练矩阵训练所述神经网络。

50.根据权利要求49所述的方法，其中所述肿瘤序列数据和所述正常序列数据两者均包含多个突变，所述突变包含单核苷酸变体、插入和缺失。

51.根据权利要求49所述的方法，其中所述正常序列数据包含最多5%的肿瘤序列数据。

52.根据权利要求49所述的方法，其中所述正常序列数据包含最多10%的肿瘤序列数据。

53.根据权利要求49所述的方法，其中所述肿瘤序列数据包含约10%至100%之间的肿瘤纯度水平。

54.根据权利要求49所述的方法，其中所述训练数据集包含多个肿瘤序列数据子集，其中每个肿瘤序列数据子集包含从10%到100%范围内的肿瘤纯度水平，其中所述肿瘤序列数据子集中的至少两个子集各自具有不同的肿瘤纯度水平。

55.根据权利要求54所述的方法，其中所述肿瘤序列数据子集中的至少三个子集各自具有不同的肿瘤纯度水平。

56.根据权利要求54所述的方法，其中所述多个肿瘤序列数据子集包含具有小于约30%的肿瘤纯度水平的第一肿瘤序列数据子集、具有约30%和70%之间的肿瘤纯度水平的第二肿瘤序列数据子集和具有至少约70%的肿瘤纯度水平的第三肿瘤序列数据子集。

57.根据权利要求54所述的方法，其中所述多个肿瘤序列数据子集包含具有小于约40%的肿瘤纯度水平的第一肿瘤序列数据子集、具有约40%和60%之间的肿瘤纯度水平的第二肿瘤序列数据子集和具有至少约60%的肿瘤纯度水平的第三肿瘤序列数据子集。

58.根据权利要求49所述的方法，其中所述训练数据集包含合成数据。

59.根据权利要求49所述的方法，其中所述合成数据包含人工生成的突变，其中所述人工生成的突变包含单核苷酸变体、插入和缺失。

60.根据权利要求49所述的方法，其中所述训练数据集包含真实数据，其中所述真实数据包含真实突变，其中所述真实突变包含单核苷酸变体、插入和缺失。

61.根据权利要求49所述的方法，其中所述训练数据集包含全基因组测序数据。

62.根据权利要求49所述的方法，其中所述训练数据集包含全外显子组测序数据。

63.根据权利要求49所述的方法，其中所述训练数据集包含靶向测序数据。

64.根据权利要求49所述的方法，其中所述训练数据集包含从福尔马林固定石蜡包埋样本获得的数据。

65.一种系统，所述系统包括：

处理器，其配置成实施权利要求18至64中任一项中所述的步骤。

技术总结
本公开提供利用神经网络诸如卷积神经网络来分析由测序仪生成的基因组序列数据并且生成鉴别和描述所述序列数据内的种系和/或体细胞变体的准确预测数据的系统和方法。

技术研发人员：H·Y·K·林;M·莫希丁;M·萨雷安
受保护的技术使用者：豪夫迈·罗氏有限公司
技术研发日：2019.08.12
技术公布日：2021.07.23

完整全部详细技术资料下载

当前第2页1 2