用于处理适体数据的神经网络的制作方法

文档序号：11520104阅读：208来源：国知局

本发明涉及处理适体数据的神经网络。

背景技术：

神经网络是采用模型的一个或多个层来针对所接收的输入，生成输出(诸如一个或多个分类)的机器学习模型。一些神经网络除输出层外，还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层的输入，即，网络的下一隐藏层或输出层。网络的每个层根据相应的参数集的当前值，通过所接收的输入生成输出。

技术实现要素：

通常，本说明书描述用于处理适体数据的神经网络。

通常，本说明书中所述的主题的一个创新方面能体现在方法中，该方法包括动作：获得定义用于适体的序列的数据，适体包括核碱基串；将定义用于适体的序列的数据编码为神经网络输入；以及使用神经网络来处理神经网络输入以生成表征适体有多强地结合到特定目标分子的输出，其中所述神经网络已经通过训练被配置为接收定义序列的数据和处理数据以生成表征适体有多强地结合到特定目标分子的预测输出。

实施方式能包括下述特征中的一个或多个。表征适体多强结合的输出包括多个selex循环输出，每个selex循环输出与迭代selex过程中相应的循环相对应，其中，每个selex循环输出针对对应的selex循环表征适体有多强地结合到特定目标分子。与迭代selex过程中的在前selex循环相对应的selex循环输出是指示适体是否存在于用在后续selex循环的池中的二进制值。用于ssl过程中的后一selex循环的selex循环输出包括适体的高通量测序计数，高通量测序计数指示适体有多强地结合到特定目标分子。表征适体有多强地结合的输出包括荧光水平矢量，其中每个荧光水平的亮度指示适体有多强地结合到特定目标分子。神经网络为卷积神经网络。定义序列的数据包括指定适体的二级结构的数据。指定二级结构的数据包括指定适体中的氢键的模式的数据或适体的能量点阵图矩阵的数据。编码定义序列的数据包括将定义序列的数据转换成多个独热矢量，每个独热矢量与适体中的相应的核碱基相对应。将突变迭代地应用于所述序列以生成具有结合到特定目标分子的最大强度的经突变的序列，包括针对多个迭代中的每个：将突变应用于当前经突变的序列以生成新的经突变的序列；使用神经网络，处理新的经突变的序列以生成表征新的经突变的序列有多强地结合到特定目标分子的输出；使用神经网络来确定输出是否指示新的经突变的序列比当前经突变的序列更强地结合；以及基于输出是否指示新的经突变的序列比当前经突变的序列更强地结合，选择将应用在下一迭代中的另一突变。

另一创新方面包括获得定义用于适体的多个序列的数据，每个适体包括核碱基串，每个序列具有包括相应的适体有多强地结合到特定目标分子的特性的相应的标签；编码数据以生成用于神经网络的训练数据；以及用训练数据训练神经网络，神经网络被配置为输出特定输入序列有多强地结合到特定目标分子的特性。

实施方式能包括下述特征中的一个或多个。神经网络被配置为输出多个selex循环输出，每个selex循环输出与迭代selex过程中相应的循环相对应，其中每个selex循环输出针对对应的selex循环表征输入适体有多强地结合到特定目标分子。用于训练数据中相应的适体的每个标签进一步包括用于相应的多个selex循环的所述相应的适体的多个二进制值，用于所述相应的selex循环的每个二进制值指示适体是否存在于用在后续selex循环的池中，以及其中，神经网络输出进一步包括用于相应多个selex循环的多个二进制值，用于所述相应的selex循环的每个二进制值指示适体是否存在于用在后续selex循环的池中。用于训练数据中相应的适体的每个标签进一步包括用于相应的多个selex循环的所述相应的适体的多个高通量测序计数，以及其中，神经网络输出进一步包括适体的多个高通量测序计数，每个高通量测序计数指示适体有多强地结合到特定目标分子。用于训练数据中相应的适体的一个或多个标签进一步包括用于相应的适体的荧光水平矢量，以及其中，神经网络输出进一步包括荧光水平矢量，其中，每个荧光水平的亮度指示适体有多强地结合到特定目标分子。定义用于适体的多个序列的数据包括针对每个适体，指定适体的二级结构的数据。指定二级结构的数据包括指定适体中的氢键的模式的数据或适体的能量点阵图矩阵的数据。

能实现本说明书中所述的主题的特定实施例以便实现下述优点中的一个或多个。识别适体和特定目标分子之间的结合强度的常规方法包括：将selex过程应用至随机选择的适体，其通常耗力且经常不能得出具有强特定结合的适体。有利地，神经网络能预测用于输入适体与特定目标分子的结合强度。特别，神经网络能预测用于在初始随机池中未找到的新颖序列的selex循环输出。因此，代替要求最佳适体出现在初始、相对小的随机池中，科学家能预测所有可能序列的集合中，具有最强特定结合的适体。由此，神经网络预测具有强特定结合的适体，而不是执行可能会生成或可能不会生成具有强特定结合的多个selex循环，这降低了成本和测试时间。神经网络还能同时模拟与多个目标的结合，并且因此，识别很可能结合到目标分子且不结合到已知背景分子的适体。在附图和下述描述中，阐述本说明书的主题的一个或多个实施例的细节。通过说明书、附图和权利要求，该主题的其他特征、方面和优点将变得显而易见。

附图说明

图1图示了用于处理适体数据的示例系统。

图2是用于在适体数据上训练神经网络的示例方法的流程图。

图3是用于使用神经网络处理适体数据的示例方法的流程图。

图4是用于使用神经网络通过迭代过程来识别适体的新突变的示例过程的流程图。

不同图中相同的参考数字和名称指示相同的元件。

具体实施方式

图1图示出示例适体处理系统100。系统100是被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中，能实现下述系统、组件和技术。

系统100包括神经网络104。在一些实施方式中，神经网络104是卷积神经网络。神经网络104接收适体数据102。适体数据102能是定义适体的序列的数据。适体是能利用亲和度程度(即，强度)结合到(bindto)包括蛋白质和肽的特定目标分子的单链分子。

适体数据能包括用于适体的核苷酸碱基序列。在一些实施方式中，核苷酸碱基序列被编码为独热(one-hot)矢量序列。例如，由矢量[1000]表示序列中的胞嘧啶分子，而由矢量[0100]表示胸腺嘧啶分子。

矢量能相互添加以形成值的矩阵，例如表示为图像，其能被提供为神经网络104的张量输入。例如，如果核苷酸碱基的序列为ctct，值的矩阵能是被添加到一起以形成该矩阵[1010010100000000]的相应的核苷酸碱基的独热矢量。

通过图示的方式，在该示例中，矩阵能表示4x4图像，其中，将矩阵中的1表示为黑色像素，而将矩阵中的0表示为白色像素。表示该矩阵的图像能被提供为神经网络104的输入。在一些实施方式中，神经网络104在水平方向而不是垂直方向，在4x4图像矩阵上执行卷积。这使得预测能够基于哪些核苷酸碱基彼此顺序相邻，而不是基于如何实现核苷酸的独热编码。在一些其他实施方式中，矩阵能被提供为神经网络的位序列。

适体数据还能包括表征适体的二级结构的数据。例如，该数据能指定适体中的氢键的模式或适体的能量点阵图矩阵。二级结构的特性能被表示为字节序列，例如，表示为值的独热矢量或矩阵，并且提供给神经网络104。在一些实施方式中，能将二级结构的字节序列添加到通过核苷酸碱基序列所形成的值的矩阵以生成被提供为神经网络104的输入的适体数据。

神经网络104能处理适体数据102以生成输出106。输出106表征适体有多强地结合到特定目标分子。特别地，输出106能与通过针对适体数据102的selex过程所生成的输出相对应。

selex过程(即，指数富集配体系统进化(selex))通过适体池识别对特定目标分子的结合强度。特别地，selex过程从初始适体池开始并且通过多个selex循环来处理适体池。每个selex循环选择结合目标分子的适体池并且丢弃不结合到目标分子的适体。在每个selex循环后，使用聚合酶链反应(pcr)，放大结果池。在pcr期间，与具有较弱结合强度的适体相比，易于更频繁地复制具有较强结合强度的适体。

在多个selex循环后，适体池的成分指示会聚到潜在地指示与目标分子的强结合强度的小数目的具有高计数(highcount)的适体，例如约上千。

通过图示的方式，对selex过程，初始池能具有约10¹³个适体的大小。初始池能称为适体库。该池由几乎完全独特的适体组成。在第一selex循环后(即，在丢弃未结合到目标分子的适体并且富集结合的适体后)，该池能99.3％是独特的。在第二selex循环后，该池能为90％是独特的并且具有约10⁸适体的大小。在另一selex循环后，该池能小于10％是独特的并且具有约10⁶适体的大小。在又一selex循环后，池能小于5％是独特的，并且具有约10⁵适体的大小。在每个selex循环后，池会经过高通量测序来识别该selex循环中，具有高计数的适体。

如上所述，输出106与来自针对适体数据102的selex过程的输出相对应。换句话说，神经网络104在每个selex循环后，预测适体数据102中的输入适体有多强地结合到目标分子。

由此，输出106能包括库输出108。在一些实施方式中，库输出108是输入适体是否存在于初始适体池中的二进制值，例如真或假。在一些其他实施方式中，库输出108是表示输入适体存在于初始适体池中的似然率的0和1之间的置信度值。

输出106能包括selex1输出110。selex1输出110是在执行selex过程中的第一selex循环后的输出。selex1输出110还能是第一循环后，输入适体是否存在于适体池中的置信度值或二进制值。在一些实施方式中，神经网络104针对处于具有超出特定阈值的独特适体的百分比的池中的selex输出，生成二进制或置信度值。这是因为具有高独特适体百分比的适体池通常对一个特定适体，不具有高适体数，并且因此不指示具有对目标分子的高结合强度的任何特定适体。

输出106能包括selex2输出和selex3输出112,114。selex2和3输出112,114分别是在执行第二和第三selex循环后的输出。用于这些selex循环中的每个的输出能是相应的selex循环中的多个输入适体的预测计数。

在一些实施方式中，神经网络104在输出106中，生成荧光值116的阵列或矢量。荧光值表示高亮，其指示输入适体有多强地结合到在结合阵列中测量的目标分子。

为生成输出106，系统100能使用将在下文结合图2描述的卷积神经网络训练技术来训练神经网络101。

图2是用于在适体数据上训练神经网络的示例过程200的流程图。为了方便，将参考具有执行软件以实现过程200的一个或多个计算设备的系统(例如图1的系统100)，来描述过程200。

系统获得定义用于适体的多个序列的数据(步骤202)。每个序列能被表示为多个独热矢量，如上参考图1所述。

每个序列还能具有包括相应的适体有多强结合到特定目标分子的特性的相应的标签。标签能具有由图1的输出106所指定的数据。

特别地，标签能包括用于在较早的selex循环的相应的适体的二进制值。二进制值能指示适体是否存在于用于该循环的适体池中，并且因此，适体是否存在于用在后续selex循环中的池中。标签还能包括用于后续selex循环的相应的适体的高通量测序计数。在一些实施方式中，标签还能包括用于适体的荧光水平的矢量的数据。能通过结合阵列测量，获得这些荧光水平的矢量。在一些其他实施方式中，标签能包括结合亲和度值的矢量，其中，每个结合亲和度值与结合到相应的目标分子的似然率相对应。

系统编码该数据以生成用于神经网络的训练数据(步骤s204)。系统能通过将该数据转换成多个独热矢量，来编码定义该序列的数据，如上参考图1所述。

该系统用训练数据训练神经网络(步骤206)。即，该系统处理训练数据(即经编码的序列数据)以生成预测输出。系统确定每个预测输出与标签的对应部分之间的误差。使用卷积神经网络训练技术(例如，随机梯度下降和反向传播)，系统使用该误差来更新用在神经网络的每个层中的参数的值。在训练后，神经网络能通过输入适体数据生成输出，例如图1的输出106。

图3是用于使用神经网络处理适体数据的示例过程300的流程图。为了方便，将参考具有执行软件以实现过程300的一个或多个计算设备的系统(例如图1的系统100)，来描述过程300。

系统获得定义用于适体的序列的数据(步骤302)。每个序列能被表示为多个独热矢量，如上参考图1所述。在一些实施方式中，数据是表示序列的图像。图像能具有黑白像素，如上参考图1所述。此外，在一些实施方式中，数据还能包括编码适体的二级结构的数据。

系统将定义序列的数据编码为神经网络输入(步骤304)。系统能通过将数据转换成多个独热矢量，来编码定义该序列的数据，如上参考图1所述。

系统使用神经网络处理神经网络输入以生成表征适体有多强结合到特定目标分子的输出(步骤306)。如上参考图2所述，训练神经网络。表征适体有多强结合到特定目标分子的输出能与selex循环输出相对应。

每个selex循环输出能与在迭代selex过程中相应的循环相对应，如上参考图1所述。即，该系统能生成包括用于前几个selex循环输出的二进制值和用于后续selex循环输出的数值的输出。二进制值能指示适体是否存在于用在后续selex循环中的池中。用于后续selex循环输出的数值能是所预测的计数，例如，通过相应的selex循环中，在相应的池内的适体的高通量测序所获得。

在一些实施方式中，输出还包括荧光值的矢量的阵列输出。

尽管输出(例如图1的输出106)指示输入适体有多强地结合到特定目标分子，可能存在与该输入适体类似的、更强地结合到特定目标分子的适体。为识别这些更强适体，在生成输出后，系统能将突变迭代地应用于输入适体的序列以识别具有到特定目标分子最大结合强度的经突变的序列。该迭代过程能识别具有高结合强度的适体，即使在selex过程期间，适体不在初始池中。

图4是用于使用神经网络通过迭代过程，识别适体的新突变的示例过程400的流程图。为了方便，将参考具有执行软件以实现过程400的一个或多个计算设备的系统(例如图1的系统100)来描述过程400。

针对每个迭代，该系统将突变应用于当前经突变的序列(即，第一迭代中的输入适体的序列)以生成新的经突变的序列(步骤402)。突变能随机地改变序列中的多个核苷酸碱基。例如，突变能随机地选择两个核苷酸碱基并且将它们改变成两个其他核苷酸碱基。

系统能使用神经网络处理新的经突变的序列以生成表征新的经突变的序列有多强地结合到特定目标分子的另一输出(步骤404)，例如，如上参考图3所述。

系统使用神经网络来确定输出是否指示新的经突变的序列比当前经突变的序列更强地结合(步骤406)。即，该系统能将当前经突变的序列的特定selex循环的高通量测序计数与新的经突变的序列的高通量测序计数进行比较。如果用于新的经突变的序列的高通量测序计数高于当前经突变的序列的高通量测序计数，那么该系统确定新的经突变的序列比当前经突变的序列更强地结合到目标分子。否则，系统确定当前经突变的序列比新经突变的序列更强地结合目标分子。在一些实施方式中，系统考虑到跨多个selex循环当前经突变的序列和新的经突变的序列之间的高通量测序计数的因素。通过示例的方式，该系统能跨用于每个序列的多个selex循环，计算高通量测序计数的加权和以确定哪一序列更强地结合到目标分子。

该系统基于输出是否指示新的经突变的序列比当前经突变的序列更强地结合，来选择将应用在下一迭代中的另一突变(步骤408)。即，如果新的经突变的序列比当前经突变的序列更强地结合，该系统随机地突变新的经突变的序列并且重复上述过程。否则，系统随机地突变当前突变的序列并且重复上述过程。在一些实施方式中，系统将当前经突变的序列突变为先前未处理过的序列。该系统能继续对序列进行突变，直到系统生成阈值数目的新的经突变的序列为止，或如果经过阈值数目的迭代，未找到更高结合强度。

该系统能将该过程重复预定多次。替选地，该系统能重复该过程，直到该系统在当前经突变的序列上迭代阈值多次为止。换句话说，当系统不能在阈值多次内生成比当前经突变的序列更强地结合的新的经突变的序列时，系统停止重复该过程。

能在包括在本说明书中所公开的结构及其结构等效物中或者在它们中的一项或者多项的组合中的数字电子电路中或者在有形地体现的计算机软件或固件或者在计算机硬件中实现在本说明书中描述的主题和功能操作的实施例。能将在本说明书中描述的主题的实施例实现为一个或者多个计算机程序，即，编码在有形非易失程序载体上的用于由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或者多个模块。替选地或者另外地，能在人为生成的传播的信号(例如，机器生成的电、光或者电磁信号)上对程序指令编码，该信号被生成用于对信息编码以用于向适当接收器装置传输以供由数据处理装置执行。计算机存储介质能是机器可读存储设备、机器可读存储基底、随机或者串行存取存储器设备或者它们中的一项或者多项的组合。

术语“数据处理装置”涵盖用于处理数据的各种类型的装置、设备和机器，举例而言包括可编程处理器、计算机、多个处理器或计算机。该装置能包括专用逻辑电路，例如，fpga(现场可编程门阵列)或者asic(专用集成电路)。该装置除了硬件之外，还能包括为所述计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统的代码或者它们中的一项或者多项的组合的代码。

计算机程序(也可以被称为或描述为程序、软件、软件应用、应用、模块、软件模块、脚本或者代码)能用任何形式的编程语言编写，包括编译或者解释型语言、或声明性或者过程语言，并且计算机程序能用任何形式部署，包括部署为独立程序或者部署为适合于在计算环境中使用的模块、组件、子例程或者其他单元。计算机程序可以，但是无需与文件系统中的文件相对应。程序能被存储于保持其他程序或者数据的文件(例如，存储于标记语言文档中的一个或者多个脚本)的一部分中、专用于讨论的程序的单个文件中，或者多个协同文件(例如，存储一个或者多个模块、子程序或者代码部分的文件)中。计算机程序能被部署以便在一个计算机上或者在位于一个地点或者跨多个地点分布并且由数据通信网络互连的多个计算机上执行。

如在本说明书中所使用的，“引擎”，或“软件引擎”是指提供不同于输入的输出的软件实现的输入/输出系统。引擎能是功能性的经编码的块，诸如库、平台、软件开发套件(“sdk”)或对象。每个引擎能被实现在包括一个或多个处理器和计算机可读介质上的任何适当类型的计算设备上，例如服务器、移动电话、平板电脑、笔记本电脑、音乐播放器、电子书阅读器、膝上型或台式计算机、pda、智能电话、或包括一个或多个处理器和计算机可读介质的其他固定或便携式设备。此外，引擎中的两个或多个可以被实现在相同计算设备上，或不同的计算设备上。

在本说明书中描述的过程和逻辑流程能由一个或者多个可编程计算机执行，该一个或者多个可编程计算机执行一个或者多个计算机程序以通过对输入数据操作并且生成输出来执行功能。该过程和逻辑流还能由专用逻辑电路(例如，fpga(现场可编程门阵列)或者asic(专用集成电路))实现，或装置能被实现为专用逻辑电路，例如，fpga(现场可编程门阵列)或者asic(专用集成电路)

例如，适合于执行计算机程序的计算机能基于通用或专用微处理器或者其两者，或者任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或者随机存取存储器或者二者接收指令和数据。计算机的必要元件是用于实现或执行指令的中央处理单元以及用于存储指令和数据的一个或者多个存储器设备。通常，计算机还将包括或操作耦合以从用于存储数据的一个或者多个海量存储设备(例如，磁盘、磁光盘或者光盘)接收数据或向其传送数据或两者。然而，计算机无需具有这样的设备。另外，计算机能被嵌入于另一设备中，仅举几例，例如，移动电话、个人数字助理(pda)、移动音频或者视频播放器、游戏机、全球定位系统(gps)接收器或者便携存储设备，例如，通用串行总线(usb)闪存驱动。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，举例而言包括半导体存储器设备，例如，eprom、eeprom和闪速存储器设备；磁盘，例如，内部硬盘或者可移动盘；磁光盘；以及cd-rom和dvd-rom盘。处理器和存储器能由专用逻辑电路补充或合并在专用逻辑电路中。

为了提供与用户的交互，能在计算机上实现在本说明书中描述的主题的实施例，该计算机具有用于向用户显示信息的显示设备，例如，crt(阴极射线管)、lcd(液晶显示器)监视器或oled显示器以及用户能用来向计算机提供输入的输入设备，例如键盘、鼠标或存在敏感显示器或其他接口。其他种类的设备也能用来提供与用户的交互；例如，向用户提供的反馈能是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或者触觉反馈；并且能用包括声音、语音或者触觉输入的任何形式接收来自用户的输入。此外，计算机能通过向用户使用的设备发送资源和从该设备接收资源，例如，通过响应于从web浏览器所接收的请求，向用户的客户端设备上的web浏览器发送网页来与用户交互。

在本说明书中描述的主题的实施例能在计算系统中实现，该计算系统包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)或者包括前端组件(例如，具有图形用户界面或者web浏览器的客户端计算机，用户能通过它们与在本说明书中描述的主题的实现方式交互)，或者一个或者多个这样的后端、中间件或者前端组件的任何组合。系统的组件能通过任何数字数据通信形式或者介质互连，例如，通信网络。通信网络的示例包括局域网(“lan”)和广域网(“wan”)，例如，互联网。

计算系统能包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助在相应计算机上运行并且相互具有客户端-服务器关系的计算机程序而产生。

尽管本说明书包含许多具体实现方式细节，但是不应将这些解释为限制任何发明的范围或可以要求保护的内容的范围，而是解释为对具体发明的具体实现方式特有的特征的描述。在本说明书中在分开的实施例的场境中描述的某些特征也能在单个实施例中被组合实现。相反地，在单个实施例的场境中描述的各种特征也能在多个实施例中分开地或者在任何适当子组合中被实现。另外，虽然上文能将特征描述为在某些组合中动作并且甚至起初这样要求保护，但是来自要求保护的组合的一个或者多个特征能在一些情况下从该组合中被删除，并且要求保护的组合能涉及子组合或者子组合的变型。

类似地，尽管在附图中以特定顺序描绘操作，但是这不应被理解为要求以所示特定顺序或者以依次顺序执行这样的操作或者执行所有所示操作以实现希望的结果。在某些境况中，多任务和并行处理会是有利的。另外，在上文描述的实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中要求这样的分离，并且应当理解描述的程序组件和系统一般能一起集成于单个软件产品中或者被封装到多个软件产品中。

描述了主题的具体实施例。其他实现方式在所附权利要求的范围内。例如，在权利要求中记载的动作能按不同顺序被执行而仍然实现希望的结果。作为一个示例，在附图中描绘的过程未必需要所示特定顺序或者依次顺序以实现希望的结果。在某些实施方式中，多任务和并行处理会是有利的。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：米歇尔·泰瑞莎·霍纳·戴蒙;马克·伯恩德尔;马克·阿德莱·科拉姆;布兰·特里普;帕特里克·F·赖利;菲利普·查尔斯·内尔松
技术所有人：谷歌公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。