基于量子计算的注意力模型及神经网络模型的制作方法

文档序号:29945201发布日期:2022-05-07 15:54阅读:160来源:国知局
基于量子计算的注意力模型及神经网络模型的制作方法

1.本技术实施例大体上涉及量子计算领域,更具体地,涉及基于量子计算的注意力模型及神经网络模型。


背景技术:

2.近年来,机器学习已在众多领域中得到了大量的应用。作为人工智能的核心,随着大数据时代各行业对数据分析需求的持续增加,如何基于机器学习对复杂多样的数据进行深层次的分析,更高效地利用信息成为当前大数据环境下机器学习研究的主要方向。为进一步优化传统机器学习,人们对利用量子线路辅助机器学习已开始有所研究。然而,目前的基于量子计算的注意力模型及神经网络模型相关的研究较少。
3.因此,本技术提出一种基于量子计算的注意力模型及神经网络模型。


技术实现要素:

4.本技术实施例的目的之一在于提供一种基于量子计算的注意力模型及神经网络模型,与传统的方法与模型(即使用经典比特)相比,其可减少所使用的参数量,且所用的存储介质,即量子比特数目相比于经典比特也大幅减少,同时提高了运行效率。
5.本技术的一实施例提供一种基于量子计算的注意力模型,其包括:参数化量子线路,其包括三个子线路,其中输入数据的量子态通过所述参数化量子线路生成三个第一张量,其中该三个第一张量包括k张量、q张量和v张量,且输入数据中的每一者经编码为量子态;以及量子注意力线路,其经配置作用于三个第一张量以得到输入数据的注意力信息。
6.本技术的另一实施例提供一种神经网络模型,其包括上述一或多个基于量子计算的注意力模型。
7.与现有技术相比,本技术实施例提供的基于量子计算的注意力模型及神经网络模型,利用量子计算对经典计算方式作为替换或补充,可有效提高数据处理速度与准确度。
附图说明
8.在下文中将简要地说明为了描述本技术实施例或现有技术所必要的附图以便于描述本技术的实施例。显而易见地,下文描述中的附图仅只是本技术中的部分实施例。对本领域技术人员而言,在不需要创造性劳动的前提下,依然可以根据这些附图中所例示的结构来获得其他实施例的附图。
9.图1为根据本技术一些实施例的基于量子计算的注意力模型100的示意图。
10.图2为根据本技术一些实施例通过使用参数化量子线路生成三个第一张量的第一示意图。
11.图3为根据本技术一些实施例的量子注意力线路106的示意图。
12.图4为根据本技术另一些实施例通过使用参数化量子线路生成三个第一张量的第二示意图。
13.图5为根据本技术另一些实施例的量子注意力线路206的示意图。
14.图6为根据本技术一些实施例的加权线路212的示意图。
15.图7为根据本技术一些实施例的点积线路210和测量层220的示意图。
16.图8是根据本技术的一些实施例的量子transformer模型300的示意图。
17.图9为根据本技术的一些实施例基于量子transformer模型对药物靶点结合能的预测方法的流程图。
具体实施方式
18.为更好的理解本技术实施例的精神,以下结合本技术的部分优选实施例对其作进一步说明。
19.本技术的实施例将会被详细的描示在下文中。在本技术说明书全文中,将相同或相似的组件以及具有相同或相似的功能的组件通过类似附图标记来表示。在此所描述的有关附图的实施例为说明性质的、图解性质的且用于提供对本技术的基本理解。本技术的实施例不应该被解释为对本技术的限制。
20.另外,为便于描述,“第一”、“第二”、“第三”等等可在本文中用于区分一个图或一系列图的不同组件。“第一”、“第二”、“第三”等等不意欲描述对应组件。
21.在对本技术技术方案进行介绍之前,首先对本技术中涉及的一些关键术语进行解释说明:
22.1.量子计算:基于量子力学规律以调控量子信息单元的计算方式。在量子世界中,微观粒子的状态是不可确定的,系统以不同的概率处于不同状态的叠加之中。量子计算和现有的计算模式完全不同,它借助量子力学的叠加特征,能够实现计算状态的叠加,它不仅包含0和1,还包含0和1同时存在的叠加态(superposition)。量子计算存储数据的基本单元是量子比特,量子计算可以同时操纵n个量子比特的2n个状态,从而实现并行计算能力,节省了大量的运算资源,如时间、记忆单元等,其效果相当于经典计算机要重复执行2n次操作,或者采用2n个不同处理器实行并行操作。
23.2.量子比特:量子计算的基本单元。传统计算机将信息编码为比特(bit),使用0和1作为二进制的基本单元,1bit信息只能是0和1中的一种,而量子计算可以同时处理0和1,使得系统可以处于0和1的线性叠加态:|ψ》=α|0》+β|1》,其中α,β代表系统在0和1上的复数概率幅。它们的模平方|α|2,|β|2分别代表处于0和1的概率。
24.3.量子态:一个量子态对应于希尔伯特空间的一个矢量,指的是量子系统的状态。态矢量可以用来抽象地表示量子态,采用狄拉克符号标记:右矢(可以理解为一个列向量)及左矢(可以理解为一个行向量)例如两个二维态矢和可以构成一个二维空间的基,而任意一个态便可以写成这两个基在复数空间上的线性组合:|ψ》=α|0》+βe

|1》,这里e

表示模为1、幅角为θ的复数。
25.4.量子线路:其由量子门组成,以对量子比特的状态进行变换,其代表了相应量子算法/程序在量子门模型下的硬件实现,是一种对量子计算可视化的表达。若量子线路中包含可调的控制量子门的参数,则被称为参数化的量子线路。
26.5.量子门:用于处理信息和执行计算,常使用矩阵表示,操作n个量子比特的门可
以用2nx2n的酉矩阵表示。一个门输入跟输出的量子比特数量必须要相等。量子门的操作可以用代表量子门的矩阵与代表量子比特状态的向量作相乘来表示。
27.6.旋转门:旋转门是量子门的一种,是一组三个2
×
2的幺正厄米复矩阵(又称酉矩阵)。其中,旋转x门为旋转y门为旋转z门为旋转z门为
28.7.量子经典混合计算:一种内层利用量子线路进行计算得出相应物理量或损失函数,外层用传统的经典优化器调节量子线路变分参数的计算范式,可以最大限度地发挥量子计算的优势,被相信是有潜力证明量子优势的重要方向之一。
29.8.密度矩阵:如果一个量子态用态矢表示为密度矩阵则表示为即右矢和左矢的外积表示。而对于一个混合态,其密度矩阵为其中是指系统所处的态及其概率。在数学上如果一个密度矩阵只由一个量子态的左右矢外积得到,那么这个量子态就是纯态,反之就是混态。
30.本技术提出的基于量子计算的注意力模型及神经网络模型,通过使用量子线路,有效提高了模型学习能力和运行效率。
31.图1为根据本技术一些实施例的基于量子计算的注意力模型100的示意图。
32.本技术提出的基于量子计算的注意力模型及神经网络模型基于量子比特的数据表达能力更优,以实现在量子计算设备和量子芯片上高度并行地处理数据特征。
33.如图1所示,一种基于量子计算的注意力模型100可包括:参数化量子线路101,其包括三个子线路,其中输入数据102的量子态103通过参数化量子线路101生成三个第一张量104,其中三个第一张量104包括k张量、q张量和v张量,三个第一张量104的量子态可分别相应地由|k》、|q》和|v》来表示,输入数据102中的每一者(例如x0、x1等)都经编码为量子态;以及量子注意力线路106,其经配置作用于三个第一张量104以输出输入数据102的注意力信息|t》。注意力信息|t》由一个n量子比特的融合态表示,它代表了输入数据中的任一数据的相邻数据的信息的融合。
34.在基于量子计算的注意力模型100中,输入数据102可以是由n个单词组成的一个句子x=[x
0 x1ꢀ…ꢀ
x
(n-1)
],其中每个单词可表示为:xi,i∈(0,n-1)。为了得到x的注意力信息,可将输入数据x中的每一者xi编码为量子态,例如,可通过振幅编码得到量子态103,表示为|x0》 |x1》
ꢀ…ꢀ
|x
(n-1)
》。每个单词xi的量子态|xi》都可以由一个矢量来表示,假设单词中的最长的矢量维度为d,则需要n=log2(d)个量子比特来表示这些单词。而通过上述注意力模型100得到的注意力信息,例如图1中的|t》=[t0》 |t1》
ꢀ…ꢀ
|t
n-1
》]则记载了输入数据中的更重要的信息,同时忽略了不相关的信息,以便于更高效地使用在后续各个模型中。本技术中使用量子线路的方式进行数据表达,极大的减少了存储的硬件资源。
[0035]
图2为根据本技术一些实施例通过使用参数化量子线路生成三个第一张量的第一示意图。
[0036]
如图2所示,参数化量子线路101可包括三个子线路110、111和112,三个子线路110、111和112的作用算符分别表示为u(θq)、u(θk)和u(θv),其中三个子线路中的每一者可分别包括与输入数据102中的每一者(例如x0)相应的次子线路(如图2中与x0的量子态|x0》生成|q0》相应的由n个量子比特构成的次子线路115、生成|k0》相应的次子线路116和生成|v0》相应的次子线路117),使得输入数据中的每一者经编码的量子态(即|x0》 |x1》
ꢀ…ꢀ
|x
(n-1)
》)同时通过参数化量子线路101各自同时生成三个第一张量104,从而使得三个量子线路作用在输入数据的量子态的操作的执行在时序上能够同时并行地进行,提高了计算效率。
[0037]
如图2所示,每个子线路中的n个次子线路之间相互不纠缠,是各为独立的单元,彼此之间的结构可以相同也可以不同。次子线路中的至少一者可包括两个子模块,一个是由任意旋转门组成的旋转模块,任意旋转门可由3个分别绕着y轴、z轴、y轴的旋转操作组合而来,可调参数θq、θk和θv是相应的量子比特旋转的角度,另一个是由受控非(cnot)门组成的纠缠模块,纠缠可使量子线路包含比较全面的输入数据的信息。
[0038]
图3为根据本技术一些实施例的量子注意力线路106的示意图。
[0039]
如图3所示,通过构建与q张量中的每一者相应的量子注意力次子线路118(其作用算符为u
vk
)使得量子注意力线路106作用于q张量以得到注意力信息|t》,即|t》=u
vk
|q》。
[0040]
量子注意力次子线路118经构建使得u
vk
=|v0》《k0|+|v1》《k1|+

+|v
n-1
》《k
n-1
|,即将k张量和v张量中的同一位置的元素分别进行相乘后再将各自相乘的结果进行线性叠加。
[0041]
图4为根据本技术另一些实施例通过使用参数化量子线路生成三个第一张量的第二示意图。
[0042]
如图4所示,根据本技术另一些实施例,第二示意图中的参数化量子线路201包括三个子线路,其算符表示分别为和输入数据中的每一者经编码的量子态分别通过参数化量子线路201的三个子线路各自依次生成三个第一张量。
[0043]
相比而言,图2所示的通过使用参数化量子线路生成三个第一张量的第一示意图中的情形只需执行一次运算即可得到输入数据的三个第一张量,而图4所示的通过使用参数化量子线路生成三个第一张量的第二示意图中的情形则需要分别执行n次运算才可得到三个第一张量,但所需的量子比特的数量相对减少。
[0044]
根据本技术的另一些实施例,与图2中的参数化量子线101相同或类似,图4中的三个子线路中的至少一者也可包括与非门和旋转门。
[0045]
根据本技术的另一些实施例,图4中的三个子线路201也可与图2中的子线路不同,例如,图4中的子线路中的至少一者可仅包括旋转门。
[0046]
图5为根据本技术另一些实施例的量子注意力线路206的示意图。
[0047]
根据本技术的另一些实施例,如图5所示,该实施例中的量子注意力线路206可包括:点积线路210,其作用于q张量和k张量以生成第二张量,例如将q张量和k张量的密度矩阵进行点积(也即ρq和ρk的张量积)操作从而得到了q张量和k张量的相关性分数,其中第二张量通过对点积线路的输出进行测量(例如通过测量层220进行测量)而生成;加权线路212,其基于该第二张量而构建,且与v张量进行融合以生成第三张量,即将第二张量和
对应的|v》的密度矩阵“相乘”,以得到加权过的|v》的密度矩阵ρ
wv
;以及求和线路213,其将第三张量中的全部元素相加以得到输入数据的注意力信息|t》。
[0048]
根据本技术的一些实施例,点积线路和求和线路中的至少一者包括量子纠缠模块。加权线路可包括多个旋转门,其中旋转门的参数与第二张量相关。
[0049]
图6为根据本技术一些实施例的加权线路212的示意图,其中ω∈(-π,π)。
[0050]
图7为根据本技术一些实施例的点积线路210和测量层220的示意图。
[0051]
如图7所示,点积线路可包括控制交换门(swap)以及使用辅助量子比特,swap表示互换状态,测量是在pauli z方向上进行。
[0052]
对于任意两个n量子比特的密度矩阵,我们可以使用求和线路213将它们“相加”,相加后的结果使用偏迹使得输出和输入具有相同的维度。
[0053]
本技术的一些实施例还提供一种神经网络模型,神经网络模型可包括上述一或多个基于量子计算的注意力模型。神经网络模型还包括前馈神经网络,其中注意力信息可作为前馈神经网络的输入,以进一步增强神经网络网络的性能。神经网络模型的输出为输出量子态的每一个基态对应的概率。
[0054]
根据本技术的一些实施例,神经网络模型可以是量子transformer模型。
[0055]
图8是根据本技术的一些实施例的量子transformer模型300的示意图。
[0056]
如图8所示,量子transformer模型300可包括一或多个头h,例如,图8中所示的两个头h0和h1,可先使用线性变换对输入数据序列a进行降维处理,从e降到d,这里可引入两个可以学习的矩阵w0和w1。接下来这两个头的计算将同步并行,且都可由上述基于量子计算的注意力模型进行。例如对每一个头,通过使用上述基于量子计算的注意力模型得到注意力信息的输出,将这两个头的输出结果拼接起来并且经过一个线性层。拼接过程使得维度从d升到e,因此输出z与输入a具有相同的形状,之后可通过残差网络以及正则化过程303、前馈神经网络302、残差网络以及正则化过程303完成一整套量子transformer的编码操作,由此构成的编码器已经足以提取出输入数据序列的长程短程关联,从而使得进一步的预测成为可能。可根据不同的应用需求,通过堆积多个编码器,使模型具有更多的参数,从而拥有更加强大的学习能力。输出y是一个序列,该序列中的每一个元素融合了序列中相关元素信息。多头的使用可以使输入数据为三阶张量,而上述的基于量子计算的注意力模型可对输入数据中的每一者执行并行操作,从而更加提升了量子计算对数据的并行处理效率。
[0057]
根据本技术的一些实施例,可根据具体的应用需求,使用各种数据集或样本对上述神经网络模型进行训练,以得到经训练的参数化量子线路,训练方法包括使用损失函数bceloss:
[0058][0059]
其中,是预测值,y是标签。
[0060]
利用随机梯度下降,可通过对参数化量子线路中的参数和/或经典神经网络中的参数同时进行调节,使得上述损失函数达到最小值。
[0061]
根据本技术的另一实施例,也可通过计算交叉熵函数损失函数和神经网络模型中
可调参数的梯度,来更新模型的可调参数,损失函数值越小则说明差异越小。
[0062]
例如也可使用如下的损失函数:
[0063][0064]
其中m为输入数据中的每一者的类别的数量,y
ic
是符号函数(0或1),如果样本i的真实类别等于c取1,否则取0,p
ic
为观察样本i属于第i类词的预测概率。
[0065]
本技术提出的基于量子计算的注意力模型及神经网络模型可适用于多种应用场景,如生物医药、材料、神经科学等领域。由于这些模型的运行都需要消耗大量的计算资源。传统方法中的计算资源主要由电子集成电路制造的芯片提供,而随着电子遂穿效应对制程接近纳米极限后的制约,算力很难再持续提升。量子芯片是对电子芯片计算方式的补充,然而经典的图注意力机制算法在量子芯片上的运行无法按照其在电子芯片上的方式进行处理。本技术由于采用了量子-经典混合/全量子的数据处理方法,相比传统的方法更节省计算资源,同时算力也有很大的提升。例如,本技术提出的基于量子计算的注意力模型及神经网络模型可用于预测蛋白质功能。
[0066]
由于蛋白质分子不是独立工作的,而是工作在一个复杂的分子相互作用网络中,例如在通常被可视化为图的ppi数据集中,蛋白质被表示为节点,而相互作用则是节点之间的连接。如果两个蛋白质之间的相互作用是由y2h实验检测出来的,则可以用两个节点之间的无定向连接来表示这种相互作用。因此想要理解蛋白质的功能以及相互作用是一件非常困难的事情。而通过本技术提出的基于量子计算的注意力模型和神经网络模型,可从人体组织ppi图数据中学习蛋白质作用规则。只要提供新的人体组织ppi图数据,就能够准确预测蛋白质功能,从而为药物开发,疾病治疗打下基础。
[0067]
根据本技术的一些实施例,可使用来自斯坦福大学ppi数据集(http://snap.stanford.edu/graphsage/)的经典数据集来进行蛋白质功能预测。该数据集是图结构的,图的节点表示蛋白质,图的连接表示蛋白质之间的相互作用。每个蛋白质节点可由一个50维的特征矢量描述,可使用位置基因组、主题基因组和免疫学信息来构建特征矢量。每个图对应一个不同的人体组织。使用基因本体组蛋白质功能分类信息作为标签(共121个)。所以每个蛋白质节点可以同时属于多个类别(含有多个标签)。平均来讲,每张图包含2373个节点,每个节点有28.8个连接。
[0068]
可通过对经典输入数据,即蛋白质信息,进行振幅编码,使它变成量子态,然后使用上述基于量子计算的注意力模型及神经网络模型,得到相应的输出。例如,通过使用如图8所示的神经网络模型,可得到输出结果为一个形状为[batch_size,n_nodes,121]的张量,即预测了每一个节点蛋白质所属的类别。蛋白质功能分类信息作为标签(共121个)。每个蛋白质节点可以同时属于多个类别(含有多个标签)。例如,将一组蛋白质(某一节点)的信息作为输入数据,通过上述量子transformer模型,可输出一组对应的矢量,每个矢量表示相应蛋白质的功能。比如输出矢量为[0.9,0.8,

],该矢量表示该蛋白质有多种不同的功能,功能1是与染色质结合的概率为0.9,功能2是解开dna双链的概率为0.8等。
[0069]
根据本技术的另一实施例,基于上述量子transformer模型还可用于预测蛋白质配体结合亲和力。
[0070]
预测蛋白质与配体的结合亲和力已被广泛认为是计算药物发现中最重要的任务之一。这里的配体通常是指包括小分子和生物制剂在内的候选药物,它们可以在生物过程中作为激动剂或抑制剂与蛋白质相互作用以治疗疾病。结合亲和力,即蛋白质和配体(如药物)之间的结合作用的强度,可以通过实验方法测量,但是这些生物测试是费时费力的。通过计算机辅助模拟方法和数据驱动学习模型,可以在药物发现的早期阶段预测结合亲和力。与直接应用昂贵的生物方法来筛选众多候选分子不同,预测结合亲和力可以帮助对候选药物进行排序,优先选择合适的药物进行后续测试,从而加快药物筛选的进程。
[0071]
例如可使用经典数据集(来自http://www.pdbbind.org.cn/browse.php)通过使用本技术提出的量子transformer模型来预测蛋白质与配体的结合亲和力。
[0072]
pdbbind数据库的目的是为蛋白质数据库(pdb)中存放的所有生物分子复合物提供实验测量的结合亲和力数据的综合集合。它提供了这些复合物的能量和结构信息之间的基本联系,这有助于有关分子识别、药物发现等的各种计算和统计研究。
[0073]
pdbbind数据库最初由美国密歇根大学王少萌教授课题组开发,于2004年5月首次对外发布,现由药学院王任晓教授课题组维护和进一步开发,中国复旦大学。pdbbind数据库每年更新一次,以跟上蛋白质数据库的增长。该数据集包含五列信息:pdbidsmiles sequence pocket label(分别是id,药物分子的smiles编码,蛋白质序列,蛋白质口袋序列),结合亲和力,一共有近1万条数据,基于本技术的量子transformer模型的输出则代表了药物分子与蛋白质的亲和力。
[0074]
本技术的一些实施例还提供一种编码器和解码器,编码器和解码器可分别包括上述基于量子计算的注意力模型,以根据实际需求实现编码和解码的操作。
[0075]
根据本技术的一些实施例,还可利用上述量子transformer模型构建编码器和解码器,以实现对药物靶点结合能的预测。
[0076]
例如,可首先对蛋白质和化合物数据分别进行预处理,可通过以下方法进行:
[0077]
s1-蛋白质数据预处理:
[0078]
1.将uniprot数据库中所有的人类蛋白序列作为语料库。
[0079]
2.首先利用n-gram方法将输入的氨基酸序列进行划分得到单词,在本文中用到的是n=3的有重叠的划分。
[0080]
3.将uniprot中所有的人类蛋白序列作为语料库去训练word2vec模型。word2vec是一种无监督的模型,包括两种预训练的方法,称为skip-gram和continue bag-of-words(cbow)。结合skip-gram和cbow,word2vec最终可以将输入数据映射到低维的实值向量,其中输入数据中相关的数据映射出来的向量也彼此靠近。
[0081]
4.然后利用预训练好的word2vec模型将输入数据转为实值嵌入,得到一个100维的实值嵌入表示向量。
[0082]
s2-化合物预处理:
[0083]
1.首先使用rdkit将化合物中每个原子的特征转换为长度为34的向量表示。
[0084]
2.然后使用图卷积网络通过集成相邻原子的特征来学习每个原子的表示,通过半监督节点分类问题的训练得到对应分子的表示。
[0085]
对输入数据进行预处理之后,构建分别包括本技术提出的量子transformer模型的编码器和解码器的神经网络模型,使用上述输入数据对该神经网络模型进行训练,训练
过程如下:
[0086]
1.将蛋白质长度为b,m1维度的蛋白质特征输入到编码器提取特征,输出得到长度为b,维度为m2的蛋白质序列。
[0087]
将编码器输出得到的蛋白质序列与原子序列特征输入一起输入解码器,得到表示蛋白质与小分子相互作用的特征序列x1,x2,

,xa.然后通过softmax公式计算权重α,其中i为1,2,3,..a:
[0088][0089][0090]
再通过加权求和得到预测的相互作用向量:
[0091][0092]
y分别是化合物与蛋白质相互作用的可能性的预测和标签。
[0093][0094]
2.最后将相互作用向量输入到神经网络模型的一系列的全连接层和非线性激活函数得到预测值,以此判断化合物-蛋白质之间是否会发生相互作用。作为一种传统的二分类任务,使用二元交叉熵损失来训练该神经网络模型。
[0095]
其中蛋白质序列是编码器的输入,而原子序列是解码器的输入,解码器的输出是包含有与原子序列相同长度的相互作用特征向量,利用上述训练好的模型可实现对结合能进行预测。
[0096]
图9为根据本技术的一些实施例基于量子transformer模型对药物靶点结合能的预测方法的流程图。
[0097]
根据本技术的另一实施例,通过获取待分析化合物的分子表达信息为分子的简化分子线性输入规范(smiles),即用字符串来表示分子的化学结构,同时作为上述神经网络模型的输入数据序列,可实现对化学分子的逆合成推理,通过构建相应的解码器,使解码器输出与输入需要推理的分子相应的结果化合物。
[0098]
应理解,虽然上述实施例中的输入数据为蛋白质或化合物分子信息,但是这仅只是用于说明本技术提供的基于量子计算的注意力模型及神经网络模型的示范性实施例,而不应理解为对本技术所保护范围的限制。根据本技术的另一些实施例,其它类似的应用也可使用本技术提出的基于量子计算的注意力模型及神经网络模型。
[0099]
本技术的基于量子计算的注意力模型及神经网络模型使得需要优化的参数量大大减少,用到的存储介质,即量子比特数目也大大减少,从而使得基于量子计算的数据处理的方法更便捷、准确。
[0100]
本技术的技术内容及技术特点已揭示如上,然而熟悉本领域的技术人员仍可能基于本技术的教示及揭示而作种种不背离本技术精神的替换及修饰。因此,本技术的保护范围应不限于实施例所揭示的内容,而应包括各种不背离本技术的替换及修饰,并为本专利申请权利要求书所涵盖。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1