用于有符号字的双复数与复共轭乘法的系统、装置和方法与流程

文档序号:17337048发布日期:2019-04-05 22:37阅读:308来源:国知局
用于有符号字的双复数与复共轭乘法的系统、装置和方法与流程

本发明的领域一般涉及计算机处理器架构,更具体地涉及在执行时导致特定结果的指令。



背景技术:

诸如数字信号处理应用的应用对复向量执行各种操作,这些操作执行过滤、后处理和其他功能。对复向量的实部和虚部两者的诸如算术计算、饱和等的这些操作通常需要执行多个指令序列。这导致较低的性能,因为对每个操作运行这些指令序列。

附图说明

在所附附图中以示例方式而非限制方式来图示本发明,在附图中,类似的附图标记指示类似的要素,其中:

图1图示双复数与复共轭乘法指令的示例性执行;

图2图示用于处理诸如双复数与复共轭乘法指令之类的指令的硬件的实施例;

图3图示由处理器执行的用于处理双复数与复共轭乘法指令的方法的实施例;

图4a是图示根据本发明的实施例的示例性专用向量友好指令格式的框图;

图4b是图示根据本发明的一个实施例的构成完整操作码字段的具有专用向量友好指令格式的字段的框图;

图4c是图示根据本发明的一个实施例的构成寄存器索引字段的具有专用向量友好指令格式的字段的框图;

图5是根据本发明的一个实施例的寄存器架构的框图;

图6a是图示根据本发明的实施例的示例性有序流水线以及示例性寄存器重命名的乱序发布/执行流水线两者的框图;

图6b是图示根据本发明的实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核的框图;

图7a-b图示更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块之一(包括相同类型和/或不同类型的其他核);

图8是根据本发明的实施例的可具有超过一个的核、可具有集成存储器控制器、并且可具有集成图形器件的处理器的框图;

图9示出根据本发明的一个实施例的系统的框图;

图10是根据本发明的实施例的第一更具体的示例性系统的框图;

图11是根据本发明的实施例的第二更具体的示例性系统的框图;

图12是根据本发明的实施例的soc的框图;以及

图13是根据本发明的各实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。

具体实施方式

在以下描述中,陈述了众多具体细节。然而,应当理解,可在没有这些特定细节的情况下实践本发明的实施例。在其他实例中,未详细示出公知的电路、结构和技术,以免使对本描述的理解模糊。

说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用表明所描述的实施例可以包括特定的特征、结构或特性,但是每个实施例可能不一定都包括该特定的特征、结构或特性。此外,此类短语不一定是指同一个实施例。此外,当结合实施例描述特定的特征、结构或特性时,认为结合无论是否被明确描述的其他实施例而影响此类特征、结构或特性是在本领域技术人员的知识范围之内的。

上文讨论的复向量操作先前需要执行多个指令序列以生成期望的输出。这包括,例如,用于单独地执行复数与复共轭乘法的操作。各实施例公开了用于对向量源寄存器的四字复数数据执行双复数与复共轭乘法的指令。

本文详述用于通过相比执行多个操作来执行双复数与复数乘法进行加速(并且因此通常使用更少的功率)来改善计算机本身的双复数与复共轭乘法指令的实施例。对该指令的执行使得执行电路(执行单元)对源数据执行复数乘法。在一些实施例中,对双复数与复共轭乘法指令的执行使执行电路:将来自第一和第二紧缩数据源操作数中的多个紧缩数据元素位置的数据值复用至至少一个乘法器电路,第一和第二紧缩数据源操作数包括多个复数对,每个复数对包括在第一和第二紧缩数据源操作数中的共享紧缩数据元素位置处的数据值;计算第一复数与第二复数的复共轭的乘积的实部和虚部;以及将每个复数对的乘积的实部和虚部输出至加法器网络以计算实结果和虚结果;以及将实结果存储到目的地操作数中的第一紧缩数据元素位置,并且将虚结果存储到目的地操作数中的第二紧缩数据元素位置。

图1图示双复数与复共轭乘法指令的示例性执行。双复数乘加指令格式包括用于目的地(紧缩数据目的地(dst)120)和两个源(向量紧缩数据源1(src1)102和向量紧缩数据源2(src2)104)的字段。例如,src1102和src2104可以各自包括两个复数的值,其中每个复数是双字(例如,a+bi、e+fi等)。该指令用于将存储在src1102和src2104中的复数与存储在src1102和src2104中的复数的复共轭相乘。在一些实施例中,所得的值可以被舍入,诸如通过截断、收敛或向上舍入操作。

紧缩数据源1102包括八个紧缩数据元素(在紧缩数据元素位置a-h处示出)。取决于实现方式,向量紧缩数据源2\1102是紧缩数据寄存器(例如,xmm、ymm、zmm、向量、simd、d、s等寄存器)或存储器位置。

紧缩数据源2104包括八个紧缩数据元素(在紧缩数据元素位置a-h处示出)。取决于实现方式,紧缩数据源2104是紧缩数据寄存器(例如,xmm、ymm、zmm、向量、simd、d、s等寄存器)或存储器位置。

将两个紧缩数据源102、104馈送到执行电路中以对其进行操作。如所示,执行电路可以包括输入复用器106,其将来自紧缩数据源102、104的值传递至多个乘法器107。如所讨论的,将对应复数的值(例如,s1(a)和s1(b)等)相乘。以下是复数与复共轭乘法的示例:

(x+yi)(u-vi)=(xu+yv)+(-xv+yu)i

当应用于存储在向量紧缩数据源src2102和src3104中的复数时,这种复数乘法可以表示为:

(sla+s1bi)(s2a-s2bi)=(s2a*s1a+s2b*s1b)+(-s2b*s1a+s2a*s1b)i

乘法器107可以执行对数据源102、104的向量乘法。在一些实施例中,每个输入值可以是有符号值。如图1所示,乘法器107可以生成下列值:s2a*s1a、s2b*s1b、s2b*s1a、s2a*s1b、s2e*s1e、s2f*s1f、s2f*s1e和s2e*s1f。注意,尽管示出多个乘法器,但是在一些实施例中,重复使用同一个乘法器。在一些实施例中,操作数的顺序可以是src2[]xsrc1[],其中src2[]是从src2104取出的复数,而src1[]是从src1102取出的复数。在各实施例中,可以对32位乘法器输出执行减法和有符号加法。

在图1所示的实施例中,加法器网络108、110可以将乘法器107的输出组合以计算双复数与复共轭复数乘法的实部和虚部。由此,双复数乘加指令计算第一复数与第二复数的复共轭的第一乘积。每个复数包括实部和虚部。在一些实施例中,每个实部和虚部可以是存储在源操作数中的连续数据元素位置中的16位字。每个复数对可以包括来自每个源操作数中的相同数据元素位置的复数。例如,在图1的实施例中,第一复数对可以包括存储在s1a(实部)和s1b(虚部)处的第一复数与存储在s2a(实部)和s2b(虚部)处的第二复数。类似地,第二复数对可以在s1e/s1f和s2e/s2f处。在一些实施例中,第三复数对在s1c/s1d和s2c/s2d处,并且第四复数对在s1g/s1h和s2g/s2h处。当执行双复数与复共轭乘法指令时,可以计算第一和第二复数对的乘积的和,例如:

(s1a+s1bi)(s2a-s2bi)=(s2a*s1a+s2b*s1b)+(-s2b*s1a+s2a*s1b)i

(s1e+s1fi)(s2e-s2fi)=(s2e*s1e+s2f*s1f)+(-s2f*s1e+s2e*s1f)i

下文示出该计算的伪代码表示:

如上所示,第一临时寄存器(temp0)可以存储复数与复共轭乘法的实部,并且第二临时寄存器(temp1)可以存储虚部(例如,其中src1[15:0]对应于src1102的元素a,src1[31:16]对应于src1102的元素b,并且对于src2是类似的)。类似地,第三临时寄存器(temp2)可以存储第二复数对的复数与复共轭乘法的实部,并且第四临时寄存器(temp3)可以存储虚部(例如,其中src1[79:64]对应于src1102的元素e,并且src1[95:80]对应于src1102的元素f,并且对于src2是类似的)。

在一些实施例中,可以在将存储在临时寄存器中的一个上的每个所得的值存储到目的地中之前对该值进行舍入与饱和。如以上伪代码表示所示,可以在将存储在临时寄存器中的值存储到目的地之前对该值执行舍入操作。舍入操作可以接收一个或多个控制位输入,这一个或多个控制位输入可以用于确定要执行哪个舍入操作。例如,如下列伪代码表示所示,可以基于一个或多个控制位(例如,mxcsr.irm[1:0])执行截断、向上舍入、或收敛舍入操作。取决于经舍入的结果的值,可以将目的地饱和至最大正值,或者可以将经舍入的结果的值存储到目的地。如图1所示,可以通过舍入电路112、114执行上述舍入。在一些实施例中,饱和电路122、124可以在结果被存储到向量紧缩数据目的地之前执行上述饱和,例如,如下列伪代码表示所示:

在一些实施例中,指令可以实现为两个微操作(例如,一个用于较低的四字,一个用于较高的四字)。以上描述的操作可以表示用于对两个复数对(来自每个源寄存器的a+bi和e+fi)执行复数与复共轭乘法的第一微操作。在一些实施例中,第二微操作可以对两个附加复数对(来自每个源寄存器的c+di和g+hi)执行复共轭乘法。下文示出该第二微操作的伪代码表示:

如上所示,第五临时寄存器(temp4)可以存储复数与复共轭乘法的实部,并且第六临时寄存器(temp5)可以存储虚部(例如,其中src1[47:32]对应于src1102的元素c,src1[63:48]对应于src1102的元素d,并且对于src2是类似的)。类似地,第七临时寄存器(temp6)可以存储第二复数对的复数与复共轭乘法的实部,并且第八临时寄存器(temp7)可以存储虚部(例如,其中src1[111:96]对应于src1102的元素g,并且src1[127:112]对应于src1102的元素h,并且对于src2是类似的)。在一些实施例中,如上文所讨论的,可以在将结果存储到目的地120之前对所得值执行舍入。

来自饱和单元122、124的16位的实部和虚部输出中的每一个存储在目的地寄存器中。取决于实现方式,紧缩数据源1/目的地120是紧缩数据寄存器(例如,xmm、ymm、zmm、向量、simd、d、s等寄存器)或存储器位置。

在一些实施例中,如上所示,加法器网络108和110可以对乘法器107的输出执行减法和有符号加法以计算实结果和虚结果。例如,s2a*s1a的值可以存储在第一临时寄存器中,并且s2b*s1b的值可以存储在第二临时寄存器中。有符号加法函数可以用于将这些值相加,并且将表示复数与复共轭乘积的实部的所得值存储在第三临时寄存器中。在一些实施例中,有符号加法可以通过以下方式来执行:对第一和第二临时寄存器中的值进行符号扩展,并且然后将经符号扩展的值相加并且将结果存储到第三临时寄存器。类似地,可以执行减法以计算复数与复共轭乘积的虚部。例如,-s2b*s1a的值与s2a*s1b的值可以分别存储在第一和第二临时寄存器中。可以确定第二临时寄存器的值的2补码,并且将其存储在第三临时寄存器中。然后可以将第一临时寄存器和第三临时寄存器的值相加(例如,使用无符号加法),并且将结果存储到目的地。

图2图示用于处理诸如双复数与复共轭乘法指令之类的指令的硬件的实施例。如所示,存储201存储要执行的双复数乘加指令201。

每条指令由解码电路205接收。例如,解码电路205接收来自取出逻辑/电路的该指令。指令201包括用于操作码、第一和第二源、和目的地的字段。在一些实施例中,源和目的地是寄存器,并且在其他实施例中,源和目的地中的一个或多个是存储器位置。稍后将详述具有至少一个指令格式的更详细的实施例。解码电路205将指令解码为一个或多个操作。在一些实施例中,该解码包括生成要由执行电路(诸如执行电路209)执行的多个微操作。解码电路205还对指令前缀解码。

在一些实施例中,寄存器重命名、寄存器分配和/或调度电路207提供以下项中的一个或多个的功能:1)将逻辑操作数值重命名为物理操作数值(例如,在一些实施例中的寄存器别名表);2)将状态位和标志分配到经解码的指令,以及3)将用于在执行电路上执行的经解码的指令调度出指令池(例如,在一些实施例中使用预留站)。

寄存器(寄存器堆)和/或存储器208将数据存储为要被执行电路操作的指令的操作数。示例性寄存器类型包括紧缩数据寄存器、通用寄存器和浮点寄存器。

执行电路209执行经解码的指令。示例性的详细的执行电路已在图1和2中示出。对经解码的指令的执行使执行电路执行源复数的实部或虚部的双复数乘法和加法。在一些实施例中,对经解码的双复数乘加指令的执行使执行电路:将来自第一和第二紧缩数据源操作数中的多个紧缩数据元素位置的数据值复用至至少一个乘法器电路,第一和第二紧缩数据源操作数包括多个复数对,每个复数对包括在第一和第二紧缩数据源操作数中的共享紧缩数据元素位置处的数据值;计算每个复数对的乘积的实部并且将每个复数对的乘积的实部输出至加法器网络;将第一复数对的乘积的实部加到第二复数对的乘积的实部以计算第一实结果;以及将第三复数对的乘积的实部加到第四复数对的乘积的实部以计算第二实结果;以及将第一实结果存储到目的地操作数中的第一紧缩数据元素位置,并且将第二实结果存储到目的地操作数中的第二紧缩数据元素位置。

写回(引退)电路211提交经解码的指令的执行的结果。

在一些实施例中,引退/写回电路将目的地寄存器在架构上提交到寄存器或存储器中并且引退指令。

双复数与复共轭乘法指令的格式的实施例是vpccmulwrsdstreg,src1,src2。在一些实施例中,vpccmulwrs{b/w/d/q}是指令的操作码助记符。dstreg是用于紧缩数据目的地寄存器操作数的字段。src1和src2是用于诸如紧缩数据寄存器和/或存储器的源的字段。在一些实施例中,指令可以是vex编码的。在一些实施例中,src1可以是“vvvv”值(诸如420),并且在一些实施例中,src2可以是r/m值(诸如446),如进一步参考图4所讨论的。

在一些实施例中,双复数与复共轭乘法指令包括vpccmulwrsdestr,src1,src2(其对输入复数执行双复数与复共轭乘法)。写掩码用于有条件地控制逐元素操作和对结果的更新。取决于实现方式,该写掩码使用合并或归零掩蔽。以断言(写掩码、写入掩码或k寄存器)操作数进行编码的指令使用那个操作数来有条件地控制逐元素的计算操作以及结果到目的地操作数的更新。该断言操作数被称为操作掩码(写掩码)寄存器。在一些实施例中,操作掩码是尺寸为64位的架构寄存器的集合。注意,从架构寄存器的该集合,仅k1到k7可以被寻址为断言操作数。k0可用作常规的源或目的地,但不能被编码为断言操作数。也注意到,断言操作数可用于启用对具有存储器操作数(源或目的地)的一些指令的存储器故障抑制。作为断言操作数,操作掩码寄存器包含一个位来支配对向量寄存器的每个数据元素的操作/更新。一般而言,操作掩码寄存器可支持具有如下元素尺寸的指令:单精度浮点(float32)、整数双字(int32)、双精度浮点(float64)、整数四字(int64)。操作掩码寄存器的长度max_kl足以处置多达64个元素,对于每个元素有一个位,即,64位。对于给定的向量长度,每条指令仅访问基于其数据类型所需数量的最低有效的掩码位。操作掩码寄存器以逐元素的粒度影响指令。因此,每个数据元素的任何数值或非数值操作以及中间结果至目的地操作数的逐元素更新在操作掩码寄存器的对应位上被断言。在多数实施例中,充当断言操作数的操作掩码遵从以下属性:1)如果对应的操作掩码位未被置位(这暗示没有异常或违例会由对掩蔽关闭的(masked-off)的元素的操作导致,因此,作为掩蔽关闭的操作的结果,没有异常标志被更新),则不对元素执行指令的操作;2)如果对应的写掩码位未被置位,则不用操作的结果更新目的地元素。相反,目的地元素值必须被保留(合并掩蔽),或者它必须被归零(归零掩蔽);3)对于具有存储器操作数的一些指令,对于具有掩码位0的元素,存储器故障被抑制。注意,该特征提供了用于实现控制流断言的通用构造,因为掩码实际上为向量寄存器目的地提供了合并行为。作为替代,掩蔽可用于归零而不是合并,使得用0来更新被掩蔽掉的元素,而不是保留旧值。提供归零行为,以便当不需要对旧值的隐式依赖关系时去除该对旧值的隐式依赖关系。

在实施例中,指令的编码包括比例-索引-基址(sib)型存储器寻址操作数,其间接地标识存储器中的多个被索引的目的地位置。在一个实施例中,sib型存储器操作数可以包括标识基址寄存器的编码。基址寄存器的内容可以表示存储器中的基址,根据该存储器中的基址计算存储器中的特定目的地位置的地址。例如,基址可以是扩展向量指令的可能的目的地位置块中的第一位置的地址。在一个实施例中,sib型存储器操作数可以包括标识索引寄存器的编码。索引寄存器的每个元素可以指定索引或偏移值,该索引或偏移值能用于根据基址计算可能的目的地位置块内的相应目的地位置的地址。在一个实施例中,sib型存储器操作数可以包括指定比例因数的编码,当计算相应的目的地地址时,将该比例因数应用到每个索引值。例如,如果将比例因数值4编码在sib型存储器操作数中,则可以将从索引寄存器的元素获得的每个索引值乘以4并且然后加到基址以计算目的地地址。

在一个实施例中,具有vm32{x,y,z}的形式的sib型存储器操作数可以标识使用sib型存储器寻址指定的存储器操作数的向量数组。在该示例中,使用共同基址寄存器、常数比例因数和包括各个元素(其中的每个元素是32位的索引值)的向量索引寄存器来指定存储器地址的数组。向量索引寄存器可以是128位寄存器(例如,xmm)寄存器(vm32x)、256位(例如,ymm)寄存器(vm32y)或512位(例如,zmm)寄存器(vm32z)。在另一实施例中,具有vm64{x,y,z}的形式的sib型存储器操作数可以标识使用sib型存储器寻址指定的存储器操作数的向量数组。在该示例中,使用共同基址寄存器、常数比例因数和包括各个元素(其中的每个元素是64位的索引值)的向量索引寄存器来指定存储器地址的数组。向量索引寄存器可以是128位寄存器(例如,xmm)寄存器(vm64x)、256位(例如,ymm)寄存器(vm64y)或512位(例如,zmm)寄存器(vm64z)。

图3图示由处理器执行的用于处理双复数乘加指令的方法的实施例。例如,图3的处理器组件、如下文详述的流水线等执行该方法。

在301处,取出指令。例如,取出实部的双复数乘加指令。实部的双复数乘加指令包括用于操作码、第一和第二源操作数和目的地操作数的字段。在一些实施例中,该指令进一步包括用于写掩码的字段。在一些实施例中,从指令高速缓存取出指令。源操作数和目的地操作数可以是向量紧缩数据。

在303处,对取出的指令进行解码。例如,由诸如本文详述的解码电路对取出的实部的双复数乘加指令进行解码。

(根据需要)在305处检取与经解码的指令的源操作数相关联的数据值,并且调度经解码的指令。例如,当源操作数中的一个或多个是存储器操作数时,检取来自所指示的存储器位置的数据。

在307处,由诸如本文详述的执行电路(硬件)执行经解码的指令。对于双复数与复共轭乘法指令,执行将使执行电路将第一源数据中的复数乘以第二源数据中的复数的复共轭。在一些实施例中,对经解码的双复数与复共轭乘法指令的执行使执行电路:将来自第一和第二紧缩数据源操作数中的多个紧缩数据元素位置的数据值复用至至少一个乘法器电路,第一和第二紧缩数据源操作数包括多个复数对,每个复数对包括在第一和第二紧缩数据源操作数中的共享紧缩数据元素位置处的数据值;计算第一复数与第二复数的复共轭的乘积的实部;以及将每个复数对的乘积的实部和虚部输出至加法器网络以计算实结果和虚结果;以及将实结果存储到目的地操作数中的第一紧缩数据元素位置,并且将虚结果存储到目的地操作数中的第二紧缩数据元素位置。

在一些实施例中,在309处提交或引退指令。

下文详述示例性实施例。

1.一种装置,包括:解码器,用于对指令解码,该指令具有用于第一和第二紧缩数据源操作数和紧缩数据目的地操作数的字段;以及执行电路,用于执行经解码的指令以:将来自第一和第二紧缩数据源操作数中的多个紧缩数据元素位置的数据值复用至至少一个乘法器电路,第一和第二紧缩数据源操作数包括多个复数对,每个复数对包括在第一和第二紧缩数据源操作数中的共享紧缩数据元素位置处的数据值;计算第二复数的复共轭与第一复数的乘积的实部和虚部;以及将实部存储到目的地操作数中的第一紧缩数据元素位置,并且将虚部存储到目的地操作数中的第二紧缩数据元素位置。

2.示例1的装置,其中第一紧缩数据源操作数是紧缩数据寄存器,并且第二紧缩数据源操作数是存储器位置。

3.示例1的装置,其中第一紧缩数据源操作数是紧缩数据寄存器,并且第二紧缩数据源操作数是紧缩数据寄存器。

4.示例1的装置,其中为了计算第二复数的复共轭与第一复数的乘积的实部,执行电路进一步用于:将每个复数对的乘积的实部和虚部输出至加法器网络以计算实结果和虚结果。

5.示例1的装置,其中紧缩数据目的地操作数是紧缩数据寄存器,并且第一紧缩数据元素位置是紧缩数据寄存器的较低16位,并且第二紧缩数据元素位置是紧缩数据寄存器的下一16位。

6.示例1的装置,其中执行电路用于执行经解码的指令以进一步:舍入第二复数的复共轭与第一复数的乘积的实部;以及舍入第二复数的复共轭与第一复数的乘积的虚部。

7.示例6的装置,其中用于乘积的实部和虚部的舍入类型使用一个或多个控制位来选择。

8.示例7的装置,其中舍入类型包括截断、收敛舍入或向上舍入中的至少一个。

9.一种方法,包括:对指令解码,该指令具有用于第一和第二紧缩数据源操作数和紧缩数据目的地操作数的字段;以及由执行电路执行经解码的指令以:将来自第一和第二紧缩数据源操作数中的多个紧缩数据元素位置的数据值复用至至少一个乘法器电路,第一和第二紧缩数据源操作数包括多个复数对,每个复数对包括在第一和第二紧缩数据源操作数中的共享紧缩数据元素位置处的数据值;计算第二复数的复共轭与第一复数的乘积的实部和虚部;以及将实部存储到目的地操作数中的第一紧缩数据元素位置,并且将虚部存储到目的地操作数中的第二紧缩数据元素位置。

10.示例9的方法,其中第一紧缩数据源操作数是紧缩数据寄存器,并且第二紧缩数据源操作数是存储器位置。

11.示例9的方法,其中第一紧缩数据源操作数是紧缩数据寄存器,并且第二紧缩数据源操作数是紧缩数据寄存器。

12.示例9的方法,其中为了计算第二复数的复共轭与第一复数的乘积的实部,执行电路进一步用于:将每个复数对的乘积的实部和虚部输出至加法器网络以计算实结果和虚结果。

13.示例9的方法,其中紧缩数据目的地操作数是紧缩数据寄存器,并且第一紧缩数据元素位置是紧缩数据寄存器的较低16位,并且第二紧缩数据元素位置是紧缩数据寄存器的下一16位。

14.示例9的方法,其中由执行电路执行经解码的指令的步骤进一步用于:舍入第二复数的复共轭与第一复数的乘积的实部;以及舍入第二复数的复共轭与第一复数的乘积的虚部。

15.示例14的方法,其中用于乘积的实部和虚部的舍入类型使用一个或多个控制位来选择。

16.示例15的方法,其中舍入类型包括截断、收敛舍入或向上舍入中的至少一个。

17.一种非暂态机器可读介质,该非暂态机器可读介质存储指令,该指令当由处理器执行时使处理器执行方法,该方法包括:对指令解码,该指令具有用于第一和第二紧缩数据源操作数和紧缩数据目的地操作数的字段;以及由执行电路执行经解码的指令以:将来自第一和第二紧缩数据源操作数中的多个紧缩数据元素位置的数据值复用至至少一个乘法器电路,第一和第二紧缩数据源操作数包括多个复数对,每个复数对包括在第一和第二紧缩数据源操作数中的共享紧缩数据元素位置处的数据值;计算第二复数的复共轭与第一复数的乘积的实部和虚部;以及将实部存储到目的地操作数中的第一紧缩数据元素位置,并且将虚部存储到目的地操作数中的第二紧缩数据元素位置。

18.示例17的非暂态机器可读介质,其中第一紧缩数据源操作数是紧缩数据寄存器,并且第二紧缩数据源操作数是存储器位置。

19.示例17的非暂态机器可读介质,其中第一紧缩数据源操作数是紧缩数据寄存器,并且第二紧缩数据源操作数是紧缩数据寄存器。

20.示例17的非暂态机器可读介质,其中为了计算第二复数的复共轭与第一复数的乘积的实部,执行电路进一步用于:将每个复数对的乘积的实部和虚部输出至加法器网络以计算实结果和虚结果。

21.示例17的非暂态机器可读介质,其中紧缩数据目的地操作数是紧缩数据寄存器,并且第一紧缩数据元素位置是紧缩数据寄存器的较低16位,并且第二紧缩数据元素位置是紧缩数据寄存器的下一16位。

22.示例17的非暂态机器可读介质,其中由执行电路执行经解码的指令的步骤进一步用于:舍入第二复数的复共轭与第一复数的乘积的实部;以及舍入第二复数的复共轭与第一复数的乘积的虚部。

23.示例22的非暂态机器可读介质,其中用于乘积的实部和虚部的舍入类型使用一个或多个控制位来选择。

24.示例23的非暂态机器可读介质,其中舍入类型包括截断、收敛舍入或向上舍入中的至少一个。

下文详述的是可以用于以上详述的指令的示例性指令格式、架构和系统。例如,详述了包括用于执行本文详述的方法的电路的支持指令的示例性流水线。

指令集

指令集包括一个或多个指令格式。给定指令格式定义各种字段(位的数量、位的位置)以指定将要执行的操作(操作码)以及将对其执行该操作的操作数,等等。通过指令模板(或子格式)的定义来进一步分解一些指令格式。例如,可将给定指令格式的指令模板定义为具有该指令格式的字段(所包括的字段通常按照相同顺序,但是至少一些字段具有不同的位的位置,因为较少的字段被包括)的不同子集,和/或定义为具有以不同方式进行解释的给定字段。由此,isa的每一条指令使用给定的指令格式(并且如果经定义,则按照该指令格式的指令模板中的给定的一个指令模板)来表达,并包括用于指定操作和操作数的字段。例如,示例性add(加法)指令具有特定的操作码和指令格式,该特定的指令格式包括用于指定该操作码的操作码字段和用于选择操作数(源1/目的地以及源2)的操作数字段;并且该add指令在指令流中出现将使得在操作数字段中具有选择特定操作数的特定的内容。

示例性指令格式

本文中所描述的(多条)指令的实施例可被具体化为不同格式。另外,在下文中详述示例性系统、架构和流水线。(多条)指令的实施例可在此类系统、架构和流水线上执行,但是不限于详述的那些系统、架构和流水线。

vex指令格式

vex编码允许指令具有多于两个的操作数,并且允许simd向量寄存器比128位长。vex前缀的使用提供了三操作数(或者更多操作数)句法。例如,先前的两操作数指令执行覆写源操作数的操作(诸如a=a+b)。vex前缀的使用使操作数能执行非破坏性操作,诸如a=b+c。

图4a图示示例性avx指令格式,包括vex前缀402、实操作码字段430、modr/m字节440、sib字节450、位移字段462以及imm8472。图4b图示来自图4a的哪些字段构成完整操作码字段474和基础操作字段441。图4c图示来自图4a的哪些字段构成寄存器索引字段444。

vex前缀(字节0-2)402以三字节形式进行编码。第一字节是格式字段490(vex字节0,位[7:0]),该格式字段490包含明确的c4字节值(用于区分c4指令格式的唯一值)。第二-第三字节(vex字节1-2)包括提供专用能力的多个位字段。具体地,rex字段405(vex字节1,位[7-5])由vex.r位字段(vex字节1,位[7]–r)、vex.x位字段(vex字节1,位[6]–x)以及vex.b位字段(vex字节1,位[5]–b)组成。这些指令的其他字段对如在本领域中已知的寄存器索引的较低三个位(rrr、xxx以及bbb)进行编码,由此可通过增加vex.r、vex.x以及vex.b来形成rrrr、xxxx以及bbbb。操作码映射字段415(vex字节1,位[4:0]–mmmmm)包括对隐含的前导操作码字节进行编码的内容。w字段464(vex字节2,位[7]–w)由记号vex.w表示,并且提供取决于该指令而不同的功能。vex.vvvv420(vex字节2,位[6:3]-vvvv)的作用可包括如下:1)vex.vvvv对第一源寄存器操作数编码,且对具有两个或更多个源操作数的指令有效,该第一源寄存器操作数以反转(1补码)形式被指定;2)vex.vvvv对目的地寄存器操作数编码,该目的地寄存器操作数针对某些向量位移以1补码的形式被指定;或者3)vex.vvvv不对任何操作数编码,保留该字段,并且该字段应当包含1111b。如果vex.l468尺寸字段(vex字节2,位[2]-l)=0,则它指示128位向量;如果vex.l=1,则它指示256位向量。前缀编码字段425(vex字节2,位[1:0]-pp)提供用于基础操作字段441的附加位。

实操作码字段430(字节3)还被称为操作码字节。操作码的部分在该字段中被指定。

modr/m字段440(字节4)包括mod字段442(位[7-6])、reg字段444(位[5-3])、以及r/m字段446(位[2-0])。reg字段444的作用可包括如下:对目的地寄存器操作数或源寄存器操作数(rrrr中的rrr)进行编码;或者被视为操作码扩展且不用于对任何指令操作数进行编码。r/m字段446的作用可包括如下:对引用存储器地址的指令操作数进行编码;或者对目的地寄存器操作数或源寄存器操作数进行编码。

比例、索引、基址(sib)-比例字段450(字节5)的内容包括用于存储器地址生成的ss452(位[7-6])。先前已经针对寄存器索引xxxx和bbbb参考了sib.xxx454(位[5-3])和sib.bbb456(位[2-0])的内容。

位移字段462和立即数字段(imm8)472包含数据。

示例性寄存器架构

图5是根据本发明的一个实施例的寄存器架构500的框图。在所图示的实施例中,有32个512位宽的向量寄存器510;这些寄存器被引用为zmm0到zmm31。较低的16个zmm寄存器的较低阶256个位覆盖(overlay)在寄存器ymm0-15上。较低的16个zmm寄存器的较低阶128个位(ymm寄存器的较低阶128个位)覆盖在寄存器xmm0-15上。

通用寄存器525——在所示出的实施例中,有十六个64位通用寄存器,这些寄存器与现有的x86寻址模式一起使用以对存储器操作数寻址。这些寄存器通过名称rax、rbx、rcx、rdx、rbp、rsi、rdi、rsp以及r8到r15来引用。

标量浮点栈寄存器堆(x87栈)545,在其上面重叠了mmx紧缩整数平坦寄存器堆550——在所图示的实施例中,x87栈是用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点操作的八元素栈;而使用mmx寄存器来对64位紧缩整数数据执行操作,以及为在mmx与xmm寄存器之间执行的一些操作保存操作数。

本发明的替代实施例可以使用更宽的或更窄的寄存器。另外,本发明的替代实施例可以使用更多、更少或不同的寄存器堆和寄存器。

示例性核架构、处理器和计算机架构

处理器核能以不同方式、出于不同的目的、在不同的处理器中实现。例如,此类核的实现可以包括:1)旨在用于通用计算的通用有序核;2)旨在用于通用计算的高性能通用乱序核;3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括:1)cpu,其包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用乱序核;以及2)协处理器,其包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核。此类不同的处理器导致不同的计算机系统架构,这些计算机系统架构可包括:1)在与cpu分开的芯片上的协处理器;2)在与cpu相同的封装中但在分开的管芯上的协处理器;3)与cpu在相同管芯上的协处理器(在该情况下,此类协处理器有时被称为专用逻辑或被称为专用核,该专用逻辑诸如,集成图形和/或科学(吞吐量)逻辑);以及4)芯片上系统,其可以将所描述的cpu(有时被称为(多个)应用核或(多个)应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。接着描述示例性核架构,随后描述示例性处理器和计算机架构。本文中详述了包括示例性核、处理器等的电路(单元)。

示例性核架构

有序和乱序核框图

图6a是图示根据本发明的各实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线的框图。图6b是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核的框图。图6a-图6b中的实线框图示有序流水线和有序核,而虚线框的任选增加图示寄存器重命名的、乱序发布/执行流水线和核。考虑到有序方面是乱序方面的子集,将描述乱序方面。

在图6a中,处理器流水线600包括取出级602、长度解码级604、解码级606、分配级608、重命名级610、调度(也被称为分派或发布)级612、寄存器读取/存储器读取级614、执行级616、写回/存储器写入级618、异常处置级622和提交级624。

图6b示出处理器核690,该处理器核690包括前端单元630,该前端单元630耦合到执行引擎单元650,并且前端单元630和执行引擎单元650两者都耦合到存储器单元670。核690可以是精简指令集计算(risc)核、复杂指令集计算(cisc)核、超长指令字(vliw)核、或混合或替代的核类型。作为又一选项,核690可以是专用核,诸如例如,网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(gpgpu)核、图形核,等等。

前端单元630包括分支预测单元632,该分支预测单元632耦合到指令高速缓存单元634,该指令高速缓存单元634耦合到指令转换后备缓冲器(tlb)636,该指令转换后备缓冲器636耦合到指令取出单元638,该指令取出单元638耦合到解码单元640。解码单元640(或解码器)可对指令解码,并且生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元640可使用各种不同的机制来实现。合适机制的示例包括但不限于,查找表、硬件实现、可编程逻辑阵列(pla)、微代码只读存储器(rom)等。在一个实施例中,核690包括存储用于某些宏指令的微代码的微代码rom或其他介质(例如,在解码单元640中,或以其他方式在前端单元630内)。解码单元640耦合到执行引擎单元650中的重命名/分配器单元652。

执行引擎单元650包括重命名/分配器单元652,该重命名/分配器单元652耦合到引退单元654和一个或多个调度器单元的集合656。(多个)调度器单元656表示任何数量的不同调度器,包括预留站、中央指令窗等。(多个)调度器单元656耦合到(多个)物理寄存器堆单元658。(多个)物理寄存器堆单元658中的每一个物理寄存器堆单元表示一个或多个物理寄存器堆,其中不同的物理寄存器堆存储一种或多种不同的数据类型,诸如,标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点,状态(例如,作为要执行的下一条指令的地址的指令指针)等等。在一个实施例中,(多个)物理寄存器堆单元658包括向量寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(多个)物理寄存器堆单元658由引退单元654重叠,以图示可实现寄存器重命名和乱序执行的各种方式(例如,使用(多个)重排序缓冲器和(多个)引退寄存器堆;使用(多个)未来文件、(多个)历史缓冲器、(多个)引退寄存器堆;使用寄存器映射和寄存器池,等等)。引退单元654和(多个)物理寄存器堆单元658耦合到(多个)执行集群660。(多个)执行集群660包括一个或多个执行单元的集合662以及一个或多个存储器访问单元的集合664。执行单元662可执行各种操作(例如,移位、加法、减法、乘法)并可对各种数据类型(例如,标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可以包括专用于特定功能或功能集合的多个执行单元,但是其他实施例可包括仅一个执行单元或全都执行所有功能的多个执行单元。(多个)调度器单元656、(多个)物理寄存器堆单元658和(多个)执行集群660示出为可能有多个,因为某些实施例为某些类型的数据/操作创建分开的流水线(例如,标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线,和/或各自具有其自身的调度器单元、(多个)物理寄存器堆单元和/或执行集群的存储器访问流水线——并且在分开的存储器访问流水线的情况下,实现其中仅该流水线的执行集群具有(多个)存储器访问单元664的某些实施例)。还应当理解,在使用分开的流水线的情况下,这些流水线中的一个或多个可以是乱序发布/执行,并且其余流水线可以是有序的。

存储器访问单元的集合664耦合到存储器单元670,该存储器单元670包括数据tlb单元672,该数据tlb单元672耦合到数据高速缓存单元674,该数据高速缓存单元674耦合到第二级(l2)高速缓存单元676。在一个示例性实施例中,存储器访问单元664可包括加载单元、存储地址单元和存储数据单元,其中的每一个均耦合到存储器单元670中的数据tlb单元672。指令高速缓存单元634还耦合到存储器单元670中的第二级(l2)高速缓存单元676。l2高速缓存单元676耦合到一个或多个其他级别的高速缓存,并最终耦合到主存储器。

作为示例,示例性寄存器重命名的乱序发布/执行核架构可如下所述地实现流水线600:1)指令取出638执行取出级602和长度解码级604;2)解码单元640执行解码级606;3)重命名/分配器单元652执行分配级608和重命名级610;4)(多个)调度器单元656执行调度级612;5)(多个)物理寄存器堆单元658和存储器单元670执行寄存器读取/存储器读取级614;执行集群660执行执行级616;6)存储器单元670和(多个)物理寄存器堆单元658执行写回/存储器写入级618;7)各单元可牵涉到异常处置级622;以及8)引退单元654和(多个)物理寄存器堆单元658执行提交级624。

核690可支持一个或多个指令集(例如,x86指令集(具有已与较新版本一起添加的一些扩展);加利福尼亚州桑尼维尔市的mips技术公司的mips指令集;加利福尼亚州桑尼维尔市的arm控股公司的arm指令集(具有诸如neon的任选的附加扩展)),其中包括本文中描述的(多条)指令。在一个实施例中,核690包括用于支持紧缩数据指令集扩展(例如,avx1、avx2)的逻辑,由此允许使用紧缩数据来执行由许多多媒体应用使用的操作。

应当理解,核可支持多线程化(执行两个或更多个并行的操作或线程的集合),并且可以按各种方式来完成该多线程化,各种方式包括时分多线程化、同时多线程化(其中单个物理核为物理核正在同时多线程化的线程中的每一个线程提供逻辑核)、或其组合(例如,时分取出和解码以及此后的诸如超线程化技术中的同时多线程化)。

尽管在乱序执行的上下文中描述了寄存器重命名,但应当理解,可以在有序架构中使用寄存器重命名。尽管所图示的处理器的实施例还包括分开的指令和数据高速缓存单元634/674以及共享的l2高速缓存单元676,但是替代实施例可以具有用于指令和数据两者的单个内部高速缓存,诸如例如,第一级(l1)内部高速缓存或多个级别的内部高速缓存。在一些实施例中,该系统可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。或者,所有高速缓存都可以在核和/或处理器的外部。

具体的示例性有序核架构

图7a-图7b图示更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核)中的一个逻辑块。取决于应用,逻辑块通过高带宽互连网络(例如,环形网络)与一些固定的功能逻辑、存储器i/o接口和其他必要的i/o逻辑进行通信。

图7a是根据本发明的实施例的单个处理器核以及它至管芯上互连网络702的连接及其第二级(l2)高速缓存的本地子集704的框图。在一个实施例中,指令解码器700支持具有紧缩数据指令集扩展的x86指令集。l1高速缓存706允许对进入标量和向量单元中的、对高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计),标量单元708和向量单元710使用分开的寄存器集合(分别为标量寄存器712和向量寄存器714),并且在这些寄存器之间传输的数据被写入到存储器,并随后从第一级(l1)高速缓存706读回,但是本发明的替代实施例可以使用不同的方法(例如,使用单个寄存器集合或包括允许数据在这两个寄存器堆之间传输而无需被写入和读回的通信路径)。

l2高速缓存的本地子集704是全局l2高速缓存的一部分,该全局l2高速缓存被划分成多个分开的本地子集,每个处理器核一个本地子集。每个处理器核具有到其自身的l2高速缓存的本地子集704的直接访问路径。由处理器核读取的数据被存储在其l2高速缓存子集704中,并且可以与其他处理器核访问其自身的本地l2高速缓存子集并行地被快速访问。由处理器核写入的数据被存储在其自身的l2高速缓存子集704中,并在必要的情况下从其他子集转储清除。环形网络确保共享数据的一致性。环形网络是双向的,以允许诸如处理器核、l2高速缓存和其他逻辑块之类的代理在芯片内彼此通信。在一些实施例中,每个环形数据路径为每个方向724位宽。

图7b是根据本发明的实施例的图7a中的处理器核的一部分的展开图。图7b包括l1高速缓存704的l1数据高速缓存706a部分,以及关于向量单元710和向量寄存器714的更多细节。具体地,向量单元710是16宽向量处理单元(vpu)(见16宽alu728),该单元执行整数、单精度浮点以及双精度浮点指令中的一个或多个。该vpu通过混合单元720支持对寄存器输入的混合,通过数值转换单元722a-b支持数值转换,并且通过复制单元724支持对存储器输入的复制。

具有集成存储器控制器和图形器件的处理器

图8是根据本发明的实施例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成图形器件的处理器800的框图。图8中的实线框图示具有单个核802a、系统代理810、一个或多个总线控制器单元的集合816的处理器800,而虚线框的任选增加图示具有多个核802a-n、系统代理单元810中的一个或多个集成存储器控制器单元的集合814以及专用逻辑808的替代处理器800。

因此,处理器800的不同实现可包括:1)cpu,其中专用逻辑808是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核),并且核802a-n是一个或多个通用核(例如,通用有序核、通用乱序核、这两者的组合);2)协处理器,其中核802a-n是旨在主要用于图形和/或科学(吞吐量)的大量专用核;以及3)协处理器,其中核802a-n是大量通用有序核。因此,处理器800可以是通用处理器、协处理器或专用处理器,诸如例如,网络或通信处理器、压缩引擎、图形处理器、gpgpu(通用图形处理单元)、高吞吐量的集成众核(mic)协处理器(包括30个或更多核)、嵌入式处理器,等等。该处理器可以被实现在一个或多个芯片上。处理器800可以是一个或多个基板的一部分,和/或可使用多种工艺技术(诸如例如,bicmos、cmos、或nmos)中的任何技术被实现在一个或多个基板上。

存储器层次结构包括核内的一个或多个高速缓存级别804a-n、一个或多个共享高速缓存单元的集合806、以及耦合到集成存储器控制器单元的集合814的外部存储器(未示出)。共享高速缓存单元的集合806可包括一个或多个中间级别的高速缓存,诸如,第二级(l2)、第三级(l3)、第四级(l4)或其他级别的高速缓存、末级高速缓存(llc)和/或以上各项的组合。虽然在一个实施例中,基于环的互连单元812将集成图形逻辑808、共享高速缓存单元的集合806以及系统代理单元810/(多个)集成存储器控制器单元814互连,但是替代实施例可使用任何数量的公知技术来互连此类单元。在一个实施例中,在一个或多个高速缓存单元806与核802a-n之间维持一致性。

在一些实施例中,一个或多个核802a-n能够实现多线程化。系统代理810包括协调和操作核802a-n的那些部件。系统代理单元810可包括例如功率控制单元(pcu)和显示单元。pcu可以是对核802a-n以及集成图形逻辑808的功率状态进行调节所需的逻辑和部件,或可包括这些逻辑和部件。显示单元用于驱动一个或多个外部连接的显示器。

核802a-n在架构指令集方面可以是同构的或异构的;即,核802a-n中的两个或更多个核可能能够执行相同的指令集,而其他核可能能够执行该指令集的仅仅子集或不同的指令集。

示例性计算机架构

图9-12是示例性计算机架构的框图。本领域中已知的对膝上型设备、台式机、手持pc、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(dsp)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般地,能够包含如本文中所公开的处理器和/或其他执行逻辑的各种各样的系统或电子设备一般都是合适的。

现在参考图9,所示出的是根据本发明一个实施例的系统900的框图。系统900可以包括一个或多个处理器910、915,这些处理器耦合到控制器中枢920。在一个实施例中,控制器中枢920包括图形存储器控制器中枢(gmch)990和输入/输出中枢(ioh)950(其可以在分开的芯片上);gmch990包括存储器和图形控制器,存储器940和协处理器945耦合到该存储器和图形控制器;ioh950将输入/输出(i/o)设备960耦合到gmch990。或者,存储器和图形控制器中的一个或这两者被集成在(如本文中所描述的)处理器内,存储器940和协处理器945直接耦合到处理器910,并且控制器中枢920与ioh950处于单个芯片中。

附加的处理器915的任选性在图9中通过虚线来表示。每一处理器910、915可包括本文中描述的处理核中的一个或多个,并且可以是处理器800的某一版本。

存储器940可以是例如动态随机存取存储器(dram)、相变存储器(pcm)或这两者的组合。对于至少一个实施例,控制器中枢920经由诸如前端总线(fsb)之类的多分支总线、点对点接口、或者类似的连接995来与(多个)处理器910、915进行通信。

在一个实施例中,协处理器945是专用处理器,诸如例如,高吞吐量mic处理器、网络或通信处理器、压缩引擎、图形处理器、gpgpu、嵌入式处理器,等等。在一个实施例中,控制器中枢920可以包括集成图形加速器。

在物理资源910、915之间可以存在包括架构、微架构、热、功耗特性等一系列品质度量方面的各种差异。

在一个实施例中,处理器910执行控制一般类型的数据处理操作的指令。嵌入在这些指令内的可以是协处理器指令。处理器910将这些协处理器指令识别为具有应当由附连的协处理器945执行的类型。因此,处理器910在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器945。(多个)协处理器945接受并执行所接收的协处理器指令。

现在参见图10,所示出的是根据本发明的实施例的第一更具体的示例性系统1000的框图。如图10中所示,多处理器系统1000是点对点互连系统,并且包括经由点对点互连1050耦合的第一处理器1070和第二处理器1080。处理器1070和1080中的每一个都可以是处理器800的某一版本。在本发明的一个实施例中,处理器1070和1080分别是处理器910和915,而协处理器1038是协处理器945。在另一实施例中,处理器1070和1080分别是处理器910和协处理器945。

处理器1070和1080示出为分别包括集成存储器控制器(imc)单元1072和1082。处理器1070还包括作为其总线控制器单元的一部分的点对点(p-p)接口1076和1078;类似地,第二处理器1080包括p-p接口1086和1088。处理器1070、1080可以经由使用点对点(p-p)接口电路1078、1088的p-p接口1050来交换信息。如图10中所示,imc1072和1082将处理器耦合到相应的存储器,即存储器1032和存储器1034,这些存储器可以是本地附连到相应处理器的主存储器的部分。

处理器1070、1080可各自经由使用点对点接口电路1076、1094、1086、1098的各个p-p接口1052、1054来与芯片组1090交换信息。芯片组1090可以任选地经由高性能接口1092来与协处理器1038交换信息。在一个实施例中,协处理器1038是专用处理器,诸如例如,高吞吐量mic处理器、网络或通信处理器、压缩引擎、图形处理器、gpgpu、嵌入式处理器,等等。

共享高速缓存(未示出)可被包括在任一处理器中,或在这两个处理器的外部但经由p-p互连与这些处理器连接,使得如果处理器被置于低功率模式,则任一个或这两个处理器的本地高速缓存信息可被存储在共享高速缓存中。

芯片组1090可以经由接口1096耦合到第一总线1016。在一个实施例中,第一总线1016可以是外围部件互连(pci)总线或诸如pci快速总线或另一i/o互连总线之类的总线,但是本发明的范围不限于此。

如图10中所示,各种i/o设备1014可连同总线桥1018一起耦合到第一总线1016,该总线桥1018将第一总线1016耦合到第二总线1020。在一个实施例中,诸如协处理器、高吞吐量mic处理器、gpgpu、加速器(诸如例如,图形加速器或数字信号处理(dsp)单元)、现场可编程门阵列或任何其他处理器的一个或多个附加处理器1015耦合到第一总线1016。在一个实施例中,第二总线1020可以是低引脚数(lpc)总线。在一个实施例中,各种设备可耦合到第二总线1020,这些设备包括例如键盘和/或鼠标1022、通信设备1027以及存储单元1028,该存储单元1028诸如可包括指令/代码和数据1030的盘驱动器或者其他大容量存储设备。此外,音频i/o1024可以被耦合到第二总线1020。注意,其他架构是可能的。例如,代替图10的点对点架构,系统可以实现多分支总线或其他此类架构。

现在参考图11,示出的是根据本发明的实施例的第二更具体的示例性系统1100的框图。图10和11中的类似元件使用类似的附图标记,并且从图11中省略了图10的某些方面以避免混淆图11的其他方面。

图11图示处理器1070、1080可分别包括集成存储器和i/o控制逻辑(“cl”)1172和1182。因此,cl1172、1182包括集成存储器控制器单元,并包括i/o控制逻辑。图11图示不仅存储器1032、1034耦合到cl1172、1182,而且i/o设备1114也耦合到控制逻辑1172、1182。传统i/o设备1115被耦合到芯片组1090。

现在参考图12,示出的是根据本发明的实施例的soc1200的框图。图8中的类似要素使用类似的附图标记。另外,虚线框是更先进的soc上的任选的特征。在图12中,(多个)互连单元1202被耦合到:应用处理器1210,其包括一个或多个核的集合802a-n、高速缓存单元804a-n以及(多个)共享高速缓存单元806;系统代理单元810;(多个)总线控制器单元816;(多个)集成存储器控制器单元814;一个或多个协处理器的集合1220,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(sram)单元1230;直接存储器访问(dma)单元1232;以及用于耦合到一个或多个外部显示器的显示单元1240。在一个实施例中,(多个)协处理器1220包括专用处理器,诸如例如,网络或通信处理器、压缩引擎、gpgpu、高吞吐量mic处理器、或嵌入式处理器,等等。

本文公开的机制的各实施例可以被实现在硬件、软件、固件或此类实现方式的组合中。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码(诸如,图10中图示的代码1030)应用于输入指令,以执行本文中描述的功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有处理器的任何系统,该处理器诸如例如,数字信号处理器(dsp)、微控制器、专用集成电路(asic)或微处理器。

程序代码可以用高级的面向过程的编程语言或面向对象的编程语言来实现,以便与处理系统通信。如果需要,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定的编程语言的范围。在任何情况下,该语言可以是编译语言或解释语言。

至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现,该指令表示处理器中的各种逻辑,该指令在被机器读取时使得该机器制造用于执行本文中所述的技术的逻辑。被称为“ip核”的此类表示可以被存储在有形的机器可读介质上,并可被供应给各个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。

此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的制品的非暂态、有形布置,其包括存储介质,诸如硬盘;任何其他类型的盘,包括软盘、光盘、紧致盘只读存储器(cd-rom)、可重写紧致盘(cd-rw)以及磁光盘;半导体器件,诸如,只读存储器(rom)、诸如动态随机存取存储器(dram)和静态随机存取存储器(sram)的随机存取存储器(ram)、可擦除可编程只读存储器(eprom)、闪存、电可擦除可编程只读存储器(eeprom);相变存储器(pcm);磁卡或光卡;或适于存储电子指令的任何其他类型的介质。

因此,本发明的实施例还包括非暂态的有形机器可读介质,该介质包含指令或包含设计数据,诸如硬件描述语言(hdl),它定义本文中描述的结构、电路、装置、处理器和/或系统特征。这些实施例也被称为程序产品。

仿真(包括二进制变换、代码变形等)

在一些情况下,指令转换器可用于将指令从源指令集转换至目标指令集。例如,指令转换器可以将指令变换(例如,使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其他方式转换成要由核处理的一条或多条其他指令。指令转换器可以用软件、硬件、固件、或其组合来实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。

图13是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所图示的实施例中,指令转换器是软件指令转换器,但替代地,该指令转换器可以用软件、固件、硬件或其各种组合来实现。图13示出可使用第一编译器1304来编译高级语言1302形式的程序,以生成可由具有至少一个第一指令集核的处理器1316原生执行的第一二进制代码(例如,x86)1306。在一些实施例中,具有至少一个第一指令集核的处理器1316表示通过兼容地执行或以其他方式执行以下各项来执行与具有至少一个x86指令集核英特尔处理器基本相同的功能的任何处理器:1)英特尔x86指令集核的指令集的本质部分,或2)目标为在具有至少一个x86指令集核的英特尔处理器上运行以便取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。第一编译器1304表示可操作用于生成第一指令集的二进制代码1306(例如,目标代码)的编译器,该二进制代码可通过或不通过附加的链接处理在具有至少一个第一指令集核的处理器1316上执行。类似地,图13示出可以使用替代的指令集编译器1308来编译高级语言1302形式的程序,以生成可以由不具有至少一个第一指令集核的处理器1314(例如,具有执行加利福尼亚州桑尼维尔市的mips技术公司的mips指令集、和/或执行加利福尼亚州桑尼维尔市的arm控股公司的arm指令集的核的处理器)原生执行的替代的指令集二进制代码1310。指令转换器1312用于将第一二进制代码1306转换成可以由不具有第一指令集核的处理器1314原生执行的代码。该转换后的代码不大可能与替代的指令集二进制代码1310相同,因为能够这样做的指令转换器难以制造;然而,转换后的代码将完成一般操作,并且由来自替代指令集的指令构成。因此,指令转换器1312通过仿真、模拟或任何其他过程来表示允许不具有第一指令集处理器或核的处理器或其他电子设备执行第一二进制代码1306的软件、固件、硬件或其组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1