基于smt的线程级推测系统中推测线程数目的动态控制方法

文档序号：9505975阅读：184来源：国知局

基于smt的线程级推测系统中推测线程数目的动态控制方法
【技术领域】
[0001] 本发明属于计算机领域，涉及线程级并行与线程级推测技术，特别涉及基于SMT 的线程级推测系统中推测线程数目的动态控制方法。
【背景技术】
[0002] 线程级推测（Thread-Level Speculation, TLS)，作为一种主流的线程级并行技术，能够从非规则串行程序中识别和提取出多个具有潜在控制与数据依赖的线程。这些线程在执行模型的作用下，按照正确的串行语义进行激发、执行、验证和提交，用于实现整个程序的自动化推测并行。在传统推测执行过程中，每个循环所需的推测线程的个数总是被简单地假定与当前处理器核的个数保持一致，同时认为其潜在的并行性能能够随着处理器核数目的增加而获得相应的线性提升。然而，每个循环的性能总是受到所分配处理器资源的限制。不合适的处理器资源分配，不仅会引发频繁的线程间数据依赖违规，而且还会造成低效率的处理器资源利用，导致每个循环难以在有效的代价开销下达到预期的执行效果。
[0003] 特别地，当多个线程同时执行在SMT处理器上时，所有线程将会始终共享所在处理器上的所有硬件资源。当所分配的推测线程数目减少时，对于那些具有频繁数据依赖的循环，其潜在的线程间性能干扰能够得到有效地改善。相比之下，那些具有较高数据独立性的循环将会因所分配的推测线程数目过少而不能充分发挥潜在的并行性能，从而极大地影响整个循环的性能提升。反之，当所分配的推测线程数目增多时，随着线程指令派遣的增加，所有正在并行执行的线程将会迅速占用所有可用的处理器资源。一旦线程所需的处理器资源处于饱和状态时，将会很容易引发频繁的资源竞争，导致部分具有较高并行优先权的线程因缺乏可用的处理器资源而产生额外的执行延迟，最终影响整个程序的并行效率。

【发明内容】

[0004] 本发明的目的在于提供一种基于SMT的线程级推测系统中推测线程数目的动态控制方法，该方法能够对每个循环所需的推测线程数目进行不断地预测和动态调整，以实现整个程序的动态自适应线程分配过程。
[0005] 为达到上述目的，本发明采取以下的技术方案来实现：
[0006] -种基于SMT的线程级推测系统中推测线程数目的动态控制方法，包括以下步骤：
[0007] 步骤一，在编译时采取贪心的循环选择的基础上，结合运行时的循环调度策略和当前线程分配的需求，选择候选循环在所分配的处理器资源上进行推测并行和循环性能剖析；
[0008] 步骤二，在循环性能剖析中，根据线程内和线程间的性能影响作用，提取出循环推测执行过程中的正向线程性能干扰和负向线程性能干扰，并计算得到相应的正向性能估计值和负向性能估计值；
[0009] 步骤三，识别出每个线程在推测并行过程中所属的推测级，再以各个推测级为单位，利用单个线程的正向性能估计值和负向性能估计值来估算和量化在当前线程分配下各个推测级的并行代价开销，用于对整个循环的执行结果进行性能评估和能效评估；
[0010] 步骤四，根据整个循环的评估结果，采用线程分配算法预测整个循环在不同循环调用过程中所需的推测线程数目，并将此结果反馈到循环性能表中，用于指导不同循环调用间的线程分配和资源调度；
[0011] 步骤五，利用循环性能表中当前循环的线程分配信息计算所激发线程的相对位置，进行推测线程和处理器核之间的动态映射以及资源调度，完成整个循环在所分配的处理器资源上的一次推测执行；
[0012] 步骤六，若当前循环在一次推测执行结束时，经性能评估和能效评估之后，仍未找到所需的推测线程数目，那么在后续的循环调用过程中，将会重复步骤一至步骤五，直到找到合适的线程分配结果为止；若当前循环在一次推测执行结束时已经找到所需的推测线程数目，将会停止对当前循环进行再次线程分配，并在后续的循环调用过程中重复利用当前所找到的推测线程数目，直到整个程序执行结束，至此即完成了 SMT的线程级推测系统中对于推测线程数目的动态控制。
[0013] 所述步骤二中得到正向性能估计值和负向性能估计值的具体步骤如下：
[0014] 2-1)利用线程执行周期分解技术，构建基于硬件的线程周期计数框架，根据处理器流水线指令调度阶段中分派槽的占用与空闲状态的分析与统计，得到对每个线程指令执行周期的动态监测；
[0015] 2-2)在动态监测过程中，借助于四个周期计数组件来分解和计算每个线程的执行时间，即基本周期计数组件，流水线前端周期计数组件，流水线后端周期计数组件和推测等待周期计数组件，每个周期计数组件都由一个或多个计数器组成，将每个周期计数组件中所有计数器所统计的分派槽的个数除以整个处理器的分派带宽即得到每个周期计数组件的执行时间；
[0016] 2-3)根据各个周期计数组件的执行时间以及线程内和线程间的相互性能影响，定义正向线程性能干扰和负向线程性能干扰，其中正向线程性能干扰指所有非推测指令的执行时间以及在线程推测过程中各种数据预提取和数据共享情形所缩短的有效执行时间的总和，负向线程性能干扰指所有推测指令的执行时间以及因线程的推测执行所引发的额外执行时间的总和；然后利用行为调整手段对已发生并行行为变化的周期计数组件进行相应的性能预测和行为校正，以得到正向线程性能干扰和负向线程性能干扰各自准确的执行时间，即正向性能估计值和负向性能估计值。
[0017] 所述步骤三中推测级通过以下公式计算得到：
[0018] A)若当前线程所分配的处理器核ID大于等于非推测线程所分配的处理器核ID，则当前线程的推测级通过等式dist = curr_cxt_non_spec_cxt得到；
[0019] B)若当前线程所分配的处理器核ID小于非推测线程所分配的处理器核ID，则当前线程的推测级通过等式 dist = curr_cxt+MAX_NUM_CONTEXT_non_spec_cxt 得到；
[0020] 其中，curr_cxt和non_spec_cxt分别表示当前线程和非推测线程所分配的处理器核ID，dist表示当前线程相对于非推测线程所计算获得的推测级结果，MAX_NUM_ CONTEXT表示运行时处理器中所有可用的处理器核的个数。
[0021] 所述步骤三中整个循环的性能评估和能效评估通过以下步骤得到：
[0022] 3-1)根据线程的正向性能估计值和负向性能估计值，将每个推测级i的并行代价划分为四个部分，表示推测级i的基本正向并行代价，指在推测级i上所有非推测指令的执行时间以及各种数据预提取和数据共享情形所缩短的的执行时间总和，表示推测级i的基本负向并行代价，指在推测级i上所有推测指令的执行时间以及因线程的推测执行所引发的额外执行时间的总和，分别表示推测级i的推测正向并行代价和推测负向并行代价，通过识别和计算各个周期计数组件行为调整中的正向性能估计值和负向性能估计值得到；
[0023] 3-2)通过计算推测级i中所有线程的正向性能估计值和负向性能估计值，将基本正向并行代价和推测正向并行代价的总和记作推测级i的总正向并行代价开销，將基本负向并行代价贫―^和推测负向并行代价的总和记作推测级i的总负向并行代价开销〇#1
[0024] 3-3)将推测级i中总正向并行代价开销和推测负向并行代价两者之间的差值记作推测级i的预测串行执行时间，并将各个推测级的预测串行执行时间总和记作整个循环的预测串行执行时间，再减去整个循环的实际并行时间则得到当前线程分配下整个循环推测执行的并行收益，用于对当前线程分配下整个循环的执行结果进行性能评估；
[0025] 3-4)采用基于推测级的代价评估和基于非推测级的代价评估对当前线程分配下整个循环的执行结果进行能效评估，具体包括以下步骤：
[0026] a)基于推测级的代价评估是将两者之间的差值作为评估标准，用于判定推测级i的并行执行效率，若S ，:表明推测级i利于循环并行性能的提升，将会被保留并在下次循环调用中继续进行推测并行；当μ 时，表明推测级i不利于循环并行性能的提升，在下次循环调用过程中将不再派遣任何线程到此推测级上进行推测执行；
[0027] b)基于非推测级的代价评估是通过非推测级的总正向并行代价与其它所有推测级的总正向并行代价之和的比值得到的，用于评估当前线程分配下非推测级的执行效率，若当前非推测级的代价评估结果大于等于其上一次的代价评估结果，则当前线程分配不利于整个循环并行性能的提升，若当前非推测级的代价评估结果小于其上一次的代价评估结果，则当前线程分配有利于高能效的循环推测并行。
[0028] 所述步骤四中循环调用过程中所需的推测线程数目具体通过以下步骤得到：
[0029] 4-1)若当前循环从未进行过线程分配，则初始时分配的推测线程数目等于所有可用的处理器核的个数，否则依据当前循环的前两次循环调用中循环迭代次数是否相等来判定线程分配结果，若不等，则仅以最近一次循环调用中线程分配的结果为准来指导线程分配，若相等，则根据当前循环所处的线程分配模式进行进一步的判定；
[0030] 4-2)若当前循环已找到恰当的推测线程数目，表明当前循环的线程分配模式为固定模式Fixed Mode，直接将已找到的线程分配结果分配给当前循环的后续循环调用，进行重复利用即可；
[0031] 4-3)若当前循环仅根据性能评估结果来判定推测线程数目，表明当前循环的线程分配模式为步进模式Stepping Mode，需要利用当前线程分配的结果和所设置的步长两者之间的差值来判定下次循环调用所需分配的推测线程数目；其中所设置的步长为每次循环调用所需减少的推测线程的个数；
[0032] 4-4)若当前循环仅根据能效评估结果来判定推测线程数目，表明当前循环的线程分配模式为激进模式Aggressive Mode，估算当前循环非推测级所占比值，若当前非推测级所占比值小于上次循环调用所得到的非推测级比值，则直接转换为步进模式，并按照步进模式分配当前循环所需的推测线程数目；否则依次对每个推测级分别进行正向性能估计和负向性能估计，直至某个推测级的正向性能估计值小于相应的负向性能估计值时为止，在此过程中，累计所有正向性能估计值大于负向性能估计值的推测级的个数，并将此统计结果作为线程分配的标准，用于决定下次循环调用所需分配的推测线程数目；
[0033] 4-5)当前循环在得到所需的推测线程数目之后，调度与所需的推测线程数目相等的处理器核分配给当前循环进行推测执行；
[0034] 4-6)在循环推测执行过程中，计算当前循环的并行收益，对当前线程分配结果进行性能评估，若当前循环调用的并行收益小于上次循环调用的并行收益，则更新当前线程分配模式为固定模式，表明已找到合适的推测线程数目；否则保持当前线程分配模式不变，并在后续循环调用中继续查找当前循环所需的推测线程数目。
[0035] 所述步骤四和步骤五中的循环性能表中包含以下信息：循环标识符，当前循环调用所分配的起始处理器核的位置，当前循环调用所允许分配的推测线程数目，当前循环调用之前连续两次循环调用的循环迭代次数以及所分配的推测线程数目，上次循环调用的非推测级所占比值，以及上次循环调用的并行收益。
[0036] 所述步骤五中获得推测线程和处理器核之间的动态映射的具体步骤如下：
[0037] 5-1)若当前循环从未进行过线程分配，则所有的处理器核均对当前循环可用，并按照循环方式计算和查找当前线程的

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵银亮;李美蓉;王启明;侍加强;刘凯;张磊;
技术所有人：西安交通大学;
我是此专利的发明人

上一篇：一种应用于机器学习线程划分的手工样本集生成方法
上一篇：一种支持多任务并行的多核SoC架构设计方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。