本公开内容大体上涉及人工智能(artificial intelligence,ai),并且在具体实施例中涉及用于交互对象在域上的最优放置的方法和装置。
背景技术:
1、许多系统设计都可能涉及一组可调整的配置。在系统的配置中,可以有许多配置维度,其中每个维度表示系统的配置的不同方面并且对应于配置的该方面的不同配置参数。对于每个配置维度,对于该维度可以存在各种可用(离散或连续)选项。由于配置维度的数目较大和/或每个维度中的可用选项的数目较大,因此一些系统设计具有非常大的配置空间。例如,对于其配置具有20个维度、每个维度具有8个选项的系统,系统的不同配置的数目可以达到208个。此外,系统的不同配置维度可以具有不同数目的选项。例如,对于具有固定的n个维度的离散系统,如果每个维度都具有其自有数目的(固定)选项mi,则系统的可能配置的数目可以是
2、在这些配置空间(例如,个可能配置)中搜索以找到满足目标的组合的最优配置在技术上可能具有挑战性。例如,对于具有208个可能配置(例如,20个维度,其中每个维度具有8个选项)的系统,即使通过目标的组合评估满配置系统的一种配置将仅需要一秒钟的计算时间,逐个评估所有可能配置也需要800年以上的计算时间以找到所有可能配置中的最优配置,这样做效率低下,甚至不可行。此外,在系统设计的许多实际应用中,直接评估或通过仿真评估具有一种配置的满配置系统可能需要远远超过一秒钟的时间。因此,需要技术来提高寻找最优配置(尤其是在具有大量维度或每个维度内有大量选项的搜索空间中)时的计算机操作的性能和效率。
3、交互对象在域上的放置(例如,宏单元(macro element)或微单元(microelement)或微单元簇)是已知难以解决的常见问题。放置问题的示例包括根据电子部件的某些给定的技术和连接约束,电子部件在管芯(例如,域)上的放置。经受放置的电子部件可以是宏单元、微单元或者宏单元和微单元的混合。
4、交互对象的最优放置通常需要外部系统来评估所提出的放置。交互对象的最优放置的搜索空间可能是巨大的。宏单元和/或微单元的数目(例如,维度的数目)较大,并且每个单元在域(例如,管芯)上的位置的选择(例如,选项)实际上可能是无穷无尽的。在该示例中,可以部分地通过选择电路元件、块或器件的位置来配置管芯电路。单元(例如,宏单元或微单元)的位置可以是单元在管芯上的位置。作为非限制性示例,位置可以被表示为单元在管芯空间中的坐标(例如,2-d坐标或具有更高维度的坐标)。此外,宏单元可以具有各种大小和形状。此外,所有单元都可能具有非常复杂的连接要求。
5、交互对象的大图(例如,电子网表或超图)的完全放置在计算上可能不切实际。因此,需要技术来提高寻找交互对象(宏单元和/或微单元)在连续(或离散或混合)域上的最优配置(例如,放置)时的计算机操作的性能和存储器利用的效率。
技术实现思路
1、技术优点大体上由描述了用于交互对象在连续(或离散或混合)域上的最优放置的实施例方法和装置的本公开内容的实施例实现。
2、根据实施例,在至少一个处理器上运行的强化学习(reinforcement learning,rl)智能体接收常数输入。rl智能体包括深度神经网络(deep neural network,dnn),并且dnn可以包括一层或多层双向门控递归单元(bi-directional gated recurrent unit,bi-gru)和一个或多个自注意力或转换器层。rl智能体输出n个分布集合。n个分布集合中的每个集合对应于n个交互对象中的不同对象,并且包括第一方向上的第一分布和第二方向上的第二分布。rl智能体基于n个分布集合生成一批样本配置。所述一批样本配置中的每个样本配置包括n个交互对象的识别或选择的位置。rl智能体向评估器输出所述一批样本配置。rl智能体基于损失函数更新dnn的参数。
3、在一些实施例中,损失函数可以基于奖励来计算。奖励可以基于评估器输出的性能指标来生成。在一些实施例中,rl智能体可以重复以下操作以进行多次迭代:接收常数输入、输出n个分布集合、生成一批样本配置、输出一批样本配置和更新参数。常数输入贯穿多次迭代可以保持相同。在一些实施例中,n个交互对象的位置可以包括n个宏单元的位置,或者m个宏单元的位置和(n-m)个微单元簇的初始质心的混合。在一些实施例中,常数输入可以包括常数值、n个不同的常数独热向量、或各自全为1的n个向量。在一些实施例中,一个或多个自注意力或转换器层可以从一层或多层bi-gru层接收输出。dnn还可以包括仿射层,仿射层从一个或多个自注意力或转换器层接收输出并输出n个分布集合。在一些实施例中,损失函数可以由序列模式的值估计层更新。序列模式的值估计层可以基于一批样本配置来更新。在一些实施例中,损失函数可以由分支模式的值估计层更新,并且其中分支模式的值估计层基于dnn的任务编码张量来更新。在一些实施例中,n个分布集合可以是用于离散2-d或3-d放置的n个分类分布集合。在一些实施例中,n个分布集合可以用于连续2-d或3-d放置。在一些实施例中,n个分布集合可以是n个贝塔分布集合。
4、这样一来,实施例技术提高了寻找交互对象的最优放置时的计算机操作的性能和存储器利用的效率。
1.一种方法,包括:
2.根据权利要求1所述的方法,其中,所述损失函数基于奖励来计算,所述奖励基于所述评估器输出的性能指标来生成。
3.根据权利要求1所述的方法,还包括:
4.根据权利要求1所述的方法,其中,所述n个交互对象的所述位置包括n个宏单元的位置,或者m个宏单元的位置和(n-m)个微单元簇的初始质心的混合。
5.根据权利要求1所述的方法,其中,所述常数输入包括常数值、n个不同的常数独热向量、或各自全为1的n个向量。
6.根据权利要求1所述的方法,其中,所述一个或多个自注意力或转换器层从所述一层或多层bi-gru接收输出,并且其中,所述dnn还包括仿射层,所述仿射层从所述一个或多个自注意力或转换器层接收输出并输出所述n个分布集合。
7.根据权利要求1所述的方法,其中,所述损失函数由序列模式的值估计层更新,并且其中,所述序列模式的值估计层基于所述一批样本配置来更新。
8.根据权利要求1所述的方法,其中,所述损失函数由分支模式的值估计层更新,并且其中,所述分支模式的值估计层基于所述dnn的任务编码张量来更新。
9.根据权利要求1所述的方法,其中,所述n个分布集合是用于离散2-d或3-d放置的n个分类分布集合。
10.根据权利要求1所述的方法,其中,所述n个分布集合用于连续2-d或3-d放置。
11.根据权利要求1至10中任一项所述的方法,其中,所述n个分布集合是n个贝塔分布集合。
12.一种装置,包括:
13.根据权利要求12所述的装置,其中,所述损失函数基于奖励来计算,所述奖励基于所述评估器输出的性能指标来生成。
14.根据权利要求12所述的装置,所述程序还包括指令,所述指令在由所述至少一个处理器执行时使所述装置执行以下操作:
15.根据权利要求12所述的装置,其中,所述n个交互对象的所述位置包括n个宏单元的位置,或者m个宏单元的位置和(n-m)个微单元簇的初始质心的混合。
16.根据权利要求12所述的装置,其中,所述常数输入包括常数值、n个不同的常数独热向量、或各自全为1的n个向量。
17.根据权利要求12所述的装置,其中,所述一个或多个自注意力或转换器层从所述一层或多层bi-gru接收输出,并且其中,所述dnn还包括仿射层,所述仿射层从所述一个或多个自注意力或转换器层接收输出并输出所述n个分布集合。
18.根据权利要求12所述的装置,其中,所述损失函数由序列模式的值估计层更新,并且其中,所述序列模式的值估计层基于所述一批样本配置来更新。
19.根据权利要求12所述的装置,其中,所述损失函数由分支模式的值估计层更新,并且其中,所述分支模式的值估计层基于所述dnn的任务编码张量来更新。
20.根据权利要求12所述的装置,其中,所述n个分布集合是用于离散2-d或3-d放置的n个分类分布集合。
21.根据权利要求12所述的装置,其中,所述n个分布集合用于连续2-d或3-d放置。
22.根据权利要求12至21中任一项所述的装置,其中,所述n个分布集合是n个贝塔分布集合。
23.一种非暂态计算机可读介质,其上存储有指令,所述指令在由装置执行时使所述装置执行操作,所述操作包括:
24.根据权利要求23所述的非暂态计算机可读介质,其中,所述损失函数基于奖励来计算,所述奖励基于所述评估器输出的性能指标来生成。
25.根据权利要求23所述的非暂态计算机可读介质,所述操作还包括:
26.根据权利要求23所述的非暂态计算机可读介质,其中,所述n个交互对象的所述位置包括n个宏单元的位置,或者m个宏单元的位置和(n-m)个微单元簇的初始质心的混合。
27.根据权利要求23所述的非暂态计算机可读介质,其中,所述常数输入包括常数值、n个不同的常数独热向量、或各自全为1的n个向量。
28.根据权利要求23所述的非暂态计算机可读介质,其中,所述一个或多个自注意力或转换器层接收来自所述一层或多层bi-gru的输出,并且其中,所述dnn还包括仿射层,所述仿射层接收来自所述一个或多个自注意力或转换器层的输出并输出所述n个分布集合。
29.根据权利要求23所述的非暂态计算机可读介质,其中,所述损失函数由序列模式的值估计层更新,并且其中,所述序列模式的值估计层基于所述一批样本配置来更新。
30.根据权利要求23所述的非暂态计算机可读介质,其中,所述损失函数由分支模式的值估计层更新,并且其中,所述分支模式的值估计层基于所述dnn的任务编码张量来更新。
31.根据权利要求23所述的非暂态计算机可读介质,其中,所述n个分布集合是用于离散2-d或3-d放置的n个分类分布集合。
32.根据权利要求23所述的非暂态计算机可读介质,其中,所述n个分布集合用于连续2-d或3-d放置。
33.根据权利要求23至32中任一项所述的非暂态计算机可读介质,其中,所述n个分布集合是n个贝塔分布集合。