基于注意力机制强化学习的半导体晶片测试路径规划方法与流程

文档序号:20006802发布日期:2020-02-22 03:41阅读:296来源:国知局

本发明涉及一种半导体晶片测试路径规划方法,特别是涉及一种基于注意力机制强化学习的半导体晶片测试路径规划方法。



背景技术:

半导体晶片在封装前会先以探针卡对晶粒进行电性测试,主要目的在于将晶圆上有瑕疵的芯粒剔除不再进行后续封装,从而避免封装材料及后续设备产能的浪费。而对于在第一次检测不合格的晶粒,会进行二次检测,此时这些稀疏分布的晶粒就需要人工介入处理,从而造成人工成本与时间的浪费。

文献“授权公告号是cn103344896b中国发明专利”提出了一种半导体晶片的测试路径选择方法。其首先在晶片映射图上标出有效管芯与无效管芯的位置,在晶片映射图的管芯上将一多电路块针卡图重复排列并填充满晶片映射图,在晶片映射图上剔除完全占用无效管芯的多电路块针卡图,保留至少占用一个有效管芯的多电路块针卡图,把晶片映射图上留下的每个多电路块针卡图中的第一标示对应的管芯连成一条直线得到测试路径。该文献提出的方法较好的规避晶片周边的无效管芯,同时缩短了探针移动的距离。文献所述方法通过先验知识设定多电路块针卡辅助操作,通用性不强;在晶片规格发生变化时,易出现误判,需要进行重复检查;另外多电路块针卡在不同规格晶片下需要重新设定,对于单个较大规模的晶片,这一辅助操作会变得复杂,效率不高。



技术实现要素:

为了克服现有半导体晶片测试路径规划方法通用性差的不足,本发明提供一种基于注意力机制强化学习的半导体晶片测试路径规划方法。该方法采用软性注意力机制(softattentionmechanism)的深度强化学习模型架构来训练代理人。特别采用长短期记忆架构,使状态具有记忆能力,并运用课程学习方式逐步扩大晶圆尺寸,利用迁移学习训练不同探针卡样式。本发明有效地克服了晶片扩大时模型难以训练的问题,适用于多种晶片尺寸下的应用。通过训练代理人的方式,代理人能以最少移动步数将晶片上所有晶粒测试完毕,有效减少了探针移动次数与移动距离,通用性好。

本发明解决其技术问题所采用的技术方案是:一种基于注意力机制强化学习的半导体晶片测试路径规划方法,其特点是包括以下步骤:

步骤一、以一个像素代表一粒晶粒,采用灰度图像将探针以及晶粒的状态用不同灰度值表示;同时为了避免影像扩增带来的状态空间呈指数性增长,采用聚焦缓解状态增长所带来的问题,将探针代理人的输入影像定为只有聚焦内部的影像。

步骤二、探针代理人采取的动作为以自身所在位置为中心的八个方向,移动的步伐则是以晶粒为单位为1~n步,故总共有8×n种行为;聚焦代理人能采取的动作则为以自身所在位置为中心的八个方向加上不移动的选择,因此共8×n+1种行为,表示为:

ac=at(0≤t<8×n+1)(1)

步骤三、采用累计奖励的方式为代理人进行奖励计算,通过n-stepstd-error的方式更新价值函数v(s)。

设状态与序列为:st,rt+1,st+1,rt+2,...,gt:t+n为时间t行动n步后得到的累计奖励,称为td-target,折扣率为γ,介于0-1之间,用公式表示为:

若st+n为non-terminalstate:

gt:t+n=rt+1+γrt+2+...+γn-1rt+n+γnv(st+n)(2)

若st+n为terminalstate:

gt:t+n=rt+1+γrt+2+...+γn-1rt+n(3)

步骤四、探针网络透过lstm网络架构将每一次的隐藏状态串起来,直到探针回合结束再将隐藏状态初始化。首先由环境获得影像x1再经由卷积神经网络提取影像特征图,softattentionmechanism将特征图与初始化的隐藏状态h0进行数据整合产生出z1,接着将其送入lstm网络中,并输出下一个隐藏状态h1作为actor和critic网络的输入,lstm中产出的下一个历史状态会继续传入下一个序列中,当探针代理人采取完动作后,环境再传入下一个影像x2,依此循环至晶圆检测回合结束。

步骤五、softattentionmechanism目的是产生出对应每一个向量需要被关注的程度比例,减低状态信息量,解决状态空间过大的问题。softattentionmechanism输入端有两个,一个为cnn运算完得到的特征向量vt,另一个为前一个lstm的输出的隐藏状态ht-1,将两者各乘上一个权重后,再相加并使用激励函数tanh使数值限制于[-1,1],得到:

之后再将gt经过线性运算,乘上向量尺寸为512×1并加上偏差bg,即:

输出st后将其使用激励函数softmax,计算出比例值在0到1之间,即为关注比重向量αt,最后再将此关注比重αt与特征向量vt相乘后相加起来为向量zt。

步骤六、神经网络中存在两个输出层,一个是价值函数,一个是策略函数,分别使用两个不同的目标函数来进行训练更新。价值函数的目标函数就是步骤三中介绍的累计奖励与价值函数估计的累加奖励之间的平方误差,表示为:

lv(θ′v)=(gt-v(st;θ′v))2(6)

对于策略函数的目标函数,判断选择动作的概率与td-error的乘积的正负性,若为正值代表此动作选择正确,从而加大动作的选择概率,再加上策略熵与参数β的乘积,策略的熵表示为:

策略函数的目标函数为:

lπ(θ′v)=logπ(at|st;θ')(gt-v(st;θ′v))(8)

步骤七、随着训练的进行,模型收敛。整体的更新公式为:

步骤八、tmax为一次训练采集样本数,tmax为训练终止条件,当前回合t≥tmax时终止更新。

本发明的有益效果是:该方法采用软性注意力机制(softattentionmechanism)的深度强化学习模型架构来训练代理人。特别采用长短期记忆架构,使状态具有记忆能力,并运用课程学习方式逐步扩大晶圆尺寸,利用迁移学习训练不同探针卡样式。本发明有效地克服了晶片扩大时模型难以训练的问题,适用于多种晶片尺寸下的应用。通过训练代理人的方式,代理人能以最少移动步数将晶片上所有晶粒测试完毕,有效减少了探针移动次数与移动距离,通用性好。

下面结合具体实施方式对本发明作详细说明。

具体实施方式

本发明基于注意力机制强化学习的半导体晶片测试路径规划方法具体步骤如下:

步骤一、状态空间的选定。

以一个像素代表一粒晶粒,采用灰度图像将探针以及晶粒的状态用不同灰度值来表示;同时为了避免影像扩增,带来的状态空间呈指数性增长,本发明采用spotlight(聚焦)解决办法来缓解状态增长所带来的问题,将探针代理人的输入影像定为只有聚焦内部的影像。

步骤二、动作空间的选定。

探针代理人采取的动作为以自身所在位置为中心的八个方向,移动的步伐则是以晶粒为单位为1~n步,故总共有8×n种行为;聚焦代理人能采取的动作则为以自身所在位置为中心的八个方向加上不移动的选择,因此共8×n+1种行为,表示为:

ac=at(0≤t<8×n+1)(1)

步骤三、设计累计奖励函数。

采用累计奖励的方式来为代理人进行奖励计算,这是为了通过n-stepstd-error的方式来更新价值函数v(s)。

设状态与序列为:st,rt+1,st+1,rt+2,...,gt:t+n为时间t行动n步后得到的累计奖励,称为td-target,折扣率为γ,介于0-1之间,用公式表示为:

若st+n为non-terminalstate:

gt:t+n=rt+1+γrt+2+...+γn-1rt+n+γnv(st+n)(2)

若st+n为terminalstate:

gt:t+n=rt+1+γrt+2+...+γn-1rt+n(3)

步骤四、探针网络的构建。

本方法中探针网络透过lstm网络架构将每一次的隐藏状态串起来,直到探针回合结束再将隐藏状态初始化。首先由环境获得影像x1再经由卷积神经网络提取影像特征图,softattentionmechanism将特征图与初始化的隐藏状态h0进行数据整合产生出z1,接着将其送入lstm网络中,并输出下一个隐藏状态h1作为actor和critic网络的输入,lstm中产出的下一个历史状态会继续传入下一个序列中,当探针代理人采取完动作后,环境再传入下一个影像x2,依此循环至晶圆检测回合结束。

步骤五、软注意力机制的构建。

softattentionmechanism目的是产生出对应每一个向量vti需要被关注的程度比例,以此方法可以减低状态信息量,来解决状态空间过大的问题。softattentionmechanism输入端有两个,一个为cnn运算完得到的特征向量vt,另一个为前一个lstm的输出的隐藏状态ht-1,将两者各乘上一个权重后,再相加并使用激励函数tanh使数值限制于[-1,1],得到:

之后再将gt经过线性运算,乘上向量尺寸为512×1并加上偏差bg,即:

输出st后将其使用激励函数softmax,计算出比例值在0到1之间,即为关注比重向量αt,最后再将此关注比重αt与特征向量vt相乘后相加起来为向量zt。

步骤六、探针网络的训练。

此神经网络中存在两个输出层,一个是价值函数,一个是策略函数,分别使用两个不同的目标函数来进行训练更新。价值函数的目标函数就是步骤三中介绍的累计奖励与价值函数估计的累加奖励之间的平方误差,表示为:

lv(θ′v)=(gt-v(st;θ′v))2(6)

对于策略函数的目标函数,判断选择动作的概率与td-error的乘积的正负性,若为正值代表此动作选择正确,从而加大动作的选择概率,再加上策略熵与参数β的乘积,策略的熵表示为:

策略函数的目标函数为:

lπ(θ′v)=logπ(at|st;θ')(gt-v(st;θ′v))(8)

步骤七、迭代更新。

随着训练的进行,模型收敛。整体的更新公式为:

步骤八、终止更新。

tmax为一次训练采集样本数,tmax为训练终止条件,当前回合t≥tmax时终止更新。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1