本发明涉及深度学习、硬盘优化,尤其涉及一种基于深度强化学习的固态硬盘读干扰补偿方法及装置。
背景技术:
1、固态硬盘作为数据存储核心器件,其读操作过程中相邻物理块之间的读干扰效应会引发存储单元电压阈值发生非预期偏移,当电压阈值偏移累积至一定程度时将导致数据读取错误。当前针对固态硬盘读干扰的补偿方法通常是在检测到物理块的读操作次数达到预设阈值后,对该物理块执行统一的电压阈值调整操作,或者依据单个物理块的历史读操作频率统计结果进行独立的补偿决策。然而,这类补偿方式在实际应用中面临如下问题:固态硬盘内部不同物理块之间因物理位置邻近及读操作频率差异存在相互干扰的传播现象,仅依据单物理块的读操作次数或历史频率统计难以准确刻画干扰在物理块之间的空间传播特性与时序演化规律,导致补偿时机与补偿幅度的选择难以与实际的干扰累积状态相匹配,补偿效果受到制约。
技术实现思路
1、有鉴于此,本发明提供一种基于深度强化学习的固态硬盘读干扰补偿方法及装置。本发明实施例的技术方案是这样实现的:
2、一方面,本发明实施例提供一种基于深度强化学习的固态硬盘读干扰补偿方法,包括:
3、获取固态硬盘中多个物理块在连续读操作周期内的读操作事件流记录,读操作事件流记录包含每个读操作对应的物理块标识、读操作时间戳及读操作电压阈值偏移量记录;
4、根据读操作事件流记录及固态硬盘的物理块拓扑结构构建读干扰传播影响图谱,并根据读干扰传播影响图谱及历史补偿操作记录生成各物理块的读干扰演化状态表征序列,读干扰演化状态表征序列包含各物理块在未施加补偿状态下的电压偏移量预测轨迹及历史补偿操作后的电压偏移量响应反馈信息;
5、将读干扰演化状态表征序列输入深度强化学习模型的循环状态推断网络,通过循环状态推断网络的门控状态更新机制对各物理块的读干扰演化状态表征序列进行时序关联建模,生成当前时刻各物理块的干扰传播状态隐含表征;
6、将干扰传播状态隐含表征输入深度强化学习模型的动作策略网络,通过动作策略网络的多分支决策结构对各物理块组进行补偿动作的联合决策处理,生成包含电压阈值调整指令及读操作调度偏移指令的补偿调整指令序列;
7、根据补偿调整指令序列执行固态硬盘的读操作补偿调整操作,采集补偿调整后各物理块在后续读操作周期内的电压阈值偏移量响应观测数据,根据电压阈值偏移量响应观测数据与读干扰演化状态表征序列中的预测轨迹的差异生成奖励评价信号,将奖励评价信号、读干扰演化状态表征序列及补偿调整指令序列组合为新经验样本存入经验回放记忆库。
8、另一方面,本发明实施例提供一种固态硬盘读干扰补偿装置,包括:
9、记录获取模块,用于获取固态硬盘中多个物理块在连续读操作周期内的读操作事件流记录,读操作事件流记录包含每个读操作对应的物理块标识、读操作时间戳及读操作电压阈值偏移量记录;
10、图谱构建模块,用于根据读操作事件流记录及固态硬盘的物理块拓扑结构构建读干扰传播影响图谱,并根据读干扰传播影响图谱及历史补偿操作记录生成各物理块的读干扰演化状态表征序列,读干扰演化状态表征序列包含各物理块在未施加补偿状态下的电压偏移量预测轨迹及历史补偿操作后的电压偏移量响应反馈信息;
11、时序建模模块,用于将读干扰演化状态表征序列输入深度强化学习模型的循环状态推断网络,通过循环状态推断网络的门控状态更新机制对各物理块的读干扰演化状态表征序列进行时序关联建模,生成当前时刻各物理块的干扰传播状态隐含表征;
12、补偿决策模块,用于将干扰传播状态隐含表征输入深度强化学习模型的动作策略网络,通过动作策略网络的多分支决策结构对各物理块组进行补偿动作的联合决策处理,生成包含电压阈值调整指令及读操作调度偏移指令的补偿调整指令序列;
13、补偿调整模块,用于根据补偿调整指令序列执行固态硬盘的读操作补偿调整操作,采集补偿调整后各物理块在后续读操作周期内的电压阈值偏移量响应观测数据,根据电压阈值偏移量响应观测数据与读干扰演化状态表征序列中的预测轨迹的差异生成奖励评价信号,将奖励评价信号、读干扰演化状态表征序列及补偿调整指令序列组合为新经验样本存入经验回放记忆库。
14、本发明通过获取读操作事件流记录并结合物理块拓扑结构构建读干扰传播影响图谱,同时利用历史补偿操作记录生成各物理块的读干扰演化状态表征序列,将固态硬盘内部复杂的干扰传播机制转化为结构化的图谱表示与状态序列表示,为后续补偿决策提供完整的干扰演化全景信息;将读干扰演化状态表征序列输入深度强化学习模型的循环状态推断网络,通过门控状态更新机制对各物理块的时序关联进行建模,生成当前时刻各物理块的干扰传播状态隐含表征,从而在不依赖人工预设干扰传播模型的情况下实现对干扰传播动态演化的精准刻画;将干扰传播状态隐含表征输入动作策略网络,通过多分支决策结构对各物理块组进行补偿动作的联合决策处理,生成包含电压阈值调整指令及读操作调度偏移指令的补偿调整指令序列,实现从电压域与调度域两个维度对读干扰进行协同补偿;最后根据补偿调整指令序列执行读操作补偿调整操作,采集补偿调整后的电压阈值偏移量响应观测数据,根据该响应观测数据与读干扰演化状态表征序列中预测轨迹的差异生成奖励评价信号,并将该奖励评价信号与读干扰演化状态表征序列及补偿调整指令序列组合为新经验样本存入经验回放记忆库,通过自主探索与经验积累持续优化补偿策略,有效抑制读干扰引发的电压阈值偏移累积。
1.基于深度强化学习的固态硬盘读干扰补偿方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述读操作事件流记录及固态硬盘的物理块拓扑结构构建读干扰传播影响图谱,并根据所述读干扰传播影响图谱及历史补偿操作记录生成各物理块的读干扰演化状态表征序列,包括:
3.根据权利要求2所述的方法,其特征在于,所述解析所述读操作事件流记录中每个物理块的读操作时间戳序列,识别读操作时间戳序列中的密集读操作区间及稀疏读操作区间,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据所述读操作频率相互影响系数及物理块之间的物理邻接关系构建以物理块为节点、以读操作频率相互影响系数为边权重的有向图结构作为读干扰传播影响图谱,包括:
5.根据权利要求1所述的方法,其特征在于,所述将所述读干扰演化状态表征序列输入深度强化学习模型的循环状态推断网络,通过所述循环状态推断网络的门控状态更新机制对各物理块的读干扰演化状态表征序列进行时序关联建模,生成当前时刻各物理块的干扰传播状态隐含表征,包括:
6.根据权利要求5所述的方法,其特征在于,所述通过循环状态推断网络的门控状态更新单元对各物理块的状态节点时序链进行逐时间步的状态递推计算,包括:
7.根据权利要求5所述的方法,其特征在于,所述将各物理块在最后一个时间步输出的隐藏状态进行拼接,得到维度统一的状态张量,并将所述状态张量输入循环状态推断网络的输出投影层,包括:
8.根据权利要求1所述的方法,其特征在于,所述将所述干扰传播状态隐含表征输入所述深度强化学习模型的动作策略网络,通过所述动作策略网络的多分支决策结构对各物理块组进行补偿动作的联合决策处理,生成包含电压阈值调整指令及读操作调度偏移指令的补偿调整指令序列,包括:
9.根据权利要求8所述的方法,其特征在于,所述将所述共享特征表示输入动作策略网络的电压调整分支网络,包括:
10.一种固态硬盘读干扰补偿装置,其特征在于,包括: