强化学习任务中高维连续动作空间离散化探索方法与流程

文档序号：14951161发布日期：2018-07-17 22:35阅读：来源：国知局

技术特征：

技术总结
本发明公开了一种强化学习任务中高维连续动作空间离散化探索方法，通过量化操作将连续的动作空间转化成一个离散的动作空间，然后通过深度神经网络实现的自编码器对离散动作空间中的字典值进行降维编码并计数，再统计一定次数的策略更新中各字典值对应编码码字的出现次数，并将极少出现的字典值按概率从动作字典中移除，从而不断去除动作字典中的冗余，进而提高智能体策略更新时的搜索效率。

技术研发人员：陈志波;张直政;陈嘉乐
受保护的技术使用者：中国科学技术大学
技术研发日：2018.01.24
技术公布日：2018.07.17