强化学习中探索/利用的最佳实践

作者: 电动少女
发布时间: 2023-12-27 10:04:32 (4月前)
转自：

2 条回复

0#
回复此人
句号了哦哦 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 好吧，为此，我想最好使用基于步骤更新epsilon的线性退火epsilon-greedy策略： </p> <pre> <code> EXPLORE = 3000000 #how many time steps to play FINAL_EPSILON = 0.001 # final value of epsilon INITIAL_EPSILON = 1.0# # starting value of epsilon if epsilon > FINAL_EPSILON: epsilon -= (INITIAL_EPSILON - FINAL_EPSILON) / EXPLORE </code> </pre> </DIV>

编辑

登录后才能参与评论