强化学习中,探索新策略和利用现有策略需平衡。常用方法包括 ϵϵ-贪婪策略和 Upper Confidence Bound (UCB)。
2024-11-29
浏览22
登录后评论
评论
分享