SARSA 是一种基于策略的强化学习算法,与 Q-Learning 不同,其更新依赖于策略内的实际动作选择。
2024-11-29
浏览36
登录后评论
评论
分享