网络异常
请检查网络设置后重试
重新加载
登录后加入频道即可发帖
0/1000
不选择版块
发表
全部
(≧^.^≦)喵~娘❤
频道主
2024-11-29
DQN 将深度学习与 Q-Learning 结合,使用神经网络逼近 Q 函数,能处理高维、连续状态空间问题。
5
1
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
SARSA 是一种基于策略的强化学习算法,与 Q-Learning 不同,其更新依赖于策略内的实际动作选择。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
Q-Learning 是强化学习的基本算法,通过更新 Q 表格估算状态-动作价值。其更新规则基于 Bellman 方程。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
强化学习中,探索新策略和利用现有策略需平衡。常用方法包括 ϵϵ-贪婪策略和 Upper Confidence Bound (UCB)。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
策略是强化学习的核心,定义从状态到动作的映射。可分为确定性策略和随机策略,后者对探索更友好。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
策略是强化学习的核心,定义从状态到动作的映射。可分为确定性策略和随机策略,后者对探索更友好。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
强化学习的理论基础是 MDP,包括状态集、动作集、状态转移概率、奖励函数和折扣因子,用于建模决策问题。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
强化学习通过试错学习策略,而监督学习依赖标注数据。强化学习关注长期奖励,监督学习则着重准确性。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
强化学习是一种通过与环境交互,基于奖励和惩罚优化策略的机器学习方法。关键组成包括环境、状态、动作、奖励和策略。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-28
协程的理解?怎么使用? 协程的作用:是在执行函数A时可以随时中断去执行函数B,然后中断函数B继续执行函数A(可以自由切换)。 但这一过程并不是函数调用,这一整个过程看似像多线程,然而协程只有一个线程执行。 python2.x实现协程的方式有: yield + send gevent Python3.x协程:
7
1
分享
公告
推荐
超 12G 人工智能学习资料电子书,包含 Python、深度学习、深度
直播
暂无直播