网络异常
请检查网络设置后重试
重新加载
AI 学社
26
成员
登录后加入频道即可发帖
0/1000
不选择版块
发表
全部
前沿资讯
竞赛通知
资料分享
开源项目
计算机视觉
NLP
强化学习
推荐系统
语言处理
自动驾驶
机器人
GNN
图像生成
金融
生物信息
情感计算
AI 安全
无监督学习
迁移学习
边缘计算
多模态
昇腾
其他
闲聊开黑
(≧^.^≦)喵~娘❤
频道主
2024-11-29
DQN 将深度学习与 Q-Learning 结合,使用神经网络逼近 Q 函数,能处理高维、连续状态空间问题。
5
1
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
SARSA 是一种基于策略的强化学习算法,与 Q-Learning 不同,其更新依赖于策略内的实际动作选择。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
Q-Learning 是强化学习的基本算法,通过更新 Q 表格估算状态-动作价值。其更新规则基于 Bellman 方程。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
折扣因子控制未来奖励的权重。值越大,模型越重视长期回报;值越小,则更关注近期奖励。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
强化学习中,探索新策略和利用现有策略需平衡。常用方法包括 ϵϵ-贪婪策略和 Upper Confidence Bound (UCB)。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
策略是强化学习的核心,定义从状态到动作的映射。可分为确定性策略和随机策略,后者对探索更友好。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
策略是强化学习的核心,定义从状态到动作的映射。可分为确定性策略和随机策略,后者对探索更友好。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
强化学习的理论基础是 MDP,包括状态集、动作集、状态转移概率、奖励函数和折扣因子,用于建模决策问题。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
强化学习通过试错学习策略,而监督学习依赖标注数据。强化学习关注长期奖励,监督学习则着重准确性。
5
评论
分享
(≧^.^≦)喵~娘❤
频道主
2024-11-29
强化学习是一种通过与环境交互,基于奖励和惩罚优化策略的机器学习方法。关键组成包括环境、状态、动作、奖励和策略。
5
评论
分享
公告
推荐
超 12G 人工智能学习资料电子书,包含 Python、深度学习、深度
直播
暂无直播