AI 学社

28成员

登录后加入频道即可发帖

0/1000

全部

前沿资讯

竞赛通知

资料分享

开源项目

计算机视觉

NLP

强化学习

推荐系统

语言处理

自动驾驶

机器人

GNN

图像生成

金融

生物信息

情感计算

AI 安全

无监督学习

迁移学习

边缘计算

多模态

昇腾

其他

闲聊开黑

(≧^.^≦)喵~娘❤

2024-11-29

DQN 将深度学习与 Q-Learning 结合，使用神经网络逼近 Q 函数，能处理高维、连续状态空间问题。

(≧^.^≦)喵~娘❤

2024-11-29

SARSA 是一种基于策略的强化学习算法，与 Q-Learning 不同，其更新依赖于策略内的实际动作选择。

(≧^.^≦)喵~娘❤

2024-11-29

Q-Learning 是强化学习的基本算法，通过更新 Q 表格估算状态-动作价值。其更新规则基于 Bellman 方程。

(≧^.^≦)喵~娘❤

2024-11-29

折扣因子控制未来奖励的权重。值越大，模型越重视长期回报；值越小，则更关注近期奖励。

(≧^.^≦)喵~娘❤

2024-11-29

强化学习中，探索新策略和利用现有策略需平衡。常用方法包括 ϵϵ-贪婪策略和 Upper Confidence Bound (UCB)。

(≧^.^≦)喵~娘❤

2024-11-29

策略是强化学习的核心，定义从状态到动作的映射。可分为确定性策略和随机策略，后者对探索更友好。

(≧^.^≦)喵~娘❤

2024-11-29

策略是强化学习的核心，定义从状态到动作的映射。可分为确定性策略和随机策略，后者对探索更友好。

(≧^.^≦)喵~娘❤

2024-11-29

强化学习的理论基础是 MDP，包括状态集、动作集、状态转移概率、奖励函数和折扣因子，用于建模决策问题。

(≧^.^≦)喵~娘❤

2024-11-29

强化学习通过试错学习策略，而监督学习依赖标注数据。强化学习关注长期奖励，监督学习则着重准确性。

(≧^.^≦)喵~娘❤

2024-11-29

强化学习是一种通过与环境交互，基于奖励和惩罚优化策略的机器学习方法。关键组成包括环境、状态、动作、奖励和策略。

公告

推荐

超 12G 人工智能学习资料电子书，包含 Python、深度学习、深度

直播

暂无直播