腾讯频道 - AI 学社 - 强化学习中，探索新策略和利用现有策略需平衡。常用方...

(≧^.^≦)喵~娘❤

频道主

强化学习中，探索新策略和利用现有策略需平衡。常用方法包括 ϵϵ-贪婪策略和 Upper Confidence Bound (UCB)。

2024-11-29

浏览22

登录后评论

5

评论

分享