1. 资料
- Udemy Deep Q Agents 课程:https://www.udemy.com/course/deep-q-learning-from-paper-to-code/?couponCode=LEARNWITHUSNOW
- OPEN MLSYS 强化学习介绍:https://openmlsys.github.io/chapter_reinforcement_learning/index.html
- 知乎白话强化学习:https://www.zhihu.com/column/c_1215667894253830144
2. 说明
强化学习的目标是获得一个智能体 Agent ,当把环境信息告知 Agent 以后,Agent 可以做出”好”的决策。
为了达到这样的目标,最传统的方式是手动写策略,比如游戏开发中常用的行为树。但如果想通过传统方式实现智能,首先需要人能够充分驾驭策略,才可能有损地将策略转化成复杂的行为树,或者大量的 if-else。而一旦逻辑复杂以后,人会越来越难驾驭,很可能基础维护都很难,更别提扩展。
因而传统方式至少受以下限制:
- 人的智力分析出的策略水平
- 人把策略转化成代码的水平
- 人管理复杂工程的能力
为了突破这些限制,则需要一些其他的手段。机器学习的强化学习分支就是在针对这样的任务的探索和实践。