机器学习 – PP's Blog

ML2.2.2 PG 之 PPO 算法思路和实践

2025年3月1日2024年11月24日作者 PP

1. 资料 PG 方法核心思路：https://pangruitao.com/post/5164 2. PPO … 阅读更多

2025年3月1日2024年11月11日作者 PP

1. 资料 PG 方法基础思路：https://pangruitao.com/post/5164 PG 最基础 … 阅读更多

2025年3月1日2024年11月11日作者 PP

1. 资料 PG 方法核心思路： 2. REINFORCE 思路 REINFORCE 就基本按照 PG 的核心 … 阅读更多

2025年3月1日2024年11月9日作者 PP

1. 资料 2. 策略梯度PG思路说明 PG 即策略梯度方法（Policy Gradient Methods） … 阅读更多

2025年3月1日2024年11月5日作者 PP

1. 资料 2. Q Learning 的思路强化学习的目标是：获得一个智能体 Agent ，当把环境信息告 … 阅读更多

2025年3月1日2024年11月5日作者 PP

1. 资料 2. 说明强化学习的目标是获得一个智能体 Agent ，当把环境信息告知 Agent 以后，Ag … 阅读更多

2025年3月1日2024年10月28日作者 PP

0. 资料 1. 实践和实现 GPT 详见 ML 1.0 2. 强化学习详见 ML 2.0 相关文章 ML2 … 阅读更多

2025年3月1日2024年10月15日作者 PP

1. 说明完整路径 2. Jupyter Notebook gpt_with_tokenizer In [1 … 阅读更多

2025年3月1日2024年10月15日作者 PP

1. 说明跟 Andrej 大佬学 GPT Tokenizer 2. Jupyter Notebook to … 阅读更多

2025年3月1日2024年10月14日作者 PP

1. 说明跟 Andrej 大佬的教程实现的极简版 GPT，可以实现续写文章（最后有运行效果）。 2. Ju … 阅读更多

2025年10月13日2024年10月13日作者 PP

1. 说明文章作为个人学习 GPT 的笔记。 1.1 学习资料不得不说现在的互联网还是给像我这样的普通人提 … 阅读更多

2025年3月1日2024年10月11日作者 PP

1. 说明 GPT 模型学习的一步根据 Andrej Karpathy 大佬的课程视频实践得到 2. Jup … 阅读更多

2024年11月6日2024年10月11日作者 PP

1. 说明参考 Andrej Karpathy 的 Let’s Build GPT 讲解视频个 … 阅读更多

2025年3月1日2024年10月10日作者 PP

Jupyter Notebook simple_fcnn In [7]: import torch impor … 阅读更多