ML2.2.2 PG 之 PPO 算法思路和实践
1. 资料 PG 方法核心思路:https://pangruitao.com/post/5164 2. PPO … 阅读更多
1. 资料 PG 方法核心思路:https://pangruitao.com/post/5164 2. PPO … 阅读更多
1. 资料 PG 方法基础思路:https://pangruitao.com/post/5164 PG 最基础 … 阅读更多
1. 资料 PG 方法核心思路:https://pangruitao.com/post/5164 2. REI … 阅读更多
1. 资料 2. 策略梯度PG思路说明 PG 即策略梯度方法(Policy Gradient Methods) … 阅读更多
1. 资料 2. Q Learning 的思路 强化学习的目标是:获得一个智能体 Agent ,当把环境信息告 … 阅读更多
1. 资料 2. 说明 强化学习的目标是获得一个智能体 Agent ,当把环境信息告知 Agent 以后,Ag … 阅读更多
0. 资料 1. 实践和实现 GPT 详见 ML1:https://pangruitao.com/post/4 … 阅读更多
1. 说明 完整路径 2. Jupyter Notebook gpt_with_tokenizer In [1 … 阅读更多
1. 说明 跟 Andrej 大佬学 GPT Tokenizer 2. Jupyter Notebook to … 阅读更多
1. 说明 跟 Andrej 大佬的教程实现的极简版 GPT,可以实现续写文章(最后有运行效果)。 2. Ju … 阅读更多
1. 说明 GPT 模型学习的一步 根据 Andrej Karpathy 大佬的课程视频实践得到 2. Jup … 阅读更多
Jupyter Notebook simple_fcnn In [7]: import torch impor … 阅读更多
0. 说明 注意,安装时需要查一下最新的 pytorch 支持的 CUDA 版本 省事的话可以用个人已经验证可 … 阅读更多
1. 说明 让python去一个个尝试我们设定的密码字符集的排列组合,直到试出来密码。 我设定是每一千次尝试会 … 阅读更多
1. 参考代码 1. 说明 1.1 效果 正常运行状态如下 1.2 准备 需要创建飞书应用,并添加机器人 ht … 阅读更多