PPO RL Explained - 搜索视频

算法面试考点复习 [LLM-RL-PPO]

算法面试考点复习 [LLM-RL-PPO]

已浏览 105 次2 个月之前

bilibili小飞鱼的日常

从经典PPO到PPO-RLHF(一) 构建RL到LLM的概念映射

从经典PPO到PPO-RLHF(一) 构建RL到LLM的概念映射

已浏览 4364 次2 个月之前

bilibili东川路第一可爱猫猫虫

可视化RLHF背后的PPO算法：第一部分

可视化RLHF背后的PPO算法：第一部分

已浏览 36 次1 个月前

bilibili光子AI

RL-PPO-栅格地图寻优

RL-PPO-栅格地图寻优

已浏览 126 次1 个月前

bilibiliErkeSebrina

【强化学习实战】PPO算法A股实战课：核心原理 clipped 目标函数调参技巧 RL 范式解析！强化学习入门实战

【强化学习实战】PPO算法A股实战课：核心原理 clipped 目标函数调参 …

已浏览 287 次1 个月前

bilibiliAI大模型基地

可视化RLHF背后的PPO算法：第二部分

可视化RLHF背后的PPO算法：第二部分

已浏览 362 次1 个月前

bilibili光子AI

Proximal Policy Optimization Implementation: 8 Details for Continuous Actions (3/3)

Proximal Policy Optimization Implementation: 8 Details for Cont…

已浏览 1.2万次2021年11月22日

YouTubeWeights & Biases

Policy Optimization & TRPO & PPO | RL原理讲解系列 #3

已浏览 11 次5 个月之前

RLHF之PPO原理-03

已浏览 273 次2024年11月19日

bilibili两年半技术栈练习

RLHF之PPO原理-02

已浏览 748 次2024年11月19日

bilibili两年半技术栈练习

RLHF之PPO原理-01

已浏览 504 次2024年11月19日

bilibili两年半技术栈练习

DPO+RM=PPO？RLHF算法串烧及详解

已浏览 2392 次2024年11月10日

bilibiliAI玩家曹博士

1小时速通 - 从强化学习到RLHF - PPO completed

已浏览 741 次6 个月之前

bilibili就要吃我就要吃

用AI玩开车游戏？详细解说（初稿，就是有点长）

已浏览 284 次6 个月之前

bilibililambo131

[Agentic RL] 02 策略梯度基础，从 PG 到 TRPO 到 PPO-Clip 核心公式简 …

已浏览 4383 次4 个月之前

bilibili五道口纳什

[Agentic RL] 07 limits of RLVR，base vs. RL, pass@k, ppl …

已浏览 2655 次2 个月之前

bilibili五道口纳什

RLHF之ppo基础

已浏览 5978 次2025年2月5日

bilibili学车辆的算法工程师

Mujoco仿真 | RL训练 | PPO | SIM2SIM | SIM2Real | IK各种算法 | …

已浏览 3319 次4 个月之前

bilibili木子晓汶

DRL Lecture 2: Proximal Policy Optimization (PPO)

已浏览 229 次2022年5月3日

bilibili人工智能基地2

98.RL专题：PPO中为什么不直接计算 θ 与 θ′ 之间的距离？

已浏览 4418 次9 个月之前

bilibili文言AI

从经典PPO到PPO-RLHF(二) InstructGPT RLHF trl代码

已浏览 2822 次2 个月之前

bilibili东川路第一可爱猫猫虫

【强化学习】PPO_LunarLander

已浏览 216 次6 个月之前

L4 TRPO and PPO (Foundations of Deep RL Series)

已浏览 480 次2021年8月30日

bilibili深度强化学习实验室

【大白话03】一文理清强化学习RL基本原理 | 原理图解公式推导

已浏览 10.3万次11 个月之前

bilibili吃花椒的麦

深度强化学习之策略梯度方法与近似策略优化(PPO)

已浏览 5775 次2018年10月2日

bilibili爱可可-爱生活

强化学习Reinforcement Learning PPO算法详解

已浏览 2.1万次2020年3月2日

bilibili浢哔涛

【PPO强化学习】带你看透PPO训练原理

已浏览 5363 次6 个月之前

bilibili小鱼儿at青岛

【PPO强化学习】TRL PPO源码分析

已浏览 4955 次6 个月之前

bilibili小鱼儿at青岛

【PPO】从零到深入(1) 从梯度本质看 PPO的裁剪目标函数

已浏览 1.1万次3 个月之前

bilibili东川路第一可爱猫猫虫

97.RL专题：简述一下PPO算法。其与TRPO算法有何关系呢？

已浏览 3568 次10 个月之前

bilibili文言AI

观看更多视频