CSDN热搜
前言: 最近在研究基于 legged_gym 的四足机器人控制。在啃代码和论文的过程中,Policy Gradient(策略梯度)是一个绕不开的核心概念。 面对一堆 \(\nabla\) 和 \(\log\) 符号,我不禁思考:这些抽象的数学公式,到底是如何变成控制电机输出扭矩的指令的? 本文将从最基础的目标函数出发,推导策略梯度公式,并结合 Sim-to-Real(仿真到真机)的工程难点,记录我的理解。
Note: 这个公式的强大之处在于 Model-Free。它不需要知道机器人腿有多重、地面摩擦系数是多少,只要能采样(Rollout),就能训练。
使用道具 举报
本版积分规则 回帖并转播 回帖后跳转到最后一页
程序园优秀签约作者
0
粉丝关注
9
主题发布