找回密码
 立即注册
首页 业界区 安全 强化学习--基于价值的强化学习(02)

强化学习--基于价值的强化学习(02)

釉她 2025-6-1 20:42:08
Action-Value Functions 动作价值函数

折扣回报(Discounted Return)

折扣回报 Ut 是从时间步 t 开始的累积奖励,公式为:
1.png


<ul>Rt 是在时间步 t 获得的奖励。

γ 是折扣因子(0
您需要登录后才可以回帖 登录 | 立即注册