首页 › 业界区 › 科技 ›强化学习--演员-裁判方法(04)

强化学习--演员-裁判方法(04)

奸轲嫣 2025-6-6 16:49:41

演员-裁判方法 Actor-Critic

演员-评论家（Actor-Critic）方法，这是一种结合了基于价值（Value-Based）和基于策略（Policy-Based）的强化学习方法。这种方法使用两个神经网络：一个用于策略（演员），另一个用于价值函数（评论家）。

1. 演员-评论家方法概述

1.1 价值网络和策略网络

价值网络（Critic）：估计给定状态-动作对的预期回报，即动作价值函数 Q(s,a)。
策略网络（Actor）：直接输出在给定状态下采取各个动作的概率。

1.2 状态价值函数近似

状态价值函数 V(s) 可以通过策略网络和价值网络来近似：

其中，θ 是策略网络的参数，w 是价值网络的参数**。

2. 网络结构

2.1 策略网络（Actor）

输入：状态 s（例如游戏的屏幕截图）。
输出：动作的概率分布。
使用Softmax激活函数确保输出的概率和为1。

2.2 价值网络（Critic）

输入：状态 s 和动作 a。
输出：近似的动作价值（标量）。

3. 训练神经网络

3.1 更新参数

目标是更新策略网络和价值网络的参数，使得状态价值函数 V(s;θ,w) 最大化。

3.2 更新策略网络

使用策略梯度方法更新策略网络，以增加状态价值。
评论家（价值网络）提供对演员（策略网络）的监督。

3.3 更新价值网络

使用时序差分（TD）学习更新价值网络，以更好地估计回报。
评论家的判断变得更加准确，监督完全来自奖励。

4. 算法步骤

4.1 观察和动作

观察状态 st。
根据策略网络 π(⋅∣st;θt) 随机采样动作 at。

4.2 执行和观察

执行动作 at，环境提供新状态 s(t+1) 和奖励 rt。
根据策略网络随机采样 a(t+1)（但不执行）。（只是我们假想的动作）

4.3 评估和计算

评估价值网络：
计算TD误差：

4.4 微分和更新

对价值网络进行微分：
更新价值网络：
对策略网络进行微分：
更新策略网络：

5. 总结

5.1 演员和评论家的角色

训练期间：
- 智能体由策略网络（演员）控制：at∼π(⋅∣st;θ)。
- 价值网络（评论家）提供对演员的监督。
训练后：
- 智能体直接使用训练好的策略网络进行决策。

5.2 训练

使用策略梯度更新策略网络（演员），以增加状态价值。
使用TD学习更新价值网络（评论家），以更好地估计动作价值。

5.3 策略梯度与基线

基线 b 用于减少策略梯度的方差，它应该是独立于 θ 和 a 的。
一个好的基线可以是

（TD目标)。

5.4 确定性策略梯度（DPG）

DPG是一种特殊的演员-评论家方法，其中策略网络是确定性的，输出是给定状态下的最佳动作。
通过最大化价值函数 Q(s,a;w) 来训练策略网络。

这种方法在处理复杂环境和高维状态空间时特别有效，因为它利用了策略的直接建模和价值函数的指导。

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

回复

使用道具举报

2025-6-6 16:49:41

0

粉丝关注

18

主题发布

板块介绍填写区域，请于后台编辑

财富榜{圆}