论文笔记（七十二）Reward Centering（四）

Reward Centering（四）

文章概括
摘要
附录
- A 伪代码

文章概括

引用：

@article{naik2024reward,
  title={Reward Centering},
  author={Naik, Abhishek and Wan, Yi and Tomar, Manan and Sutton, Richard S},
  journal={arXiv preprint arXiv:2405.09999},
  year={2024}
}

Naik, A., Wan, Y., Tomar, M. and Sutton, R.S., 2024. Reward Centering. arXiv preprint arXiv:2405.09999.

原文： https://arxiv.org/abs/2405.09999
代码、数据和视频：

系列文章：
请在 $《$ 文章 $》$ 专栏中查找

论文笔记（七十二）Reward Centering（一）
论文笔记（七十二）Reward Centering（二）
论文笔记（七十二）Reward Centering（三）
论文笔记（七十二）Reward Centering（四）
论文笔记（七十二）Reward Centering（五）

摘要

我们证明，在解决持续强化学习问题时，折扣方法如果通过减去奖励的经验均值来对奖励进行中心化处理，其性能会显著提升。在常用的折扣因子下，这种改进是显著的，并且随着折扣因子趋近于1，改进幅度进一步增加。此外，我们证明，如果一个问题的奖励被加上一个常数偏移量，则标准方法的表现会变得更差，而采用奖励中心化的方法则不受影响。在on-policy设置下，估计平均奖励是直接的；对于off-policy设置，我们提出了一种稍微更复杂的方法。奖励中心化是一个通用的概念，因此我们预计几乎所有的强化学习算法都能从奖励中心化的加入中受益。

附录

A 伪代码

在本节中，我们将介绍在 Q-learning 的表格、线性和非线性变体中添加基于值的奖励中心的伪代码。

在这里插入图片描述

这段伪代码实现了一个“表格型（Tabular）Q-learning”算法，区别在于它使用了基于值的奖励中心化（value-based reward centering）。也就是说：

它仍然是Q-learning：用一个Q表来存储每个状态-动作对 $(s, a)$ 的价值估计 $Q (s, a)$ 。
奖励中心化：在计算时序差分（TD）误差时，使用 $\bar{R})$ 代替原始奖励 $R$ ，并且同时更新一个平均奖励估计 $\bar{R}$ 。

这么做的原因在于：如果奖励有一个大常数偏移，或者折扣因子 $\gamma$ 很接近 1，那么原始 Q-learning 会出现数值范围很大的问题；通过减去一个平均奖励 $\bar{R}$ ，可以让学习更稳定、更快速。

行0：输入与算法参数

Input: The behavior policy b (e.g. ε-greedy)
Algorithm parameters: discount factor γ, step-size parameters α, η

行为策略 $b$ ：这是智能体在训练中实际用来选动作的策略。例如，最常见的是 $\epsilon$ -greedy——以概率 $1-\epsilon$ 选当前Q值最高的动作，以概率 $\epsilon$ 随机选动作。
折扣因子 $\gamma$ ：决定未来奖励的重要性， $\gamma \in [0,1)$ 。数值越接近1，越重视长期回报；越小则越关注近期。
步长参数 $\alpha, \eta$ ： $\alpha$ 多用于网络参数更新（学习率）， $\eta$ 用于调节平均奖励 $\bar{R}$ 的更新幅度。

行1：初始化

Initialize Q(s, a) ∀s, R̄ arbitrarily (e.g., to zero)

我们为所有状态-动作对 $(s, a)$ 初始化一个Q表，记为 $Q (s, a)$ 。在表格型设置下，这通常是一个二维数组，也可以用字典等结构实现。
初始化平均奖励 $\bar{R}$ 为0或任意值。

行2：获得初始状态

Obtain initial S

与环境交互时，智能体先观察到一个起始状态 $S$ 。在仿真或某些任务中，这可能是随机选的或由环境指定。

行3, 4：主循环

for all time steps do
    Take action A according to b, observe R, S'

在每个时间步 $t$ ：
1. 根据行为策略 $b$ 从状态 $S$ 选动作 $A$ 。
2. 环境返回即时奖励 $R$ 并转移到新状态 $S^{'}$ 。
这是标准 Q-learning 过程：智能体在环境中执行动作并收集数据。

行5：计算时序差分误差 $δ$

	δ = R - R̄ + γ max_a Q(S', a) - Q(S, A)

这是本算法的核心：

$\bar{R}$ ：把原始奖励 $R$ 减去当前的平均奖励估计 $\bar{R}$ ，得到“中心化奖励”。
$\gamma \max_{a} Q(S', a)$ ：与标准Q-learning一样，估计下一状态 $S^{'}$ 的最大Q值作为未来回报。
$- Q (S, A)$ ：我们要看“（中心化奖励 + 折扣后的最大下一步价值）与当前Q值估计”的差距，这就是TD误差 $\delta$ 。

在标准Q-learning里， $\delta = R + \gamma \max_{a} Q(S',a) - Q(S,A)$ 。这里则变成 $\bar{R}$ ，多了个 $-\bar{R}$ 的中心化操作。

行6：更新Q表

	Q(S, A) = Q(S, A) + α δ

这是最基本的Q-learning更新：用TD误差 $\delta$ 调整当前Q值，步长由 $\alpha$ 决定。
由于 $\delta$ 包含了 $\bar{R})$ ，我们实际上是学习一个“相对于平均奖励”的Q值。

行7：更新平均奖励

	R̄ = R̄ + η α δ

这是与标准Q-learning不同之处：我们同时更新平均奖励 $\bar{R}$ ，使其也跟随TD误差进行调整。
其中 $\eta$ 是一个系数（伪代码里写的可能是“ $η$ ”，也可能用其他符号），用来控制更新速度；有时可与 $\alpha$ 合并成一个“effective step-size”。
直观理解：如果 $\delta$ 是正的，说明“实际的中心化奖励 + 未来回报”比我们预期的要好，于是我们适度提高 $\bar{R}$ ；若 $\delta$ 为负，则降低 $\bar{R}$ 。
这样， $\bar{R}$ 会逐渐收敛到一个与目标策略相关的平均奖励（若行为策略足够探索、步长合适等条件满足）。

行8：转移到新状态

	S = S'

这一行将当前状态更新为下一个状态，为下个时间步的循环做准备。

行9：循环结束

end

该算法持续进行，直到满足某个停止条件（如到达最大步数或收敛）。

简单数值例子

假设我们有一个小小的任务：

状态空间只有2个状态： $S_1$ , $S_2$ ；动作空间只有2个动作： $A_1$ , $A_2$ 。
假设某个回合中：
- 当前状态 $S = S_1$ ，动作 $A = A_1$ ，获得即时奖励 $R = 10$ ，下一状态 $S' = S_2$ 。
- 当前估计的平均奖励 $\bar{R} = 8$ 。
- $\gamma = 0.9$ ，且我们查表发现 $max_a Q(S_2, a) = 20$ ，而当前 $Q(S_1, A_1) = 15$ 。
- 学习率 $\alpha = 0.1$ ， $\eta = 0.5$ （示例取值）。

第5行：计算TD误差
$\delta = (R - \bar{R}) + \gamma \max_a Q(S_2,a) - Q(S_1,A_1) = (10 - 8) + 0.9 \times 20 - 15 = 2 + 18 - 15 = 5.$

第6行：更新Q表
$Q(S_1, A_1) \leftarrow 15 + 0.1 \times 5 = 15.5.$

第7行：更新平均奖励
$\bar{R} \leftarrow 8 + 0.5 \times 0.1 \times 5 = 8 + 0.25 = 8.25.$

解释：

因为 $\delta = 5$ 为正数，表示实际获得的“中心化奖励 + 折扣未来回报”比我们先前估计的还要好，于是我们适度提高 $Q(S_1, A_1)$ 并且也提高了平均奖励估计 $\bar{R}$ （从8增加到8.25）。
这样，如果下次再拿到类似奖励，中心化奖励 $\bar{R}$ 就会变小（10 - 8.25 = 1.75），防止Q值无限增大。

在这里插入图片描述

本算法是一个“线性Q-learning”的版本，与传统Q-learning相比，主要有两个特点：

线性函数逼近：
- 采用线性模型来近似 Q 值函数，即对每个动作 $a$ 都维护一个参数向量 $\mathbf{w}_a \in \mathbb{R}^d$ ，并将状态（或观测）转换为一个特征向量 $\mathbf{x} \in \mathbb{R}^d$ 。
- 动作值估计为 $\hat{q}(\mathbf{x}, a) = \mathbf{w}_a^\top \mathbf{x}$ 。
基于值的奖励中心化（value-based reward centering）：
- 在计算时序差分（TD）误差时，使用 $\bigl(R - \bar{R}\bigr)$ 代替原始奖励 $R$ ，其中 $\bar{R}$ 是一个在线估计的平均奖励。
- 同时，利用同一个 TD 误差更新平均奖励 $\bar{R}$ 本身。

通过这种“奖励中心化”，我们可以去除奖励中可能存在的常数偏移，在高折扣因子或大常数奖励的情况下让学习更稳定、更有效。

行0：输入与算法参数

Input: The behavior policy b (e.g., ε-greedy)
Algorithm parameters: discount factor γ, step-size parameters α, η

行为策略 $b$ ：在训练过程中用于实际选动作的策略，例如 $\epsilon$ -greedy。
折扣因子 $\gamma$ ：权衡当前奖励和未来奖励的重要程度， $\gamma \in [0,1)$ 。
步长参数 $\alpha$ 和 $\eta$ ： $\alpha$ 多用于网络参数更新（学习率）， $\eta$ 用于调节平均奖励 $\bar{R}$ 的更新幅度。

行1：初始化

Initialize wₐ ∈ ℝ^d ∀a, R̄ arbitrarily (e.g., to zero)

对每个动作 $a$ ，都初始化一个权重向量 $\mathbf{w}_a \in \mathbb{R}^d$ 。通常初始化为0向量或小随机值。
初始化平均奖励 $\bar{R}$ 为0或任意值。

行2：获得初始观测

Obtain initial observation x

在与环境交互前，我们先得到一个初始状态或观测，并将其转换为一个特征向量 $\mathbf{x}$ 。
例如，在某个连续空间里，你可能会用 tile-coding 或其他方式把原始状态映射成 $\mathbf{x}$ 。

行3, 4：主循环

for all time steps do
    Take action A according to b, observe R, x'

每个时间步 $t$ ：
1. 根据行为策略 $b$ （如 $\epsilon$ -greedy）从特征 $\mathbf{x}$ 选择一个动作 $A$ 。
2. 环境返回即时奖励 $R$ 并转移到新观测 $\mathbf{x}'$ 。

行5：计算TD误差 $δ$

	δ = R - R̄ + γ maxₐ (wₐ)ᵀ x' - (wA)ᵀ x

这是本算法最关键的一步：

$\bar{R}$ ：将原始奖励减去平均奖励，得到“中心化奖励”。
$\gamma \max_{a} \mathbf{w}_a^\top \mathbf{x}'$ ：估计下一状态的最大Q值（线性模型下为各动作权重向量与 $\mathbf{x}'$ 的内积）。
$\mathbf{w}_A^\top \mathbf{x}$ ：从当前Q值中减去上一步对所选动作 $A$ 的Q值估计。
整体上， $\delta$ 表示 “中心化即时奖励 + 折扣未来回报” 与 “当前Q值估计” 之间的差距 （即TD误差）。

行6：更新动作权重向量

	wA = wA + α δ x

对于所选动作 $A$ ，我们用 TD 误差 $\delta$ 调整其权重向量：
$\mathbf{w}_A \leftarrow \mathbf{w}_A + \alpha \,\delta \,\mathbf{x}.$
线性模型下， $\nabla_{\mathbf{w}_A} \bigl(\mathbf{w}_A^\top \mathbf{x}\bigr) = \mathbf{x}$ ，所以这是标准的梯度升/降更新形式。

行7：更新平均奖励

	R̄ = R̄ + η α δ

同样地，我们也用同一个 TD 误差 $\delta$ 来更新平均奖励 $\bar{R}$ 。
$\eta\alpha$ 可以视作平均奖励更新的有效步长；若 $\eta=1$ ，则直接用 $\alpha\delta$ ；若 $\eta$ 不同于1，就能灵活调节更新幅度。

行8：更新当前特征

	x = x'

将下一状态特征 $\mathbf{x}'$ 变为当前特征 $\mathbf{x}$ ，进入下一步循环。

行9：循环结束

end

算法在有限时间或直到收敛为止进行多次迭代。

知识点回顾

线性Q-learning：
- 不再用一个表格存储 $Q (s, a)$ ，而是对每个动作维护一个权重向量 $\mathbf{w}_a$ ，用线性函数 $\mathbf{w}_a^\top \mathbf{x}$ 逼近动作值。
- 在高维或连续状态下，这是常用的方法。
奖励中心化：
- 在TD误差中使用 $\bar{R})$ 代替 $R$ ，减少由于奖励有常数偏移或 $\gamma$ 较大导致的数值膨胀问题。
- 通过更新 $\bar{R}$ ，使其自适应地追踪策略的平均奖励水平。
TD误差 $\delta$ ：
- 反映了当前估计与目标之间的差距。
- 这里的“目标”是中心化即时奖励 + 折扣未来最优价值；
- $\delta$ 越大（正），说明“实际情况比估计好”；越大（负），说明“比估计差”。
步长参数：
- $\alpha$ 控制Q值（权重向量）更新速度；
- $\eta\alpha$ 控制平均奖励更新速度。
- 这些步长通常要满足一定条件（如 Robbins–Monro）才能保证收敛。

简单数值例子

下面我们给出一个简单的数值例子，展示如何在单步中计算并更新各量。

假设特征向量维度 $d = 3$ 。
当前状态特征 $\mathbf{x} = [1, 0, 2]^\top$ 。
下一状态特征 $\mathbf{x}' = [0, 1, 1]^\top$ 。
行为策略 $\epsilon$ -greedy 从 $\mathbf{x}$ 中选取动作 $A$ ，此处动作空间有2个动作： $a_1$ 和 $a_2$ 。

权重向量与平均奖励初始化

$\mathbf{w}_{a_1} = [0.5, 0.2, -0.1]^\top$ ， $\mathbf{w}_{a_2} = [0.3, 0.4, 0.1]^\top$ 。
$\bar{R} = 2.0$ （任意初始化）。
折扣因子 $\gamma = 0.9$ 。
学习率 $\alpha = 0.1$ ，平均奖励更新因子 $\eta=0.5$ （示例值）。

执行动作并获得奖励

设定当前动作为 $A = a_1$ 。
环境返回即时奖励 $R = 5$ ，下一状态特征 $\mathbf{x}' = [0, 1, 1]^\top$ 。

计算TD误差 δ

计算中心化奖励： $\bar{R} = 5 - 2.0 = 3$ 。
计算下一状态每个动作的Q值：
$\mathbf{w}_{a_1}^\top \mathbf{x}' = [0.5, 0.2, -0.1] \cdot [0, 1, 1] = 0.2 + (-0.1) = 0.1,$ $\mathbf{w}_{a_2}^\top \mathbf{x}' = [0.3, 0.4, 0.1] \cdot [0, 1, 1] = 0.4 + 0.1 = 0.5.$
因此， $\max_{a} \mathbf{w}_a^\top \mathbf{x}' = 0.5$ 。
计算当前Q值：
$\mathbf{w}_{A}^\top \mathbf{x} = \mathbf{w}_{a_1}^\top \mathbf{x} = [0.5, 0.2, -0.1] \cdot [1, 0, 2] = 0.5 + (-0.2) = 0.3.$
整理得到：
$\delta = (5 - 2.0) + 0.9 \times 0.5 - 0.3 = 3 + 0.45 - 0.3 = 3.15.$

更新动作权重向量

$\mathbf{w}_{a_1} \leftarrow \mathbf{w}_{a_1} + \alpha\,\delta\,\mathbf{x} = [0.5, 0.2, -0.1]^\top + 0.1 \times 3.15 \times [1, 0, 2]^\top.$

先计算增量： $0.1 \times 3.15 = 0.315$ 。
对 $\mathbf{x}=[1,0,2]$ 的增量为 $[0.315, 0, 0.63]$ 。
更新后：
$\mathbf{w}_{a_1} = [0.5 + 0.315, \; 0.2 + 0, \; -0.1 + 0.63] = [0.815, \; 0.2, \; 0.53].$

更新平均奖励

$\bar{R} \leftarrow \bar{R} + \eta \alpha \delta = 2.0 + 0.5 \times 0.1 \times 3.15 = 2.0 + 0.1575 = 2.1575.$

更新当前特征

$\mathbf{x} \leftarrow \mathbf{x}' = [0,1,1]^\top.$

解释：

通过上面这一步更新，我们提高了动作 $a_1$ 的权重，因为 $\delta$ 为正数，表示“实际比我们估计的好”。
同时，也提高了平均奖励 $\bar{R}$ （从2.0到2.1575），让之后的中心化奖励 $\bar{R}$ 会相应变小（即不至于无限累加）。

在这里插入图片描述

本算法是一个“深度Q网络（DQN）”版本，但与传统DQN相比，它使用了基于值的奖励中心化（value-based reward centering）。也就是说：

非线性函数逼近（DQN）
- 我们用一个神经网络来逼近 Q 值函数：给定状态（或观测） $\mathbf{x}$ ，以及动作 $a$ ，输出 $\hat{q}(\mathbf{x}, a)$ 。
- 训练时，我们会用“经验回放（replay buffer）”批量采样过往数据，并通过梯度下降更新网络参数。
奖励中心化
- 在计算TD误差时，将即时奖励 $R$ 替换为 $\bar{R})$ ，其中 $\bar{R}$ 是一个在线估计的平均奖励。
- 同时，用同一个TD误差来更新 $\bar{R}$ 。
- 这样可减轻高折扣因子或大常数奖励带来的数值膨胀，令学习更稳定。

行0：输入与算法参数

Input: The behavior policy b (e.g., ε-greedy)
Algorithm parameters: discount factor γ, step-size parameters α, η

行为策略 $b$ ：训练过程中智能体实际用来选动作的策略，如 $\epsilon$ -greedy。
折扣因子 $\gamma$ ：衡量未来奖励的重要性， $\gamma \in [0,1)$ 。
步长参数 $\alpha, \eta$ ： $\alpha$ 多用于网络参数更新（学习率）， $\eta$ 用于调节平均奖励 $\bar{R}$ 的更新幅度。

行1：初始化

Initialize value network, target network; initialize R̄ arbitrarily (e.g., to zero)

初始化价值网络参数：例如，一个神经网络 $\theta$ 用来逼近 Q 值 $\hat{q}(\mathbf{x}, a; \theta)$ 。
初始化平均奖励 $\bar{R}$ 为 0 或其他任意值。

行2：获得初始观测 $\mathbf{x}$

Obtain initial observation x

在与环境交互前，我们先得到初始状态（或观测）并将其表示为向量 $\mathbf{x}$ 。

行3–5：与环境交互 & 存储体验

for all time steps do
    Take action A according to b, observe R, x'
    Store tuple (x, A, R, x') in the experience buffer

与环境交互：在时间步 $t$ ，根据行为策略 $b$ （如 $\epsilon$ -greedy）选择动作 $A$ ，环境返回即时奖励 $R$ 并转移到新观测 $\mathbf{x}'$ 。
存储体验：将四元组 $(\mathbf{x}, A, R, \mathbf{x}')$ 存入“experience buffer”（经验回放池），以便后续批量采样训练。

行6–11：用采样的迷你批更新估计

	if time to update estimates then
	    Sample a minibatch of transitions (x, A, R, x')^b
	    For every i-th transition: δᵢ = Rᵢ - R̄ + γ maxₐ q̂(xᵢ', a) - q̂(xᵢ, Aᵢ)
	    Perform a semi-gradient update of the value-network parameters with the δ² loss
	    R̄ = R̄ + η α mean(δ)
	    Update the target network occasionally

这是DQN训练的核心部分，与传统DQN相比多了“减去 $\bar{R}$ ”以及更新 $\bar{R}$ ：

采样迷你批：
- 从 replay buffer 中随机采样一批（batch）过往转移 $\{(\mathbf{x}_i, A_i, R_i, \mathbf{x}_i')\}$ 。
- 这使得训练更稳定且可重复利用经验。
计算 TD 误差
- 对每条转移计算
  $\delta_i = \bigl(R_i - \bar{R}\bigr) + \gamma \max_a \hat{q}(\mathbf{x}_i', a) - \hat{q}(\mathbf{x}_i, A_i).$
- 与标准DQN不同之处在于，奖励部分变成了 $(R_i - \bar{R})$ 而非 $R_i$ ；这样就是奖励中心化。
半梯度（semi-gradient）更新
- 在DQN中，我们通常用均方误差（MSE）来训练网络参数 $\theta$ 。
- 当TD目标是 $\bigl(R_i - \bar{R}\bigr) + \gamma \max_a \hat{q}(\mathbf{x}_i', a)$ ，网络输出为 $\hat{q}(\mathbf{x}_i, A_i; \theta)$ ，
  其损失可以写作
  $L(\theta) = \frac{1}{2}\sum_i \bigl[\delta_i(\theta)\bigr]^2,$
  其中 $\delta_i(\theta)$ 会随 $\theta$ 改变。我们通过反向传播对 $\theta$ 做梯度下降。
更新平均奖励
$\bar{R} \leftarrow \bar{R} + \eta \,\alpha \,\text{mean}(\delta),$
- 这里 $\text{mean}(\delta)$ 表示对 minibatch 中所有 $\delta_i$ 取平均。
- 如果 $\delta$ 平均值为正，说明当前整体回报超出估计；若为负，则说明不足。
更新目标网络
- 在 DQN 中，通常还会使用一个“目标网络（target network）”来稳定训练：定期或软更新其参数为 $\theta$ ，然后在 $\max_a q(\mathbf{x}', a)$ 时用该目标网络的值来计算。

行12–14：收尾与下一步

	end
	x = x'
end

这里表明：在完成更新后，将当前观测 $\mathbf{x}$ 设置为下一状态 $\mathbf{x}'$ ，然后进入下一个时间步。

关键知识点

DQN：
- 用神经网络逼近 Q 值，采用体验回放和目标网络来减少数据相关性和训练不稳定。
奖励中心化：
- 在 TD 误差中使用 $\bar{R})$ 代替原始 $R$ 。
- 同时更新 $\bar{R}$ ，让它逐渐逼近策略的平均奖励。
- 这样可以缓解高折扣因子下 Q 值变得很大的问题，并提高训练稳定性。
半梯度更新：
- 我们把 $\delta_i^2$ 作为损失，对网络参数 $\theta$ 求梯度并更新。
- 称为“半梯度”或“近似梯度”，因为 $\delta_i$ 中包含了 $\max_a \hat{q}(\mathbf{x}', a)$ ，本身对 $\theta$ 也有依赖，但在实际 DQN 中我们常用一个固定目标网络来近似，或者只对 $\hat{q}(\mathbf{x},A)$ 的部分做梯度。
$mean(\delta)$ ：
- 在一个 batch 中，每条样本都会产生一个 $\delta_i$ 。我们对它们求平均，用于更新 $\bar{R}$ 。
- 如果整体 $\delta$ 为正，表示当前估计偏保守；如果整体 $\delta$ 为负，则表示估计偏乐观。

数值示例

1. 背景与思路

在非线性 DQN中，我们用一个神经网络来近似 Q 值函数：
$Q_\theta(\mathbf{x}, a) = \text{NN}(\mathbf{x}; \theta)[a],$
其中：

$\mathbf{x}$ 是状态（或观测）的输入；
$\theta$ 表示网络所有的可训练参数（如权重矩阵、偏置等）；
$\text{NN}(\mathbf{x}; \theta)$ 输出一个向量，每个分量对应一个动作的 Q 值。

在“value-based reward centering”里，我们在计算 TD 目标时使用 $\bar{R})$ 代替原始奖励 $R$ ，并且利用同一个时序差分（TD）误差更新平均奖励 $\bar{R}$ 。下文会展示更完整的过程。

2. 一个小型神经网络示例

为了具体化，我们假设一个非常小的神经网络：

输入层：维度 = 2（状态/观测是 $\mathbf{x}\in \mathbb{R}^2$ ）。
隐藏层：维度 = 2，带 ReLU 激活。
输出层：维度 = 2（表示有 2 个动作，输出对应 $\hat{q}(\mathbf{x}, a_1)$ 和 $\hat{q}(\mathbf{x}, a_2)$ ）。

用符号表示：

隐藏层：
$\mathbf{h} = \max\{0,\; W_1 \mathbf{x} + \mathbf{b}_1\},$
其中 $W_1$ 是 $2\times 2$ 矩阵， $\mathbf{b}_1$ 是 2 维偏置， $\max\{0,\cdot\}$ 表示 ReLU 逐元素操作。
输出层：
$\mathbf{q}_\theta(\mathbf{x}) = W_2 \mathbf{h} + \mathbf{b}_2,$
这是一个 2 维向量，分别对应动作 $a_1$ 和 $a_2$ 的 Q 值。

这样， $\theta$ 包含 $\{W_1, \mathbf{b}_1, W_2, \mathbf{b}_2\}$ 。在实际DQN里可能更大更多层，但这里只演示一个非常小的网络方便手算。

3. 初始化与数据设定

我们随便给定一些初始参数（数字都很小、只作示例）：

$W_1 = \begin{pmatrix} 0.5 & -0.2 \\ 0.1 & 0.3 \end{pmatrix}, \quad \mathbf{b}_1 = \begin{pmatrix} 0.0 \\ 0.1 \end{pmatrix},$

$W_2 = \begin{pmatrix} 0.4 & 0.2 \\ -0.1 & 0.3 \end{pmatrix}, \quad \mathbf{b}_2 = \begin{pmatrix} 0.0 \\ 0.0 \end{pmatrix}.$

另外，设：

当前平均奖励 $\bar{R} = 5$ （示例）；
折扣因子 $\gamma=0.9$ ；
学习率 $\alpha=0.01$ （针对网络参数）；
平均奖励更新因子 $\eta=1$ （只为简化，实际可不一样）。

一条训练样本

假设我们只看一条样本（batch size=1）：

当前状态 $\mathbf{x}=[0.5, -1.2]^\top$ ；
动作 $A=a_1$ ；
即时奖励 $R = 7$ ；
下一状态 $\mathbf{x}'=[1.0, 0.3]^\top$ ；
环境中还有另一个动作 $a_2$ ，我们需要它来做 $\max_a Q(\mathbf{x}',a)$ 。

我们先做一次前向传播，计算出：

当前状态 $\mathbf{x}$ 下，对动作 $a_1$ 和 $a_2$ 的 Q 值；
下一状态 $\mathbf{x}'$ 下，对动作 $a_1$ 和 $a_2$ 的 Q 值。

4. 前向传播（Forward Pass）

4.1 计算 $\hat{q}_\theta(\mathbf{x})$

(1) 隐藏层激活 $\mathbf{h}$

$\mathbf{z}_1 = W_1 \mathbf{x} + \mathbf{b}_1 = \begin{pmatrix} 0.5 & -0.2 \\ 0.1 & 0.3 \end{pmatrix} \begin{pmatrix} 0.5 \\ -1.2 \end{pmatrix} + \begin{pmatrix} 0.0 \\ 0.1 \end{pmatrix}.$

先做矩阵乘法：

第一行： $0.5 * 0.5 + (- 0.2) * (- 1.2) = 0.25 + 0.24 = 0.49$ ；
第二行： $0.1 * 0.5 + 0.3 * (- 1.2) = 0.05 - 0.36 = - 0.31$ ；

然后加偏置 $\mathbf{b}_1$ :

第一维： $0.49 + 0.0 = 0.49$ ；
第二维： $- 0.31 + 0.1 = - 0.21$ 。

因此
$\mathbf{z}_1 = \begin{pmatrix} 0.49 \\ -0.21 \end{pmatrix}.$
再做 ReLU： $\mathbf{h} = \max\{0, \mathbf{z}_1\}$ :

第一维： $max\{0,0.49\} = 0.49$ ；
第二维： $max\{0,-0.21\} = 0$ （因为 -0.21 < 0）。

所以
$\mathbf{h} = \begin{pmatrix} 0.49 \\ 0 \end{pmatrix}.$

(2) 输出层 $\mathbf{q}_\theta(\mathbf{x})$

$\mathbf{q}_\theta(\mathbf{x}) = W_2 \mathbf{h} + \mathbf{b}_2 = \begin{pmatrix} 0.4 & 0.2 \\ -0.1 & 0.3 \end{pmatrix} \begin{pmatrix} 0.49 \\ 0 \end{pmatrix} + \begin{pmatrix} 0.0 \\ 0.0 \end{pmatrix}.$
矩阵乘法：

对输出第1维（动作 $a_1$ ）： $0.4 * 0.49 + 0.2 * 0 = 0.196$ ；
对输出第2维（动作 $a_2$ ）： $- 0.1 * 0.49 + 0.3 * 0 = - 0.049$ 。

所以
$\mathbf{q}_\theta(\mathbf{x}) = \begin{pmatrix} 0.196 \\ -0.049 \end{pmatrix}.$
表示：

$\hat{q}_\theta(\mathbf{x}, a_1)=0.196$ ；
$\hat{q}_\theta(\mathbf{x}, a_2)=-0.049$ 。

4.2 计算 $\hat{q}_\theta(\mathbf{x}')$

同理，对下一状态 $\mathbf{x}'=[1.0, 0.3]$ :

隐藏层：
$\mathbf{z}_1' = W_1 \mathbf{x}' + \mathbf{b}_1 = \begin{pmatrix} 0.5 & -0.2 \\ 0.1 & 0.3 \end{pmatrix} \begin{pmatrix} 1.0 \\ 0.3 \end{pmatrix} + \begin{pmatrix} 0.0 \\ 0.1 \end{pmatrix}.$
- 第一行： $0.5 * 1.0 + (- 0.2) * 0.3 = 0.5 - 0.06 = 0.44$ ；
- 第二行： $0.1 * 1.0 + 0.3 * 0.3 = 0.1 + 0.09 = 0.19$ ；
  加偏置 $\mathbf{b}_1$ :
- 第一维： $0.44 + 0 = 0.44$ ；
- 第二维： $0.19 + 0.1 = 0.29$ 。
  $\mathbf{z}_1' = \begin{pmatrix} 0.44 \\ 0.29 \end{pmatrix}.$
  ReLU:
  $\mathbf{h}' = \begin{pmatrix} \max\{0,0.44\} \\ \max\{0,0.29\} \end{pmatrix} = \begin{pmatrix} 0.44 \\ 0.29 \end{pmatrix}.$
输出层：
$\mathbf{q}_\theta(\mathbf{x}') = W_2 \mathbf{h}' + \mathbf{b}_2 = \begin{pmatrix} 0.4 & 0.2 \\ -0.1 & 0.3 \end{pmatrix} \begin{pmatrix} 0.44 \\ 0.29 \end{pmatrix} + \begin{pmatrix} 0 \\ 0 \end{pmatrix}.$
- 对动作 $a_1$ : $0.4 * 0.44 + 0.2 * 0.29 = 0.176 + 0.058 = 0.234$ ；
- 对动作 $a_2$ : $- 0.1 * 0.44 + 0.3 * 0.29 = - 0.044 + 0.087 = 0.043$ 。
  $\mathbf{q}_\theta(\mathbf{x}') = \begin{pmatrix} 0.234 \\ 0.043 \end{pmatrix}.$
  即
- $\hat{q}_\theta(\mathbf{x}', a_1)=0.234$ ；
- $\hat{q}_\theta(\mathbf{x}', a_2)=0.043$ 。

5. 计算 TD 误差 $\delta$

在“value-based reward centering”中，TD 目标 = $\bar{R}) + \gamma \max_{a} \hat{q}_\theta(\mathbf{x}', a)$ 。

中心化奖励： $\bar{R} = 7 - 5=2$ 。
下一状态最大 Q： $max\{0.234, 0.043\}=0.234$ 。
当前 Q： $\hat{q}_\theta(\mathbf{x}, A=a_1)=0.196$ 。
折扣因子： $\gamma=0.9$ 。

于是
$\delta = 7 - 5 + 0.9 \times 0.234 - 0.196 = 2 + 0.2106 - 0.196 = 2.0146.$

这是我们这条样本的时序差分误差。

6. 损失函数与梯度下降

我们用均方误差（MSE）来训练网络参数 $\theta$ 。对这条样本来说，损失可以写作：
$L(\theta) = \frac12 \bigl[\delta(\theta)\bigr]^2,$
其中 $\delta(\theta)$ 是上面算出来的 TD 误差，会随 $\theta$ 改变。为了简化，我们此处把 $\delta$ 视为“只依赖当前 $\theta$ ”的值（实际 DQN 常用“目标网络”或“停止梯度”技巧来使 $\delta$ 的一部分不随 $\theta$ 变）。在示例中，我们就把 $\delta=2.0146$ 当作固定，便于演示梯度下降主流程。

6.1 反向传播（Backprop）

要更新 $\theta$ ，我们要对 $L(\theta)=\tfrac12 \delta^2$ 做梯度下降：

$\nabla_\theta L(\theta) = \delta \,\nabla_\theta \delta.$

但 $\delta\approx \hat{q}_\theta(\mathbf{x}',\cdot)$ 等项都和 $\theta$ 有关。如果在纯DQN实现里，我们通常冻结下一状态的 $\max \hat{q}_\theta(\mathbf{x}',a)$ （用目标网络 $\theta^-$ ）或做停止梯度，所以 $\delta$ 中只有“ $\hat{q}_\theta(\mathbf{x},A)$ ”那一部分对 $\theta$ 求导。这样：
$\nabla_\theta \delta \approx -\,\nabla_\theta \hat{q}_\theta(\mathbf{x}, A),$
因为 $\delta = \text{(常数)} - \hat{q}_\theta(\mathbf{x}, A)$ 在这种实现里“下一状态部分”不回传梯度。

为简单，我们就这么做：只对当前 Q 值 $\hat{q}_\theta(\mathbf{x}, A)$ 求导。

小结

$\nabla_\theta L(\theta) \approx \delta \times \bigl[-\,\nabla_\theta \hat{q}_\theta(\mathbf{x}, A)\bigr]$ .

6.2 梯度下降更新

更新公式：
$\theta \leftarrow \theta - \alpha \,\nabla_\theta L(\theta).$
带入上面近似：
$\theta \leftarrow \theta - \alpha\,\delta \,\bigl[-\nabla_\theta \hat{q}_\theta(\mathbf{x}, A)\bigr] = \theta + \alpha\,\delta \,\nabla_\theta \hat{q}_\theta(\mathbf{x}, A).$

由于 $\alpha=0.01$ ， $\delta=2.0146$ ，剩下就是计算 $\nabla_\theta \hat{q}_\theta(\mathbf{x}, A=a_1)$ 。这涉及到对 $W_1, b_1, W_2, b_2$ 做反向传播。下面我们只展示核心思路，不手算全部梯度细节——现实中由深度学习框架（如 PyTorch、TensorFlow）自动完成。

大体流程：

输出层： $\hat{q}_\theta(\mathbf{x}, a_1)=z_{out,1}$ ，梯度 $\partial z_{out,1}/\partial W_2$ 与 $\partial z_{out,1}/\partial b_2$ 依赖于隐藏层 $\mathbf{h}$ 。
隐藏层：再把梯度传回去，计算 $\partial z_{out,1}/\partial W_1$ 等，因为 $\mathbf{h}$ = ReLU( $\mathbf{z}_1$ )，其中 $\mathbf{z}_1=W_1\mathbf{x}+b_1$ 。
最后：更新每个参数，形如
$W_2 \leftarrow W_2 + \alpha\,\delta \,\frac{\partial \hat{q}_\theta(\mathbf{x}, a_1)}{\partial W_2}, \quad\ldots$

在实际代码中，这都是自动微分搞定。我们这里只要明白：每个参数都会被往“让 $\hat{q}_\theta(\mathbf{x}, a_1)$ 更接近 TD 目标”的方向调整。

7. 更新平均奖励 $\bar{R}$

按照“value-based reward centering”伪代码，还要更新 $\bar{R}$ 。
令 $\bar{R} \leftarrow \bar{R} + \eta\alpha\,\delta\_mean$ 。

这里 $\delta\_mean$ 是对一个 batch 的平均。我们示例 batch size=1，所以 $\delta\_mean=\delta=2.0146$ 。
$\alpha=0.01$ , $\eta=1$ ，则
$\bar{R} \leftarrow 5 + 0.01\times 2.0146 = 5 + 0.020146 \approx 5.020146.$
表示由于本次样本的 TD 误差为正，说明我们的“中心化奖励”在估计上偏低，于是稍微提高 $\bar{R}$ （从5到5.020146）。

8. 结果与意义

神经网络参数 $\theta$ 的意义：
- $\theta$ 包含了所有层的权重和偏置。它决定了给定状态 $\mathbf{x}$ 时，各动作的 Q 值输出。
- 当我们执行梯度下降时，其实是在“微调”这些参数，以减少 $\delta^2$ （TD 误差的平方），让 Q 值逼近我们想要的目标。
为什么梯度下降？
- 因为我们的损失函数 $L(\theta)=\tfrac12\delta^2$ 对 $\theta$ 求导可得更新方向；更新后，网络输出的 $\hat{q}_\theta(\mathbf{x}, a)$ 就会更接近“中心化奖励 + 折扣未来价值”。
数值更新后：
- $\theta$ 中的所有参数（ $W_1, b_1, W_2, b_2$ ) 会小幅度调整；
- $\bar{R}$ 也小幅度提高。
- 在多步迭代后， $\bar{R}$ 收敛到策略的平均奖励水平，网络学习到一个Q值函数，不会出现因奖励有大常数偏移而导致的 Q 值无限膨胀。
非线性 vs. 线性：
- 跟线性Q-learning不同的是，这里 $\hat{q}_\theta(\mathbf{x}, a)$ 是神经网络输出的一个非线性函数；我们需要用反向传播（backprop）来计算梯度。
- 在例子中，我们手动演示了如何做前向传播得到 Q 值，反向传播的梯度更新就由深度学习库自动计算了。

9. 小结

$\theta$ 是神经网络的所有可学习参数（权重、偏置等）。它把状态 $\mathbf{x}$ 映射到各动作的Q值输出。
梯度下降：我们对 $\tfrac12 \delta^2$ 做最小化，通过反向传播更新 $\theta$ 。其中 $\delta = (R - \bar{R}) + \gamma \max_a Q_\theta(\mathbf{x}',a) - Q_\theta(\mathbf{x},A)$ 。
示例：
- 前向传播：计算隐藏层 $\mathbf{h}$ 和输出层 $\mathbf{q}_\theta(\mathbf{x})$ ，得出 $\hat{q}_\theta(\mathbf{x}, a_1)$ 等值。
- 计算 $\delta\approx2.0146$ 并做梯度更新：让 $\hat{q}_\theta(\mathbf{x}, a_1)$ 朝目标 $(R-\bar{R}) + \gamma \max_a \hat{q}_\theta(\mathbf{x}',a)$ 靠近。
- 同时更新平均奖励 $\bar{R}\leftarrow \bar{R} + \eta\alpha\,\delta\_mean$ 。
意义：
- 通过“奖励中心化”，我们去掉了奖励中的大偏移，使 Q 值学习更稳定；
- 通过神经网络参数 $\theta$ 的梯度下降，我们逐步逼近真正的Q值函数；
- 每次更新都在自动微分框架下完成，无需手动算所有梯度。

希望这个更细致的示例能帮你理解：

$\theta$ 就是神经网络所有可学习参数；
梯度下降如何基于 $\delta$ 进行一次更新（反向传播）；
奖励中心化对 TD 目标的影响，以及** $\bar{R}$ ** 的更新方式。

效果

本次更新后：
- 动作 $a_1$ 在状态 $mathbf{x}$ 下的估计值会稍微增大（因为 $\delta$ 为正）；
- 平均奖励 $\bar{R}$ 也稍微增大。
在多步迭代后， $\bar{R}$ 将逐渐收敛到一个与策略性能相关的平均奖励水平，Q值在数值上会更集中于“相对奖励”的范围，不会因为大常数奖励或 $\gamma$ 高而无限膨胀。