Q 值与状态值

张开发
2026/4/11 4:19:40 15 分钟阅读

分享文章

Q 值与状态值
在强化学习里状态 - 动作值一般指Q 值Q-value全称是状态 - 动作价值函数State-Action Value Function记作Q(s,a)1. 直观含义s当前状态a在这个状态下采取的动作Q(s,a) 表示在状态 s下选择动作 a之后未来能获得的累积期望回报。简单说在这个状态下做这个动作到底有多 “值”。2. 与状态价值函数 V (s) 的区别状态价值 V(s)只看状态不看动作表示 “在状态 s 下我接下来按策略走总体有多好”。V (s) 由 Q (s,a) 平均而来在策略πππ下Vπ(s)Ea∼π(⋅∣s)​[Qπ(s,a)]∑a∈Aπ(a∣s)Qπ(s,a)V_π(s)\mathbb E_{a∼π(⋅∣s)}​[Q_π(s,a)]\sum_{a\in\mathcal{A}}\pi(a|s)Q_π(s,a)Vπ​(s)Ea∼π(⋅∣s)​​[Qπ​(s,a)]∑a∈A​π(a∣s)Qπ​(s,a)这就是书上2.16式即状态价值 该状态下所有动作的 Q 值按策略概率加权平均在状态 s策略会以不同概率选不同动作V (s) 就是这些动作 Q 值的平均。作用评价当前状态好坏做策略评估policy evaluation辅助计算优势函数 A (s,a) Q (s,a) - V (s)状态 - 动作价值 Q(s,a)同时看状态 动作表示 “在状态 s 下选动作 a这件事本身有多好”。Q (s,a) 由 V (s’) 递推而来Qπ(s,a)E[rγVπ(s′)]∑r∈Rp(r∣s,a)rγ∑s′∈Sp(s′∣s,a)vπ(s′)Q_π(s,a)\mathbb E[rγV_π(s′)]\sum_{r\in\mathcal{R}}p(r|s,a)rγ\sum_{s\in\mathcal{S}}p(s|s,a)v_\pi(s)Qπ​(s,a)E[rγVπ​(s′)]∑r∈R​p(r∣s,a)rγ∑s′∈S​p(s′∣s,a)vπ​(s′)这就是书上2.17式书上更严谨即动作价值 即时奖励 下一状态的状态价值折扣后状态 - 动作值 Q(s,a) 就是在当前状态下选这个动作的长期收益打分。作用直接选动作选 Q 值最大的动作就是最优策略Q-learning、DQN、Sarsa 核心都是学 Q是强化学习中最常用、最实用的价值3. 贝尔曼方程核心公式状态 - 动作值满足递归关系Q(s,a)E[rγmax⁡a′​Q(s′,a′)]Q(s,a)\mathbb E[rγ\max_{a′}​Q(s′,a′)]Q(s,a)E[rγmaxa′​​Q(s′,a′)]含义立刻得到奖励 r加上折扣后的下一状态最优动作价值 γmaxQ(s′,a′)贝尔曼方程某个价值 即时奖励 折扣 × 下一个价值对比项V(s) 的贝尔曼方程Q(s,a) 的贝尔曼方程左边主体状态 s还没选动作状态 - 动作对 (s,a)已经选了动作 a期望 E 的对象对动作 a和下一状态 s′双重期望只对下一状态 s′单重期望动作 a 的角色随机变量由策略 π 决定确定值已知、固定物理意义状态 s 的平均未来价值状态 s 下选动作 a 这个具体选择的未来价值与策略的关系依赖策略 π选动作的方式依赖策略 π用于计算 V(s′)但动作 a 独立于策略

更多文章