Q 值与状态值

张开发

• 2026/4/11 4:19:40 • 15 分钟阅读

分享文章

在强化学习里状态 - 动作值一般指Q 值Q-value全称是状态 - 动作价值函数State-Action Value Function记作Q(s,a)1. 直观含义s当前状态a在这个状态下采取的动作Q(s,a) 表示在状态 s下选择动作 a之后未来能获得的累积期望回报。简单说在这个状态下做这个动作到底有多 “值”。2. 与状态价值函数 V (s) 的区别状态价值 V(s)只看状态不看动作表示 “在状态 s 下我接下来按策略走总体有多好”。V (s) 由 Q (s,a) 平均而来在策略πππ下Vπ(s)Ea∼π(⋅∣s)[Qπ(s,a)]∑a∈Aπ(a∣s)Qπ(s,a)V_π(s)\mathbb E_{a∼π(⋅∣s)}[Q_π(s,a)]\sum_{a\in\mathcal{A}}\pi(a|s)Q_π(s,a)Vπ(s)Ea∼π(⋅∣s)[Qπ(s,a)]∑a∈Aπ(a∣s)Qπ(s,a)这就是书上2.16式即状态价值该状态下所有动作的 Q 值按策略概率加权平均在状态 s策略会以不同概率选不同动作V (s) 就是这些动作 Q 值的平均。作用评价当前状态好坏做策略评估policy evaluation辅助计算优势函数 A (s,a) Q (s,a) - V (s)状态 - 动作价值 Q(s,a)同时看状态动作表示 “在状态 s 下选动作 a这件事本身有多好”。Q (s,a) 由 V (s’) 递推而来Qπ(s,a)E[rγVπ(s′)]∑r∈Rp(r∣s,a)rγ∑s′∈Sp(s′∣s,a)vπ(s′)Q_π(s,a)\mathbb E[rγV_π(s′)]\sum_{r\in\mathcal{R}}p(r|s,a)rγ\sum_{s\in\mathcal{S}}p(s|s,a)v_\pi(s)Qπ(s,a)E[rγVπ(s′)]∑r∈Rp(r∣s,a)rγ∑s′∈Sp(s′∣s,a)vπ(s′)这就是书上2.17式书上更严谨即动作价值即时奖励下一状态的状态价值折扣后状态 - 动作值 Q(s,a) 就是在当前状态下选这个动作的长期收益打分。作用直接选动作选 Q 值最大的动作就是最优策略Q-learning、DQN、Sarsa 核心都是学 Q是强化学习中最常用、最实用的价值3. 贝尔曼方程核心公式状态 - 动作值满足递归关系Q(s,a)E[rγmax⁡a′Q(s′,a′)]Q(s,a)\mathbb E[rγ\max_{a′}Q(s′,a′)]Q(s,a)E[rγmaxa′Q(s′,a′)]含义立刻得到奖励 r加上折扣后的下一状态最优动作价值 γmaxQ(s′,a′)贝尔曼方程某个价值即时奖励折扣 × 下一个价值对比项V(s) 的贝尔曼方程Q(s,a) 的贝尔曼方程左边主体状态 s还没选动作状态 - 动作对 (s,a)已经选了动作 a期望 E 的对象对动作 a和下一状态 s′双重期望只对下一状态 s′单重期望动作 a 的角色随机变量由策略 π 决定确定值已知、固定物理意义状态 s 的平均未来价值状态 s 下选动作 a 这个具体选择的未来价值与策略的关系依赖策略 π选动作的方式依赖策略 π用于计算 V(s′)但动作 a 独立于策略

Q 值与状态值

最新文章

像素幻梦惊艳效果：FLUX.1-dev生成带动态粒子效果的像素UI交互动画

免费QQ截图工具独立版：3分钟快速上手与高效使用终极指南

qmcdump：解锁QQ音乐加密音频的魔法钥匙

Autovisor终极指南：5分钟搞定智慧树刷课，解放你的宝贵时间

小米R3G路由器刷Pandavan固件后，如何低成本实现家庭网络打印机共享（附详细配置步骤）

M5146-C2234E-250BG压力传感器测量误差如何补偿

推荐文章

【2026年最新600套毕设项目分享】springboot宠物店管理系统（14327）

Arduino串口命令解析库SerialCommands原理与实战

STM32驱动SIM800C的硬件抽象层设计与实现

CSS 混合模式：创造视觉层次的艺术

Pixels Dice BLE接口库：ESP32上的同步轮询式Arduino驱动

LSM6DSOX惯性传感器：MLC边缘智能与高精度IMU设计指南

相关文章

钢坯火焰清理机设计【开题报告+任务书+毕业论文+CAD图纸+翻译】

15 | Claude Code Hooks 事件驱动自动化：防微杜渐的安全防线

Linux党福利：Debian12下用VSCode+SDCC玩转51单片机（含WSL配置指南）

从微调到精控：可变电阻在音频电路中的深度应用解析

Mahony、互补滤波与卡尔曼：给嵌入式新手的六轴姿态融合算法选型指南

保姆级教程：在WSL2的Ubuntu 22.04上，用CUDA 12.9编译运行llama.cpp（含模型下载避坑指南）

分享文章

更多文章

Photon Matrix激光灭蚊系统深度技术剖析：从理论到工程实现

超详细教程：转移MySQL的数据文件位置

华为OD机试真题新系统2026-04-08 PythonJS 实现【准备生日礼物】

思摩尔第一季营收38.6亿：同比增42% 全面收益总额1.3亿降39%

腾讯地图自定义瓦片地图开发实战：从坐标定位到图层融合

别再只盯着JVM了！实战配置JMX Exporter精准抓取Tomcat连接池与业务MBean（附避坑清单）

EtherCAT实战指南（一）之Ubuntu14.04环境搭建与实时补丁集成

超级千问语音设计世界应用案例：快速生成短视频配音与游戏角色语音

Gophish实战指南：从零构建邮件钓鱼实验环境

lite-avatar形象库新手教程：零基础完成数字人预览→下载→配置→对话全流程

FireRedASR-AED-L效果惊艳：中英术语缩写（如IoT、SaaS、CRM）精准识别

PlugY插件终极指南：暗黑破坏神2单机增强神器快速上手