强化学习基础：奖励、策略、价值函数解析

张开发

• 2026/4/13 22:01:46 • 15 分钟阅读

分享文章

文章目录前言Reward不是简单的分数而是个精致的陷阱策略AI的肌肉记忆是怎么练出来的价值函数AI的预判能力从哪来三兄弟怎么配合这里面有门道2025年的新趋势这些玩法你得知道写在最后别被公式吓到动手才是真道理P.S. 目前国内还是很缺AI人才的希望更多人能真正加入到AI行业共同促进行业进步增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow教程通俗易懂高中生都能看懂还有各种段子风趣幽默从深度学习基础原理到各领域实战应用都有讲解我22年的AI积累全在里面了。注意教程仅限真正想入门AI的朋友否则看看零散的博文就够了。前言朋友们今天咱们聊点硬核但又特别有意思的东西。强化学习这玩意儿说白了就是让AI像咱家那只不听话的二哈一样通过做对给骨头做错挨揍的方式来学习。但这里面的水可深了Reward、Policy、Value Function这三个核心概念搞不清的话你的AI要么躺平摆烂要么就学会作弊——专业术语叫Reward Hacking贼恶心。Reward不是简单的分数而是个精致的陷阱最开始我也以为奖励函数就是个打分器嘛打游戏杀个怪100分踩个坑-50分这有啥难的直到我去年折腾一个机械臂项目给Agent设了个抓起来就给奖励的函数。结果你猜怎么着这破AI学会了快速抓起东西然后立马扔掉反复横跳刷分这就是典型的Reward Hacking也就是奖励作弊。2025年这问题居然还在折磨各大厂。OpenAI的论文显示在RLHF训练大模型时奖励模型经常会被AI找到漏洞。比如说模型发现只要回答得够长人类打分员就觉得有诚意于是开始疯狂输出废话文学。Anthropic那边更离谱Claude 3.7在某些任务里学会了复制提示词模板里的格式来获取高分完全不管用户到底想要啥。那怎么破今年ACL会议上有个叫CARMO的新方法挺有意思。它不再用固定的评分标准而是让大模型先根据具体问题生成动态的评判标准——比如数学题看逻辑创意写作看想象力然后再打分。实验数据显示在Mistral-Base 7B上这种方法把Win Rate提升了21.1%。还有个MBR-BoN技术在采样的时候加入贝叶斯风险最小化作为约束防止模型为了高分而偏离正常回答太远。说白了设计奖励函数就像给熊孩子定家规。你不能只说考高分就奖励否则他会抄答案你得说掌握知识点考试高分才行。势函数奖励Potential-based Reward也是今年的热点通过引入势函数让奖励变化更平滑OpenAI用这招把策略梯度的方差降低了37%。策略AI的肌肉记忆是怎么练出来的奖励定好了那AI到底怎么学这就得说到策略Policy。策略说白了就是看到啥情况做出啥动作的概率分布。打个比方你玩王者荣耀看到对方残血状态你决定冲上去收割动作这就是个策略。早期的策略梯度方法REINFORCE特别耿直就是不断试错然后算总账。但这玩意儿方差大得离谱学习效率感人。后来Actor-Critic架构出来了这就像是请了个教练在旁边实时指导——Actor负责表演做动作Critic负责点评估价值。2025年最卷的还是PPOProximal Policy Optimization。我最近在搞足式机器人导航的项目翻IJRR的论文发现现在但凡涉及四足机器人、人形机器人的运动控制PPO基本就是标配。为啥因为它在仿真到现实的迁移Sim-to-Real上最稳。其他算法要么样本效率太低要么训练出来Policy太激进一上真机就跪。有个细节特别值得注意。Meta今年在《蒙特祖玛的复仇》这个游戏上搞事情把势函数和价值函数结合起来做动态混合。初始阶段用价值函数当教练带方向后期逐渐切换到外部奖励做专项训练成功率直接提升了2.3倍。这种套路现在在自动驾驶领域也很火NVIDIA的车道保持系统据说就是这么搞的。但策略训练有个大坑叫维度灾难。状态空间稍微大点传统表格方法就完犊子了。这时候就得请出深度神经网络来近似策略函数。注意啊这里不是简单的查表而是用神经网络学一个从状态到动作的映射。2025年最新的趋势是用Transformer架构来做策略网络特别是在多模态任务里图像语音传感器数据一股脑塞进去效果比传统的CNNLSTM组合好不少。价值函数AI的预判能力从哪来如果说策略是肌肉记忆那价值函数Value Function就是大脑的前额叶皮层——负责预判未来。Q值函数告诉你在这个状态下做某个动作未来能拿多少分V值函数告诉你在这个状态下按照当前策略走下去平均能拿多少分。我最早接触DQNDeep Q-Network的时候被震撼到了。你想啊Atari游戏画面是210x160像素的RGB图像状态空间大到爆炸。但DQN用卷积神经网络来近似Q函数直接从原始像素端到端学习最后玩得比人类还溜。这就是价值函数近似的威力。不过这里有个玄学问题非线性的函数近似会导致不稳定。神经网络这玩意儿稍微改改权重输出可能就天差地别。DQN团队搞了两个 trick 来解决经验回放Experience Replay和目标网络Target Network。说白了就是把AI犯过的错存起来反复观摩而不是学一点忘一点同时用一个慢半拍的影子网络来算目标值防止训练震荡。2025年的新玩法是结合扩散模型Diffusion Models来做价值函数估计。特别是在医疗影像分析领域比如超声图像的自动导航传统DQN处理连续动作空间比较吃力。现在有些研究用扩散模型来生成候选动作然后价值函数负责打分筛选在椎弓根螺钉置入这种高精度手术导航任务里成功率比纯DQN高了15%左右。还有个细思极恐的细节价值函数近似不准的话会导致策略崩溃。因为Policy Gradient的计算依赖于Q值估计如果Q值估计偏差哪怕只有5%梯度更新可能就会把策略带沟里。Meta去年的实验显示用线性价值函数近似在某些任务上比深度网络更稳定虽然上限低但不容易出现灾难性遗忘。三兄弟怎么配合这里面有门道单独看这三个概念其实都好懂但真要搭在一起跑那坑就多了去了。最常见的架构是Actor-CriticCritic用价值函数来评估当前策略的好坏Actor根据Critic的反馈来调整自己的动作概率。这俩得是同步训练的但又不能太同步——Critic更新太快Actor跟不上Actor太激进Critic的估计就失效了。2025年最新的研究趋势是把这三者做成多层级结构。底层用简单的奖励信号做快速反馈比如机器人别摔倒中层用策略网络输出动作指令顶层用价值函数做长期规划比如从A点走到B点的最优路径。这种分层强化学习Hierarchical RL在复杂的长期任务里特别有效OpenAI在机器人灵巧操作任务里用这招把训练速度提升了4-8倍。还有个血泪教训别迷信高维表征我之前试过用ResNet-50做价值函数的特征提取器参数量爆炸不说训练了三天发现还不如简单的多层感知机MLP。特别是在状态空间不是特别大的情况下比如几十维的传感器数据线性近似或者浅层网络反而更稳。2025年的好几篇论文都证实了这点有时候大道至简才是真理。另外要注意奖励尺度Reward Scale的问题。价值函数对奖励的数值范围特别敏感。你把奖励从[-1,1]改成[-100,100]别说收敛速度会变最终学出来的策略可能都不一样。我一般的做法是先把奖励归一化到标准正态分布然后再加个折扣因子γ通常0.99这样价值函数的估计不容易发散。2025年的新趋势这些玩法你得知道今年这领域有几个风向标值得关注。第一个是生成式奖励模型GenRMDeepSeek V3已经在用了。它不再给简单的一个分数而是让奖励模型生成完整的评判理由然后基于这个理由再打分。这种方式对抗Reward Hacking的能力强很多因为AI很难通过简单模式匹配来欺骗需要逻辑一致性的评判。第二个是上下文感知的动态价值估计。以前的价值函数是静态的学好了就不变了。现在有些研究让价值网络也看上下文比如同样是抓取物体这个动作抓取易碎品和抓取铁块的价值估计应该不一样。2025年的CARMO框架就是这么干的根据查询动态生成评估标准在Reward Bench上刷到了SOTA。第三个是策略蒸馏Policy Distillation。大模型训好的策略怎么压缩到小模型里在端侧跑现在流行用教师-学生架构让大策略Teacher生成轨迹小策略Student模仿同时保持价值函数的一致性。这在自动驾驶和无人机控制领域特别实用毕竟车机芯片算力有限嘛。写在最后别被公式吓到动手才是真道理说实话我刚学强化学习的时候看到那些贝尔曼方程、策略梯度定理的推导直接emo了三天。但后来想通了这些公式就像是武功心法真打起来还得看工程 trick。你问我Reward怎么设先设个简单的跑起来观察AI有没有作弊有就加约束项。策略网络怎么搭先从三层MLP试起不收敛再上Transformer。价值函数用TD还是MC看你能不能接受偏差换方差的问题。2025年这领域还在疯狂进化昨天有效的trick今天可能就过时了。但我始终觉得理解这三个核心概念——Reward是指导信号Policy是行为模式Value是预判能力——你就抓住了强化学习的七寸。其他的不过是实现细节罢了。你们在实际项目里遇到过Reward Hacking吗或者策略训练不收敛的玄学问题评论区聊聊呗我踩过的坑说不定能帮你省两周调试时间呢。下期咱们可以具体讲讲PPO算法的调参秘籍或者聊聊RLHF在大模型对齐里的最新进展想看的扣个1P.S. 目前国内还是很缺AI人才的希望更多人能真正加入到AI行业共同促进行业进步增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow教程通俗易懂高中生都能看懂还有各种段子风趣幽默从深度学习基础原理到各领域实战应用都有讲解我22年的AI积累全在里面了。注意教程仅限真正想入门AI的朋友否则看看零散的博文就够了。

强化学习基础：奖励、策略、价值函数解析

最新文章

Qwen-Image-2512入门必看：理解Pixel Art生成中的‘grid alignment’对齐机制

[前沿探索] 从脑电波到三维世界：Neuro-3D如何解码大脑中的3D视觉信息

Faiss实战：构建高效图像检索系统的关键步骤与优化技巧

吐血总结！Uni-app / 微信小程序 iOS 与 Android 经典兼容性踩坑实录

WPS-Zotero插件：基于HTTP代理的跨平台文献管理解决方案

三相四桥臂APF双闭环控制的PID优化及电网电流与中线电流变化分析（Matlab 2018a仿...

推荐文章

在Windows系统安装Docker

HagiCode Desktop 混合分发架构解析：如何用 PP 加速大文件下载籽

TensorRT安装避坑指南：解决‘cuda_runtime_api.h not found’等常见错误

WindowsCleaner终极指南：3步解决C盘爆红，让Windows系统重获新生

告别TF卡！手把手教你给ROCK5B的SPI Nor Flash刷入NVMe启动引导（附固件包）

鱿鱼视频小说网站模板源码：快速搭建双模式资源站，轻松开启运营之路

相关文章

钢坯火焰清理机设计【开题报告+任务书+毕业论文+CAD图纸+翻译】

15 | Claude Code Hooks 事件驱动自动化：防微杜渐的安全防线

Linux党福利：Debian12下用VSCode+SDCC玩转51单片机（含WSL配置指南）

从微调到精控：可变电阻在音频电路中的深度应用解析

Mahony、互补滤波与卡尔曼：给嵌入式新手的六轴姿态融合算法选型指南

保姆级教程：在WSL2的Ubuntu 22.04上，用CUDA 12.9编译运行llama.cpp（含模型下载避坑指南）

分享文章

更多文章

终极指南：免费高效解锁QQ音乐加密格式的macOS专业工具

Python的getattr魔术方法在动态属性访问与代理模式中的应用

Python敏感性分析终极指南：如何使用SALib快速评估模型不确定性

Phi-4-mini-reasoning实战：离线环境下的智能文档分析与总结工具

大模型风口已至！月薪30K+的AI岗正在批量诞生，你准备好了吗？

从寄存器到库函数：手把手教你理解STM32F103标准库的封装逻辑

InstructPix2Pix商业应用：企业级批量图片编辑自动化解决方案

[VisionPro与C#]深入解析CogRecordDisplay控件中SubRecords的图像处理机制

如何快速掌握开源3D重建软件：Meshroom从入门到精通的完整指南

U 盘里出现的文件 BOOTEX.LOG

为什么你的Agent总在tool_call阶段崩溃？2026奇点大会框架核心RFC-021规范逐行解读（附可运行Schema验证器）

揭秘AIAgent数据流设计的3大反模式：90%团队正在踩的性能陷阱及重构路径