大模型Prompt进阶:5种推理控制范式,小白也能轻松掌握并收藏!

张开发
2026/4/6 1:49:20 15 分钟阅读

分享文章

大模型Prompt进阶:5种推理控制范式,小白也能轻松掌握并收藏!
本文介绍了五种大模型推理与控制范式CoT、ReAct、Plan-then-Act、ToT、LATS并阐述了它们的核心思想、优缺点及适用场景。这些方法从单路径线性推理到多路径搜索智能体代表了大模型应用演进的路线图。文章强调根据任务需求选择合适的方法至关重要并建议初学者从CoT或ReAct入手逐步引入更复杂的规划与搜索机制以实现高效可靠的大模型任务控制。大模型应用发展到今天大家讨论的已经不只是“Prompt 怎么写”而是任务应该如何被组织是让模型一次性线性推理还是边想边调用工具还是先做高层规划还是直接把问题变成一棵搜索树CoT、ReAct、Plan-then-Act、ToT、LATS本质上就是五种不同的推理与控制范式。它们不是互斥关系而是沿着这样一条演化路线逐步展开的单路径推理 → 工具交互 → 显式规划 → 多路径搜索 → 搜索型智能体CoT强调显式中间推理ReAct把推理和行动交织起来Plan-then-Act把“规划”和“执行”拆开ToT允许同时探索多条思路并回溯LATS把推理、行动、规划统一到树搜索框架中怎么快速选型简单推理用 CoT动态工具调用用 ReAct长流程任务用 Plan-then-Act需要探索和回溯的难题用 ToT追求高成功率的复杂 Agent 环境任务再考虑 LATS。五种方法总览对比方法核心思想是否依赖工具是否显式规划是否多路径搜索是否支持回溯典型成本CoT让模型先写中间推理再给答案否否否否低ReAct推理与行动交替进行是弱否弱中Plan-then-Act先生成计划再按计划执行常见是是否部分支持中ToT把思路作为树节点进行搜索可选弱是是高LATS把推理、行动、规划统一进树搜索是是是是很高1. CoTChain-of-ThoughtCoTChain-of-Thought最早被系统化提出时[1]其核心思想是让模型不要直接给答案而是先生成一串中间推理步骤再得出最终结论。论文证明这种方式能够显著提升大模型在算术、常识和符号推理上的表现。CoT 的本质是单路径、线性的显式推理。它假设只要把“中间过程”展开模型就更容易走到正确答案。可以把它理解成输入问题 → 逐步推理 → 输出答案它没有工具调用、分支搜索、真正的回溯机制优点CoT 最大的优点是简单、便宜、容易落地如果任务本身不需要查外部信息也不需要复杂规划比如数学题、规则判断、文本抽取、单轮分析那么 CoT 往往已经够用。它几乎是所有“推理增强”方法里接入成本最低的一种。缺点它的问题也很明显只有一条思路一旦前面某一步走偏后面大概率一路错下去不会主动调用工具所以面对实时信息、数据库、搜索、代码执行时无能为力不会规划全局更像“边写边想”而不是“先看全局再落子”适合场景CoT 最适合单轮推理、不依赖外部工具、步骤可线性展开的问题、对时延和成本敏感的场景。代码实现# CoT 示例# 典型做法# 1. 给模型一个问题# 2. 提示它“请一步一步思考”# 3. 输出最终答案prompt 请一步一步分析这个问题并在最后给出最终答案{question}# response llm.invoke(prompt.format(questionquestion))2. ReActReason ActReAct 核心是把Reasoning推理和Acting行动结合起来模型不再只是“想”而是可以在推理过程中发起行动比如搜索、查询 API、调用工具再根据观察结果继续下一步推理。论文将其描述为一种把 reasoning 与 acting 协同起来的通用范式[2]并展示了在语言任务和决策任务上的效果ReAct 的本质是一个循环Thought → Action → Observation → Thought → Action → Observation ...也就是先想一下下一步该干什么调一个工具观察工具返回结果再决定下一步这让模型从“纯文本推理器”变成了“能和环境交互的 Agent”。优点ReAct 的最大价值在于它把模型从封闭世界拉进了开放世界。只要你的问题需要查信息、调 API、读数据库、执行代码ReAct 往往就是第一选择。它尤其适合信息不完整、必须边查边推的任务。缺点ReAct 的短板是它通常是局部贪心的。它每一步都在决定“下一步做什么”但未必有全局规划所以长任务里容易走弯路。另一个问题是如果每次工具调用前后都要一次大模型决策调用链一长成本和延迟都会上来。适合场景ReAct 最适合搜索问答、API 调用型 Agent、RAG 工具混合路由、客服、运维、数据查询等动态任务。ReAct 的关键突破不是“想得更深”而是“边想边做”。只要任务需要和外部环境交互它通常比纯 CoT 更实用。代码实现# ReAct 示例占位# 典型循环# Thought - Action - Observation - Thoughtwhile not done: thought llm.reason(state) action llm.choose_tool(thought, tools) observation run_tool(action) state.append((thought, action, observation))3. Plan-then-Act先规划再执行严格说“Plan-then-Act”不是一个单一专有名词而是一类先生成计划再按计划执行的方法。代表性的研究包括Plan-and-Solve Prompting[3]它把任务分成两阶段先把问题拆成子任务再逐步完成这些子任务LangChain / LangGraph 把这一思路发展成了Plan-and-Execute Agent架构。它的流程通常是Goal → Planner 生成计划 → Executor 执行步骤 → 必要时 Replan和 ReAct 的区别是ReAct更像“边走边看”Plan-then-Act更像“先画路线再开车”优点这种方式特别适合长流程、多子任务、目标明确。因为它先有一层高层规划所以比纯 ReAct 更容易做任务分解也更容易把大模型负责规划小模型负责执行这种组合方式落地。很多工程框架也把这类 Agent 定位成相较于旧式 Agent 设计更快、更便宜、更高效的一类方向。缺点它的问题在于计划可能过早固化。如果环境变化快、信息不完整初始计划很可能很快过时。于是你要么接受“计划不准”的问题要么引入replan机制而工程复杂度又会上升。适合场景Plan-then-Act 最适合长任务编排、多阶段数据处理、报告生成、复杂工作流自动化、工具很多但路径相对可规划的任务。当任务本身有明显阶段性、可拆解、可安排时Plan-then-Act 通常比 ReAct 更稳、更省。代码实现占位# Plan-then-Act 示例占位goal 完成季度经营分析报告plan planner_llm.invoke(f请为以下目标生成执行计划{goal})for step in parse_plan(plan): result executor.run(step) memory.append((step, result))# 如有必要# new_plan planner_llm.invoke(基于执行结果重新规划)4. ToTTree of ThoughtsToTTree of Thoughts可以看作 CoT 的推广版[4]。它的核心主张是不要只让模型沿着一条思路往前走而是把若干 thought 当成中间状态构造成一棵树允许模型探索多条路径、打分、前瞻、回溯再选择更优的路径继续。ToT 的核心不是“更长的思维链”而是搜索。它会做三件事生成多个候选 thought评估这些 thought 的好坏保留更优分支继续扩展必要时回溯所以它不再是一条链而是一棵树。优点当问题需要探索多个备选方案时ToT 很有价值。比如复杂规划、约束满足、策略推演、创意生成。这类任务常常不是“第一条路就对”而是需要试错比较回退ToT 正是为这种任务设计的。缺点它的代价也非常直接贵。分支一多调用数会指数膨胀而且它强依赖“评估器”质量——如果 thought 打分本身不可靠搜索就可能跑偏。ToT 的上限更高但工程成本也显著高于 CoT 和 ReAct。适合场景ToT 最适合数学 / 逻辑难题组合搜索需要回溯的推理创意生成与方案筛选ToT 的关键不是“想得更多”而是“允许多条路同时走并且能回头”。它适合那些天然需要试错和搜索的问题。代码实现# ToT 示例占位frontier [root_state]for depth in range(max_depth): candidates [] for node in frontier: thoughts generate_thoughts(node) scored [(t, evaluate_thought(t)) for t in thoughts] candidates.extend(expand(node, scored)) frontier select_top_k(candidates, kbeam_width)best_path choose_best(frontier)5. LATSLanguage Agent Tree SearchLATSLanguage Agent Tree Search可以理解为把 ReAct、规划和树搜索进一步统一起来。论文将其描述为第一个把[5]Reasoning、Acting、Planning融合到一起的通用框架并引入了Monte Carlo Tree SearchMCTS、LM-based value function、self-reflection来增强探索与决策。如果说 ToT 主要还是“思路搜索”那么 LATS 更像是Agent 轨迹搜索。它搜索的不只是 thought而是当前状态、可行动作、执行动作后的环境反馈、对整条轨迹的价值评估也就是说LATS 面向的是一个会调用工具、会和环境交互的 Agent而不只是一个“在纸上做题的推理器”。图5Overview of LATS. Serving as a unified framework, LATS leverages an external environment and an MCTS-based search algorithm to improve reasoning and decision-making优点LATS 的强项在于当任务既需要工具调用又需要长程规划还需要尝试多条执行轨迹时它能比单纯 ReAct 更有机会找到好路径。因为它不是只看“下一步”而是在做某种近似全局搜索。缺点它也是这五种方法里最重的一种你需要维护树结构做选择 / 扩展 / 评估 / 回传定义环境反馈设计价值函数所以它的工程复杂度、算力预算、调参难度都明显高于前面几种很多团队在真实业务中其实用不到完整 LATS而是只借鉴其中的思想多路径搜索轨迹评分自我反思适合场景LATS 更适合复杂 Web / Tool Agent长轨迹决策任务成功率比时延更重要的场景研究型 Agent 系统LATS 更像“带搜索能力的 Agent 大脑”。它不是默认首选但在复杂环境任务中有更高上限。代码实现# LATS / MCTS 风格示意占位for iteration in range(num_simulations): node select(root) # 选择 child expand(node) # 扩展 reward simulate(child) # 模拟 / 执行动作 backpropagate(child, reward) # 回传价值best_action choose_action(root)最后总结任务类型推荐方法简单线性推理CoT动态工具调用ReAct长流程任务编排Plan-then-Act需要探索和回溯的难题ToT复杂环境下追求高成功率的 AgentLATSCoT 是“顺着一条思路往下想”ReAct 是“边想边做”Plan-then-Act 是“先规划再执行”ToT 是“同时试多条路”LATS 是“把 Agent 放进搜索树里做全局决策”。大模型系统设计正在从“写一个更好的 Prompt”转向“设计一种更好的任务控制结构”。从 CoT 到 ReAct再到 Plan-then-Act、ToT、LATS本质上不是几个孤立的方法名而是我们在不断回答同一个问题如何让模型在更复杂、更真实的任务环境中做出更可靠的决策。如果你是在做业务落地通常不需要一步到位上最重的方案。大多数团队真正可行的路线往往是先用 CoT / ReAct 跑通再在关键场景引入 Planning、Search、Reflection。那么如何学习大模型 AI 对于刚入门大模型的小白或是想转型/进阶的程序员来说最头疼的就是找不到系统、全面的学习资源要么零散不成体系要么收费高昂白白浪费时间走弯路。今天就给大家精心整理了一份全面且免费的AI大模型学习资源包覆盖从入门到实战、从理论到面试的全流程所有资料均已整理完毕免费分享给各位核心包含AI大模型全套系统化学习路线图小白可直接照做、精品学习书籍电子文档、干货视频教程、可直接上手的实战项目源码、2026大厂面试真题题库一站式解决你的学习痛点不用再到处搜集拼凑扫码免费领取全部内容1、大模型系统化学习路线学习大模型方向比努力更重要很多小白入门就陷入“盲目看视频、乱刷资料”的误区最后越学越懵。这里给大家整理的这份学习路线是结合2026年大模型行业趋势和新手学习规律设计的最科学、最系统从零基础到精通每一步都有明确指引帮你节省80%的无效学习时间少走弯路、高效进阶。2、大模型学习书籍文档理论是实战的根基尤其是对于程序员来说想要真正吃透大模型原理离不开优质的书籍和文档支撑。本次整理的书籍和电子文档均由大模型领域顶尖专家、大厂技术大咖撰写涵盖基础入门、核心原理、进阶技巧等内容语言通俗易懂既有理论深度又贴合实战场景小白能看懂程序员能进阶为后续实战和面试打下坚实基础。3、AI大模型最新行业报告无论是小白了解行业、规划学习方向还是程序员转型、拓展业务边界都需要紧跟行业趋势。本次整理的2026最新大模型行业报告针对互联网、金融、医疗、工业等多个主流行业系统调研了大模型的应用现状、发展趋势、现存问题及潜在机会帮你清晰了解哪些行业更适合大模型落地哪些技术方向值得重点深耕避免盲目学习精准对接行业需求。值得一提的是报告还包含了多模态、AI Agent等前沿方向的发展分析助力大家把握技术风口。4、大模型项目实战配套源码对于程序员和想落地能力的小白来说“光说不练假把式”只有动手实战才能真正巩固所学知识将理论转化为实际能力。本次整理的实战项目涵盖基础应用、进阶开发、多场景落地等类型每个项目都附带完整源码和详细教程从简单的ChatPDF搭建到复杂的RAG系统开发、大模型部署难度由浅入深小白可逐步上手程序员可直接参考优化既能练手提升技术又能丰富简历为求职和职业发展加分。5、大模型大厂面试真题2026年大模型面试已从单纯考察原理转向侧重技术落地和业务结合的综合考察很多程序员和新手因为缺乏针对性准备明明技术不错却在面试中失利。为此我精心整理了各大厂最新大模型面试真题题库涵盖基础原理、Prompt工程、RAG系统、模型微调、部署优化等核心考点不仅有真题还附带详细解题思路和行业踩坑经验帮你精准把握面试重点提前做好准备面试时从容应对、游刃有余。6、四阶段精细化学习规划附时间节点可直接照做结合上述资源给大家整理了一份可直接落地的四阶段学习规划总时长约2个月小白可循序渐进程序员可根据自身基础调整节奏高效掌握大模型核心能力快速实现从“入门”到“能落地、能面试”的跨越。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章