FIPO粗读笔记

张开发
2026/6/5 21:20:20 15 分钟阅读
FIPO粗读笔记
Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs来自 arxiv.org/abs/2603.22446从介绍看没比之前二八开那篇多多少认知感觉是描述类似的事情On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation来自https://arxiv.org/pdf/2603.22117不训练只在推理时增强关键 Token 的信号准确率就能原地起飞朝着delta logp的方向优化“Oops Moment”多于“Aha Moment ”来自 https://qwen-pilot.notion.site/rlvr-secrets在长序列推理中模型常常已经推导出了正确答案却由于冗余的自我反思而将其推翻。这种破坏性的 “Oops”时刻发生的频率比自我纠正的 “Aha”时刻高出 3 倍。罪魁祸首 标准 RL如 GRPO中采用的粗粒度信用分配 (Credit Assignment)它将奖励简单地平均分配给了整个推理链。FIFOFIFO更像是把第二篇delta logp的观察做了一个实现参考文档https://www.xiaohongshu.com/explore/69cb69d6000000001a0210a5?xsec_tokenAB1kvdAVJl18j38Zk-jR5z74EhvitE7IC26Sve-MjZZq8xsec_sourcepc_user

更多文章