FIPO粗读笔记

张开发

• 2026/6/5 21:20:20 • 15 分钟阅读

分享文章

Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs来自 arxiv.org/abs/2603.22446从介绍看没比之前二八开那篇多多少认知感觉是描述类似的事情On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation来自https://arxiv.org/pdf/2603.22117不训练只在推理时增强关键 Token 的信号准确率就能原地起飞朝着delta logp的方向优化“Oops Moment”多于“Aha Moment ”来自 https://qwen-pilot.notion.site/rlvr-secrets在长序列推理中模型常常已经推导出了正确答案却由于冗余的自我反思而将其推翻。这种破坏性的 “Oops”时刻发生的频率比自我纠正的 “Aha”时刻高出 3 倍。罪魁祸首标准 RL如 GRPO中采用的粗粒度信用分配 (Credit Assignment)它将奖励简单地平均分配给了整个推理链。FIFOFIFO更像是把第二篇delta logp的观察做了一个实现参考文档https://www.xiaohongshu.com/explore/69cb69d6000000001a0210a5?xsec_tokenAB1kvdAVJl18j38Zk-jR5z74EhvitE7IC26Sve-MjZZq8xsec_sourcepc_user

FIPO粗读笔记

最新文章

别再为SaaS多租户数据隔离头疼了！用MyBatis-Plus Dynamic-Datasource 3.3.1，5分钟搞定SpringBoot多数据库切换

2026届毕业生推荐的降AI率方案推荐

Real-Anime-Z部署教程：Linux服务器一键拉起7860端口WebUI服务

2026届毕业生推荐的十大降AI率工具解析与推荐

告别杂乱点云：PCDViewer地面滤波与智能标注功能详解（附城区车载点云处理实例）

#VCS# 编译选项+vcs+initreg+random实战解析：从后仿困境到高效验证

推荐文章

相关文章

分享文章

更多文章

SL4013 替代 MP1517 2.7~25V 宽压升压芯片

MQ 学习笔记

使用Qt开发跨平台SDMatte桌面应用：从原型到发布

从零搭建Docker+Gitlab+Jenkins全链路CI/CD实战指南

告别AT串口线！用STM32F407的USB FS口直连EC800M进行物联网通信

从硬件电路到软件配置：深入理解STM32 ADC采集精度，GPIO_Analog模式为何是第一步？

3大核心突破+：noTunes革新路线图深度解析

视频监控轨迹分析系统在零售业的应用：5个提升顾客体验的实际案例

semi-utils：摄影师的EXIF水印自动化工具——从效率提升到专业呈现

OpenClaw+千问3.5-9B：个人财务自动化分析

如何利用G4S Linker技术实现抗体片段的高效连接与功能优化？

对俄跨境电商AI工具二选一？Captain AI与RusReview AI功能优劣分析