2025_NIPS_Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?

张开发
2026/4/8 6:59:54 15 分钟阅读

分享文章

2025_NIPS_Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?
文章主要内容与创新点总结一、主要内容本文聚焦多模态大型语言模型(Multi-modal LLMs)在实时交互式分步任务指导中的应用缺口,以烹饪场景为切入点,完成了以下核心工作:提出基准数据集:基于CaptainCook4D数据集扩展构建Qualcomm Interactive Cooking数据集与基准,包含带时间戳的详细指令、成功反馈及错误警报,覆盖用户执行任务时的各类错误场景(如操作顺序错误、用量偏差等),分为Main Set(用户基本遵循指令)和Advanced Planning Set(用户偏离指令序列),提供了94小时标注数据。设计专用模型LIVEMAMBA:一款轻量级流式多模态LLM,专为交互式指导任务设计。架构包含InternViT视觉编码器、Q-Former令牌压缩模块、Mamba-130M语言骨干网络,具备“何时发声”机制(通过和令牌实现实时响应)、迭代重规划模块(应对用户偏离指令场景)及数据增强策略(时间抖动、指令完成增强、反事实错误增强)。全面评估验证:在Qualcomm Interactive Cooking基准上对现有主流多模态LLM(如LLaVA-NeXT、Qwen2.5-VL-7B等)进行零样本评估,同时验证LIVEMAMBA的性能。通过流式评估和回合制评估两种方式,从指令完成准确率、错误检测精度/召回率、反馈流畅度等维度验证,结果显示LIVEMAMBA显著优于现有模型。二、创新点

更多文章