2025_NIPS_Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?

张开发

• 2026/6/5 17:13:30 • 15 分钟阅读

分享文章

2025_NIPS_Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?

文章主要内容与创新点总结一、主要内容本文聚焦多模态大型语言模型（Multi-modal LLMs）在实时交互式分步任务指导中的应用缺口，以烹饪场景为切入点，完成了以下核心工作：提出基准数据集：基于CaptainCook4D数据集扩展构建Qualcomm Interactive Cooking数据集与基准，包含带时间戳的详细指令、成功反馈及错误警报，覆盖用户执行任务时的各类错误场景（如操作顺序错误、用量偏差等），分为Main Set（用户基本遵循指令）和Advanced Planning Set（用户偏离指令序列），提供了94小时标注数据。设计专用模型LIVEMAMBA：一款轻量级流式多模态LLM，专为交互式指导任务设计。架构包含InternViT视觉编码器、Q-Former令牌压缩模块、Mamba-130M语言骨干网络，具备“何时发声”机制（通过和令牌实现实时响应）、迭代重规划模块（应对用户偏离指令场景）及数据增强策略（时间抖动、指令完成增强、反事实错误增强）。全面评估验证：在Qualcomm Interactive Cooking基准上对现有主流多模态LLM（如LLaVA-NeXT、Qwen2.5-VL-7B等）进行零样本评估，同时验证LIVEMAMBA的性能。通过流式评估和回合制评估两种方式，从指令完成准确率、错误检测精度/召回率、反馈流畅度等维度验证，结果显示LIVEMAMBA显著优于现有模型。二、创新点

2025_NIPS_Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?

最新文章

别再为SaaS多租户数据隔离头疼了！用MyBatis-Plus Dynamic-Datasource 3.3.1，5分钟搞定SpringBoot多数据库切换

2026届毕业生推荐的降AI率方案推荐

Real-Anime-Z部署教程：Linux服务器一键拉起7860端口WebUI服务

2026届毕业生推荐的十大降AI率工具解析与推荐

告别杂乱点云：PCDViewer地面滤波与智能标注功能详解（附城区车载点云处理实例）

#VCS# 编译选项+vcs+initreg+random实战解析：从后仿困境到高效验证

推荐文章

相关文章

分享文章

更多文章

MedGemma 1.5可部署方案：中小企业医学知识管理系统的低成本AI底座构建

【蓝牙实战指南】nRF52832+Keil5 烧录与调试全解析

YOLO12入门必看：位置感知器与FlashAttention推理加速原理图解

Qwen3-14B助力VMware虚拟机环境搭建：自动生成Ubuntu系统初始化清单

普林斯顿大学破解立体视觉新密码

Phi-4-mini-reasoning助力C语言项目：代码逻辑分析与缺陷检测

千问3.5-2B效果实测：10类行业图（金融/医疗/制造/教育/零售）场景理解准确率对比

短视频 SEO 推广与其他营销方式的结合有什么技巧

SEO_从零开始，手把手教你制定SEO执行计划

LLM推理引擎：主流框架深度解析与选型指南

智能眼镜开发新选择：AIGlasses OS Pro 四大模式解决实际痛点

提升开发效率：用快马生成即拿即用的排列组合工具函数库