arXiv论文周选 (2026-W13)

张开发

• 2026/6/9 2:54:57 • 15 分钟阅读

分享文章

更新时间: 2026-03-31精选论文用EasyRader可全文翻译、生成结构化导读、思维导图节省80%阅读时间 →现在下载开启高效科研阅读新体验EasyReader论文阅读 - 易读论文阅读科研文献翻译学科: cs.* (计算机科学)本周综述本周 CS 领域成果丰硕重点聚焦于多模态大模型的细粒度理解、视频表示学习中的一致性平衡以及机器遗忘Machine Unlearning中复杂的数据纠缠问题。这些研究均被 CVPR 或 ICLR 等顶会接收展现了极高的学术质量和应用潜力。From Static to Dynamic: Exploring Self-supervised Image-to-Video Representation Transfer Learning分数: 7 论文链接近期研究在视频表示学习方面取得了显著进展主要通过将图像预训练模型转移到视频任务并通常伴随复杂的临时模块和视频微调。然而微调重型模块可能会损害视频间的语义可分离性即区分跨视频对象的核心能力而减少可调参数又会阻碍视频内的时序一致性。针对这一困境我们提出了一致性-可分离性权衡迁移学习Co-Settle框架。该框架在冻结的图像预训练编码器之上应用轻量级投影层通过时序循环一致性目标和语义可分离性约束来调整表示空间。实验表明该方法仅需 5 个 Epoch 的自监督训练就能在 8 个图像预训练模型上实现持续的性能提升。MA-Bench: Towards Fine-grained Micro-Action Understanding分数: 7 论文链接随着多模态大语言模型MLLM的快速发展其在微表情/微动作Micro-Action理解人类情绪分析的关键方面的潜力因缺乏专业基准而尚未被探索。为此我们推出了 MA-Bench包含 1,000 个视频和三层评估架构涵盖感知、关系理解和解释性推理。该基准包含 1.2 万个结构化问答对。对 23 个代表性 MLLM 的评估显示目前模型在捕获动作颗粒度和细粒度身体部位动态方面存在巨大挑战。为此我们进一步构建了包含 2.05 万个视频的 MA-Bench-Train 数据集进行微调。实验证明经过微调的 Qwen3-VL-8B 在微动作推理任务上表现出明显进步。Machine Unlearning under Retain-Forget Entanglement分数: 4 论文链接在机器遗忘中删除特定子集往往不是孤立的任务。由于预训练的相关特征或语义相似性与遗忘集密切相关的保留样本往往会受到误伤。本文提出了一个新颖的两阶段优化框架来处理这种保留-遗忘纠缠。第一阶段使用增广拉格朗日方法增加遗忘集的损失同时保留无关样本的准确性。第二阶段应用由 Wasserstein-2 距离正则化的梯度投影步骤以减轻语义相关保留样本的性能下降。在多个基准数据集上的实验证明该方法在保持准确性和删除保真度方面均优于现有基准。学科: eess.* (电气工程与系统科学)本周综述音频处理领域迎来了视听融合的新突破。研究者首次将电影音频分离任务扩展到多模态维度利用视觉线索辅助音频解耦为影视修复和后期制作提供了全新的技术路径。Cinematic Audio Source Separation Using Visual Cues分数: 5 论文链接电影音频源分离CASS旨在将混合的电影音频分解为对白、音乐和音效。现有的 CASS 方法多为纯音频模式忽略了电影固有的视听结合特性。我们提出了首个视听 CASS 框架AV-CASS利用视觉上下文增强分离质量。我们将 CASS 建模为基于条件流匹配Conditional Flow Matching的生成模型问题。为了解决缺乏孤立音轨的电影数据集问题我们设计了合成数据管道将野外音视频流配对并设计了专用的双流视觉编码器。该模型完全在合成数据上训练能有效泛化至真实电影内容并在多个基准测试中取得强劲性能。学科: q-bio.* (定量生物学)本周综述生物学领域本周聚焦于高精度脑动态建模。通过融合 EEG 的高时间分辨率与 fMRI 的高空间分辨率AI 技术正助力科学家实现更精准的脑活动重建这对于神经科学研究和视觉解码具有重要意义。Modeling Spatiotemporal Neural Frames for High Resolution Brain Dynamic分数: 3 论文链接捕捉动态时空神经活动对于理解大规模脑机制至关重要。fMRI 虽然空间分辨率高但采集成本昂贵EEG 则能提供毫秒级的时序线索。我们提出了一种以 EEG 为条件的框架将动态 fMRI 重建为具有高空间保真度和强时序相干性的连续神经序列。为了解决 fMRI 采集中的采样不规则问题我们引入了零空间中间帧重建实现了任意中间帧的测量一致性补全。在 CineBrain 数据集上的实验表明该方法在全脑和特定功能区域的重建质量优异支持下游的视觉解码任务为从 EEG 估计高分辨率 fMRI 动态开辟了新途径。学科: stat.* (统计学)本周综述统计学领域在处理高维分类特征方面取得了理论与算法的双重突破。新提出的估计方法通过模型压缩同时解决了聚类与稀疏性问题并获得了顶级期刊 JRSSB 的认可。Modeling with Categorical Features via Exact Fusion and Sparsity Regularisation分数: 3 论文链接我们研究了具有多层级分类预测变量的高维线性回归问题。我们提出了一种新的估计方法通过两种机制执行模型压缩同时鼓励回归系数的聚类以合并某些分类层级和回归系数的稀疏性。我们为该估计量设计了新的混合整数规划公式并开发了定制的行生成程序以加速求解。此外我们还提出了一种基于块坐标下降的快速近似算法。通过对合成和真实数据集的数值实验证明了该估计量在预测和聚类恢复性能上均优于现有最优技术。现在下载开启高效科研阅读新体验EasyReader论文阅读 - 易读论文阅读科研文献翻译

arXiv论文周选 (2026-W13)

最新文章

别再为SaaS多租户数据隔离头疼了！用MyBatis-Plus Dynamic-Datasource 3.3.1，5分钟搞定SpringBoot多数据库切换

2026届毕业生推荐的降AI率方案推荐

Real-Anime-Z部署教程：Linux服务器一键拉起7860端口WebUI服务

2026届毕业生推荐的十大降AI率工具解析与推荐

告别杂乱点云：PCDViewer地面滤波与智能标注功能详解（附城区车载点云处理实例）

#VCS# 编译选项+vcs+initreg+random实战解析：从后仿困境到高效验证

推荐文章

相关文章

分享文章

更多文章

Voohu：电流互感器在电能计量中的选型与精度控制

ros2 跟着官方教学从零开始自定义消息数据接口2

嵌入式设备WiFi配网技术解析与实战

Nomic-Embed-Text-V2-MoE实战：基于卷积神经网络（CNN）的图文多模态检索

智能票务助手：自动化购票系统的技术实现与实战指南

SIP信令服务器开发心得-信令字段与SDP来源——平台、设备、媒体服务易混淆点

YOLOv8 Face革新性人脸检测实战指南：从技术原理到生产部署

AUC 的两种等价定义：从排序概率到 ROC 曲线的统一理解

C#项目数据存储方案纠结？试试用SqlSugar+JSON设计一个超灵活的通用存储接口（附SQLite/MySQL配置）

别再混淆了！一文搞懂MATLAB中窄带、宽带与全频带信号仿真的区别与联系

XianyuAutoAgent智能客服解决方案：让AI帮你实现7×24小时自动化值守

WT588D语音芯片模块的多样化控制接口与音频输出方案解析