Bluo Blog

arXiv cs.AI 周报 (20260308)

📚 共 795 篇论文 📅 时间范围: 2026年3月2日～ 2026年3月8日 🏷️ 分类: cs.AI

📊 研究方向热度分析

🤖 LLM Agents 227篇

大模型智能体持续保持最高热度，研究聚焦于多步推理、工具调用、自主决策等核心能力。

🎮 Reinforcement Learning 158篇

强化学习研究热度高涨，涵盖策略优化、安全RL、多任务学习等前沿方向。

Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task MBRL
Shaohuai Liu, Weirui Ye, Yilun Du, Le Xie
Tool Verification for Test-Time Reinforcement Learning
Ruotong Liao, Nikolai Röhrich, Xiaohan Wang et al.
Learning from Synthetic Data Improves Multi-hop Reasoning
Anmol Kabra, Yilun Yin, Albert Gong et al.
Boosting Deep RL using Pretraining with Logical Options
Zihan Ye, Phil Chau, Raban Emunds et al.

⚡ Efficiency & Optimization 183篇

效率优化研究热度攀升，关注量化、剪枝、推理加速等模型压缩与部署技术。

SageBwd: A Trainable Low-bit Attention
Jintao Zhang, Marco Chen, Haoxu Wang et al.
GPUTOK: GPU Accelerated Byte Level BPE Tokenization
Venu Gopal Kadamba, Kanishkha Jaisankar
DynaMoE: Dynamic Token-Level Expert Activation for MoE
Gökdeniz Gülmez
Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models
Qiyuan Zhang, Yufei Wang, Tianhe Wu et al.

🛡️ Safety & Alignment 151篇

安全与对齐研究备受关注，涵盖模型安全、隐私保护、对抗攻击防御等关键议题。

Explanation-Guided Adversarial Training for Robust and Interpretable Models
Chao Chen, Yanhui Chen, Shanshan Lin et al.
GMP: A Benchmark for Content Moderation under Co-occurring Violations
Houde Dong, Yifei She, Kai Ye et al.
Measuring AI R&D Automation
Alan Chan, Ranay Padarath, Joe Kwon et al.
How Controllable Are Large Language Models? A Unified Evaluation
Ziwen Xu, Kewei Xu, Haoming Xu et al.

📚 RAG & Memory 136篇

检索增强生成与记忆机制研究持续发展，关注动态索引、结构化存储、持续学习等。

GAM-RAG: Gain-Adaptive Memory for Evolving Retrieval
Yifan Wang, Mingxuan Jiang, Zhihao Sun et al.
Modular Memory is the Key to Continual Learning Agents
Vaggelis Dorovatas, Malte Schwerin, Andrew D. Bagdanov et al.
MetaState: Persistent Working Memory for Discrete Diffusion LLMs
Kejing Xia, Mingzhe Li, Lixuan Wei et al.
Odin: Multi-Signal Graph Intelligence for Autonomous Discovery
Muyukani Kizito, Elizabeth Nyambere

🦾 Robotics & Embodied AI 131篇

机器人与具身智能研究涵盖导航、操控、人机交互等关键应用场景。

Non-verbal Real-time Human-AI Interaction in Robotic Environments
Dragos Costea, Alina Marcu, Cristina Lazar et al.
Scaling Tasks: Mastering Humanoid Control through Multi-Task MBRL
Shaohuai Liu, Weirui Ye, Yilun Du, Le Xie
ATA: Bridging Implicit Reasoning for Vision-Language Action Models
Cheng Yang, Jianhao Jiao, Lingyi Huang et al.

👁️ Vision-Language Models 108篇

视觉语言模型研究持续活跃，关注多模态对齐、跨模态推理等关键问题。

CAPT: Confusion-Aware Prompt Tuning for Vision-Language Misalignment
Maoyuan Shao, Yutong Gao, Xinyang Huang et al.
ATA: Bridging Implicit Reasoning for Vision-Language Action Models
Cheng Yang, Jianhao Jiao, Lingyi Huang et al.
PhotoBench: Beyond Visual Matching for Personalized Photo Retrieval
Tianyi Xu, Rong Shan, Junjie Wu et al.

🏥 Medical AI 63篇

医疗AI研究涵盖影像诊断、病理分析、蛋白质功能预测等临床应用。

OpenRad: A Curated Repository of Open-access AI models for Radiology
Konstantinos Vrettos, Galini Papadaki et al.
ProtRLSearch: Multi-Round Multimodal Protein Search Agent
Congying Liu, Taihao Li, Ming Huang et al.
SUREON: A Benchmark and VLM for Surgical Reasoning
Alejandra Perez, Anita Rau, Lee White et al.

🎨 Diffusion Models 50篇

扩散模型研究涵盖离散扩散语言模型、逆向问题求解、运动规划等方向。

FAST-DIPS: Adjoint-Free Analytic Steps for Diffusion-Prior Inverse Problems
Minwoo Kim, Seunghyeok Shin, Hongki Lim
MetaState: Persistent Working Memory for Discrete Diffusion LLMs
Kejing Xia, Mingzhe Li, Lixuan Wei et al.

🔗 Graph Neural Networks 23篇

图神经网络研究关注可解释性、持续学习、异构图处理等核心问题。

Revealing Combinatorial Reasoning of GNNs via Graph Concept Bottleneck Layer
Yue Niu, Zhaokai Sun, Jiayi Yang et al.
FreeGNN: Continual Source-Free Graph Domain Adaptation
Abderaouf Bahi, Amel Ourici, Ibtissem Gasmi et al.
Causal Neural Probabilistic Circuits
Weixin Chen, Han Zhao

🔥 本周亮点论文

LiveAgentBench: Comprehensive Benchmarking of Agentic Systems Across 104 Real-World Challenges

Hao Li, Huan Wang, Jinjie Gu, Wenjie Wang, Chenyi Zhuang, Sikang Bian

随着大模型能力增强，通用AI智能体在实际应用中日益普及。本文提出LiveAgentBench，包含104个真实场景的综合基准测试，反映了真实用户需求。该基准测试从社交媒体和真实产品中公开获取问题构建，核心方法采用社会感知框架来模拟真实用户交互场景，为智能体系统评估提供了更贴近实际应用的测试环境。

LLM Agents Benchmark Real-World Evaluation

Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task Model-Based Reinforcement Learning

Shaohuai Liu, Weirui Ye, Yilun Du, Le Xie

开发能够掌握多种技能的通用机器人是具身智能的核心挑战。本文提出有效在线学习应该扩展任务数量而非每任务的样本量。这一范式揭示了基于模型的强化学习(MBRL)的结构优势——因为物理规律在任务间共享，动力学模型可以从所有任务中学习，实现更快的新任务适应。该方法在人形机器人控制任务上取得了显著突破。

Reinforcement Learning Robotics Multi-Task Learning

Modular Memory is the Key to Continual Learning Agents

Vaggelis Dorovatas, Malte Schwerin, Andrew D. Bagdanov et al.

基础模型通过大规模预训练和测试时计算提升性能，但在持续运行、经验积累和个性化方面仍存在根本限制。本文论证模块化记忆是实现持续学习智能体的关键。研究提出了从权重内学习(IWL)向权重外学习(OWL)范式的转变，即使用可扩展的外部存储来积累和检索经验，从而实现真正的自适应智能。

Continual Learning Memory Systems Foundation Models

SageBwd: A Trainable Low-bit Attention

Jintao Zhang, Marco Chen, Haoxu Wang, Kai Jiang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu

低比特注意力机制(如SageAttention)已成为加速模型推理的有效方法，但其在训练中的适用性仍未被充分理解。本文深入研究SageBwd训练过程中性能差距的原因，提出了一种可训练的INT8注意力机制，在量化七个注意力矩阵乘法中的六个的同时保持微调性能，为大规模模型训练效率优化提供了新思路。

Quantization Attention Mechanism Efficiency

Explanation-Guided Adversarial Training for Robust and Interpretable Models

Chao Chen, Yanhui Chen, Shanshan Lin, Dongsheng Hong, Shu Wu, Xiangwen Liao, Chuanyi Liu

深度神经网络在许多任务中取得了卓越性能，但常表现为不透明的黑盒。解释引导学习(EGL)方法利用人类提供的解释或模型归因监督来指导DNNs。本文提出解释引导对抗训练方法，解决了预测和显著性图在面对微小扰动或未见模式时可能发生剧烈变化的问题，同时提高了模型的可解释性和鲁棒性。

Adversarial Training Explainability Robustness

👥 作者关系图谱分析

以下展示了本周cs.AI论文中发表量最多的作者及其合作关系。节点大小表示论文数量，连线粗细表示合作频次。

🏆 高产作者榜单

Jun Wang (5篇)

研究方向涵盖强化学习、推荐系统、多智能体系统等领域。

Ding Zhao (5篇)

专注于自动驾驶、安全强化学习、机器人控制等应用场景。

Hao Zhang (5篇)

研究聚焦于自动驾驶决策系统与强化学习应用。

H. Eric Tseng (5篇)

主要研究自动驾驶系统的安全性与决策优化。

📈 研究趋势洞察

🤖 智能体评估走向实战化

LiveAgentBench等基准测试的出现标志着智能体研究从实验室走向真实应用场景，104个真实世界挑战反映了业界对实用化智能体的迫切需求。

🧠 持续学习范式转变

Modular Memory研究提出从权重内学习到权重外学习的范式转变，外部记忆模块成为实现真正自适应智能的关键路径。

🦾 多任务学习效率突破

"Scaling Tasks, Not Samples"理念揭示了MBRL在多任务学习中的结构优势，为人形机器人通用控制提供了新思路。

⚡ 训练效率优化深入底层

SageBwd等工作将低比特优化从推理扩展到训练阶段，INT8注意力训练为大模型训练成本降低开辟新路径。

🛡️ 安全与可解释性融合

解释引导对抗训练等方法将可解释性与鲁棒性统一，推动AI系统在敏感领域的可信部署。

🏥 医疗AI基础设施完善

OpenRad等开放模型库的建设降低了医疗AI研究门槛，促进临床转化的标准化和可复现性。

🌏 Bluo Blog

关于本站

文章列表

数据统计

ARXIV CS AI 20260308