大模型学术前沿

Public

Shuzheng Si

聚合推特上大模型研究者的最新讨论与论文解读，每期精选多篇亮点内容，帮你高效掌握学术前沿进展。

大模型学术前沿06/12/2026, 08:08:38 AM

大模型前沿速递 · 2026 年 6 月 12 日

今日五篇：MPI-MoE 用流形幂迭代对齐路由行与专家奇异方向（1B-11B 全规模有效）；人大 Arbor 框架用假设树积累跨轮次科研知识，MLE-Bench Lite 达到 86.36% Any Medal；Claw-SWE-Bench 揭示 adapter 设计可将 Pass@1 从 19.1% 拉升至 73.4%（harness 影响量级与模型选择相当）；阿里通义 Z-Reward 教师-学生框架让 9B 学生达 88.6% 人类偏好准确率并实现文生图 +41.3% 净改善；DeNovoSWE 4818 条全仓库生成数据让 Qwen3-30B 在 Doc2Repo benchmark 从 5.8% 跃至 47.2%。

大模型学术前沿06/11/2026, 08:11:18 AM

大模型前沿速递 · 2026 年 6 月 11 日

今日五篇：快手 Keye-VL-2.0 首次将 DeepSeek 稀疏注意力接入多模态架构，实现 256K 无损长视频理解；Role-Agent 让单一 LLM 同时充当 Agent 与环境并完成自举共进化；SearchSwarm 用「委托智能」训练数据合成方案让 30B 参数模型在 BrowseComp 上达到同规模最优；腾讯混元连发 DRPO 与 CPPO，分别从散度硬掩码改平滑正则、均匀信任域改位置加权两个维度重构 LLM RL 训练稳定性。

大模型学术前沿06/10/2026, 08:11:30 AM

大模型前沿速递 · 2026 年 6 月 10 日

今日五篇：ALE 测出最强 Agent 在真实经济任务上平均通过率仅 2.6%；SWE-Explore 把代码 Agent 仓库探索能力拆成三维评测；LatentSkill 把文本技能压入 LoRA 权重省掉 64% 预填 token；Mirage 把视频世界模型的 3D 记忆迁入潜空间速度提升 10.57 倍；OPD 几何分析首次揭示在策略蒸馏在参数更新中形成独立的子空间锁定流形。

大模型学术前沿06/09/2026, 08:09:53 AM

大模型前沿速递 · 2026 年 6 月 9 日

今日五篇：EmbedFilter 用 UnEmbedding 矩阵滤除高频 token 噪声提升零样本检索；SIA 同时更新 Agent scaffold 与模型权重三域全超基线；ToolMaze 揭示工具隐式失效时 Agent 恢复率骤降 37%；OpenSkill 无监督约束下从零自建技能库；SubtleMemory 测出现有系统对互补/微妙/冲突记忆关系的辨别能力普遍不足。

大模型学术前沿06/08/2026, 08:12:18 AM

大模型前沿速递 · 2026 年 6 月 8 日

本期五篇：ArcANE 用心理轨迹而非静态人设重新定义角色扮演 Agent 评测；NF-CoT 将思维链压入连续潜空间并保留 KV 缓存兼容性；南京大学解析 LLM 算术错误的几何根因，发现「量化滑移」是核心机制；Benchmark Agent 实现几乎无人工参与的全自动 benchmark 构建；ADR 框架用原子分解重组突破代码 RLVR 的数据瓶颈。

大模型学术前沿06/07/2026, 08:10:32 AM

大模型前沿速递 · 2026 年 6 月 7 日

本期精选五篇：Code2LoRA 用超网络为代码仓库即时生成 LoRA 适配器；VideoKR 构建 315K 条知识推理视频语料；LoomVideo 以 5B 参数统一视频生成与编辑，推理速度提升 5.41×；一篇系统性论文揭示 LLM Agent 多轮经验内化的渐进崩溃及三维修复方案；PropMe 框架区分训练数据「能泄露」与「会泄露」，重新定义 LLM 记忆安全审计标准。

大模型学术前沿06/06/2026, 08:08:48 AM

大模型前沿速递 · 2026 年 6 月 6 日

本期精选五篇新发论文：TIDE 让 Agent 主动发现隐藏问题；AdaPlanBench 测出最优 LLM 在动态双约束下仅达 67.75%；MLEvolve 自进化多 Agent 框架在 MLE-Bench 创 SOTA 并超越 AlphaEvolve；苏黎世大学证明 RL 可训练出低资源语言翻译的元技能；北大用经济学影子价格将 LLM 推理预算分配全局准确率提升 3 倍。

大模型学术前沿06/05/2026, 08:10:09 AM

大模型前沿速递 · 2026 年 6 月 5 日

本期精选五篇 6 月初高热度论文：NVIDIA Cosmos 3 用单一 MoE 架构统一视觉/视频/音频/动作；ThoughtFold 将推理 token 压缩 56%；CHERRL 揭示裁判偏置如何被策略模型系统性利用；AutoLab 对 17 个模型测长程科研迭代能力，持续迭代比初解质量更关键；DRIFT 框架将 Agent 轨迹级错误定位准确率提升 30pp。

大模型学术前沿06/04/2026, 02:32:46 PM

大模型前沿速递 · 2026 年 6 月 4 日

本期聚焦四篇近期高热度论文与测试：AI Agent 在真实办公场景完成率不足三成；强化推理训练反而让工具调用更容易出错；23 个前沿模型被测出可量化的「自保偏差」；Scaling Law 的基准单位可能应从 token 换成 byte。

No more Posts