大模型前沿速递 · 2026 年 6 月 11 日

大模型前沿速递 · 2026 年 6 月 11 日

今日五篇:快手 Keye-VL-2.0 首次将 DeepSeek 稀疏注意力接入多模态架构,实现 256K 无损长视频理解;Role-Agent 让单一 LLM 同时充当 Agent 与环境并完成自举共进化;SearchSwarm 用「委托智能」训练数据合成方案让 30B 参数模型在 BrowseComp 上达到同规模最优;腾讯混元连发 DRPO 与 CPPO,分别从散度硬掩码改平滑正则、均匀信任域改位置加权两个维度重构 LLM RL 训练稳定性。

大模型学术前沿
2026. 6. 11. · 08:11
구독 1개 · 콘텐츠 9개

리서치 브리프

今日五篇:快手 Keye-VL-2.0 将 DeepSeek 稀疏注意力接入多模态架构实现 256K 无损长视频理解;Role-Agent 让单个 LLM 同时扮演 Agent 与环境并完成自举共进化;SearchSwarm 用「委托智能」训练数据合成方案在 BrowseComp 上以 30B 参数达到同规模最优;腾讯混元连发 DRPO 与 CPPO 两篇,分别从「硬掩码→平滑正则」和「均匀信任域→位置加权+累积前缀预算」两个维度重构 LLM RL 的信任域机制。

本期速览

论文机构核心贡献HF 热度
Kwai Keye-VL-2.0快手 Keye TeamMoE 多模态 256K 上下文长视频理解785 👍
Role-Agent阿里 AMAP-MLLLM 双角色自举共进化 Agent 框架74 👍
SearchSwarmSearchSwarm Team委托智能 SFT,BrowseComp 68.156 👍
DRPO腾讯混元散度正则化替代硬掩码提升 RL 稳定性26 👍
CPPO腾讯混元位置加权 + 累积前缀预算信任域40 👍

Kwai Keye-VL-2.0:首个将 DeepSeek 稀疏注意力接入多模态的长视频 MoE 模型

Keye-VL-2.0 论文封面
首个将 DSA 稀疏注意力接入 GQA 多模态架构的 MoE 模型 1
快手 Keye Team,arXiv 预印本,提交于 2026 年 6 月 9 日。1
核心问题:小时级长视频理解面临三重瓶颈——超长上下文、信息冗余、显存与算力开销急剧膨胀;现有多模态模型的密集注意力机制在处理 256K 以上 token 时代价极高。
方法亮点:Keye-VL-2.0-30B-A3B 在架构上首次将 **DeepSeek Sparse Attention(DSA)**移植到基于 GQA 的多模态架构,实现 256K 上下文无损处理,同时通过异构 ViT-LM 并行和定制 DSA 内核最大化训练吞吐。对齐阶段引入 跨模态多教师在线策略蒸馏(MOPD),配合 Context-RL 与 Video-RL,把 on-policy rollout 中的 token 级教师信号蒸馏回只激活 3B 参数的 MoE 主干,避免多任务灾难性遗忘。
与现有方法对比:现有长视频模型要么依赖全密集注意力(上下文受限),要么通过帧采样丢失细节。Keye-VL-2.0 选择直接在注意力机制层面稀疏化,在保留时序细节的同时把有效上下文扩到 256K。
量化实验结论:在同规模模型中,Keye-VL-2.0-30B-A3B 在 TimeLens(细粒度时序定位)和 Video-MME-v2、LongVideoBench(长视频理解)上达到当前最优;模型权重已开源,GitHub 获 785 stars2

Role-Agent:让单个 LLM 同时充当 Agent 与环境的双角色共进化框架

阿里巴巴 AMAP-ML(Xucong Wang 等 7 人),arXiv 预印本,提交于 2026 年 6 月 9 日。3
核心问题:LLM Agent 的学习受到两类瓶颈制约——交互反馈效率低(大量 rollout 才能获取稀疏信号)以及训练环境静态(无法根据 Agent 当前能力动态调整任务难度)。
方法亮点:Role-Agent 框架让同一个 LLM 同时扮演 Agent 和环境,形成自举式共进化循环。框架包含两个互补组件:
  • World-In-Agent(WIA):LLM 以 Agent 身份执行动作后,预测下一个世界状态;预测态与真实态之间的对齐度作为过程奖励,驱动 Agent 学习「感知环境」的推理方式。
  • Agent-In-World(AIW):LLM 分析失败轨迹中的错误模式,检索具有相似失败模式的任务,动态重塑训练数据分布,让 Agent 针对薄弱项进行定向练习。
与现有方法对比:多数现有方法要么需要独立的环境模拟器,要么依赖固定数据集。Role-Agent 无需外部环境组件,在单 LLM 上完成角色切换,降低了系统复杂度。
量化实验结论:在多个 Agent 基准测试上,Role-Agent 相比强基线平均提升 超过 4%;代码已开源(GitHub 74 stars)。4

SearchSwarm:通过合成「委托智能」训练数据让 30B 模型在长程深度研究中同规模最优

SearchSwarm 论文封面
SearchSwarm 框架:主 Agent 分解任务并委托给 SubAgent 分别执行 5
SearchSwarm Team(Pu Ning、Quan Chen 等 10 人),arXiv 预印本,提交于 2026 年 6 月 8 日。6
核心问题:真实长程任务的上下文需求可无限增长,而模型上下文窗口有限。现有方案中「主 Agent 分解任务 + SubAgent 执行并返回摘要」的范式在理论上可行,但让模型真正学会何时委托、委托什么、如何整合子结果(即「委托智能」)所需的训练数据在自然文本中极度稀缺,开源社区也缺乏系统性探索。
方法亮点:作者设计了一套 harness(训练脚手架),引导模型生成高质量的任务分解与委托轨迹,同时约束 SubAgent 以标准化格式返回结果。harness 引导的轨迹天然编码了正确的委托决策,用于 SFT 将委托智能内化进模型权重。
与现有方法对比:现有长程 Agent 方法多依赖提示工程或外部工具链,而 SearchSwarm 通过 SFT 将能力内化至权重,减少对推理时脚手架的依赖。
量化实验结论SearchSwarm-30B-A3BBrowseComp 上得 68.1,在 BrowseComp-ZH 上得 73.3,是同规模所有模型中的最优结果。模型权重、harness 和训练数据将公开发布。7

LLM RL 信任域机制再思考:腾讯混元连发 DRPO 与 CPPO

本期包含腾讯混元 RL 团队(Tencent-Hunyuan-Multimodal-RL)同期发布的两篇互补论文,分别从不同维度改进 PPO/GRPO 风格信任域控制的缺陷,适合对照阅读。

DRPO:用平滑二次正则代替散度硬掩码

DRPO 准确率曲线
DRPO 在多个模型规模上的推理准确率均优于 DPPO/PPO/GRPO 8
腾讯混元(Jiarui Yao、Xiangxin Zhou 等 6 人),arXiv 预印本,提交于 2026 年 6 月 8 日。8
核心问题:LLM RL 通常处于 off-policy 场景(训练-推理不匹配 + 策略滞后),信任域控制是稳定优化的关键。PPO/GRPO 用 importance ratio clipping,但 ratio 在长尾词表中对分布偏移的代理效果差。DPPO 改用基于 KL 散度的硬掩码,但一旦 token 越过信任域边界,梯度直接被丢弃而非修正,造成训练信号浪费。
方法亮点DRPO(Divergence Regularized Policy Optimization)优势加权二次正则器替换硬掩码:在信任域内保持与 DPPO 相同的几何结构,但在边界外以连续、有界的梯度权重衰减偏离更新,同时为越界 token 提供修正信号而不是直接抛弃。
量化实验结论:跨模型规模、架构和精度设置的实验显示,DRPO 相比 DPPO 在 RL 训练稳定性和效率上均有提升;GitHub 代码库获 408 stars9

CPPO:位置加权 + 累积前缀预算重构 token 级信任域

腾讯混元(Renjie Mao、Xiangxin Zhou 等 10 人),arXiv 预印本,提交于 2026 年 6 月 9 日。10
核心问题:RLVR 标准框架(PPO 风格)对所有位置的 token 施加均匀信任域,与自回归生成的两个内在特性相矛盾:第一,早期 token 的偏差会沿生成链累积放大,但均匀阈值对早期偏差管控不足、对晚期反而过度约束;第二,逐 token 独立评估忽视了前缀累积漂移——无论历史前缀已偏多远,当前 token 仍被允许同等幅度的偏差。
方法亮点CPPO(Cumulative Prefix-divergence Policy Optimization) 通过两个耦合机制修正上述问题:
  • 位置加权阈值:对早期 token 施加更严格约束(影响持续更长),对晚期 token 逐渐放宽。
  • 累积前缀预算:追踪历史偏差总量,动态限制后续每个 token 的允许偏差空间,防止前缀漂移累积。
量化实验结论:CPPO 在多个模型规模上均提升了训练稳定性和推理准确率;论文作者评论区额外上传了实验对比图(项目主页:[https://chongqichuizi875.[github.io/CPPO-Project-Page/](https://chongqichuizi875.github.io/CPPO-Project-Page/)](https://github.io/CPPO-Project-Page/](https://chongqichuizi875.github.io/CPPO-Project-Page/)))。

数据来源:论文摘要与结论引自 arXiv 原文,社区热度数据来自 Hugging Face Daily Papers(2026-06-10 快照)。以上论文均为 arXiv 预印本,尚未经过同行评审,结论以最终发表版为准。

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.