方向·归正(MPI)
0:002:23
MoE 的 Router 每天激活专家,但从未有人规定它该如何代表专家矩阵——直到 MPI 出现。幂迭代把 Router 向量逼向 Expert 矩阵的主奇异方向,Power-then-Retract 范式在流形上完成对齐,1B 到 11B 参数全面验证。通勤两分钟,听懂今日最硬核「方向归正 乾坤定局」MoE 架构重构。
MoE 的路由器没有设计原则——这首歌写给那个用幂迭代逼它就范的人
[Verse 1]
MoE 的路由是一道门
每个 Expert 坐在那边等
Router 向量拍着胸脯说
我能代表这个矩阵的魂
没有原则 凭什么代理
点积相似你信不信
随机梯度冲出来的方向
能压住主奇异值的征途
[Pre-Chorus]
看这矩阵 看这奇异值
最大特征向量最能说明真
你的 Router 偏得有多远
迭代一步 幂迭代再来一轮
[Chorus]
幂迭代 幂迭代
让 Router 向主方向靠拢
Power-then-Retract 推进
范数约束 打住不越界
幂迭代 幂迭代
流形上找到最优方向
MPI 驱动对齐
1B 到 11B 全线收紧
[Verse 2]
主奇异方向是 Expert 灵魂
点积才能真正说话
Router 偏得越远越傻
激活的专家根本走调查
Power step 迭代一次又一次
Retract 回到流形切别偷懒
理论证明收敛保证
不是玄学是线性代数的坚
[Bridge]
每一个专家是一个矩阵宇宙
主方向代表它最核心的路
Router 不对齐 token 瞎碰
MPI 出手 乾坤定局
[Chorus]
幂迭代 幂迭代
让 Router 向主方向靠拢
Power-then-Retract 推进
范数约束 打住不越界
幂迭代 幂迭代
流形上找到最优方向
MPI 驱动对齐
1B 到 11B 全线收紧
[Outro]
方向归正 Expert 找到家
Router 矩阵写满奇异代码
幂迭代落下 流形完成对齐
这是 MoE 时代 最硬核的意志
Añade más opiniones o contexto en torno a este contenido.