Mixture of Experts LLM

模型融合、混合专家、更小的LLM，几篇论文看懂2024年LLM发展方向

还有 10 个月，2024 年还有很多期待空间。在过去的 2023 年中，大型语言模型（LLM）在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展，似乎我们即将进入一个可喜的新阶段：在不增大模型规模的前提下让模型变得更好，甚至让模型变得更小。

13 天

复旦&通义万相提出ProMoE，显式路由引导打破DiT MoE scaling瓶颈

混合专家架构（Mixture-of-Experts，MoE）在扩展模型容量的同时保持了计算效率，在大语言模型（LLM）的发展中发挥了巨大作用。然而，现有方法将 MoE 应用于 Diffusion Transformer（DiT）时，却发现收益非常有限，无法复刻 MoE 在 LLM 中的成功。为什么同样的架构，跨界到视觉生成领域就「水土不服」了？近期，来自复旦大学、阿里通义万相Wan Team、 ...

13 天

ICLR 2026 | 复旦&通义万相提出ProMoE，显式路由引导打破DiT MoE scaling瓶颈！

混合专家架构（Mixture-of-Experts，MoE）在扩展模型容量的同时保持了计算效率，在大语言模型（LLM）的发展中发挥了巨大作用。然而，现有方法将 MoE 应用于 Diffusion Transformer（DiT）时，却发现收益非常有限 ...

腾讯网

ICML 2025 Spotlight｜华为诺亚提出端侧大模型新架构MoLE，内存搬运代价 ...

Mixture-of-Experts（MoE）在推理时仅激活每个 token 所需的一小部分专家，凭借其稀疏激活的特点，已成为当前 LLM 中的主流架构。然而，MoE 虽然显著降低了推理时的计算量，但整体参数规模依然大于同等性能的 Dense 模型，因此在显存资源极为受限的端侧部署场景中 ...

来自MSN

真·MoE？路由LLM最全面探索：一种笔记本也能玩的大模型Scaling Up研究

事关路由LLM（Routing LLM），一项截至目前最全面的研究，来了—— 共计收集和整理了涉及8500+个LLM，在12个Benchmark上的共2亿条性能记录！先来简单科普一下路由LLM。这种方法主要是把像ChatGPT、Qwen、DeepSeek这些成型的LLM当作 “专家” ，当给一个输入的时候，有 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果