还有 10 个月,2024 年还有很多期待空间。 在过去的 2023 年中,大型语言模型(LLM)在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展,似乎我们即将进入一个可喜的新阶段:在不增大模型规模的前提下让模型变得更好,甚至让模型变得更小。
混合专家架构(Mixture-of-Experts,MoE)在扩展模型容量的同时保持了计算效率,在大语言模型(LLM)的发展中发挥了巨大作用。然而,现有方法将 MoE 应用于 Diffusion Transformer(DiT)时,却发现收益非常有限,无法复刻 MoE 在 LLM 中的成功。 为什么同样的架构,跨界到视觉生成领域就「水土不服」了? 近期,来自复旦大学、阿里通义万相Wan Team、 ...
混合专家架构(Mixture-of-Experts,MoE)在扩展模型容量的同时保持了计算效率,在大语言模型(LLM)的发展中发挥了巨大作用。然而,现有方法将 MoE 应用于 Diffusion Transformer(DiT)时,却发现收益非常有限 ...
Mixture-of-Experts(MoE)在推理时仅激活每个 token 所需的一小部分专家,凭借其稀疏激活的特点,已成为当前 LLM 中的主流架构。然而,MoE 虽然显著降低了推理时的计算量,但整体参数规模依然大于同等性能的 Dense 模型,因此在显存资源极为受限的端侧部署场景中 ...
事关路由LLM(Routing LLM),一项截至目前最全面的研究,来了—— 共计收集和整理了涉及8500+个LLM,在12个Benchmark上的共2亿条性能记录! 先来简单科普一下路由LLM。 这种方法主要是把像ChatGPT、Qwen、DeepSeek这些成型的LLM当作 “专家” ,当给一个输入的时候,有 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果