tiny-mixtral175MMoE项目,从头实现一个简单的MoE模型gi

又仁看科技 2025-05-05 15:59:16

tiny-mixtral 175M MoE项目,从头实现一个简单的MoE模型

github.com/kabir2505/tiny-mixtral

本项目是对专家混合模型 (MoE)架构的简化重实现,灵感来源于论文 "Mixtral of Experts: 高效语言建模的稀疏专家混合"。其目标是以轻量级且具有教育意义的方式,复现稀疏路由、专家选择和缓存策略等核心思想。

AI创造营

0 阅读:0
又仁看科技

又仁看科技

感谢大家的关注