tiny-mixtral175MMoE项目,从头实现一个简单的MoE模型gi

蚁工厂 2025-05-05 15:59:16

tiny-mixtral 175M MoE项目,从头实现一个简单的MoE模型

github.com/kabir2505/tiny-mixtral

本项目是对专家混合模型 (MoE)架构的简化重实现,灵感来源于论文 "Mixtral of Experts: 高效语言建模的稀疏专家混合"。其目标是以轻量级且具有教育意义的方式,复现稀疏路由、专家选择和缓存策略等核心思想。

AI创造营

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注