【 AI 小分享 — 深度求索】
深度求索公司由量化私募巨头幻方量化于2023年7月17日创立,专注于人工智能基础技术研究与开发。
公司由知名量化私募巨头幻方量化创立,幻方量化的实际控制人梁文锋也是深度求索的关键人物。
幻方量化拥有1万枚英伟达A100芯片等强大的硬件资源,为深度求索的研发提供了坚实基础.
核心研发团队成员毕业于北京大学、清华大学、卡内基梅隆大学、康奈尔大学、斯坦福大学等海内外顶级名校,90%以上为博士,并曾工作于微软亚研院、Google、Meta等一流研究机构或知名科技企业,具备业内领先的科研实力和相关项目经验.
以下是其模型的更新换代过程:
▪️DeepSeek-V2
2024年5月发布,拥有2360亿参数,每个token有210亿个活跃参数 。
性能上可比肩GPT-4 Turbo,但价格仅为GPT-4的百分之一,引发行业关注并促使大厂跟进打起价格战,使公司获 AI界拼多多 之称。
该模型采用创新的MLA架构,将显存占用率减少至以前结构的5%-13%,并通过DeepSeekMoESparse结构进一步降低计算量,实现了成本优化.
▪️DeepSeek-R1-Lite预览版
2024年11月20日上线,此模型使用强化学习训练,推理过程包含大量反思和验证。在数学、代码以及各种复杂逻辑推理任务上取得了媲美O1的推理效果,且展现了O1未公开的完整思考过程,词语量长度可达数万字,在美国数学竞赛中难度等级最高的AIME以及全球顶级编程竞赛等评测中,超越了GPT-4o等模型.
DeepSeek-V3
2024年12月26日发布并开源,具有6710亿参数,每次推理激活370亿参数。多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,在性能上与世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲,尤其在百科知识、长文本、代码、数学、中文能力上表现突出。
其生成吐字速度从20TPS大幅提高至60TPS,相比V2.5模型实现了3倍的提升,训练成本仅约557万美元,远低于行业内其他大语言模型.
DeepSeek-V3是杭州深度求索人工智能基础技术研究有限公司于2024年12月26日发布的混合专家(MoE)语言模型。
▪️技术优势
• 架构先进:采用多 头潜在注意力和负载均衡技术,运用辅助无损失负载平衡策略及多令牌预测目标,提升性能与推理速度.
• 预训练高效:在14.8万亿高质量token上预训练,采用fp8混合精度训练框架,克服通信瓶颈,实现高效计算与通信重叠,仅用266.4万h800 gpu小时成最强开源基础模型.
• 性能卓越:在知识类任务、算法类代码场景、工程类代码场景、中文能力、数学能力等方面表现出色,在多项基准测试中超越meta的llama 3.1、openai的gpt-4o等模型,在数学竞赛中成绩优异,生成速度达每秒60token,3倍于v2.5模型.
▪️成本优势
训练成本仅557.6万美元,远低于gpt-4等模型,其完整训练消耗278.8万个gpu小时,而llama-3.1预训练成本超5亿美元,DeepSeek-V3仅用280万gpu小时,计算需求减少11倍,展现极高资源运用效率.
▪️开源与价格优势
完全开源,开发者可下载、修改和集成到各类应用。API服务定价为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元,并设有45天优惠体验期,2024年12月27日至2025年2月8日,价格更优惠为每百万输入tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens 2元.
▪️存在问题
DeepSeek-V3出现自称ChatGPT的情况,引发对其训练数据来源及 AI污染 问题的质疑,即模型训练过程中可能因使用包含GPT-4生成文本的公共数据集等低质量或重复数据,导致知识库受影响,产生错误输出或自我识别混淆等问题。