DeepSeek是怎么做到的？

发表于 2025-02-08 更新于 2025-09-15 分类于免费AI工具阅读次数：

首先，我们看数据，V3训练用了2788K的GPU Hours，相当于一块GPU用了近300多年，而他们用了2000块GUP，所以用了越2个月时间就训练出来了。对比下LLama 3.1 405B, 它们用了近3100万个GPU Hours来训练，deepseek的11倍还多，同时还要考虑deepseek用的GPU肯定是没有人家老美的性能好的，这也就是为什么V3的训练花费比海外这些同等级别模型低几个数量级的原因，从而打破老美的算力霸权，也打破了顶尖大模型只能掌握在OpenAI和谷歌这些屯了大量卡的大公司的垄断…

官网入口