首先,我们看数据,V3训练用了2788K的GPU Hours,相当于一块GPU用了近300多年,而他们用了2000块GUP,所以用了越2个月时间就训练出来了。对比下LLama 3.1 405B, 它们用了近3100万个GPU Hours来训练,deepseek的11倍还多,同时还要考虑deepseek用的GPU肯定是没有人家老美的性能好的,这也就是为什么V3的训练花费比海外这些同等级别模型低几个数量级的原因,从而打破老美的算力霸权,也打破了顶尖大模型只能掌握在OpenAI和谷歌这些屯了大量卡的大公司的垄断…