AI产品狙击手

专注于大语言模型LLM,文生图模型Stable Diffusion, 视频生成模型等免费AI工具的分享和应用,助你掌握最前沿的AI技术

0%

DeepSeek是怎么做到的?

首先,我们看数据,V3训练用了2788K的GPU Hours,相当于一块GPU用了近300多年,而他们用了2000块GUP,所以用了越2个月时间就训练出来了。对比下LLama 3.1 405B, 它们用了近3100万个GPU Hours来训练,deepseek的11倍还多,同时还要考虑deepseek用的GPU肯定是没有人家老美的性能好的,这也就是为什么V3的训练花费比海外这些同等级别模型低几个数量级的原因,从而打破老美的算力霸权,也打破了顶尖大模型只能掌握在OpenAI和谷歌这些屯了大量卡的大公司的垄断…