DeepSeek 用黑科技完成了fp8训练,取得了举世瞩目的效果
结果今天,微软突然公布了自己在fp4上的训练成果
要知道,fp4比fp8还要节省一半
其实DeepSeek的DualPipe 本来就是和微软的ZeRO框架合作的
有这样的成果,并不意外
不过美中不足的是,
这个技术仅在13B大小的模型上获得成功,还是不如DeepSeek的670B
美国,依然是那个永远成功的,科技大国!
ALL IN NVDA, ALL IN MSFT
Not Financial Advice
严肃讨论请参考日报,或者入群
点击图片查看原图