使用下面的搜索规则,更精确:
例如: site:news.163.com author:老司机 saved:搜索自己收藏的内容
site:news.163.com author:老司机 saved:搜索自己收藏的内容
默认搜索标题...
别人犯错是因为没读paper,这位是能把paper读错 这是说蒸馏的目标小模型是qwen和llama,意思是把R1蒸馏到他们上面去,而不是从他们身上蒸馏下来 DeepSeek V3 用到的改进过的MoE,DeepSeek独创的MLA,n=1的MTP,这些llama都没有啊。当然他们都是transformer架构了。 王志安旗下博士宇宙的水平,令人震惊
点击图片查看原图
只需要几秒!
创建帐户
已拥有账号并想要登录?
登陆 忘记密码?