site stats
别人犯错是因为没读paper,这位是能把paper读错 这是说蒸馏的目标小模型是qwen和llama,意思是把R1蒸馏到他们上面去,而不是从他们身上蒸馏下来 DeepSeek V3 用到的改进过的MoE,DeepSeek独创的MLA,n=1的MTP,这些llama都没有啊。当然他们都是transformer架构了。
sign_in_with_google sign_in_with_google

2803 位用户此时在线

24小时点击排行 Top 10:
  1. 本站自动实时分享网络热点
  2. 24小时实时更新
  3. 所有言论不代表本站态度
  4. 欢迎对信息踊跃评论评分
  5. 评分越高,信息越新,排列越靠前