site stats
有人说DeepSeek R1 的 RL 范式也没啥创新,其实点不在这里。o1出来后纷纷开始复刻,OpenAI 也不说怎么实现的,也不展示COT数据。所以说蒸馏o1纯属扯淡,OpenAI 防的死死的。RL 论文上百篇方法几十种,最后 DeepSeek 肯定不是第一家试出来的(比如Google 的 gemini flash 2.0 thinking
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多