site stats
R1 Zero 的秘密 OpenAI 一定知道但是不说,DeepSeek 捅破后已经有好几个复刻项目了。这个项目仅用Math8k 数据集复刻R1,同样发现 test-time rl scaling law. 效果好于之前论文。确实就是一层窗户纸,反过来看很简单,很第一性,很合理。但是能去这么做的,很少。
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多