site stats
我之前说OpenAI>Deepseek,所以追赶OpenAI的临门一脚到底差在哪里?先说结论,我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback),也就是人类反馈Deepseek-R1这次的训练,仅利用了rule-based outcome
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多