site stats
和 合作基于deepseek-r1-distill-qwen-7b微调了一个支持CoT的翻译模型,应该再调整参数训练几次之后就能给他大家用上。目标是在7B以下的参数规模,使用更短的思考时间,就能获得671B的效果。
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多