在 o1 pro 发布后,研究机构 SemiAnalysis 算是首次揭露了 OpenAI o1 系列的架构,还包含大量的推测和非公开渠道信息,值得一读。
我好奇的其实就是这几个问题: o1 系列和其他大语言模型有什么本质区别? o1 和 o1 pro 之间的差异点在哪? Tokenomics 是如何考量的?
1️⃣ o1 系列基于「Chain of Thought」,把推理分解成多个离散步骤,并且能在步骤出错或卡住时进行回溯。这类似于人类解题时「写草稿、检查、然后发现错了再重新推演」的过程。
o1 pro 进一步采用了「多数投票」或「自洽性」做推理,能够多次生成潜在解答,然后在这些解答里进行投票或聚合,得到更可靠的答案。这在一定程度上缓解了模型「一步错、步步错」的单一链式推理风险。
通过功能验证器来实时检查中间推理步骤是否正确,例如运行代码来检验编程题是否通过、在数学题中做数值运算验证等。这大幅减少了模型在复杂领域(编程、数学)的错误率。
o1 的训练不仅仅依赖传统的海量文本,还通过「蒙特卡洛树」「并发多回合(rollouts)」等方式生成了数百万亿 token 的合成数据----被称为「草莓训练」。
由于需要大量「正向推理 + 功能验证 + 筛选」的循环,o1 在后训练阶段用掉的算力甚至超过预训练过程。这也正说明它为在推理场景下的「实战能力」付出了巨大代价。这种「推理训练」方式被称作 AI 发展的全新「Scaling Law」,不仅要在预训练规模上加大,还要在后训练阶段挖掘更强的推理深度。
2️⃣ o1 和 o1 pro 的关键差异
核心模型权重其实相同:它们用的核心模型、底层参数是一样的,但推理阶段使用了不同的解码策略。
o1:单一 CoT
- 只沿着一条思维链(Chain of Thought)前进。
- 没有做多条路径的搜索或投票机制,一次性 pass@1。
- 易受「中途出错」影响,有时会陷入错误的思路里。
o1 pro:采用自洽性 / 多数投票
- 在推理时会生成多条候选思维链(例如 5 条),然后选出在大多数结果里都最常出现的答案。
- 对用户而言,更稳定、更准确,但也会带来额外的推理计算消耗。
可以理解为:o1 pro = o1 + 自洽性(Self-Consistency)/ 多数投票机制,在某些复杂场景或高可靠性要求下,o1 pro 的表现通常好于单一链的 o1。
3️⃣ 为什么 o1 / o1 pro 的 token 单价(Tokenomics)比其他模型高很多?
o1 和 o1 pro 经常需要在内部(不一定输出给用户)生成大量的「思维过程」token 做推理。些例子里甚至能生成几千甚至上万的中间推理 token,这些 token 在内部计算上也要付费或记入成本。
KV 缓存(KVCache)和长上下文带来的巨大内存与计算开销。对于长上下文,每多生成一个新 token,都要与之前的所有 token 进行注意力计算,FLOPs 成本呈二次方增长。同时 KV 缓存也会线性增长,批大小(batch size)因此无法做大,摊薄成本的空间有限。
另外,自洽性 / 多数投票(o1 pro)会多跑几遍解码,例如 5 投票流,就要生成 5 倍的 token。不过在共享前缀后,整体开销没有 5 倍那么夸张,但依然显著增加了推理成本。
4️⃣ 其他观点
AI 新的「Scaling Law」:过去常把「Scaling Law」都聚焦在预训练,然而现在大家发现在后训练阶段做大量推理训练,同样可以进一步提升模型的能力。这种思路打破了传统「训完再微调就行」的观念,而是把「模型推理」也纳入了训练环节----消耗超大算力,但能带来非常强的推理能力。
合成数据生成将成为「基础设施」:无论是 OpenAI 还是 Anthropic,都在使用「超大杯隐藏模型」(Claude 3.5 Opus、Orion 等)来生成内部的合成数据,以此给下一代模型做训练或奖励建模。这或许是未来行业的一种趋势:大模型本身成为「自己进化」的工具,用更强大隐形版本当「数据制造机」,加速迭代。
中文版内容参考自:
https://t.co/HSd2imM8gR
英文原文:
https://t.co/EAmHPe2iNT