为什么 Chain of Thought 能提升大语言模型准确率-大神网

我第一次意识到它在“装作思考”

我第一次认真怀疑大语言模型的“思考能力”，是在一个很普通的深夜。那天我盯着屏幕，看它把一道我算错两次的数学题，一步一步写得清清楚楚，最后得出一个正确答案。我突然意识到一个问题：它到底是真的会想，还是只是写得像在想？这个念头像一根鱼刺卡在喉咙里，吐不出来，也咽不下去，于是我开始顺着它写下去的每一个字，倒着看它究竟是怎么“想对”的。

file

第一章：大语言模型，其实从来不“思考”

如果你把大语言模型想象成一个坐在桌前、托着下巴沉思的家伙，那你已经替它加了很多不存在的戏份。

大语言模型干的事情，说穿了只有一句话：

在当前上下文里，下一个 token 出现的概率最大是多少？

它不是先有一个答案，再慢慢把理由补出来；而是在写理由的同时，顺便把答案写出来。

什么是 token？

简单讲：

一个字
一个词
一个符号
甚至一个空格

都有可能是 token。

模型生成文本的过程，并不是一句一句，而是一个 token 接一个 token，像踩着石头过河。

你看到的“思考过程”，比如：

首先……
然后……
因此……

并不是它脑子里的实时直播，而是它在学会人类如何写推理过程之后，照着样子写出来的文本。

那它脑子里发生了什么？

如果非要说“内部过程”，那是：

高维向量
注意力权重
非线性变换

这些东西：

❌ 不是语言
❌ 不能逐句翻译
❌ 不占 token

它们存在，但你永远看不见。

你能看见的，只有它愿意写给你看的那部分。

第二章：为什么不写推理，反而更容易错

在没有 Chain of Thought（CoT）的情况下，大模型更像一个急着交卷的学生。

题目一出现，它就开始想：

“在这种问题后面，最常见的正确答案是什么？”

于是它会尝试一步跳到终点。

这种跳跃有什么问题？

问题在于：

路太远
空间太大
一旦偏了，没有回头路

你可以把它想象成：

不用 CoT：
- 🎯 一次射箭，射偏就算了
用 CoT：
- 🧭 一段一段走，走歪了还能修正

错误为什么“看起来很合理”？

因为模型并不是在验证逻辑，而是在匹配概率。

一个错误答案，只要：

语气对
格式对
出现频率高

它就可能在概率上赢过正确答案。

这也是为什么你有时会看到：

说得头头是道，但结论完全不对 🤦‍♂️

第三章：Chain of Thought 做的三件关键小事

CoT 并没有给模型装一个“大脑插件”，它只是悄悄改了规则。

1. 把隐式推理，摊平成显式 token

原本：

推理压缩在向量里
没有语言约束

现在：

每一步都要写出来
每一步都要“说得通”

语言本身，成了约束条件。

一旦模型写下：

3 + 5 = 8

下一步如果写：

所以答案是 10

在概率上，这就变得非常别扭。

2. 把一个难问题，拆成多个简单问题

不用 CoT：

问题 → 答案

用 CoT：

问题 → 中间状态 → 中间状态 → 答案

这不是哲学，而是数学。

多个局部最优，远比一个全局最优容易命中。

3. 给模型一个“自我纠错”的机会

CoT 本身并不会检查对错，但它制造了一种环境：

前文是证据
后文是推论

一旦不一致，概率就会崩。

这是一种很弱、但很稳定的自监督机制。

第四章：为什么 CoT 本质上是在“选分布”

这件事说出来可能有点扫兴。

CoT 的效果，很大一部分不是推理能力提升，而是文本分布切换。

训练数据里发生过什么？

在模型见过的世界里：

数学题
逻辑题
算法题

大多长这样：

题目
详细推导
最终答案

当你说：

“一步一步推理”

模型就明白了：

“哦，这是一道不能乱来的题。”

于是它会自动切换到：

用词更谨慎
步骤更完整
跳跃更少的模式

这不是更聪明，这是更守规矩。

一个简单对比

场景	模型策略	风险
直接回答	猜整体最优	容易跳错
Chain of Thought	分步生成	容错更高

第五章：为什么简单问题反而不适合 CoT

有些人一发现 CoT 有用，就开始对所有问题使用。

结果是：

简单问题被复杂化
正确率不升反降
token 像水一样流走 💸

原因很现实

简单问题：
- 正确答案本来就概率极高
强行 CoT：
- 增加中间噪声
- 引入额外出错点

这就像：

问你今天星期几，你非要从宇宙大爆炸开始讲时间的起源。

没人受得了。

尾声：它写得越像人，你越容易相信它

Chain of Thought 并不是让模型学会了“思考”，而是让它学会了如何把正确路径写得更像人类的推理过程。

我们之所以觉得它变准了，很大程度上是因为：

语言，是一种极强的约束工具。

当模型被迫用语言一步一步走，它就没那么容易抄近路。

而人类，恰好最擅长被这种“像思考一样的文字”说服。

这可能不是智能的真相，但一定是它目前最好用的样子。🙂

为什么 Chain of Thought 能提升大语言模型准确率