我第一次意识到它在“装作思考”
我第一次认真怀疑大语言模型的“思考能力”,是在一个很普通的深夜。那天我盯着屏幕,看它把一道我算错两次的数学题,一步一步写得清清楚楚,最后得出一个正确答案。我突然意识到一个问题:它到底是真的会想,还是只是写得像在想?这个念头像一根鱼刺卡在喉咙里,吐不出来,也咽不下去,于是我开始顺着它写下去的每一个字,倒着看它究竟是怎么“想对”的。

第一章:大语言模型,其实从来不“思考”
如果你把大语言模型想象成一个坐在桌前、托着下巴沉思的家伙,那你已经替它加了很多不存在的戏份。
大语言模型干的事情,说穿了只有一句话:
在当前上下文里,下一个 token 出现的概率最大是多少?
它不是先有一个答案,再慢慢把理由补出来;而是在写理由的同时,顺便把答案写出来。
什么是 token?
简单讲:
- 一个字
- 一个词
- 一个符号
- 甚至一个空格
都有可能是 token。
模型生成文本的过程,并不是一句一句,而是一个 token 接一个 token,像踩着石头过河。
你看到的“思考过程”,比如:
首先……
然后……
因此……
并不是它脑子里的实时直播,而是它在学会人类如何写推理过程之后,照着样子写出来的文本。
那它脑子里发生了什么?
如果非要说“内部过程”,那是:
- 高维向量
- 注意力权重
- 非线性变换
这些东西:
- ❌ 不是语言
- ❌ 不能逐句翻译
- ❌ 不占 token
它们存在,但你永远看不见。
你能看见的,只有它愿意写给你看的那部分。
第二章:为什么不写推理,反而更容易错
在没有 Chain of Thought(CoT)的情况下,大模型更像一个急着交卷的学生。
题目一出现,它就开始想:
“在这种问题后面,最常见的正确答案是什么?”
于是它会尝试一步跳到终点。
这种跳跃有什么问题?
问题在于:
- 路太远
- 空间太大
- 一旦偏了,没有回头路
你可以把它想象成:
-
不用 CoT:
- 🎯 一次射箭,射偏就算了
-
用 CoT:
- 🧭 一段一段走,走歪了还能修正
错误为什么“看起来很合理”?
因为模型并不是在验证逻辑,而是在匹配概率。
一个错误答案,只要:
- 语气对
- 格式对
- 出现频率高
它就可能在概率上赢过正确答案。
这也是为什么你有时会看到:
说得头头是道,但结论完全不对 🤦♂️
第三章:Chain of Thought 做的三件关键小事
CoT 并没有给模型装一个“大脑插件”,它只是悄悄改了规则。
1. 把隐式推理,摊平成显式 token
原本:
- 推理压缩在向量里
- 没有语言约束
现在:
- 每一步都要写出来
- 每一步都要“说得通”
语言本身,成了约束条件。
一旦模型写下:
3 + 5 = 8
下一步如果写:
所以答案是 10
在概率上,这就变得非常别扭。
2. 把一个难问题,拆成多个简单问题
不用 CoT:
- 问题 → 答案
用 CoT:
- 问题 → 中间状态 → 中间状态 → 答案
这不是哲学,而是数学。
多个局部最优,远比一个全局最优容易命中。
3. 给模型一个“自我纠错”的机会
CoT 本身并不会检查对错,但它制造了一种环境:
- 前文是证据
- 后文是推论
一旦不一致,概率就会崩。
这是一种很弱、但很稳定的自监督机制。
第四章:为什么 CoT 本质上是在“选分布”
这件事说出来可能有点扫兴。
CoT 的效果,很大一部分不是推理能力提升,而是文本分布切换。
训练数据里发生过什么?
在模型见过的世界里:
- 数学题
- 逻辑题
- 算法题
大多长这样:
题目
详细推导
最终答案
当你说:
“一步一步推理”
模型就明白了:
“哦,这是一道不能乱来的题。”
于是它会自动切换到:
- 用词更谨慎
- 步骤更完整
- 跳跃更少的模式
这不是更聪明,这是更守规矩。
一个简单对比
| 场景 | 模型策略 | 风险 |
|---|---|---|
| 直接回答 | 猜整体最优 | 容易跳错 |
| Chain of Thought | 分步生成 | 容错更高 |
第五章:为什么简单问题反而不适合 CoT
有些人一发现 CoT 有用,就开始对所有问题使用。
结果是:
- 简单问题被复杂化
- 正确率不升反降
- token 像水一样流走 💸
原因很现实
-
简单问题:
- 正确答案本来就概率极高
-
强行 CoT:
- 增加中间噪声
- 引入额外出错点
这就像:
问你今天星期几,你非要从宇宙大爆炸开始讲时间的起源。
没人受得了。
尾声:它写得越像人,你越容易相信它
Chain of Thought 并不是让模型学会了“思考”,而是让它学会了如何把正确路径写得更像人类的推理过程。
我们之所以觉得它变准了,很大程度上是因为:
语言,是一种极强的约束工具。
当模型被迫用语言一步一步走,它就没那么容易抄近路。
而人类,恰好最擅长被这种“像思考一样的文字”说服。
这可能不是智能的真相,但一定是它目前最好用的样子。🙂







