A cup of coffee
A heart set free

为什么 Chain of Thought 能提升大语言模型准确率

我第一次意识到它在“装作思考”

我第一次认真怀疑大语言模型的“思考能力”,是在一个很普通的深夜。那天我盯着屏幕,看它把一道我算错两次的数学题,一步一步写得清清楚楚,最后得出一个正确答案。我突然意识到一个问题:它到底是真的会想,还是只是写得像在想?这个念头像一根鱼刺卡在喉咙里,吐不出来,也咽不下去,于是我开始顺着它写下去的每一个字,倒着看它究竟是怎么“想对”的。

file


第一章:大语言模型,其实从来不“思考”

如果你把大语言模型想象成一个坐在桌前、托着下巴沉思的家伙,那你已经替它加了很多不存在的戏份。

大语言模型干的事情,说穿了只有一句话:

在当前上下文里,下一个 token 出现的概率最大是多少?

它不是先有一个答案,再慢慢把理由补出来;而是在写理由的同时,顺便把答案写出来

什么是 token?

简单讲:

  • 一个字
  • 一个词
  • 一个符号
  • 甚至一个空格

都有可能是 token。

模型生成文本的过程,并不是一句一句,而是一个 token 接一个 token,像踩着石头过河。

你看到的“思考过程”,比如:

首先……
然后……
因此……

并不是它脑子里的实时直播,而是它在学会人类如何写推理过程之后,照着样子写出来的文本

那它脑子里发生了什么?

如果非要说“内部过程”,那是:

  • 高维向量
  • 注意力权重
  • 非线性变换

这些东西:

  • ❌ 不是语言
  • ❌ 不能逐句翻译
  • ❌ 不占 token

它们存在,但你永远看不见。

你能看见的,只有它愿意写给你看的那部分


第二章:为什么不写推理,反而更容易错

在没有 Chain of Thought(CoT)的情况下,大模型更像一个急着交卷的学生。

题目一出现,它就开始想:

“在这种问题后面,最常见的正确答案是什么?”

于是它会尝试一步跳到终点

这种跳跃有什么问题?

问题在于:

  • 路太远
  • 空间太大
  • 一旦偏了,没有回头路

你可以把它想象成:

  • 不用 CoT:

    • 🎯 一次射箭,射偏就算了
  • 用 CoT:

    • 🧭 一段一段走,走歪了还能修正

错误为什么“看起来很合理”?

因为模型并不是在验证逻辑,而是在匹配概率。

一个错误答案,只要:

  • 语气对
  • 格式对
  • 出现频率高

它就可能在概率上赢过正确答案。

这也是为什么你有时会看到:

说得头头是道,但结论完全不对 🤦‍♂️


第三章:Chain of Thought 做的三件关键小事

CoT 并没有给模型装一个“大脑插件”,它只是悄悄改了规则。

1. 把隐式推理,摊平成显式 token

原本:

  • 推理压缩在向量里
  • 没有语言约束

现在:

  • 每一步都要写出来
  • 每一步都要“说得通”

语言本身,成了约束条件。

一旦模型写下:

3 + 5 = 8

下一步如果写:

所以答案是 10

在概率上,这就变得非常别扭。

2. 把一个难问题,拆成多个简单问题

不用 CoT:

  • 问题 → 答案

用 CoT:

  • 问题 → 中间状态 → 中间状态 → 答案

这不是哲学,而是数学。

多个局部最优,远比一个全局最优容易命中。

3. 给模型一个“自我纠错”的机会

CoT 本身并不会检查对错,但它制造了一种环境:

  • 前文是证据
  • 后文是推论

一旦不一致,概率就会崩。

这是一种很弱、但很稳定的自监督机制。


第四章:为什么 CoT 本质上是在“选分布”

这件事说出来可能有点扫兴。

CoT 的效果,很大一部分不是推理能力提升,而是文本分布切换。

训练数据里发生过什么?

在模型见过的世界里:

  • 数学题
  • 逻辑题
  • 算法题

大多长这样:

题目
详细推导
最终答案

当你说:

“一步一步推理”

模型就明白了:

“哦,这是一道不能乱来的题。”

于是它会自动切换到:

  • 用词更谨慎
  • 步骤更完整
  • 跳跃更少的模式

这不是更聪明,这是更守规矩

一个简单对比

场景 模型策略 风险
直接回答 猜整体最优 容易跳错
Chain of Thought 分步生成 容错更高

第五章:为什么简单问题反而不适合 CoT

有些人一发现 CoT 有用,就开始对所有问题使用。

结果是:

  • 简单问题被复杂化
  • 正确率不升反降
  • token 像水一样流走 💸

原因很现实

  • 简单问题:

    • 正确答案本来就概率极高
  • 强行 CoT:

    • 增加中间噪声
    • 引入额外出错点

这就像:

问你今天星期几,你非要从宇宙大爆炸开始讲时间的起源。

没人受得了。


尾声:它写得越像人,你越容易相信它

Chain of Thought 并不是让模型学会了“思考”,而是让它学会了如何把正确路径写得更像人类的推理过程

我们之所以觉得它变准了,很大程度上是因为:

语言,是一种极强的约束工具。

当模型被迫用语言一步一步走,它就没那么容易抄近路。

而人类,恰好最擅长被这种“像思考一样的文字”说服。

这可能不是智能的真相,但一定是它目前最好用的样子。🙂

赞(0) 打赏
未经允许不得转载:大神网 - 币圈投资与科技生活博客 » 为什么 Chain of Thought 能提升大语言模型准确率

评论 抢沙发

登录

找回密码

注册