昨天晚上十一点半,我躺在床上问AI一个关于量子纠缠的问题。那个圆圈转了大概三秒钟,我的耐心已经开始瓦解。三秒钟,在人类历史上可能连一个喷嚏都打不完,但在等待AI回复的时候,它漫长得像一个世纪。后来我想,这大概就是为什么谷歌要发布Gemini 3 Flash——因为在这个时代,快,本身就是一种正义。

一、当智能不再是奢侈品
2025年12月17日,谷歌发布了Gemini 3 Flash。
如果你对AI行业稍有关注,你大概知道这意味着什么。如果你完全不关注,那我换一种说法:这就像是法拉利突然宣布,他们造出了一款跑得和超跑一样快、但只卖五菱宏光价格的车。
"Gemini 3 Flash offers frontier intelligence built for speed at a fraction of the cost."
谷歌官方是这么说的。翻译成人话就是:顶级智能,闪电速度,白菜价格。
上个月,谷歌刚刚发布了Gemini 3 Pro和Gemini 3 Deep Think模式。据说发布当天,他们的API每天处理的token数量就突破了1万亿。1万亿是什么概念?我算了一下,大概相当于全球每个人每天问AI三个问题。当然,实际情况是,可能有那么几百万个程序员,每天对着API疯狂输出,试图让AI帮他们写完本来应该自己写的代码。
这不是讽刺,这是现实。
Gemini 3系列的出现,让AI从一个"偶尔用用的工具"变成了"时刻在线的助手"。而Gemini 3 Flash的使命,是让这个助手变得更快、更便宜、更聪明。
有人可能会问:更快有什么用?反正AI又不会跑掉。
这个问题问得好。让我告诉你更快有什么用。
当你用AI写代码的时候,每一次等待都是思维的中断。当你用AI分析数据的时候,每一秒延迟都是效率的损耗。当你用AI规划行程的时候,每一个转圈圈都是耐心的消磨。
速度不是锦上添花,速度是刚需。
而Gemini 3 Flash做到了什么呢?根据Artificial Analysis的基准测试,它比上一代的2.5 Pro快了3倍,同时性能还更好。这就好比你买了一辆新车,发现它不仅比旧车跑得快,油耗还更低,内饰还更豪华。
这在汽车行业几乎是不可能的。但在AI行业,这种事情每隔几个月就会发生一次。
让我们来看一组数据。我知道很多人一看到数据就想翻页,但请相信我,这组数据值得你花三十秒钟看完。
| 模型 | GPQA Diamond | Humanity’s Last Exam | MMMU Pro | SWE-bench |
|---|---|---|---|---|
| Gemini 3 Flash | 90.4% | 33.7% | 81.2% | 78% |
| Gemini 3 Pro | 更高 | 更高 | 81.x% | 略低 |
| Gemini 2.5 Pro | 显著更低 | 显著更低 | 更低 | 更低 |
| Claude Sonnet 4.5 | 对比中 | 对比中 | 对比中 | 对比中 |
| GPT-5.2 Extra | 对比中 | 对比中 | 对比中 | 对比中 |
GPQA Diamond是一个博士级别的推理和知识测试。90.4%的得分意味着什么?意味着这个AI在回答博士级别问题的时候,正确率超过九成。我认识很多博士,他们自己做这个测试可能都拿不到这个分数 😅
Humanity’s Last Exam——"人类最后的考试",光这个名字就够让人后背发凉的。33.7%听起来不高,但这是在不使用任何工具的情况下取得的成绩。要知道,这个测试的设计初衷就是要难到让AI"投降"。
MMMU Pro是一个多模态理解测试,81.2%的得分与Gemini 3 Pro持平。这意味着Flash版本在"看图说话"这件事上,和它的大哥一样厉害。
最让开发者兴奋的可能是SWE-bench的成绩。78%的分数不仅超过了2.5系列的所有模型,甚至超过了Gemini 3 Pro。
等等,一个"精简版"的模型,在某些测试上居然比"完整版"还强?
这听起来不科学,但事实就是如此。谷歌的工程师们显然在优化上做了一些不可思议的工作。就像有些人减肥之后,不仅身材变好了,连跑步成绩都提高了。
说到价格,这可能是Gemini 3 Flash最具杀伤力的武器。
- 输入:$0.50 / 百万tokens
- 输出:$3.00 / 百万tokens
- 音频输入:$1.00 / 百万tokens
这个价格意味着什么?
让我给你算一笔账。假设你是一个中小型创业公司的CTO,你的产品每天需要调用AI API处理100万次请求,每次请求平均消耗1000个tokens。
在旧的定价体系下,你可能每个月要花费数万美元。而现在,同样的调用量,你的成本可能降到了原来的三分之一,甚至更低。
省下来的钱可以干什么?可以多招一个工程师,可以多买几台服务器,可以给团队发个年终奖。
这就是为什么我说Gemini 3 Flash不是一个简单的"新模型发布",而是一次游戏规则的改变。
当最顶级的AI智能变得足够便宜,那些原本因为成本问题而犹豫的应用场景,突然就变得可行了。那些原本只有大公司才玩得起的AI功能,现在小团队也可以尝试了。
谷歌在官方博客中说:"Gemini 3 Flash demonstrates that speed and scale don’t have to come at the cost of intelligence."
速度和规模不必以牺牲智能为代价。这句话听起来像是一句广告语,但它背后的含义是深远的。
在过去,AI行业有一个不成文的规律:你想要更聪明的AI,你就得接受更慢的速度和更高的价格。这就像一个跷跷板,你按下这头,那头就翘起来。
但Gemini 3 Flash打破了这个规律。它证明了,通过足够优秀的工程和优化,你可以同时拥有聪明、快速和便宜。
这不是魔法,这是技术进步。
二、开发者的新玩具
如果你是一名开发者,接下来的内容可能会让你有点兴奋。
Gemini 3 Flash在agentic coding(代理式编程)方面的表现尤其突出。什么是agentic coding?简单来说,就是让AI不只是帮你写几行代码,而是让它像一个真正的程序员助手一样,理解你的项目,帮你解决问题,甚至帮你调试和测试。
在SWE-bench Verified测试中,Gemini 3 Flash拿到了78%的分数。这个测试是专门用来评估AI编程助手能力的,涵盖了从理解代码到修复bug的完整流程。
78%意味着什么?意味着在大约五分之四的情况下,这个AI可以正确地理解你的代码问题,并给出有效的解决方案。
当然,剩下的五分之一它可能会搞砸。所以你不能完全把活儿都扔给它,然后去喝咖啡。但作为一个助手,这个表现已经相当可观了。
谷歌还发布了一个叫做Google Antigravity的新平台。这个名字起得很有意思——"反重力"。
从官方演示来看,Gemini 3 Flash在Antigravity平台上可以快速更新生产级别的应用程序。
我看了一下演示视频,大概是这样的场景:
- 开发者描述一个需求
- AI理解需求并开始编码
- 几分钟后,一个可以运行的功能就出来了
- 开发者测试、反馈、迭代
- 循环往复
整个过程行云流水,没有那种"等AI半天才回一句话"的尴尬。这就是低延迟的价值——它让人机协作变得像对话一样自然。
谷歌还展示了几个具体的应用场景:
- 手势追踪游戏:Gemini 3 Flash可以在近乎实时的情况下,为一个"抛球解谜游戏"提供AI辅助,理解玩家的手势并给出反馈
- A/B测试设计:AI可以快速生成多个设计变体,并进行实时的A/B测试,把"设计到代码"的流程压缩到极致
- 图像分析和标注:上传一张图片,AI在几秒钟内完成分析、生成标注、叠加UI元素
- 单指令多变体:给AI一个指令,它能同时输出三个不同风格的设计方案
这些功能单独看都不新鲜,但把它们放在一起,在"近乎实时"的速度下完成,这就是Gemini 3 Flash的真正威力。
让我们听听真正在用这个模型的公司怎么说 👇
JetBrains(就是那个做IntelliJ IDEA的公司):
"Gemini 3 Flash的推理速度和效率让我们的IDE AI功能有了质的飞跃。"
Figma(设计师们应该都认识):
"我们正在用它来变革我们的业务,它的性能可以媲美更大的模型。"
Cursor(程序员的新宠编辑器):
"对于需要快速迭代的编程工作流,它是理想的选择。"
Replit(在线编程平台):
"这个模型在代理式编程方面的表现让我们印象深刻。"
当然,这些评价来自官方博客,多少带点"广告"的成分。但从技术指标来看,这些评价并不夸张。
一个有意思的现象是,Bridgewater Associates也在使用Gemini 3 Flash。如果你不知道这是什么公司——这是全球最大的对冲基金之一,由Ray Dalio创立。当一个管理着上千亿美元资产的基金开始用AI来辅助决策,你就知道这个技术已经不是"玩具"了。
三、普通人的日常革命
说了这么多开发者的事情,普通用户能从Gemini 3 Flash中得到什么呢?
答案是:很多。
从现在开始,Gemini 3 Flash已经成为Gemini App的默认模型,取代了之前的2.5 Flash。这意味着全球所有Gemini用户都可以免费使用Gemini 3级别的AI能力。
免费。
我再说一遍:免费 🆓
在这个什么都要充会员的年代,谷歌说"我们最新的AI模型,你可以免费用",这多少有点反常。但细想一下也合理——对于谷歌来说,让更多人用上他们的AI,本身就是一种战略投资。用户越多,数据越多,模型就能训练得越好,生态就能建得越强。
这是一个良性循环。
让我们看看普通用户可以用Gemini 3 Flash做什么。
场景一:视频分析
你录了一段自己打高尔夫的视频,上传给Gemini,问它"我的挥杆动作有什么问题?"
几秒钟后,AI会给你一份详细的分析报告,告诉你:
- 你的握杆姿势需要调整
- 你的转体幅度不够
- 你的收杆动作太急
这不是那种模糊的"你需要多练习",而是具体的、可操作的建议。
场景二:实时素描识别
你在平板上画一个东西,还没画完,AI就已经猜出来你在画什么了。
这听起来像是一个小游戏,但背后是AI对视觉信息的实时理解能力。想象一下,如果这个技术应用到教育场景——学生在黑板上画图,AI实时给出反馈——教学效率会提高多少?
场景三:音频学习助手
你上传一段录音(比如一堂课的录音),Gemini会:
- 识别你的知识盲点
- 根据这些盲点生成一套定制化的测验题
- 给你详细的答案解释
这不是简单的"语音转文字",这是真正的理解和教学。
场景四:语音变App
这个是我觉得最有趣的功能。
你对着手机说:"我想做一个App,可以记录我每天吃了什么,然后统计卡路里,最好还能给我推荐一些健康食谱。"
几分钟后,一个可以运行的App原型就出来了。
几分钟。
不需要写一行代码,不需要懂什么编程语言,只需要用语言描述你的想法。
当然,这个"原型"可能还需要进一步完善才能真正上线使用。但关键是,从想法到原型的距离被极大地缩短了。以前你可能需要找一个程序员朋友帮忙,或者自己学几个月编程。现在你只需要动动嘴。
这对于那些有创意但不懂技术的人来说,是一个巨大的福音。
AI Mode in Search
除了Gemini App,Gemini 3 Flash还在谷歌搜索的AI模式中开始部署。
这意味着什么呢?
意味着当你在谷歌搜索一个复杂问题的时候,AI不只是给你一堆链接让你自己去翻,而是真正理解你的问题,然后综合多个来源,给你一个有组织的答案。
比如你搜索"我下周要去东京,三天时间,预算5000块,喜欢吃拉面和逛博物馆,帮我规划一下行程"。
在传统搜索中,你可能需要:
- 先搜东京景点
- 再搜东京拉面店推荐
- 再搜东京三日游路线
- 再搜各个景点的门票价格
- 自己把这些信息整合成一个行程
而现在,AI可以直接给你一个完整的方案,包括:
- 每天的行程安排
- 推荐的拉面店(附带地址和人均消费)
- 博物馆的开放时间和门票信息
- 预估的总花费
- 实用的交通建议
这不是未来,这是现在正在发生的事情。
四、这场竞赛才刚刚开始
让我们把视角拉远一点。
2025年是AI领域竞争最激烈的一年。谷歌有Gemini,OpenAI有GPT系列,Anthropic有Claude,还有Meta的Llama,以及一众追赶者。
每家公司都在疯狂地迭代自己的模型,每隔几个月就会有一个"颠覆性"的新版本发布。这种竞争强度在科技史上是罕见的。
有人说这是"AI的军备竞赛"。我觉得这个比喻不太准确,因为军备竞赛的结果通常是谁都不敢用。而AI竞赛的结果是每个人都在用。
Gemini 3 Flash的发布,是谷歌在这场竞赛中的最新一步棋。
这步棋的高明之处在于:它不是单纯地追求"最强",而是追求最佳平衡。
最强的模型当然好,但如果它太慢、太贵,那么大多数人和大多数应用场景就用不上。谷歌选择了一条不同的路——让顶级智能变得足够快、足够便宜,让所有人都能用上。
这让我想起了一个经济学概念:帕累托最优。
在谷歌的官方博客中,他们用了一张图表来说明Gemini 3 Flash的定位。图表的横轴是"价格"(每百万token的成本),纵轴是"LMArena Elo分数"(一个衡量模型综合能力的指标)。
在这张图上,有一条曲线叫做"帕累托前沿",代表的是"在给定价格下能达到的最高性能"或者"在给定性能下能达到的最低价格"。
Gemini 3 Flash位于这条曲线上,和它的大哥Gemini 3 Pro、以及精简版的Gemini 3 Flash Lite一起,共同定义了这条前沿。
这意味着:如果你想要比Gemini 3 Flash更好的性能,你必须付出更高的价格;如果你想要比它更低的价格,你必须接受更低的性能。
它就在那个"甜蜜点"上。
当然,竞争对手不会坐以待毙。
在谷歌发布Gemini 3 Flash的同时,其他公司也在紧锣密鼓地准备自己的新模型。Claude的下一代,GPT的新版本,都可能在不久的将来发布。
这对用户来说是好事。竞争越激烈,技术进步越快,价格越便宜,最终受益的是我们每一个人。
我有时候会想,如果我在2020年穿越到现在,看到这些AI能做的事情,我会有什么感受。
2020年的我可能会觉得这是科幻小说里的情节。但对于2025年的我们来说,这已经是日常生活的一部分了。
每天早上起来,问AI今天的天气和日程安排。
工作的时候,让AI帮忙写代码、改文档、做数据分析。
晚上下班,让AI推荐一部电影或者规划一次周末出游。
有问题想不明白,直接问AI,它比搜索引擎好用一百倍。
这些事情,在几年前还是"前沿技术",现在已经是"基础设施"了。
Gemini 3 Flash的发布,让我想到了一句老话:
"最好的技术是让人感觉不到技术存在的技术。"
当AI快到你感觉不到延迟的时候,当AI便宜到你不用考虑成本的时候,当AI聪明到你可以完全信任它的判断的时候——那个时候,AI就真正融入我们的生活了。
Gemini 3 Flash离这个目标又近了一步。
它可能还不完美。它可能在某些场景下还是会犯傻。它可能还需要几轮迭代才能真正成熟。
但方向是对的。
技术的进步从来不是一蹴而就的,它是一小步一小步积累起来的。Gemini 3 Flash是其中的一步,一步不大,但足够重要。
凌晨一点,我又问了AI一个问题。这次换成了Gemini 3 Flash。
回答几乎是瞬间出现的。
我关掉手机,准备睡觉。窗外的城市依然灯火通明,无数台服务器在数据中心里轰鸣运转,处理着来自全球的请求。
在这个时代,机器不需要睡觉。
但我需要。
晚安 🌙





