OpenAI 創辦團队成員、Tesla 前 AI 總監 Andrej Karpathy 在 X 上发表「AI 能力认知差距」长文、回应一个社群现象:对 AI 的驚嘆程度两極分化—一群人覺得 AI 已经改寫世界、另一群人覺得 AI 只会幻覺、无聊、被吹过头。Karpathy 提出两个診斷、解釋为什麼这两群人是「平行世界」、彼此誤解了对方的判斷依據。本文整理他的論述、与对台灣科技读者的啟示。
診斷一:你用的是哪一年、哪一層的 AI?
Karpathy 的第一个觀察直接、犀利:「很多人去年試了 ChatGPT 的免费版、就让那次體验主導他們对 AI 的看法。」这群人的反应通常是嘲笑模型的奇怪反应、幻覺、笨拙、转发 OpenAI 进階语音模式被「我該开车去洗车还是走路」这種簡單问題搞砸的影片。
但 Karpathy 指出:这些「免费版、舊版、棄用版」的模型、根本不能反映 2026 年最先进 agentic 模型(特別是 OpenAI Codex 与 Claude Code)的能力。簡單说:你拿 2024 年的免费 ChatGPT 来判斷 AI 能不能寫程式、就像拿 2008 年的 Nokia E71 来判斷智慧型手机能不能用。
对許多台灣读者而言这也是现实—訂 ChatGPT Plus($20)尚算普遍、但訂 ChatGPT Pro($200)、Claude Max($100)的人非常少數。沒在最先进付费 tier 上跑过 agent task 的人、看 AI 大多是「玩具好玩但不可靠」;跑过的人、看 AI 是「完整改寫工作流程」。同一个技術、两个世界。
診斷二:能力进步在不同领域是「不对稱」的
Karpathy 的第二个診斷更有意思:「就算你付 $200/月用最先进模型、能力的进步也是『尖峰式』、集中在高度技術领域。」
他指出:搜尋、寫作、建议这類「典型查詢」、不是过去这年 AI 进步最劇烈的领域。原因有两層:
強化学習(RL)依賴可验证的獎勵函數—寫程式有「單元測試通过了嗎」这種明確訊號、寫作沒有对应的客觀判準、所以 RL 訓練的进步速度差距很大
OpenAI、Anthropic 等公司的最大商业价值在 B2B 程式碼/研究/工程场景、所以资源、人力、優先序都集中在这些领域、其他用例不是最大利潤来源
这个觀察很关鍵—它解釋了「为什麼 AI 寫程式能力突飞猛进、但 AI 寫文章还是常常很普通」这个多人困惑的现象。不是 AI 公司不会做、而是他們的金礦在別處、注意力跟著去了。
誰最受「AI 认知衝擊」?两个條件齐備的人
把两个診斷結合、Karpathy 描述「最会被 AI 认知衝擊」的群體—同时滿足两个條件的人:
付费使用最先进的 agentic 模型(OpenAI Codex、Claude Code)
在高度技術领域(程式设计、數学、研究)專业使用
这群人最受所謂「AI Psychosis」影響—Karpathy 用语、形容当你親眼看到 LLM 把原本要花幾天到幾週的程式问題在幾小时內解決、那種对 AI 能力与斜率(slope)的判斷、会让你对未来幾年的科技格局有截然不同的看法。
对另一群人(沒付费、沒在技術领域用)、这種说法聽起来像「过度興奮」、像「矽谷小圈圈的群體迷思」。但 Karpathy 认为这不是迷思、而是親身體验的真实判斷。
两群人「对著彼此的世界发言」
Karpathy 的核心結論:「这两群人在彼此说話、不在跟对方说話。」他描述同时可能成立的两件事:
OpenAI 免费(且我认为被半放棄的)「进階语音模式」、在 Instagram Reels 上会搞砸最笨的问題
同一时间、OpenAI 最高 tier 付费的 Codex 模型、会花 1 小时连貫地重構整个 codebase、或找出並利用电腦系统的漏洞
两件事都是真的、不衝突。但两群人各自只看到一边、然后互相覺得对方「过度興奮」或「太无知」。Karpathy 寫这篇文的目的、就是想橋接这个落差。
給台灣读者的啟示:你站在哪一群?
Karpathy 的論述对台灣读者特別有意義、因为台灣科技論述场上同樣有两極分化:一边是「AI 已经接管」、一边是「不过是 chatbot 而已」。判斷自己屬於哪群、可以看 3 个自我问題:
你最近一次親自下 prompt 給最先进付费模型(GPT-5.5 Pro、Claude Opus 4.7)是多久前?
你有沒有让 agent 跑超过 30 分鐘、实际完成一个生产級任務(重構程式、寫研究綜述、debug 複雜系统)?
你判斷 AI 能力的依據、来自媒體报導、社群迷因、还是親身使用?
三个问題都答「有、近期、親身使用」的人、会落在 Karpathy 描述的第二群、会比较理解他「AI Psychosis」的说法。三个问題都答「沒、很久前、媒體上看的」的人、会落在第一群、可能对 AI 进步的速度大幅低估。
这不是说哪一群「对」、而是不同群體的判斷依據根本性差異。当你看到下一篇「AI 是泡沫」或「AI 將取代所有工作」的文章、先確认作者落在哪一群、再決定怎麼读。
Karpathy 的「OpenClaw 时刻」補充
Karpathy 在后续貼文補充:「有人最近告訴我、OpenClaw 时刻之所以这麼大、是因为这是非技術背景的大群人、第一次親身體验最先进的 agentic 模型。」这个觀察说明:认知差距不只是「程度」差距、也是「親身體验 vs 道聽塗说」的差距。
对 abmedia 读者而言、最实用的解法是:拿出 $20、訂一个月 ChatGPT Plus 或 Claude Pro、找一个你自己关心的真实任務(寫一篇研究报告、整理一份财務分析、debug 一个程式專案)、用 agent 完整跑一次、再回来判斷 AI 对你的工作意義。比读 100 篇 AI 报導都有用。
这篇文章 为什麼有人覺得 AI 改變世界、有人覺得普通?Karpathy 的两个診斷 最早出现於 链新聞 ABMedia。
相关文章